UNIVERSITE MONTPELLIER II

Dimension: px
Commencer à balayer dès la page:

Download "UNIVERSITE MONTPELLIER II"

Transcription

1 UNIVERSITE MONTPELLIER II École Doctorale : Systèmes Intégrés en Biologie, Agronomie, Géosciences, Hydrosciences et Environnement Discipline : Biologie et Écologie des Populations MODÉLISATIONS DE LA DISPERSION DU POLLEN ET ESTIMATION À PARTIR DE MARQUEURS GÉNÉTIQUES Florence Carpentier Thèse dirigée par : Etienne K. Klein et Joël Chadœuf Jury : Olivier François Professeur, INP Grenoble Rapporteur Olivier Hardy Chargé de Recherche, Université Libre de Bruxelles Rapporteur

2 ii

3 TABLE DES MATIÈRES TABLE DES MATIÈRES LISTE DES ANNEXES i iii CHAPITRE 1 : INTRODUCTION Dispersion du pollen et structuration de la diversité génétique Les flux de gènes Pourquoi différencier la dispersion du pollen parmi les flux de gènes? Rôle de la dispersion du pollen dans les forces évolutives Etude du régime de reproduction mixte Etude du régime de reproduction des végétaux d un point de vue évolutif Les deux types de méthodes pour estimer le régime de reproduction Historique de l estimation de la dispersion du pollen Sans la génétique : approche probabiliste par estimation à partir de données d abondance Utilisation de marqueurs génétiques Les méthodes directes issues de la décomposition de la fécondité mâle Les méthodes indirectes reposant sur les probabilités de copaternité dans les nuages polliniques des mères Les objectifs de cette thèse CHAPITRE 2 : FORWARD/BACKWARD Les méthodes actuelles Un objectif commun aux deux approches Des données différentes Des méthodes d estimation différentes Deux modèles de dispersion du pollen Deux modèles de fertilités Premières conclusions Comparaison des deux modèles Formalisation théorique des fonctions de dispersion Dans un cadre "idéal", les fonctions de dispersion backward et forward sont équivalentes

4 CHAPITRE 0. TABLE DES MATIÈRES Comparaison des fonctions backward et forward sous d autres processus ponctuels Analyse statistique des méthodes indirectes Expression des probabilités de copaternité : simplification et conséquences Choix des statistiques-résumées Conclusion CHAPITRE 3 : ESTIMER LA DISPERSION DU POLLEN AVEC L ABC Description de l ABC Généalogie de l ABC Principe de l Approximate Bayesian Computation Application de la méthode Interprétation de la tolérance acceptée Lutter contre le fléau de la dimension Choix arbitraires dans l ABC Présentation du CBABC La posterior par contrastes Une perspective d application d une CB posterior : la méthode du Contrast Based Approximate Bayesian Computation (CBABC) L ABC pour l estimation de la dispersion du pollen Pourquoi utiliser l ABC pour estimer la dispersion du pollen? TwoGener en Forward par l ABC Intégrer différents types d information et de nouveaux modèles Améliorer l estimation de la dispersion du pollen par ABC Conclusions sur l estimation de la fonction de dispersion forward par l ABC CHAPITRE 4 : CONCLUSIONS BIBLIOGRAPHIE ii

5 LISTE DES ANNEXES Annexe I : Spatial-temporal variability of mating pattern vii Annexe II : Estimating the variance of male fecundity lv Annexe III : Backward function simulations lxxix Annexe IV : Considering selfing explicitly in TwoGener xci Annexe V : Inference with a contrast-based posterior distribution..... cxxxv. Annexe VI : Estimating forward pollen dispersal with ABC cxlix Annexe VII : Combining TwoGener and KinDist in an ABC approach.... cxcvii.

6 CHAPITRE 0. LISTE DES ANNEXES iv

7 CHAPITRE 1 INTRODUCTION 1.1 Dispersion du pollen et structuration de la diversité génétique Les flux de gènes Estimer les flux de gènes est indispensable en biologie évolutive et en biologie de la conservation. En effet ils jouent un rôle majeur dans le devenir des populations, en déterminant en partie l évolution de leur diversité génétique (i.e. la variabilité des gènes entre les individus). La diversité génétique détermine à la fois la consanguinité des individus (Spielman et al., 2004) mais aussi la capacité de la population à s adapter à de nouveaux environnements (Ellstrand et Elam, 1993). Plus précisément, les flux de gènes déterminent la connectivité génétique entre les populations (Sork et al., 2002). Lorsqu ils sont limités, cela crée un isolement génétique (i.e. les populations sont génétiquement isolées les unes des autres) et conduit à la diminution de l effectif efficace de la population, Ne 1 (Wright, 1943). Or, les populations de faibles effectifs efficaces sont particulièrement vulnérables aux risques d extinction. En effet, ce faible effectif augmente la probabilité de croisements entre individus génétiquement apparentés. Ces populations peuvent donc présenter une plus forte consanguinité pouvant s exprimer par de la dépression de consanguinité (Beardmore, 1983). De plus, elles sont soumises à une plus forte dérive génétique, ce qui facilite d une part la fixation d allèles délétères (Franklin et Frankham, 1998), d autre part la diminution de leur variance génétique (Wright, 1931). Elles peuvent ainsi perdre leur capacité à répondre à la pression sélective d un environment hétérogène dans l espace et le temps et finalement s éteindre (Franklin et Frankham (1998), Reed et Frankham (2003)). De plus, ces effets génétiques s ajoutent aux effets démographiques dans des boucles de rétroactions positives qui conduisent au déclin des populations (qui sont décrites dans les modèles de vortex d extinction Soulé et Gilpin (1986)). Dans un contexte de changement global, de réchauffement climatique et de fragmentation des milieux, les flux de gènes chez des populations de plus en plus soumises à des pressions anthropiques semblent nécessaires pour (i) reconnec- 1 La taille efficace d une population est le nombre d individus d une population "idéale" dont l intensité de la dérive génétique (i.e. l effet de la stochasticité de la reproduction entre individus) serait identique à celle de la population observée. La population idéale fait référence à un modèle de population comme par exemple le modèle de Wright-Fisher qui comporte les mêmes hypothèses que celui de Hardy-Weinberg décrites en à l exception de la 6 ième, la taille de la population qui est constante et non plus infinie, le nombre de descendants par individu suivant une loi de Poisson d intensité 1.

8 CHAPITRE 1. INTRODUCTION ter les populations de plus en plus spatialement isolées (Sork et Smouse, 2006), (ii) favoriser la diffusion des gènes avantageux à travers l aire de répartition des espèces (Rieseberg et Burke, 2001) et (iii) diminuer les croisements consanguins et donc la dépression de consanguinité qui s exprime plus fortement en condition stressante (Restoux et al. (2008)). Cependant si l absence totale de flux de gènes peut être fatale à une population, leur existence n est pas toujours favorable. En effet des flux de gènes extérieurs trop importants peuvent empêcher ou nuire à l adaptation locale en milieu hétérogène (Franklin et Frankham, 1998). Dans ce cas, par analogie avec la dépression de consanguinité (inbreeding depression), les populations peuvent exprimer de la dépression d allofécondation (outbreeding depression). Les flux de gènes peuvent aussi conduire à l immigration de gènes indésirables (provenant d OGM, conduisant à l hybridation, intervenant dans des champs réservés à la production de semences ou entre compartiment cultivés et sauvages,...) (Lavigne et al., 2002). Par exemple chez les plantes génétiquement modifiées, les flux de gènes doivent être mesurés afin d évaluer le risque de diffusion accidentelle des transgènes dans les cultures conventionnelles ou les populations sauvages (Stewart et al. (2003), Poppy et Wilkinson (2005)). Les flux de gènes entre populations ou entre individus sont donc un élément clé du devenir des populations. Les estimer est nécessaire pour pouvoir mettre en place des stratégies de conservation, des modes de gestion de la biodiversité ou des règles d isolement (Sork et al., 1999) Pourquoi différencier la dispersion du pollen parmi les flux de gènes? Chez les plantes, les adultes sont sessiles (à quelques rares exceptions près). Les flux de gènes n ont donc lieu que lors de la dispersion du pollen et des graines. Il est nécessaire de différencier les composantes pollen et graines car leurs rôles dans la dynamique de la diversité génétique des populations ne sont pas identiques. Ils diffèrent d un point de vue quantitatif car pollen et graines contribuent inégalement aux flux de gènes réalisés mais aussi d un point de vue qualitatif car ils agissent de manière asymétrique dans la construction de la diversité génétique. Les contributions relatives des graines et du pollen au flux de gènes varient très fortement selon les espèces (Ouborg et al., 1999). Le pollen est souvent considéré comme la composante majeure des flux de gènes car ses capacités de dispersion sont plus grandes que celles des graines (Ennos, 1994). La dispersion à longue distance du pollen a été de nombreuses fois confirmée par des études expérimentales (Dow et Ashley (1998), Dyer et Sork (2001), Robledo-Arnuncio et Gil (2005), Smouse et Sork (2004) et Latta (2006)). Cependant des études récentes montrent que la dispersion réalisée (i.e. aboutissant à la formation d un individu) des graines peut être égale voire supérieure à celle du pollen chez certaines espèces (Jones et al. (2005), Sezen et al. (2005), Hardesty et al. (2005), Bacles et al. (2006) et Garcia et al. (2007)). 2

9 1.1. DISPERSION DU POLLEN ET STRUCTURATION DE LA DIVERSITÉ GÉNÉTIQUE Si la dispersion des graines et celle du pollen participent toutes deux aux flux de gènes, les empreintes qu elles laissent dans la structure génétique spatiale des populations diffèrent. Dyer (2007) propose deux exemples extrêmes pour illustrer l asymétrie de ces dispersions : (i) si la dispersion du pollen est uniforme dans l espace et la dispersion des graines limitée, alors une structure génétique spatialement autocorrélée apparaîtra car les individus proches auront une probabilité plus forte de partager au moins un parent (ii) au contraire si la dispersion du pollen est limitée et la dispersion des graines uniforme, il n y aura pas de structure génétique spatiale car les plein-frères et demi-frères seront distribués indépendamment dans le paysage. L asymétrie des contributions du pollen et des graines à la structure génétique spatiale a été retrouvée lors d études expérimentales (Petit et al. (1993) et Ennos (1994)) utilisant à la fois (i) des marqueurs nucléaires, transmis par les deux parents donc retraçant les flux de gènes totaux et (ii) des marqueurs chloroplastiques ou mitochondriaux, hérités d un seul parent qui sont donc liés exclusivement à la dispersion des graines ou à la dispersion du pollen (par exemple chez les angiospermes, les chloroplastes sont le plus souvent transmis par la mère, les marqueurs chloroplastiques sont donc dans ce cas liés à la dispersion des graines). Mais les structures génétiques spatiales étudiées reflètent certes les événements de dispersion mais intègrent aussi l histoire des populations (colonisation, bottleneck,...) (Mousadik et Petit (1996), Ouborg et al. (1999), Raspé et al. (2000), Oddou-Muratorio et al. (2001)). Il faut donc être capable de caractériser à la fois la dispersion du pollen et celle des graines (i.e. connaître les processus) pour comprendre quels sont leurs rôles exacts dans la formation de la distribution spatiale des individus et de la structure génétique des populations (i.e. reconstruire le patron observé) (Oddou-Muratorio et Klein (2008)). Estimer séparément les flux de graines et de pollen est d autant plus nécessaire qu ils n agissent pas non plus de manière symétrique sur l évolution des plantes en modifiant différemment leur capacité à s adapter et la fitness moyenne de la population. Par exemple, comme le soulignent Lopez et al. (2008), la sélection de gènes migrants sera plus efficace si la migration s effectue par graines, car les individus portent soit deux allèles migrants ou deux allèles résidents, que par pollen, où les individus possèdent un allèle migrant mais aussi l allèle résident de leur mère. Ils montrent ainsi que les effets de la migration par pollen ou par graines sont variables si l environnement est hétérogène. Être capable de caractériser la dispersion du pollen au sein des flux de gènes permet (i) de pouvoir mieux interpréter les structures génétiques spatiales en les décomposant plus finement et donc de mieux comprendre l historique des populations et (ii) d obtenir des prédictions plus précises concernant les populations en terme d évolution (Alleaume-Benharira et al., 2006). Tout ceci permet la mise en place de politiques de conservation plus adaptées et donc plus efficaces (Sork et al., 1999). 3

10 CHAPITRE 1. INTRODUCTION Rôle de la dispersion du pollen dans les forces évolutives Nous proposons, d illustrer de manière plus théorique, le rôle central de la dispersion du pollen dans la diversité génétique en utilisant le modèle de panmixie parfaite. En effet sous ce modèle, les fréquences alléliques d une population sont stables. Identifier quelles hypothèses de ce modèle sont violées lorsque la dispersion du pollen est limitée dans l espace, nous permet de déterminer comment cette dispersion modifie la diversité génétique Définition(s) de la panmixie. Les causes potentielles de modification des fréquences alléliques étant multiples, un modèle idéal a très tôt été utilisé comme référence, l équivalent de l hypothèse nulle en statistiques (H0). Dans ce modèle de base, les fréquences alléliques de la population sont constantes au cours du temps. Ce modèle a été formulé de manière indépendante en 1903 par un mathématicien, G.H. Hardy et un physicien W. Weinberg. Ils ont ainsi tous deux montré que sous les hypothèses suivantes : Aucun nouveau gène n apparaît dans la population, plus précisément : 1. Absence de mutation (pas de création de nouveaux gènes au cours du temps) 2. Absence de migration (pas d arrivée de nouveaux gènes et pas de modification "externe des fréquences alléliques de la population") Tous les individus ont la même valeur sélective ou fitness pour leur survie mais aussi lors de la reproduction (i.e. ils produisent le même nombre de descendants à la génération suivante) : 3. Absence de sélection (il n existe pas d avantage sélectif pour un génotype donné) 4. Equiprobabilité des gamètes des individus (pangamie, les individus ont la même fécondité) et indépendance des croisements L évolution de la population peut être discrétisée en fonction du temps : 5. Les générations sont non chevauchantes (Absence de croisement entre générations) Les fréquences alléliques de la population au temps t sont égales aux probabilités de ces fréquences. D après la loi des grands nombres cela suppose une : 6. Population en effectif infini (suffisamment grand pour être considéré comme infini) : Absence de dérive génétique. 4

11 1.1. DISPERSION DU POLLEN ET STRUCTURATION DE LA DIVERSITÉ GÉNÉTIQUE Alors, les fréquences alléliques et génétiques de cette population "idéale" sont constantes au cours du temps. Les génotypes des individus de cette population au temps t (t = 1,..., N) sont donc indépendants et identiquement distribués. Le terme "panmictique" peut à la fois qualifier une population vérifiant ces six hypothèses et également un système de reproduction satisfaisant uniquement la condition 4. L ambiguïté de ce terme peut être levée en désignant les populations ou les événements de fécondation vérifiant l hypothèse 4 de "panmictiques" et en utilisant le terme de "panmixie parfaite" pour les populations vérifiant l ensemble des hypothèses, comme le propose Jacquard (1968). Ainsi l étude de la déviation entre une population et la population idéale, c est à dire l identification des écarts aux hypothèses de panmixie parfaite, nous permet de comprendre les causes de la variation temporelle des fréquences alléliques de cette population Rôle de la dispersion du pollen dans les hypothèses de la panmixie. Chez les végétaux, la rencontre des gamètes est déterminée par la dispersion du pollen. Ainsi une population ne sera panmictique que lorsque tous les individus (en effectif infini) ont la même probabilité de féconder n importe quel individu donné de cette population. Ceci suppose donc que chaque individu produit du pollen en quantité suffisante (et de qualité égale) et le disperse de manière constante à l infini (ou du moins jusqu aux limites de la population). L étude de la dispersion du pollen montre (comme on pouvait le supposer) que la dispersion du pollen est rarement constante dans l espace (même à l échelle de la population) (Hamrick et Nason, 1996) et que les quantités de pollen disponibles peuvent être limitées (Knight et al., 2005). Elle est donc une des premières causes du caractère non panmictique d une population. Mais la dispersion du pollen n intervient pas seulement sur l hypothèse 4 du principe d Hardy- Weinberg, elle intervient aussi sur la quasi-totalité de ses hypothèses. Tout d abord, les capacités d un individu à disperser son pollen déterminera le nombre d individus avec lesquels il peut se reproduire. Ainsi même si la taille de la population est grande (quasi infinie) mais que chaque individu disperse son pollen de manière très limitée, le nombre moyen d individus avec lesquels peut se reproduire un individu sera très faible, réduisant localement la taille "efficace" de la population (Wright, 1943). L hypothèse 6 ne sera donc pas vérifiée. De plus, la dispersion à longue distance du pollen (dépassant les frontières des populations) permet l introduction de nouveaux gènes dans la population. Pour vérifier l hypothèse 2 d absence de migration, il est donc nécessaire d étudier la dispersion, notamment à longue distance. Enfin on considère souvent la dispersion de pollen efficace i.e. celle ayant abouti à une graine (ou pouvant potentiellement aboutir à une graine). La dispersion efficace inclut donc le 5

12 CHAPITRE 1. INTRODUCTION mouvement des grains de pollen mais aussi la réussite de la fécondation. Elle intègre donc partiellement la fécondité femelle (comme la capacité pour une femelle à recevoir du pollen qui dépend par exemple de l adaptation de ses fleurs à l attraction d insectes pollinisateurs ou à la fécondation par le vent...), la fécondité mâle (quantité de pollen produite, capacité à disperser...) ainsi que les éventuelles sélections aux premiers stades de développement des individus. En effet du dépôt du grain de pollen jusqu à la formation d une graine viable, il peut exister plusieurs étapes de sélection pré- et post-zygotiques. Par exemple, si les génotypes du donneur de pollen et de producteur d ovules sont trop apparentés, la fécondation peut être bloquée (par l arrêt de la croissance du tube pollinique dans l ovule ou par l avortement de la graine). Ainsi étudier la dispersion permet donc d étudier si l hypothèse 3, l absence de sélection est vraie au moins pour les premiers stades de développement. 1.2 Une première approche dichotomique de la dispersion du pollen : l étude du régime de reproduction chez les végétaux Les premières études de la dispersion du pollen reposent sur une vision dichotomique. En effet elles ne distinguent que deux sources possibles pour la provenance du pollen fécondant une plante : (i) cette plante elle-même (la fécondation est alors appelée autofécondation) ou (ii) une autre plante (on parle alors d allofécondation). Les proportions des différentes provenances des grains de pollen fécondant les individus d une population décrivent le régime de reproduction. Le terme régime de reproduction mixte (mixed mating system) décrit les régimes permettant à la fois l autofécondation et l allofécondation. Dans cette partie, nous proposons de présenter (i) les enjeux de l observation des régimes de reproduction au travers des différents modèles proposés pour l étude des régimes de reproduction dans le cadre de la biologie de l évolution et (ii) les différentes méthodes d estimation utilisées Etude du régime de reproduction des végétaux d un point de vue évolutif La reproduction des végétaux peut être asexuée (i.e. reproduction d individus identiques au parent à l exception de quelques mutations somatiques) ou sexuée. Dans le cas présent nous nous intéresserons seulement au cas de la reproduction sexuée, qui se produit chez les plantes à la suite de la rencontre d un gamète mâle (le pollen) et d un gamète femelle (l ovule). 6

13 1.2. ETUDE DU RÉGIME DE REPRODUCTION MIXTE L autofécondation, l allofécondation et les régimes mixtes de reproduction : la dispersion du pollen est-elle réellement une nécessité? Si l on définit la dispersion de propagule par une plante comme le déplacement d une propagule vers un lieu (pour une graine) ou une fleur (pour le pollen) différent de celle de cette plante, alors l autofécondation, l union d un grain de pollen et d un ovule issus d un même individu, n est pas associée à un événement de dispersion. Contrairement aux animaux, la majorité des plantes est hermaphrodite et l autofécondation est souvent possible. L autofécondation présente deux avantages majeurs en comparaison à la dispersion de pollen. D un point de vue démographique, elle procure une assurance de reproduction lorsque la quantité de pollen issue des autres individus est faible i.e. le nombre de partenaires est faible. Cet avantage est crucial pour les plantes se situant sur le front de colonisation (loi de Baker (1955)) ou lorsque la quantité d allopollen diminue (voir la revue sur la limitation pollinique de Knight et al. (2005)). D autre part, d un point évolutif, en pratiquant l autofécondation un individu transmet deux fois ses gènes à chacun de ses descendants au lieu d une fois dans le cas de l allofécondation (Fisher, 1941). Cet avantage évolutif s exprime pleinement chez les plantes ne pratiquant que l autofécondation, par exemple chez les plantes dont les fleurs, portant à la fois des organes mâles et femelles, restent closes (fleurs cleistogames). Néanmoins l autofécondation peut aussi conduire à une dépression de consanguinité plus forte i.e. une perte de valeur sélective due aux croisements entre individus apparentés (Charlesworth et Charlesworth, 1987). Or lors de l autofécondation, l apparentement est maximal, car les gamètes mâle et femelle proviennent du même individu. Ainsi les populations d individus résultants de l autofécondation possèdent un taux d homozygotes plus élevé et peuvent exprimer un fardeau génétique plus lourd (à cause des allèles délétères qu elles expriment). Cependant si l autofécondation peut ainsi augmenter l expression du fardeau génétique d une population, elle peut aussi au cours du temps la réduire. En effet, la purge des allèles délétères par sélection est particulièrement efficace en cas d autofécondation 2. Ainsi selon Lande et Schemske (1985), il existerait deux régimes de reproduction stables : l autofécondation totale associée à une faible dépression de consanguinité (si à l état initial la valeur du fardeau génétique est inférieure à l avantage de transmission génétique de Fisher (1941)) et au contraire l allofécondation totale associée à une forte dépression de consanguinité. Néanmoins chez les végétaux l importance de la représentation du système strictement autogame et le caractère non stationnaire du régime mixte de reproduction i.e. combinant à la fois allo et autofécondation ont depuis lors été remis en question. Ainsi plusieurs études montrent 2 L autofécondation favorise l apparition des génotypes homozygotes (par exemple AA et aa) et donc l élimination des allèles délétères récessifs dans la population. En effet si les phénotypes exprimés par AA >> aa, les individus AA auront un avantage sélectif très fort et se répandront rapidement dans la population. Par conséquent l allèle délétère récessif a sera plus vite éliminé que s il existait plus de génotypes hétérozygotes Aa maintenant l allèle a dans la population 7

14 CHAPITRE 1. INTRODUCTION que les régimes mixtes de reproduction sont majoritaires contredisant ainsi la vision bimodale d un régime de reproduction totalement autogame ou allogame et l aspect transitoire du régime mixte de reproduction proposées par Lande et Schemske (1985) ( Goodwillie et al. (2005), ainsi que Barrett (2003) et Igic et Kohn (2006) (voir figure 1.1)). Figure 1.1 Les régimes mixtes de reproduction sont les systèmes de reproduction les plus courants. Répartition des taux d allofécondation recensés à travers différentes études bibliographiques. (extrait de l exposé de E. Porcher à l ESEB 2007) Ainsi parmi les 345 espèces étudiées dans la revue de Goodwillie et al. (2005), moins de 15 % des espèces présentaient un taux d autofécondation de plus de 0.8, alors que près de 45% des espèces présentaient un taux d autofécondation inférieur à 0.2. La dispersion du pollen est donc un élément essentiel de la reproduction chez la majorité des plantes, qui possèdent des systèmes de reproduction au moins partiellement allogames. Mais peut-on étudier la dispersion du pollen indépendamment de l autofécondation? En effet ces deux processus impliquent les ovules et le pollen des plantes, tous deux limités. Holsinger (1991) introduit ainsi le concept de "pollen discounting" que Harder et Wilson (1998) définissent comme "la réduction du nombre de grains de pollen potentiellement dispersés causée par l autofécondation" ("the reduction due to self-pollination in the number of pollen grains that would otherwise be carried away from the producing plant and so have the potential to reach stigmas on other plants"). La proportion d autopollen qui diminue les opportunités d exportation du pollen, (pollen discounting rate) dépendra du mode d autofécondation. Lloyd (1979) 8

15 1.2. ETUDE DU RÉGIME DE REPRODUCTION MIXTE modélise ainsi trois catégories d autofécondation : (i) "delayed self-fertilization", la fécondation par l autopollen intervient après la fécondation par l allopollen, le plus souvent lors du flétrissement de la fleur, le taux d autofécondation est donc lié à la quantité d ovules non pollinisés par du pollen extérieur et ne modifie pas le taux d allofécondation ( = 0) (ii) "prior selffertilization", la fécondation par l autopollen intervient en premier et le taux d allofécondation est donc au maximum égal à la quantité d ovules qui n ont pas été autofécondés et (iii) le système le plus courant, le "competing selfing", l autofécondation et l allofécondation ont lieu en même temps. Les grains de pollen autofécondants ou allofécondants sont donc en compétition pour la fécondation des mêmes fleurs. Par exemple, si l autofécondation implique un transfert de pollen entre les fleurs d une même plante (geitonogamie) utilisant les mêmes vecteurs de transport que le pollen autogame alors = 1 (Harder et Wilson, 1998). Ainsi lorsque 0 i.e. lorsque le pollen autogame diminue la fraction de pollen allogame, il serait nécessaire de prendre en compte le pollen autofécondant pour comprendre la dispersion du pollen Relation entre auto et allo fécondation, un modèle simplifié : loi d action de masse La probabilité d autofécondation s est souvent modélisée comme une probabilité indépendante de l allofécondation (Adams et Birkes (1991),Ritland (1989)). Mais cette approche fait l hypothèse que les pollen autogames et allogames ne sont pas en compétition ( = 0). Pour dépasser cette hypothèse des approches mécanistes ont été proposées (Gregorius et al. (1987) et Holsinger (1991)). Dans ces approches la probabilité d autofécondation est égale à la fréquence du pollen autofécondant relativement à la quantité totale de pollen (auto et allo) reçue par la plante. Holsinger (1991) nomma ce modèle le modèle de loi d action de masse en référence aux modèles physiques d action de masse dans lesquels le taux d un processus est déterminé par les fréquences relatives de ses composantes. Chaque individu i produit une quantité de pollen P dont une fraction d i n est pas exportée i.e. dédiée potentiellement à l autofécondation. Une proportion de pollen ɛ de d i participe réellement à l autofécondation (cette proportion inclut notamment les effets de dépression de consanguinité au stade observé). Ainsi la quantité réelle de pollen autogame reçu par i est égale à P d i ɛ. Parallèlement π est la fraction de pollen capturé par les stigmates d un individu parmi le pollen exporté par l ensemble des individus. Considérant N individus parmi la population se reproduisant de manière panmictique, produisant chacun la même quantité de pollen P, alors la quantité de pollen allofécondant reçu par i est égale à P (1 d j )π. j i Ainsi la probabilité d autofécondation d un individu i, s i est égale à s i = d i d i + (π/ɛ) (1 d j ). j i 9

16 CHAPITRE 1. INTRODUCTION Cette équation montre que (i) si tous les individus de la population produisent des quantités identiques de pollen, seules les proportions d i interviennent dans l équation contrairement à leurs quantités associées et que (ii) seul le ratio π/ɛ représentant la capacité compétitive du pollen allofécondant relativement au pollen autofécondant a un effet. Ainsi, les paramètres des modèles de loi d action de masse représentent toujours des proportions de pollen efficaces et non pas des quantités de pollen reçus. Cependant ce modèle considère que le "discounting rate", d i est applicable à la totalité du pollen produit, i.e. = 1. D autres modèles complexifiant cette approche ont été proposés (voir Harder et Wilson (1998)), notamment celui de Harder et Wilson (1998) décrit dans la figure 1.2. Il permet de modéliser différentes valeurs de entre 0 à 1 : = dx a + dx avec a la fraction de pollen totalement allouée à l autofécondation (ne participant pas au pollen discounting), x la fraction de pollen potentiellement exportée dont une fraction d participera à l autofécondation et ne sera pas exportée (et participant donc au "pollen discounting")). Les modèles de régime de reproduction présentés ici ont été développés pour étudier l évolution de ces régimes au cours du temps, notamment pour identifier les états stables de ces régimes. Ces modèles montrent que les avantages de l autofécondation (démographique et génétique) peuvent s équilibrer avec son inconvénient majeur : la dépression de consanguinité. Il existe donc des régimes mixtes de reproduction stables (Cheptou et al. (2007), Porcher et Lande (2005)). De plus les traits d histoire de vie d une population influent sur le régime de reproduction. Par exemple les populations en faible en densité et présentant une faible dépression de consanguinité auront un taux d autofécondation plus fort (Cheptou, 2006). Cette rapide présentation de l étude de l évolution du régime de reproduction met en évidence le lien qu il existe entre les modèles évolutifs théoriques et les méthodes d estimation au travers notamment de la nécessité pour les modèles théoriques d être validés par les résultats issus des études de terrains (voir par exemple Cheptou et Schoen (2002) et Cheptou et al. (2002)). En effet ce sont les estimations de différents régimes de reproduction sur de multiples populations et espèces qui sont à l origine de la remise en cause de la seule stabilité des régimes de reproduction non mixtes (uniquement autogame ou allogame) et de la création de nouveaux modèles évolutifs. 10

17 1.2. ETUDE DU RÉGIME DE REPRODUCTION MIXTE Figure 1.2 Modélisation de l autofécondation proposée par Harder et Wilson (1998) 11

18 CHAPITRE 1. INTRODUCTION Les deux types de méthodes pour estimer le régime de reproduction L estimation du régime de reproduction d une population reposait à l origine principalement sur l estimation de la probabilité d autofécondation globale dans cette population (Fyfe et Bailey, 1951). Pour estimer ce paramètre, il existe deux types de méthodes : le premier repose sur un indice de fixation (F IS, Wright (1951)) et le second sur l analyse de descendances (progeny arrays) (David et al., 2007). La première méthode consiste à mesurer le déficit en hétérozygotes de la population (appelé F IS ) pour ensuite estimer la probabilité d autofécondation à partir de l égalité F IS = s/(2 s) (Wright, 1951). L avantage majeur de cette méthode est de nécessiter peu de données (seulement les génotypes d individus échantillonnés dans la population). Cependant l équation utilisée est valide sous l hypothèse d "inbreeding equilibrium" i.e. que le déficit en hétérozygotes est seulement issu de l autofécondation. Lorsque les individus adultes sont apparentés cette équation est biaisée (Fenster et al., 2003). Dans ce cas l estimation peut être considérée comme une probabilité d autofécondation "efficace" i.e. représentant la probabilité d autofécondation nécessaire pour obtenir le F IS observé dans une population "idéale" (où l excès de croisements entre apparentés serait seulement issu de l autofécondation) et fournit un indicateur global de l ensemble des croisements entre apparentés de la population étudiée (David et al., 2007). Mais la formule de Wright (1951) peut aussi être corrigée comme le proposent Fenster et al. (2003), en y intégrant le coefficient d apparentement moyen entre couples de parents (autofécondation exclue). La probabilité d autofécondation peut ainsi être estimée connaissant la distribution de l apparentement entre individus en fonction de la distance physique (qui sera décrite à la partie 1.3.4) et la distribution des distances entre parents (Fenster et al., 2003) ou approchée si cette dernière distribution est inconnue et supposée à courte distance (Vekemans et Hardy, 2004). Quelque soit l approche, l estimation fournie par cette méthode indirecte est relativement peu précise notamment à cause du manque de précision de l estimation préalable du F IS (Fenster et al., 2003) (qui de plus peut présenter un biais causé par la présence d allèles nuls dans les marqueurs 3 (Hardy et al., 2004)). Mais cette méthode possède l avantage de proposer un estimateur intégratif, des événements de pollinisation jusqu au recrutement, car la probabilité d autofécondation estimée est celle présente chez les adultes (et non pas celle des graines) et ceci pour un coût d échantillonnage réduit. Au contraire, les méthodes reposant sur l analyse de descendances reposent sur un échan- 3 Mais David et al. (2007) proposent un estimateur multilocus robuste pour prendre en compte ses effets et débiaiser l estimation. 12

19 1.2. ETUDE DU RÉGIME DE REPRODUCTION MIXTE tillonnage plus complet nécessitant les génotypes de graines échantillonnées sur la plante-mère (que nous désignerons par la suite simplement par mère) et qui est elle-même génotypée (Fyfe et Bailey (1951) et Jain et Ritland (1981)). Plus précises, ces méthodes sont actuellement les plus populaires (Goodwillie et al., 2005). La comparaison directe entre les génotypes maternels et ceux de leurs graines sur laquelle ces méthodes reposent, peut être réalisée par diverses méthodes d estimations (méthode des moments ou vraisemblance), et permet une diversification des modèles et donc des paramètres estimés (Ritland, 2002). Concernant l auto-pollen, elles permettent l estimation d une probabilité d autofécondation individuelle (i.e. une estimation pour chaque mère) ainsi que le calcul de la corrélation d autofécondation au sein des graines d une même mère (Ritland, 1989). Elles permettent aussi une description plus précise de la composition des provenances de l allopollen reçu par les mères au travers de l estimation de la probabilité de copaternité moyenne sur l ensemble des mères (i.e. la probabilité pour deux graines d une même mère d être fécondée par un même père). Dans le manuscrit Restoux et al. (in prep) en annexe I, nous proposons une adaptation de ces méthodes pour l estimation de paramètres individuels du régime de reproduction (probabilité d autofécondation mais aussi probabilité de copaternité) à partir de marqueurs à hérédité paternelle, sous différents modèles de variabilité temporelle. Ces estimations individuelles permettent ainsi de mettre en évidence des liens entre régime de reproduction et covariables extérieures comme la densité du peuplement (déjà montrée dans de Lucas et al. (2008)), tout en prenant en compte la variabilité spatio-temporelle de ce régime (Restoux et al., in prep). Les méthodes par analyse de descendances sont donc à la fois plus précises et adaptables, que les méthodes indirectes reposant sur l estimation du F IS. Comme le soulignent David et al. (2007), ces deux types de méthodes sont complémentaires aussi bien au niveau de leur application que de leur interprétation. La première méthode fournit une estimation intégrative de la probabilité d autofécondation présente chez les individus adultes. Elle est applicable sur un grand nombre de données et sur de larges populations car elle nécessite un effort d échantillonnage faible, mais tout cela au prix d une hypothèse lourde et souvent peu vérifiée ou d introduction d information (comme la structure génétique spatiale de la population). Le second type de méthode propose une estimation plus précise dans le cadre de modèles de régimes de reproduction plus modulables, mais nécessite un échantillonnage plus complet. Pour réellement étudier la dispersion du pollen et son rôle sur les flux de gènes, il est nécessaire d estimer plus que la probabilité d autofécondation et notamment d étudier plus précisément la composition de provenances de l allopollen. Comme nous l avons relevé, les méthodes d analyse de descendances proposent d estimer la probabilité de copaternité. Cette probabilité peut fournir un nombre "efficace de pères" ayant participé à l allofécondation, i.e. le nombre de 13

20 CHAPITRE 1. INTRODUCTION pères "idéaux", N ep (si tous avaient participé également à la reproduction) pour obtenir la même probabilité de copaternité. Le N ep est donc obtenu en inversant la probabilité de copaternité observée (Smouse et al., 2001). Parallèlement à ces méthodes directes, il existe des équivalents indirects, nécessitant moins d information, qui proposent aussi une estimation de la probabilité de copaternité. Elles reposent sur des indices caractérisant la variation de composition des nuages polliniques des mères (Hardy et al., 2004) et seront décrites en partie Dans cette thèse et notamment dans la partie suivante, nous nous focaliserons sur les méthodes qui spatialisent les pères ayant participé à la fécondation et qui estiment donc la dispersion du pollen en fonction de la distance qui sépare les mères des pères. 1.3 Bref historique des méthodes d estimation de la fonction de dispersion du pollen à partir de marqueurs génétiques Sans la génétique : approche probabiliste par estimation à partir de données d abondance La dispersion du pollen peut être estimée à partir de capteurs déterminant l abondance de pollen reçu en plusieurs points donnés. En disposant des plantes sources connues, isolées d autres sources non contrôlées, on peut estimer la dispersion du pollen issu de ces sources en disposant des capteurs placés dans le voisinage de ces sources. Les capteurs de pollen peuvent être physiques 5 : des lames enduites de substance collante (Bateman, 1947) ou des capteurs volumétriques (Timmons et al., 1995) ou biologiques (Tonsor, 1985) en utilisant des plantes mâle-stériles. Les données observées correspondent aux nombres de grains de pollen reçus sur chaque capteur. Pour les capteurs biologiques, le nombre de grains de pollen reçus sera estimé en utilisant le nombre de graines produites par ces plantes (Darmency et al., 2009). Mais dans ce cas, le nombre d ovules étant limité par rapport au nombre de grains de pollen, la saturation est parfois atteinte pour certaines distances (notamment les courtes). La dispersion du pollen peut aussi être estimée à partir de poudres fluorescentes (Van Rossum, 2009). Les étamines des plantes sources sont enduites de poudre fluorescente et les anthères des plantes réceptrices sont observées sous lampe UV. Le nombre de grains de poudre fluorescente reçus par chaque plante connaissant la position des plantes émettrices est ainsi observé. 4 Dans cette partie, nous nous limiterons à la présentation des méthodes probabilistes qui nécessitent moins d information que les méthodes mécanistes reposant sur des modèles physiques (modélisant le pollen comme des particules ou un écoulement de fluides). 5 La dispersion des graines peut être estimée de manière analogue en utilisant des pièges à graines (Ribbens et al., 1994). 14

21 1.3. HISTORIQUE DE L ESTIMATION DE LA DISPERSION DU POLLEN Dans toutes ces expériences, la distribution de la dispersion du pollen en fonction de la distance est déduite de l observation de la distribution spatiale du nombre de grains de pollen en fonction de la position des sources. Cependant deux informations essentielles concernant la fertilité mâle des sources font défaut dans ces méthodes : (i) le pouvoir fécondant du pollen émis (sauf dans le cas des plantes mâle-stériles) et (ii) le nombre total de grains de pollen émis par une source. Ce nombre peut néanmoins être estimé : (i) indépendamment de la fonction de dispersion, à partir du nombre total de grains de pollen observés directement sur la source ou sur un capteur placé près de la source (Timmons et al., 1995), ou (ii) conjointement à cette fonction, mais dans ce cas, l estimation est peu précise (Darmency et al., 2009) Utilisation de marqueurs génétiques Les méthodes d estimation de la dispersion à partir de données d abondance présentent des inconvénients majeurs : (i) elles sont très dépendantes du nombre de grains de pollen émis par les différentes sources (i.e. les plantes-pères ou pères) et (ii) parmi les grains de pollen récoltés, il est difficile de discriminer ces sources. Or lors de la fécondation, une graine reçoit la moitié du génotype de son père. Elle possède donc intrinsèquement une information partielle sur l identité de son père. Cette information génétique peut s exprimer au niveau du phénotype de la graine (i.e. sous la forme d un caractère observable). En utilisant un caractère héréditaire observable, il donc possible d estimer la dispersion du pollen en associant chaque graine à son père. Les méthodes les plus représentatives de ce type d approche reposent sur l observation d un caractère présentant deux phénotypes possibles ([A] et [a]), contrôlé par un gène présentant deux allèles dont l un est dominant (A) et l autre récessif (a). Plus précisément si un individu possède un des couples d allèles : AA ou Aa, il aura le phénotype [A] sinon, s il possède aa, son phénotype sera [a]. Deux sources de pollen pourront ainsi être discriminées : une première source composée de plantes homozygotes pour l allèle dominant (i.e. portant AA) et une deuxième composée de plantes homozygotes pour l allèle récessif (i.e. portant aa). Des plantes de ce second génotype (aa) sont alors utilisées comme capteurs. Chaque graine observée possède donc un allèle a de sa mère et un autre issu d une des deux sources. La provenance du grain de pollen, dont elle est issue, est simple à déterminer : si la graine exprime un phénotype [A] (et donc si elle porte les allèles Aa), le grain de pollen provient de la première source sinon ([a] et aa) il est issu de la seconde. Cette approche a été appliquée principalement sur des espèces cultivées, en utilisant différents caractères comme la couleur des graines (Bateman (1947) et Klein et al. (2003) sur le maïs), les couleurs des plantes obtenues à partir des graines (Bateman (1947) sur le radis et le navet), la résistance à un herbicide (Lavigne et al. (1998) sur le colza) ou à un antibiotique (Paul et al. (1995) sur le tabac). Cependant les caractères phénotypiques sont très 15

22 CHAPITRE 1. INTRODUCTION peu polymorphes 6 (binaires le plus souvent), ils ne permettent donc de discriminer que très peu de sources. De plus, ils sont souvent dominants ou récessifs ce qui nécessite de contrôler le génotype des sources (qui doivent toutes être homozygotes). Pour dépasser ces limites, les méthodes actuelles utilisent des marqueurs génétiques moléculaires qui identifient non pas les différentes formes de l expression de certains gènes mais directement les différences entre les séquences d ADN des individus à certains locus (i.e. pour des emplacements physiques précis et invariables dans le génome). Actuellement parmi les nombreux marqueurs moléculaires développés, la majorité des études utilisent des marqueurs microsatellites dont les différents allèles décrivent la variation du nombre de répétitions d un motif court de quelques bases (le plus souvent une à quatre). En effet ces marqueurs possèdent de nombreux avantages : (i) ils sont situés dans des régions non codantes du génome (i.e. qui ne sont pas transcrites en protéines) et pour cette raison sont considérés comme neutres 7 (i.e. ne participant pas à la sélection), (ii) ils sont très polymorphes (i.e. ils possèdent de nombreux allèles), (iii) ils sont codominants (il est possible de distinguer les individus hétérozygotes des homozygotes) et (iv) ils sont situés dans le génome nucléaire transmis par les deux parents ou bien dans des organites (chloroplastes ou mitochondries) transmis uniquement par voie paternelle (pollen chez les gymnospermes) ou maternelle (graines chez les angiospermes) (Ouborg et al., 1999). Néanmoins comme toutes les observations, les données génétiques ne sont pas exemptes d erreurs de mesure, comme celles liées à la présence d allèles nuls (i.e. allèles non détectables (Callen et al., 1993)) ou d erreurs de lecture du nombre de répétitions du motif Les méthodes directes issues de la décomposition de la fécondité mâle Les méthodes directes ont tout d abord étudié la fécondité mâle en reconstituant la paternité de graines échantillonnées (Meagher (1986), Devlin et al. (1988), Devlin et Ellstrand (1990)). Le succès reproducteur mâle d un individu peut ainsi être estimé à partir du nombre de ses descendants dans la population. Pour mieux comprendre les différentes covariables influant sur les fécondités mâles, ces fécondités ont ensuite été exprimées non plus de manière individuelle mais en fonction de différentes covariables (Adams et Birkes, 1991). Dans ce cadre, la distance père-mère semblait être un facteur important, elle a donc été introduite dans ces méthodes (Adams et Griffin (1992), Smouse et al. (1999), Burczyk et al. (2002)). L effet de la distance père-mère dans ces méthodes a été formalisé en introduisant explicitement un modèle de dispersion du pollen décrit par la fonction de dispersion et la loi d action de masse (Hardy (2003), Oddou-Muratorio et al. (2005)). Cette formalisation est la base des méthodes directes 6 Ils ne possèdent pas de nombreuses formes. 7 De nombreuses études ont confirmé cette hypothèse à quelques rares exceptions près (Tanksley, 1993). 16

23 1.3. HISTORIQUE DE L ESTIMATION DE LA DISPERSION DU POLLEN actuelles d estimation de la dispersion du pollen. Nous présentons ici brièvement ces différentes méthodes directes Assignation de paternité Les méthodes d assignation de paternité reposent sur l étude de l information génétique pour un ensemble de marqueurs génétiques (i) d un échantillon de plantes portant des graines (les mères), (ii) d un échantillon de leurs graines et (iii) de tous les mâles présents sur le site étudié (les pères). Comme nous l avons précédemment présenté, selon les lois de ségrégation mendélienne, une graine reçoit la moitié du génotype de sa mère et la moitié du génotype de son père. Ainsi, si la probabilité d exclusion des marqueurs génétiques utilisés est suffisamment élevée (i.e. si les marqueurs sont suffisamment polymorphes), il est théoriquement possible de déterminer directement l identité du père parmi tous les pères potentiels (qui ont été exhaustivement échantillonnés), car un seul génotype restera compatible (exclusion simple). Le plus souvent cela n est pas possible (Chakraborty et al., 1988). Il est alors nécessaire d utiliser des méthodes faisant intervenir la vraisemblance T (g o g m,g p ), de la relation de parenté entre le génotype de la graine o et le génotype de deux parents potentiels, p et m. Nous décrivons dans la partie suivante le calcul de cette vraisemblance. Lois de Mendel Les lois de Mendel dictent la transmission des gènes d une génération à une autre. Elles sont au cœur des méthodes directes telles que les méthodes d estimation du régime de reproduction que nous avons présentées précédemment ou celles d assignation de paternité que nous présentons dans cette partie. Selon les lois de ségrégation mendélienne, lorsque les marqueurs sont diploïdes et codominants 8 (comme les marqueurs microsatellites), chaque parent transmet avec la même probabilité chacun de ses deux allèles. Ces lois peuvent sembler simples, mais la vraisemblance des génotypes des graines qu elles modélisent est relativement complexe à écrire formellement. Ainsi considérant un locus l, une mère m possédant deux allèles à ce locus gm l = {gm,1, l gm,2}, l la probabilité qu une de ses graines ait reçu de sa mère l allèle go,i, l événement noté go,i l m, est égale à : Pr(g l o,i m g l m) = {g l o,i =gl m,1 } {g l o,i =gl m,2 }. 8 L expression de ces probabilités pour des marqueurs dominants, comme les marqueurs AFLP, RFLP ou SNP, est fournie dans (Gerber et al., 2000) 17

24 CHAPITRE 1. INTRODUCTION L équation est la même pour un père p, ainsi : Pr(g l o,i p g l p) = j {1,2} {g l o,i =gl p,j }. La probabilité pour qu une graine o issue des parents p et m possède les allèles g l o au locus l, connaissant ceux de ses parents est égale à : Pr(go g l p, l gm) l = 1 2 Pr(gl o,1 m gm) l Pr(go,2 l p gp) l Pr(gl o,2 m gm) l Pr(go,1 l p gp) l = 1 ( 1 8 {g l o,i =gk,j l } ) + ( 1 {g l o,i =gk,j l } ) {i,k} {{1,m},{2,p}} j {1,2} {i,k} {{2,m},{1,p}} j {1,2} La probabilité du génotype de la graine g o = {g l o\l [1 ; L]} avec L le nombre total de locus considérés, sous l hypothèse que ceux-ci sont non liés (i.e. indépendants), connaissant les génotypes de ses parents est donc : T (g o g m,g p ) = l [1,2,..,L] = 1 8 L l [1 ; L] Pr(go g l p, l gm) l {i, k} {{1, m}, {2, p}} Assignations catégorique et fractionnelle ( 1 {g l o,i =gk,j l } ) + j {1,2} {i, k} {{2, m}, {1, p}} ( 1 {g l o,i =gk,j l } ) j {1,2} (1.1) Pour une graine donnée, connaissant le génotype de sa mère et celui de tous les pères potentiels, il est donc possible de calculer la vraisemblance du génotype de cette graine pour chaque couple de parents potentiels selon les lois de Mendel. L assignation de paternité utilisant cette information peut alors être catégorique : un seul père ou aucun est attribué à chacune des graines selon les LOD-scores de chaque père potentiel (i.e. le logarithme du ratio de la vraisemblance du génotype de la graine selon un père potentiel spécifique par celui selon un autre père ou l ensemble des pères) (Meagher, 1986). Elle peut aussi être fractionnelle : pour chaque graine, une probabilité de paternité pour chaque père est estimée (comprise entre 0 et 1) (Devlin et al. (1988), Devlin et Ellstrand (1990)). Cette estimation s effectue dans un cadre bayésien. Si π(p) est la distribution a priori de la paternité de la graine o sur l ensemble des pères (généralement supposée uniforme), la vraisemblance de g 0, le génotype de la graine o est égale à : T (g 0 /g m, g p ). 18

25 1.3. HISTORIQUE DE L ESTIMATION DE LA DISPERSION DU POLLEN La loi a posteriori de la distribution de la paternité de o est donc : π(p)t (g 0 /g m, g p ) π(q)t (g 0 /g m, g q ). q Ainsi la paternité d une graine n est pas assignée de manière catégorique à un père mais fractionnée entre les différents pères échantillonnés. Si les résultats issus de l assignation catégorique semblent plus aisément interprétables d un point de vue biologique, les résultats issus de l assignation fractionnelle fournissent des estimateurs moins biaisés des paramètres globaux du régime de reproduction de la population, comme la proportion moyenne de graines apparentées à chacun des pères (Devlin et al., 1988). Elles ont été implémentées sous différents logiciels : comme Cervus (Marshall et al., 1998), Patri (Signorovitch et Nielsen, 2002) ou encore Famoz (Gerber et al., 2003), (pour une revue sur ces méthodes et ces logiciels voir Jones et Ardren (2003)). Ces différentes méthodes sont très efficaces pour estimer les fécondités mâles individuelles (Roeder et al., 1989) ou pour retracer dans les populations naturelles les couples pères-mères réalisés (Streiff et al. (1999),Hardy (2003), Dick et al. (2008)). Cependant, il est nécessaire pour fournir des estimateurs non biaisés de la dispersion du pollen de prendre en compte l hétérogénéité des fécondités mâles. En effet si ces dernières ne sont pas distribuées également autour des mères échantillonnées, l estimation peut être biaisée (Oddou-Muratorio et al., 2005) Analyse directe des composantes de la fertilité mâle Décomposition de la fécondité mâle Pour estimer directement les effets de covariables de la fécondité mâle, Smouse et al. (1999) proposent d utiliser la vraisemblance totale des génotypes des graines observées (et non plus la vraisemblance de chacun de ces génotypes indépendamment) : L = ( ) F l T (g o g jo, g l ), o O l P avec g i, le génotype de l individu i, o une graine parmi O, l ensemble des graines échantillonnées, j o la mère de cette graine, l un père parmi P l ensemble des pères potentiels échantillonnés et F l, la fécondité de ce père l. Les fécondités sont exprimées de manière relative i.e. F l = 1. l P Elles sont liées aux covariables selon le modèle log-linéaire suivant : F l = exp(b Z l ) exp(b Z k ), (1.2) k P 19

26 CHAPITRE 1. INTRODUCTION avec B le vecteur des N Z coefficients de la régression log-linéaire des fécondités ({F l } {l P } ) par rapport aux N Z covariables mesurées sur chacun des pères l (Z l = z l,k {k [1; N Z ]}). Les covariables sont choisies parmi les variables supposées influençer la fertilité mâle (i.e. le nombre de grains de pollen efficace émis par un père) comme des caractères de la morphologie des inflorescences mâles (Smouse et al. (1999), Morgan et Conner (2001)). Adaptant le modèle proposé par Adams et Birkes (1991) pour décomposer le succès reproducteur mâle en fonction de la distance aux mères, Smouse et al. (1999) proposent le modèle suivant pour intégrer les effets de la distance de leur modèle en remplaçant la formule 1.2 par la suivante : L = ( ) F {l,jo} T (g o g jo, g l ), F {l,jo} = exp(γ δ lj o ) exp(γ δ kjo ), (1.3) o O l P avec δ ljo, la distance entre le père l et la mère j o. La distance entre père et mère peut aussi modéliser le décalage phénologique entre les deux parents i.e. la distance temporelle (Oddou- Muratorio et al., 2006). k P Introduction du modèle de voisinage : modélisation du pollen extérieur Dans le modèle précédent, aboutissant à l équation 1.3, tous les pères potentiels sont supposés connus. Or si cette hypothèse n est pas vérifiée, les erreurs d assignation de paternité augmentent (Morgan et Conner, 2001). Burczyk et al. (2002) proposent donc d introduire le modèle de voisinage (présenté par Adams et Birkes (1991)) dans le modèle de décomposition de la fécondité mâle. Ce modèle considère trois sources distinctes de pollen pour une graine : (i) sa mère avec une probabilité s (l autofécondation, selfing en anglais), (ii) un père extérieur au site étudié et donc non échantillonné avec une probabilité m (migration) et (iii) un des pères du site, différent de la mère (avec une probabilité 1 s m). La formule 1.3 devient alors : L = o O P ("o possède le génotype g o " "j o est la mère de o") (1.4) = s P (g o "j o est la mère et le père") + m P (g o "j o est la mère et le père est extérieur au site") + (1 s m) P (g o "j o est la mère de o et le père est dans le site") = s T (g o g jo, g jo ) + m T (g o g jo, F A) + (1 s m) F {l,jo} T (g o g jo, g l ). (1.5) o O l M La variable de fécondité mâle F {l,jo} est décomposée selon un modèle log-linéaire comme dans le modèle de (Smouse et al., 1999). 20

27 1.3. HISTORIQUE DE L ESTIMATION DE LA DISPERSION DU POLLEN Introduction explicite de la fonction de dispersion du pollen L introduction explicite d une fonction de dispersion (d un noyau de dispersion) diffère peu du modèle précédent. Néanmoins conceptuellement, l approche diffère car elle permet de modéliser différemment les deux composantes de la fécondité mâle F ik (fertility en anglais) : la fertilité i.e. la quantité de pollen émise par un mâle (fecundity en anglais) et la capacité de dispersion qui dépend de la fonction de dispersion. Smouse et Sork (2004) distinguent une troisième composante liée à la phénologie. Ainsi Oddou-Muratorio et al. (2005), reprenant le concept de fonction de dispersion (Wright (1943), Clark et al. (1999), Lavigne et al. (1996), Lavigne et al. (1998)), proposent donc de remplacer la fécondité F kj du mâle k par rapport à la mère j, dans la formule 1.4, par π kj la probabilité pour un père k de féconder une mère j : π kj = Φ kf(d kj ) Φ l f(d lj ), (1.6) l avec π kj, qui est toujours une fécondité relative mais décomposée selon Φ k, la fertilité du mâle k et f la fonction de dispersion du pollen. Le modèle de dispersion forward La probabilité π kj pour un père k de féconder une mère j (équation 1.6) est obtenue selon le modèle de loi d action de masse (Holsinger, 1991) 9. Ce modèle de dispersion repose sur plusieurs hypothèses : (i) les dispersions des grains de pollen sont indépendantes et (ii) les événements de fécondation d une mère par un des grains de pollen qu elle reçoit sont équiprobables et indépendants, par conséquent la probabilité pour un père de féconder une mère est égale à la quantité de pollen que la mère reçoit de ce père relativement à la quantité totale de pollen qu elle reçoit. La fonction de dispersion utilisée dans ce modèle est définie comme la densité de probabilité de la position d arrivée d un grain de pollen dont le père est placé en 0. (NB : Position d arrivée ne signifie pas nécessairement que le grain de pollen arrive sur une mère ou qu il féconde une mère). Nous nommerons ce modèle de dispersion le modèle de dispersion forward. Ce modèle de dispersion explicite permet d introduire différentes familles de fonction de dispersion (indépendamment de la modélisation de la fertilité des pères). Il est ainsi possible de modéliser la dispersion par des familles de dispersion (Clark et al., 1999) estimant non seulement la distance moyenne de dispersion en utilisant un paramètre d échelle (i.e. la distance 9 Ce modèle est la généralisation à tous les pères de la formule présentée dans la partie sur les régimes de reproduction 21

28 CHAPITRE 1. INTRODUCTION moyenne parcourue par un grain de pollen), mais aussi la décroissance de la fonction de dispersion exprimée par l intermédiaire d un paramètre de forme (Oddou-Muratorio et al., 2005). Pour qualifier cette décroissance, il est souvent utile de parler de la queue de la distribution qui peut être légère (décroissant plus rapidement qu une fonction de densité exponentielle, comme le fait une gaussienne par exemple) ou lourde (décroissant plus lentement qu une exponentielle) (Austerlitz et al., 2004). L estimation du paramètre de forme de la fonction de dispersion du pollen permet donc d estimer l importance relative des événements de dispersion à longue distance, mise en évidence dans de nombreuses études (Pluess et al. (2009), Oddou-Muratorio et al. (2005),Robledo-Arnuncio et al. (2004), Hardy (2003), Dick et al. (2003),Streiff et al. (1999)). La fertilité Dans ce modèle, il est possible d exprimer les fertilités mâles individuelles Φ k en utilisant des covariables explicatives dont les coefficients peuvent être estimés dans un modèle de régression log-linéaire, comme dans le modèle de Burczyk et al. (2002) (Oddou-Muratorio et al., 2005). Cependant il est difficile d intégrer dans ces modèles toutes les sources de variabilité des fécondités, d une part car elles sont multiples et leur liste exhaustive reste encore inconnue et d autre part car la mesure de ces covariables nécessite un effort expérimental très lourd. Or lorsque certaines sources de la variabilité des fertilités ne sont pas prises en compte alors que cette variabilité est grande, nous montrons par simulations que la précision de cette méthode diminue (voir Klein et al. (in prep) en annexe II) : (i) l estimation des paramètres de la fonction de dispersion est plus biaisée (ii) les intervalles de confiance à 0.95 sont sous-estimés (les vrais paramètres n appartiennent pas à ces intervalles pour 60% 10 des simulations pour l ensemble des valeurs testées) et (iii) l erreur de type I des tests du rapport de vraisemblance actuellement utilisés pour tester la significativité des effets des covariables sur la variation de fertilité (Oddou-Muratorio et al., 2005) devient grande. En effet par simulations, nous montrons que des variables effectivement indépendantes de la fertilité sont trouvées significatives par cette méthode dans près de 99% des cas (dès que la variance de fertilité atteint 0.5). Cette étude par simulations montre que la variance de fertilité des individus, lorsqu elle n est pas totalement prise en compte, crée une surdispersion dans les données qui rend invalide l hypothèse d indépendance des fécondations sur laquelle reposent les méthodes par vraisemblance actuelles. Pour prendre en compte complètement la variance de fertilité mâle (sans pour autant connaître la liste exhaustive des covariables agissant sur cette fertilité), Klein et al. (2008) proposent de 10 Cette valeur varie de 10% pour les simulations dont les variances de fertilité sont comprises entre 0 et 1 à plus de 75% pour celles dont les variances sont comprises entre 3 et

29 1.3. HISTORIQUE DE L ESTIMATION DE LA DISPERSION DU POLLEN modéliser la fertilité mâle individuelle par une variable individuelle aléatoire, ainsi Φ k L(µ = 1, σ 2 ), Φ k identiquement distribuées indépendantes avec L, une loi de probabilité (comme la lognormale ou la loi Gamma) de moyenne 1 et de variance σ 2 représentant la valeur théorique de la variance de fertilité. Il est ainsi possible d estimer directement la variance de fertilité sans utiliser de covariables. Klein et al. (2008) proposent d estimer les paramètres de ce nouveau modèle dans un cadre bayésien, en utilisant un algorithme MCMC. Deux estimateurs de la variance de fertilité sont ainsi obtenus : (i) l estimateur de la variance de fertilité théorique directement issu de la distribution a posteriori du paramètre σ 2 ou (ii) un estimateur de la variance de fertilité empirique calculé à partir des distributions a posteriori des fertilités individuelles de chaque père. Dans l étude simulatoire Klein et al. (in prep) (en annexe II), nous montrons que, contrairement aux modèles précédents, l augmentation de la variation de fertilité des individus ne détériore pas la qualité des estimations de la fonction de dispersion fournies par cette méthode. De plus, nous montrons que si l estimateur de la variance théorique est très sensible au choix de la loi L, distribution des fertilités individuelles, son estimateur empirique fournit un estimateur moins sensible. Les méthodes directes d estimation de la dispersion du pollen permettent donc une décomposition très fine des processus mis en jeu lors de la dispersion, permettant de découpler le phénomène de dispersion de la puissance des sources émettrices. Le phénomène de dispersion peut prendre en compte différentes distances père-mère (spatiale, temporelle, compatibilité génétique). Tout comme les fertilités des pères peuvent être modélisées de différentes manières à l aide de covariables ou par une variable aléatoire individuelle. Pour prendre en compte dans la variance totale des individus à la fois les effets des sources de variabilité de la fertilité inconnues et connues, il serait intéressant d utiliser les deux modèles simultanément en ajoutant une erreur aléatoire aux modèles log-linéaire de régression par covariable. Cependant, si ces méthodes directes sont très modulables et informatives, elles possèdent un inconvénient majeur : le lourd effort d échantillonnage qu elles impliquent. En effet, il faut à la fois définir un site suffisamment grand et génotyper tous les individus qui s y trouvent, car ces méthodes ne permettent pas de prendre en compte une éventuelle censure dans le recensement des individus sur le site (mais voir Fénart et al. (2007)). C est pourquoi lorsque l échantillonnage ne peut être aussi complet, il est nécessaire d utiliser les méthodes indirectes. 23

30 CHAPITRE 1. INTRODUCTION Les méthodes indirectes reposant sur les probabilités de copaternité dans les nuages polliniques des mères Nous avons présenté dans la partie précédente les méthodes directes d estimation de la dispersion du pollen issues de l analyse de paternité (Sork et al. (1999), Smouse et Sork (2004)). La famille des méthodes indirectes utilisent l analyse des structures génétiques spatiales pour estimer les flux de gènes (Rousset, 2001). Nous présenterons tout d abord brièvement les méthodes indirectes d estimation des flux de gènes historiques, puis plus précisément les méthodes spécialement développées pour l estimation de la dispersion du pollen entre deux événements de dispersion Estimation de la distance de dispersion sous le modèle d isolement par la distance L isolement par la distance (conséquences de l existence de flux de gènes restreints dans l espace) génère de la structure spatiale créée par la dérive (i.e. la stochasticité des événements de reproduction) qui joue localement (Wright, 1943). Dans ce cas, la différenciation entre les génotypes des individus augmente avec la distance (Wright, 1943). Parallèlement, Q(r), la probabilité d identité par descendance 11 de deux gènes de deux individus diminue lorsque r, la distance qui les sépare augmente (Malécot, 1948). Ainsi à l équilibre dispersion-dérive, si la fonction de dispersion des gènes est isotrope, Q(r) dépend de la fonction de dispersion, de la densité efficace de la population D, de la géométrie de la population et du taux de mutation (Malécot, 1950). Dans une population régulièrement répartie (sur R ou R 2, si l on considère un espace à une ou deux dimensions), lorsqu elle est observée dans une gamme de distance appropriée, la décroissance de la probabilité Q(r) est linéaire en fonction de r, dans un modèle à une dimension ou en fonction de ln(r) dans un modèle à deux dimensions. De plus, sa pente est proportionnelle à 1/Dσ 2, avec σ 2, la variance axiale de la fonction de dispersion (Rousset (1997), Rousset (2000)). Cependant la probabilité Q(r) n est pas directement observable, seule la probabilité d identité par état peut être observée. Il est donc nécessaire d utiliser des indices de la structure génétique spatiale des individus, qui normalisent cette probabilité, en fonction de la probabilité d identité par état d une classe de référence de paires de gènes. En régressant ces indices en fonction de r ou de ln(r), le produit Dσ 2 peut donc être estimé à partir de la valeur de la pente estimée (sous réserve que σ 2 soit fini) (Rousset (2000), Hardy et Vekemans (1999)) (voir figure 1.3). 11 La probabilité que les deux individus aient hérités le même gène d un ancêtre commun 24

31 1.3. HISTORIQUE DE L ESTIMATION DE LA DISPERSION DU POLLEN Figure 1.3 Estimation indirecte de Dσ 2 à partir de l estimation de la pente de régression entre un indice de structure spatiale entre population et la distance. (figure extraite de Rousset (1997)) Ces indices sont de deux types 12 : (i) les indices de différenciation (ou de fixation) qui décrivent la distance génétique entre les individus, comme les F ST calculés entre populations (Rousset, 1997) (figure 1.3) ou les a r entre individus (Rousset, 2000) (figure 1.4) et (ii) ρ, les coefficients d apparentement (kinship ou coancestry coefficients) qui décrivent les corrélations entre les génotypes des individus, comme ceux issus des estimateurs de Loiselle et al. (1995) (figure 1.5) ou Lynch et Ritland (1999) ou encore l indice de Moran (Sokal et Oden, 1978) (figure 1.6). Ces indices peuvent être exprimés en utilisant les probabilités d identité par descendance, sous le modèle d un nombre infini d allèles, dans le cas d individus diploïdes : F ST (r) = Q 0 Q(r) 1 Q(r) a r = Q 0 Q(r) 1 Q(0) ρ(r) = Q(r) Q 1 Q, où Q 0 et Q sont respectivement les probabilités d identité par descendance de deux gènes homologues tirés au sein d un individu et au hasard dans l ensemble des gènes de la population. 12 L utilisation de ces différents indices est discutée dans différentes revues : Rousset (2001), Vekemans et Hardy (2004) et Watts et al. (2007) 25

32 CHAPITRE 1. INTRODUCTION Figure 1.4 Estimation indirecte de Dσ 2 à partir de l estimation de la pente de régression entre un indice de différenciation entre paires d individus et la distance. (figure extraite de Rousset (2000)) Figure 1.5 Coefficients de consanguinité estimés entre paire d individus représentés en fonction de la distance qui sépare les individus. (figure extraite de Loiselle et al. (1995)) 26

33 1.3. HISTORIQUE DE L ESTIMATION DE LA DISPERSION DU POLLEN Les méthodes indirectes estiment donc le produit 4πDσ 2 dans un modèle en deux dimensions (ou 4Dσ 2 en une dimension). Cette variable est souvent désignée sous le nom de taille de voisinage (Nb), car 4πDσ 2 correspond à la définition de voisinage selon Wright (1943) lorsque la dispersion est gaussienne. Elle correspond au taux de coalescence par unité de temps et de surface (Rousset, 1997), autrement dit c est un indice synthétique intégrant à la fois les effets opposés de la dérive locale (qui diminue la diversité génétique) et des flux de gènes (qui l augmente). Elle permet de prédire la structure génétique spatiale d une population continue à une échelle d un à trois ordres de grandeur de σ 2 (Vekemans et Hardy, 2004), mais ne permet pas de prédiction à plus grande échelle car elle ne contient pas d information sur la forme de la fonction de dispersion (en particulier sa queue de dispersion) (Rousset, 2007). Pour estimer la valeur de σ 2 à partir de la taille de voisinage, il est nécessaire d obtenir une estimation indépendante de la densité efficace D 13. La densité efficace correspond à la densité de la population idéale (i.e. sous les hypothèses du modèle) pour laquelle la même structure génétique spatiale serait observée. Cette population idéale est répartie de manière homogène dans l espace, d effectif constant au cours du temps, les individus sont non consanguins, équifertiles et hermaphrodites. Ainsi le ratio entre densité efficace et observée peut être calculé à partir de paramètres démographiques observés corrigeant la taille de la population observée (Kimura et Crow (1963), Watts et al. (2007)). Généralement la densité efficace des populations naturelles est inférieure à leur densité réelle. Ce rapport reflète les effets combinés des fluctuations démographiques de la population au cours du temps, de la variabilité des succès reproducteurs entre les individus et dans le temps ou des sex ratio non équilibrés (Frankham et al., 2002). Chez les plantes le ratio entre densité efficace et densité observée varie entre 0.1 et 0.5 (Husband et Barrett (1992), Frankham (1995)). Les estimateurs des méthodes indirectes sont obtenus sous l hypothèse que la population est à l équilibre. Cet état d équilibre (stationnarité) est atteint après un nombre minimum de générations (voir figure 1.6) qui dépend d une part de la taille de la population ainsi que de la surface qu elle occupe relativement à la fonction de dispersion (Hardy et Vekemans, 1999). Ce nombre varie de quelques générations à plusieurs centaines (Hardy et Vekemans (1999), Leblois et al. (2003)). Les méthodes indirectes fournissent donc des estimations intégrant l histoire des populations sur plusieurs générations (Sork et al. (1999), Leblois et al. (2003)). Si ces estimations sont robustes (Leblois et al. (2003), Leblois et al. (2004)) et ont été validées par des estimations issues des observations démographiques directes (Watts et al. (2007) ainsi que les références citées dans l introduction de ce papier), elles ne peuvent pas détecter des changements rapides des flux de gènes ni les estimer à l échelle d un événement de reproduction (Sork et al., 1999). 13 Vitalis et Couvet (2001a) proposent cependant une méthode pour estimer de manière indépendante σ 2 à partir de marqueurs partiellement liés (voir aussi Vitalis et Couvet (2001b)). 27

34 CHAPITRE 1. INTRODUCTION Figure 1.6 Evolution de l Indice de Moran estimé entre paires d individus (données simulées) en fonction du nombre de générations écoulées depuis la mise en place d un isolement par la distance. L équilibre dispersion-dérive est considéré atteint entre les générations 256 et 512 dont les courbes sont identiques. Les indices sont représentés en fonction de la distance qui sépare les individus. (figure extraite de Hardy et Vekemans (1999)) De plus lorsque des marqueurs diploïdes sont utilisés, les méthodes indirectes reposant sur l isolement par la distance ne permettent pas de distinguer la dispersion du pollen de celle des graines. En effet le paramètre σ 2 intègre à la fois la distance moyenne de dispersion du pollen liée au paramètre σp 2 et celle de la dispersion des graines liée au paramètre σg, 2 d après la formule σ 2 = σg 2 + σp/2 2 (Crawford, 1984). Des estimateurs obtenus à partir de marqueurs hérités uniparentallement (chloroplastiques ou mitochondriaux) permettent de distinguer dans la taille de voisinage (i.e. Nb = 4πDσ 2 ) la contribution de la dispersion du pollen de celle des graines. Cependant cette distinction ne fournit pas une estimation de la distance de dispersion mais une estimation de son produit avec la densité efficace des pères ou des mères 14. Des méthodes indirectes ont donc été spécialement développées pour estimer la dispersion à l échelle d un événement de dispersion (contrairement aux méthodes indirectes historiques) sans connaître nécessairement tous les pères du site (contrairement aux méthodes par analyse de paternité). 14 La méthode de Vitalis et Couvet (2001a) n est pas applicable dans ce cas car les marqueurs hérité uniparentalement sont totalement liés. 28

35 1.3. HISTORIQUE DE L ESTIMATION DE LA DISPERSION DU POLLEN Les méthodes indirectes : TwoGener et Kindist Les méthodes indirectes TwoGener (Smouse et al. (2001), Austerlitz et Smouse (2001a), Austerlitz et al. (2004)) et Kindist (Robledo-Amuncio et al., 2004) estiment la dispersion du pollen en utilisant, comme le font les méthodes indirectes "historiques", un modèle d isolement par la distance (Wright, 1943). Cependant elles appliquent ce modèle à une autre échelle de temps. Plutôt que de considérer la structure génétique spatiale (SGS) des individus adultes à l équilibre, elles étudient la SGS des gamètes mâles plus précisément des nuages polliniques reçus par les mères, estimés à partir des génotypes des graines, utilisées comme des pièges à pollen. Les données collectées pour ces méthodes sont donc constituées par les génotypes des graines échantillonnées et par la position ainsi que le génotype des mères sur lesquelles elles ont été cueillies. (L ensemble des individus de la population présents sur le site étudié n est pas échantillonné contrairement aux méthodes directes). La composition en génotypes haploïdes des nuages polliniques des mères est estimée en soustrayant aux génotypes des graines le génotype de leur mère (Smouse et al., 2001). La position des nuages polliniques est donnée par la position des mères. Les méthodes TwoGener et Kindist reposent sur l expression analytique des probabilités de copaternité, i.e. la probabilité pour deux graines d être issues du même père dans le modèle d isolement par la distance, tout comme les méthodes indirectes historiques utilisent l expression des probabilités d identité par descendance (IBD). Les probabilités de copaternité peuvent être interprétées comme une simplification des probabilités d IBD, la génération de référence (i.e. celle des "ancêtres") étant celle des parents, i.e. les individus adultes. Utilisant une approche similaire à celle de Wright (1969), Austerlitz et Smouse (2001a) proposent une expression de ces probabilités utilisant une fonction de dispersion de pollen p dans le cadre d une population idéale. La fonction de dispersion de pollen p(x) représente la densité de probabilité de la position du père x pour une graine issue d une mère au centre du repère. Cette fonction modèlise donc la dispersion du pollen de la mère vers le père, nous désignerons donc cette fonction sous le terme de fonction de dispersion "backward". Il est à noter que les méthodes indirectes historiques reposent elles aussi sur des fonctions de dispersion backward (Wright (1931) comme le montrent les procédures de simulation de cette fonction (Hardy et Vekemans, 1999)). Les hypothèses concernant la population étudiée sont les suivantes : (i) la population est infinie et distribuée sur l ensemble de l espace (R 2 ), (ii) les individus sont répartis selon un processus Poissonnien (répartition "aléatoire" des individus) de densité λ (suffisamment grande), (iii) les individus ne sont pas consanguins et la répartition des allèles dans l espace est uniforme, (iv) les individus sont monoïques, équifertiles et pratiquent l autofécondation avec une probabilité dictée par la fonction de dispersion (Austerlitz et Smouse, 2001a). 29

36 CHAPITRE 1. INTRODUCTION Sous ces hypothèses, en considérant une fonction de dispersion isotrope (pour simplifier les expressions obtenues), Austerlitz et Smouse (2001a) obtiennent les expressions analytiques de Q 0 et Q(r), respectivement les probabilités de copaternité pour deux graines issues de la même mère et deux graines issues de deux mères différentes séparées par une distance r : Q 0 = 1 λ R 2 Q(r) = 1 λ p 2 (x)dx p(x)p(x r )dx, R 2 avec x r = x (r, 0). Contrairement aux expressions des probabilités d IBD utilisées dans les méthodes indirectes historiques, les expressions analytiques des probabilités de copaternité sont exactes et sont valables sur l ensemble des distances de couples. Les méthodes indirectes TwoGener et Kindist doivent faire face à la même difficulté que celle rencontrée par les méthodes indirectes historiques. Dans les données génétiques, les identités par descendance sont masquées par les identités par état. Ces méthodes ne peuvent donc pas utiliser directement la probabilité de copaternité mais des indices de la SGS des nuages polliniques. Dans la méthode TwoGener, l indice utilisé est le Φ ft, un indice de différenciation des nuages polliniques, analogue au F ST de Wright, mais à une autre échelle (Smouse et al., 2001). Le Φ ft décompose la variance des haplotypes polliniques par mère alors que le F ST décompose celle des génotypes des individus par sous-population. Le Φ ft est obtenu à partir d une AMOVA appliquée aux nuages polliniques de chaque couple de mères (Austerlitz et Smouse, 2002). La méthode Kindist utilise les indices Ψ, des corrélations de paternité des nuages polliniques estimées à partir de coefficients d apparentement, qui sont proportionnels aux probabilités d identité par état 15 (Hardy et al., 2004). Ces indices sont des analogues à l échelle d un épisode de reproduction du coefficient d apparentement proposé par Loiselle et al. (1995). Comme pour les méthodes indirectes classiques, les indices de SGS choisis peuvent être exprimés à l aide des probabilités de copaternité. Ainsi sous les hypothèses de la population idéale, pour une fonction de dispersion isotrope et une densité de population donnée, Austerlitz et Smouse (2001a) et Robledo-Arnuncio et Austerlitz (2006) montrent respectivement que ces indices ne dépendent que de r, la distance qui sépare le couple observé : 15 Ainsi ces coefficients d apparentement peuvent fournir des estimations indirectes de la probabilité de copaternité (Hardy et al., 2004), analogues à celle des méthodes directes d analyse de descendance décrites en

37 1.3. HISTORIQUE DE L ESTIMATION DE LA DISPERSION DU POLLEN.Φ ft (r) = Q 0 Q(r) 2 Q(r) (1.7) Ψ(r) = Q(r) Q 0. (1.8) Ces expressions sont exactes et valables quelque soit la distance 16 r. Le lien entre les indices de SGS et la distance est plus complexe que celui, linéaire ou log-linéaire, obtenu dans les méthodes indirectes historiques (voir figures 1.7 et 1.8). Le Φ ft est calculable analytiquement pour une fonction de dispersion Gaussienne (isotrope, de variance axiale σ 2 ), comme le montrent Austerlitz et Smouse (2001a) : Φ ft (r) = 1 e r2 /4σ 2 8πσ 2 λ e r2 /4σ 2. Cependant il est nécessaire pour la plupart des fonctions de le calculer numériquement (Austerlitz et al., 2004). L estimation des paramètres est obtenue par régression non linéaire des moindres carrés entre indices observés et indices théoriques des couples de mères. Les estimations fournies dans les méthodes indirectes TwoGener et Kindist diffèrent des méthodes indirectes "historiques" d une part parce qu elles fournissent une estimation de la dispersion à l échelle de la reproduction mais aussi parce qu elles permettent (i) une estimation complète de la fonction de dispersion : en effet la fonction de dispersion peut être caractérisée par plusieurs paramètres, un paramètre d échelle (proportionnel à σ 2 ) et un paramètre de forme (Austerlitz et al., 2004) et (ii) l estimation de σ 2 n est pas confondue avec celle de la densité λ (Austerlitz et Smouse, 2002). En effet la méthode TwoGener propose l estimation conjointe mais distincte des paramètres de la fonction de dispersion et de la densité alors que la méthode Kindist utilise un indice Ψ, indépendant de λ, et estime donc seulement les paramètres de la fonction de dispersion. Les estimations de TwoGener et Kindist sont donc complémentaires : Kindist fournit une estimation plus précise des paramètres de la fonction de dispersion (Robledo-Arnuncio et Austerlitz, 2006) alors que TwoGener permet d estimer le paramètre de densité (Austerlitz et al., 2004). Cette complémentarité peut être utilisée lors d une estimation séquentielle de ces paramètres, proposée dans le logiciel Poldisp (Robledo-Arnuncio et al., 2007) effectuant une première estimation des paramètres de p en utilisant Kindist puis en estimant seulement λ avec TwoGener, les paramètres de p étant fixés aux valeurs estimées par 16 Sous l hypothèse de dispersion limitée dans l espace, lorsque la distance devient grande (r supérieur à 5 fois la distance moyenne de dispersion (Austerlitz et Smouse, 2001a) pour une dispersion gaussienne), la probabilité de copaternité entre deux mères devient négligeable. Le Φ ft global calculé pour toutes les mères peut dans ce cas être aussi utilisé comme un estimateur indirect de la probabilité de copaternité pour une mère. 31

38 CHAPITRE 1. INTRODUCTION Figure 1.7 Indices de différenciation, Φ ft, estimés entre les nuages polliniques de couples de mères, représentés en fonction de la distance entre couples de mères. La courbe est obtenue par la formule 1.7. Données simulées. (figure extraite de Austerlitz et Smouse (2002)) Figure 1.8 Corrélations de paternité, Ψ, estimées entre les nuages polliniques de couples de mères, représentées en fonction de la distance entre couples de mères. La courbe est obtenue par la formule 1.8. Données simulées. (figure extraite de Robledo-Arnuncio et al. (2006)) 32

39 1.4. LES OBJECTIFS DE CETTE THÈSE Kindist. Comme les méthodes indirectes historiques, les calculs de TwoGener et Kindist reposent sur l hypothèse d une population idéale, elles estiment donc des paramètres efficaces. TwoGener permet notamment d estimer la densité efficace de la population λ et le nombre de pères efficaces ("effective pollen pool size", Nep = 1/Q 0 ) qui est égal à 4πσ 2 λ pour une fonction de dispersion gaussienne (Smouse et al., 2001). Comme la densité efficace issue des méthodes historiques, la densité efficace des contributeurs de pollen (qui est égale à celle de la population dans le modèle car les individus sont monoïques) est souvent plus faible que celle observée. En effet les hypothèses concernant la population sont rarement toutes vérifiées, ce qui modifie la densité efficace. Ceci est le cas lorsque la répartition des individus n est pas poissonnienne (Austerlitz et al. (2004),Robledo-Arnuncio et Austerlitz (2006)), lorsqu il existe des décalages phénologiques (Robledo-Arnuncio et al., 2006), lorsque les individus ne sont pas équifertiles (Klein et al., 2008)... Il existe plusieurs "variantes" de la méthode TwoGener permettant de modifier les hypothèses de base de cette méthode : (i) en modifiant l expression analytique des Φ ft théoriques pour prendre en compte la consanguinité ou la structure spatiale des génotypes adultes (bien que cette dernière modification n ait jamais été utilisée pour l estimation) (Austerlitz et Smouse, 2001b) ou un taux d autofécondation différent (Burczyk et Koralewski (2005)) (ii) en modifiant l estimation par l AMOVA des Φ ft observés pour extraire de la composition des nuages polliniques des effets autres que ceux de la distance comme les effets de covariables environnementales (Dyer et al., 2004) ou des années (Irwin et al., 2003) ou (iii) en modifiant la forme de la fonction de dispersion utilisée permettant une dispersion anisotropique (Austerlitz et al., 2007). 1.4 Les objectifs de cette thèse En conclusion, pour estimer la dispersion du pollen, une des composantes des flux de gènes, à l échelle d un épisode de reproduction, il existe actuellement deux types d approche qui se distinguent (i) par la manière dont elles utilisent les données, de manière directe ou indirecte et (ii) par le point de vue qu elles adoptent lors de leur analyse du système de reproduction des plantes. Les premières méthodes, par modèle d appariement ("mating model methods"), modélisent la dispersion du point de vue des pères et sont issues des méthodes d analyse de paternité et de décomposition du succès reproducteur mâle. Elles proposent, sous réserve d une connaissance exhaustive de la population du site étudié, d estimer une fonction de dispersion de type "forward" modélisant la dispersion du pollen des pères vers les mères selon un modèle statistico- 33

40 CHAPITRE 1. INTRODUCTION mécaniste. Les secondes méthodes adoptent le point de vue des mères, reposant sur les probabilités de copaternité de leurs graines, qu elles modélisent sous un modèle d isolement par la distance. La fonction de dispersion qu elles estiment est ainsi une fonction backward qui modélise la dispersion du pollen depuis la mère jusqu au père. Ces deux types de méthodes, directes forward et indirectes backward, ne nécessitent pas le même échantillonnage, les méthodes directes nécessitant une observation bien plus complète, et la précision de leurs estimations respectives a déjà été comparée (Smouse et Sork (2004), Burczyk et Koralewski (2005)), montrant que les méthodes indirectes backward, bien que fournissant des estimations valables, étaient moins précises que les méthodes directes forward. Dans cette thèse, nos objectifs sont dans une première partie de montrer pourquoi les fonctions de dispersions backward et forward ne sont pas équivalentes mais complémentaires et dans une seconde partie de montrer comment en utilisant une approche simulatoire par calcul bayésien approché (Approximate Bayesian Computation), il est possible de dépasser certaines limites de ces méthodes, en proposant des approches intermédiaires (indirecte forward en particulier). 34

41 CHAPITRE 2 MODÉLISER LA DISPERSION DU POLLEN : APPROCHES FORWARD/BACKWARD Deux questions existentielles : D où viens-je? Où vais-je? 2.1 Les méthodes actuelles d estimation de la dispersion du pollen Il existe actuellement deux types de méthodes pour estimer la dispersion du pollen à l échelle d un épisode de reproduction : (i) les méthodes directes que nous nommerons les méthodes par mating models (Burczyk et al. (2002), Oddou-Muratorio et al. (2005)) et (ii) les méthodes indirectes TwoGener (Smouse et al. (2001), Austerlitz et Smouse (2001a), Austerlitz et al. (2004)) et Kindist (Robledo-Arnuncio et al., 2006) (que nous avons présentées à la section 1.3). Ces méthodes sont le plus souvent distinguées selon les données qu elles nécessitent. Ici nous proposons une comparaison plus complète de ces deux types de méthodes Un objectif commun aux deux approches Quelque soit l approche envisagée, ces méthodes possèdent un même objectif : estimer une fonction de dispersion du pollen. Cette fonction est définie comme étant la densité de probabilité de la position d "arrivée" du pollen relativement à sa position de départ ou inversement. Cette définition est générale, nous montrerons plus tard que les définitions plus précises entre les fonctions utilisées dans les méthodes dans les mating models et celles des méthodes indirectes diffèrent. L estimation de ces fonctions est réalisée sous un modèle paramétrique, i.e. l estimation de la fonction de dispersion consiste en l estimation des paramètres, la famille de fonctions ayant été choisie préalablement. Les familles de fonctions les plus couramment utilisées sont définies en fonction de deux paramètres : un paramètre d échelle lié à la distance moyenne de dispersion et un paramètre de forme lié à la décroissance de la courbe (Austerlitz et al., 2004). Les fonctions sont le plus souvent isotropes (la dispersion ne dépend que de la distance et non pas de l orientation) mais un paramètre d anisotropie peut aussi être ajouté (Austerlitz et al., 2007).

42 CHAPITRE 2. FORWARD/BACKWARD Des données différentes Le type de données utilisé par les deux approches est le même : les génotypes d individus adultes et de leurs futurs descendants i.e. les graines 1, ainsi que les positions des individus adultes. Par la suite, nous désignerons par mères, les individus sur lesquels les graines ont été échantillonnées et par pères (sous-entendus potentiels) les autres individus dont les graines n ont pas été échantillonnées. Le plus souvent les individus sont supposés monoïques, ils sont donc potentiellement à la fois père et mère. Le terme nuage pollinique désignera l ensemble de grains de pollen reçus par une mère, échantillonné par le biais des graines. Les méthodes par mating model nécessitent un échantillonnage exhaustif : sur le site étudié tous les individus doivent être localisés et génotypés. De plus un échantillon de graines de ces individus doit aussi être génotypé. Sur la zone étudiée, il faut donc connaître certaines mères (positions et génotypes) et leurs graines (génotypes) ainsi que tous les pères potentiels (positions et génotypes). Les méthodes indirectes nécessitent seulement un échantillonnage partiel : seules certaines mères et leurs graines sont nécessaires. Les mères doivent être choisies de manière à ce que les distances entre les différents couples de mères soient réparties également selon une gamme de distances étendue. Cette gamme doit débuter par des distances très faibles mais aussi contenir des distances suffisamment grandes pour que les grains de pollen reçus par ces mères très éloignées puissent être considérés comme indépendants (i.e. comme provenant de pères différents). La règle empirique énoncée par Austerlitz et Smouse (2002) propose que la distance moyenne entre couples de mères soit égale ou supérieure à cinq fois la distance moyenne de dispersion. Concernant la disposition spatiale des mères, il est possible d adapter la discussion de Vekemans et Hardy (2004) concernant l échantillonnage des individus dans le cadre des méthodes indirectes "historiques" aux mères Des méthodes d estimation différentes Les méthodes par mating model utilisent l information de manière directe : elles reposent sur la vraisemblance des génotypes des graines conditionnellement à l information connue i.e. la position et le génotype de leurs mères ainsi que ceux de leurs pères potentiels dans le site étudié (équation 1.4). Connaissant la vraisemblance des données, l estimation peut être obtenue par les méthodes statistiques classiques aussi bien dans le cadre de la statistique fréquentiste par maximum de vraisemblance (Oddou-Muratorio et al., 2005), que dans le cadre bayésien (Klein et al., 2008). 1 Ce sont ces données, échantillonnées sur deux générations d individus, qui ont donné son nom à la méthode TwoGener. Bien que dans le cadre de l estimation de la dispersion du pollen, ce type de données est commun à toutes les méthodes. 36

43 2.1. LES MÉTHODES ACTUELLES Les méthodes indirectes utilisent l information de manière indirecte, en la synthétisant sous forme de statistiques-résumées. Ces statistiques-résumées sont calculées entre les nuages polliniques de chaque couple de mères. L estimation est effectuée par méthode des moments en utilisant l expression analytique de ces statistiques-résumées en fonction des paramètres de la fonction de dispersion. Ainsi l estimation est obtenue par minimisation de l écart entre les statistiques-résumées observées et leur expression analytique. Ces statistiques-résumées sont corrélées par construction, chaque mère intervenant dans plusieurs couples et de par leur échantillonnage, les nuages polliniques de mères proches n étant pas indépendants (i.e. les grains de pollen qui les composent sont partiellement issus des mêmes pères). Si cette corrélation est prise en compte pour un couple donné, les expressions utilisées ne prennent pas en compte les corrélations entre les statistiques-résumées des couples proches. Considérant trois mères proches A, B, C, l expression des statistiques-résumées modélise les similitudes entre (A, B), (B, C) et (C, A) mais ne prennent pas en compte le fait que ces trois statistiques-résumées sont corrélées. L estimation dans ce cadre ne fournit donc que des estimations ponctuelles. Le calcul d intervalles de confiance nécessiterait le calcul de la matrice de variance-covariance de l expression analytiques des statistiques-résumées, inaccessible actuellement Deux modèles de dispersion du pollen Bien plus que les différences que nous venons d exposer, ce qui oppose ces deux approches, ce sont les modèles qu elles utilisent. Les méthodes par mating model utilisent un modèle que nous désignerons par forward, alors que les méthodes indirectes utilisent un modèle backward. Les méthodes par mating model décrivent la dispersion par un modèle statistico-mécaniste. La fonction de dispersion décrit le déplacement du pollen de sa source jusqu à son point d arrivée. Les grains de pollen arrivent donc indifféremment en des points occupés ou non par une mère. La probabilité de fécondation est calculée selon la loi d action de masse et de plus les événements de fécondation sont supposés indépendants. Ainsi chaque grain de pollen "arrivant" sur une mère possède la même probabilité de la féconder. La probabilité pour un père de féconder une mère est donc égale à la quantité de pollen que la mère reçoit de ce père relativement à la quantité totale de pollen reçue par cette mère. Nous désignons ce modèle par le terme forward car il décrit la dispersion dans le sens du déplacement du pollen de son point de départ jusqu à son point d arrivée. La fonction de dispersion utilisée dans ce modèle sera aussi nommée forward. Nous pouvons ajouter que cette fonction de dispersion est une fonction forward potentielle car la réussite de la fécondation d une mère n est pas incluse dans cette fonction. Cependant cette vision de la "potentialité" diffère de celle des méthodes qui n utilisent pas de données génétiques. Dans leur cas, le terme potentiel signifie que certains aspects de la dispersion "efficace" ne sont pas pris en compte comme la viabilité du pollen dans les études par 37

44 CHAPITRE 2. FORWARD/BACKWARD capture par pièges à pollen physiques (Bateman, 1947) ou le réel transport du pollen comme dans les études reposant sur l observation des déplacements des pollinisateurs (Campbell et Waser, 1989). Les modèles des méthodes indirectes utilisent un modèle empirique i.e. totalement statistique estimant la dispersion moyenne attendue. Nous désignerons ce modèle sous le terme backward car la fonction de dispersion utilisée retrace le transport du pollen à l envers de la mère vers son père. En effet, la fonction backward est la probabilité de densité de la position du père d un graine connaissant la position de sa mère (Austerlitz et Smouse, 2001a). La fonction backward utilisée est donc une fonction backward réalisée par opposition au terme potentiel précédemment utilisé car elle inclut la probabilité de fécondation. Dans ce modèle, aucune hypothèse concernant la compétition entre les grains de pollen lors de la fécondation n est effectuée, à la différence du modèle forward qui utilise celle de la loi d action de masse Deux modèles de fertilités Le modèle backward suppose l équifertilité des individus. Les positions des pères étant inconnues, la densité du peuplement (supposé réparti selon un processus Poissonnien i.e. de manière "complétement aléatoire") est estimée dans la méthode TwoGener (Austerlitz et Smouse, 2002). La densité ainsi estimée peut être qualifiée d "efficace",λ e car elle correspond à celle qu aurait une population "idéale" dont la structure génétique spatiale des nuages polliniques serait identique à celle de la population considérée. Plus précisément, elle est définie par (Austerlitz et Smouse, 2002), comme le nombre de pères par unité d aire qui auraient donné une probabilité de copaternité avant dispersion, égale à celle observée. Au contraire, les modèles forward permettent l introduction de variables de fertilités individuelles, F k représentées par une variable aléatoire (Klein et al., 2008) ou décrites par des covariables explicatives (Oddou-Muratorio et al., 2005). La variance estimée de ces fertilités est liée au ratio entre la densité efficace de la population λ e et la densité observée λ obs selon la relation (Oddou-Muratorio et al. (2005) ; Supplementary material I) : λ obs λ e = V ar(f k) + E(F k ) 2 E(F k ) 2. Les méthodes indirectes produisent donc un estimateur direct de la "densité efficace" alors que les méthodes directes peuvent estimer ce paramètre indirectement. Les performances de ces estimations sont discutées dans le manuscrit Klein et al. (in prep) en annexe II. 38

45 2.2. COMPARAISON DES DEUX MODÈLES Premières conclusions Les méthodes directes et indirectes utilisées actuellement pour estimer la dispersion peuvent donc être désignées plus précisément en utilisant les termes respectifs de méthodes directes par vraisemblance utilisant des fonctions de dispersion de type forward potentielle et méthodes indirectes par moindres carrés utilisant des fonctions de type backward réalisée. Dans ce chapitre nous nous intéresserons principalement aux différences entre les modèles forward et backward, en montrant quelles sont les contraintes d un modèle forward répondant à la question "Où va le pollen?" et surtout celles d un modèle backward qui cherche "D où vient-il?". 2.2 Comparaison des deux modèles Nous proposons de comparer les modèles forward et backward en formalisant tout d abord leur fonction de dispersion puis en comparant ces fonctions Formalisation théorique des fonctions de dispersion La fonction de dispersion Forward La fonctions de dispersion forward est supposée identique pour chaque individu et est indépendante de la répartition des autres individus. La répartition des individus autour du point d arrivée n influe donc pas sur la dispersion du pollen. Seule la quantité de pollen issu de ces individus arrivant sur le point d arrivée modifiera la probabilité de fécondation. La fonction de dispersion forward n est pas contrainte. Elle décrit le point d arrivée (indépendamment d un événement éventuel de fécondation) d un grain de pollen connaissant la position de son père. Elle est choisie parmi des familles de fonctions de densité de probabilité 2 (Oddou-Muratorio et al., 2005) La fonction de dispersion Backward La fonction backward est définie comme la densité de probabilité de la position en x du père d un graine connaissant la position de sa mère en 0 (Austerlitz et Smouse, 2001a). Elle inclut donc implicitement deux événements : (i) l existence d un père en x et (ii) la fécondation de la mère par ce père. Pour mieux comprendre la fonction de dispersion backward, il est donc 2 Dans les premiers modèles (Smouse et al. (1999), Burczyk et al. (2002)), la fonction de dispersion n est pas définie explicitement comme une fonction de densité de probabilité mais choisie parmi des familles de fonctions représentant des fonctions de densité à une constante près (i.e. l intégrale de ces fonctions sur l ensemble des positions possibles) qui disparaît lors du calcul des rapports des contributions. 39

46 CHAPITRE 2. FORWARD/BACKWARD nécessaire de prendre en compte ces deux événements. Détermination des contraintes issues de la définition de la fonction backward Contrairement à une idée répandue, la fonction de dispersion backward ne peut pas être choisie indépendamment de la répartition spatiale des individus de la population. En effet la définition donnée ci-dessus engendre des contraintes sur cette fonction. Nous définirons tout d abord ces contraintes en utilisant la même hypothèse de répartition spatiale des individus que celle utilisée dans les méthodes indirectes i.e. les positions des individus sont issus d un processus poissonnien spatial : la densité des individus est constante dans l espace et leurs positions sont indépendantes. La densité des individus sera notée λ. Sous l hypothèse d absence de structuration spatiale des individus de la population La mère est placée à l origine des axes des coordonnées en 0 (pour des raisons de lisibilité dans la suite des calculs, nous utiliserons cette écriture unidimensionnelle pour identifier les positions bidimensionnelles). Nous supposerons dans cette partie que l autofécondation n est pas possible i.e. la mère est exclue des pères potentiels. Nous définirons la fonction de dispersion backward p(x, λ) en fonction de x la position de provenance considérée et λ, la densité de la population. La probabilité qu une graine provienne de l aire dx, une surface centrée autour de la position x, supposée très petite peut être décomposée ainsi : p(x, λ)dx = h(x, λ)λdx (2.1) avec h(x, λ) la probabilité pour un père en x de polliniser la mère en 0 sachant que la densité de la population est égale à λ et sachant qu il existe un père en x et λdx est la probabilité d existence d un arbre en x selon la définition du processus poissonnien (pour plus de détails voir Diggle (1983)). Or h(x, λ) est une probabilité (et non une fonction de densité), elle doit donc être comprise entre 0 et 1. En conséquence, la fonction de dispersion est contrainte avec quelque soit x dans R 2 : 0 p(x, λ) λ (2.2) La fonction p(x, λ) est une densité de probabilité ainsi par définition, elle est positive sur R 2. Néanmoins la formalisation de cette fonction fait intervenir une nouvelle contrainte dépendant de la densité du peuplement. Il est à noter que plus la densité de la population sera faible et plus cette contrainte sera forte. 40

47 2.2. COMPARAISON DES DEUX MODÈLES Ainsi si la famille de densités choisies pour la backward est la gaussienne définie par f(x) = 1 2πσ 2 e x 2 /2σ 2 avec x 2 la distance au carré entre la position x et 0, alors la fonction backward n aura de sens que pour σ 2 > 1/(2πλ). De même si la famille choisie est celle des exponentielles, définie ainsi f(x) = 1 2πθ 2 e x /θ, la fonction backward devra par définition vérifier θ 2 > 1/(2πλ). Conséquences sur les simulations en backward Nous avons montré que la fonction de dispersion backward inclut deux événements distincts : l existence d un père et la fécondation de la mère par ce père. Cependant la modélisation integrative de la fonction backward pose problème lors de la simulation du processus. En effet il n est pas possible pour chaque graine étudiée de tirer un nouveau père d après la fonction backward. Austerlitz et Smouse (2001a) proposent donc de simuler tout d abord les pères d après un processus poissonnien de densité fixée puis d attribuer un père à chaque graine simulée en (i) tirant une position d après la fonction backward et (ii) en choisissant parmi les pères simulés, le père le plus proche de cette position. Dans l annexe III, nous montrons que cette procédure introduit un biais dans la simulation effectuée si la densité est faible et nous proposons une méthode pour le corriger. Cependant notre méthode restreint les familles de fonction de dispersion backward et le calcul de cette correction peut être relativement lourd. Il n est donc pas aisé de simuler en backward surtout lorsque la densité est faible. Cas de l autofécondation Si l on suppose que l autofécondation est possible i.e. que la mère est père potentiel alors la probabilité d existence d un père en 0 est certaine (égale à 1) : il existe un père en 0, la mère. La probabilité d un père sur dx lorsque x appartient à R 2, privé du point 0 est identique au cas précédent i.e. égale à λdx. Supposant que la probabilité d autofécondation est constante pour toutes les mères et que sa valeur est égale à s, la décomposition de la fonction backward donnée à l équation 2.1 devient : p(x, λ) = s1 {x=0} + 1 {x 0} (1 s)h(x, λ)λ (2.3) avec 1 {x=0} égal à 1 quand x = 0, égal à 0 sinon. Dans ce cadre la contrainte de la fonction backward est multipliée par 1 s. Dans le manuscrit Carpentier et al. (en soumission) en annexe IV, nous montrons ainsi, d après les résultats analytiques présentés ci-dessus, que dans les méthodes indirectes actuelles (Austerlitz et Smouse (2002) et Robledo-Arnuncio et al. (2006)), la probabilité d autofécon- 41

48 CHAPITRE 2. FORWARD/BACKWARD dation, s, n est pas dictée par la fonction de dispersion mais est considérée comme nulle. Par simulations, nous montrons que lorsque celle-ci n est pas nulle, elle peut engendrer des biais dans les estimations (de la distance de dispersion mais aussi de la densité). Plus précisément, ces biais apparaissent lorsque le nombre de pères efficaces calculé sur les graines allofécondées (Nep out ) est supérieur à 2/s 1. Par conséquent, lorsque Nep out est inconnu, ces méthodes ne devraient être appliquées que sur des espèces strictement allogame. Dans le cas de populations dont le régime de reproduction est mixte, nous proposons deux méthodes : (i) modifier le jeux de données en enlevant toutes les graines potentiellement autofécondées (déterminées à partir de leur génotype et celui de leur mère) et (ii) introduire une probabilité d autofécondation (constante pour les différentes mères) dans les équations des méthodes directes en utilisant la formule 2.6 et ainsi estimer un nouveau paramètre. Nos résultats par simulations montrent que la première méthode est la plus adaptée à l étude de la dispersion en présence d autofécondation. La seconde méthode pouvant être utilisée de manière séquentielle pour estimer la probabilité d autofécondation, les autres paramètres étant fixés aux valeurs estimées par la première méthode. Cette probabilité d autofécondation estimée peut être considérée comme "efficace", car elle correspond à celle d un modèle idéal où entre autres, les individus sont supposés non apparentés, de manière analogue à la probabilité d autofécondation estimée par le F IS (voir section 1.2.2). Elle représente donc les effets des événements d autofécondation mais aussi ceux des croisement consanguins dans la structure génétique spatiale des nuages polliniques. Pour déconnecter cette estimation des croisements consanguins, il serait possible d introduire dans la méthode TwoGener une estimation du coefficient de consanguinité des individus (F IS ) Austerlitz et Smouse (2001b), ou une nouvelle statistique indépendante du F IS analogue au a r proposée par Rousset (2000), ces modifications n étant pas nécessaires dans la méthode Kindist qui, par construction des Ψ, doit être robuste à la variation de F IS (O. Hardy, communication personnelle). Dépasser l hypothèse d absence de structuration spatiale des individus de la population Supposons que les positions des individus sont corrélées spatialement et que la corrélation entre l individu au point 0 et un autre en x est déterminée par la fonction de corrélation de paire r 0 (x), telle que la probabilité qu il existe un individu en x + dx sachant qu il existe un individu en 0 est égale à r 0 (x)λdx. Par exemple, dans le cas du processus poissonnien r 0 (x) = 1 quelque soit x, alors que dans le cas d un processus agrégé (avec des agrégats de rayon ɛ), pour x < ɛ, on a r 0 (x) > 1. Sous cette hypothèse, la décomposition de la fonction backward donnée à l équation 2.6 devient : p(x, λ) = s1 {x=0} + 1 {x 0} (1 s)h(x, λ)r 0 (x)λ (2.4) 42

49 2.2. COMPARAISON DES DEUX MODÈLES Deux contraintes apparaissent ici à la fois fixées par la densité λ, la probabilité d autofécondation s mais aussi la fonction de corrélation de paire r 0 (x) choisie. La première est similaire aux précédentes, la fonction backward doit vérifier : 0 p(x, λ) λ(1 s)r 0 (x) (2.5) La seconde contrainte est plus complexe. Selon la fonction de corrélation de paire choisie (i.e. le processus de points considéré), toutes les familles de fonctions de dispersion ne sont plus cohérentes. La fonction de dispersion backward ne peut être non nulle que lorsque la fonction de corrélation de paire ne l est pas non plus. Par exemple dans le cadre d un processus hardcore, dans un rayon R autour d un individu, il n y a aucun autre individu. Ce processus est donc défini tel que pour x < R, on a r 0 (x) = 0. Les familles actuelles de fonctions de dispersion qui supposent une probabilité non nulle sur l espace ne sont donc pas directement utilisables pour ce modèle. Introduction de la position des autres pères connus : les mères Il est possible d introduire dans la fonction backward la connaissance de la position d autres pères potentiels en plus de celle concernant l existence d une mère en 0. Dans les calculs suivants nous supposerons que la mère est un père comme un autre, autrement dit que sa probabilité de féconder un père est dictée par la fonction de dispersion. D une part ceci nous permet d introduire une autre hypothèse concernant l autofécondation et d autre part ceci améliore la lisibilité des calculs. Notons X, le processus des positions des individus. Parmi ces positions, X, nous pouvons différencier X, la position des points connus qui comprend la position 0, celle de la mère, les positions des autres individus connus qui représentent les autres mères échantillonnées et localisées mais peuvent aussi intégrer d autres individus dont seule la position est connue. Pour prendre en compte toutes les positions connues, nous utiliserons λr X(x) l intensité de la mesure de Palm (Stoyan et al., 1987) qui est la généralisation à n points connus de la fonction de corrélation de paire (où n = 1). Ainsi connaissant les positions X, la probabilité qu il existe un individu sur la surface dx sera égale à r X(x)λ. La décomposition de la backward devient ainsi : p(x, λ) = 1 {x X} h(x, λ) + 1 {x X} h(x, λ)r X(x)λ. (2.6) Les mêmes contraintes que celles relevées dans la partie précédente s appliquent à cette fonction backward. 43

50 CHAPITRE 2. FORWARD/BACKWARD Les fonctions forward et backward ne sont donc pas définies de manière identique. La fonction forward, modélisant seulement le trajet parcouru par le pollen depuis le père, est une fonction de densité libre, alors que la fonction backward qui modélise la dispersion de manière globale intégrant à la fois le trajet du pollen, la fécondation de la mère mais aussi l existence d un père, est contrainte par le processus des individus Dans un cadre "idéal", les fonctions de dispersion backward et forward sont équivalentes En nous plaçant dans un cadre "idéal", nous montrons dans cette partie de manière théorique la convergence de la fonction de dispersion forward vers la fonction de dispersion backward lorsque la densité tend vers l infini. Nous montrons ainsi que les fonctions backward et forward sont équivalentes lorsque l on se place dans un cadre "idéal", i.e. la compétition au sein d un nuage pollinique suit bien la loi d action de masse supposée par le modèle forward et la population est répartie selon un processus poissonnien dont la densité est très grande (théoriquement infinie) Propriété Si la dispersion s effectue sous un modèle forward (que les mouvements des grains de pollen sont indépendants et décrits par une fonction forward, que les événements de fécondation sont indépendants et que leurs probabilités sont dictées par la loi d action de masse), et que les individus sont équifertiles et répartis selon un processus poissonnien de densité λ sur R 2, alors la fonction de dispersion backward p converge vers la fonction de dispersion forward f lorsque la densité tend vers l infini selon la formule suivante : p(x) λ f(x). Plus précisément, si on définit Z λ, la variable aléatoire de la probabilité pour une mère en 0 d être fécondée par un père appartenant à la surface V : avec Σ = 1 λ Σ tel que Z λ E(Z λ ) = V p(x)dx L N ( f(x)dx, Σ) λ V 44

51 2.2. COMPARAISON DES DEUX MODÈLES Σ = f(x)dx 2 f(x)dx + f(x)dx 2 f(x)dx, V V V V et V, la surface complémentaire à V sur R Démonstration Décomposition de la probabilité Z λ On pose Z λ, la variable aléatoire égale à la probabilité pour une mère en 0 d être fécondée par un père appartenant à la surface V. On note K(0, V ) une quantité proportionnelle à la quantité de pollen reçu par une mère en 0 des pères appartenant à V. Sous l hypothèse de "mass-action", la probabilité Z λ s exprime sous la forme suivante : Z λ = Pr(Une mère en 0 est fécondée par un père appartenant à V) K(0, V ) = Quantité totale de pollen reçu par une mère en0 K(0, V ) = K(0, V ) + K(0, V ), (2.7) avec V la surface complémentaire de V sur R 2. (2.8) Calcul de la convergence asymptotique de K(0, V ) Soit N, le nombre d individus dans V. D après l hypothèse de processus poissonnien, N suit une loi de Poisson de paramètre λv. La quantité, K(0, V ), proportionnelle à la quantité de pollen reçue au point 0, décrite dans le modèle forward est définie comme N f(x i ), avec x i, la position de l individu i, si l on suppose les individus équifertiles. On pose i=1 X V = 1 λ K(0, V ) = 1 λ N f(x i ). i=1 On note Φ XV, la transformée de Laplace de X V. 45

52 CHAPITRE 2. FORWARD/BACKWARD Φ XV (s) = E[e s X V ] = E[e s λ N f(x i ) i=1 ] = E N [ E(e sx V N = n)] = Pr(N = n) E[e n s f(x λ i ) i=1 N = n] = = n=0 n=0 n=0 (λv ) n e λv E V [e s f(x λ i ) i=1 N = n] n! n (λv ) n e λv [E V (e s λ f(x) )] n n! En effectuant le développement limité de E V (e s λ f(x) ) au second ordre, on obtient : E V (e s λ f(x) ) = E V (1 s λ = 1 s λv f(x) + s2 2λ 2 f 2 (x) + o( s2 V f(x) dx + s2 2λ 2 V V λ 2 )) f 2 (x) dx + o( s2 λ 2 ) D où Φ XV (s) = Or e x = n=0 + n=0 x n n!, (λv ) n n! n=0 e λv [ 1 s λv V f(x) dx + s2 2λ 2 V V ] n f 2 (x) dx + o( s2 λ ) 2 C est pourquoi (2.9) [ ] n + λv (1 s s2 f(x) dx + Φ XV (s) = e λv λv V 2λ 2 V V f 2 (x) dx + o( s2 ) λ 2 n! log Φ XV (s) = s = e λv s s2 λv [1 e λv V f(x) dx+ 2λ 2 V V f(x) dx + s2 2λ V V f 2 (x) dx+o( s2 λ 2 )] f 2 (x) dx + o( s2 λ 2 ) (2.10) Ainsi λ (log Φ XV + s f(x) dx) V λ s 2 2 V f 2 (x) dx Remarquons que la transformée de Laplace, Φ X d une variable aléatoire X suivant une loi 46

53 2.2. COMPARAISON DES DEUX MODÈLES normale de moyenne m et de variance σ 2 est égale à : Φ X (s) = E(e sx ) = exp( sm + σ2 s 2 2 ) ou log Φ X (s) = sm + s2 σ 2 Si deux variables aléatoires possèdent la même transformée de Laplace, alors elles suivent la même loi. Par conséquent, lorsque λ, X V que : 2 converge en loi vers une loi normale telle λ(xv V f(x) dx) L N ( 0, V f 2 (x) dx ) (2.11) Calcul de la convergence asymptotique de K(0, V ) La surface V, la surface complémentaire à V sur R 2 est infinie. Nous allons tout d abord considérer une surface finie V R, l intersection entre V, et B(0, R), une boule de centre 0 et de rayon R, fini. D après l équation 2.9, on a : Or logφ XVR (s) = s lim V R = V, R f(x) dx + VR s2 f 2λ VR 2 (x) dx + o( s2 λ ) 2 log Φ XV (s) = lim log Φ X VR (s) R = s f(x) dx + s2 2λ V V f 2 (x) dx + o( s2 λ 2 ) tel que X V possède donc un comportement asymptotique similaire à celui de X V (équation 2.11), λ(xv V f(x) dx) L N ( 0, V f 2 (x) dx ) (2.12) Calcul de la convergence asymptotique de Z λ La variable aléatoire, Z λ, probabilité de fécondation d une mère en 0 par un père appartenant à V peut être décomposée non plus en fonction des quantités K mais des quantités renormalisées X. La formule 2.7 devient alors : Z λ = X V X V + X V, = g(w λ ) (2.13) 47

54 CHAPITRE 2. FORWARD/BACKWARD avec W λ = ( X V X V ) et g(( x 1 x 2 )) = x 1 x 1 + x 2. D après les équations 2.11 et 2.12 et l hypothèse d indépendance des événements de dispersion, lorsque λ, avec λ ( W λ ( V f(x)dx V f(x)dx )) L λ N (0, Σ W ) ( V Σ W = f 2 (x)dx 0 0 f 2 (x)dx V ). car De plus, g est continûment différentiable au point θ = f(x)dx + f(x)dx = 1 ( V f(x)dx V f(x)dx ) et g(θ) = V f(x)dx, V V et g (( x 1 x 2 )) = g x 1 g x 2 = x 1 1 x 1 + x 2 (x 1 + x 2 ) x 2 1 (x 1 + x 2 ) 2. Il est donc possible d appliquer la delta-méthode à g(w λ ) (Dacunha-Castelle et Duflo, 1983). Nous obtenons ainsi : λ (g(wλ ) g(θ)) L N (0, ġ(θ)σ W ġ(θ) T ) Soit λ Z λ f(x)dx L N (0, Σ ) V avec Σ = ( V f(x)dx ) 2 V ( f(x)dx + V ) 2 f(x)dx f(x)dx. V 48

55 2.2. COMPARAISON DES DEUX MODÈLES Comparaison des fonctions backward et forward sous d autres processus ponctuels Lien théorique entre fonction backward et fonction forward quelque soit le processus Dans cette partie nous proposons l expression backward en fonction de la fonction forward et du processus ponctuel supposé des positions des individus de la population. Comme nous l avons présenté précédemment la fonction backward intègre d une part la probabilité de l existence d un père mais aussi la probabilité pour un père donné de féconder la mère en 0. Pour relier la fonction forward à la fonction backward nous intégrerons le modèle forward dans la fonction backward par le biais de cette dernière probabilité. En effet, le modèle forward décrit précisément la probabilité pour une mère d être fécondée par un père donné connaissant tous les pères. Sous l hypothèse de loi d action de masse du modèle forward, la probabilité pour une mère en 0 d être fécondée par un père en x, connaissant tous les pères est égale à avec f la fonction de dispersion forward. f(x) f(j), j X La décomposition de la fonction backward sous un processus ponctuel quelconque admettant une mesure de Palm d intensité finie conditionnellement à X que nous avons présentée précédemment à l équation 2.6 était (sous l hypothèse que la mère est un père comme un autre) : p(x, λ) = 1 {x X} h(x, λ) + 1 {x X} h(x, λ)r X(x)λ. Nous avions dans cette formule défini h(x, λ) la probabilité pour un père en x de féconder une mère en 0, indépendante du processus de point. Elle apparaissait ne dépendre que de la densité λ. Pour pouvoir intégrer les hypothèses de l approche forward dans cette probabilité, nous devons la redéfinir en fonction de X, processus de points des positions des individus de la population. Cela donne : h(x, X) = f(x) f(j) j X (2.14) Or comme une partie des points de X est inconnue, il est nécessaire d utiliser l espérance de cette probabilité sous le processus, i.e. la valeur moyenne de cette probabilité attendue selon les hypothèses effectuées sur le processus ponctuel. Nous utiliserons donc E X\{ X,x} (h(x, X)). L espérance est calculée sous le processus des points X privés des points connus X et du point x, car la probabilité que nous calculons implique l existence d un père en x (l incertitude concernant l existence d un père en x sera prise en compte par le facteur r X(x)λ). Nous 49

56 CHAPITRE 2. FORWARD/BACKWARD obtenons ainsi la formule théorique du lien entre fonction de dispersion forward f et backward p : p(x, λ) = 1 {x X} E X\{ X,x} f(x) + 1 f(j) {x X} E X\{ X,x} f(x) r X(x)λ. f(j) j X Si l on ne connaît aucun point en dehors de la mère cette formule devient : j X p(x, λ) = E X\{x,0} f(x) r 0 (x)λ. (2.15) f(j) Une expression analytique de la fonction backward par une fonction forward quelconque plus développée que celle donnée dans à l équation 2.15 est difficilement atteignable. A titre d exemple les calculs de convergence montrés précédemment sont la résolution analytique de cette formule sous processus poissonnien (i.e. r 0 (x) ( = 1) ) lorsque λ tend vers l infini. Cette f(x) difficulté est principalement imputable à E X\{x,0}. Néanmoins en considérant une j X f(j) j X fonction particulière et un processus de point particulier, il est vraisemblablement possible d obtenir une résolution numérique de cette formule. Les calculs seront d autant plus simples que le nombre de points connus sera grand et que ces derniers seront proches de la mère et bien évidemment que le processus de points considéré sera simple (i.e. r X(x) connu analytiquement). Il est donc possible connaissant une fonction forward et un processus de points de retrouver la fonction backward correspondante. Cependant les deux fonctions ne sont pas symétriques. L approche forward possède un modèle plus complet que celui de la backward car cette dernière ne modélise pas explicitement la fécondation pollinique. Ainsi sans modifier les hypothèses admises dans le modèle forward, il est possible de recalculer la fonction backward. Alors que pour l obtention de la fonction forward correspondant à une fonction backward donnée nécessitera d ajouter au modèle backward les hypothèses de loi d action de masse En pratique? Nous avons montré que les fonctions backward et forward ne sont théoriquement équivalentes que lorsque les individus étaient répartis de manière poissonnienne et que leur densité tendait vers l infini. La comparaison entre ces deux types de fonctions pour différents types de processus de points a déjà été étudiée de manière simulatoire dans de précédents papiers, bien que les résultats n aient pas été exprimés en terme de dispersion forward et backward. 50

57 2.2. COMPARAISON DES DEUX MODÈLES Meagher et Vassiliadis (2003) ont ainsi comparé la fonction forward réalisée ("reproductive success" en fonction de la distance entre "mating plants", équivalente à la fonction backward si les individus sont monoïques) en fonction de différentes fonctions forward potentielles (de type exponentiel de paramètre γ) sous différents processus de points : (a) poissonnien, (b) régulier (hexagonal), (c et d) agrégés (totalement ou mélangé à un processus poissonnien) (voir figure 2.1). Ils montrent ainsi que les différentes fonctions backwards sont relativement similaires aux fonctions forward pour les processus poissonniens et réguliers (voir figures 2.2 (a) et (b)) mais significativement différentes (en terme de quartile des fonctions cumulées) lorsque le processus est agrégé (principalement pour le premier quartile de distances qui est plus élevé, figure 2.2 (c) ) et surtout lorsque le processus de points est un mélange de processus poissonnien et agrégé (pour les deux premiers quartiles plus grands, figure 2.2 (d)). Robledo-Arnuncio et Austerlitz (2006) ont complété cette étude en comparant l effet de la taille de l agrégation comparativement à δ, la distance de dispersion moyenne de la fonction forward (de type exponentielle puissance, caractérisée par δ et b, un paramètre de forme). Ils expriment la fonction backward selon deux critères : le nombre de pères efficaces (Nep) et la variance axiale σ 2 (égale à la somme de δ 2 et de la variance de la distance de dispersion (Crawford, 1984)). Ces critères sont tous deux exprimables analytiquement en fonction de la fonction backward et de la densité (Austerlitz et al., 2004). Ils montrent ainsi (i) que la fonction backward dépend du processus en terme de taille d agrégats mais aussi de densité au sein des agrégats, (ii) que si la taille des agrégats est faible comparativement à δ, la fonction backward sera plus courte que lors d un processus poissonnien, (iii) qu au contraire si la taille des agrégats est équivalente ou plus grande que δ, la fonction backward sera plus légèrement plus grande et (iv) que les fonctions forward et backward seront plus différentes lorsque les fonctions sont leptokurtiques et à queue lourde (i.e. caractères contrôlés par le paramètre b). Ces résultats théoriques confirment donc que les fonctions forward et backward sont différentes lorsque le processus n est pas poissonnien à forte densité. Or l hypothèse de répartition poissonnienne des individus est rarement vérifiée dans la nature. De nombreux modèles de processus ponctuels ont été développés et sembleraient plus adaptés que le processus poissonnien à la modélisation de la répartition des individus (Ripley, 1977). Comme l ont montré Stoyan et Penttinen (2000), la distribution spatiale des individus (dans leur cas des arbres forestiers) peut être agrégée à cause de la dispersion des graines, de l hétérogénéité de l environnement ou de la compétition avec d autres espèces. Au contraire elle peut aussi être régulière à cause 51

58 CHAPITRE 2. FORWARD/BACKWARD Figure 2.1 Les différents processus de points simulés par Meagher et Vassiliadis (2003) : (a) poissonnien, (b) régulier (hexagonal), (c) agrégé et (d) mélange de processus agrégé et poissonnien (figure extraite de Meagher et Vassiliadis (2003)) Figure 2.2 La fonction de répartition empirique de la fonction forward réalisée ("reproductive success") en fonction de la distance obtenus pour différentes fonctions forward potentielles de type exponentielles, pour différentes valeurs de γ (-1,-0.5,0) pour les quatres types de processus de positions étudiées présentés figure 2.1 (figure extraite de Meagher et Vassiliadis (2003)) 52

59 2.2. COMPARAISON DES DEUX MODÈLES de la compétition entre les individus proches. En réalité ces tendances à la régularité (i.e. à la répulsion pour une certaine distance) et à l agrégation coexistent à différentes échelles. Il serait donc nécessaire pour prendre en compte la conformation des populations d intégrer non pas un mais plusieurs modèles de processus ponctuels emboîtés. Il semble donc que généralement les fonctions backward et forward ne devraient pas être équivalentes. Cependant, si les estimations forward des méthodes directes sont plus précises, il peut néanmoins être intéressant de les interpréter d un point de vue backward. Comme le soulignent Meagher et Vassiliadis (2003), pour comprendre la dispersion du pollen, étudier seulement le déplacement du pollen depuis les pères (dans une vision forward potentielle) et donc les distances auxquelles les dispersions sont possibles n est pas suffisant, il est aussi nécessaire d intégrer la répartition spatiale des mères pour étudier aussi la répartition spatiale des fécondations réalisées (backward). La formule 2.6, nous permet d interpréter les résultats des méthodes directes dans une vision backward. Dans le cadre des méthodes attribuant de manière catégorique la paternité, la répartition des couples de parents observés en fonction de la distance est en effet un équivalent de cette formule considérant tous les pères connus et la probabilité pour une mère d être fécondée par un père pour une classe de distance donnée comme étant le pourcentage de graines attribuées à un père appartenant à cette classe. Pour généraliser ces résultats, il est possible de ne plus considérer directement la réalisation du processus de positions des pères mais leur processus, en remplaçant dans la formule la probabilité d existence dans une classe de distance donnée (R + R ) par le nombre moyen de père observés dans cette classe divisé par la surface considérée (π R ( R + 2R)). Il est alors possible d obtenir une estimation non paramétrique de la fonction backward par noyau de lissage (estimation analogue à celle de la forward réalisée proposée par Latta et al. (1998)) ou par maximum de vraisemblance pour obtenir une fonction paramétrée. Dans le cadre des méthodes directes estimant une fonction de dispersion forward, il est aussi possible d estimer la fonction backward correspondante en calculant les probabilités de fécondation en fonction de la loi d action de masse comme nous l avons proposé dans la formule 2.6. Ces différentes estimations de la fonction backward à partir des estimations directes permettraient d une part de pouvoir comparer les écarts entre dispersions de pollen potentielle et réalisée, mais aussi d étudier quelles sont les familles de fonctions les plus adaptées à la modélisation de fonctions backward. Dans la partie suivante, nous étudierons comment s intègre cette vision plus formelle de la fonction backward dans les méthodes qui l estiment actuellement, les méthodes indirectes, TwoGener et Kindist. 53

60 CHAPITRE 2. FORWARD/BACKWARD 2.3 Analyse statistique des méthodes indirectes, développement et perspectives Les méthodes indirectes estiment la fonction de dispersion backward du pollen en minimisant la somme des carrés des écarts entre des statistiques-résumées et leurs expressions analytiques. Ces statistiques-résumées expriment la "distance" ou la "similarité" génétique entre les nuages polliniques observés des couples de mères. Les expressions analytiques de ces statistiques-résumées sont des combinaisons des expressions analytiques des probabilités de copaternité i.e. les probabilités pour que deux grains de pollen issus d une même mère ou de deux mères différentes proviennent du même père. L expression de ces probabilités est définie en fonction de la distance qui sépare ces mères, de la fonction de dispersion et du processus de positions des pères (qui n est pas observé, i.e. les positions des pères n ont pas été relevées). Dans cette partie, nous formaliserons l expression de ces probabilités de copaternité en utilisant les résultats obtenus lors de la formalisation de la fonction backward puis nous discuterons du choix des statistiques-résumées utilisées lors de l estimation Expression des probabilités de copaternité : simplification et conséquences Nous proposons de formaliser l expression des probabilités de copaternité developpées par Austerlitz et Smouse (2001a) et utilisées dans les méthodes TwoGener (Austerlitz et al., 2004) et Kindist (Robledo-Arnuncio et al., 2006). Pour ce faire, nous utiliserons les expressions obtenues précédemment lors de la formalisation de la fonction backward (cf. partie 2.2.1) Expression formelle des probabilités de copaternité en backward Considérons deux mères A et B, nous noterons la probabilité de copaternité entre ces deux mères Q X(A, B), connaissant les pères X. Pour alléger les notations, nous désignerons de la même manière une mère et sa position. Ainsi A pourra indiquer la mère A ou la position à laquelle elle se trouve. Dans le cadre de l échantillonnage des méthodes indirectes, parmi les positions de tous les pères X, nous connaissons seulement les positions des mères X (qui peut comprendre aussi d autres positions connues). Une partie des pères étant inconnue, il nous est donc nécessaire de calculer l espérance de la probabilité entre A et B sous le processus connu. Ainsi en notant Q(A, B; X), la probabilité de copaternité entre les mères A et B sous le processus de points X, alors : Q X(A, B) = E X(Q(A, X\ B; X)). La probabilité Q(A, B; X) est la somme des probabilités que les mères A et B soient toutes 54

61 2.3. ANALYSE STATISTIQUE DES MÉTHODES INDIRECTES deux fécondées par un même père, ce père appartenant aux pères connus, probabilité que nous noterons Q c (A, B; X) ou ce père étant inconnu, probabilité que nous noterons Q inc (A, B; X). La probabilité Q c (A, B; X) est elle-même la somme des probabilités pour chaque père connu de féconder les deux mères A et B. Ainsi, nous pouvons écrire que : Q c (A, B; X) = y X Pr(y pollinise A y pollinise B X) D où, E X\ X (Q c (A, B; X)) = y X E X\ X (Pr(y pollinise A y pollinise B X)). En notant h X\ X(y, A, B), la quantité E X\ X (Pr(y pollinise A y pollinise B X)), d après l indépendance des événements de fécondation conditionnellement à X et la formule de la covariance 3, h X\ X(y, A, B) = E X\ X (h(y, A; X)h(y, B; X)) = E X\ X (h(y, A; X)) E X\ X (h(y, B; X)) + cov X\ X (h(y, A; X), h(y, B; X)) (2.16) La probabilité E X\ X (Q inc (A, B; X)) est aussi en quelque sorte la somme des probabilités pour chaque père inconnu de féconder les deux mères. L ensemble des positions des pères inconnus est défini sur l espace R 2. En notant E X\ X (Q inc (A, B, x; X)) la probabilité pour les mères A et B d être pollinisées par un même père appartenant à la surface dx centrée sur x, la probabilité E X\ X (Q inc (A, B; X)) peut être exprimée ainsi : E X\ X (Q inc (A, B; X)) = E X\ X (Q inc(a, B, x; X)) dx R 2 La probabilité E X\ X (Q inc (A, B, x; X)) est composée des probabilités de deux événements distincts. Le premier concerne l existence d un père sur la surface dx et possède une probabilité égale à r X(x)λ dx. Le second est la pollinisation des mères A et B par un père en dx centré sur x. Ce second étant conditionné par l existence d un père en x, il peut être calculé de la même manière que h X(y, X\ A, B) dans l équation 2.16 impliquant les pères connus. 3 Soient Z et W, deux variables aléatoires, cov(z, W ) = E(Z W ) E(Z)E(W ) 55

62 CHAPITRE 2. FORWARD/BACKWARD Finalement, nous obtenons : Q(A, B) = E X\ X (Q c (A, B; X)) + E X\ X (Q inc (A, B; X)) = h X(y, X\ A, B) + r X(x)λh X(x, X\ A, B)dx (2.17) y X R 2 La probabilité Q A de copaternité pour une mère A est un cas spécifique de cette formule et vaut : Q A = h X(y, X\ A) + r X(x)λh X(x, X\ A)dx, (2.18) y X R 2 avec h X\ X, l espérance sous le processus X\ X qu une mère en A soit fécondée deux fois par un père en x, sachant que ce père existe Hypothèses explicites ou non dans les méthodes indirectes L expression des probabilités de copaternité utilisées dans Austerlitz et Smouse (2001a) et Robledo-Arnuncio et al. (2006) est quelque peu différente de celle de l équation En effet elles sont définies par les formules suivantes : Q T 0 G = 1 p 2 (x)dx (2.19) λ R 2 Q T G (A, B) = 1 p(x, A)p(x, B)dx, (2.20) λ R 2 avec p(x, A) la valeur de la fonction de dispersion backward pour la position x placée dans un repère où A est au centre. Cette expression est en fait une simplification de la formule Les hypothèses aboutissant à cette simplification sont à l heure actuelle plus ou moins explicites. Les méthodes indirectes considèrent explicitement un processus poissonnien. Dans ce cas dans l équation 2.17, la valeur de l intensité de la mesure de Palm λr X (x) est égale à λ quelque soit x et X. Il apparaît clairement dans l équation 2.19 que les méthodes indirectes n intègrent actuellement aucune information concernant les positions des pères connus. Il est à noter que dans le calcul de la probabilité de copaternité pour une mère, la mère n est pas intégrée dans l équation et que par conséquent l autofécondation n est actuellement pas prise en compte (pour plus de détails voir Carpentier et al. (en soumission) à l annexe IV). Le modèle actuel des méthodes indirectes fait donc implicitement l hypothèse d absence d autofécondation. 56

63 2.3. ANALYSE STATISTIQUE DES MÉTHODES INDIRECTES En prenant en compte les hypothèses des méthodes indirectes i.e. l hypothèse poissonnienne pour les positions des individus et l absence de prise en compte des positions des individus connus, la formule 2.17 devient Q(A, B) = λh X (x, A, B)dx (2.21) R 2 Sous ces mêmes hypothèses, l expression formelle de la fonction backward donnée à la partie devient : p(x, A) = E X (h(x, A)) λ Ainsi implicitement les méthodes indirectes font l hypothèse que h X (x, A, B) E X (h(x, A)) E X (h(x, B)), autrement dit que la covariance cov X (h(x, A; X), h(x, B; X)) est négligeable. De manière similaire dans la probabilité de copaternité pour une mère, la variance var X (h(x; X)) est supposée négligeable. Cette hypothèse signifie que la variabilité de la probabilité de fécondation issue de la variabilité des positions des pères autour de la ou des mères est considérée comme nulle. En effet, comme la position des pères est inconnue, les calculs des probabilités de copaternité se font sous l espérance de ce processus. Cette espérance représente la valeur moyenne de ces probabilités sous les différentes configurations spatiales des pères attendues selon le processus de point considéré. Or dans le voisinage d une mère donnée, parmi les différentes configurations possibles, le nombre des pères ainsi que leurs positions sont variables. Autrement dit, pour différentes réalisations d un même processus (i.e. tirages de points dans ce processus), une mère donnée peut être entourée d un grand nombre de voisins ou au contraire d un nombre très faible de voisins. D un point de vue biologique, il semble donc nécessaire de considérer que cette mère possède un probabilité variable d être fécondée par un père puisqu elle possède un nombre de pères variable dans son voisinage. Or l hypothèse utilisée par les méthodes indirectes est que cette probabilité n est pas variable en fonction des différentes configurations possibles de pères. Pour illustrer l écart entre notre formule (équation 2.18) et celle utilisée par les méthodes indirectes classiques (équation 2.19), nous allons détailler les procédures de simulation auxquelles ces formules correspondent. Pour le calcul de la probabilité de copaternité pour une mère en 0, les simulations correspondant à l espérance donnée par notre formule équation (2.18) consistent en (i) la simulation des positions des pères selon le processus de points admis et (ii) le calcul pour la mère selon les positions des pères de la probabilité pour un père en x de féconder deux fois la mère. L espérance de cette probabilité est obtenue par la moyenne des probabilités obtenues pour chaque simu- 57

64 CHAPITRE 2. FORWARD/BACKWARD lation. La procédure correspondant à la formule utilisée par les méthodes indirectes actuelles consiste en (i) la simulation des positions des pères et (ii) le calcul pour la mère d être fécondée une fois par un père en x connaissant le processus de points. L "espérance" de la probabilité de copaternité par un père au point x étant obtenue comme le carré de la moyenne des probabilités de fécondation obtenues. La variabilité du processus des positions des pères est donc "gommée" par la moyenne avant le calcul de l espérance de la probabilité de copaternité. Cette approximation dans la formule des probabilités de copaternité peut introduire des biais dans l estimation de la fonction de dispersion. Pour corriger la formule utilisée, il est nécessaire d exprimer cov X (h(x, A; X), h(x, B; X)). Or le modèle backward n est actuellement pas suffisamment complet pour permettre de tels calculs. En effet il ne contient que la modélisation de la probabilité de fécondation par un père en x connaissant la position des pères (i.e. h(x; X)). Il ne modélise pas la covariance des probabilités de fécondation entre A et B selon les positions des points (de même qu il ne modélise pas non plus la variance de fécondation pour une mère donnée). Pour exprimer cette covariance, il est donc nécessaire de compléter le modèle backward actuel. Pour ce faire, nous utiliserons le modèle forward mais d autres modèles, moins mécanistes et moins explicites seraient possibles. En effectuant les calculs proposés à la partie pour deux mères A et B (et non plus une mère) dans le même cadre "idéal", on montre que h(x, A, B X) λ f(x, A)f(x, B) λ 2. Ceci signifie que lorsque la densité est suffisamment grande, la probabilité pour deux mères d être fécondées par un père en x ne dépend pas de la configuration spatiale des points autres que (x, A, B). Lorsque la densité est grande, une mère a toujours de nombreux voisins autour d elle, ce qui dans le modèle forward "stabilise" les probabilités de fécondation Choix des statistiques-résumées Les statistiques-résumées des méthodes indirectes sont des indices exprimables en fonction des probabilités de copaternité et directement estimables à partir des données génétiques des graines. L utilisation des ces statistiques est nécessaire car lors de l estimation des probabilités de copaternité, il apparaît un problème récurrent en génétique des populations. Les probabilités de copaternité sont directement liées aux probabilités d identité par descendance (IBD) alors que l observation directe des graines et de leurs génotypes ne fournit que la probabilité d identité par état (IIS). Les statistiques-résumées sont nécessaires pour quantifier parmi les ressemblances des génotypes des graines quelle est la part imputable à la copaternité. 58

65 2.3. ANALYSE STATISTIQUE DES MÉTHODES INDIRECTES Estimation des haplotypes des grains de pollen Les statistiques-résumées utilisées dans les méthodes indirectes reposent sur les génotypes présents dans les nuages polliniques des mères (i.e. l ensemble des grains de pollen reçus par chaque mère). Ces nuages polliniques sont estimés en utilisant les graines récoltées comme des pièges à pollen. Il est possible de reconstruire l haplotype du grain de pollen dont la graine est issue, connaissant le génotype de cette graine et celui de sa mère (Smouse et al., 2001). Dans le cas des marqueurs nucléaires chez les espèce diploïdes (liés à de l ADN présent dans le noyau des cellules), les individus (mère, père, graine) possèdent à chaque locus deux copies du gène présent à ce locus. Les génotypes des gamètes des individus (grain de pollen ou ovule) sont haploïdes : ils ne possèdent qu une seule copie de chaque gène. Lors de la fécondation, les haplotypes des gamètes fusionnent pour donner un génotype diploïde. Une graine reçoit ainsi pour chaque locus, une copie d un gène présent chez sa mère et d un autre présent chez son père. Ainsi connaissant le génotype d une graine et celui de sa mère, l haplotype du grain de pollen ayant participé à la fécondation peut être reconstruit par "soustraction". Cependant, lorsqu une graine et sa mère possèdent les deux mêmes allèles pour un locus donné, ces allèles étant différents (i.e. individus hétérozygotes), l haplotype du grain de pollen ne peut être déterminé de manière certaine. Dans ces cas d indétermination, les méthodes indirectes pondèrent les différents haplotypes possibles par la probabilité de la relation entre le génotype de la graine et du père connaissant le génotype de la mère. On considère que les locus utilisés sont non liés (i.e. que les transmissions des gènes pour les différents locus sont indépendantes) et que la probabilité pour un père d avoir transmis un allèle donné est égale à la fréquence de cet allèle dans la population (Smouse et al., 2001). Plus précisément, notons Yk l, l haplotype au locus l du grain de pollen dont est issue la graine k. Il est défini sous forme de vecteur de dimension égale au nombre d allèles observés au locus l. Ainsi si pour le locus l, trois allèles ont été observés, les vecteurs Y l seront de dimension 3. Si l haplotype Yk l possède de manière certaine le deuxième allèle, alors Yk l = Si la graine et sa mère portent toutes deux les allèles 1 et 2, il existe une indétermination : deux allèles sont possibles pour l haplotype Y l k du grain de pollen, les allèles 1 et 2, notant α 12, la probabilité que le gamète mâle porte l allèle 1, estimé par f 1 /(f 1 + f 2 ) où f i est la fréquence 59

66 CHAPITRE 2. FORWARD/BACKWARD de l allèle i dans la population, l espérance de l haplotype Yk l est estimée ainsi : Yk l = α 12 1 α 12 Lorsque des marqueurs haplotypiques à hérédité paternelle sont utilisés (voir Restoux et al. (in prep) en annexe I), la détermination de l haplotype du grain de pollen est directe. Cependant les haplotypes paternels des graines peuvent aussi être indéterminés lorsque les allèles de chaque locus ne sont pas tous identifiés (données manquantes). Nous proposons une expression pour les haplotypes présentant des données manquantes dans le cadre de marqueurs totalement liés (haplotypiques) dans Restoux et al. (in prep) (à l annexe I ; supplementary materials). Cette expression peut être utilisée lors de l estimation de l AMOVA mais aussi dans des méthodes directes comme l estimation des paramètres du régime de reproduction par analyse de descendance (à l annexe I ; material and method) Φ ft, un indice de différenciation des nuages polliniques Estimation des Φ ft La méthode TwoGener utilise comme statistique-résumée, le Φ ft, qui mesure la différenciation génétique entre les nuages polliniques des mères. Cet indice est obtenu par analyse de la variance moléculaire (AMOVA Excoffier et al. (1992)). L AMOVA est une adaption de l analyse de la variance classique (ANOVA à effet aléatoires) aux données génétiques, qui sont par définition multivariées et discrètes non ordonnées. Elle repose sur la décomposition de la matrice de distances au carré entre chaque couple d haplotypes observés. Dans le cadre de la méthode TwoGener, d 2 ik la distance au carré entre les haplotypes Y i et Y k est la somme des distances observées à chaque locus pour ces haplotypes i.e. d 2 ik = L l=1 d l ik2, où d l 2 1 ik = 2 H a=1 ( ) Y l ia Yka l 2 1 [ ] = Y l i Yk l T [ Y l i Y l 2 k]. (2.22) La distance entre deux allèles différents est donc égale 1 et celle entre deux allèles identiques est nulle. Dans la méthode TwoGener, la première strate de l AMOVA est composée des mères (qui constituent donc l effet aléatoire), les haplotypes paternels des graines de chaque mère consti- 60

67 2.3. ANALYSE STATISTIQUE DES MÉTHODES INDIRECTES tuant des répétitions. Le Φ ft est la fraction de variance totale des nuages polliniques expliquée par les différences inter-mères, il est estimé par : Φ ft = S 2 A SW 2 +, S2 A avec SA 2, l estimation de la variance inter-mères et S2 W, l estimation de la variance intra-mères issues toutes deux de l AMOVA. Le Φ ft est donc un analogue du F st (Wright, 1969) (ce dernier pouvant être calculé à partir d une AMOVA dont l effet aléatoire est la répartition en souspopulations et les répétitions sont les individus adultes). La méthode TwoGener peut utiliser un Φ ft global (Austerlitz et Smouse, 2001a) i.e. calculé à partir d une AMOVA appliquée sur les haplotypes des nuages polliniques de toutes les mères ou des Φ ft calculés entre chaque couple de mères (Austerlitz et Smouse, 2002). Ces Φ ft par couples sont obtenus en appliquant successivement l AMOVA sur tous les nuages polliniques de couples de mères considérées. Lorsque nous faisons référence à la méthode TwoGener, nous faisons implicitement référence à la méthode par couples. Lien entre Φ ft et probabilités de copaternité Le Φ th ft (A, B) théorique exprime la corrélation des nuages polliniques entre les mères A et B. Ainsi Austerlitz et Smouse (2001a) montrent que : Φ th ft(a, B) = 1 h f h AB, avec h f la diversité du nuage pollinique (i.e. la moyenne des hétérozygoties au sein des nuages des mères A et B) et h AB la diversité hétérozygote totale présente dans les nuages polliniques de A et B confondus. Lorsque les marqueurs sont nucléaires, en supposant qu il n existe pas de structuration des génotypes au sein des individus, i.e. que le coefficient de consanguinité est nul (F IS = 0), alors le Φ ft (AB) peut être exprimé en fonction seulement des probabilités de copaternité (Austerlitz et Smouse, 2001a) : Φ th ft(a, B) = Q 0 Q(A, B) 2 Q(A, B). Cette formule peut être adaptée à F IS non nul (Austerlitz et Smouse, 2001b). Elle peut aussi l être aux marqueurs haplotypiques à hérédité paternelle (voir Restoux et al. (in prep) à l annexe I ; material et method) et devient alors : Φ th ft(a, B) = Q 0 Q(A, B) 1 Q(A, B). 61

68 CHAPITRE 2. FORWARD/BACKWARD L un des avantages de l utilisation des Φ ft comme statistiques-résumées est de pouvoir profiter du cadre de décomposition de la variance. Dans ce cadre, il est en effet possible de supprimer dans la différenciation des nuages polliniques des effets non liés à la dispersion du pollen, comme un gradient spatial de la structure génétique des adultes (Dyer et al. (2004) pour le Φ ft global) ou encore une variabilité inter-annuelle (Irwin et al. (2003) pour le Φ ft global). En adaptant cette dernière décomposition aux Φ ft par couples, nous avons dans Restoux et al. (in prep) (voir annexe I) pu estimer la fonction de dispersion du pollen en utilisant différents noyaux de dispersion (normal, exponentiel ou exponentiel puissance) tout en tenant compte de la variabilité inter-annuelle de composition des nuages polliniques. Les estimations ainsi obtenues pour la population de sapin pectiné (Abies alba) de la montagne de Lure montrent que la distance de dispersion "efficace" obtenue annuellement (23 m pour une fonction gaussienne ou 52 m pour une exponentielle à queue lourde i.e. b=0.5) est inférieure à la distance obtenue en considérant les variabilités inter-annuelles (respectivement 35 m et 95 m pour les mêmes fonctions). Dans cet article nous montrons donc que la structure génétique spatiale (SGS) annuelle des nuages polliniques est différente de la structure génétique obtenue en tenant compte de la variabilité spatio-temporelle (STGS). De plus, en adaptant les méthodes directes d estimation du régime de reproduction par analyse de descendance à différents modèles de variabilité temporelle, nous avons également montré que la composition du nuage pollinique global de la population ainsi que les paramètres du régime de reproduction diffèrent significativement entre les 4 années d études. Estimation des paramètres de la fonction de dispersion L estimation des paramètres dans la méthode TwoGener se fait par minimisation de la somme sur l ensemble des couples de mères des carrés des écarts entre le Φ ft observé, estimé à partir des données génétiques et le Φ th ft théorique calculé à partir des formules théoriques des probabilités de copaternité, i.e. : SCE Φ (θ p, λ) = (i,j) ( Φ th ft(i, j) Φ ft (i, j)) 2, (i, j) parcourant l ensemble des couples de mères. Dans le cadre des hypothèses actuelles de TwoGener, ces probabilités de copaternité dépendent des paramètres de la fonction de dispersion, θ p et de la densité de la population λ. Ces paramètres sont donc soit estimés, soit fixés lors de la minimisation de SCE Φ Ψ, la corrélation de paternité entre les pères Estimation des Ψ 62

69 2.3. ANALYSE STATISTIQUE DES MÉTHODES INDIRECTES De même que les Φ ft dérivent des F st, les Ψ sont des coefficients de parenté (kinship coefficients) issus des estimateurs de parenté classiques proposés par Loiselle et al. (1995) (Hardy, 2003). Plus exactement, les Ψ sont des ratios de coefficients de parenté. F ik, le coefficient de parenté entre les haplotypes de deux grains de pollen i et k est estimé par la formule suivante (Hardy et al., 2004) : F ik = L l=1 [ Y l i Y l] T [ Y l k Y l] L [ Y lt 1 Y l] + l=1 1 2(n 1), (2.23) avec Y l i, l haplotype au locus l du grain de pollen dont est issue la graine i, défini à la section , Y l, le vecteur de la moyenne des fréquences des allèles du locus l calculé à partir des fréquences observées sur l ensemble des haplotypes observés et n, le nombre total d haplotypes observés. Les coefficients de parenté obtenus sont des estimations relatives à l apparentement moyen des grains de pollen observés (Hardy, 2003), i.e. par construction leur moyenne est égale à 0. Pour être comparés aux probabilités de copaternité théoriques calculées de manière absolue, les coefficients de parenté relatifs, F ik sont donc renormalisés ainsi : F n ik = F ik F NR 1 F NR, avec F NR, la moyenne des coefficients de parenté observés entre grains de pollen non apparentés i.e. dont les lieux de récolte étaient séparés par une distance supérieure à une distance seuil. Cette distance seuil est déterminée par l utilisateur de la méthode à partir de l observation du graphique des coefficients de parenté relatifs en fonction des distances. L estimateur de Ψ(A, B) est alors calculé ainsi : Ψ(A, B) = F AB n, F0 n avec FAB n, la moyenne des coefficients de parenté normalisés pour toutes les paires d haplotypes observés entre A et B (un couple étant formé par un haplotype récolté sur chacune des deux mères) et F n 0, la moyenne des coefficients de parenté normalisés moyens calculés au sein du nuage pollinique de chaque mère, autrement dit respectivement la moyenne inter-a-b et la moyenne intra-mères estimée sur l ensemble des grains de pollen. Estimation dans la méthode Kindist Le Ψ th (A, B) peut s exprimer ainsi (Robledo-Arnuncio et al., 2006) : Ψ th (A, B) = Q(A, B) Q 0. 63

70 CHAPITRE 2. FORWARD/BACKWARD Dans le cadre des hypothèses actuelles des méthodes indirectes, le Ψ th (A, B) ne dépend que des paramètres de la fonction de dispersion, θ p et non plus de la densité de la population λ qui se simplifie entre le numérateur et le dénominateur (Robledo-Arnuncio et al., 2006). Ainsi la méthode Kindist propose d estimer seulement les paramètres de la fonction de dispersion θ p, en minimisant : SCE Ψ (θ p ) = (i,j) ( Ψ th (i, j) Ψ(i, j)) 2, (i, j) parcourant l ensemble des couples de mères. Comparaison entre les statistiques-résumées des deux méthodes Un des principaux avantages de la méthode Kindist est d utiliser une statistique-résumée dont l expression analytique ne dépend pas de la densité 4, et qui rend plus précise en terme de biais et de variance l estimation des paramètres de la fonction de dispersion (Robledo-Arnuncio et al., 2006). Les meilleures performances de la méthode Kindist pourraient aussi être issues de l estimation des Ψ observés sur les données génétiques. D une part, la distance seuil (NR) imposée lors de la renormalisation des coefficients de parenté favorise peut être l estimation de la distance moyenne de dispersion en fixant de manière indirecte une borne supérieure lors de l estimation. D autre part, l estimateur du Ψ pourrait être sensiblement plus robuste que l estimateur du Φ ft par couples. En effet, ces deux estimateurs sont en fait des ratios d estimateurs. Ils sont par conséquent très sensibles à l estimation de l indice placé au dénominateur (respectivement F0 n pour le Ψ et SW 2 + S2 A pour le Φ ft). Or F0 n est calculée sur l ensemble des graines récoltées alors que l estimation de SW 2 + S2 A ne considère que les graines des deux mères du couple observé. Il serait simple d utiliser une estimation de la variance intra-mère SW 2 issue de toutes les mères dans le calcul du Φ ft dans la méthode TwoGener. Cela pourrait être une première amélioration pour obtenir de meilleures performances statistiques. En pratique, les méthodes TwoGener et Kindist se complètent et les meilleures estimations sont obtenues en utilisant séquentiellement les deux méthodes (méthode proposée dans Poldisp (Robledo-Arnuncio et al., 2007), Carpentier et al. (en soumission) en annexe IV, supplementary materials), i.e. estimer tout d abord les paramètres de la fonction de dispersion en utilisant la méthode Kindist puis estimer la densité de la population en utilisant la méthode TwoGener, les paramètres de la fonction de dispersion étant fixés aux valeurs obtenues lors de l estimation par Kindist. Néanmoins dans cette méthode, l erreur d estimation issue de Kindist se répercute lors de l estimation de la méthode TwoGener (i.e. elle n est pas prise en compte lors de l estimation). 4 Dans le cadre des hypothèses actuelles des méthodes indirectes 64

71 2.4. CONCLUSION D autres indices possibles : calculer les statistiques-résumées par classe de distance Le nombre de statistiques-résumées utilisées actuellement dans les méthodes indirectes est très élevé. En effet ces statistiques sont calculées pour chaque couple de mères. Leur nombre s élève donc à Nm(Nm 1)/2, avec Nm le nombre de mères échantillonnées. Ainsi à chaque étape de l estimation (i.e. de l algorithme de minimisation), il est nécessaire de calculer les probabilités de copaternité théoriques pour chaque couple de mères (ce qui nécessite le calcul numérique de Nm(Nm 1)/2 intégrales, l expression analytique des probabilités de copaternité n étant accessible que lorsque la fonction de dispersion est supposée gaussienne (Austerlitz et al., 2004)). Or d après les hypothèses actuelles des méthodes indirectes, pour des paramètres de la fonction de dispersion et de densité de population donnés, les statistiques-résumées actuelles ne dépendent que de la distance entre les mères considérées. Il serait donc possible de diminuer le nombre de statistiques-résumées en ne considérant que des moyennes calculées par classes de distances. Cette approximation serait analogue à celle effectuée dans le domaine des géostatistiques lors de l estimation du variogramme empirique (Cressie, 1993). Si les classes de distances sont convenablement déterminées (le nombre optimal de classes étant un compromis entre le biais et la variance des estimateurs moyens par classe), la vitesse d estimation pourrait être notablement augmentée sans pour autant nuire de manière significative aux performances des méthodes. 2.4 Conclusion Nous avons présenté les méthodes actuelles d estimation de la fonction de dispersion du pollen en fonction de la distance. Ces méthodes se classent en deux catégories : (i) les méthodes directes (le neighborhood model de Burczyk et al. (2002) et le mating model d Oddou-Muratorio et al. (2005)) qui requièrent des données exhaustives (génotypes, positions de quelques mères avec les génotypes d un échantillon de leur graines, ainsi que les génotypes et positions de toutes les pères de pollen du site étudié), (ii) les méthodes indirectes ( la méthode TwoGener d Austerlitz et Smouse (2001a) et la méthode Kindist de Robledo-Amuncio et al. (2004)) qui nécessitent une information non exhaustive (un échantillon de puits (génotypes et positions) avec les génotypes d un échantillon de leurs graines). Nous avons montré que ces types de méthodes estiment des fonctions de dispersion de pollen différentes. Les méthodes directes modélisent la dispersion du pollen de sa source à son point d arrivée par des fonctions de dispersion de pollen avec une vision en "forward". Les méthodes indirectes modélisent la dispersion du pollen à l inverse, de son point d arrivée à son point de 65

72 CHAPITRE 2. FORWARD/BACKWARD départ par des fonctions de dispersion en "backward". Par conséquent, (i) la fonction forward est indépendante des positions des autres individus et de leur processus alors que la fonction de dispersion backward l intègre et (ii) la fonction forward ne modélise que le déplacement (de manière mécaniste) alors que la fonction backward intègre une probabilité de fécondation. A ce titre, la fonction backward est plus contrainte qu une fonction de densité de probabilité classique. En effet en intègrant la probabilité d existence d un père, la fonction backward est donc contrainte par les hypothèses concernant le processus des pères. Dans les méthodes indirectes actuelles (Austerlitz et Smouse (2001a) et Robledo-Arnuncio et al. (2006)), les positions des individus de la population sont supposées distribuées selon un processus poissonnien. Ce processus est défini seulement en fonction de la densité λ de la population. La fonction backward est dans ce cas contrainte par ce paramètre λ. Il serait donc nécessaire d inclure cette contrainte dans l estimation. La formalisation de la fonction backward nous a permis d identifier d éventuelles sources de biais dans les méthodes indirectes actuelles. L autofécondation peut être une première source de biais car nous avons montré quelle est supposée nulle dans ces méthodes. L article Carpentier et al. (en soumission) en annexe IV propose de modifier ces méthodes pour prendre en compte l autofécondation lors de l estimation. D autre part les expressions de copaternité actuellement utilisées sont des approximations qui pourraient être biaisées (notamment lorsque la densité est faible). La formalisation de la fonction backward pourrait aussi permettre (i) l introduction de la position des pères connus dans cette fonction et (ii) de dépasser les hypothèses de processus poissonnien. En effet au travers de la mesure de Palm, il est possible d intégrer des processus plus réguliers comme les processus hard-core (aussi appelés modèles à noyau ou de Strauss) qui interdisent toute configuration où les positions sont plus proches qu une distance minimale fixée, ou au contraire plus agrégés comme les processus de Neyman-Scott ou finalement des processus non stationnaires comme les processus poissonniens inhomogènes ou les processus de Cox qui peuvent prendre en compte la variabilité spatiale de l environment (Stoyan et al., 1987). Cependant considérer d autres hypothèses concernant la répartition des individus nécessite de redéfinir les fonctions de dispersion backward possibles selon ces nouvelles hypothèses et de pouvoir conduire une estimation à partir d expression théorique très complexes. Les visions forward et backward sont complémentaires et sont toutes deux nécessaires à la compréhension de la dispersion. En effet si la vision en backward permet une mesure globale de la dispersion, la vision forward permet de décomposer le résultat de la dispersion en différents processus (positions des individus, compétition dans le nuage pollinique, variation de fertilité, décalage phénologique,...) et de quantifier leur impact sur la dispersion globale. Le choix de la modélisation de la dispersion devra donc être guidé par le but de l étude. 66

73 2.4. CONCLUSION Si l on souhaite étudier le résultat de la dispersion, la vision backward est la plus adaptée (Meagher et Vassiliadis, 2003). En effet elle fournit une vision intégrative du processus depuis la probabilité d existence d un père jusqu à la fécondation d une graine. De plus elle peut être exprimée sous forme d indices très informatifs, comme la probabilité de copaternité Austerlitz et Smouse (2001a) ou le Nep, nombre de pères efficaces, qui traduisent la diversité génétique du nuage pollinique reçu par une mère ou la variance de dispersion axiale σ 2 p (Austerlitz et Smouse (2002),Robledo-Arnuncio et Austerlitz (2006)) qui est reliée au σ 2 des méthodes indirectes selon la formule σ 2 = σ 2 g + σ 2 p/2 (Crawford, 1984). Dans l article Restoux et al. (in prep) (en annexe I), nous proposons d autres indices pour appréhender plus facilement l information contenue dans la fonction backward 5, comme R 0.95, le rayon du disque qui contient 95% des pères (efficaces) d une mère, Nep 0.95 le nombre de ces pères, qui est un équivalent spatialisé du Nep. Si l on souhaite tester différents modèles de dispersion faisant intervenir plusieurs sources de variation pour mieux comprendre les mécanismes intervenant dans la dispersion, actuellement la modélisation en forward est la seule option. Dans un but de prédiction, la vision forward semble la plus appropriée, car en découplant les processus, il est plus facile d appréhender l impact qu aura un changement dans l un de ces processus. De même si l estimation est effectuée afin de fournir des paramètres à des simulations, l estimation en forward est nécessaire car la simulation en backward est difficile (cf annexe III). De plus si l on veut pouvoir confronter des résultats issus de différents sites, il est nécessaire de conserver la même modélisation de la dispersion. En effet les résultats de deux études, l une ayant estimé une fonction forward et l autre une fonction backward, ne peuvent pas être comparés. Jusqu à présent, lorsque le jeu de données est exhaustif, l estimation peut être effectuée en utilisant une méthode directe mais aussi une méthode indirecte (par exemple dans leur étude, Bittencourt et Sebbenn (2008) étudient la dispersion du pollen à partir d une analyse de paternité (forward réalisé) et de la méthode TwoGener (backward)). Cependant dans ce dernier cas, les données disponibles concernant les sources de pollen du site (génotypes et positions) ne seront pas utilisées mais remplacées par des hypothèses simplificatrices (complete spatial randomness (CSR) des génotypes et des positions). L estimation de la fonction de dispersion en backward sera donc moins précise qu elle pourrait l être. La formule 2.6 que nous avons proposée permettrait de calculer la fonction backward à partir des résultats des méthodes directes et de comparer les différentes estimations sans pour autant perdre de l information. Cependant si le jeu de données est partiel (comme ceux utilisés dans les méthodes indirectes), il n est pas possible de calculer la fonction forward correspondante à une fonction backward, nous proposons donc dans le chapitre suivant une nouvelle méthode qui permette 5 Notamment pour donner du sens au paramètre de forme de la dispersion b. En effet si ce dernier fournit une information indiscutable concernant la dispersion à longue distance en déterminant si la queue de dispersion est lourde ou non, il reste un peu obscur car lié de manière non linéaire à la distance de dispersion 67

74 CHAPITRE 2. FORWARD/BACKWARD d estimer la forward lorsque le jeu de données est partiel. 68

75 CHAPITRE 3 ESTIMER LA DISPERSION DU POLLEN EN UTILISANT L APPROXIMATE BAYESIAN COMPUTATION (ABC) Le meilleur des deux mondes Les méthodes actuelles directes ou indirectes n utilisent pas le même modèle de dispersion et n estiment pas la même fonction de dispersion, comme nous l avons montré au chapitre précédent. De plus il est actuellement impossible d utiliser de l information partielle comme par exemple la position d individus dont le génotype est inconnu. Les méthodes directes nécessitent toute l information : les génotypes et les positions de tous les pères potentiels du site étudié alors que les méthodes indirectes n en utilisent que très peu (les génotypes et les positions des individus échantillonnés, les mères, ainsi que les génotypes d un échantillon de leurs graines). Dans les méthodes directes actuelles, les données concernant les sources doivent être : exactes : si l on considère les individus (définis par un génotype et une position) comme des variables aléatoires, on ne peut utiliser que la réalisation de ces variables aléatoires et non leur distribution complètes : l observation d un individu pour être utilisée doit contenir son génotype et sa position. On ne peut pas introduire la position seule dans l estimation. compactes : les sources contenues dans le site étudié doivent être connues exhaustivement, pour le mating model (Oddou-Muratorio et al., 2005). Dans la méthode du neighborhood model (Burczyk et al., 2002), les sources contenues dans le voisinage des puits échantillonnés,i.e les disques de rayon fixé autour des puits, doivent aussi être connues exhaustivement (mais voir Fénart et al. (2007)). Nous nommerons les données ne remplissant pas ces critères "données partielles". Dans la suite de ce chapitre nous montrerons pourquoi l utilisation de la vraisemblance des génotypes des graines observées (voir équation 1.1), qui est le cœur des estimations directes actuelles, ne semble pas être (analytiquement ou numériquement) tractable dans le cas d information partielle. Si l avantage majeur des méthodes indirectes est de ne nécessiter que très peu d information, ceci constitue aussi une de leurs limites. Aucune information concernant les pères n est actuellement introduite dans ces méthodes (à l exception des mères dans le cas de l autofécondation dans Carpentier et al. (en soumission) en annexe IV). Tous les pères sont supposés inconnus et

76 CHAPITRE 3. ESTIMER LA DISPERSION DU POLLEN AVEC L ABC répartis de manière aléatoire et uniforme dans l espace aussi bien pour leur génotype que pour leur position. Même les mères, qui constituent des pères potentiels, ne sont pas utilisées lors de l estimation. Elles ne sont considérées que comme pièges à pollen i.e. comme étant strictement femelles. La seule information utilisée est l estimation des fréquences alléliques de la population par (i) les génotypes des mères et éventuellement des individus supplémentaires dans la population dans TwoGener ou (ii) les génotypes des graines échantillonnées dans Kindist (estimation utilisée dans le logiciel Poldisp (Robledo-Arnuncio et al., 2007) qui propose les deux méthodes). L introduction de données exactes ou partielles reste actuellement théorique. En effet Austerlitz et Smouse (2001b) proposent l introduction de la structure spatiale des génotypes des individus. Mais les formules qu ils proposent ont seulement été utilisées pour étudier le comportement théorique du Φ ft. De même nous avons montré au chapitre précédent comment modifier les calculs pour introduire de l information sur les positions ou le processus de positions des pères, mais n avons pas encore utilisé ces calculs lors d estimation. Les objectifs de la méthode que nous allons présenter dans ce chapitre sont de pouvoir dépasser les limites des méthodes actuelles. Plus précisément, notre but est (i) de pouvoir estimer la dispersion en forward lorsque l on dispose d un jeu de données non exhaustif (ii) de pouvoir introduire de l information partielle dans l estimation et (iii) de tester plusieurs modèles de dispersion. Pour cela nous avons combiné les deux méthodes en utilisant une approche par Approximate Bayesian Computation (ABC), qui permet l estimation par simulations en utilisant des statistiques-résumées des données. Des méthodes directes, nous avons conservé la modélisation de la fonction de dispersion en forward ainsi que celle de la pollinisation (reposant sur le principe de loi d action de masse). Nous simulons donc la dispersion lors de l estimation selon ce modèle. Mais nous n utilisons pas de manière directe, la vraisemblance des données. Des méthodes indirectes, nous utilisons les mêmes statistiques-résumées (Ψ et Φ ft ) et le même critère d estimation : la somme des carrés des écarts entre les indices de structure génétique des nuages polliniques observés et ceux calculés sous le modèle (SCE Ψ et SCE Φft ). Cependant à la différence des méthodes indirectes actuelles, nous proposons d utiliser une méthode simulatoire plutôt qu analytique pour l estimation. Nous présenterons dans une première partie les méthodes d Approximate Bayesian Computation qui ont été récemment développées. Dans une seconde partie, nous présenterons un cadre conceptuel généralisant la définition de la distribution a posteriori issue de la vraisemblance (une mesure particulière de l adéquation des données au modèle) à celle issue de contraste (une famille plus vaste de mesures de l adéquation des données au modèle) et comment ce cadre s intègre aux méthodes ABC. Dans une troisième partie, nous montrerons l application de ces méthodes à l estimation de la dispersion, comment elle permet l introduction d information 70

77 3.1. DESCRIPTION DE L ABC partielle dans l estimation, l utilisation de nombreux modèles et les questions qui se posent concernant le choix des statistiques à utiliser. 3.1 Description de l ABC Dans cette description des méthodes ABC, nous présenterons dans une première partie le contexte de recherche statistique et biologique dans lequel ces méthodes ont été développées, les concepts sur lesquels elles s appuient mais aussi en quoi les questions qui ont motivé leur développement sont semblables à celles auxquelles nous sommes confrontés dans le cadre de l estimation de la dispersion du pollen à partir d informations partielles. Nous pourrons ensuite expliquer leur principe dans une seconde partie et finalement dans une partie suivante montrer les avantages ainsi que les limites de ces méthodes Généalogie de l ABC L Approximate Bayesian Computation (ABC) est une méthode d estimation qui appartient à la fois aux méthodes de Monte Carlo car elle repose sur l utilisation de simulations intensives et aux méthodes bayésiennes. Nous présenterons donc tout d abord ces deux classes de méthodes avant d expliciter le contexte actuel de l estimation en écologie et plus spécialement en génétique des populations. En effet c est dans ce contexte que les méthodes d Approximate Bayesian Computation ont été développées et non pas dans le cadre plus formel du développement statistique pur La famille des méthodes de Monte Carlo Ces dernières années, les méthodes de Monte Carlo sont devenues une part essentielle des méthodes statistiques (voir Robert (2009) ou Robert et Casella (2004) pour une vision plus approfondie). Metropolis et Ulam (1949) avaient présenté ces méthodes dans le cadre de la physique mathématique, où leurs modèles combinant à la fois des processus stochastiques et des lois déterministes nécessitaient le calcul de suites de chaînes de Markov de processus dépendants 1. Face à l impossibilité de résolutions analytiques et la difficulté de résolutions numériques de ces modèles, ils proposent d utiliser une méthode reposant sur des simulations. Cette méthode motivée par l augmentation des puissances des ordinateurs présente de nombreux avantages, 1 Bien que les méthodes de Monte Carlo puissent être considérées comme une généralisation de l "aiguille de Buffon" (Buffon, 1733), méthode proposée par ce dernier en 1733 pour l estimation du nombre π à partir d un grand nombre de lancers d aiguilles indépendants sur un parquet composé de planches parallèles de même largeur. 71

78 CHAPITRE 3. ESTIMER LA DISPERSION DU POLLEN AVEC L ABC mis en évidence par Metropolis et Ulam (1949) : (i) il est aisé de simuler des suites de processus dépendants, (ii) le nombre de simulations indépendantes possibles est très élevé depuis la création d algorithmes générateurs de nombre pseudo-aléatoires (dont la périodicité ne cesse d augmenter) et (iii) les calculs peuvent être effectués en parallèle, ce qui permet d utiliser plusieurs machines en même temps. Il est à noter que ces avantages soulevés en 1949 sont toujours d actualité, notamment concernant la parallélisation des calculs car la tendance actuelle est à l augmentation des puissances de calcul des machines par la parallélisation des processeurs plus que par l augmentation de leur vitesse de calcul. Les méthodes de Monte Carlo reposent sur les notions d échantillonnage et de probabilité qui sont la base des statistiques. Le nom de ces méthodes fait référence aux jeux de hasard pratiqués dans les casinos célèbres de la ville de Monte-Carlo (la paternité de ce nom est attribuée à Nicholas Metropolis). L objectif général de ces méthodes est de calculer l espérance de h(x) sous f avec X une variable aléatoire et f une fonction de densité : E f [h(x)] = h(x)f(x)dx Le calcul de cette intégrale peut être approché au moyen de simulations, lorsque f est intégrable avec h. En effet en simulant T fois de manière indépendante x t suivant la fonction de densité f, la moyenne des h(x t ) peut être estimée car d après la loi des grands nombres, 1 T T h(x t ), t=1 x t f(x) converge vers l espérance de E f [h(x)] quand T tend vers l infini (le théorème central limite fournit la vitesse de convergence). Les méthodes de Monte Carlo se sont développées réellement depuis les années 80 parallèlement à la puissance de calcul des ordinateurs. Leurs utilisations sont multiples. Voici une liste non exhaustive de leur application : Les méthodes bootstrap (Efron, 1982), qui permettent d estimer les propriétés d un estimateur (p) par rééchantillonnage dans une distribution approchée (classiquement le jeu de données si les individus observés sont considérés comme indépendants et identiquement distribués). Ainsi pour chaque jeu de données simulé, il faudra effectuer une nouvelle estimation des paramètres (p i ). La précision de l estimation des propriétés de l estimateur (p) sera d autant plus grande que le nombre de simulations (i) sera important. Cette méthode peut donc être à la fois très efficace lorsque l estimation est rapide ou au contraire très coûteuse en temps de calcul lorsque l estimation est longue. Dans l article Restoux et al. (in prep) (en annexe I), nous utilisons cette méthode pour le calcul d intervalles de 72

79 3.1. DESCRIPTION DE L ABC confiance. L importance sampling (échantillonnage préférentiel parfois appelé le bootstrap pondéré) (Rubinstein, 1981). Cette méthode est utilisée pour le calcul d intégrale. Elle permet de ne pas tirer directement dans la fonction d intérêt f (par exemple quand le tirage dans une telle distribution est difficile) mais dans une fonction dite d importance g ( choisie parmi les fonctions "classiques" de densité et dans laquelle il est facile de tirer). Cette méthode repose sur l identité E f [h(x)] = E g [h(x)f(x)/g(x)]. Si la fonction d importance g est suffisamment proche de la distribution cible f que l on essaie d estimer alors le temps de calcul est diminué. En contrepartie, si elle ne l est pas, le temps de calcul peut être augmenté. Les méthodes d acceptation-rejet utilisées pour simuler des variables aléatoires indépendantes et identiquement distribuées de densité f (voir le livre de Robert et Casella (2004) pour plus de précision). Des tirages Y distribués selon la densité de probabilité f sont obtenus selon l algorithme suivant, utilisant la fonction de densité g appelée densité instrumentale : 1. Tirer X g, U U [0,1] (avec U la loi uniforme) 2. Accepter Y = X si U f(x) Mg(X) avec M une constante telle que x T, fonction f. f(x) Mg(x), où T est le support de la Cette méthode permet de générer des tirages dans n importe quelle fonction de densité connue à une constante multiplicative près. Le taux d acceptation dans cet algorithme est connu et égal à 1/M. Pour que le ratio f/g soit borné (ce qui est nécessaire à la détermination de M), il est nécessaire que la queue de distribution de g soit plus lourde que celle de f. Les Markov Chain Monte Carlo (MCMC) (Metropolis et al. (1953) dont la réelle portée apparut plus clairement dans l article Gelfand et Smith (1990)). Elles sont principalement utilisées dans le calcul bayésien (voir ) pour l integration de la vraisemblance par la prior. Ces méthodes permettent d obtenir une chaîne de Markov de distribution stationnaire f. Les deux méthodes les plus utilisées pour obtenir des MCMC sont celles de l échantillonneur de Gibbs et sa généralisation, l algorithme de Metropolis-Hastings. Dans l échantillonneur de Gibbs, la distribution multivariée f est atteinte en tirant tour à tour chaque paramètre univarié d après la loi f conditionnelle à tous les autres paramètres. Cet algorithme est très répandu (il a notamment été automatisé dans le logiciel BUGS (Lunn et al., 2000)), car il ne nécessite pas de "choix" de loi de tirage par l utilisateur. Cependant il n est applicable que lorsque les tirages dans les lois conditionnelles sont 73

80 CHAPITRE 3. ESTIMER LA DISPERSION DU POLLEN AVEC L ABC possibles. Il est particulièrement adapté aux modèles hiérarchiques, pour lesquels ces lois sont connues (par construction). Néanmoins sa vitesse de convergence n est pas optimale, il est donc parfois intéressant (voire nécessaire) de choisir une autre loi de proposition des paramètres. C est ce que propose l algorithme de Metropolis-Hastings où les paramètres sont tirés (un à un ou simultanément) dans une loi de proposition quelconque. Les paramètres sont alors conservés avec une probabilité dépendant à la fois de la fonction f et de la loi de proposition. Cette généralisation de l échantillonneur de Gibbs converge plus rapidement, lorsque la loi de proposition est choisie de manière appropriée. L utilisation de l échantillonneur de Gibbs ou de l algorithme de Metropolis-Hastings posent le même dilemme à l utilisateur que le choix entre le Monte-Carlo simple et l importance sampling, la seconde des deux méthodes est générale (applicable à n importe quelle fonction f) et potentiellement plus efficace mais son efficacité repose sur le choix de la loi de proposition ou d importance choisie qui peut améliorer ou dégrader l estimation. L utilisation de MCMC ne se limite pas à l inférence bayésienne, elle se retrouve aussi dans les Monte Carlo EM, une version stochastique de l algorithme Expectation Maximization (McLachlan et Krishnan, 1997). Dans ces méthodes ce sont les distributions conditionnelles aux données cachées qui sont approximées par une méthode MCMC. Et enfin les méthodes d ABC (Beaumont et al., 2002) développées récemment que nous présenterons plus tard. Les méthodes de Monte Carlo sont de plus en plus sophistiquées et associées à l augmentation de la puissance de calcul disponible, elles fournissent des outils puissants pour répondre aux nombreux problèmes soulevés lors de l estimation et l étude des estimateurs. Elles permettent de dépasser les limites de la convergence asymptotique et de la résolution analytique qui devient parfois difficilement tractable voire impossible. De plus, ces méthodes sont relativement simples à comprendre et à mettre en oeuvre. Par exemple, l étude par simulations d un estimateur nécessite moins de connaissance en calcul que le calcul de sa convergence asymptotique. Pour des modélisateurs convaincus mais pas nécessairement statisticiens (par exemple en écologie ou en génétique des populations), qui développent des modèles de plus en plus complexes pour étudier des données de plus en plus précises, la boîte à outils fournie par les méthodes de Monte Carlo est une véritable mine d or. Cependant, l aspect attractif et intuitif de ces méthodes ne doit pas faire oublier les problèmes théoriques qui se cachent derrière leur côté faussement empirique. De nombreuses preuves théoriques attestent de la validité de ces approches. Néanmoins en pratique, il faudra prêter une attention particulière au nombre de simulations à effectuer. Comme soulevé précédemment, parmi ces méthodes, l utilisateur doit faire des choix dont l estimation dépendra aussi bien en terme de vitesse ou de précision (par exemple pour l importance sampling, une fonction d importance inappropriée peut conduire à une augmentation du nombre de 74

81 3.1. DESCRIPTION DE L ABC simulations requises et à des estimateurs biaisés de variance infinie si le nombre de simulations est insuffisant (Robert, 2009)). Même si ces choix peuvent et doivent s appuyer sur les conclusions de travaux théoriques, dans le cadre des modèles complexes, ces choix sont aussi guidés par l expertise et le savoir-faire de l utilisateur. Ainsi l utilisateur averti profitera des nombreux développement de ses méthodes mais devra évaluer leurs limites Le paradigme bayésien La statistique bayésienne présente une alternative à la statistique fréquentiste ou statistique classique. Elle repose sur le théorème de Bayes (Bayes, 1764) qui exprime le conditionnement des probabilités, bien qu il semblerait que le concept de la statistique bayésienne ait été développé réellement plus tardivement et de manière indépendante par Laplace ( Laplace (1774) décrit dans Stigler (1986)). Dans le cadre actuel de la statistique bayésienne, le théorème de Bayes s exprime ainsi : p(θ y) = p(θ)p(y θ) p(θ)p(y θ)dθ Θ avec y les données observées, θ les paramètres du modèle choisi pour décrire les données, p(θ) la distribution a priori des paramètres, p(y θ) la vraisemblance des données sous le modèle sachant les paramètres et p(θ y) la distribution a posteriori des paramètres. Dans le cadre bayésien, l estimation consiste en la détermination de la distribution a posteriori des paramètres, la posterior, p(θ y). Elle est obtenue en "inversant" grâce à ce théorème la probabilité des données connaissant les paramètres exprimés sous le modèle (p(y θ)) en utilisant une information obtenue au préalable sur la distribution des paramètres (p(θ)). En effet la probabilité p(θ)p(y θ)dθ Θ est simplement une constante de normalisation représentant la probabilité des données sur l ensemble des paramètres θ possibles. La distribution a posteriori des paramètres constitue donc la "réactualisation" de la distribution a priori de ces paramètres par l information apportée par les données observées. La principale différence entre la statistique fréquentiste et la statistique bayésienne est la modélisation des paramètres (Robert, 2006). Dans la première, les paramètres à estimer du modèle sont des constantes et dans la seconde les paramètres sont des variables aléatoires. Par conséquent la mesure de l incertitude de l estimation de ces paramètres est aussi différente selon la modélisation utilisée. Dans le cadre de la statistique fréquentiste, cette mesure est donnée par les régions (ou intervalle dans le cadre de paramètre univarié) de confiance. Elles représentent les régions dans lesquelles les vrais paramètres se situent connaissant les données observées et ceci pour une probabilité choisie (1 α, avec α le risque de première espèce). Les vrais paramètres étant des constantes, elles ne peuvent être interprétées comme les régions dans lesquelles la valeur 75

82 CHAPITRE 3. ESTIMER LA DISPERSION DU POLLEN AVEC L ABC exacte des paramètres se situent avec une probabilité 1 α, mais signifient que la valeur des paramètres, si elle est extérieure à la région de confiance, produit les données observées avec une probabilité inférieure à α (sous réserve que le modèle utilisé soit juste). Autrement dit les probabilités de ces régions ne représentent pas celles des données observées, mais celles des estimations répétées qui fourniront des régions de confiance dans lesquelles la valeur exacte des paramètres sera présente dans 1 α des cas (Dagnelie, 1998). Dans le cadre de la statistique bayésienne, la mesure de l incertitude de l estimation est donnée par les régions de crédibilité calculées à partir de la distribution a posteriori, sous la forme de régions à plus forte densité a posteriori, i.e. telles que : {θ; p(θ y) k}. Dans ce cadre, les régions de crédibilité de niveau α peuvent être interprétées comme les régions dans lesquelles les paramètres se situent avec une probabilité 1 α (Robert, 2006). Cette probabilité est une probabilité a posteriori i.e. elle intègre à la fois les informations fournies par les données observées et l information contenue dans la distribution a priori. La critique majeure faite à l encontre des régions de confiance est que l erreur mesurée se situe au niveau des répétitions de l estimation et non à celui des données observées (Parent et Bernier, 2007). Celle concernant les régions de crédibilité est le poids important accordé à la distribution a priori. Ces critiques constituent aussi les avantages de ces méthodes : les intervalles de confiance constituent des mesures objectives (sans information a priori) et les intervalles de crédibilité peuvent facilement intégrer les informations obtenues préalablement sur les paramètres via la distribution a priori. La méthode statistique fréquentiste la plus proche de la statistique bayésienne est la méthode d estimation par maximum de vraisemblance. Bien que les méthodes par maximum de vraisemblance et bayésiennes modélisent différemment les paramètres à estimer, dans le cadre de l inférence 2, ces deux types de méthodes fournissent des estimations (ponctuelles ainsi que des intervalles de confiance) similaires (voire identiques) dans le cas de problèmes paramétriques standards avec des paramètres continus, lorsqu aucune information extérieure (autre que celle du modèle et des données) n est utilisée (bayésien "objectif") (Bayarri et Berger, 2004). Un des défauts de la méthode par maximum de vraisemblance est la maximisation qu elle nécessite et qui peut être difficilement réalisable, même numériquement, notamment lorsque les paramètres à estimer sont multivariés ou contraints. De plus des estimateurs ainsi obtenus sont moins lisses et numériquement plus instables (particulièrement lorsque le nombre de données est faible) contrairement à ceux de la méthode bayésienne issus d une intégration (Robert, 2006). Néanmoins l estimation de la densité a posteriori n est guère plus aisée. Bien qu il existe des dis- 2 Ceci n est pas aussi évident dans le cadre de la décision statistique (Parent et Bernier, 2007). 76

83 3.1. DESCRIPTION DE L ABC tributions a priori conjuguées dont le produit avec la vraisemblance est simple, elles ne sont disponibles que pour certaines vraisemblances et contraignent totalement le choix de la prior. C est pourquoi l estimation de la posterior est le plus souvent numérique (l intégration de la vraisemblance par la prior ne pouvant être obtenue analytiquement) (Droesbeke et al., 2002). Elle fait appel à des calculs intensifs reposant le plus souvent sur les algorithmes de Monte Carlo Markov Chains (MCMC) décrits dans la partie précédente. La nécessité de cette puissance de calculs explique l engouement relativement tardif pour ces méthodes (près de trois siècles après le théorème de Bayes). La statistique bayésienne se définit conceptuellement par la modélisation sous forme de variables aléatoires des paramètres à estimer. En pratique, cette différence avec la statistique inférentielle classique est très peu marquée, la distribution a posteriori étant résumée sous la même forme que les estimateurs classiques : une estimation ponctuelle (la médiane, le mode ou la moyenne de la posterior) et un intervalle de crédibilité (défini à partir de l étendue ou des quantiles de la posterior). Pour estimer des paramètres, il est donc possible d utiliser l approche fréquentiste ou bayésienne L attrait des méthodes bayésiennes et Monte Carlo en génétique des populations. Comme l écrivent Marjoram et Tavare (2006), "There has never been a better time to analyse molecular variation data from natural populations. We are in the midst of an explosive growth in both the amount of molecular data being generated and the computational power available to analyse them". Les modèles en génétique des populations sont hiérarchiques et deviennent de plus en plus complexes, parallèlement à l augmentation croissante du nombre de données disponibles. C est pourquoi les méthodes de Monte Carlo, le plus souvent bayésiennes, sont particulièrement attractives pour estimer les paramètres de ces modèles. Les modèles en génétique des populations sont par définition constitués d au moins trois niveaux hiérarchiques. Le premier niveau est constitué par la population (une ou plusieurs populations, répartie(s) ou non dans l espace), le second niveau par les individus. Chaque individu appartient à une population donnée et contient lui-même plusieurs locus, qui définissent le troisième niveau. Pour chaque locus, chaque individu porte un (haploïde) ou plusieurs gènes (le plus souvent deux, diploïde) qui constituent des répétitions du troisième niveau. A chaque niveau, se produisent des processus relativement simples mais de natures différentes qui emboîtés forment un processus complexe et la vraisemblance qui en résulte l est tout autant. A titre d exemple, nous pouvons citer la migration d un individu d une population à une autre au premier niveau, la dispersion des gamètes d un individu au second niveau, le génotype d un individu sachant celui de ses parents au dernier niveau... Un processus complexe peut donc être décrit par de nombreux processus simples mais hiérarchisés et interdépendants. Par 77

84 CHAPITRE 3. ESTIMER LA DISPERSION DU POLLEN AVEC L ABC exemple dans le cadre de théorie de la coalescence, les probabilités des divers événements qui constituent le coalescent s explicitent relativement simplement : l identité par descendance des allèles pour un gène de deux individus connaissant leur lien de parenté, l apparition de nouveaux allèles connaissant le taux de mutation, la coalescence de deux individus connaissant la taille de la population... Cependant la probabilité des données observées, les génotypes des individus observés, est difficilement explicitable. La vraisemblance de ce modèle n est donc explicitable que dans une gamme de modèles restreints (Fu et Li, 1999). Lorsque la vraisemblance est complexe, sa maximisation est difficile, notamment car les paramètres sont le plus souvent liés, ce qui complique l estimation classique par maximum de vraisemblance. D autre part dans ce cas, les intervalles de confiance ne sont pas analytiquement (même asymptotiquement) calculables et leur estimation par bootstrap n est pas envisageable car elle nécessiterait de répéter un grand nombre de fois une estimation déjà difficile (voir section ). L estimation bayésienne est dans ce cadre beaucoup plus simple car elle ne nécessite pas une maximum mais une intégration. Cette intégration peut être atteinte numériquement notamment par les algorithmes MCMC (voir section ) qui sont particulièrement adaptés aux modèles hiérarchiques complexes. En effet ils peuvent décomposer le processus total en une série de simulations conditionnelles simples. Ainsi, s il est possible d écrire la suite des vraisemblances conditionnelles partielles, l estimation est possible, même si la vraisemblance totale est intractable. De plus, la distribution posterior obtenue contient intrinsèquement les intervalles de crédibilité. Néanmoins la fonction de vraisemblance dans ces modèles peut être discontinue surtout lorsqu il est nécessaire de simuler certains génotypes (voir équation 1.1) qui même s ils sont proches peuvent conduire à des valeurs de vraisemblance très différentes. Par exemple, dans le cas de de locus diploïdes indépendants, un individu de génotype (A 1 B 1, A 2 B 2 ) issu d une mère (A 1 A 1, A 2 A 2 ) sera issu d un père (A 1 B 1, A 2 B 2 ) avec une probabilité de 0.25 alors que si on considère un père (A 1 A 1, A 2 B 2 ), cette probabilité sera nulle. La vraisemblance étant fortement contrainte par les génotypes, les surfaces de vraisemblance non nulle peuvent être très fortement fragmentées. Dans ce cas les tirages classiques du MCMC peuvent devenir inefficaces, le nouveau paramètre proposé étant systématiquement rejeté. Ils doivent donc être adaptés pour parcourir efficacement l espace des paramètres (Sisson, 2007). Par exemple lors de l estimation de généalogies, il est possible, pour permettre à la chaîne de "sortir" des structures complexes de dépendances locales, d utiliser des méthodes de recuit simulé MCMC qui autorisent un certain pourcentage de configurations impossibles sachant les données, ce pourcentage étant abaissé (jusqu à la valeur nulle) tout au long de l estimation (Geyer et Thompson, 1995). Cependant lorsque les modèles deviennent vraiment complexes, la vraisemblance (conditionnelle ou non) peut ne plus devenir explicite ou être intractable même par simulations. Dans ce cas, il est nécessaire de simplifier le modèle ou les données (Marjoram et Tavare, 78

85 3.1. DESCRIPTION DE L ABC 2006), ces dernières pouvant être résumées par des statistiques, l estimation reposant alors non plus sur la vraisemblance des données mais sur des contrastes de ces statistiques. Par exemple, si les paramètres sont exprimables sous la forme des moments, la méthode des moments peut être utilisée. Beaucoup de méthodes (indirectes) de la génétique des populations reposent sur les moments comme la méthode proposée par Ritland (2002) pour estimer les paramètres de systèmes de reproduction mixtes (dans une méthode alternative à celle du maximum de vraisemblance décrite section 1.2.2) ou encore celle de Rousset (2000) qui permet l estimation de la taille du voisinage d une population à partir de génotypes individuels géoréférencés sous le modèle d isolement par la distance (voir figure 1.4 et les explications connexes). Utilisant le même principe, nous pouvons bien évidemment citer les méthodes indirectes d estimation de la dispersion du pollen : TwoGener et Kindist. Dans ce cadre, l estimation s effectue en minimisant la somme des carrés des écarts entre les valeurs observées et les valeurs théoriques. Le plus souvent, les estimations par ces méthodes (i) demandent des développements analytiques complexes imposant des hypothèses simplificatrices (voir chapitre précédent) et (ii) ne fournissent pas d intervalle de confiance car le calcul de la variance de l estimateur est trop complexe. Dans ce contexte, il est possible d utiliser les méthodes de Monte Carlo pour dépasser les limites de l expression analytique. Cependant la vraisemblance étant inaccessible et les données remplacées par des statistiques, il n est plus possible d utiliser la statistique bayésienne. Dans le cadre inférentiel, on peut donc simplifier le modèle jusqu à le rendre implicite et estimer de manière non paramétrique la vraisemblance (Diggle et Gratton (1984), Gourieroux et al. (1993)). Mais ces méthodes sont très coûteuses en temps de calcul et difficiles à mettre en oeuvre lorsque la dimension du vecteur de paramètres à estimer augmente. Une alternative à ces méthodes est proposée aux travers des méthodes par Approximate Bayesian Computation qui permettent dans le cadre bayésien de remplacer l information apportée par la vraisemblance des données par l information apportée par des statistiques qui résument ces données Principe de l Approximate Bayesian Computation Les méthodes ABC proposent d estimer les paramètres d un modèle par simulation, en étudiant la ressemblance entre le jeu de données observé et les jeux de données simulés suivant le modèle choisi. L idée est simple : plus les données simulées sont semblables aux données observées, plus les paramètres utilisés pour les simulations sont probables. Ces méthodes sont génériques, elles peuvent s appliquer à l estimation de paramètres sous n importe quel modèle à la condition qu il soit possible de simuler le jeu de données observé et sous réserve d utiliser des statistiques contenant suffisamment d information concernant les paramètres à estimer. Elles peuvent donc s appliquer aux implicit computer model (Diggle et Gratton, 1984) qui génèrent des données sans retourner de vraisemblance. 79

86 CHAPITRE 3. ESTIMER LA DISPERSION DU POLLEN AVEC L ABC La première approximation de l ABC Les méthodes ABC dérivent des méthodes d acceptation-rejet (décrites précédemment dans la partie ). Tavaré et al. (1997) proposent d utiliser cet algorithme d acceptation-rejet pour estimer la distribution a posteriori en remplaçant les données Y par des statistiques S(Y ). Ainsi ils approximent la densité bayésienne a posteriori par : p(θ Y = y obs ) p(θ S(Y ) = s obs ). Selon les statistiques choisies, cette approximation est plus ou moins valide. Idéalement il faudrait choisir des statistiques suffisantes pour θ sous le modèle utilisé i.e. S(Y ) telles que : P r(y = y S(Y ) = s, θ) = P r(y = y S(Y ) = s). La vraisemblance étant inaccessible analytiquement, de telles statistiques ne peuvent pas être définies de manière optimale. Dans l application de Tavaré et al. (1997) la statistique utilisée n est pas suffisante pour θ mais supposée proche de la suffisance. Cette méthode permet une estimation bayésienne sans utiliser la vraisemblance. Cependant elle n est pas générique car l algorithme d acceptation-rejet classique nécessite de pouvoir calculer et maximiser la probabilité P (S(Y ) = s obs θ). Fu et Li (1997) proposent une généralisation de cette méthode en estimant par simulations la probabilité P (S(Y ) = s obs θ). Ainsi l algorithme d acceptation-rejet classique devient pour chaque simulation s effectuée : 1. Tirer le paramètre θ s dans la distribution a priori 2. Simuler les données y s sous θ s 3. Accepter le paramètre θ s, si S(y s ) = S(y obs ) L estimation de la densité continue a posteriori à partir des paramètres θ i conservés est obtenue par : ˆp(θ 0 s) = 1 N sa N sa F (θ i θ 0 ), (3.1) avec N sa le nombre de simulations acceptées et F un noyau de lissage (de type gaussien par exemple) avec une fenêtre de largeur (Nadaraya (1964) et Watson (1964)). i Cette approche plus générale suppose néanmoins que la statistique utilisée soit de faible dimension et discrète. Lorsque le nombre de dimensions de la statistique résumée choisie augmente ou lorsqu elle devient continue, sa probabilité d acceptation devient nulle. 80

87 3.1. DESCRIPTION DE L ABC La seconde approximation de l ABC Pour généraliser cet algorithme aux statistiques multivariées et/ou continues, Weiss et von Haeseler (1998) proposent d approximer l égalité entre les statistiques observées et simulées par une distance faible entre ces statistiques. Ainsi, les méthodes ABC reposent sur deux approximations de la vraisemblance des données : p(θ Y = y obs ) p(θ S(Y ) = s obs ) p(θ S(Y ) s obs ɛ), avec ɛ un seuil de tolérance et une métrique qui représente l écart entre les statistiques observées et simulées. L estimation de Weiss et von Haeseler (1998) repose sur des simulations où les paramètres θ sont choisis sur une grille (correspondant à une prior uniforme). Pritchard et al. (1999) généralise cette approche à des distributions a priori quelconques. Lorsque ɛ = 0, la distribution a posteriori obtenue est exactement p(θ S(Y )), alors que lorsque ɛ la distribution a posteriori est égale à la prior (Beaumont et al., 2002). Plus ɛ est faible et plus l estimation est précise 3 cependant le nombre de simulations acceptées pour un nombre fixé de simulations sera plus faible. Le choix du ɛ est donc un compromis entre le biais et la variance de l estimation (Beaumont et al., 2002) qui en pratique devient un compromis entre la précision et la puissance de calcul disponible (Marjoram et al., 2003). La tolérance peut être fixée de différentes manières. Elle peut être déterminée par le seuil ɛ accepté. La valeur de ɛ est alors déterminée préalablement aux simulations, ainsi que le nombre de simulations acceptées, les simulations étant effectuées jusqu à ce nombre soit atteint. Les données simulées (paramètres tirés et éventuellement jeux de données ou statistiques-résumées) ne sont ainsi conservées que lorsque S(Y ) s obs ɛ. Le stockage de données est donc limité, mais en contrepartie le temps de calcul est indéterminé. La tolérance choisie peut aussi être déterminée par la proportion de simulations conservées P ɛ, le nombre de simulations à effectuer étant déterminé à l avance (Beaumont et al., 2002). Les statistiques-résumées (et parfois d autres données) de toutes les simulations sont conservées. Le seuil de tolérance ɛ est donc le quantile empirique d ordre P ɛ calculé sur les simulations. Dans ce cas, le stockage de données est plus important mais le temps de calcul est déterminé et l effet de la tolérance sur l estimation peut être étudié. Les méthodes ABC sont donc faciles à mettre oeuvre : simuler les données selon des paramètres tirés dans la prior et accepter ces paramètres si la distance entre les données (résumées par des statistiques) simulées et observées est suffisamment faible, la métrique de cette distance étant arbitrairement choisie. La justification théorique de ces méthodes reste toute fois incomplète. Si les statistiques sont suffisantes, si ɛ tend vers 0 et que le nombre de simulations tend 3 Sous réserve que les statistiques soient proches de la suffisance. 81

88 CHAPITRE 3. ESTIMER LA DISPERSION DU POLLEN AVEC L ABC vers l infini alors les estimations issues de l ABC convergeront vers la posterior bayésienne classique. Mais compte tenu de la complexité des modèles utilisés, aucune information concernant la suffisance des statistiques pour les paramètres n est disponible, de même que pour la vitesse de convergence de la distribution a posteriori de l ABC vers la posterior bayésienne classique en fonction de ɛ et le nombre de simulations. Cependant, les justifications empiriques de ces méthodes obtenues par simulations ou par comparaison avec les méthodes bayésiennes classiques associées à leur facilité d implémentation montrent que ces méthodes sont d un réel intérêt et peuvent fournir des estimations correctes Marjoram et Tavare (2006). Ayant présenté brièvement le principe des méthodes ABC et relevé leurs principaux défauts, nous détaillerons d avantage, dans la partie suivante, les multiples variantes de ces méthodes et leurs nombreuses utilisations Application de la méthode Le principal intérêt des méthodes ABC est leur généralité. Développées dans le cadre de la théorie de la coalescence, elles ont été appliquées pour des problèmes multiples de la génétique des populations. Parmi eux voici quelques exemples d application : l étude des événements d admixture (Excoffier et al., 2005), l estimation de la taille efficace de la population (Tallmon et al., 2004), la détection de diminution de la taille de la population (Thornton et Andolfatto, 2006)... Le cadre de ces méthodes a aujourd hui dépassé le domaine de la génétique des populations. Elles ont été utilisées dans des domaines comme l écologie (Francois et al. (2008) et Jabot et Chave (2009)), mais aussi les réseaux de protéines (Ratmann et al., 2007), l archéopaléontologie (Wilkinson et Tavaré, 2009) ou l épidémiologie (Tanaka et al., 2006). Ces méthodes permettent des estimations de paramètres de modèles complexes même si leur vraisemblance est totalement inexprimable (implicit computer models) 4. Dans le cadre bayésien, elles approximent la densité a posteriori des paramètres. Comme les méthodes bayésiennes classiques, elles permettent d obtenir directement une estimation de la distribution multivariée des paramètres (Beaumont et Rannala, 2004). La comparaison de deux modèles est obtenue de manière directe en approximant le Bayes Factor (Kass et Raftery, 1995) par le ratio du nombre de simulations acceptées des deux modèles (Pritchard et al., 1999), ou plus récemment par une régression logistique (Cornuet et al., 2008). Néanmoins la nouveauté de ces méthodes se traduit par le manque de résultats théoriques disponibles actuellement. Très peu d articles abordent ces questions (deux articles actuellement en preprint Blum et Francois (2009) et Wilkinson (2008)). 4 L utilisation de ces méthodes est aujourd hui facilitée par leur implémentation dans de nombreux logiciels. Nous ne citerons ici que quelques exemples qui permettent de traiter les résultats des simulations selon la méthode de Beaumont et al. (2002) : le programme R de Mark Beaumont disponible sur le site et le programme de Thornton et Andolfatto (2006) en C++. 82

89 3.1. DESCRIPTION DE L ABC Interprétation de la tolérance acceptée Nous avons présenté dans la partie précédente le paramètre de tolérance ɛ. Ce paramètre détermine la seconde approximation des méthodes ABC : accepter les simulations lorsque qu elles sont suffisamment proches des statistiques-résumées observées, et non pas égales. Le paramètre de tolérance ɛ détermine le seuil à partir duquel la distance entre ces statistiques est suffisamment faible. Nous présenterons ici les différentes modélisations et interprétations de la tolérance Pondération des paramètres acceptés en fonction de la distance L algorithme des méthodes ABC consiste pour chaque simulation i à : 1. Tirer le paramètre θ i dans la distribution a priori 2. Simuler les données y i sous θ i 3. Calculer S(y i ) s obs Ainsi pour chaque simulation, nous obtenons un couple {θ i ; S(y i ) s obs }. Il est naturel de considérer que plus l écart entre les paramètres S(y i ) s obs est faible, plus le paramètre θ i est informatif sur la distribution a posteriori. Pour estimer la densité a posteriori, on peut donc associer à chacun des θ i un poids, W i, décroissant avec S i s obs (avec S i = S(y i )). Beaumont et al. (2002) proposent ainsi d utiliser un noyau de lissage (Gaussienne, Epaniechnikov..) pour calculer le poids W i =, K ɛ ( S i s obs ). ɛ représente le seuil au delà duquel le poids est nul (ou quasi-nul). Dans le cas de l ABC non lissé Weiss et von Haeseler (1998), la fonction de lissage K ɛ utilisée est "carrée" i.e. K ɛ (x) = { 1 si x < ɛ 0 sinon Dans cet ABC "lissé" que nous nommerons Smooth ABC, l estimation de la densité a posteriori par noyau classique est pondérée et la formule 3.1 devient : ˆp(θ 0 s) = i F (θ i θ 0 )K ɛ ( S i s obs ) i K ɛ( S i s obs ) Deux points de vue pour interpréter de la tolérance Il existe actuellement deux interprétations de la tolérance ɛ : (3.2) La première vision adoptée est de nature empirique (Beaumont et al., 2002). Ces noyaux et le paramètre de tolérance ɛ sont considérés comme une approximation nécessaire car 83

90 CHAPITRE 3. ESTIMER LA DISPERSION DU POLLEN AVEC L ABC la probabilité de simuler la valeur exacte des statistiques observées est très faible. En effet cette probabilité diminue avec la dimension de la statistique utilisée car l ensemble des valeurs possibles du vecteur de statistiques augmente de manière exponentielle avec le nombre de statistiques (Beaumont et al., 2002). C est ce que l on nomme le fléau de la dimension. Mais cette approximation est aussi nécessaire lorsque les statistiques sont continues. Dans ce cadre les estimations approximées par les méthodes ABC deviennent exactes lorsque ɛ tend vers 0 sous réserve que les statistiques utilisées soient suffisantes pour les paramètres du modèle. Wilkinson (2008) a développé une vision plus théorique en considérant l écart S i s obs comme une variable aléatoire que nous appellerons ξ. Cette variable aléatoire représente l erreur de modélisation. L origine de cette erreur peut être une erreur de mesure ou bien être intrinsèque à la modélisation (une variabilité non prise en compte dans le modèle). Le noyau choisi K ɛ reflète ainsi la densité de distribution de ξ. Faire de l ABC non lissé revient donc à supposer que ξ suit une loi uniforme sur [ ɛ, ɛ]. Par contre si l on connaît la loi de probabilité de l erreur ξ, si elle a pu être (i) mesurée préalablement ou (ii)calculée à partir du modèle (même si elle dépend de paramètres à estimer), on peut choisir cette loi plutôt qu un noyau quelconque. Dans ce cas, les estimations issues de l ABC ne sont donc plus des approximations d un modèle simple mais des estimations exactes d un modèle "étendu" i.e. modélisant l erreur. Cette vision a été reprise par Ratmann et al. (2009) qui proposent ainsi de considérer les noyaux de lissage K ɛ comme des priors de ξ. Le positionnement de Wilkinson (2008) plus théorique introduit une nouvelle vision de l erreur dans l ABC. En effet, elle peut ainsi être étudiée et maîtrisée et aussi être interprétée (Ratmann et al., 2009) 5. Néanmoins cette approche est nouvelle et pour l instant très peu utilisée. La première vision de l erreur qui interprète celle-ci comme une contrainte issue du fléau de la dimension est la plus commune et la plus ancienne (relativement ancienne, les première approches pour tenter de limiter son impact ont été introduite par Beaumont et al. (2002) et Marjoram et al. (2003)). De nombreuses méthodes ont depuis été développées pour limiter cette contrainte. Nous les présenterons dans la partie suivante Lutter contre le fléau de la dimension Le fléau de la dimension est un problème classique dans le cadre de la statistique non paramétrique (Bellman, 1961). Dans le cadre de l ABC, il apparaît lorsque la probabilité d observer les valeurs des statistiques du jeu de données dans les simulations devient pratiquement nulle. 5 Mais cette approche reste discutée à l heure actuelle (voir les critiques de Robert et al. (2009) et la réponse de Ratmann et al. (2010)) 84

91 3.1. DESCRIPTION DE L ABC C est pourquoi on tolère dans les simulations acceptées celles qui sont suffisamment proches des observations et pas seulement égales. Le seuil de la distance acceptée est fixé par le seuil de tolérance choisi ɛ. Le choix de ɛ est un compromis biais-variance (Beaumont et al., 2002). En effet plus ɛ sera grand est moins l approximation p(θ S(Y ) = s obs ) p(θ S(Y ) s obs ɛ) sera exacte et plus l estimation sera biaisée. Cependant lorsque le nombre total de simulations est fixé, plus ɛ sera faible et plus le nombre de simulations acceptées le sera aussi (de même, lorsque le nombre de simulations à accepter est fixé, le nombre de simulations totales à effectuer sera grand). Dans ce cas, la diminution du nombre d observations (i.e. de simulations acceptées) augmente la variance de l estimation. En pratique, ce compromis théorique biaisvariance se traduit par le compromis entre précision de l estimation et temps de calcul. Pour le limiter, différentes méthodes ont été développées. Parmi elles, nous pouvons distinguer deux stratégies : (i) corriger les observations issues des simulations ou (ii) utiliser l information obtenue dans les simulations précédentes pour explorer préférentiellement les espaces de paramètres les plus probables. Corriger les paramètres acceptés Beaumont et al. (2002) ont proposé d ajuster la valeur des paramètres retenus (ayant conduit à des simulations acceptées) en utilisant une régression linéaire locale des paramètres par rapport aux statistiques, afin d obtenir une approximation d un échantillon qui aurait été obtenu avec S i = s obs et non S i s obs ɛ. Cette méthode a été généralisée par Blum et Tran (2008) à une régression linéaire locale quadratique et par Blum et Francois (2009) à un modèle hétéroscédastique adaptatif. Parallèlement Leuenberger et Wegmann (2009) proposent de corriger la distribution a posteriori obtenue en utilisant un modèle linéaire général décrivant la distribution des statistiques sachant les paramètres. Guider les tirages Ces méthodes utilisent des algorithmes issus des méthodes d intégration développées pour les estimations bayésiennes classiques (qui elles aussi doivent faire face au fléau de la dimension). L algorithme de Monte Carlo Markov Chain a par exemple été adapté à l ABC (Marjoram et al., 2003), en remplaçant, dans la formule d acceptation de l algorithme MCMC classique, la vraisemblance des données sachant les paramètres tirés par Pr( S(Y ) s obs ɛ θ), la probabilité que "sous ces paramètres, la distance entre les statistiques simulées et observées soient inférieure à ɛ". En pratique cette dernière probabilité est estimée à partir d une seule simulation i.e. Pr( S(Y ) s obs ɛ θ) 1 { S(Y ) sobs ɛ}. Cet algorithme permet ainsi de tirer les paramètres, non plus selon des tirages indépendants dans la prior, mais selon une chaîne de Markov. Après un certain de nombre de tirages préliminaires (la période de "burning"), les 85

92 CHAPITRE 3. ESTIMER LA DISPERSION DU POLLEN AVEC L ABC paramètres conservés sont des échantillonnages de la distribution a posteriori des paramètres sachant S i s obs ɛ. Cet algorithme possède néanmoins deux inconvénients, causés par la dépendance des tirages (Sisson et al., 2007). D une part la chaîne des paramètres conservés peut être dépendante de son point de départ (i.e. le premier tirage des paramètres). D autre part elle peut rester "collée" au voisinage d un minimum local. Ces inconvénients peuvent être issus d un mauvais choix des paramètres de "tuning" de l algorithme, qui sont (i) la période de burning, (ii) le choix de la loi de proposition des tirages de paramètres (proposal) (qui est aussi un problème du MCMC pour le bayésien classique voir partie ) et (iii) le choix du seuil de tolérance pour ɛ qui doit être défini arbitrairement a priori. Actuellement, aucune méthode, similaire à celles utilisées en bayésien classique pour tester la convergence des chaînes MCMC (Robert et Casella, 2004), n a encore été proposée dans le cadre de l ABC. Cependant pour minimiser les inconvénients précédemment cités différentes méthodes ont été proposées. Wegmann et al. (2009) proposent de calibrer les paramètres de tuning (proposal et ɛ) à partir de simulations (indépendantes) préalables. Ils suggèrent d utiliser un ɛ large (P ɛ estimé à 10% sur simulations indépendantes) pour parcourir plus librement l espace et proposent d appliquer à la distribution obtenue l algorithme de (Beaumont et al., 2002) pour limiter l effet de ce ɛ large dans les estimations. Pour ne pas être dépendant du tirage initial et vérifier la convergence de la chaîne, ils proposent de lancer une centaine de chaînes en parallèle (ce qui est une pratique usuelle en MCMC bayésien (Robert et Casella, 2004)). Des versions plus adaptatives, reposant sur le concept d Importance Sampling (voir partie ) ont été proposées. Ainsi les méthodes particulaires proposées par Sisson et al. (2007) (ABC-PRC 6 ), Toni et Stumpf (2009) (ABC-SMC 7 ) et Beaumont et al. (2009) (ABC-PMC 8 ) sont séquentielles : (i) le tirage dans la fonction d importance, effectué par tirage bruité dans la distribution pondérée de particules, est réactualisé à chaque itération en prenant en compte les résultats de l itération précédente (Sisson et al., 2007) ou de toutes les simulations précédentes (pour le calcul des poids des particules (Toni et Stumpf, 2009), mais aussi du bruit (Beaumont et al., 2009)) et (ii) le seuil de tolérance est abaissé tout au long de l algorithme selon un suite de seuils ɛ t définie préalablement. Comme le soulignent Sisson et al. (2007), ces algorithmes pourraient être améliorés en choisissant le nombre de particules, d itérations et la valeur de ɛ t non pas de manière empirique, comme c est le cas actuellement, mais sur une mesure de l écart entre les distributions a posteriori obtenue entre deux itérations. Pour finir, dans la méthode LFA 9, Bortot et al. (2007) proposent d augmenter l espaces des paramètres à estimer, de manière analogue aux méthodes de recuit simulé MCMC (Geyer et Thompson, 1995). Cette méthode permet de parcourir plus efficacement l espace des para- 6 Partial Rejection Control 7 Sequential Monte Carlo 8 Population Monte Carlo 9 Likelihood-Free with Augmentation MCMC 86

93 3.1. DESCRIPTION DE L ABC mètres mais doit être adaptée de manière spécifique au modèle étudié Choix arbitraires dans l ABC Les méthodes ABC sont très flexibles et permettent une estimation même lorsque la vraisemblance est inconnue. Pour cela, elles mettent en jeu deux approximations : (i) elles remplacent la vraisemblance des données observées par celle de statistiques observées, (ii) la vraisemblance est elle-même approchée via un seuil de tolérance ɛ et une métrique entre les statistiques observées et simulées. Le choix des statistiques-résumées, de la métrique utilisée pour calculer la distance entre les statistiques ainsi que du seuil de tolérance accepté ɛ est cependant arbitraire et justifié seulement de manière empirique par simulations Choix des statistiques Dans l ABC, la vraisemblance estimée est conditionnée par les statistiques observées et non par les données. Elle est plus "étalée" que celle obtenue en bayésien classique (Beaumont et Rannala, 2004). Une statistique comporte une part d information "utile" qui concerne les paramètres à estimer dans le modèle et une part d information "inutile" qui ajoute du bruit dans le calcul de la distance entre statistiques observées et simulées. Utiliser une statistique supplémentaire n est pas sans conséquence : si l information qu elle apporte à l estimation n est pas supérieure au bruit qu elle ajoute dans le calcul de la distance entre observation et simulation, alors elle dégrade l estimation (Joyce et Marjoram, 2008). Ainsi, moins les statistiques apportent d information et/ou plus elles sont nombreuses, plus la distribution a posteriori sera étalée. Par conséquent le seuil de tolérance choisi devra être abaissé et donc le nombre de simulations nécessaires sera plus grand (voir Blum (2009) pour une vision théorique). La sélection des statistiques parmi un ensemble donné peut être effectuée à partir de relations théoriques connues entre les statistiques et les paramètres, mais aussi à partir de procédures de sélection simulatoires (analyse de score proposée par Joyce et Marjoram (2008)) ou de réduction de ces statistiques par projection (par exemple par Partial Least Square regression dans Wegmann et al. (2009)). Les méthodes ABC reposent donc sur un compromis sur la réduction des données (par les statistiques-résumées) qui devra (i) être minimum pour conserver le plus d information possible et mais (ii) suffisamment importante pour limiter le fléau de la dimension. Actuellement, le choix des statistiques utilisées est relativement empirique et reste une question ouverte (différentes statistiques pour le même modèle peuvent être utilisées (Sousa et al., 2009)). 87

94 CHAPITRE 3. ESTIMER LA DISPERSION DU POLLEN AVEC L ABC Choix du seuil de tolérance et de la métrique des distances Comme nous l avons précédemment relevé, le choix du seuil est un compromis biais-variance. Jusqu à présent le choix de ce seuil est calibré par des simulations effectuées préalablement sur le modèle étudié ou un modèle proche. Notons que les méthodes qui conservent toutes les statistiques de toutes les simulations permettent d analyser le vrai jeu de données observé mais aussi des jeux de données-test simulés dont les paramètres sont connus (et qui peuvent être tirés dans la distribution a priori). Il est donc possible dans ce cas de définir un seuil ɛ optimal déterminé à partir de ses performances dans les jeux de données-tests. Les méthodes citées précédemment pour lisser l ABC ou corriger les paramètres acceptés diminuent l impact de ce seuil sur l estimation (Beaumont et al., 2002). Le choix de la métrique utilisée pour calculer la distance entre les statistiques est aussi très empirique. La distance euclidienne entre les statistiques est la plus fréquemment utilisée, les statistiques étant renormalisées en fonction de leurs variances observées lors des simulations (Beaumont et al., 2002), afin que les effets d échelle entre les statistiques n influent pas dans la procédure d acceptation-rejet. Cette renormalisation est effectuée d après les résultats obtenus issus des tirages des paramètres dans la distribution a posteriori. La distance choisie est donc fortement influencée par le choix de la prior. D autres distances peuvent être utilisées (par exemple issues des distances génétiques comme dans Sousa et al. (2009)). En conclusion, les méthodes ABC sont des méthodes attractives qui permettent l estimation de modèles complexes dont la vraisemblance est inaccessible. Elles introduisent un autre type de posterior dans le cadre bayésien et montrent que cette nouvelle posterior peut être une bonne approximation de la posterior classique (sous certaines conditions comme le choix de statistiques appropriées). Dans ces méthodes, la posterior est obtenue à partir d un critère différent de la vraisemblance pour mesurer l écart entre le modèle et les données. Ce critère est basé sur l écart entre les statistiques observées et simulées. Néanmoins de nombreux aspects de ces méthodes restent encore empiriques comme le choix du ɛ et la pondération de ce critère par un noyau de lissage ou seulement par un seuil (dans le cas de l ABC non lissé). Dans la partie suivante, nous montrons que dans le cadre bayésien la vraisemblance peut être remplacée par d autres contrastes (i.e. d autres critères mesurant l écart entre le modèle et les données) que celui issu des statistiques-résumées. La plupart des contrastes utilisés classiquement sont issus de moyennes ou des fonctions de moyennes qui tendent asymptotiquement vers des lois normales. En utilisant cette propriété, nous construisons des distributions a posteriori (qui ne dépendent pas du choix du seuil) et nous montrons que ces distributions fournissent des estimations d un point de vue fréquentiste mais peuvent aussi être interprétées d un point de vue bayésien. Nous obtenons théoriquement les comportements asymptotiques de ces distributions. 88

95 3.2. PRÉSENTATION DU CBABC 3.2 Le CBABC, un autre moyen d approcher la vraisemblance Dans l article "Inference with a contrast-based posterior distribution and application in spatial statistics" Soubeyrand et al. (2009) ( Annexe V), nous présentons une nouvelle méthode d estimation qui repose sur l introduction dans la formule de Bayes d une fonction qui dépend d un contraste i.e. d une mesure de l écart entre les données et le modèle. Nous obtenons ainsi une distribution a posteriori qui repose sur ce contraste, une "contrast-based posterior" (CB posterior). La CB posterior obtenue est donc calculée à partir des données résumées sous forme de contrastes, de la même façon les posterior issues des méthodes ABC sont calculées à partir des données résumées sous forme de statistiques. Nous montrons que cette CB-posterior peut être utilisée (i) dans le cadre fréquentiste car elle fournit un estimateur ponctuel ainsi que sa matrice de variance-covariance asymptotique, et ce avec un nombre de calculs analytiques nuls ou limités, mais aussi (ii) dans le cadre bayésien, avec une interprétation semblable à celle de la posterior bayésienne classique qui repose sur la vraisemblance. Cet article présente aux travers d exemples la variété de modèles et de contrastes qui peuvent être utilisés. Le premier exemple est l estimation des paramètres d un variogramme. Le contraste utilisé est celui des moindres carrés entre le variogramme empirique et le variogramme théorique. Le second exemple est l estimation des paramètres d un modèle spatial markovien. Le contraste utilisé est une pseudo-vraisemblance obtenue par le produit des vraisemblances conditionnelles. Le modèle du troisième exemple est un modèle autosimilaire isotrope en escalier décrivant la rugosité du sol. L estimation est obtenue en utilisant comme contraste les deux premiers moments de la variable donnant la hauteur de la surface du sol. Dans ce chapitre nous présenterons le principe de la méthode de posterior par contrastes et les propriétés de ses estimateurs. Nous proposerons ensuite une interprétation de cette CB posterior dans le cadre des méthodes ABC. Finalement, nous détaillerons le CBABC, un exemple particulier des CB posterior, utilisant comme contraste les moindres carrés. Nous ne détaillerons pas ici ces exemples ni les calculs de convergence des estimateurs proposés. Nous proposons aux lecteurs intéressés de consulter l article en annexe V. 89

96 CHAPITRE 3. ESTIMER LA DISPERSION DU POLLEN AVEC L ABC La posterior par contrastes Principe : introduction de contrastes dans la formule de Bayes Définition d un contraste Dans le cadre fréquentiste, on considère une famille de modèles paramétrés par θ, M θ, et un échantillon de taille n tiré dans le modèle M θv fonction aléatoire θ U n (θ), telle que U n (θ) de paramètre θ v. Un contraste de θ v est une P n K(θ, θ v) avec K( ) telle que argmin K(θ, θ v ) = θ v. L estimateur du minimum de contraste est ainsi défini : θ ˆθ n = argmin U n (θ) θ Il inclut les estimateurs classiques de l estimation fréquentiste : le maximum de vraisemblance et ses dérivées (pseudo-,quasi-vraisemblance...), l estimateur des moindre carrés, les estimateurs issus des moments... Définition de la CB Posterior Dans la formule de Bayes, la posterior est définie ainsi : p(θ y) = p(θ)p(y θ) p(α)p(y α)dα. Θ Nous proposons dans cette formule de remplacer la fonction de vraisemblance p(y θ) par une fonction dépendant d un contraste quelconque U n (θ), plus précisément par exp( nu n (θ)). La CB posterior est donc définie comme : p Un (θ) = p(θ)exp( nu n(θ)) p(α)exp( nu n (α))dα Θ Si le contraste choisi est (-1)*logvraisemblance/n, alors la CB posterior obtenue est la posterior bayésienne classique. Les CB posteriors sont une généralisation de la posterior classique. 90

97 3.2. PRÉSENTATION DU CBABC Résultats asymptotiques et utilisation Nous montrons que la CB posterior p Un (θ) est asymptotiquement équivalente à une distribution gaussienne plus précisément : avec p Un (θ) n N ( θ n, (ni θv ) 1 ) θ n = argmax p Un (θ) θ I θv = lim n HU n (θ v ) avec la matrice hessienne HU n (θ v ) i.e la matrice des dérivées secondes selon θ v de U n (θ v ). Ces résultats sont obtenus sous les hypothèses communément admises dans le cadre de l estimation par contraste. Notons Γ θv = lim V θv ( ngradu n (θ v )) avec V la variance et le gradient gradu n (θ v )) i.e. n le vecteur des dérivées premières de U n (θ) selon θ v. Interprétation dans le cadre fréquentiste Si par construction du constraste U n (θ), I 1 θ v Γ θv I 1 θ v = I 1 θ v, (3.3) alors la CB posterior produit une estimation directe : l estimateur ponctuel de θ est θ n, le mode de la CB posterior, et la région de confiance de θ est déteminée par les quantiles associés de la CB posterior. Si l égalité de l équation 3.3 n est pas vérifiée, la CB posterior permet d estimer la matrice I θv. Interprétation dans le cadre bayésien La CB posterior peut être interprétée comme une posterior classique, si par construction du constraste U n (θ), I 1 θ Γ θ I 1 θ = I 1 θ (équation 3.3). En effet le contraste associé à la posterior classique vérifie cette égalité. Par analogie avec la posterior classique qui tend asymptotiquement vers une loi normale centrée sur l estimateur de maximum de vraisemblance (théorème de Bernstein-Von Mises) de variance (ni θ ) 1 Γ θ I 1 θ, il est donc possible d interpréter de manière similaire la CB posterior. Cependant la CB posterior ne coincide pas exactement avec la posterior classique, c est une posterior qui repose sur l information apportée par le contraste utilisé. En effet nous avons montré que la CB posterior,p Un (θ) quelque soit le contraste U n (θ) utilisé, tend asymptotiquement vers une distribution dont le mode est le vrai paramètre θ v mais dont la 91

98 CHAPITRE 3. ESTIMER LA DISPERSION DU POLLEN AVEC L ABC variance (ni θ ) 1 dépend du contraste utilisé. Cette variance est minimum lorsque la vraisemblance est utilisée (d après les propriétés de l estimateur du maximum de vraisemblance et de l information de Fisher qui lui est associée, voir Dacunha-Castelle et Duflo (1983)). Les CB posterior basées sur d autres contrastes (vérifiant l équation 3.3) sont donc plus étalées et sont donc différentes de la posterior classique (on peut considérer qu elles constituent une approximation de la posterior classique). Si l équation 3.3 n est pas vérifiée, la CB posterior obtenue ne peut être interprétée comme une posterior. En effet, un même contraste à une constante multiplicative près donnera une CB posterior différente. En effet dans ce cas la valeur de (I θ ) 1 est modifiée lorsque l on multiplie le contraste par une constante car elle n est pas "fixée" par l égalité 3.3. Pour pouvoir interpréter facilement la CB-posterior obtenue dans un cadre bayésien ou fréquentiste, il est donc plus aisé d utiliser un contraste qui vérifie l équation 3.3. Pour la majorité des contrastes, des calculs analytiques sous le modèle considéré sont nécessaires pour savoir si cette égalité est vérifiée ou pour déterminer comment "renormaliser" le contraste pour qu elle le soit. Si ces calculs ne sont pas accessibles, il est possible d approcher cette "renormalisation" par simulation mais il faut avoir un minimum de connaissance sur le comportement du contraste sous le modèle. Dans la partie suivante, nous allons développer le cas du contraste basé sur les moindres carrés. Cette approche représente une perspective intéressante de l application des résultats que nous avons obtenus sur les CB posterior. Nous appellerons la méthode basée sur la CBposterior des moindres carrés pondérés, le Contrast Based Approximate Bayesian Computation (CBABC). Notre intérêt concernant le CBABC est motivé par (i) sa généralité : la renormalisation de ce contraste pour que l égalité 3.3 soit vérifiée est théoriquement connue et peut être appliquée à un modèle quelconque et par (ii) son appartenance aux méthodes ABC Une perspective d application d une CB posterior : la méthode du Contrast Based Approximate Bayesian Computation (CBABC) Principe Nous proposons une méthode pour estimer les paramètres θ d un modèle M θ. Notons S obs n, le vecteur des statistiques-résumées choisies, s obs le vecteur des statistiques observées sur le jeu de données comprenant n individus, issues d un modèle M θv de paramètre θ v. Hypothèses sur les statistiques utilisées 92

99 3.2. PRÉSENTATION DU CBABC Si les statistiques choisies vérifient : n(sn s θv ) S n n s θ v L n N (0, W θ v ), alors le contraste K n (S, θ), la distance quadratique pondérée, défini ainsi : K n (S, θ) = 1 2 (S n s θ ) V 1 θ v (S n s θ ) avec V θv = 1 n W θ v est tel que ses matrices I θv et Γ θv sont égales (cf. article en annexe V) et vérifient donc l égalité de l équation 3.3. Il est donc possible d interpréter sa CB-posterior. Les hypothèses requises concernant les statistiques sont donc qu elles se "stabilisent" en moyenne et en variance lorsque le nombre d individus échantillonnés augmente. Ces hypothèses peuvent paraître réductrices et difficiles à vérifier. Cependant elles sont souvent vérifiées lorsque les statistiques sont des moyennes. Naturellement ceci est le cas lorsque ces statistiques sont mesurées sur des individus indépendants (théorème central limite). Plus généralement, lorsque les individus ne sont pas indépendants mais issus d un modèle "mélangeant", i.e. lorsque la dépendance entre les individus décroît rapidement avec la distance (spatiale, temporelle,...) qui les séparent, ces hypothèses sont aussi vérifiées (voir théorème de Takahata (1980)) Algorithme proposé L estimation de la CB-posterior associée au contraste K n ( ) proposé est rarement directe i.e. l expression analytique de la matrice V θ (pour θ quelconque et en particulier pour θ v ) ne peut être obtenue pour la majorité des modèles complexes. Nous proposons donc un algorithme pour estimer cette posterior en plusieurs étapes reposant sur l estimation par simulation de la matrice de variance-covariance V θv. L algorithme proposé de la méthode du CBABC pour estimer la CB-posterior basée sur K n (S, θ), la distance quadratique pondérée est le suivant : 1. Simulation des statistiques selon la distribution a priori des paramètres (a) Tirer θ i dans la distibution a priori π (b) Simuler des n données d après le modèle M θi (c) Calculer les statistiques S i à partir des données simulées 93

100 CHAPITRE 3. ESTIMER LA DISPERSION DU POLLEN AVEC L ABC (d) Conserver les {θ i, S i } 2. Estimation de θ v (a) Estimer la CB-posterior p K, avec K défini tel que K n(s, θ) = (S n s θ ) (S n s θ ) en utilisant la formule : p K (θ 0 S obs n ) = i K (θ i θ 0 )W i i W i avec W i = exp( n K (S i, Sn obs )) = exp( n(sn obs S i ) (Sn obs S i )) et K un noyau de lissage de largeur de fenêtre. (b) Estimer θ v par le mode de p K 3. Estimation de ( V θv ) 1 (a) Simuler un nombre important de jeux de données sous M θv et calculer leurs statistiques associées (b) Estimer numériquement V θv à partir des statistiques simulées (c) Calculer numériquement l inverse de cette matrice i.e. ( V θv ) 1 4. Estimation de la CB-Posterior associée au contraste K, p K : en utilisant la formule : p K (θ 0 S obs n ) = i K (θ i θ 0 )W i i W, i avec W i = exp( n K(S i, Sn obs )) = exp( n 1 2 (Sobs n S i ) ( V θv ) 1 (Sn obs S i )) et K un noyau de lissage de largeur de fenêtre. Remarque : Le contraste K ne vérifie pas l équation 3.3. Cependant nous avons montré que son mode est asymptotiquement un estimateur sans biais de θ v. L estimation de la CB-posterior reposant sur K peut donc fournir une estimation ponctuelle du paramètre θ v mais sa distribution ne peut être interprétée que ce soit d un point fréquentiste ou d un point de vue bayésien. Cependant après avoir "renormalisé" le contraste K par la matrice de variance-covariance des statistiques sous θ v, nous obtenons un nouveau contraste K qui vérifie (asymptotiquement) l égalité 3.3 et dont la distribution peut être interprétée., Intérêt et limite de la méthode CBABC Le CBABC peut être considéré comme une méthode de type ABC particulière. Les principaux avantages de cette méthode sont (i) l absence de choix arbitraires rencontrés fréquemment 94

101 3.2. PRÉSENTATION DU CBABC dans les méthodes ABC (voir 3.1.6) et (ii) la description du comportement asymptotique de la distribution estimée. Dans le CBABC, le calcul de la distance entre les statistiques, le noyau de lissage appliqué à l écart entre les statistiques observées et les statistiques simulées ainsi que son seuil de tolérance ɛ sont fixés. La distance entre les statistiques est définie par un contraste, l écart quadratique pondéré. Le noyau de lissage utilisé est déterminé par la fonction de lien que nous avons choisie pour les CB-posterior, exp( n x). Le seuil de tolérance est directement inclus dans le noyau. Le CBABC s intègre dans le cadre de l interprétation de la fonction de lissage de l ABC lissé de Wilkinson (2008) comme une modélisation de l erreur attendue entre les statistiques simulées et observées. Dans le CBABC, nous considérons que la forme de cette erreur inconnue est gaussienne. Cette approximation est asymptotiquement vérifiée si les statistiques sont fonction de moyennes des données (plus généralement si les statistiques vérifient les hypothèses de la méthode présentée précédemment) et si le nombre de données observées est suffisamment grand. Dans ce cas, d après Wilkinson (2008) l estimateur issu du CBABC est une estimation exacte du modèle. Cependant les propriétés de cette méthode qui permettent de comprendre le comportement théorique de l estimation et justifient les choix faits sur la modélisation de l erreur ne sont valables (i) que pour certaines statistiques et (ii) lorsque le nombre données tend vers l infini. Il est encore nécessaire avant que cette méthode ne soit réellement applicable d étudier d une part comment déterminer si les statistiques choisies vérifient les hypothèses du CBABC et d autre part d étudier le comportement de l estimateur lorsque le nombre de données diminue et notamment quel est l effet de la distribution a priori dans ce cas. Un autre inconvénient, relativement moindre, du CBABC est la renormalisation du contraste par la matrice de variance-covariance des statistiques utilisées sous θ v. Les étapes les plus longues de cette renormalisation requièrent (i) de stocker tous les couples {θ i, S i } simulés, (ii) d effectuer des simulations supplémentaires sous θ v et (iii) d inverser la matrice de variancecovariance estimée sur ces simulations. Le temps de calcul de l étape (ii) est cependant négligeable par rapport au temps de simulation sous la prior, nécessaire quelque soit la méthode ABC choisie. Les étapes (i) et (iii) sont déjà nécessaires dans certaines méthodes ABC notamment celle proposée par Beaumont et al. (2002), de régression locale des paramètres par les statistiques. Le développement du CBABC n est pas encore totalement achevé, néanmoins les perspectives qu il offre d un point de vue théorique sur le comportement de l estimateur et d un point de vue pratique en limitant les choix subjectifs au moment de l estimation méritent d être étudiées. 95

102 CHAPITRE 3. ESTIMER LA DISPERSION DU POLLEN AVEC L ABC Un exemple d application de la méthode CBABC à l estimation de la dispersion du pollen Pour illustrer la faisabilité de la méthode CBABC, nous proposons dans cette partie d estimer la distance moyenne de dispersion δ et la densité de population λ à partir d un jeu de données identique à ceux utilisés dans les méthodes indirectes de type TwoGener et Kinsdist (voir chapitre précédent). Le jeu de données simulé On considère une population de densité λ = 100 ind/ha située dans un disque de rayon 3000 m. Les individus dispersent leur pollen suivant une fonction de dispersion gaussienne de distance moyenne δ = 60m. La dispersion de pollen est modélisée selon une fonction de dispersion forward potentielle selon l hypothèse de loi d action de masse (Holsinger, 1991). Les hypothèses utilisées pour ce modèle ainsi que les simulations utilisées sont identiques à celles détaillées dans l article Carpentier et al. (in prep) (en annexe VI). Le jeu de données étudié comporte : les génotypes et la position de 100 individus situés au cœur de la population (les distances entre les individus échantillonnés varient de 1 à 520 m avec une moyenne de 275 m et un écart-type de 140m), les génotypes de 50 graines de chaque individu échantillonné, les génotypes sont caractérisés par 10 locus indépendants possédant chacun 10 allèles équiprobables. L algorithme du CBABC Nous avons mis en oeuvre l algorithme décrit à la partie Les paramètres à estimer sont le couple {δ, λ}. Nous avons choisi comme distributions a priori : une distribution uniforme comprise entre et pour λ et une uniforme comprise entre 10 et 200 pour δ. Les statistiques S étudiées sont les moyennes par classe de distances des Φ ft. Les Φ ft sont les indices de différenciation des nuages polliniques calculés pour chacun des couples d individus échantillonnés (comme dans la méthode TwoGener classique (Austerlitz et Smouse, 2001a), décrite en détail section ). Ainsi, 26 classes de distances séparées de 20 m ont été choisies. Les statistiques-résumées sont donc au nombre de 26 pour 4950 couples de mères initiales. Le nombre de simulations effectuées s élève : 96

103 3.3. L ABC POUR L ESTIMATION DE LA DISPERSION DU POLLEN à 1800 pour les simulations des statistiques selon la distribution a priori des paramètres (étape 1 de l algorithme CBABC) à 1000 pour les simulations sous { δ v, λ v } utilisées pour l estimation de ( V θv ) 1 (étape 3 de l algorithme). La simulation des données a été effectuée de la même manière que la simulation du jeu de donnée étudié. Résultats obtenus La CB-posterior obtenue est représentée figure 3.1. Les vrais paramètres sont contenus dans l intervalle de crédibilité à 95 % et sont proches du mode de la CB-posterior. La forme "circulaire" de la CB-posterior peut être imputée à la modélisation normale de l erreur dans notre modèle. En conclusion, l utilisation de cette méthode est encouragée par cet exemple qui a nécessité un très faible nombre de simulations (moins de 3000). Cependant cette partie ne présente l application de cette méthode qu à un seul jeu de données. Une étude approfondie sur d autres jeux de données est encore nécessaire pour valider réellement cette approche. Pour pouvoir l appliquer à d autres modèles de dispersion plus complexes, il sera nécessaire de comprendre sous quels modèles et pour quels échantillonnages, les moyennes des Φ ft par classes de distances (i) contiennent suffisamment d information sur les paramètres à estimer et (ii) vérifient les conditions asymptotiques nécessaires au CBABC (propriétés de faibles dépendances par exemple). 3.3 L ABC pour l estimation de la dispersion du pollen, une méthode souple pour intégrer différents types d information et différents modèles. Dans cette partie, nous appliquons des méthodes d Approximate Bayesian Computation pour estimer la dispersion du pollen à partir des marqueurs génétiques. Dans une première partie, nous montrons quelles sont les limites des méthodes actuelles à l introduction d information partielle et pourquoi l utilisation de l ABC est appropriée dans ce cas, ainsi que les autres avantages que cette méthode apporte. Dans une seconde partie, nous présentons l adaptation de l ABC à l estimation de la dispersion du pollen, en nous reposant sur la méthode TwoGener pour estimer une fonction de dispersion forward. Cette méthode utilise un jeu de données, des indices génétiques et des hypothèses identiques à ceux développés dans TwoGener mais avec 97

104 CHAPITRE 3. ESTIMER LA DISPERSION DU POLLEN AVEC L ABC Distance moyenne de dispersion en m Densité en arbre par m² Figure 3.1 CB-posterior bivariée (densité de la population en abscisse et distance moyenne de dispersion en ordonnée), estimée par CBABC. Les régions de crédibilité à 0.9, 0.95 et 0.99 % sont délimitées par les courbes noires. Le point représente la valeur des vrais paramètres. une modélisation de la dispersion du pollen en forward. Dans une troisième partie, nous montrons comment cette méthode permet d introduire facilement de l information partielle ainsi que de nouveaux modèles. Enfin dans une dernière partie, nous présentons comment cette méthode peut ou pourra être améliorée Pourquoi utiliser l ABC pour estimer la dispersion du pollen? L ABC nous permet facilement de dépasser les limites des méthodes actuelles utilisées pour estimer la dispersion du pollen à partir de marqueurs génétiques. Comme nous l avons soulevé en introduction, les méthodes actuelles (i) ne sont pas directement comparables car elles n estiment pas le même type de fonction de dispersion (forward et backward) et (ii) ne permettent pas l introduction d information partielle. Ces méthodes utilisent un échantillon de graines récoltées sur une partie des individus adultes comme pièges à pollen, le génotype et la position de ces graines étant utilisés pour l estimation. Dans les méthodes directes (mating model), les données concernant les sources de pollen sont exhaustives (positions et génotypes de toutes les sources potentielles dans le site) alors que dans les méthodes indirectes (TwoGener et Kindist), elles sont totalement ignorées. Dans cette partie nous discutons en quoi l ABC est une méthode appropriée pour dépasser ces limites et pourquoi elle est plus souple et facilement applicable que les méthodes actuelles. 98

105 3.3. L ABC POUR L ESTIMATION DE LA DISPERSION DU POLLEN Les principaux intérêts de l ABC Tel que présenté précédemment (cf. section 3.1), l ABC repose sur la simulation du modèle dont on cherche à estimer les paramètres, ne requiert que le calcul de statistiques-résumées pour chaque simulation et fournit une estimation sous forme de distribution a posteriori approchée. Ainsi, appliqué à l estimation de la dispersion du pollen, il permet facilement : l introduction d une information partiellement connue qui nécessitera la simulation de l information non connue complémentaire, et ce pendant que l information connue sera directement intégrée, l estimation de la fonction de dispersion forward même lorsque le jeu de données n est pas exhaustif car la simulation sous le modèle forward est simple à mettre en oeuvre, l obtention directe de mesure de la qualité de l estimation à partir de la distribution a posteriori (régions de crédibilité) ou d analyses simultanées de jeux de données-tests, l introduction simple de nouveaux modèles (dès lors qu ils sont simulables) Les problèmes posés par l introduction d information partielle : Modélisation de l effet des sources de pollen inconnues dans les méthodes actuelles Les méthodes actuelles, qu elles soient directes forward ou indirectes backward, reposent toutes sur des expressions analytiques (vraisemblance pour les premières et moindres carrés pour les secondes). Elles nécessitent donc une expression analytique des sources de pollen inconnues. Cette expression traduit différentes modélisations de ces sources inconnues. La modélisation la plus simple des sources inconnues consiste à considérer que le pollen issu d individus inconnus provient d un nuage pollinique global qui n est ni individualisé ni spatialisé. Cette modélisation est utilisée dans la majorité des méthodes directes forward. Dans ces méthodes, la probabilité de fécondation d une graine par ce nuage pollinique global est considérée comme constante dans le site et indépendante de la fonction de dispersion. Lorsque tous les individus du site sont connus, cette probabilité est appelée probabilité de migration (m) (cf section 1.3.3sur les méthodes directes). Cette modélisation peut être motivée par l hypothèse que la dispersion du pollen des sources inconnues est complètement déconnectée du processus de dispersion des individus connus. Elle peut aussi être justifiée comme une approximation dans un modèle où les sources inconnues dispersent leur pollen de manière identique à celle des individus connus. En effet nous avons vu (cf section 1.3.3), que la probabilité, π ij pour arbre j de féconder une mère i, d après 99

106 CHAPITRE 3. ESTIMER LA DISPERSION DU POLLEN AVEC L ABC le modèle des méthodes directes, est donnée par la loi d action de masse : π ij = f(d ij) f(d ik ), k P avec P, l ensemble des individus sources de pollen potentielles, f la fonction de dispersion en forward et d ij la distance entre les individus i et j. Si l on partitionne P en deux sous-ensembles, P C, les sources de pollen connues et P C, les sources de pollen inconnues, alors π ij = f(d ik ) k P C f(d ij ) f(d ik ) f(d ik ) k P k P C Ainsi le paramètre m est l approximation du ratio : m (1 m) f(d ik ) k P C f(d ik ). k P f(d ij ) k P C f(d ik ). Accepter cette approximation équivaut donc à considérer que l apport relatif en pollen inconnu est égal quelque soit la mère (la position du puits considéré). Or dans le modèle choisi, cet apport est une variable aléatoire qui dépend de la réalisation du processus ponctuel des sources connues et inconnues autour de chaque mère. La validité de cette approximation dépend donc de l échantillonnage (positions des sources et des puits choisis), de la fonction de dispersion et du processus de points des individus inconnus relativement aux positions des sources choisies (par exemple plus leur densité sera grande et plus cette variable aléatoire aura une variance faible et donc plus l approximation par la constante m sera justifiée). Cependant, dans les méthodes forward directes actuelles, la validité de cette approximation et ses conséquences en terme d estimation (en particulier éventuelle introduction de biais) ne sont pas discutées, alors que les plans d échantillonnage proposés varient très fortement d une méthode à une autre : Burczyk et al. (2002) dans le neighborhood model proposent d échantillonner exhaustivement les sources dans des disques de même rayon centrés sur chaque mère (la distance minimale aux pères inconnus étant donc identique pour chaque mère), Oddou- Muratorio et al. (2005) proposent un échantillonnage exhaustif d une parcelle (au sein d un site) dans lequel les mères sont choisies préférentiellement au centre et enfin Fénart et al. (2007) proposent un échantillonnage partiel des sources. Il serait intéressant de tester, ne serait-ce que par simulations, si le plan d échantillonnage n influe pas sur l estimation et aussi d intégrer cette information dans l estimation de la fonction de dispersion. Dans ces méthodes, le paramètre de migration est surtout assimilé à un paramètre de nui- 100

107 3.3. L ABC POUR L ESTIMATION DE LA DISPERSION DU POLLEN sance, car l estimation de la dispersion du pollen repose essentiellement sur l assignation (fractionnelle) de paternité aux pères connus. Ce statut est parfois partiellement justifié car, de fait, le paramètre de migration inclut également les graines pour lesquelles des erreurs de lecture du génotype ont été commises ou qui sont issues d individus qui n ont pas été échantillonnés (manqués ou disparus). Cependant, intégrer la migration dans l estimation de la dispersion du pollen est nécessaire car la migration est liée à la dispersion à longue distance, un paramètre d intérêt majeur (Nathan, 2006). Pour intégrer le pollen des sources inconnues dans l estimation de la dispersion du pollen, une autre modélisation de la migration peut être utilisée. Elle consiste à spatialiser la migration i.e. individualiser les pères inconnus. Cette approche est utilisée dans toutes les méthodes backward indirectes, TwoGener et Kindist mais a aussi été proposée en forward direct (Goto et al. (2006) et Shimatani et al. (2007)) pour modéliser le paramètre de migration. Les pères étant inconnus, l espérance de l apport en pollen de ces pères est utilisée. En chaque point de l espace, elle est calculée à partir de la fonction de dispersion et de la probabilité d existence d un père en ce point. L espérance de l apport total de pollen reçu par une mère est calculée en intégrant sur l ensemble de l espace (R 2 ) cette quantité. Ces approches sont très intéressantes car elles permettent d intégrer l apport des sources inconnues dans les estimations, néanmoins elles présentent des inconvénients : (i) leur temps de calcul dès lors que les fonctions de dispersion sont complexes (i.e. pratiquement toutes les fonctions de dispersion communément utilisées différentes de la Gaussienne) car l expression analytique de ces intégrales n est pas accessible et elles doivent être calculées numériquement à chaque étape de l estimation, (ii) les hypothèses concernant le processus des positions des sources inconnues sont les plus simples possibles (processus poissonnien i.e. répartition des positions complètement aléatoire et stationnaire) pour simplifier le calcul de ces intégrales et (iii) l introduction d information concernant les positions des sources connues est difficile. L introduction d information concernant les sources connues est difficile dans les méthodes indirectes backward mais aussi dans les méthodes directes forward. Dans les chapitres précédents, nous avons montré que dans les méthodes indirectes backward (cf section 2.3), aucune information concernant les sources de pollen n est utilisée (même pas celle de la mère). Dans le cas des méthodes directes forward modélisant spatialement l immigration (Goto et al. (2006) et Shimatani et al. (2007)), l espérance de l apport de la migration est calculée pour chaque mère par l intégrale effectuée sur l ensemble de l espace (R 2 ) privé du site où les pères sont connus, la mère étant au centre de l espace. Ces intégrales sont donc différentes d une mère à l autre car leurs positions sont différentes sur le site échantillonné. De plus, avec cette méthode, il est difficile d intégrer des échantillonnages non exhaustifs, car la zone des pères connus doit pouvoir être considérée sous forme de disque (pour des raisons de calcul numérique). 101

108 CHAPITRE 3. ESTIMER LA DISPERSION DU POLLEN AVEC L ABC Enfin quelque soit la modélisation choisie de l apport des sources de pollen extérieures, celle-ci est toujours constante (une constante m identique pour chaque mère ou une espérance différente d une mère à une autre). Or cette approximation de la variable aléatoire de l apport de pollen inconnu par une constante n a pas encore été justifié. En effet, remplacer dans les différents modèles l apport extérieur de pollen par l espérance attendue de cet apport ne conduit pas nécessairement à l espérance de la dispersion attendue sous ce processus. Autrement dit la moyenne d une fonction n est pas nécessairement la fonction prise à la moyenne. Malheureusement obtenir l expression analytique exacte de l espérance par rapport aux variables non observées, de la vraisemblance pour les méthodes directes, ou des moindres carrés pour les méthodes indirectes, nécessiterait un travail très important. Par ailleurs, l utilisation de cette expression, nécessairement complexe, lors de l estimation semble impossible car beaucoup trop coûteuse en temps de calcul. Dans ce cadre, pour pouvoir modéliser sans trop de contraintes l apport en pollen extérieur, en prenant en compte son aspect aléatoire sans pour autant calculer des intégrales complexes et obtenir les expressions exactes des espérances, nous proposons d utiliser une approche simulatoire Introduction d une approche simulatoire dans les méthodes actuelles d estimation de la dispersion du pollen L approche simulatoire dans l estimation de la dispersion du pollen permet l utilisation de modèles complexes dont les vraisemblances ou les moindres carrés sont difficiles voire impossibles à obtenir analytiquement. Cependant toutes les méthodes simulatoires et tous les modèles de dispersion ne sont pas envisageables, car certains présentent des limites qui nous ont conduits à développer une méthode utilisant une approche ABC sous un modèle de dispersion en forward. Dans cette partie, nous discutons du choix de cette nouvelle méthode. Les principales méthodes d estimation sont de deux types : forward directes et backward indirectes. Peut-on introduire une approche simulatoire dans toutes ces méthodes? Plus précisément peut-on introduire une approche simulatoire (i) en modélisant la dispersion du pollen aussi bien avec une approche forward que backward et (ii) en utilisant tout aussi bien une approche directe basée sur l assignation de paternité qu une approche indirecte reposant sur des indices de différenciation ou de similarité génétique? Utilisation d un modèle de dispersion en forward pour les simulations L utilisation d une approche simulatoire nécessite par définition que l on puisse simuler sous le modèle choisi. Or comme nous l avons vu précédemment (cf annexe III), la simulation par une approche backward n est pas accessible directement. En effet, la fonction de dispersion 102

109 3.3. L ABC POUR L ESTIMATION DE LA DISPERSION DU POLLEN en backward intègre deux processus (i) l existence d un père en un point et (ii) la fécondation de la mère par ce père et ignore l existence d autres variables (comme la position des autres individus). Pour pouvoir simuler la dispersion sous ce modèle en considérant plus d une mère, il est nécessaire d expliciter des hypothèses concernant ces deux processus et leurs corrélations spatiales. Cependant, même après l explicitation de ces hypothèses, simuler en backward n est pas aisé et des études sont encore nécessaires avant de pouvoir simuler une fonction de dispersion quelconque sous un processus de positions des pères quelconque. Pour ces raisons, la modélisation en forward paraît beaucoup plus appropriée car très simple à mettre en oeuvre. En effet dans ce modèle, la fonction de dispersion est utilisée conditionnellement aux positions des pères (elle ne les intègre pas contrairement à la fonction de dispersion backward), d autre part le modèle de fécondation est fixé par la loi d action de masse. Ainsi quelque soit le processus de positions des pères (s il est simulable) et quelque soit la fonction de dispersion (si elle calculable en chaque point de l espace), il est possible de simuler la dispersion en forward. Il est donc actuellement beaucoup plus simple d utiliser une modélisation de la dispersion forward dans une approche simulatoire. Les difficultés à intégrer une approche simulatoire dans les méthodes directes L approche directe est l approche qui utilise de la manière la plus complète l information génétique disponible. Elle utilise la vraisemblance des génotypes des graines échantillonnées à partir de la probabilité d assignation d une graine à un père connu connaissant les génotypes de ce père, de la graine et de sa mère. Introduire une approche simulatoire avec des pères inconnus (dont les génotypes seulement sont inconnus ou dont les génotypes et les positions sont inconnus) dans les approches directes nécessite donc la simulation des génotypes de tous les pères inconnus. L espace de l ensemble de ces génotypes est très complexe. En effet un génotype est composé de N L locus considérés le plus souvent comme indépendants, et pour chaque locus l il est composé de deux copies appartenant aux N A,l allèles possibles à ce locus. L espace des génotypes des pères inconnus est donc un espace à valeurs discrètes non ordonnées de cardinal égal à L NA,l 2 /2 à la puissance le nombre de pères inconnus. L espace à explorer l=1 devient encore plus grand lorsque les positions de ces pères potentiels sont inconnues et que le nombre de ces pères est inconnu. Ainsi pour utiliser une approche utilisant à la fois la vraisemblance des génotypes des graines et la simulation, il serait nécessaire de pouvoir se déplacer lors de l estimation préférentiellement dans l espace des génotypes des pères inconnus lié à des valeurs de vraisemblance importante (pour limiter l espace à parcourir). De telles approches sont proposées par des algorithmes bayésiens, par exemple de type MCMC (en considérant les génotypes inconnus comme une couche latente cachée). Cependant l espace des génotypes est un espace particulier pour lequel les algorithmes de bases de ces méthodes doivent être adaptés (nous avons cité un exemple dans le cas de la reconstruction de généalogie en section ). 103

110 CHAPITRE 3. ESTIMER LA DISPERSION DU POLLEN AVEC L ABC Cependant dans notre cas, trouver un algorithme adapté à l estimation de la dispersion semble très difficile voire quasi-impossible si le nombre de pères inconnus est important car en plus des difficultés rencontrées lors de la reconstruction de généalogie, (i) nous ne possédons que deux générations d individus donc très peu d information pour reconstruire les génotypes inconnus et (ii) nous sommes dans un contexte où il faut aussi spatialiser ces génotypes. Nous n avons donc pas exploré cette voie. Ainsi nous n utilisons pas directement les génotypes des graines et ne calculons donc pas les probabilité de paternité pour chaque père potentiel (connu ou simulé) à chaque graine. L intérêt des indices des méthodes indirectes Les méthodes indirectes backward, TwoGener et Kindist, proposent une utilisation indirecte de l information génétique qui ne nécessite pas d évaluer les probabilités de paternité. Elles utilisent des indices de distances génétiques qui mesurent la distance entre les génotypes des grains de pollen reçus par des mères différentes relativement à la distance observée au sein des génotypes des grains de pollen reçus par une seule mère (cf section 2.3.2). Ainsi les génotypes des graines et ceux de leurs mères sont résumés à plusieurs niveaux : Seuls sont utilisés les estimations des haplotypes des grains de pollen (i.e. la moitié du génotype des graines, apportée par le père au travers du grain de pollen, obtenue en "soustrayant" le génotype de la mère à celui de la graine, cf section ). Les indices sont calculés pour chaque couple de mères. Ils sont obtenus à partir de moyennes calculées sur les graines. Contrairement aux méthodes directes où les génotypes des graines étaient utilisés individuellement, ils sont résumés sous forme de moyennes. Ces indices reposent sur l égalité ou non entre les allèles de deux graines à un locus donné. L information génétique multilocus (portée sur plusieurs loci) est résumée par la moyenne des informations unilocus. Contrairement à la vraisemblance des méthodes directes qui évalue les génotypes par rapport aux combinaisons d allèles sur les différents loci, les indices des méthodes indirectes reposent donc sur la moyenne sur les loci des ressemblances entre les génotypes. L information génétique des graines n est pas utilisée de manière absolue (identification des pères) mais relative (différence entre les grains de pollen reçus par deux mères). En utilisant une mesure relative dans les simulations, ce ne sont pas les génotypes simulés des pères eux-mêmes qui sont utilisés mais l égalité ou la différence entre les allèles des pères. Cette mesure est déterminée par (i) les contributions des pères et (ii) par la différenciation entre les génotypes des pères. Ainsi l espérance de ces indices est à calculer 104

111 3.3. L ABC POUR L ESTIMATION DE LA DISPERSION DU POLLEN par rapport à des variables inconnues qui sont de cardinal plus faible que si les génotypes des graines sont utilisés. En effet l espace à parcourir est plus petit que celui de toutes les combinaisons possibles car des combinaisons de génotypes de pères différents représentant la même différenciation génétique entre les pères pourront donner les mêmes indices génétiques pour les couples de mères. En utilisant ces indices le nombre de simulations nécessaires pour obtenir une estimation de l espérance est donc moindre en utilisant l information de façon relative plutôt qu absolue. Ceci est d autant plus vrai que les indices sont calculés comme des moyennes sur les loci et non à partir des combinaisons d allèles portés sur les différents loci. Cependant les statistiques utilisées seront moins sélectives. Austerlitz et al. (2004) et Robledo-Arnuncio et Austerlitz (2006) ont calculé les expressions analytiques sous un modèle de dispersion backward et sous l hypothèse d absence de structuration spatiale des positions et des génotypes des individus. Ils ont ainsi montré que les mesures des distances génétiques qu ils proposent, respectivement l indice de différenciation Φ ft et le coefficient d apparentement Ψ, contiennent une information suffisante pour estimer la dispersion du pollen. Il est donc possible d introduire ces indices dans une approche simulatoire pour estimer la dispersion du pollen. Les méthodes ABC proposent une procédure simple pour mettre en oeuvre une approche simulatoire en utilisant des statistiques résumant les données lors de l estimation. De plus elles permettent d obtenir de manière directe des mesures de la qualité de l estimation et proposent différents algorithmes pour améliorer l estimation. Nous proposons donc d utiliser une méthode de type ABC pour estimer la dispersion du pollen en utilisant (i) un modèle de dispersion de type forward développé dans les méthodes forward direct et (ii) les indices génétiques proposés par les méthodes backward indirectes comme statistiques-résumées TwoGener en Forward par l ABC Nous avons tout d abord développé l estimation de la fonction de dispersion en forward avec une approche ABC dans le cadre des hypothèses du modèle TwoGener (processus des positions des individus poissonnien, absence de structuration spatiale des génotypes des individus, absence de variation de fertilité et même jeux de données échantillonnés). L application de cette méthode à des jeux de données simulés et à un jeu de données réel est décrite dans deux articles (en préparation) présentés en annexe, respectivement dans Carpentier et al. (in prep) sous le nom de T G P ois (Nm) et dans Guiton et al. (in prep) sous le nom de ABCGen φ. Nous présentons brièvement ici ces méthodes, pour plus détails nous proposons aux lecteurs de consulter les articles respectivement en annexes VI et VII. 105

112 CHAPITRE 3. ESTIMER LA DISPERSION DU POLLEN AVEC L ABC Choix des statistiques-résumées et de leur métrique Nous avons utilisé dans cette méthode les mêmes statistiques que celles utilisées dans la méthode TwoGener classique (Smouse et al. (2001), Austerlitz et Smouse (2002)), i.e. Φ obs ft (i, j), les indices de différenciation des nuages polliniques calculés entre chaque couple de mères (i, j). Ces indices sont issus de l AMOVA (Excoffier et al., 1992). D après les calculs analytiques effectués par Austerlitz et Smouse (2002), ces indices contiennent l information nécessaire pour estimer dans la dispersion du pollen à la fois (i) les paramètres de la fonction de dispersion (qui sont les paramètres de forme et d échelle de la fonction de dispersion mais qui peuvent aussi inclure un paramètre d anisotropie) et (ii) la densité du peuplement. La métrique utilisée est donnée par la somme sur les tous les couples de mères (i, j) des carrés des écarts entre les Φ obs ft (i, j) observés sur le jeu de données étudié et les Φs ft (i, j) calculés lors de la simulation s, i.e. (i,j)(φ obs ft (i, j) Φs ft (i, j))2. Elle est similaire à celle utilisée dans la méthode TwoGener classique dans laquelle l estimation des paramètres θ est effectuée par minimisation du critère (i,j)(φ obs ft (i, j) Φth ft ((i, j), θ))2, où Φ th ft ((i, j), θ) est l expression analytique de l espérance de Φ ft (i, j) sous le modèle de dispersion proposé et pour les paramètres θ. Contrairement aux méthodes ABC classiques, le nombre de statistiques-résumées utilisées n est pas restreint à une dizaine mais s élève à Nm(Nm 1) 2 (N m, le nombre de mères échantillonnées) i.e. le nombre de couples de mères. Par exemple si l on échantillonne quarante mères (N m = 40), qui est le nombre le plus souvent utilisé dans les études simulatoires de TwoGener (Austerlitz et al. (2004), Robledo-Arnuncio et Austerlitz (2006)), le nombre de statistiques sera de 780. Comme le nombre de statistiques est élevé, il n est pas possible pour chacune des simulations d enregistrer (de conserver), toutes les statistiques-résumées simulées. Par conséquent, pour une simulation s donnée, seuls seront conservés (i) les paramètres tirés θ s lors de cette simulation et (ii) l écart observé entre les statistiques observées et simulées i.e. (i,j)(φ obs ft (i, j) Φ s ft (i, j))2. Il n est donc pas possible de normaliser les statistiques par leur écart-type calculé sur l ensemble des simulations observées comme le propose Beaumont et al. (2002). Ceci représente donc un inconvénient lors de l utilisation de ces statistiques (cf. partie 3.1.6). Néanmoins, nous pouvons considérer que l impact de cet inconvénient est moindre car les statistiques utilisées ont le même ordre de grandeur dans la mesure où ce sont toutes des indices de différenciation, Φ ft. 106

113 3.3. L ABC POUR L ESTIMATION DE LA DISPERSION DU POLLEN Le nouveau modèle TwoGener utilisé en ABC Les hypothèses du modèle Le modèle proposé est une combinaison des hypothèses des modèles utilisés dans les méthodes précédentes. Les hypothèses concernant la population étudiée sont les hypothèses d indépendance utilisées par les méthodes indirectes classiques (Austerlitz et Smouse (2002) et Robledo-Arnuncio et al. (2006) qui sont décrites section 2.1). Les hypothèses concernant la dispersion du pollen sont les hypothèses de la dispersion forward i.e. une fonction de dispersion du pollen potentielle et l hypothèse de loi d action de masse (décrite au chapitre 2.1). La procédure de simulation La procédure de simulation mise en oeuvre est décrite dans l article Carpentier et al. (in prep) (annexe VI). Il est à noter que les mères (i.e. les individus échantillonnés) sont considérées comme des pères potentiels. A ce titre, elles sont introduites (positions et génotypes) dans les simulations et participent à la simulation de la dispersion, de manière identique à celle des pères simulés. Autrement dit les simulations sont effectuées conditionnellement à l information disponible (les mères). Les individus non observés étant considérés spatialement indépendants aussi bien de par leur génotype que de par leur position, cette simulation conditionnelle est équivalente à la simulation "classique" des pères à laquelle s ajoute les mères connues. La nouvelle interprétation des paramètres estimés Les paramètres estimés sont similaires à ceux estimés dans la la méthode TwoGener pairwise classique (Austerlitz et al., 2004) mais leur interprétation diffère. Les paramètres de la fonction de dispersion dans notre méthode décrivent une fonction de dispersion forward et non plus une fonction backward. L estimation de la densité du peuplement est conditionnée à la position des mères. La densité totale du peuplement est donc plus grande que le paramètre de densité directement estimé. Le nombre d individus ayant participé à la dispersion étant égal au nombre de pères simulés ajouté au nombre de mères échantillonnées. La différence entre le paramètre de densité de la méthode TwoGener classique et celui estimé dans notre méthode devient négligeable lorsque le nombre de pères simulés devient grand comparé au nombre de mères Algorithme ABC utilisé Utilisation de l algorithme d acceptation-rejet classique Dans notre implémentation actuelle de l ABC dans la méthode TwoGener, nous avons seulement utilisé l algorithme d acceptation-rejet classique lissé (Beaumont et al., 2002). Décrit dans la partie 3.1 sous le terme de Smooth-ABC (équation 3.2), il consiste à conserver pour l esti- 107

114 CHAPITRE 3. ESTIMER LA DISPERSION DU POLLEN AVEC L ABC mation de la posterior, les paramètres tirés pour lesquels l écart entre les statistiques simulées et les statistiques observées est inférieur à un certain seuil de tolérance fixé, ɛ. Nous avons choisi cette approche car d une part elle est la plus simple à mettre en oeuvre et nécessite un minimum de choix (seulement le choix des priors et du seuil de tolérance, ɛ, elle ne comporte pas de paramètre de "tuning") et d autre part elle nous permet d étudier globalement (i.e. sous les priors choisies) la surface des sommes des carrés des écarts entre les Φ ft observés et simulés (ce qui pourra permettre de calibrer des paramètres de "tuning" dans de futures approches où l espace des paramètres à estimer sera parcouru de manière plus ciblée comme dans les algorithmes de type MCMC). Ce choix est aussi guidé par la difficulté de conserver toutes les statistiques-résumées à chaque simulation, excluant alors la possibilité de corriger la posterior obtenue (voir section pour les détails des différentes corrections proposées) Choix d un seuil de tolérance ɛ a priori ou lors de l estimation Le choix du seuil de tolérance est le plus souvent déterminé à partir des résultats obtenus lors de l estimation des paramètres sur des jeux de données simulés sous le modèle étudié. Nous proposons ici de déterminer un seuil de tolérance adapté aux jeux de données étudiés ainsi qu au modèle choisi. Dans l article de Guiton et al. (in prep) (en annexe VII), nous avons estimé les paramètres de jeux de données simulés constituant des répétitions sous différents paramètres (10 répétitions de quatre séries de paramètres). Le seuil de tolérance a été fixé au quantile d ordre (que nous appellerons taux de tolérance). Ainsi seuls les paramètres des 50 simulations ayant les SCE s les plus faibles sont conservés, lors des 10 5 simulations effectuées dans la procédure ABC. Ce seuil de tolérance a été choisi en fonction des biais relatifs, de l écart-type et des RMSE des estimateurs ponctuels obtenus (cf. article en annexe pour plus de précisions). Ce seuil est relativement faible comparé aux seuils habituellement utilisés dans les méthodes ABC. En effet d après Sousa et al. (2009), même si les quantiles généralement utilisés sont le plus souvent compris entre à 0.01, le taux le plus faible qu ils présentent, , s accompagne d un nombre beaucoup plus important de simulations qui s élève à 10 9 (Cox et al., 2008). Ce seuil relativement faible dans notre approche peut être imputé au nombre important de statistiques-résumées que nous utilisons (dans ce cas 1225 statistiques issues des 50 mères échantillonnées). En effet, Blum (2009) montre que le taux d acceptation correspondant au MSE minimum décroît de manière importante lorsque le nombre de statistiques observées augmente. Pour les estimations effectuées sur un jeu de données réel, nous aurions donc pu choisir ce seuil de Cependant le design des jeux de données étudiés étant différent de celui utilisé en annexe VII (i.e. en terme de nombre de mères et de graines par mères échantillonnées ainsi 108

115 3.3. L ABC POUR L ESTIMATION DE LA DISPERSION DU POLLEN que leurs positions), nous proposons de déterminer un seuil spécifique à chaque jeu de données dans l article Carpentier et al. (in prep) (annexe VI). Ce seuil de tolérance est estimé à partir de jeux de données-tests simulés en utilisant exactement le même design que le jeu de données étudié (nombre de mères, positions, génotypes des mères identiques ainsi que le nombre de graines échantillonnées par mères). Les paramètres de ces jeux de données, tirés dans les priors, sont connus. Cette méthode est analogue à celle proposée dans le logiciel DIY ABC (Cornuet et al., 2008) qui propose de simuler séparément des jeux de données test pour ensuite estimer les paramètres de ces jeux de données à partir des simulations effectuées pour l estimation du jeu de données réel. Comme dans notre cas, nous ne pouvons pas conserver les statistiques des simulations, nous calculons et conservons à chaque simulation, les sommes des carrés des écarts entre les statistiques simulées et celles calculées au préalable pour chaque jeu de données-tests. Nous utilisons ensuite ces SCE pour estimer les paramètres des jeux de données tests pour différentes valeurs de ɛ. L estimation des jeux de données test n alourdit pas la procédure en temps de calcul, car elle intervient après la simulation du modèle et le calcul des statistiques simulées et nécessite seulement d ajouter aux calcul des écarts entre les statistiques simulées et observées, celui des écarts entre ces mêmes statistiques simulées et celles des différents jeux de données tests. A partir de l estimation de ces jeux de données tests, nous pouvons déterminer quel seuil de tolérance fournit les meilleures estimations. La qualité des estimations est déterminée par des indices qui évaluent l écart entre les estimations obtenues et les vraies valeurs de paramètres connus. En calculant ces indices pour différents seuil de tolérance ɛ, nous pouvons déterminer quel seuil minimise l erreur d estimation. Les indices de qualité concernent l estimation ponctuelle obtenue et l estimation de la distribution a posteriori. Ils sont calculés pour un paramètre donné ou moyennés sur l ensemble des paramètres estimés. A titre d exemple nous citerons ici les indices utilisés dans l article Carpentier et al. (in prep) (d autres indices sont proposés dans le logiciel DIY ABC (Cornuet et al., 2008)) : pour les estimations ponctuelles, nous avons choisi d utiliser la moyenne sur l ensemble des paramètres estimés des Root Mean Squared relative Errors (RMSE). Le RMSE prend en compte à la fois le biais et la variance de l estimation entre le vrai paramètre p d, d un jeu de données test d et son estimation p d. Il est défini ainsi : RMSE(ɛ) = 1 D d 1,...,D ( ) 2 pd p d (ɛ), avec D le nombre total de jeux de données tests. Pour contrôler la qualité des estimations des distributions a posteriori, nous avons aussi utilisé le False Discovery Rate à 95%, la proportion d estimations où la vraie valeur du paramètre n est pas contenue dans l intervalle de crédibilité à 95% calculé à partir de la posterior estimée. p d 109

116 CHAPITRE 3. ESTIMER LA DISPERSION DU POLLEN AVEC L ABC Nous avons choisi dans notre approche de déterminer le seuil de tolérance en fixant la proportion de simulations acceptées plutôt qu en utilisant un seuil maximum de somme des carrés des écarts conservés. En effet la valeur des Φ ft varie selon les paramètres de dispersion et de densité. Par conséquent les sommes des carrés des écarts obtenues entre les différents jeux de données test diffèrent aussi. Le choix des paramètres des jeux de données tests influe sur la détermination du ɛ. Dans notre article nous avons proposé de les tirer indépendamment dans les distributions a priori. Ceci nous permet d obtenir une estimation du comportement moyen de l estimation lorsque les vrais paramètres sont distribués selon les informations disponibles a priori. Néanmoins ce choix ne traduit pas réellement la qualité des estimations des paramètres du jeu de données réel. Une méthode itérative pour le choix du ɛ serait peut être plus appropriée. Elle consisterait à déterminer un premier ɛ à partir des indices de qualité et obtenir ainsi une première estimation de la posterior estimée, avant de (i) déterminer un nouveau ɛ de manière analogue mais en pondérant les jeux de données tests en fonction de la valeur de leurs vrais paramètres dans la posterior précédemment estimée pour ainsi (ii) réestimer une nouvelle posterior à partir du nouveau ɛ. Il faudrait ensuite réitérer les étapes (i) et (ii), jusqu à ce que la valeur du ɛ se stabilise. La méthode actuelle permet de manière simple et sans alourdir le temps d estimation, de déterminer un ɛ adapté au jeu de données et au modèle étudiés. Dans notre méthode, cette détermination adaptée est très importante car il est très fortement probable que le seuil varie en fonction des jeux de données utilisés. En effet les données sont d une part corrélées dans l espace et d autre part l information génétique des marqueurs est très variable selon les marqueurs utilisés et les fréquences alléliques de la population. Il est donc très difficile de pouvoir déterminer a priori si l information disponible est grande ou non Validation et premières applications de la méthode Cette méthode a été validée sur (i) dans le cadre d un ABC non lissé sur jeux de données simulés avec une loi de dispersion gaussienne pour quatre jeux de paramètres dans l article Guiton et al. (in prep) (annexe VII) et (ii) en utilisant les jeux de données test créés lors de l application à un jeu de données réel, l Alisier (Sorbus Torminalis) dans l article Carpentier et al. (in prep) (annexe VI). C est en effet un des autres avantages de jeux de données tests présentés plus haut : ils permettent d obtenir des estimations des performances de la méthode. De manière générale, la méthode permet d estimer les paramètres de la fonction de dispersion (δ distance moyenne pour la fonction gaussienne, ajoutée à b le paramètre de queue de dispersion pour l exponentielle puissance) ainsi que λ la densité de la population. Nous obtenons des distributions a posteriori très différentes des distributions a priori (figures 3.2). Des intervalles de crédibilité peuvent être estimés à partir des distributions a posteriori. Les inter- 110

117 3.3. L ABC POUR L ESTIMATION DE LA DISPERSION DU POLLEN valles relativement larges (voir annexe VI, tableaux 1 et 2) peuvent être expliqués d une part par le peu d information contenue dans les données et résumée dans les statistiques et d autre part par la corrélation qui existe entre les paramètres (voir figures 3.3). Cette corrélation est intrinsèque aux statistiques Φ ft et avait déjà été relevée dans le cas de la méthode TwoGener classique (voir figure 4 de l article en annexe IV). La comparaison des estimations de l ABC et celles de la méthode séquentielle Kindist- TwoGener classique, effectuée dans l article Guiton et al. (in prep) (en annexe VII, tableaux 1 et 2) montre que les performances de l ABC sont comparables voir meilleures 10. Les estimations de la densité et de la distance de dispersion de la loi normale sont meilleures (en terme de biais et de RMSE) dans notre méthode excepté lorsque la densité et la distance de dispersion sont grandes (i.e. lorsque δ = 200m et λ = 16 arbres/hect pour l estimation de λ et aussi lorsque λ = 1.6 arbres/hect pour l estimation de δ). Mais dans ce cas, les meilleurs résultats des méthodes classiques sont dues à l utilisation séquentielle des méthodes TwoGener et Kindist et non à la seule méthode TwoGener 11. Ainsi l ABC utilisant seulement les Φ ft fournit des estimations d une précision semblable à celle des méthodes classiques utilisant séquentiellement les Ψ et Φ. Les estimations "contrôlées" des jeux de données test (issus de l étude du jeux de données de l alisier, Carpentier et al. (in prep), annexe VI) sont d une précision qualitativement comparable à celle des méthodes classiques (discussion, annexe VI). Si les estimations des deux méthodes sont comparables dans l étude des simulations présentées dans l article VII, où la fonction forward est égale à la fonction backward, les estimations du 10 Cette comparaison a pu être effectuée en se plaçant dans un cadre où les fonctions de dispersion forward et backward sont égales. 11 En effet lorsque la densité augmente, les performances de la méthode Kindist s accroissent (voir résultats dans article en annexe IV) Density 0.6 Density 0.3 Density δ distance de dispersion moyenne (m) 1e λ densité efficace (ind hect) b paramètre de forme Figure 3.2 Densités a posteriori univariées estimées par ABC lors de l application sur le jeu de données du Sorbus torminalis (modèle T G P ois (Nm) voir article en annexe VI). Les densités a posteriori sont en rouge, les densités a priori en noir. 111

118 CHAPITRE 3. ESTIMER LA DISPERSION DU POLLEN AVEC L ABC δ distance de dispersion moyenne (m) δ distance de dispersion moyenne (m) e λ densité efficace (ind hect) b paramètre de forme Figure 3.3 Densités a posteriori bivariées estimées par ABC lors de l application sur le jeu de données du Sorbus torminalis (dans le modèle T G P ois (Nm) voir article en annexe VI). Les courbes noires représentent les régions de crédibilité. Les densités a priori utilisées correspondent a des surfaces constantes sur l ensemble des aires représentées. jeux de données de l Alisier obtenues en utilisant la méthode TwoGener classique ou TG-ABC sont très différentes. Lorsque la méthode TwoGener classique estime une fonction backward à longue distance (δ = 2298m) avec une queue lourde (b = 0.28) et une faible densité (λ = arbres/hect), la méthode TG-ABC estime une fonction forward à très courte distance (δ = 31m) une queue très légère (b = 0.86) et une densité très forte (λ = 12.6 arbres/hect). Cette grande différence entre les fonctions forward et backward peut être expliquée d une part par la configuration spatiale de la population étudiée : faible densité, agrégée présentant une structuration spatiale des génotypes et d autre part par la corrélation des paramètres λ et δ ajoutée au poids de la distribution a priori choisie pour λ (une uniforme entre 10 4 et 100 arbres à l hectare alors que la densité observée sur le site qui devrait être supérieure à la densité efficace est de 0.33 arbres à l hectare) Intégrer différents types d information et de nouveaux modèles L intégration de la méthode TwoGener dans le cadre bayésien permet de manière directe d intégrer de l information a priori sur les paramètres à estimer. Il est d ailleurs important de noter que le choix de la prior peut fortement influencer l estimation (voir discussion dans l article Carpentier et al. (in prep)). L utilisateur pourra donc utiliser son expertise lors de l estimation en introduisant dans les distributions a priori les connaissances qu il a accumulées au préalable. L élicitation des priors est une étape cruciale dans le bayésien classique (Parent et Bernier, 2007). 112

119 3.3. L ABC POUR L ESTIMATION DE LA DISPERSION DU POLLEN Outre l information a priori sur les paramètres estimés, il est aussi possible d intégrer de l information exacte ou partielle sur les individus sources de pollen et d intégrer de nouvelles hypothèses au modèle. L approche simulatoire de l ABC offre un cadre très souple, puisque l intégration d informations supplémentaires ou de nouvelles hypothèses est seulement limitée à la possibilité de simulation selon ces nouvelles modalités Intégrer de l information sous forme de données observées Comme nous avons intégré l information observée concernant les mères (positions et génotypes), il est aussi possible d intégrer l information observée concernant d autres pères potentiels connus. Nous avons intégré cette information dans l étude de la dispersion de l alisier (T G P ool (Nm + P os) et T G P ool (Nm + P os + Gen) dans l article en annexe VI). L introduction de ces informations modifie considérablement l estimation (voir résultats et discussion dans l article). Ceci confirme l impact de la structure spatiale des positions et des génotypes sur l estimation de la fonction de dispersion. Il est donc important de pouvoir inclure un maximum d information lors de l estimation. Si l information concernant les génotypes des individus est souvent inconnue lors de l estimation par méthode indirecte, l information concernant les positions des individus est beaucoup plus facilement observable. Elle peut être relevée de manière absolue (GPS) ou relative (laser et boussole). Elle pourrait aussi être estimée à partir de photos satellites ou aériennes Intégrer de l information concernant des processus connus Un autre moyen d intégrer de l information concernant les positions et les génotypes des individus serait d introduire non pas leur observation mais de l information concernant leur processus. Ainsi en relevant la position d un échantillon d individus, il serait possible de caractériser le processus de points de la population (Diggle, 1983). La caractérisation de ce processus pourrait être ensuite introduite lors de l estimation en simulant les pères inconnus suivant ce processus conditionnellement aux individus observés. De manière analogue à partir d un échantillon des génotypes d individus, il est possible de déterminer la structure spatiale des individus (par coefficients de copaternité (Vekemans et Hardy, 2004) ou par variogramme (Wagner et al., 2005)) et ainsi de simuler ces génotypes. Néanmoins les procédures de simulations de processus complexes conditionnelles à des observations ne sont pas aisées et de nombreux développements analytiques et algorithmiques restent à faire avant de pouvoir introduire ces informations dans notre méthode. 12 Bien évidemment dans ce cas il est possible d obtenir une estimation du nouveau modèle mais la qualité de l estimation pourra varier très fortement selon le nombre de données disponibles et le modèle (limité par exemple l identifiabilité des paramètres). 113

120 CHAPITRE 3. ESTIMER LA DISPERSION DU POLLEN AVEC L ABC Intégrer de nouvelles hypothèses concernant les processus : utiliser de nouveaux modèles Nous avons utilisé différents modèles de dispersion dans l article en annexe VI. Nous proposons ainsi deux modèles actuellement utilisés dans les méthodes directes : (i) une migration externe constante (T G P ool ) et (ii) des fécondités variables entre individus (T G varfert ). A la différence du modèle utilisé par les méthodes directes actuelles, la migration externe constante est dans notre modèle caractérisé par deux paramètres : m la probabilité pour une mère d être fécondée par un individu en dehors du site et un nouveau paramètre Nep, le nombre de pères efficaces présents dans le nuage pollinique extérieur. Il est défini de manière analogue au N ep des méthodes indirectes classiques (Smouse et al., 2001), son inverse définit ainsi la probabilité pour deux graines d avoir été fécondées par le même père dans le nuage pollinique sachant que ces graines sont issues de pères extérieurs. D après nos estimations sur l alisier et comparativement aux résultats issus des méthodes directes (Klein et al. (2008), Oddou-Muratorio et al. (2006)), le paramètre de migration semble bien estimé et robuste selon les modèles considérés. Le paramètre N ep est quant à lui plus difficilement estimable. Il fournit néanmoins une information importante mais pourtant négligée jusqu alors, concernant la diversité génétique introduite par migration de pollen. En effet comme le soulignent Sork et al. (1999), il est non seulement important d estimer la quantité de pollen extérieur mais aussi la diversité génétique qu il apporte. Nous avons modélisé la variabilité des fécondités des individus par des variables indépendantes et identiquement distribuées selon les individus, selon une loi gamma de moyenne 1 et de variance σ 2 (modèle identique à celui de (Klein et al., 2008)). Contrairement aux résultats obtenus par les méthodes directes (Klein et al., 2008), l introduction d un paramètre de variation de fertilités change considérablement les estimations des autres paramètres. Pourtant selon les jeux de données tests, cette introduction ne perturbe pas les performances de ces estimateurs. La modification des valeurs estimées pour les paramètres (différents de σ 2 ) est donc plus vraisemblablement liée aux modèles qu à un biais introduit par l augmentation du nombre de paramètres à estimer. Il est donc nécessaire dans notre méthode de considérer différents modèles lors de l estimation de la fonction de dispersion car contrairement aux méthodes directes, l estimation de la fonction de dispersion n est pas contrainte par les compatibilités entre génotypes des graines et des pères potentiels. Cependant l estimation de σ 2, la variance de fertilité, semble difficile et les performances de son estimateur sont médiocres. Nous pouvons donc considérer qu introduire de la variance de fertilité permet d estimer la dispersion sous l hypothèse de non égalité de fertilités des individus mais ceci sans pour autant fournir une estimation précise de σ 2. Un moyen pour améliorer l estimation de ce paramètre serait d estimer non pas la variance de fertilité théorique σ 2 mais la variance de fertilité empirique i.e. correspondant à la variation du nombre de graines réellement 114

121 3.3. L ABC POUR L ESTIMATION DE LA DISPERSION DU POLLEN fécondées par les pères lors des simulations. En effet comme le montrent Klein et al. (in prep) (en annexe II), ce paramètre est beaucoup plus robuste et facilement estimable dans le cadre bayésien Comparaison des modèles Dans notre application sur l alisier, nous avons pu comparer en utilisant des Bayes factors toute la gamme de modèles actuellement utilisés pour estimer la dispersion du pollen (voir tableau 2 annexe VI). D après ces résultats, le modèle qui semble statistiquement le plus crédible, est le modèle avec migration externe constante et variation de fertilité. D un point de vue biologique, cela pourrait signifier que les insectes pollinisateurs venant de l extérieur visitent de manière uniforme les arbres du site. La validité de ce résultat devra être néanmoins vérifiée, notamment en testant quels sont les bayes factors obtenus par des jeux de données simulés et estimés sous des modèles différents. L estimation des Bayes Factor dans notre méthode est directe et pourrait ne pas être robuste. Une approche à envisager serait la méthode proposée par Cornuet et al. (2008) qui proposent d estimer la probabilité des différents modèles en compétition par régression logistique des sommes des carrés des écarts des simulations conservées. Il n est pas possible pour nous d envisager la correction proposée par Leuenberger et Wegmann (2009) car le nombre de statistiques que nous utilisons est trop élevé. Néanmoins comme le soulignent Toni et Stumpf (2009), les estimations fournies par les Bayes Factors, particulièrement lors de la comparaison de modèles dont les paramètres à estimer sont de dimensions variables, sont très sensibles au choix des priors. Nous l avons d ailleurs remarqué dans notre application à l alisier (voir tableau 1 du matériel supplémentaire de l annexe VI). Nous devons donc être prudents dans l interprétation de ce paramètre dans notre cas, car si l interprétation des Bayes Factor est asymptotiquement justifié, le nombre de simulations que nous effectuons comparativement aux différents espaces des paramètres que nous utilisons n est peut être pas suffisant. Ainsi même si les Bayes Factor soutiennent plus le modèle avec le plus grand nombre de paramètres (avec migration constante paramétrée par m et Nep et variation de fertilité paramétrée par σ 2 ), il se peut néanmoins que les modèles faisant l hypothèse de pères individualisés à l extérieur (T G P ois ) soit désavantagés dans le calcul du Bayes Factor, ces derniers caractérisant pourtant les pères inconnus par un seul paramètre λ (la densité efficace) au lieu de deux. Mais une valeur du paramètre λ sous-entend beaucoup plus de configurations possibles (tirage spatial des positions et génotypes de chacun des pères) comparées à celles d une valeur du Nep (tirage de Nep génotypes de pères). 115

122 CHAPITRE 3. ESTIMER LA DISPERSION DU POLLEN AVEC L ABC Améliorer l estimation de la dispersion du pollen par ABC La méthode ABC-TG que nous venons de présenter a montré que l approche ABC peut fournir des estimations de la dispersion du pollen. Néanmoins elle présente quelques inconvénients : (i) une difficulté à estimer certains paramètres, (ii) des grands intervalles de crédibilité notamment dûs à la corrélation entre les paramètres estimés et (iii) une grande sensibilité à la distribution a priori choisie (voir discussion de l article en annexe VI). Ces inconvénients peuvent provenir d une part du manque d information disponible mais aussi de la manière dont nous la traitons. Pour utiliser au mieux l information partielle dont nous disposons, deux approches sont envisageables : (i) conserver le maximum d information dans les statistiques utilisées et (ii) parcourir plus efficacement l espace des paramètres. Dans cette partie, nous présentons des voies possibles d amélioration de cette méthode que nous avons explorées ou que nous souhaiterions dans un futur plus ou moins proche mettre en oeuvre Améliorer l estimation en choisissant de nouvelles statistiques-résumées Introduction des Ψ, les coefficients d apparentement de la méthode Kindist La première statistique, qu il est le plus naturel d utiliser après le Φ ft de la méthode Two- Gener, est le Ψ de la méthode Kindist. L intérêt de son introduction est d autant plus élevé que cette méthode théoriquement non dépendante de la densité permet dans les méthodes classiques (i) de fournir des estimateurs plus précis de la fonction de dispersion et (ii) d obtenir une estimation de la densité plus efficace qu avec la méthode TwoGener lorsque toutes deux sont utilisées de manière séquentielle (Robledo-Arnuncio et Austerlitz (2006), et article en annexe IV). Nous avons donc dans l article Guiton et al. (in prep) (en annexe VII) testé l utilisation conjointe de ces deux statistiques dans les méthodes ABC. L introduction conjointe de la statistique Ψ (indice de différenciation, ayant un ordre de grandeur 10 3 ) avec la statistique Φ ft (indice de corrélation d ordre de grandeur 0.1) nécessite une normalisation de ces indices. Cependant comme nous ne pouvons pas conserver toutes les statistiques-résumées simulées lors des simulations 13, nous devons nous contenter d utiliser une renormalisation globale des sommes des carrés des écarts observés pour chaque couple de mères (et non pas des statistiques-résumées elles-mêmes), définie avant les simulations. Nous avons donc testé trois types de pondération pour ces sommes des carrés des écarts (dont une était l absence de pondération). D après les simulations effectuées, la meilleure pondération possible est celle utilisant les écart-types des sommes des carrés des écarts observées pour les simulations conservées. Cette méthode donne globalement de bien meilleurs résultats (aussi bien en terme de biais 13 Une autre voie possible est la renormalisation empirique de chacune des statistiques à partir de simulations préalables en nombre plus restreint (de l ordre du millier). 116

123 3.3. L ABC POUR L ESTIMATION DE LA DISPERSION DU POLLEN que de RMSE) que la méthode ABC-TG ou la méthode classique séquentielle Kindist-TwoGener. Il serait donc intéressant à l avenir d introduire cette pondération dans les estimations par ABC. D autre part, cette étude montre aussi que le Ψ contient une certaine information concernant la densité. En effet même si la méthode ABCGEN Ψ estime très peu précisément la densité de la population (avec un biais relatif de 0.49 lorsque λ = 1.6 et δ = 100 qui augmente avec la densité jusqu à 0.87 lorsque λ = 16), les posteriors estimées concernant ce paramètre sont différentes de la prior (la valeur moyenne de λ sous la prior est de 1, cette valeur aurait abouti à des biais respectivement de l ordre de 0.37 et 0.93). Cette information provient sans doute de l information apportée par les positions des mères qui sont utilisées lors de l estimation. En effet nous avons montré de manière analytique (en annexe VI ; model) que lorsque les positions d individus sont introduites (la mère ou d autres pères potentiels), les Ψ n étaient plus indépendants de la densité. L information sur la densité contenue par le Ψ est donc liée aux nombres de positions connues. Finalement, les trois pondérations testées dans cet article ont été proposées de manière relativement empirique et nombre de pondérations différentes pourraient aussi être testées. Il est d ailleurs probable que la pondération optimale n accorde pas le même poids aux différentes statistiques en fonction des valeurs des paramètres. En effet, comme le montrent les tableaux 1 et 2 de l annexe VII, pour certaines combinaisons de paramètres les performances de l ABC sont meilleures lorsqu une seule des deux statistiques est utilisée. Il serait ainsi peut être préférable, plutôt que de passer par une pondération a priori d utiliser au préalable une méthode comme les "Partial least squares" proposés par Wegmann et al. (2009), pour trouver les combinaisons de statistiques qui estiment mieux les paramètres. Néanmoins une fois encore, nous sommes peut-être limités par le nombre de statistiques que nous utilisons. Réduire le nombre de statistiques Comme nous l avons montré de nombreuses fois, le nombre de statistiques que nous utilisons n est pas sans désavantage : (i) il augmente le pourcentage de simulations que nous rejetons et (ii) il nous limite dans les méthodes ABC que nous pouvons appliquer. Nous devons ainsi faire face à un fléau de la dimension plus grand que ceux habituellement observés dans les méthodes ABC sans pour autant pouvoir utiliser les méthodes qui le corrigent. Il est à noter que l introduction des Ψ qui apporte une amélioration indiscutable à la méthode, double néanmoins le nombre de statistiques utilisées. Il serait donc intéressant de pouvoir limiter considérablement ce nombre. Une méthode serait d utiliser la PLS comme nous venons de le suggérer ou une autre méthode de projection du même type. Une autre solution serait d utiliser les moyennes des statistiques par classes de distance comme nous l avions proposé pour les méthodes classiques (voir section ) et qui ont été utilisées avec succès dans le CBABC (voir section 3.1). Cependant en fonction du modèle 117

124 CHAPITRE 3. ESTIMER LA DISPERSION DU POLLEN AVEC L ABC choisi, cette solution pourrait ne pas être adaptée. En effet, résumer ainsi les statistiques suppose que ces dernières sont seulement dépendantes de la distance et que la variabilité autour des moyennes est dûe à la variabilité de l échantillonnage. Or dans des modèles plus complexes (quand la position et le génotype d autres arbres sont intégrés par exemple), les statistiques observées sur un couple de mères ne dépendent plus seulement de la distance qui les séparent mais aussi de la configuration des pères autour de chacune d elle. Ainsi il est fort probable que les moyennes par classe de distance ne soient pas la solution adéquate pour les modèles ABC. L information qu elles apportent devrait être enrichie au moins par l ajout de la variance observée au sein de ces classes. Quitter le cadre de l identité par descendance Un autre moyen d introduire de nouvelles statistiques est de quitter les statistiques actuellement utilisées pour tester des statistiques beaucoup plus directes. Comme nous l avons rappelé à la section 1.3.4, les méthodes indirectes classiques reposent sur les expressions analytiques des probabilités d identité par descendance (IBD). Ces événements ne sont pas observables directement car ils ne sont pas discernables des événements d identité par état (IIS). Les méthodes indirectes utilisent donc des statistiques qui sont issues de renormalisation des probabilités d IIS, les Ψ et Φ ft. Or dans l approche ABC, nous n utilisons plus les expressions analytiques des probabilités d IBD (dans notre cas les probabilités de copaternité). Au contraire nous simulons non seulement les descendances mais aussi les génotypes qui en résultent et obtenons ainsi des données qui contiennent intrinsèquement les probabilités d IBD mais aussi d IIS, selon le modèle et les paramètres considérés. Il est donc possible que l utilisation de statistiques reposant sur ces dernières probabilités fournissent plus d information. Les premières statistiques envisageables seraient les fréquences d identités entre les haplotypes de deux graines, à chaque locus, moyennées sur l ensemble des couples de graines échantillonnées sur une mère ou sur un couple de mères. Ces moyennes pourraient être utilisées comme des corrélations en utilisation les ratios de fréquences par couple sur les fréquences intra-mère ou plus simplement en utilisant directement ces fréquences. De plus dans ce cadre, il est possible d élargir l estimation de ces fréquences à plus de deux mères et ainsi intégrer l information dans l espace et non plus entre segments. Un autre type de statistique pourrait être utilisés. Il concerne les individus dont le génotype est connu. Pour ces individus, il serait intéressant de calculer la fréquence du nombre de graines dont ils pourraient être les pères sachant le génotype des mères de ces graines. Ces fréquences ne seraient bien sûr pas à utiliser comme uniques statistiques mais ajoutées à des statistiques représentant la structure spatiale des nuages polliniques de manière plus globale, elles pourraient permettre d utiliser au maximum l information connue sur les mères. 118

125 3.3. L ABC POUR L ESTIMATION DE LA DISPERSION DU POLLEN Améliorer l algorithme d estimation Comme nous l avons précédemment montré, il existe deux manières de lutter contre le fléau de la dimension (voir partie 3.1.5) : tirer plus efficacement dans l espace des paramètres ou bien corriger la distribution des paramètres conservés. Tant que nous n aurons pas réduit le nombre de statistiques utilisées, il ne semble pas possible d intégrer la correction des paramètres acceptés proposée par Beaumont et al. (2002) ou Blum et Francois (2009). En effet ces méthodes nécessitent des calculs effectués sur les statistiques observées sur l ensemble des simulations. Elles impliquent donc la conservation de toutes les statistiques simulées et la gestion de la matrice de statistiques lors de calculs complexes (comme son inversion dans l algorithme de Beaumont et al. (2002)). Le nombre de statistiques que nous utilisons actuellement rend impossible ces deux étapes. Pour améliorer nos estimations et évaluer si la sensibilité aux priors de nos estimations (voir Carpentier et al. (in prep) ;discussion) est imputable au manque d information dans les données ou à un manque de simulations acceptées pendant l estimation, il est nécessaire de parcourir plus efficacement l espace des paramètres. Les distributions a posteriori des paramètres que nous avons estimées à partir de simulations semblent unimodales et continues, nous pouvons donc appliquer les méthodes de tirage guidé. L adaptation du MCMC proposée par (Marjoram et al., 2003) semble la plus simple. Néanmoins il semblerait nécessaire de le modifier quelque peu en (i) fixant un seuil d acceptation en utilisant des simulations indépendantes, (ii) en lançant plusieurs chaînes indépendantes et en vérifiant si au bout des n premiers tirages un paramètre a été accepté, comme le suggèrent Leuenberger et Wegmann (2009). Cependant il est possible que nous ne puissions pas utiliser le MCMC-ABC que ces derniers proposent. En effet s il paraît judicieux de prendre un ɛ large pour permettre à la chaîne de se déplacer correctement, nous ne pourrons pas à la fin corriger les paramètres directement estimés. Si nous appliquons cette technique nous devrons choisir au préalable un ɛ du même ordre que ceux que nous avons choisis dans les annexes VI et VII et lancer de nombreuses chaînes pour être certains de parcourir correctement l espace des paramètres. Les autres types de méthodes envisageables sont les méthodes particulaires séquentielles. Dans ces méthodes le ɛ est abaissé graduellement, c est pourquoi elles seraient peut être plus adaptées à notre méthode, si l on parvient à déterminer un vitesse de décroissance du ɛ adaptée. De plus toute l information collectée par les particules sur la posterior est mutualisée (et non pas traitée en parallèle comme c est le cas pour les chaînes du MCMC-ABC). En contrepartie, il sera nécessaire de paralléliser le code sur une machine si l on veut pourvoir utiliser plus d un processeur. 119

126 CHAPITRE 3. ESTIMER LA DISPERSION DU POLLEN AVEC L ABC 3.4 Conclusions sur l estimation de la fonction de dispersion forward par l ABC Nous avons montré que notre méthode, sous le modèle forward par l approche d Approximate Bayesian Computation, fournit des résultats valides en estimant conjointement les paramètres de la fonction de dispersion et la densité de la population mais aussi de nouveaux paramètres issus de nouvelles hypothèses introduites dans le modèle. Il est possible dans cette méthode d enrichir l estimation par l apport d information partielle, ce qui jusqu alors restait impossible. Cependant même si notre méthode fournit généralement de meilleurs résultats que les méthodes indirectes classiques, il faudra prêter une attention particulière au choix des priors (qui peuvent influer sur l estimation) et ne pas oublier lors de l interprétation des résultats de prendre en compte les largeurs des intervalles de crédibilité qui ne sont pas négligeables. Ces deux points pourraient être nuancés si les perspectives d améliorations suggérées (exploration de l espace des paramètres ciblée et choix de nouvelles statistiques) s avèrent efficaces. Par ailleurs, nous avons montré que le choix du modèle peut modifier fortement les estimations. En effet, contrairement à l estimation utilisée par les méthodes directes, dans notre méthode, l estimation n est pas contrainte par la compatibilité des génotypes parents-descendants. La vraisemblance approchée estimée est celle des statistiques-résumées et non celles des génotypes. Or pour expliquer une même structure génétique spatiale des nuages polliniques, mais sous différents modèles, il est possible que la fonction de dispersion varie fortement. Il serait donc utile de contraindre l estimation par quelques statistiques plus "directes". Les méthodes ABC sont encore récentes et notre méthode encore jeune, les défauts relevés ici devraient plus être interprétés comme des perspectives d amélioration et ne doivent pas faire oublier les potentialités multiples en terme de modèles et d information utilisables rendues possibles par cette méthode, dont nous avons présenté ici quelques exemples, mais dont la majorité reste encore à être développée. 120

127 CHAPITRE 4 CONCLUSIONS Cette thèse a montré que dans le cadre de la modélisation de la dispersion du pollen, il n existe pas une seule fonction de dispersion de pollen, mais qu il en existe de multiples et qu elles peuvent être décomposées en deux types : les fonctions de dispersion Forward des méthodes par mating models (Burczyk et al. (2002), Oddou-Muratorio et al. (2005)) et les fonctions Backward utilisées dans les méthodes indirectes (Austerlitz et al. (2004),Robledo- Arnuncio et al. (2006)). Les fonctions forward sont centrés sur les pères et modélisent la position de "dépôt" (d arrivée) du pollen conditionnellement à la position de son père. Les fonctions backward sont centrées sur les mères et modélisent la position de provenance du pollen (i.e. son père), connaissant la position de la mère qu il a fécondée. Ces deux types de fonctions n incluent pas exactement les mêmes processus et ne reposent pas sur les mêmes hypothèses, elles devraient donc être interprétées de manières différentes. Il est possible de considérer que l utilisation d information précise et complète (comme la position de tous les individus et leurs génotypes) et la modélisation fine des processus liés à la dispersion (comme la loi d action de masse pour modéliser le mécanisme de compétition pollinique pour la fécondation) permettent d obtenir une estimation plus précise de la "vraie" fonction de dispersion si l on considère que cette fonction représente seulement le déplacement du pollen. C est le point de vue "Forward" qui cherche une fonction quasi-mécaniste (tendant vers celle étudiée par les modèles physiques). Un autre point de vue, adopté par la vision backward, est de considérer que la fonction de dispersion n inclut pas seulement le transport du pollen mais intègre de multiples processus depuis la configuration spatiale de la population jusqu à la fécondation. L aspect moins mécaniste de la fonction de dispersion backward peut ainsi être interprété non pas comme une simple approximation mais comme une représentation synthétique du résultat attendu de la dispersion du pollen. Considérant que ces deux visions de la dispersion ne sont pas opposées mais complémentaires, nous avons proposé dans cette thèse plusieurs pistes pour ne pas contraindre le choix de la modélisation de la fonction lors de l estimation par les caractéristiques du jeu de données utilisé liés à son échantillonnage. Nous proposons ainsi de dépasser le clivage actuel du TOUT ou RIEN de l estimation ; le TOUT représentant les données exhaustives nécessaires pour estimer la fonction Forward par le mating model et le RIEN, le jeu de données minimales des méthodes indirectes qui d ailleurs n est même pas utilisé totalement lors de l estimation. Nous avons ainsi proposé une nouvelle méthode pour estimer la dispersion du pollen sous

128 CHAPITRE 4. CONCLUSIONS un modèle forward en utilisant une approche par calcul bayésien approché (Approximate Bayesian Computation). Dans cette méthode, les jeux de données étudiés peuvent intégrer toute une gamme d information, du jeu de données minimum des méthodes indirectes (dont toute l information sera utilisée) au jeu de données exhaustif des méthodes directes. Ils peuvent donc contenir des données partielles comme les positions de certains pères potentiels (alors que leurs génotypes sont inconnus) que nous avons intégrées lors de l estimation de l alisier mais aussi de l information sur les processus (par exemple celui des positions) que nous aimerions introduire dans la méthode. De plus, en modélisant la dispersion du pollen dans le cadre forward i.e. en décomposant les processus de la dispersion, nous avons pu tester différemment modèles concernant (i) l apport extérieur de pollen (par un nuage global ou par des individus spatialisés) et (ii) la fécondité des individus (constante ou variable). Dans l étude du jeu de données de l alisier, les estimations de la fonction de dispersion que nous obtenons varient en fonction de la quantité d information introduite et du modèle choisi. Même si une partie de la variabilité de cette estimation pourrait peut-être être diminuée en améliorant notre méthode (algorithme et statistiques-résumées utilisés), ces résultats semblent aussi montrer que des structures génétiques spatiales similaires peuvent être créées par des fonctions de dispersion forward très différentes selon le modèle étudié. Pourtant les méthodes directes forward actuelles (Klein et al. (2008)), fournissent des fonctions de dispersion relativement similaires selon les modèles utilisés. Ceci s explique par leur utilisation directe des données qui contraint, par l assignation de paternité, l estimation de la fonction de dispersion. Cette dernière est par conséquent beaucoup moins dépendante du modèle. L analyse de résidus de ces estimations ou l étude des posteriors de ces modèles (comme l étude de la répartition spatiale de la distribution posterior des fertilités individuelles dans Klein et al. (2008)) pourraient permettre de mieux comprendre quelles sont les hypothèses du modèle actuel qui ne sont pas respectées. Il pourrait ainsi être étudié si la migration extérieure semble spatialisée ou non, si l estimation du paramètre de forme de la fonction de dispersion est plus dictée par les événements de dispersion à courtes ou à longues distances (comme il est souvent interprété), s il est nécessaire de modéliser la dispersion par deux fonctions de dispersion (Goto et al., 2006) et enfin si d autres modèles sont à envisager. Finalement, le modèle d action de masse actuel pourrait être remis en cause si l hypothèse d indépendance des fécondations, la non-influence de la mère dans les probabilités de fécondation (de par la quantité de pollen autofécondant qu elle produit par exemple) s avéraient ne pas être vérifiées. D autres modèles plus complexes pourraient être alors envisagés (comme ceux utilisés dans le cadre de l étude de l évolution du système de reproduction présentés dans la section 1.2.1). Mais l étude précise de ces mécanismes nécessite de plus amples études et des échantillonnages très importants des individus de la population et des graines produites. 122

129 Parallèlement au développement de la méthode d estimation de la fonction forward par ABC, nous avons proposé une étude analytique de la fonction backward. Nous montrons ainsi que la fonction backward n inclut pas seulement le déplacement du pollen mais les probabilités de deux événements : (i) l existence d un père sur une surface élémentaire centrée sur un point donné x et (ii) la fécondation de la mère en 0 par un père en x sachant que ce père existe. Par construction, le choix d une fonction backward consiste donc au choix implicite d hypothèses concernant ces deux événements. Nous avons ainsi proposé une décomposition de la fonction backward qui met en évidence de manière explicite l hypothèse concernant le processus ponctuel des positions des pères autour d une mère. A travers cette décomposition, il apparaît que selon le processus de points des individus, la fonction backward sera différente et donc par conséquent que le type de fonction backward choisie fait une hypothèse concernant la répartition des individus (Par exemple, les familles de fonctions de dispersion backward actuelles, non nulles sur R 2 signifient que la probabilité d existence d un père est non nulle en n importe quel point de cet espace). De plus nous avons montré que la fonction de dispersion est contrainte par le processus des positions des individus, ne serait-ce que par la densité dans le cas simple du processus Poissonnien actuellement supposé. En effet si cette contrainte n est pas respectée les fonctions de dispersion n ont pas de sens. Il est ainsi possible par exemple d obtenir des "probabilités" de copaternité plus grande que 1, en utilisant la formule analytique de (Austerlitz et Smouse, 2001a). D autre part, comme la fonction backward inclut la probabilité d observer un père sur une surface donnée, nous avons montré que la prise en compte des pères potentiels connus nécessite l intégration de leurs positions dans la fonction backward. Nous avons détaillé le cas de l autofécondation où le père potentiel est la mère elle-même dans l article Carpentier et al. (en soumission) (en annexe IV) où nous montrons que lorsque le cas du père en 0 n est pas introduit de manière explicite, l autofécondation est considérée comme nulle et que sa présence peut conduire à des biais dans les méthodes indirectes actuelles. Nous avons proposé une méthode pour prendre en compte l autofécondation dans le modèle. De même que nous avons introduit la mère comme père potentiel connu, il serait possible d introduire dans les fonctions de dispersion backward la positions d autres individus (comme les autres mères échantillonnées). La formalisation de la fonction backward montre que cette dernière inclut la probabilité de fécondation d une mère en 0 par un père en x. Ceci signifie que dans le modèle backward, le modèle de compétition entre grains de pollen lors de la fécondation est implicitement inclus dans la fonction backward mais jamais réellement exprimé. Nous avons montré que lors du calcul des probabilités de copaternité, une autre hypothèse implicite concernant les événements de fécondation apparaissait : la probabilité de fécondation d une mère par un père en une position donnée est supposée ne pas dépendre de la position des autres individus. Cette hypothèse qui biologiquement ne semble pas crédible peut être modifiée. Cependant pour cela, il est néces- 123

130 CHAPITRE 4. CONCLUSIONS saire d expliciter plus clairement le modèle backward, en introduisant une modélisation de la variance (et covariance) de la probabilité de fécondation pour un père en une position donnée. Pour cela il serait possible (i) d exprimer cette variance en fonction d un modèle plus complet (comme nous avons fait avec le modèle forward par exemple, qui valide l approximation de la variance nulle si la densité est suffisamment élevée), ou (ii) d introduire un modèle moins complet ne représentant que la variance. Actuellement la gamme de modèles possibles pour la variance reste encore à étudier (constante, en fonction de la distance, de la densité globale ou locale...). Il est aussi envisageable de ne pas corriger la formule et de considérer que la fonction de dispersion estimée est "efficace", au sens où elle correspondrait à toutes les hypothèses actuelles des méthodes indirectes ajoutées à celle d absence de variance de fécondation. Finalement, en permettant l introduction de processus non observés dans l estimation de la fonction forward et d information dans l estimation de la fonction backward, nous avons proposé l estimation de fonctions forward ou backward sous différentes hypothèses et ainsi permis différents niveaux d intégration conduisant à la définition de différents "niveaux d efficacité" pour les différentes fonctions efficaces. Leurs interprétations ne sont pas toutes équivalentes. Nous avons insisté ici sur la différence entre backward et forward, mais il existe aussi des différences plus subtiles comme la différence entre forwards potentielles (issues des mating models) et forwards réalisées (issues des assignations de paternité) et parmi ces dernières entre celles estimées à partir des positions exactes plus descriptives que celles introduisant une probabilité d existence d un père (comme nous le proposons en section ). Selon le jeu de données disponible et le but de l estimation (description des flux de pollen pour estimer la diversité des graines produites, description des processus mis en oeuvre dans la dispersion, prédiction de futurs flux de pollen ou utilisation des paramètres estimés dans un méta-modèle incluant la dispersion du pollen avec d autres processus...), le rôle et le poids des hypothèses supposées lors de l estimation des fonctions de dispersion seront différents. Par exemple, si le but de l étude est la description des processus impliqués dans la dispersion du pollen, la comparaison entre fonctions de dispersion forward potentielles transcrites en forward réalisées sous le modèle d action de masse et la fonction forward réalisée estimée de manière directe à partir des assignations de paternité pourrait permettre de comprendre si le modèle d action de masse est vérifié et si les différentes sources de variabilité de fécondité sont toutes prises en compte. Dans le cas d estimations utilisées dans des simulations, si la fonction utilisée est une backward (classique), la population simulée devra respecter les hypothèses de l estimation i.e. la positions des individus est poissonnienne (ou par approximation répartie sur lattice) et les individus sont équifertiles et monoïques. Si l on souhaite simuler des populations avec d autres distributions spatiales, il sera nécessaire d utiliser une autre estimation comme la fonction forward potentielle. Le développement de différentes méthodes d estimation de fonctions de dispersion de pollen est encore 124

131 relativement récent, pour évaluer l impact réel des distinctions que nous introduisons et leurs potentialités en terme d applications, des études pratiques et théoriques sont encore nécessaires. Dans cette thèse, nous avons proposé d introduire de l information dans l estimation sur la population en nous focalisant principalement sur la distribution spatiale des individus (et de manière plus anecdotique sur la structure génétique spatiale des individus). D autres informations pourraient aussi être introduites et pourraient modifier certaines hypothèses du modèle et le rendre plus réaliste. Parmi elles, nous pouvons citer quelques pistes d étude comme l estimation d une fonction de dispersion selon une distance non euclidienne (pour d autres définitions des distances voir Schurr et al. (2008), McRae et Beier (2007),Wang et al. (2009)). Déformer ainsi l espace permettrait de modéliser une dispersion dans l espace (euclidien) différente pour chaque individu et d introduire une variabilité de dispersion entre individus. D autres sources de variabilité devraient être introduites comme le décalage phénologique (Robledo-Arnuncio et al., 2006) ou la variabilité temporelle. Dans l article Restoux et al. (in prep) (en annexe I), nous montrons qu il est nécessaire de prendre en compte la variabilité temporelle lors de l estimation de la fonction de dispersion et proposons une estimation de la fonction "efficace" de dispersion backward estimée sur plusieurs années. Néanmoins pour comprendre l effet sur plusieurs générations de cette variabilité temporelle, il serait aussi nécessaire d estimer non seulement cette fonction efficace (qui représente une moyenne) mais aussi la variation de cette fonction entre années. Le développement de nouveaux modèles de dispersion et de nouvelles méthodes d estimation devrait aussi être accompagné par la recherche d indices synthétiques permettant d une part la comparaison entre les modèles et d autre part représentant de manière plus informative les résultats de la dispersion estimée. Actuellement, dans la plupart des estimations de la dispersion in natura, le résultat de la dispersion est discuté en terme de distance moyenne de dispersion, le paramètre de forme et la famille de fonctions choisies étant seulement discutés en terme de dispersion à queue lourde on non. Dans le cas des méthodes indirectes, la majorité des études utilisant ces méthodes s appuient uniquement sur le nombre de pères efficaces pour une mère, estimé par la méthode TwoGener globale, et n utilisent donc pas la vision spatialisée de la dispersion introduite par les méthodes en pairwise. Dans l article l article Restoux et al. (in prep) (en annexe I), nous avons proposé quelques indices pour illustrer la signification des paramètres estimés. L utilisation de ces indices est donc interprétative. Il serait très intéressant de rechercher d autres indices plus explicatifs ou prédictifs, qui puissent être utilisés plus directement dans le cadre de l aide à la décision ou du diagnostic. Leur recherche devrait prendre en compte les modèles évolutifs et les questions de conservation (pour les populations menacées) ou de contrôle (pour les espèces dont on cherche à limiter la dispersion comme les OGM par exemple). Le concept de dispersion forward ou backward ainsi que des différentes significations du 125

132 CHAPITRE 4. CONCLUSIONS terme "efficace" que nous avons développés dans le cadre de cette thèse pour l étude de la dispersion du pollen, pourraient aussi être adaptés (i) à la dispersion des graines (qui peut être estimée en forward potentiel (Burczyk et al. (2006) ou Robledo-Arnuncio et Garcia (2007)), en forward réalisée (Ribbens et al., 1994) ou encore en backward (Grivet et al., 2005)) et (ii) au cadre général des flux de gènes qui dans les méthodes indirectes "historiques" sont estimés dans un modèle backward efficace (sur plusieurs générations selon les hypothèses d une population à l équilibre). En effet les fonctions de dispersion du pollen forward (potentielle) et backward classiques (des méthodes actuelles) ne constituent pas les limites extrêmes des fonctions de dispersion. Les fonctions forward peuvent être considérées comme les équivalents efficaces ou "réalisés" des fonctions obtenues dans les méthodes physiques mécanistes, car elles estiment la dispersion potentielle des grains de pollen ayant produit une graine et non pas celle de l ensemble des grains de pollen. Les fonctions de dispersion du pollen backward peuvent être interprétées comme des backward "potentielles" relativement aux fonctions de dispersion des méthodes "historiques", ces dernières incluant non seulement la dispersion du pollen mais aussi celle des graines ainsi que le processus de recrutement de ces dernières (survie depuis la dispersion jusqu à l entrée dans la cohorte adulte). En conclusion, toutes les réflexions, considérations et développements de cette thèse sont issus de l étude des modèles de dispersion et notamment de l explicitation des hypothèses et de l interprétation de leurs conséquences d un point de vue biologique mais aussi statistique. Bien qu actuellement le développement des méthodes statistiques simulatoires associé à l augmentation des puissances de calcul disponibles permette de limiter la nécessité des expressions analytiques des modèles étudiés, la nécessité de la formalisation des modèles est toujours présente, aussi bien pour la compréhension de leur interprétation que pour leur estimation. Par exemple dans le cas de l ABC, ce sont les études analytiques et conceptuelles des méthodes backward qui ont défini des statistiques-résumées suffisantes pour les paramètres à estimer (dans le modèle simple) et que nous avons ainsi pu réutiliser dans notre méthode simulatoire. Nous avons montré qu il existe de multiples modélisations de la dispersion et que les méthodes d estimation qui leur sont associées varient elles aussi, notamment en fonction des données disponibles. Les modèles ainsi que les méthodes utilisés ont constamment évolué depuis les premiers questionnements concernant la dispersion (qui apparaissent pratiquement à l origine de la génétique des populations) jusqu à aujourd hui ; et ceci parallèlement au développement de marqueurs génétiques de plus en plus précis et nombreux. Ainsi à la célèbre phrase de George E.P. Box, "Essentially, all models are wrong, but some are useful.", j ajouterai que l utilité d un modèle varie selon la question biologique que l on se pose, des méthodes statistiques que l on peut utiliser et des données dont on dispose. Or ces trois facteurs ne sont pas constants et ne cessent de s enrichir en diversité et en précision. Par conséquent, lors du développement de 126

133 nouvelles méthodes, il me semble intéressant de combiner à la fois une vision biologique mais aussi statistique du problème, car la recherche de la solution optimale sera probablement plus efficace si l on se disperse entre les deux domaines de la statistique et de la génétique, créant ainsi une certaine diversité de réflexions qui permette de parcourir plus efficacement l espace des possibilités et peut-être d explorer des régions encore inconnues. 127

134 CHAPITRE 4. CONCLUSIONS 128

135 BIBLIOGRAPHIE W. T. Adams et D. S. Birkes. Estimating mating patterns in forest tree populations. Biochemical markers in the population genetics of forest trees, pages , W.T. Adams et G. F. Griffin, A. R.and Moran. Using paternity analysis to measure effective pollen dispersal in plant populations. American Naturalist, pages , M. Alleaume-Benharira, I. R. Pen et O. Ronce. Geographical patterns of adaptation within a species range : interactions between drift and gene flow. Journal of Evolutionary Biology, 19(1): , F. Austerlitz, C. W. Dick, C. Dutech, E. K. Klein, S. Oddou-Muratorio, P. E. Smouse et V. L. Sork. Using genetic markers to estimate the pollen dispersal curve. Molecular Ecology, 13 (4): , F. Austerlitz, C. Dutech, P. E. Smouse, F. Davis et V. L. Sork. Estimating anisotropic pollen dispersal : a case study in Quercus lobata. Heredity, 99(2): , mai ISSN X. F. Austerlitz et P. E. Smouse. Two-generation analysis of pollen flow across a landscape. ii. relation between φ ft, pollen dispersal and interfemale distance. Genetics, 157(2): , 2001a. F. Austerlitz et P. E. Smouse. Two-generation analysis of pollen flow across a landscape. iii. impact of adult population structure. Genetical Research, 78(3): , 2001b. F. Austerlitz et P. E. Smouse. Two-generation analysis of pollen flow across a landscape. iv. estimating the dispersal parameter. Genetics, 161(1): , C.F.E. Bacles, A. J. Lowe et R. A. Ennos. Effective seed dispersal across a fragmented landscape. Science, 311(5761):628, H. G. Baker. Self-compatibility and establishment after "long-distance" dispersal. Evolution, 9(3): , S.C.H. Barrett. Mating strategies in flowering plants : the outcrossing-selfing paradigm and beyond. Phil. Trans. R. SOc. Lond. B, 358: , A.J. Bateman. Contamination of seed crops. Journal of Genetics, 48(2): , MJ Bayarri et JO Berger. The interplay of Bayesian and frequentist analysis. Statistical Science, pages 58 80, 2004.

136 CHAPITRE 4. BIBLIOGRAPHIE T. Bayes. An essay towards solvings a problem in the doctrine of chances. Philos. Trans. Roy. Soc. London, 53: , J. A. Beardmore. Extinction, survival, and genetic variation. Biol. Conserv. Ser., pages , M. A. Beaumont et B Rannala. The Bayesian revolution in genetics. Nature Reviews Genetics, 5(4): , APR ISSN M.A. Beaumont, J.M. Cornuet, J.M. Marin et C.P. Robert. Adaptive approximate Bayesian computation. Biometrika, pages 1 8, M.A. Beaumont, W. Zhang et D.J. Balding. Approximate bayesian computation in population genetics. Genetics, 162: , R. Bellman. Adaptive control processes : a guided tour Princeton University Press. Princeton, New Jersey, USA, J.V.M. Bittencourt et A.M. Sebbenn. Pollen movement within a continuous forest of windpollinated Araucaria angustifolia, inferred from paternity and TwoGener analysis. Conservation Genetics, 9(4): , M. G.B. Blum et O. Francois. Non-linear regression models for approximate bayesian computation. Statistics and Computing, M.G.B. Blum. Approximate bayesian computation : a non-parametric perspective. arxiv, v4, M.G.B. Blum et V.C. Tran. HIV with contact-tracing : a case study in Approximate Bayesian Computation. Arxiv preprint arxiv : , P. Bortot, S.G. Coles et Sisson S.A. Inference for stereological extremes. Journal of American Statistical Association, 102(477):84 94, Comte de Buffon, Georges-Louis Leclerc. Mémoire sur le jeu du franc carreau. présenté à l Académie des Sciences, J. Burczyk, W. T. Adams, D. S. Birkes et I. J. Chybicki. Using genetic markers to directly estimate gene flow and reproductive success parameters in plants on the basis of naturally regenerated seedlings. Genetics, 173(1):363, J. Burczyk, W. T. Adams, G. F. Moran et A. R. Griffin. Complex patterns of mating revealed in a eucalyptus regnans seed orchard using allozyme markers and the neighbourhood model. Molecular Ecology, 11(11): ,

137 J. Burczyk et T. E. Koralewski. Parentage versus two-generation analyses for estimating pollenmediated gene flow in plant populations. Molecular Ecology, 14(8): , D. F. Callen, A. D. Thompson, Y. Shen, H. A. Phillips, R. I. Richards, J. C. Mulley et G. R. Sutherland. Incidence and origin of" null" alleles in the (AC) n microsatellite markers. American Journal of Human Genetics, 52(5):922, D.R. Campbell et N.M. Waser. Variation in pollen flow within and among populations of Ipomopsis aggregata. Evolution, 43(7): , F.H. Carpentier, J. Chadoeuf et E.K. Klein. Estimates of backward pollen dispersal curve : Why and how considering selfing explicitly? en soumission. F.H. Carpentier, J. Chadoeuf et E.K. Klein. Estimates of forward pollen dispersal curve : An abc approach to extend twogener. application to sorubs torminalis (l.) crantz. in prep. R. Chakraborty, TR Meagher et PE Smouse. Parentage analysis with genetic markers in natural populations. I. The expected proportion of offspring with unambiguous paternity. Genetics, 118(3):527, D. Charlesworth et B. Charlesworth. Inbreeding depression and its evolutionary consequences. Annual Review of Ecology Evolution and Systematics, 18:237 68, P.O. Cheptou. Population biology - The ecology of inbreeding depression. Heredity, 96(2):110, ISSN X. P.O. Cheptou, J. Lepart et J. Escarre. Mating system variation along a successional gradient in the allogamous and colonizing plant Crepis sancta(asteraceae). Journal of Evolutionary Biology, 15(5): , P.O. Cheptou et D.J. Schoen. The cost of fluctuating inbreeding depression. Evolution, pages , P.O. Cheptou, D.J. Schoen et al. Combining population genetics and demographical approaches in evolutionary studies of plant mating systems. Oikos, 116(2): , J.S. Clark, M. Silman, R. Kern, E. Macklin et J. HilleRisLambers. Seed dispersal near and far : patterns across temperate and tropical forests. Ecology, 80(5): , J.M. Cornuet, F. Santos, M.A. Beaumont, C.P. Robert, J.M. Marin, D.J. Balding, T. Guillemaud et A. Estoup. Inferring population history with DIY ABC : a user-friendly approach to approximate Bayesian computation. Bioinformatics, 24(23):2713,

138 CHAPITRE 4. BIBLIOGRAPHIE M.P. Cox, F.L. Mendez, T.M. Karafet, M.M. Pilkington, S.B. Kingan, G. Destro-Bisol, B.I. Strassmann et M.F. Hammer. Testing for archaic hominin admixture on the X chromosome : Model likelihoods for the modern human RRM2P4 region from summaries of genealogical topology under the structured coalescent. Genetics, 178(1):427, TJ Crawford. The estimation on neighbourhood parameters for plant populations. Heredity, 52 (2): , N. A.C. Cressie. Statistics for spatial data, revised edition. John Wiley & Sons, New York, D. Dacunha-Castelle et M. Duflo. Probabilités et statistiques. Tome 2 : Problèmes à temps mobile. Collection Mathématiques Appliquées pour la Maîtrise, P. Dagnelie. Statistique théorique et appliquée : inférence statistique à une et à deux dimensions. De Boeck Université, H. Darmency, E.K. Klein, T. Gestat De Garanbé, P.H. Gouyon, M. Richard-Molard et C. Muchembled. Pollen dispersal in sugar beet production fields. Theoretical and Applied Genetics, 118(6): , P. David, B.I.T. Pujol, F. Viard, V. Castella et J. Goudet. Reliable selfing rate estimates from imperfect population genetic data. Molecular Ecology, 16(12): , A.I. de Lucas, J.J. Robledo-Arnuncio, E. Hidalgo et S.C. González-Martínez. Mating system and pollen gene flow in mediterranean maritime pine. Heredity, 100: , B. Devlin et NC Ellstrand. The development and application of a refined method for estimating gene flow from angiosperm paternity analysis. Evolution, 44(2): , B. Devlin, K. Roeder et N. C. Ellstrand. Fractional paternity assignment : theoretical development and comparison to other methods. Theoretical and Applied Genetics, 76: , C. W. Dick, G. Etchelecu et F. Austerlitz. Pollen dispersal of tropical trees (Dinizia excelsa : Fabaceae) by native insects and african honeybees in pristine and fragmented amazonian rainforest. Molecular Ecology, 12(3): , C. W. Dick, O. Hardy, F. Jones et R. Petit. Spatial scales of pollen and Seed-Mediated gene flow in tropical rain forest trees. Tropical Plant Biology, 1(1):20 33, mars P. J. Diggle. Statistical analysis spatial point patterns. academic press inc. LTD, London, first édition,

139 P.J. Diggle et R.J. Gratton. Monte carlo methods of inference for implicite statistical models. J. R. Statist. Soc, B., 46: , B. D. Dow et M. V. Ashley. High levels of gene flow in bur oak revealed by paternity analysis using microsatellites. Journal of Heredity, 89(1):62, J.J. Droesbeke, G. Saporta, J. Fine et S.F. de Statistique. Méthodes bayésiennes en statistique. Editions TECHNIP, R. J. Dyer. Powers of discerning : challenges to understanding dispersal processes in natural populations. Molecular Ecology, 173: , R. J. Dyer et V. L. Sork. Pollen pool heterogeneity in shortleaf pine, pinus echinata mill. Molecular Ecology, 10(4): , R. J. Dyer, R. D. Westfall, V. L. Sork et P. E. Smouse. Two-generation analysis of pollen flow across a landscape v : a stepwise approach for extracting factors contributing to pollen structure. Heredity, 92(3): , B. Efron. The Jacknife, the Bootstrap and other resampling plans. SIAM, Philadelphia, N. C. Ellstrand et D. R. Elam. Population genetic consequences of small population size : Implications for plant conservation. Annual Review of Ecology and Systematics, 24(1): , R. A. Ennos. Estimating the relative rates of pollen and seed migration among plant populations. Heredity, 72(3): , ISSN X. L. Excoffier, A. Estoup et J.M. Cornuet. Bayesian analysis of an admixture model with mutations and arbitrarily linked markers. Genetics, 169(3):1727, L. Excoffier, P. E. Smouse et J. M. Quattro. Analysis of molecular variance inferred from metric distances among dna haplotypes - application to human mitochondrial-dna restriction data. Genetics, 131(2): , C.B. Fenster, X. Vekemans et O.J. Hardy. Quantifying gene flow from spatial genetic structure data in a metapopulation of Chamaecrista fasciculata (Leguminosae). Evolution, 57(5): , R.A. Fisher. Average excess and average effect of a gene substitution. the Annals of Eugenics, 11:53 63, S. Fénart, F. Austerlitz, J. Cuguen et F. Arnaud. Long distance pollen-mediated gene flow at a landscape level : the weed beet as a case study. Molecular Ecology, 16: ,

140 CHAPITRE 4. BIBLIOGRAPHIE O. Francois, M. Blum, M. Jakobsson et N. A. Rosenberg. Demographic history of european populations of Arabidopsis thaliana. PLoS genetics, 4:1 15, R. Frankham. Conservation genetics. Annual Review of Genetics, 29(1): , R Frankham, JD Ballou et Briscoe DA. Introduction to Conservation Genetics. Cambridge University Press, Cambridge, UK., I. R. Franklin et R. Frankham. How large must populations be to retain evolutionary potential? Animal Conservation, 1(01):69 70, Y.-X. Fu et W.-H. Li. Estimating hte age of the common ancestor of a sample of dna sequances. Mol. Biol. Evol, 14: , Y.X. Fu et W.H. Li. Coalescing into the 21st century : an overview and prospects of coalescent theory. Theoretical Population Biology, 56(1):1 10, JL Fyfe et NTJ Bailey. Plant breeding studies in leguminous forage crops. I. Natural crossbreeding in winter beans. Journal of Agricultural Science, 41: , C. Garcia, P. Jordano et J. A. Godoy. Contemporary pollen and seed dispersal in a Prunus mahaleb population : patterns in distance and direction. Molecular Ecology, 16(9): , A.E. Gelfand et A.F.M. Smith. Sampling-base approaches to caluclating marginal densities. Journal of the American statistical association, 85: , S. Gerber, P. Chabrier et A. Kremer. FAMOZ : a software for parentage analysis using dominant, codominant and uniparentally inherited markers. Molecular ecology notes, 3(3): , S. Gerber, S. Mariette, R. Streiff, C. Bodenes et A. Kremer. Comparison of microsatellites and amplified fragment length polymorphism markers for parentage analysis. Molecular Ecology, 9(8): , C.J. Geyer et E.A. Thompson. Annealing Markov chain Monte Carlo with applications to ancestral inference. Journal of the American Statistical Association, pages , C. Goodwillie, S. Kalisz et C. G. Eckert. The evolutionary enigma of mixed mating systems in plants : Occurrence, theoretical explanations, and empirical evidence. Annual Review of Ecology Evolution and Systematics, 36:47 79,

141 S. Goto, K. Shimatani, H. Yoshimaru et Y. Takahashi. Fat-tailed gene flow in the dioecious canopy tree species fraxinus mandshurica var. japonica revealed by microsatellites. Molecular Ecology, 15(10): , C. Gourieroux, A. Monfort et E. Renault. Indirect inference. Journal of applied Econometrics, 8:85 118, H.-R. Gregorius, M. Ziehe et M.D. Ross. Selection caused by self-fertilization. i.four measures of self-fertilization and their effects on fitness. Theoretical Population Biology, 31:91 115, D. Grivet, P. E. Smouse et V. L. Sork. A novel approach to an old problem : tracking dispersed seeds. Molecular Ecology, 14(11): , F. Guiton, J Chadoeuf, E.K. Klein et F.H. Carpentier. Abc-estimation of forward pollen dispersal curve : Combining twogener and kindist to improve the esitmation? in prep. J.L. Hamrick et J.D. Nason. Population dynamics in ecological space and time, chaptitre Consequences of dispersal in plants, pages University of Chicago Press, L. D. Harder et W. G. Wilson. A clarification of pollen discounting and its joint effects with inbreeding depression on mating system evolution. the American Naturalist, 152(5): , B. D. Hardesty, C. W Dick, A. Kremer, S. Hubbell et E. Bermingham. Spatial genetic structure of simarouba amara Aubl.(Simaroubaceae), a dioecious, animal-dispersed neotropical tree, on barro colorado island, panama. Heredity, 95(4): , O. J. Hardy, S. C. Gonzalez-Martinez, B. Colas, H. Freville, A. Mignot et I. Olivieri. Finescale genetic structure and gene dispersal in centaurea corymbosa (asteraceae). ii. correlated paternity within and among sibships. Genetics, 168(3): , O.J. Hardy. Estimation of pairwise relatedness between individuals and characterization of isolation-by-distance processes using dominant genetic markers. Molecular Ecology, 12(6): , O.J. Hardy et X. Vekemans. Isolation by distance in a continuous population : reconciliation between spatial autocorrelation analysis and population genetics models. Heredity, 83(2): , K.E. Holsinger. Mass-action models of plant mating systems : the evolutionary stability of mixed mating systems. The American Naturalist, 138: ,

142 CHAPITRE 4. BIBLIOGRAPHIE B.C. Husband et S.C.H. Barrett. Effective population size and genetic drift in tristylous Eichhornia paniculata (Pontederiaceae). Evolution, 46(6): , Boris Igic et J. R. Kohn. The distribution of plant mating systems : study bias against obligately outcrossing species. Evolution, 60(5): , AJ Irwin, JL Hamrick, MJW Godt et PE Smouse. A multiyear estimate of the effective pollen donor pool for Albizia julibrissin. Heredity, 90(2): , Franck Jabot et Jérôme Chave. Inferring the parameters of the neutral theory of biodiversity using phylogenetic information and implications for tropical forests. Ecology Letters, 12: , Albert Jacquard. Panmixie et consanguinité. quelques précisions de langage. Population, 23: , S.K. Jain et K. Ritland. A model for the estimation of the outcrossing rate and gene frequencies based on independent loci. Heredity, 47:37 54, A.G. Jones et W.R. Ardren. Methods of parentage analysis in natural populations. Molecular Ecology, 12(10): , F. A. Jones, J. Chen, G. J Weng et S. P. Hubbell. A genetic evaluation of seed dispersal in the neotropical tree jacaranda copaia (Bignoniaceae). The American Naturalist, 166(5): , P. Joyce et P. Marjoram. Approximately sufficient statistics and bayesian computation. Statistical Applications in Genetics and Molecular Biology, 7, R.E. Kass et A.E. Raftery. Bayes factors. Journal of the American Statistical Association, 90 (430), M. Kimura et J.F. Crow. The measurement of effective population number. Evolution, 17(3): , E. K. Klein, N. Desassis et S. Oddou-Muratorio. Pollen flow in the wildservice tree, Sorbus torminalis (L.) Crantz. IV. Whole interindividual variance of male fecundity estimated jointly with the dispersal kernel. Molecular Ecology, 17(14): , ISSN E. K. Klein, C. Lavigne, X. Foueillassar, P. H. Gouyon et C. Laredo. Corn pollen dispersal : Quasi-mechanistic models and field experiments. Ecological Monographs, 73(1): ,

143 E.K. Klein, F.H. Carpentier et S. Oddou-Muratorio. Estimating the variance of male fecundity from genotypes of progeny arrays : evaluation of the bayesian forward approach. in prep. T.M. Knight, J.A. Steets, J.C. Vamosi, S.J. Mazer, M. Burd, D.R. Campbell, M.R. Dudash, M.O. Johnston, R.J. Mitchell et T.L. Ashman. Pollen limitation of plant reproduction : pattern and process. Annual review of ecology, evolution, and systematics, 36: , R. Lande et D.W. Schemske. The evolution of self-fertilization and inbreeding depression in plant. i. genetic models. Evolution, 39:24 40, P.S. Laplace. Mémoires de mathématique et de physique présentés à l Académie royale des sciences, par divers savants et lus dans ses assemblées, volume 6, chaptitre Mémoire sur la probabilité des causes par les évènements, pages R. G Latta. Integrating patterns across multiple genetic markers to infer spatial processes. Landscape ecology, 21(6): , R.G. Latta, Y.B. Linhart, D. Fleck et M. Elliot. Direct and indirect estimates of seed versus pollen movement within a population of ponderosa pine. Evolution, 52(1):61 67, C. Lavigne, B. Godelle, X. Reboud et PH Gouyon. A method to determine the mean pollen dispersal of individual plants growing within a large pollen source. Theoretical and Applied Genetics, 93(8): , C. Lavigne, E. K. Klein et D. Couvet. Using seed purity data to estimate an average pollen mediated gene flow from crops to wild relatives. Theoretical and Applied Genetics, 104(1): , C. Lavigne, E. K. Klein, P. Vallee, J. Pierre, B. Godelle et M. Renard. A pollen-dispersal experiment with transgenic oilseed rape. estimation of the average pollen dispersal of an individual plant within a field. Theoretical and Applied Genetics, 96(6-7): , R. Leblois, A. Estoup et F. Rousset. Influence of mutational and sampling factors on the estimation of demographic parameters in a" Continuous" population under isolation by distance. Molecular Biology and Evolution, 20(4):491, R. Leblois, F. Rousset et A. Estoup. Influence of spatial and temporal heterogeneities on the estimation of demographic parameters in a continuous population using individual microsatellite data. Genetics, 166(2):1081, C. Leuenberger et D. Wegmann. Bayesian Computation and Model Selection Without Likelihoods. Genetics,

144 CHAPITRE 4. BIBLIOGRAPHIE D.G. Lloyd. Some reproductive factors affecting the selection o self-fertilization in plants. The American Naturalist, 113(1):67 79, BA Loiselle, VL Sork, J Nason et C Graham. Spatial genetic-structure of a tropical understory shrub, Psychotria officinalis (rubiaceae). American Journal of Botany, 82(11): , NOV S. Lopez, F. Rousset, F. H. Shaw, R. G. Shaw et O. Ronce. Migration load in plants : role of pollen and seed dispersal in heterogeneous landscapes. Journal of Evolutionary Biology, 21 (1): , D. Lunn, A. Thomas, N. Best et D. Spiegelhalter. Winbugs - a bayesian modelling framework : concepts, structure, and extensibility. Statisticas anc Computing, 10: , M. Lynch et K. Ritland. Estimation of pairwise relatedness with molecular markers. Genetics, 152(4):1753, G. Malécot. Les mathématiques de l hérédité. Masson, G. Malécot. Quelques schémas probabilistes sur la variabilité des populations naturelles. Ann. Univ. Lyon, III. Ser., Sect. A, 13:37 60, P. Marjoram, J. Molitor, V. Plagnol et S. Tavare. Markov chain monte carlo without likelihoods. PNAS, 100: , P. Marjoram et S. Tavare. Modern computational approaches for analysing molecular genetic variation data. Nature Review Genetics, 7(10): , OCT TC Marshall, J. Slate, LEB Kruuk et JM Pemberton. Statistical confidence for likelihood-based paternity inference in natural populations. Molecular Ecology, 7(5): , G.J. McLachlan et T. Krishnan. The EM algorithm and extensions. Wiley New York, B.H. McRae et P. Beier. Circuit theory predicts gene flow in plant and animal populations. Proceedings of the National Academy of Sciences, 104(50):19885, T.R. Meagher. Analysis of paternity within a natural population of Chamaelirium lutuem. 1. identification of most-likely male parents. The American Naturalist, 128: , TR Meagher et C. Vassiliadis. Spatial geometry determines gene flow in plant populations. Dans Genes in Environment : 15th Special Symposium of the British Ecological Society, pages 76 90,

145 N. Metropolis, A. Rosenbluth, M. rosenbluth, A. Teller et E. Teller. Equations of state caluclations by fast computing machines. J. Chem. Phys., 21: , N. Metropolis et S. Ulam. The monte carlo method. journal of the american statiscal association, 44(247): , M.T. Morgan et J.K. Conner. Using genetic markers to directly estimate male selection gradients. Evolution, pages , A. El Mousadik et R. J. Petit. Chloroplast DNA phylogeography of the argan tree of morocco. Molecular Ecology, 5(4): , E.A. Nadaraya. On estimating regression. Theory of Probability and its application, 9: , R. Nathan. Long-distance dispersal of plants. Science, 313(5788):786, S. Oddou-Muratorio, E. K. Klein et F. Austerlitz. Pollen flow in the wildservice tree, sorbus torminalis (l.) crantz. ii. pollen dispersal and heterogeneity in mating success inferred from parent-offspring analysis. Molecular Ecology, 14(14): , S. Oddou-Muratorio, E. K. Klein, B. Demesure-Musch et F. Austerlitz. Real-time patterns of pollen flow in the wild-service tree, sorbus torminalis (rosaceae). iii. mating patterns and the ecological maternal neighborhood. American Journal of Botany, 93(11): , S. Oddou-Muratorio et E.K. Klein. Comparing direct vs. indirect estimates of gene flow within a population of a scattered tree species. Molecular ecology, 17(11): , S. Oddou-Muratorio, R. J. Petit, B. Le Guerroue, D. Guesnet et B. Demesure. Pollen- versus Seed-Mediated gene flow in a scattered forest tree species. Evolution, 55(6): , ISSN N. J. Ouborg, Y. Piquot et J. M. Van Groenendael. Population genetics, molecular markers and the study of dispersal in plants. Journal of Ecology, 87(4): , E. Parent et J. Bernier. Le raisonnement bayésien. Springer, EM Paul, K. Capiau, M. Jacobs et JM Dunwell. A study of gene dispersal via pollen in Nicotiana tabacum using introduced genetic markers. Journal of Applied Ecology, 32(4): , R.J. Petit, A. Kremer et D.B. Wagner. Finite island model for organelle and nuclear genes in plants. Heredity, 71(6): ,

146 CHAPITRE 4. BIBLIOGRAPHIE A.R. Pluess, V.L. Sork, B. Dolan, F.W. Davis, D. Grivet, K. Merg, J. Papp et P.E. Smouse. Short distance pollen movement in a wind-pollinated tree, Quercus lobata (Fagaceae). Forest Ecology and Management, 258(5): , G.M. Poppy et M.J. Wilkinson. Gene flow from GM plants. Blackwell Pub, E. Porcher et R. Lande. The evolution of self-fertilization and inbreeding depression under pollen discounting and pollen limitation. Journal of Evolutionary Biology, 18(3): , JK Pritchard, MT Seielstad, A Perez-Lezaun et MW Feldman. Population growth of human Y chromosomes : A study of Y chromosome microsatellites. Molecular Biology and Evolution, 16(12): , DEC ISSN O. Raspé, P. Saumitou-Laprade, J. Cuguen et A.-L. Jacquemart. Chloroplast DNA haplotype variation and population differentiation in Sorbus aucuparia l. (Rosaceae : maloideae). Molecular Ecology, 9(8): , O. Ratmann, Andrieu, C. Wiuf et S. Richardson. Reply to robert et al. : Model criticism informs model choice and model comparison. Proceedings of the National Academy of Sciences, 107 (3):E6 E7, O. Ratmann, C. Andrieu, C. Wiuf et S. Richardson. Model criticism based on likelihood-free inference with an application to protein network evolution O. Ratmann, Jorgensen O., T. Hinkley, M. Stumpf, S. Richardson et C. Wiuf. Using likelihoodfree inference to compare evolutionary dynamics of the protein networks of H. pylori and P. falciparum. PLoS computational biology, 3(11): , D. H. Reed et R. Frankham. Correlation between fitness and genetic diversity. Conservation Biology, 17(1): , G. Restoux, F.H. Carpentier, J. Chadoeuf, B. Fady et Klein E.K. Variability of mating system in a conifer tree (abies alba, miller) : a spatial and temporal investigation. in prep. G. Restoux, D.E. Silva, E. Sagnard, F.and Klein et B. Fady. Life at the margins : the mating system of mediterranean conifers. Web Ecology, 8:94 102, E. Ribbens, J.A. Silander Jr et S.W. Pacala. Seedling recruitment in forests : calibrating models to predict patterns of tree seedling dispersion. Ecology, 75(6): , L. H Rieseberg et J. M Burke. The biological reality of species : gene flow, selection, and collective evolution. Taxon, pages 47 67,

147 BD Ripley. Modeling spatial patterns. Journal of the royal statistical society series b - methodological, 39(2): , K. Ritland. Correlated matings in the partial selfer Mimulus guttatus. Evolution, 43(4): , K Ritland. Extensions of models for the estimation of mating systems using n independent loci. Heredity, 88(Part 4): , APR C.P. Robert. Le choix bayesien : principe et pratique. Springer-Verlag France, Paris, C.P. Robert. Monte carlo methods in statistics. Arxiv preprint, arxiv : , C.P. Robert et G. Casella. Monte Carlo statistical methods. 2nd ed. Springer-Verlag, New York, C.P. Robert, K.L. Mengersen et C. Chen. Model choice versus model criticism. Arxiv preprint arxiv : , J. J. Robledo-Amuncio, P. E. Smouse, L. Gil et R. Alia. Pollen movement under alternative silvicultural practices in native populations of scots pine (pinus sylvestris l.) in central spain. Forest Ecology and Management, 197(1-3): , J. J. Robledo-Arnuncio, R. Alia et L. Gil. Increased selfing and correlated paternity in a small population of a predominantly outcrossing conifer, pinus sylvestris. Molecular Ecology, 13 (9): , J. J. Robledo-Arnuncio et F. Austerlitz. Pollen dispersal in spatially aggregated populations. American Naturalist, 168(4): , J. J. Robledo-Arnuncio, F. Austerlitz et P. E. Smouse. A new method of estimating the pollen dispersal curve independently of effective density. Genetics, 173(2): , J. J. Robledo-Arnuncio, F. Austerlitz et P. E. Smouse. POLDISP : a software package for indirect estimation of contemporary pollen dispersal. Molecular Ecology Notes, 7(5): , SEP J. J. Robledo-Arnuncio et C. Garcia. Estimation of the seed dispersal kernel from exact identification of source plants. Molecular ecology, 16(23): , J. J. Robledo-Arnuncio et L. Gil. Patterns of pollen dispersal in a small population of pinus sylvestris l. revealed by total-exclusion paternity analysis. Heredity, 94(1):13 22,

148 CHAPITRE 4. BIBLIOGRAPHIE K. Roeder, B. Devlin et B.G. Lindsay. Application of maximum likelihood methods to population genetic data for the estimation of individual fertilities. Biometrics, 45(2): , F. Rousset. Genetic differentiation and estimation of gene flow from F-statistics under isolation by distance. Genetics, 145(4):1219, F Rousset. Genetic differentiation between individuals. Journal of evolutionnary biology, 13 (1):58 62, JAN F. Rousset. Inferences from spatial population genetics. Handbook of statistical genetics, pages , F. Rousset. Dispersal estimation : Demystifying Moran s I. Heredity, 100(3): , R. Rubinstein. Simulation and the Monte Carlo Method. John Wiley & Sons, New York, F.M. Schurr, O. Steinitz et R. Nathan. Plant fecundity and seed dispersal in spatially heterogeneous environments : models, mechanisms and estimation. Journal of Ecology, 96(4): , U. U Sezen, R. L Chazdon et K. E Holsinger. Genetic consequences of tropical second-growth forest regeneration. Science, 307(5711):891, K. Shimatani, M. Kimura, K. Kitamura, Y. Suyama, Y. Isagi et H. Sugita. Determining the location of a deceased mother tree and estimating forest regeneration variables by use of microsatellites and spatial genetic models. Population Ecology, 49: , J. Signorovitch et R. Nielsen. PATRI-paternity inference using genetic data. Bioinformatics, 18 (2): , S.A. Sisson. Genetics and stochastic simulation do mix! The American Statistician, 61: , S.A. Sisson, Y. Fan et Mark M. Tanaka. Sequential monte carlo without likelihoods. PNAS, 104: , P. E. Smouse, R. J. Dyer, R. D. Westfall et V. L. Sork. Two-generation analysis of pollen flow across a landscape. i. male gamete heterogeneity among females. Evolution, 55(2): , P. E. Smouse et V. L. Sork. Measuring pollen flow in forest trees : an exposition of alternative approaches. Forest Ecology and Management, 197(1-3):21 38,

149 PE Smouse, TR Meagher et CJ Kobak. Parentage analysis in Chamaelirium luteum (L.) Gray (Liliaceae) : why do some males have higher reproductive contributions? Journal of Evolutionary Biology, 12(6): , R.R. Sokal et N.L. Oden. Spatial autocorrelation in biology. 1. Methodology. Biological Journal of the Linnean Society, 10(2): , V. L. Sork, F. W. Davis, P. E. Smouse, V. J. Apsit, R. J. Dyer, J. F. Fernandez et B. Kuhn. Pollen movement in declining populations of california valley oak, quercus lobata : where have all the fathers gone? Molecular Ecology, 11(9): , V. L. Sork, J. Nason, D. R. Campbell et J. F. Fernandez. Landscape approaches to historical and contemporary gene flow in plants. Trends in Ecology & Evolution, 14(6): , V.L. Sork et P.E. Smouse. Genetic analysis of landscape connectivity in tree populations. Landscape ecology, 21(6): , S. Soubeyrand, F. Carpentier, N. Desassis et Joël Chadœuf. Inference with a contrast-based posterior distribution and application in spatial statistics. Statistical Methodology, 6: , ME Soulé et ME Gilpin. Conservation biology : the science of scarcity and diversity., chaptitre Minimum viable populations : processes of species extinction, pages Sinauer AssociatesInc., Sunderland, Massachusetts., V. M. C. Sousa, M. Fritz, M. A. Beaumont et L. Chikhi. Approximate bayesian computation (ABC) without summary statistics : The case of admixture. Genetics, 181: , D. Spielman, B. W. Brook et R. Frankham. Most species are not driven to extinction before genetic factors impact them. Proceedings of the National Academy of Sciences of the United States of America, 101(42): , octobre C. N Stewart, M. D Halfhill et S. I Warwick. Transgene introgression from genetically modified crops to their wild relatives. Nature Reviews : Genetics, 4(10): , S.M. Stigler. Laplace s 1774 memoir on inverse probability. Statistical science, 1: , D Stoyan et A Penttinen. Recent applications of point process methods in forestry statistics. Statistical Science, 15(1):61 78, FEB ISSN D. Stoyan, Kendall W.S. et Mecke J. Stochastic geometry and its applications

150 CHAPITRE 4. BIBLIOGRAPHIE R. Streiff, A. Ducousso, C. Lexer, H. Steinkellner, J. Gloessl et A.s Kremer. Pollen dispersal inferred from paternity analysis in a mixed oak stand of quercus robur l-and q-petraea (matt.) liebl. Molecular Ecology, 8(5): , H. Takahata. Almost sure convergence of density estimators for weakly dependent stationary processes. Bulletin of Tokyo Gakugei University Ser. IV, 32:11 32, D.A. Tallmon, G. Luikart et M.A. Beaumont. Comparative evaluation of a new effective population size estimator based on approximate Bayesian computation. Genetics, 167(2):977, M. M. Tanaka, A.R. Francis, F. Luciani et S.A. Sisson. Using approximate bayesian computation to estimate tuberculosis transmission parameters from genotype data. Genetics, 175: , S. D. Tanksley. Mapping polygenes. Annual Review of Genetics, 27(1): , S. Tavaré, D.J. Balding, R.C. Griffths et Donnelly P. Inferring coalescence times from dna sequence data. Genetics, 145: , K. Thornton et P. Andolfatto. Approximate Bayesian inference reveals evidence for a recent, severe bottleneck in a Netherlands population of Drosophila melanogaster. Genetics, 172(3): 1607, A.M. Timmons, E.T. O Brien, Y.M. Charters, S.J. Dubbels et M.J. Wilkinson. Assessing the risks of wind pollination from fields of genetically modified Brassica napus ssp. oleifera. Euphytica, 85(1): , T. Toni et M. Stumpf. Simulation-based model selection for dynamical systems in systems and population biology. Bioinformatics, S.J. Tonsor. Leptokurtic pollen-flow, non-leptokurtic gene-flow in a wind-pollinated herb, Plantago lanceolata L. Oecologia, 67(3): , F. Van Rossum. Reproductive success and pollen dispersal in urban populations of an insectpollinated hay-meadow herb. Perspectives in Plant Ecology, Evolution and Systematics, X. Vekemans et OJ Hardy. New insights from fine-scale spatial genetic structure analyses in plant populations. Molecular Ecology, 13(4): , R. Vitalis et D. Couvet. Estimation of effective population size and migration rate from one-and two-locus identity measures. Genetics, 157(2):911, 2001a. 144

151 R. Vitalis et D. Couvet. Two-locus identity probabilities and identity disequilibrium in a partially selfing subdivided population. Genetics Research, 77(01):67 81, 2001b. H.H. Wagner, R. Holderegger, S. Werth, F. Gugerli, S.E. Hoebee et C. Scheidegger. Variogram analysis of the spatial genetic structure of continuous populations using multilocus microsatellite data. Genetics, 169(3):1739, I.J. Wang, W.K. Savage et H. Bradley Shaffer. Landscape genetics and least-cost path analysis reveal unexpected dispersal routes in the California tiger salamander(ambystoma californiense). Molecular Ecology, 18(7): , G.S. Watson. Smooth regression analysis. Sankhya, 26: , P.C. Watts, F. Rousset, I.J. Saccheri, R. Leblois, S.J. Kemp et D.J. Thompson. Compatible genetic and ecological estimates of dispersal rates in insect (Coenagrion mercuriale : Odonata : Zygoptera) populations : analysis of Śneighbourhood sizešusing a more precise estimator. Molecular ecology, 16(4): , D. Wegmann, C. Leuenberger et L. Excoffier. Efficient approximate bayesian computation coupled with markov chain monte carlo without likelihood. Genetics, 182: , G. Weiss et A. von Haeseler. Inference of population history using a likelihood approach. Genetics, 149: , R.D. Wilkinson. Approximate Bayesian computation (ABC) gives exact results under the assumption of model error. arxiv, 811:320, R.D. Wilkinson et S. Tavaré. Estimating primate divergence times by using conditioned birthand-death processes. Theoretical Population Biology, 75: , S. Wright. Statistical theory of evolution. Journal of the American Statistical Association, 26 (173): , S. Wright. Isolation by distance. genetics, 28:114 :138, S. Wright. The genetic struture of populations. Annals of Eugenics, pages , S. Wright. The theory of gene frequencies. University of Chicago Press, Chicago,

152 CHAPITRE 4. BIBLIOGRAPHIE 146

153 ANNEXES v

154

155 Annexe I Variability of mating system and pollen dispersal in a conifer tree (Abies alba, Miller) : A spatial and temporal investigation

156 1 2 ANNEXE I. SPATIAL-TEMPORAL VARIABILITY OF MATING PATTERN Title : Variability of mating system and pollen dispersal in a conifer tree (Abies alba, Miller) : A spatial and temporal investigation Authors : Gwendal Restoux a,b,c,*, Florence H. Carpentier b,d, Joël Chadoeuf b, Giovanni G. Vendramin e, Bruno Fady a and Etienne K. Klein b a : INRA - UR629 - Ecologie des Forêts Méditerranéennes, Avignon, France b : INRA UR546 Biostatistiques et Processus Spatiaux, Avignon, France c : ESE UMR8079 Université Paris-Sud XI, Orsay, France d : INRA UR Mathématiques et Informatique Appliquées, Jouy-en-Josas, France e : Istituto di Genetica Vegetale, CNR, Via Madonna del Piano 10, Sesto Fiorentino, Firenze, Italy * : Corresponding author viii

157 Abstract : Mating system and pollen dispersal are key processes for the maintenance of genetic diversity within populations. In plants, the mating system and/or the related pollen dispersal are highly variable depending on environmental parameters such as plant density, phenology or fertility. Long lived species like trees experience numerous reproduction events thus they could also experience a temporal variability of their mating system. We investigated these two variability components in silver fir (Abies alba). We adapted two methods to explicitly account for temporal variations in the estimation of mating system parameters and pollen dispersal kernel. We found that selfing rate was globally high (23%) and negatively correlated to local density whereas correlation of paternity was not. The total correlation of paternity was globally high and largely variable among individuals (0-1). The yearly estimated mean pollen dispersal distance was surprisingly short for a wind-pollinated species (22-91m depending on the kernel). When accounting for temporal variations the total correlated paternity was lower, resulting in a more genetically diverse pollen cloud and higher mean pollen dispersal distances (35-132m depending on the kernel). Moreover the genetic composition of fertilizing pollen clouds was significantly different from year to year probably because of among individuals and among years fertility variations. As a conclusion, in perennial species the cumulative effect of numerous reproduction events must be accounted for to draw conclusions about the dynamics of their genetic diversity Keywords : Mating system ; Pollen dispersal ; Spatial Genetic Structure ; Temporal variations ; Paternity correlation ; Abies alba ; Perennial species ix

158 53 ANNEXE I. SPATIAL-TEMPORAL VARIABILITY OF MATING PATTERN Introduction : The global warming predicted for the next decades should induce drastic changes of the environmental conditions (1). Populations located at the southern edges of species distribution should be the first ones to suffer from the modifications of climate (2). Indeed marginal populations are experiencing ecologically limiting conditions thus even weak variations of their environment could be harmful (3). To face these changes, plant species have three alternatives : i) migration through seed dispersal to track the potential distribution area (4), ii) tolerance using phenotypic plasticity permitting populations to persist in non-optimal conditions with weaker performance (5) or iii) adaptation to the new conditions through natural selection (6). This latter point requires the conservation of a sufficient amount of genetic diversity, the basis of natural selection. The capacity for a population to persist in a new or changing environment is dependent on the available genetic diversity that acts at two different levels : i) individual one regarding the inbreeding level (7) and ii) population level regarding the amount of genetic variance available for the natural selection to be effective (8). Both levels of genetic diversity are driven by gene flow and mutations (9). Marginal or endangered populations are often small or experience weak density (10), thus genetic drift is expected to be strong and conservation of genetic diversity in these populations is thus particularly important (11) The main evolutionary force driving the short term evolution of genetic diversity is gene flow. Gene flow in plants is the result of seed and pollen dispersal (12). However pollen-mediated gene flow enables longer dispersal than seed-mediated gene flow. Thus they are of main importance for adaptation and conservation (13;9). Pollen-mediated gene flow can also leads to detrimental consequences through inbreeding and outbreeding depression (14). Moreover the consequences of seed and pollen dispersal are different in terms of migration load, pollen flow having a more negative effect in heterogeneous environment (15). Thus a particular attention has been paid to the x

159 study of pollen dispersal for conservation purposes and many studies on gene flow consider simultaneously the pollen dispersal and the mating system (16;17;18;19) because in freely pollinated self-compatible species (i.e. competing selfing) mating system is partially determined by the result of effective pollen dispersal (20;21). Both mixed-mating systems and limited pollen dispersal (i.e. mating probability decreasing as a function of distance to the pollen source) can be viewed as departures from the panmixia mating model, considered as the null hypothesis in most of the population genetics models (22;23). Furthermore these two processes can interact to produce a spatial genetic structure (SGS hereafter) which in turns can accentuate the departure from panmixia (22;23). Our concern in this study is to evaluate the dynamics of genetic diversity during reproduction in a conservation and adaptation perspective. We thus estimate both pollen dispersal and mating system. This is a first step necessary for future predictions about the survival and conservation of the studied marginal population (24;25;26) The SGS reflects the amount of gene flow and drift occurring within a population. Thus under an isolation by distance (IBD hereafter) assumption, SGS can be used to infer gene flow by comparing among populations genetic differentiation and geographic distances (27) or individual differentiation (28). IDB models also enable the computation of an effective neighborhood measuring the strength of drift similarly to the effective population size for non-spatialized models (29;30). However these approaches only permit historical estimates of gene flow for which accumulated effects over numerous generations determine the SGS (31). Even if 32 showed that relatively recent events can be detected, these methods do not provide real-time estimates of gene flow (i.e. for a single reproduction event). Furthermore, these historical methods only estimate a synthetic parameter d e σ 2 (where d e is the effective density and σ 2 the scale of gene flow). An estimation of gene flow thus requires an independent estimate of the effective density (33). These drawbacks are specially acute for studies concerning conservation or decision-making purposes and real-time methods that estimate effective pollen-mediated gene flow have been proposed (13;34). xi

160 ANNEXE I. SPATIAL-TEMPORAL VARIABILITY OF MATING PATTERN Two indirect methods (i.e. based on synthetic indices) provide real-time estimation of the genetic structure of the fertilizing pollen cloud (PSGS) and subsequent estimation of pollen dispersal : TwoGener (353637) and KinDist (38). Both methods use the genotypes of sampled seeds and mother-plants informations to analyse a unique reproduction event (i.e. progeny arrays method). TwoGener is based on a differentiation index among the pollen pools sampled by the different mother-plants (i.e. an equivalent to F st at the gametic level). This index is computed using an AMOVA (39). KinDist is based on kinship coefficients within and among the progenies of the sampled mother-plants (40;41) Estimations of individual mating system parameters are very valuable to discuss the SGS (18). Mating system was classically defined by the outcrossing rate, t m or its complementary, the selfing rate s (42;43). This parameter mainly influences the inbreeding level of a population (44;45). However, the outcrossing rate alone does not allow a complete characterization of the dynamics of genetic diversity of a population. Mating system is now often described by an additional parameter, the correlation of paternity, r p, defined as the probability for two individuals (seeds or seedlings in general) to share the same father (46;47). This latter parameter describes the genetic diversity of the outcrossing pollen pool, and relates to the modification of the genetic structure of populations induced by non-independent outcrossing events and not only by selfing (41) The correlation between pollination events can be computed using different models relying on different assumptions. The classical way to compute the mating system parameters was provided by (42;46;47) using a maximum likelihood approach. This method relies on progeny arrays and thus permits to estimate real-time mating system parameters (see 45 for a comparison with historical estimates). In this model the outcrossing pollen clouds are considered identical for all sampled mother plants : the allelic frequencies are estimated once for all the sampled individuals jointly with the individual outcrossing rates and the paternity correlation. It implicitly assumes no spatial xii

161 structure of the pollen pool over the studied area. Observed variations in fertilizing pollen cloud composition among individuals is only due to a different mating system (i.e. selfing rate and paternity correlation). This approach now enables individual estimates of mating parameters, that can used to investigate the link between biological or environmental characteristics and the mating system parameters (18;48) Many factors are known to affect the mating patterns of plants (i.e. effective dispersal or mating system), imprinting the realized SGS at each generation (18). The number of available mates positively influences the diversity of sampled pollen pool leading to various levels of correlated matings affecting both the correlation of paternity and the selfing rate for self-compatible species (41;49). Numerous factors can modify the effective contribution of individuals, that can be estimated using the number of effective fathers or the effective density (34). The real conspecific density of a plant population is the most intuitive and studied factor to explain mating patterns variability : lower densities leading to stronger PSGS (49;34;10). The effect of real density is often considered at the population level but can also acts at the local or individual level (50). A reduced effective density can also result from uneven individual contributions to the pollen pool due to interindividual variation of fertility (51;52). In particular for mountainous species, because of changing environmental conditions, altitude can modify the fertility of individuals (53). For animal-pollinated plants, the pollinator behavior is also of crucial importance in combination with attractiveness of plants (54;55). Asynchronous phenology is also a phenomenon strongly impacting SGS and mating patterns (41;49;18). The degree of overlapping among individual receptivity periods reduces the number of mates really available for reproduction leading to low effective density. Finally the spatial configuration of the population, the level of aggregation and the scale at which it occurs, act in interaction with the pollen dispersal distance to modify the PSGS (56 ; 57) Spatial variability of the genetic structure is of main concern for plant species in general. However xiii

162 ANNEXE I. SPATIAL-TEMPORAL VARIABILITY OF MATING PATTERN for perennial species such as trees, temporal variability must also be considered. Indeed, for tree species, some life-history traits make them particularly prone to experience temporal variability (58). First, because of their very long life-time, the reproductive success is hardly estimable : one cannot access to all the reproductive events of an individual. This long-time reproductive success in interaction with a long juvenile phase could contribute to the high amount of genetic diversity conserved during a colonization process (59). Accounting for temporal variations is thus necessary to approximate male reproductive success or at least the disequilibrium of male contributions to reproduction (i.e. mating success) through the number of effective fathers per mother-tree or the effective density relatively to the real density (60;52). Second, because of overlapping generations, natural populations of trees are often composed of a mixture of individuals of different ages. Thus the relative contribution of each tree could be variable depending on its reproductive status (61), often well approximated by its dimensions (62). The year to year variations of the pollen pool could be important and influence the genetic diversity sampled during each reproduction event (63;64). This annual variation of pollen-pool composition is particularly important for tree species that experience masting (i.e. intermittent and synchronous episodes of weak and large production of seeds, see 65). For thee species if male and female reproductive efforts are correlated (62) it could lead to variations of the amount of genetic diversity sampled during each reproduction event (66). Third, the long generation time of trees relatively to the time of expected climate change (1), could lead to different selection pressures experienced by parents and offspring. All these features make the study of genetic diversity of trees very particular and temporal considerations necessary for management in a conservation or adaptation purpose (9). Despite it was pointed out as a major concern (34), at this time very few studies dealt with both spatial and temporal variabilities of the reproduction of trees (64) and its genetical aspect in particular (67;68;60;69;70) Our study focused on a marginal population of silver fir (Abies alba Miller) located in southern France in the Lure Mountain. We monitored it in terms of male fertility, local density and genetic xiv

163 diversity using microsatellites markers during four consecutive years. We asked the question of its sustainability and conservation given that the impact of global warming should be strong in this part of the distribution area. In particular we focused on the adaptation abilities of this species looking at the genetic diversity and its dynamics through pollen-mediated gene flow. Thus we estimated the mating patterns by i) studying the PSGS at both individual and population levels and ii) disentangling the effects of pollen dispersal and among individuals variability of mating system. Furthermore we investigated the relevance of annual estimates of mating patterns for long-lived species such as trees. We thus introduced the term Spatio-Temporal Genetic Structure (STGS and subsequently PSTGS for pollen STGS). To characterize the PSTGS, we modified the TwoGener and the MLTR methods to account for temporal variations when estimating pollen dispersal and individual mating system parameters. Finally we discussed the benefits to account for both temporal and spatial variabilities in the study of mating patterns of long-lived species and concluded that in this case the STGS concept must be generalized in the field of genetic conservation Material and methods : Biological material and study site : Silver fir (Abies alba Mill.) is a sciaphilous European conifer, distributed thoughout temperate mountain areas, such as the Alps, at moderate elevations between 300 m and 1800 m (71). This monoecious, wind-pollinated species is self-compatible and has a mixed mating system, although it passively avoids self-fertilization: female strobili (i.e. cones) are located within the top third of the crown, whereas male strobili are located within the bottom two thirds of the crown Our study site in southeastern France (Western Europe) is the Lure mountain (summit : N ; E). On this mountain silver fir is found at relatively high and variable xv

164 ANNEXE I. SPATIAL-TEMPORAL VARIABILITY OF MATING PATTERN density (mean local density =186 trees.ha 1; s.d. among individuals =150.8) in monospecific stands or associated with beech, Fagus sylvatica Sampling and molecular analysis : A total of 49 mature trees were monitored during four years between 2002 and These trees had been chosen in 2002 because they produced cones that year and were easily accessible for harvesting. Each of these trees was mapped using GPS equipment (Trimble Ranger Pro XR). Male strobili production was visually evaluated each year using a discrete score between 0 when there was no strobilus and 3 when more than 75% of the branches on the lower two-thirds of the crown were covered with male strobili. Crown area was estimated assuming a pyramidal shape and using the basal branch length in four directions and crown height. Because male strobili are located at the periphery of the crown, we estimated a quantitative pollen production for each tree by multiplying its crown area by the discrete pollen production score. Local density in pollen contributors was defined as the number of potential pollen donors (i.e. mature and producing pollen at least one year) within 12.5m of each studied tree. For each sampled tree, its conspecific neighbors were mapped relatively using a compass and a laser telemeter (Zimmer Vertex IV) Finally, 2 to 21 seeds per tree for each year (on average 11 seeds per tree per year) were genotyped using 4 chloroplast microsatellites : Pt71936; Pt63718; Pt30241; Pt30249 (Vendramin et al. 1996, Liepelt et al. 2001). These markers are paternally inherited in conifers and in Abies alba in particular (Vendramin and Ziegenhagen 1997). DNA was extracted using the DNEasy Plant Mini Kit (Qiagen) and was amplified using the Qiagen multiplex amplification kit on an Eppendorf Mastercycler EP Gadient and an MJ Research PTC200 Peltier thermal cyclers (following the standard protocols of manufacturers). As the microsatellites used are mononucleotide repeats and thus difficult to score, all amplified genotypes were scored twice using different sequencers: a xvi

165 LiCor ReadIR 4200 DNA sequencer (INRA Avignon, France) and a Molecular Dynamics MegaBace 1000 capillary sequencer at the GenExpress lab (CNR Firenze, Italy). All profiles obtained were read at least three times by two different persons to avoid mistyping Estimation of pollen spatial and temporal genetic structure and dispersal : The principle of the TwoGener method : We estimated pollen genetic structure and pollen dispersal using a modified version of the TwoGener method (35;36) to account for temporal variations over numerous reproduction events. The TwoGener method is based on the spatial genetic structure of the pollen cloud, computed with an AMOVA (39) applied to the male gametes. From this analysis a synthetic index is computed, the Φ ft representing the proportion of variance among haplotypes explained by the mother considered as a stratum in the AMOVA (35). This genetic distance is then related to the geographic distance, to estimate a pollen dispersal function assuming a particular family kernel (36) Spatial and temporal variability : To account for temporal variability, we computed the Φ ft using the AMOVA proposed by 67. It consists in a hierarchical two strata AMOVA considering the effect of the mother and the effect of the year nested within the mother. The individuals (i.e. the male gametes) are considered as independent repeats. Thus the Φ ft is computed as follow, 2 ft = f 2 2 y 2 w f, (1) with σ 2 f, σ 2 y and σ 2 w being the variance components among mothers, among years within mothers and among individuals within years respectively. We also computed the Φ yf, representing the temporal differentiation of the genetic composition of the pollen cloud within mother trees as : xvii

166 ANNEXE I. SPATIAL-TEMPORAL VARIABILITY OF MATING PATTERN yf = y 2 y 2 w, (2) Finally we also computed the non-corrected Φ ft that is the expected differentiation using annual data but ignoring temporal variations : nc ft = 2 f 2 y 2 f 2 y 2 w. (3) This index is useful to compare estimates obtained by considering or not the temporal variance component, it is the expected annually estimated Φ ft. Finally to estimate the dispersal parameters using several dispersal kernel families, we computed these indices for each pair of mother trees as proposed in the latest update of the TwoGener method (37;72) Haploid paternally inherited markers : The estimation of pollen dispersal using the TwoGener method relies on the relationship between the Φ ft and the correlation of paternity within the progeny of a mother Q 0, or between the progenies of two mothers. These correlations can be expressed as a function of the dispersal kernel, permitting the estimation of its parameters (equations 15 and 16 in 36). However the computation of Q 0 using the Φ ft was done using diploid markers. We thus adapted this computation to the haploid and paternally inherited markers we used here. We used the probabilities f i, f f, f t and f p, to draw two identical genes within an individual, within the pollen cloud of a mother tree, within the total pollen cloud or within the whole investigated population respectively and the diversity within each of these compartments h x =1-f x. Using the formalism introduced for F-statistics by (73), Φ ft is defined as : ft = f f f t =1 h f. (4) 1 f t h t For haploid markers the probability for two seeds belonging to the same mother to have different alleles is given by not share the same father is 1-Q 0, and thus they are different with a probability h p xviii

167 282 as follow, h f haploid =1 Q 0. h p, (5) where 1-Q 0 is the probability to have different fathers. Similarly for the diversity of the total pollen pool, h t haploid =1 Q t. h p, (6) where 1-Q t is the probability that two random seeds have different fathers. The expression of the haploid Φ ft becomes, haploid ft = Q 0 Q t. (7) 1 Q t This is comparable to equation 25 in 36 for diploid organisms (except that 1 is replaced by 2 in the denominator). If the average distance among mother trees is large enough, about 5 times the average pollen dispersal distance Q t becomes negligible in comparison to Q 0 and thus, haploid ft Q 0 = 1, (8) N ep with N ep the number of effective fathers (i.e. the number of non inbred and equally contributing fathers that would give the same genetic structure as the one observed under a panmictic reproduction). For diploid organisms N ep = 2/ Φ ft (equation 27 in 36) Analysis and estimates : We computed TwoGener analyses using our modifications at two different levels, i) a global analysis (35;36) to estimate the global Pollen Spatial and Temporal Genetic Structure (PSTGS) and ii) a pairwise analysis to estimate the parameters of the pollen dispersal function (37;72). We used both temporally corrected (equation 1) and non-corrected Φ ft (equation 3) on the whole dataset. We also computed analyses on the whole dataset ignoring the different years (i.e. pooling the four annual dataset). Finally we computed the temporal TwoGener analysis using a censured dataset obtained by discarding the seeds potentially resulting from selfing according 74. This enables to estimate the pollen dispersal parameters only using the outcrossing pollen pool. xix

168 ANNEXE I. SPATIAL-TEMPORAL VARIABILITY OF MATING PATTERN We used an exponential power probability density function for the pollen dispersal kernel : ep b x, y ; a, b= 2 a 2 2 b exp x 2 y 2 a b, (9) with x and y being the coordinates of the considered father tree relatively to the mother-tree (i.e. backward dispersal function), and a and b being the scale (i.e. related to the mean) and the shape (i.e. driving the tail of the distribution) parameters respectively and Γ being the standard Gamma function. The mean pollen dispersal distance δ is given by : = 3/b. (10) 2/b We set up the tail parameter, b, at three different values or estimated it jointly with the other parameters. The different values chosen for b were i) b=2 (Gaussian kernel), ii) b=1 (exponential kernel) and iii) b=0.5 (leptokurtic or fat-tailed kernel with a slower decrease than an exponential function). Finally using the estimated pollen dispersal function we computed three synthetic indices including two new reading keys for biological interpretation of backward dispersal functions (i.e. from the mother-tree to the father-trees) : Q 0 γ, the correlation of paternity computed from the dispersal function as Q 0 = 1 d e 2 x, y dx dy. (11) R 0.95γ, the radius of the disk containing 95% of the effective father-trees, computed by solving : R r rdr=0.95. (12) N γ ep0.95, the effective number of father-trees included within the R 0.95 γ radius disk assuming the effective density d e, 323 xx 2 N ep0.95 =d e R (13)

169 324 Estimation of individual mating system parameters : General principle : The mating system is estimated using progeny arrays. Thus comparing to each other the genotypes of the seeds of a given mother and its genotype, it is possible to estimate the outcrossing rate (or its complementary value, the selfing rate) and the correlation of paternity among the pollen grains of the outcrossing pollen pool of a given mother (42;47). The main assumption of this estimation model is that the pollen pool is not spatially structured, thus the allelic frequencies are the same for all the mother-trees, and are jointly estimated with the mating system parameters. This method was primarily designed for diploid markers, even if it can deals with uni-parentally inherited markers as additional informations. Furthermore the outcrossing rates, t m, can be computed individually but it is not the case for the correlation of paternity, r p, which is assumed to be same for a group of individuals (i.e. the entire population or not). It is possible to compute them at individual level but using the method of moments and not the likelihood approach and allelic frequencies must be computed separately. Thus we modified this method to deal with a dataset made of uniparentally inherited markers (cpssr), at the individual level using a maximum likelihood approach Method : In our modified method we estimate the selfing rate and not its complementary the outcrossing as in the MLTR software (47). To compute the mating system parameters we distinguished the different events leading to the formation of two seeds belonging to the same mother-tree, and computed their probabilities (table 1). The likelihood to observe a particular couple of seeds belonging to the same mother given the model is simply the sum of all these probabilities as, Lh m o h m o ' s m, r p m, f =P 1 P 2 P 3 P 4 P 5, (14) m m with h 0 and h 0' the haplotypes of two seeds of the mother-tree m, f are the frequencies of all the haplotypes, s m is its individual selfing rate and r pm the probability of copaternity. The P x are the probabilities of the different possible events presented in the table 1. Theoretically the true total xxi

170 ANNEXE I. SPATIAL-TEMPORAL VARIABILITY OF MATING PATTERN likelihood is obtained by multiplying the probability to obtain each combination of seeds from 1 seed to the total number of seeds. This is very complicated to compute analytically and thus other methods are often preferred to maximum likelihood such as the method of the moments (47). However we showed using asymptotic behavior that the product of all pairwise likelihoods (i.e. for each couple of seeds) converge to the total likelihood (not shown). Thus we can approximate the true likelihood with the pairwise likelihood as follow : log Ldataset model log L pw = loglg m o g m o' s m, r pm, f ho, f ho', (15) m M {o,o' } O m with L pw the pairwise likelihood, M the set of all the sampled mother-trees and O m the set of all the sampled seeds of the mother m. To compute the haplotypic frequencies and mating system parameters we maximized the pairwise likelihood using an Expectation-Maximization algorithm (E.M. Hereafter). This iterative algorithm is very robust particularly when dealing with incomplete data (e.g. missing loci) (75). E.M. is thus very suitable for mating system estimation (42;43;76). This method was implemented in the software MiMaSy (Mixed Mating System) available for Linux, MacOSX and Windows upon request to the authors Estimates : We estimated the individual mating system parameters using three models differing in the way to consider the temporal variability and thus on the number of parameters to estimate. The first model, M 1, is the most complete with one selfing rate and one probability of copaternity per individual and per year and one set of haplotypic frequencies for each of the four considered years. The second model, M 2, considered different individual mating system parameters for each year but considered a common pollen pool over the four years (haplotypic frequencies were estimated considering the whole dataset). Finally the third model, M 3, did not consider the temporal variations : The individual mating system parameters and the haplotypic frequencies of the pollen pool were estimated over all years gathered. The three models were nested into each other. We can thus compare their results using a likelihood ratio, to test for the significance of the likelihood gain due to additional xxii

171 375 parameters : 2 log L pwm L pw M ~ 2 p p, under H 0 (16) with M+ and M- the models with the larger and the smaller number of parameters respectively, and p+ and p- the number of parameters of these models. The null hypothesis, H 0, states that the data result from the M- model Finally, to compare estimates obtained by the TwoGener approach with the mating system parameters we computed a synthetic index, the individual total paternity correlation resulting from both selfing and outcrossing (77). This index is defined as follow, 383 with s and r p the individual estimates of the mating system. Q 0 s r p=s 2 1 s 2 r p, (17) Missing data : For both TwoGener and Mating System estimates we considered missing data in the same way. Since haplotypic data imply a complete linkage disequilibrium between the loci, missing data were treated in a different way than for diploid unlinked loci. We distributed each incomplete haplotype over the compatible haplotypes proportionally to their frequencies in the total pollen pool normalized over all the compatible haplotypes. This method is similar to that used in the TwoGener approach (35) for determining the paternal contribution in the case of ambiguous diploid genotypes (i.e. mother and offspring sharing the same heterozygous genotype). Let h na be an incomplete haplotype composed of three loci including a missing datum X at the third locus, h na ={A1 ; B2; X3}. The compatibility between this incomplete haplotype and the complete haplotypes, and the probabilities to be each of them are given in the table 2. The way we computed genetic distances in the case of missing data for the TwoGener approach is given in the appendix. 398 xxiii

172 399 ANNEXE I. SPATIAL-TEMPORAL VARIABILITY OF MATING PATTERN Statistical analysis : All the individual estimates of mating system parameters (s, r p and Q 0 s-rp ) were regarded with 402 respect to the year, the local density and the individual pollen production. We used an arcsin x transformation to compute analysis using three different linear mixed effect models. For the selfing rate s the first model, S 1, considered three fixed effects : the year, Y, as a qualitative effect, and the pollen production, P, and the local density, D, as two quantitative effects. We also tested for second order interaction effects. The only random effect is the error term, ε. The model is designed as follow, arcsin s ij =Y i 1 D ij 2 P ij 1i D ij 2i P ij 3 D ij P ij ij, ij ~N 0, 2 1, i=2002, 2003, 2004, 2005 ; j=1...nb Mother trees, with the year i, the mother j and β x the coefficients of regression. The second model, S 2, is similar to the previous one except for an additional individual random effect, I, it is designed as follow, arcsin s ij =Y i I j 1 D ij 2 P ij 1i D ij 2i P ij 3 D ij P ij ij, ij ~N 0, 2 1 ; I j ~N 0, 2 2, i=2002, 2003, 2004, 2005 ; j=1...nb Mother trees. Finally the third model, S 3, we added an individual random effect nested in the year effect as follow, arcsin s ij =Y i I j i 1 D ij 2 P ij 1i D ij 2i P ij 3 D ij P ij ij, ij ~N 0, 2 1 ; I j i ~N 0, 2 i, i=2002, 2003, 2004, 2005 ; j=1...nb Mother trees. We finally compared the different models using a likelihood ratio test. We computed the same s-rp analysis with the paternity correlation r p and the total individual paternity correlation, Q Results : xxiv

173 SpatioTemporal Genetic Structure of Pollen pool (PSTGS) : We found a strong spatial genetic structure of the pollen pool (PSGS) independently of the year we 429 considered. The global TwoGener analysis resulted in large ft values : 0.12 when pooling all years together and annual values ranging from 0.11 to 0.25 (table 3). These large correlations of paternity resulted in a small effective number of fathers per mother-tree, N ep, ranging from to 9.45 (table 3). The PSGS presented alternative years with high ft in 2002 and 2004 (low diversity of the pollen pool), and low ft contributors (table 3)). estimates in 2003 and 2005 (higher number of pollen 436 The global TwoGener analysis considering all years pooled together provided a lower paternity 437 correlation with a ft of 0.12 leading to 8.26 effective fathers (table 3). When accounting for temporal variations, the TwoGener analysis resulted in a lower PSGS, with a ft of and effective fathers per mother-tree (table 4). From this analysis we computed the temporal 440 variation of pollen pool genetic composition within mothers among years, yf equal to We also computed the expected annual estimate of ft, nc ft =0.207 leading to a small effective number of fathers, N ep = Pollen dispersal and effective density : The global TwoGener analyis (table 3) can be used to fit a one-parameter dispersal kernel (36). Using a Gaussian kernel and an effective density corresponding to the mean individual local density measured within a radius of 12.5m (186 male contributors per hectare) we estimated a mean pollen dispersal distance of 5.4, 7.0, 5.3 and 8.1 meters for 2002, 2003, 2004 and 2005 respectively. Using xxv

174 ANNEXE I. SPATIAL-TEMPORAL VARIABILITY OF MATING PATTERN 450 nc the ft we obtained an expected annual mean pollen dispersal distance of 5.65 meters. When accounting for temporal variations we obtained a larger pollen dispersal distance of 9.28 meters. Using an exponential kernel we found larger pollen dispersal distances with annual means of 6.1, 7.8, 6.0, 8.6 and 6.38 meters for 2002, 2003, 2004, 2005 and for the expected mean annual estimate respectively The pairwise TwoGener analysis enables a joint estimate of the dispersal kernel parameters and of the effective density. both were low with an mean pollen dispersal distance ranging from 22.4 to 91.6 meters for expected annual estimates with an effective density ranging from 4.09 to 12.7 effective fathers per hectare (table 5). Fatter tailed dispersal functions led to longer pollen dispersal : the Gaussian family function (b=2) led to the shorter mean dispersal distance and the leptokurtic ones (b<1) to the larger distances (table 5). The paternity correlation (Q 0γ ) estimation is robust and is thus independent of the chosen dispersal function families (0.155, 0.082, 0.161, 0.061, and for 2002, 2003, 2004, 2005, annual expected and temporal analyses respectively). The mean pollen dispersal distance is negatively linked to the effective density. However the effective number of fathers within the 95% radius integrates both density and dispersal distance and thus enables the comparison of the different estimates, with an increasing number of contributors when the function is more and more leptokurtic (7.7, 14.3, 47.9 and for the normal, exponential, exponential power with b=0.5 and exponential power with b=0.35 respectively for the expected annual estimates ; see table 5). For example the results obtained from the expected annual 470 nc pairwise differentiation, ft, resulted in increasing number of effective fathers within the 95% radius when reducing the b tail parameter ( N ep0.95 ={7.7 ;14.3 ; 47.9 ;124.24} for b={2 ;1 ;0.5 ;0.35} ). The estimation was difficult when both the mean dispersal distance and the shape parameter were jointly estimated, particularly for annual estimates because of the small amount of available data (table 5). xxvi

175 The annual estimates of dispersal distance and effective density were globally low and largely variable among the different years (table 5). The observed pattern for copaternity was similar to the one observed using the global TwoGener analysis with a stronger structure of the pollen cloud in γf 2002 and 2004 than in 2003 and 2005 (values of Q 0 of and versus and 0.062). When using the temporal AMOVA to compute the pairwise pollen cloud differentiation indices, 481 pw ft, we obtained lower SGS ( Q 0 =0.091 ) and longer pollen dispersal distances ranging from to meters depending on the tail of the dispersal function (table 5). As the dispersal function was getting fatter the estimates of pollen dispersal distances increased and the estimated effective densities decreased from 10.9 to 2.87 effective fathers per hectare (table 5). However the 485 synthetic parameter, N ep0.95, increased when considering functions with fatter tails (table 5) Finally using the censured dataset (i.e. without seeds resulting from selfing) we obtained more stable estimates of the mean dispersal distance of about 22 meters. Using this method the effective densities were increasing from 72.7 to 127 effective fathers per hectare when using more leptokurtic function. However the paternity correlation was insensitive to the dispersal functions and was lower with this censured dataset than with the complete one Individual mating system variations : Both parameters of mating system, selfing rates (s) and correlations of paternity within the outcrossing pollen cloud (r p ) were highly variable among individuals whatever the model chosen for estimations, with values ranging from 0 to 1 (table 6 and 7 for standard deviations among individual estimates). The selfing rate is globally high with a mean weighted value over the four years of 23% (table 7). The correlated paternity within the outcrossing pollen pool is also quite high but less than s-rp selfing rate with a mean over the four years of 18%. The global paternity correlation, Q 0, is largely dependent on the selfing rate and less on the outcrossed paternity correlation (table 6 and 7 ; figure 1). The standard deviations for the three estimated parameters were positively related to the xxvii

176 ANNEXE I. SPATIAL-TEMPORAL VARIABILITY OF MATING PATTERN mean estimates, thus the higher estimates led to to the most among individuals variable ones (table 6 and 7) We observed a similar temporal pattern to the one provided using the TwoGener analysis. An alternation of highly structured years (2002 and 2004) with higher values for s and r p, and less s-rp structured years (2003 and 2005). The estimates of Q 0 are very similar to those obtained with the TwoGener global analysis (table 3 and 6). When comparing the three models using the likelihood ratio test the most complete model was always the best one for estimating the individual parameters of the mating system (model 2 versus model 3 : Likelihood ratio = 3202 ; d.f. = 174 ; p<10-4 and model 1 versus model 2 : Likelihood ratio = ; d.f. = 86 ; p<10-4 ). The following analyses were thus all based on the results of the model The best and the most parsimonious model for explaining the individual selfing rates variability was the model S2 (S2 vs. S1 : Likelihood ratio = 4.25 ; d.f. = 1 ; p = 0.04 and S3 vs. S2 : Likelihood ratio = ; d.f. = 9 ; p=0.053). The year had a significant effect with higher selfing rates in 2002 and 2004 (adjusted means : 0.20 and 0.20 respectively) than in 2003 and 2005 (adjusted means : 0.14 and 0.08 respectively; table 8). The local density (i.e. the number of neighbors within a 12.5m radius around each mother-tree) had a significant and negative effect on the selfing rate as a main effect (regression coefficient : ; p = 0.026). However the effect of local densities on individual selfing rates differed among years with non significant effects in 2003 and 2005 and significantly negative effects in 2002 and 2004 (annual regression coefficients : , , and 0.004; p= , 0.96, and 0.81 for 2002, 2003, 2004 and 2005 respectively). The other effects were not significant For the correlation of paternity within the outcrossing pollen pool, r p, was better explained by the model R3 than by the other ones (R1 vs. R2 : Likelihood ratio = 3.9 ; d.f. = 1 ; p=0.048 and R3 vs. xxviii

177 R2 : Likelihood ratio = 19.6 ; d.f. = 9 ; p=0.02). Using this model we found no significant effect of the year (adjusted means : 0.11, 0.10, 0.08 and 0.07 for 2002, 2003, 2004 and 2005 ; table 9). There was no other significant effect. Finally we did not find any significant correlation between s and r p (r=-0.04 ; p=0.61). The global s-rp paternity correlation, Q 0 was also best explained by the most complex model Q3 (Q1 vs. Q2 : Likelihood ratio = 7.42 ; d.f. = 1 ; p=0.007 and Q2 vs. Q3 : Likelihood ratio = ; d.f. = 9; p=0.004). We found a significant effect of the years in the same direction as for the selfing rates (Adjusted means : 0.24, 0.12, 0.23 and 0.09 for 2002, 2003, 2004 and 2005 respectively ; table 10). We also found a significant and negative effect of the local density (regression coefficient = ; p=0.04) Discussion : Dispersal functions interpretation : In this study we propose two new reading keys for more easily biologically interpreting the backward dispersal curves. Firstly, the quantile radius (i.e. the 95% radius, R 0.95γ, in this study) is a more convenient way to describe the backward dispersal curve than mean dispersal distance particularly for fat-tailed functions. Indeed it is more representative of the effective neighborhood of each mother as defined by 29 without any consideration about the relative contribution of each individual. This radius is more sensitive to the choice of the dispersal curve than to mean distance (see table 5) because in the case of long dispersal there are numerous weakly contributing individuals that are accounted for (i.e. the tail of the function). Thus quantile radius such as median dispersal (i.e. the 50% radius) can be good alternatives or additional informations to classical mean dispersal distance to compare dispersal functions with respect to biological considerations (e.g. population size). Secondly, backward dispersal functions represents the probability for a female to xxix

178 ANNEXE I. SPATIAL-TEMPORAL VARIABILITY OF MATING PATTERN be pollinated by a father located at a distance x. These dispersal functions are typically estimated with indirect methods (i.e. using synthetic index), that assume a given spatial distribution of fathers, usually a complete spatial random process (see 74 for a complete theoretical comparison of backward and forward dispersal functions). The estimated kernel thus integrates both pollen dispersal and effective density of fathers, which can lead to estimation problems with TwoGener (38). In this study we observed a compensation phenomenon : a given genetic structure can be the result of a low effective density and a high pollen dispersal or inversely (table 5). This makes the interpretation of dispersal parameters difficult and synthetic parameters as the number of effective fathers are useful to ease the conclusions. However as for mean dispersal distance, the N ep is not representative of the dispersal function and cannot permit their comparisons. Indeed the paternity correlation resulting from the dispersal curve and the effective density is invariant whatever the considered dispersal function (table 5). As the number of fathers within the quantile radius (i.e. N γ ep0.95 in this study) considers all individuals unevenly contributing to reproduction depending on their relative distance to the mother, it is a more appropriate synthetic parameters to biologically compare dispersal curves. Finally the ratio of the number of father within the quantile radius over 569 N ep (i.e. N 0.95 N ep in this study) informs us on the tail of the dispersal function in a less theoretical 570 manner than the classical b parameter does (table 5) Spatial Genetic Structure of the pollen pool : The fertilizing pollen pool was highly spatially structured with very large annual estimates of the global paternity correlation. These led to a very limited number of effective father per mother-tree, N ep, ranging from 4 to 9.5 (with an expected annual estimate of 4.9 effective fathers per mothertree). The total paternity correlation (Q 0 ) computed using the individual mating system estimates s-rp led a similar SGS with N ep ranging from 3.7 to 9 effective fathers per mother-tree. These values are striking for a tree population with such a high density (186 pollinating trees / ha). Indeed high xxx

179 density natural populations are generally characterized by a high genetic diversity of pollen pools (see 34 for a good overview). This result is even more surprising for a conifer species for which pollen dispersal and outcrossing rates are generally large. For example 78 found values of N ep ranging from 9.5 to 16.2 for an Araucaria angustifolia population with a density of only 42.2 trees per hectare. Similarly for Pinus sylvestris 79 found N ep values ranging from 71 to an infinity of effective fathers per mother-tree depending on silvicultural practices leading to various densities ranging from 80 to 315 trees/ha. Our N ep are close to the ones obtained in weak density populations (80 found an average of 6.4 effective fathers per mother-tree within an Araucaria angustifolia population experiencing a density of only 3.71 trees/ha) Such a strong structure can be the result of individual mating system. Indeed we found a globally high level of selfing for a conifer tree with a mean selfing rate of 23% (annual values ranging from 11 to 27%). This result is very surprising for a conifer because they are assumed to be mainly outcrossers (81;10). Selfing rate largely influences the global paternity correlation estimated using TwoGener or the mating system estimation (see equation 17 and 77;74). However the high selfing rate alone is not responsible for the strong SGS we observed. The paternity correlation within the outcrossing pollen pool is also very high (mean annual estimates ranging from 0.09 to 0.16). These values are very high for a conifer tree and could even be downwardly biased (41). For example 18 found a r p of in a high density stand ( trees/ha) of Pinus pinaster, 49 found an outcrossing paternity correlation of in a very small and isolated population of Pinus sylvestris consisting of 36 individuals experiencing a mean density of 2.4 trees/ha The estimated selfing rates were largely variable among individuals (individual estimates ranging from 0 to 100% with among individual coefficient of variation ranging from 110 to 131% depending on the considered year). 18 suggested that in conifers selfing is increased only when density is dramatically low (less than 20 trees/ha according 49) whereas it was clearly not the case xxxi

180 ANNEXE I. SPATIAL-TEMPORAL VARIABILITY OF MATING PATTERN here. Indeed we found a linear significant and negative effect of local density on individual selfing rate estimates. This indicated that individual selfing rates were probably the result of the mass action a law, selfing rate being proportional to the ratio of self-pollen on total pollen received (20;50). However we did not find any significant effect of individual pollen production on the selfing rate estimates. This is probably because the effect of individual pollen production is more sensitive than the effect of local density to the amount of external pollen received, the effect of individual pollen production being negligible when external pollen saturates the fertilizing pollen cloud. Indeed the neighbors present within or outside the 12.5m radius can differ in their pollen production. Thus the effect of individual pollen production is not linear even in interaction with local density and was thus hardly detectable As for the selfing rates, individual estimates of paternity correlation are largely variable among individuals with values ranging from 0 to 1 (CV from 93% to 163% depending on the year). However individual estimates of selfing rate and paternity correlation were not correlated (r=-0.04, p=0.61). Furthermore we found no correlation between r p estimates and any environmental variables (local density or individual pollen production). Whereas at stand level paternity correlation estimates are often correlated to the global density (49;34), it is often difficult to relate individual estimates of paternity correlation to density variations (70). The measure of density that is used is probably unadapted for such a purpose, one could prefer an isolation measure (i.e. distance to the nearest neighbor) that gives better relationship with paternity correlation (82;83;70) or a density measure over an extended distance (17 tested multiple density estimates within an increasing buffer zone). However such a strong structure indicates a low effective density and/or a very restricted pollen dispersal The pairwise TwoGener analysis permitted to estimate pollen dispersal and led to mean dispersal distance estimates of 22.4, 28.4, 51.7 and 91.6m for the gaussian, the exponential, the power- xxxii

181 exponential constrained (fixed b=0.5) and the power-exponential (estimated b=0.35) respectively. These dispersal distances were associated with effective densities of 12.7, 10.1, 6.31 and 4.09 trees/ha. Both parameters are correlated and led to the same global structuration of the pollen pool 635 with Q 0 = 0.196, resulting in N ep = 5.1 effective fathers per mother-tree. However we observed an increased number of potential fathers within the 95% radius with the fatter tailed functions. The best fit was obtained when estimating both the mean dispersal distance and the shape parameter. These dispersal distances are in accordance with those for other conifers : Dyer (2002) (in 34) found 17 to 22m in Pinus echinata with N ep from 3.4 to 5.2, 79 estimated mean dispersal distances from 17 to 29m for Pinus sylvestris and larger N ep (71-125) with closed observed densities than ours (80 to 315 tree/ha). However these estimates were all computed using the global TwoGener method and assuming a normal or an exponential kernel. Even if the effective density was adjusted according (37), both studies used densities closed to the observed one inducing reduced dispersal distance estimates. With the global TwoGener analysis we also obtained very small dispersal distances even if the paternity correlation was still strong and comparable with the one resulted from the global analysis (20.65%). In Araucaria angustifolia 80 estimated larger mean dispersal distances from 85 to 98 m depending on the kernel and 6.4 effective fathers per mother-tree with a density of 1 or 3 trees/ha. These estimates are more comparable even if the dispersal functions used were less leptokurtic ones. The ratio of the estimated effective density over the observed density of potential 650 fathers was very low, ( d e d obs ). The order of magnitude was approximately the same than the one observed within quite low density populations of trees however in those case the estimated pollen dispersal was higher (72). Thus we concluded that in the present study, annual pollen dispersal was relatively limited given the high population density we observed (186 trees/ha). This could be explain by the closed canopy in our population limiting the pollen dispersal as highlighted by 34. Indeed in silver fir the male branches are located at the bottom of the crown whereas female branches are located at the top of the crown, this may reinforce the effect of forest closure on pollen dispersal. We cannot discard an effect of asynchronous flowering that has been shown to be an xxxiii

182 ANNEXE I. SPATIAL-TEMPORAL VARIABILITY OF MATING PATTERN important feature driving effective density (41; 49). Thus in the future it could be interesting to use the KinDist method to get free of the joint estimation of the effective density and because it is robust to asynchronous flowering times (38). However this method is not yet available for paternally haplotypic data Temporal variations of mating patterns : The mating system study revealed a different genetic pollen pool composition among years. First, we found a significant increase of the likelihood when estimating different haplotypic frequencies each year. Thus the genetic differentiation of the pollen pools among year found with the temporal AMOVA and responsible for 13% of the genetic structure did not result from sampling variability within a constant pollen pool, but resulted from clearly different pollen pools. Such a temporal differentiation was also found in Pistacia lentiscus by 70 with different PSGS during two consecutive years and by 67 who found a year to year differentiation in Albizia julibrissin using an AMOVA. However these studies revealed different compositions of the sampled pollen pools while we found a difference in the composition of the total pollen pool experienced by trees and of the mating patterns variations Our approach enables to decipher between these two features. Indeed we also found a significant differentiation of mating system when accounting for different pollen pools. Both selfing rates and global paternity correlations significantly differed among years. These years differed according a feature : All trees were not sampled each year, thus the sampling design differ in mean density with a larger density in 2003 (annual mean local density investigated : 8.71, 10.39, 7.38 and 7.47 potential father trees within the 12.5m radius for 2002, 2003, 2004 and 2005 respectively). Thus we computed adjusted means of mating system parameters by considering the same individual local densities and pollen productions (i.e. equals to the individual means over the four years) for each xxxiv

183 year. Neither the average local densities nor the average individual pollen productions investigated each year seemed to explain the variability of mating system. The global pollen production at the population level estimated through the mother-trees (i.e. mean individual pollen production per year) differed among years with a larger pollen production in 2002 and 2004 (108.37, 99.08, and for 2002, 2003, 2004 and 2005 respectively). The effect of local density was only significant for the years with the highest global pollen productions. These confirmed the hypothesis of a mass-action driven mating system : the local density being representative of the total quantity of outcrossing pollen in the individual pollen pools only when all individuals within the 12.5m radius produced pollen, this is more prone to occur during years of high pollen production. Moreover the annual mean selfing rates were higher during years of higher pollen production. However the pollen production we measured on mother-trees must be representative of the population pollen production and thus could lead to higher outcrossing rates. We hypothesized that the pollination process is more complex than a simply mass-action driven one. We observed synchrony between pollen emission and female receptivity within an individual whereas this synchrony is imperfect among individuals (personal observations). We thus hypothesized that a fraction of pollen produced by each mother-tree was not in competition with the outcrossing pollen, and led to partially prior selfing (84;21). Thus the mating system could be a mixture of competing and prior selfing The year to year variations of the pollen pool were confirmed by the global temporal TwoGener 704 analysis. Indeed we found a temporal variance component, yf, of 13.9% and a corrected ft 705 of 7.83% (vs % for annual estimates). The difference we observed were larger than the ones 706 found by 67 (17.4 vs 24.4% for corrected and non corrected ft respectively). This difference is mainly due to the lower temporal variability these latter authors found ( yf =8.4 % ). In our case the temporal feature explained about twice more variability than the spatial feature in the PSGS. We hypothesized that this large year to year variations were imputable to pollen production variations xxxv

184 ANNEXE I. SPATIAL-TEMPORAL VARIABILITY OF MATING PATTERN that could lead to uneven contribution of individuals a given year (63 ; 64). The accumulation of numerous reproduction events could lead to a more homogeneous contribution of pollen donors through a compensation phenomenon. The pollen dispersal estimated when accounting for temporal variability resulted in larger mean dispersal distances of 35.6, 44.8, 94.7 and 131.9m for the normal, the exponential, the constrained exponential power (b=0.5) and the exponential power (estimated b=0.42) dispersal functions respectively. At the same time the estimated effective density were lower than those obtained without accounting for temporal variability, d e ={10.9 ;8.72;4.06 ;2.87} for the same dispersal functions. However the global paternity correlation resulting from the dispersal estimates was lower ( Q 0 =9.1% vs Q 0 =19.6 % ) and the number of potential fathers within the 95% radius was higher when accounting for year to year variations of the pollen pool. Such variations of the dispersal functions were also found in an insectpollinated tree, Sorbus torminalis, with larger dispersal distances in 2000 than in 1999 (72). Our annual estimates of pollen dispersal were also highly variable from year to year and the structuration followed the one observed with the mating system estimates (higher structuration in 2002 and 2004 and lower in 2003 and 2005). For pollen dispersal solely the outcrossing pollen pool must be considered and even if r p was variable among years the selfing rate was also important and largely accounted for the global paternity correlation. Thus we applied the suggestions proposed by 74 and remove from the dataset all the seeds potentially resulting from a selfing event to compute the dispersal parameters. The high number of potentially selfed seeds did not permit us to compute reliable annual estimates of pollen dispersal because of a too small dataset (not shown) and thus we only computed estimates with the temporal TwoGener that dealt with the complete dataset over the four years. We also excluded the non-constrained exponential power dispersal function because of the too small dataset to estimate both the mean dispersal distance and the shape parameter. This resulted in a very limited pollen dispersal with mean distances of 20.7, 21.2 and 25.4m associated 734 with larger effective densities, d e ={72.7 ;88.3 ;127} for the normal, the exponential and the 735 constrained exponential power dispersal functions respectively. The global copaternity was lower ( xxxvi

185 Q 0 =4.0 % ) than the one obtained using the whole dataset. The PSGS was thus lower when considering multiple years. However the estimates of the pollen dispersal were quite stable whatever the dispersal function we chose. Thus this analysis proved that pollen dispersal was really limited in the Lure mountain population of silver fir but that PSGS was not so high when considering multiple reproduction events. Thus conclusions made on a single year estimate could be alarmist and in certain cases cannot be extrapolated and thus do not represent a good picture of pollen dispersal patterns Conclusion and perspectives : The real-time mating patterns are spatially highly variable and thus the study of pollen-mediated gene flow should also consider the among-individual variability (18). However an increasing number of studies of tree populations pointed out a non-negligible amount of among-year variability of mating patterns and pollen pool genetic structure (67;60;70). We showed in this study that annual estimates of pollen-mediated gene flow led to pessimistic conclusions concerning the amount of genetic diversity conserved during each reproduction event but that temporal analysis provided higher N ep. Thus conclusions based on annual estimates should be carefully extrapolated over multiple generations. This is particularly true when the annual PSGS is high, because a strong and repeated PSGS over time could lead to a drastic erosion of diversity (69) whereas the situation could be attenuated when considering temporal variations of mating patterns. The concept of PSTGS should be further investigated in studies dealing with genetic diversity in a conservation perspective. These temporal considerations include year to year variations but also within year variations in terms of flowering asynchrony (41;49;18) or changing of pollinators behavior or composition (68;54). The necessity to consider multiple years for estimating pollen dispersal is also probably applicable to seed dispersal given the high variability of seed production among years as the result of pollen limitation or mast-seeding (65;85;86). xxxvii

186 762 ANNEXE I. SPATIAL-TEMPORAL VARIABILITY OF MATING PATTERN References 1: IPCC.2007.Climate Change 2007: Synthesis Report. 2: Arndt Hampe and Rémy J. Petit, Conserving biodiversity under climate change: the rear edge matters, : Tadeusz J. Kawecki, Adaptation to Marginal Habitats, : McLachlan, J. S. and Clark, J. S. and Manos, P. S., Molecular indicators of tree migration capacity under rapid climate change, : Morin, X. and Viner, D. and Chuine, I., Tree species range shifts at a continental scale: new predictive insights from a process-based model, : Mimura, Makiko and Aitken, Sally N., Adaptive gradients and isolation-by-distance with postglacial migration in Picea sitchensis, : Derek Spielman and Barry Brook and Richard Frankham.2004.Most species are not driven to extinction before genetic factors impact them.-pnas.101: : Alleaume-Benharira, Mariane and Pen, I. R. and Ronce, Ophélie.2006.Geographical patterns of adaptation within a species range : interactions between drift and gene flow.-journal of Evolutionary Biology.19: : Outi Savolainen and Tanja Pyhajarvi and Timo Knurr.2007.Gene flow and local adaptation in trees.-annual Review of Ecology, Evolution and Systematics.38: : Gwendal Restoux and Daniel E. Silva and Fabrice Sagnard and Franck Torre and Etienne K. Klein and Bruno Fady.2008.Life at the margin: the mating system of Mediterranean conifers.-web Ecology.8: : Norman C. Ellstrand and Diane R. Elam.1993.Population genetic consequences of small population size: implications for plant conservation.-annual Review of Ecology and Systematics.24: : S. Oddou-Muratorio and R.J. Petit and B. {Le Guerroue} and D. Guesnet and B. xxxviii

187 Demesure.2001.Pollen- versus seed-mediated gene flow in a scattered forest tree species.- Evolution.55: : Norman C. Ellstrand.1992.Gene flow by pollen: Implications for plant conservation genetics.- Oïkos.63: : A. Lazaro and A. Traveset.2006.Reproductive success of the endangered shrub Buxus balearica Lam. (Buxaceae): pollen limitation, and inbreeding and outbreeding depression.-plant Systematics and Evolution.261: : Lopez, S. and Rousset, F. and Shaw, F.H. and Shaw, R.G. and Ronce, Ophélie.2008.Migration load in plants : role of pollen and seed dispersal in heterogeneous landscapes.-jouranl of Evolutionary Biology.21: : Francimary da Silva Carneiro and Alexandre Magno Sebbenn and Milton Kanashiro and Bernd Degen.2007.Low interannual variation of mating system and gene flow of Symphonia globulifera in the Brazilian Amazon.-Biotropica.39: : Yoko Fukue and Tomoyuki Kado and Soon Leong Lee and Kevin Kit Siong Ng and Norwati Muhammad and Yoshihiko Tsumura.2007.Effects of flowering tree density on the mating system and gene flow in Shorea leprosula (Dipterocarpaceae) in peninsular Malaysia.-Journal of Plant Research.120: : A.I. de-lucas and J.J. Robledo-Arnuncio and E. Hidalgo and S.C. Gonzàlez-Martìnez.2008.Mating system and pollen gene flow in Mediterranean maritime pine.-heredity.100: : Qifang Geng and Chunlan Lian and Susumu Goto and Jianmin Tao and Megumi Kimura and MD Sajedul Islam and Taizo Hogetsu.2008.Mating system, pollen and propagule dispersal, and spatial genetic structure in a high-density population of the mangrove tree \textitkandelia candel.- Molecular Ecology.17: : Kent E. Holsinger.1991.Mass-action models of plant mating systems: The evolutionary stability of mixed mating systems.-the American Naturalist.138: : Carol Goodwillie and Susan Kalisz and Christopher G. Eckert.2005.The evolutionary enigma xxxix

188 ANNEXE I. SPATIAL-TEMPORAL VARIABILITY OF MATING PATTERN of mixed mating systems in plants : Occurence, theoretical explanations, and empirical evidence.- Annual Review of Ecology, Evolution and Systematics.36: : Sewall Wright.1943.Isolation by distance.-genetics.28: : Sewall Wright.1965.The interpretation of population structure by F-statistics with special regards to systems of mating.-evolution.19: : Norman C. Ellstrand.1992.Gene flow among seed plant populations.-new Forests.6: : B. W. Brook and D. W. Tonkyn and J. J. O'Grady and R. Frankham, Contribution of inbreeding to extinction risk in threatened species, : D.H. Reed and E.H. Lowe and D.A. Briscoe and R. Frankham, Inbreeding and extinction: Effects of rate of inbreeding, : Francois Rousset.1997.Genetic Differentiation and Estimation of Gene Flow from F-Statistics under Isolation by Distance.-Genetics.145: : Francois Rousset.2000.Genetic differentiation between individuals.-jouranl of Evolutionary Biology.13: : Wright, Sewall.1946.Isolation by distance under diverse systems of mating.-genetics.31: : P. C. Watts and F. Rousset and I. J. Saccheri and R. Leblois and S. J. Kemp and D. J. Thompson.2007.Compatible genetic and ecological estimates of dispersal rates in insect (Coenagrion mercuriale: Odonata: Zygoptera) populations: analysis of 'neighbourhood size' using a more precise estimator.-molecular Ecology.16: : V.L. Sork and J. Nason and D.R. Campbell and J.F. Fernandez.1999.Landscape approaches to historical and contemporary gene flow in plants.-trends in Ecology and Evolution.14: : Raphaël Leblois and Francois Rousset and Arnaud Estoup.2004.Influence of Spatial and Temporal Heterogeneities on the Estimation of Demographic Parameters in a Continuous Population Using Individual Microsatellite Data.-Genetics.166: : Sylvie Oddou-Muratorio and Etienne K. Klein.2008.Comparing direct vs. indirect estimates of gene flow within a population of a scattered tree species.-molecular Ecology.17: xl

189 34: Peter E. Smouse and Victoria L. Sork.2004.Measuring pollen flow in forest trees: an exposition of alternative approaches.-forest Ecology and Management.197: : Peter E. Smouse and Rodney J. Dyer and Robert D. Westfall and Victoria L. Sork.2001.Two- Generation analysis of pollen flow accross a landscape. I. Male gamete heterogeneity among females.-evolution.55: : Frederic Austerlitz and Peter E. Smouse.2001.Two-Generation analysis of pollen flow across a landscape. II. Relation betwen Phi-ft, pollen dispersal and interfemale distance.-genetics.157: : Frederic Austerlitz and Peter E. Smouse.2002.Two-Generation analysis of pollen flow across a landscape. IV. Estimating the dispersal parameter.-genetics.161: : Juan J. Robledo-Arnuncio and Frédéric Austerlitz and Peter E. Smouse.2006.A new method of estimating the pollen dispersal curve independently of effective density.-genetics.173: : Laurent Excoffier and Peter E. Smouse and Joseph M. Quattro.1992.Analysis of molecular variance inferred from metric distances among DNA haplotypes: Application to human mitochondrial DNA restriction data.-genetics.131: : B.A. Loiselle and V.L. Sork and J. Nason and C. Graham.1995.Spatial genetic structure of a tropical understory shrub, Psychotria officinalis (Rubiaceae).-American Journal of Botany.82: : Olivier J. Hardy and Santiago C. Gonzàlez-Martìnez and Bruno Colas and Hélène Fréville and Agnes Mignot and Isabelle Olivieri.2004.Fine-scale genetic structure and gene dispersal in Centaurea corymbosa (Asteraceae). II. Correlated paternity within and among sibships.- Genetics.168: : Ritland, Kermit and Subodh Jain.1981.A model for the estimation of outcrossing rate and gene frequencies using n independent loci.-heredity.47: : W. M. Cheliak and K. Morgan and C. Strobeck and F. C. H. Yeh and B. P. Dancik.1983.Estimation of mating system parameters in plant populations using the EM algorithm.-theoretical xli

190 ANNEXE I. SPATIAL-TEMPORAL VARIABILITY OF MATING PATTERN and Applied Genetics.65: : F. Thomas Ledig and Miguel A. Capo-Ateaga and Paul D. Hodgskiss and Hassan Sbay and Celestino Flores-Lopez and M. Thompson Conkle and Basilio Bermejo-Velasquez, Genetic diversity and the mating system of a rare Mexican pinon, Pinus pinceana, and a comparison with Pinus maximartinezii (Pinaceae), : Patrice David and Benoit Pujol and Frédérique Viard and Vincent Castella and Jérome Goudet, Reliable selfing rate estimates from imperfect population genetic data, : Ritland, Kermit.1989.Correlated matings in the partial selfer Mimulus guttatus.- Evolution.43: : Ritland, Kermit.2002.Extensions of models for the estimation of mating systems using n independent loci.-heredity.88: : Naito, Yoko and Kanzaki, Mamoru and Iwata, Hiroyoshi and Obayashi, Kyoko and Lee, Soon Leong and Muhammad, Norwati and Okuda, Toshinori and Tsumura, Yoshihiko.2008.Densitydependent selfing and its effects on seed performance in a tropical canopy tree species, Shorea acuminata (Dipterocarpaceae).-Forest Ecology and Management.256: : Juan-Jose Robledo-Arnuncio and Ricardo Alìa and L. Gil.2004.Increased selfing and correlated paternity in a small population of predominantly outcrossing conifer, Pinus sylvestris.-molecular Ecology.13: : Restoux, Gwendal and Bonnet, Catherine and Pichot, Christian and Vendramin, G. G. and Klein, Etienne K. and Fady, Bruno..Variability of female reproductive success in the conifer tree Abies alba: pollen quantity, pollen quality and climate.-submitted.: 51: Oddou-Muratorio, Sylvie and Klein, Etienne K. and Demesure-Musch, Brigitte and Austerlitz, Frederic.2006.Real-time patterns of pollen flow in the wild-service tree, Sorbus torminalis (Rosaceae). III. Mating patterns and the ecological maternal neighborhood.-am. J. Bot..93: : Klein, Etienne K. and Dessassis, Nicolas and Oddou-Muratorio, Sylvie.2008.Pollen flow in the xlii

191 wildservice tree, Sorbus torminalis (L.) Crantz. IV. Whole interindividual variance of male fecundity estimated jointly with the dispersal kernel.-molecular Ecology.17: : Nebi Bilir and Kyu-Suk Kang and Dag Lindgren.2005.Fertility variation in six populations of Brutian pine (Pinus brutia Ten.) over altitudinal ranges.-euphytica.141: : A.S. Hirao and Y. Kameyama and M. Ohara and Y. Isagi and G. Kudo.2006.Seasonal changes in pollinator activity influence pollen dispersal and seed production of the Alpine shrub Rhododendron aureum (Ericaceae).-Molecular Ecology.15: : Mathilde Baude and Isabelle Dajoz and Etienne Danchin.2008.Inadvertent social information in foraging bumblebees: effects of flower distribution and implications for pollination.-animal Behaviour.76: : Meagher, T. R. and C. Vassiliadis, Genes in the environment, : Robledo-Arnuncio, Juan J. and Austerlitz, Frederic, Pollen dispersal in spatially aggregated populations, : Rémy J. Petit and Arndt Hampe.2006.Some Evolutionary consequences of being a tree.-annual Review of Ecology, Evolution and Systematics.37: : Frédéric Austerlitz and Stéphanie Mariette and Nathalie Machon and Pierre Henri Gouyon and Bernard Godelle.2000.Effects of Colonization Processes on Genetic Diversity: Differences Between Annual Plants and Tree Species.-Genetics.154: : Sylvie Oddou-Muratorio and Etienne K. Klein and Frederic Austerlitz.2005.Pollen flow in the wildservice tree, Sorbus torminalis (L.) Crantz. II. Pollen dispersal and heterogeneity in mating success inferred from parent-offspring analysis.-molecular Ecology.14: : K.-S. Kang and A.D. Bila and A.M. Harju and D. Lindgren.2003.Estimation of fertility variation in forest tree populations.-forestry.76: : Fazia Krouchi and Arezki Derridj and François Lefevre.2004.Year and tree effect on reproductive organisation of Cedrus atlantica in a natural forest.-forest Ecology and Management.197: xliii

192 ANNEXE I. SPATIAL-TEMPORAL VARIABILITY OF MATING PATTERN 63: R. Kamalakannan and M. Varghese and D. Lindgren.2007.Fertility variation and its implications on relatedness in seed crops in seedling seed orchards of Eucalyptus camaldulensis and E-tereticornis.-Silvae Genetica.56: : Khanduri, VP and Sharma, CM.2010.Male and female reproductive phenology and annual production of male cones in two natural populations of Cedrus deodara.-nordic Journal of Botany.28: : Dave Kelly and Victoria L. Sork.2002.Mast seeding in perennial plants : Why, how, where?.- Annual Review of Ecology and Systematics.33: : Kang, K. S. and El-Kassaby, Y.A Considerations of correlated fertility between genders on genetic diversity: the Pinus densiflora seed orchard as a model.-theoretical and Applied Genetics.105: : A. J. Irwin and J. L. Hamrick and M. J. W. Godt and P. E. Smouse.2003.A multiyear estimate of the effective pollen donor pool for Albizia julibrissin.-heredity.90: : T. Kenta and Y. Isagi and M. Nakagawa and M. Yamashita and T. Nakashizuka.2004.Variation in pollen dispersal between years with different pollination conditions in a tropical emergent tree.- Molecular Ecology.13: : Troupin, D. and Nathan, R. and Vendramin, G. G Analysis of spatial genetic structure in an expanding Pinus halepensis population reveals development of fine-scale genetic clustering over time.-molecular Ecology.15: : Albaladejo, Rafael G. and Gonzàlez-Martìnez, S.C. and Heuertz, Myriam and Vendramin, G. G. and Aparicio, Abelardo.2009.Spatiotemporal mating pattern variation in a windpollinated Mediterranean shrub.-molecular Ecology.18: : Tang-Shui Liu.1971.A monograph of the genus Abies. 72: Frédéric Austerlitz and Christopher W. Dick and Cyril Dutech and Etienne K. Klein and Sylvie Oddou-Muratorio and Peter E. Smouse and Victoria L. Sork.2004.Using genetic markers to estimate the pollen dispersal curve.-molecular Ecology.13: xliv

193 73: M. Nei.1973.Analysis of gene diversity in subdivided populations.-pnas.70: : Florence Carpentier and Joël Chadoeuf and Etienne K. Klein.in prep.estimates of backward pollen dispersal curve : why and how considering selfing explicitly? 75: Dempster, A. P. and Laird, N. M. and Rubin, D. B Maximum likelihood from incomplete data via the EM algorithm (with discussion).-journal of the Royal Statistical Society, B.39: : Kermit Ritland.1986.Joint maximum likelihood estimation of genetic and mating structure using open-pollinated progenies.-biometrics.42: : Jaroslaw Burczyk and Tomasz E. Koralewski.2005.Parentage versus two-generation analyses for estimating pollen-mediated gene flow in plant populations.-molecular Ecology.14: : JVM Bittencourt and AM Sebbenn.2007.Patterns of pollen and seed dispersal in a small, fragmented population of the wind-pollinated tree Araucaria angustifolia in southern Brazil.- Heredity.99: : Juan Jose Robledo-Arnuncio and Peter E. smouse and Luis Gil and Alìa, Ricardo.2004.Pollen movement under alternative silvicultural practices in native populations of Scots pine (Pinus sylvestris L.) in central Spain.-Forest Ecology and Management.197: : Juliana Vitoria Messias Bittencourt and Alexandre Magno Sebbenn.2008.Pollen movement within a continuous forest of wind-pollinated Araucaria angustifolia, inferred from paternity and TwoGener analysis.-conservation Genetics.9: : Mitton, Jeffry B. and Williams, Claire G Gene flow in conifers : Taber D. Allison.1990.Pollen production and plant density affect pollination and seed production in Taxus canadensis.-ecology.71: : Sarah M. Eppley and John R. Pannell.2007.Density-dependent self-fertilization and male versus hermaphrodite siring success in an androdioecious plant.-evolution.61: : Harder,LawrenceD. and Wilson,WilliamG A Clarification of Pollen Discounting and Its Joint Effects with Inbreeding Depression on Mating System Evolution.-The American Naturalist.152: xlv

194 ANNEXE I. SPATIAL-TEMPORAL VARIABILITY OF MATING PATTERN 85: Tia-Lynn Ashman and Tiffany M. Knight and Janette A. Steets and Priyanga Amarasekare and Martin Burd and Diane R. Campbell and Michele R. Dudash and Mark O. Johnston and Susan J. Mazer and Randall J. Mitchell and Martin T. Morgan and William G. Wilson.2004.Pollen limitation of plant reproduction: Ecological and evolutionnary causes and consequences.-ecology.85: : Tiffany M. Knight and Janette A. Steets and Jana C. Vamosi and Susan J. Mazer and Martin Burd and Diane R. Campbell and Michele R. Dudash and Mark O. Johnston and Randall J. Mitchell and Tia-Lynn Ashman.2005.Pollen limitation of plant reproduction : Pattern and process.-annual Review of Ecology, Evolution and Systematics.36: xlvi

195 Fecundation events Name Probabilities m m g 0 and g 0' are selfed P s 2 {ho =h m } {h o ' =h m } m g 0 m is selfed and g 0' m is outcrossed P 2 1 {ho =h m }s m 1 s m f ho ' g 0 m is outcrossed and g 0' m is selfed P 3 1 s m f ho 1 {ho ' =h m } s m g 0 m and g 0' m are outcrossed : From the same father P 4 1 s 2 r p m 1 {ho =h o' } f h o From different fathers P 5 1 s 2 1 r p m f ho f h o' m Table 1. The different fecundation events from which can result two seeds (g 0 and g 0'm ) drawn within a mother-tree progeny m. h o, h o' and h m are the paternally inherited haplotypes of the two seeds and of the mother-tree m respectively. s m and r pm are the selfing rate and the correlated paternity of the mother m and f x the frequency of the haplotype x within the total pollen cloud. 1 {condition} takes the value 1 if the condition is true else the value is Names (h x ) Haplotypes Frequencies Compatibility with h na P(h na = h x ) h1 {A1 ; B2 ; C3} f1 Yes f 1 f 1 f h2 {A1 ; B2 ; D3} f2 Yes f 2 f 1 f 2 h3 {B1 ; A2 ; C3} f3 No 0 Table 2. Representation of the compatibility between an incomplete haplotype h na ={A1; B2; X3} and other complete haplotypes for three loci and the way to compute the probability for the incomplete haplotype to be one of the complete ones, P(h na = h x ). xlvii

196 ANNEXE I. SPATIAL-TEMPORAL VARIABILITY OF MATING PATTERN 794 Year d.f. among d.f. within S.S.A. S.S.W. a All Table 3. Results of the global TwoGener analysis. The different outputs of the AMOVA are shown w 2 ft N ep together with the two parameters provided by the TwoGener approach, the ft number of fathers per mother-tree N ep. and the effective Source of variation Among Mother-trees Among years within mothertress d.f. Sum of Squares Mean squares Variance % of σ 2 tot Within years Total 0.47 Table 4. Results of the temporal TwoGener global analysis. Only the synthetic parameters of the temporal AMOVA are shown here xlviii

197 Year Function family b de (trees/ha) SCE Q 0 N ep R 0.95 N N N ep 2002 Gaussian Gaussian Gaussian Gaussian Annual expected Gaussian Temporal Gaussian Temporal Selfing Gaussian Exp Exp Exp Exp Annual expected Exp Temporal Exp Temporal Selfing Exp Exp. Pow. b=0.5 Exp. Pow. b=0.5 Exp. Pow. b= Exp. Pow xlix

198 ANNEXE I. SPATIAL-TEMPORAL VARIABILITY OF MATING PATTERN Annual expected Temporal Temporal Selfing b=0.5 Exp. Pow. b=0.5 Exp. Pow. b=0.5 Exp. Pow. b= Exp. Pow. * * * * * * * * * 2003 Exp. Pow Exp. Pow Exp. Pow Annual Expected Exp. Pow Temporal Exp. Pow Table 5. Results of the pairwise TwoGener analysis for the three function families : Gaussian, Exponential, Exponential power constrained with b=0.5 and Exponential power with an estimation of b parameter. The estimates are given for standard TwoGener annual analysis (2002, 2003, 2004, 2005 and the expected annual estimates), Temporal TwoGener analysis and Temporal TwoGener analysis without seeds potentially resulting from selfing. l

199 Year Nb. of Mothertrees s sd s r p sd rp Q 0 s-rp sd Q0s-rp Table 6. Estimates of the individual mating system parameters using the the most complete model, M 1. The values shown are the mean and the standard deviation for each parameter over all the mother-trees. Year Nb. of Mothertrees s sd s r p sd rp All the years Table 7. Estimates of the individual mating system parameters using the model M2 (i.e. a unique pollen pool for the whole period) and M3 (i.e. a unique pollen pool and individual parameters estimated only once for the four years) Effects d.f. 1 d.f. 2 F p Year Local density Pollen production Year x Density Year x Pollen Density x Pollen Table 8. Model S2 : ANOVA table of the fixed effects for the model explaining the variations of individual selfing rates (s). li

200 ANNEXE I. SPATIAL-TEMPORAL VARIABILITY OF MATING PATTERN Effects d.f. 1 d.f. 2 F p Year Local density Pollen production Year x Density Year x Pollen Density x Pollen Table 9. Model R3 : ANOVA table of the fixed effects for the model explaining the variations of individual correlation of paternity within the outcrossing pollen pool (r p ). Effects d.f. 1 d.f. 2 F p Year Local density Pollen production Year x Density Year x Pollen Density x Pollen Table 10. Model Q3 : ANOVA table of the fixed effects for the model explaining the variations of individual correlation of paternity within the total pollen pool (Q 0 s-rp ). lii

201 Figure 1. Boxplots of the annual variability of individual pollen production (A), local density measured as the number of potential pollen donors within a 12.5m radius around each mother-tree (B), the individual selfing rates estimated with the model 1 (C) and the paternity correlation also estimated with the model 1 (D). The red diamonds represent the annual means, the box represent the second and third quartiles separated by the median. Finally the whiskers represent the total range of individual estimates. 850 liii

202 851 ANNEXE I. SPATIAL-TEMPORAL VARIABILITY OF MATING PATTERN Appendix : Haploid and missing data in the computation of genetic distances in the AMOVA Let h na be the same incomplete haplotype as defined in the material & methods section. Thus h na ={A1 ; B2 ; X3} and consider the complete haplotypes h1, h2 and h3 as defined in the table 2. Let H be a vector which each element represents an observed complete haplotype thus it has a number of elements that equals the number of different complete haplotypes. Let Y hx be a vector 859 representing haplotype h x and for which Y hxi =Pr h xi =H i, with i the haplotype in the H vector Thus using the three haplotypes defined in table 2, a complete haplotype corresponding to the haplotype h1 is represented by the following vector Y h1 =[1,0,0]. The distance between two 2 haplotypes hx and hy is classically computed as in 35 : hx, hy = 1 Y 2 hx Y hy 2, with v 2 represents the sum of square of each elements of the vector v. Thus distance equals 0 if haplotypes are compatible else it equals 0 for identical haplotypes. According the table 2, the incomplete haplotype h na is represented by this vector : Y hna = [ f 1 f 1 f 2, f 2 f 1 f 2,0 ] complete haplotype with the haplotype h1 is computed as follow,. Finally the distance of this [Y hna Y h1 ]=[ f 1 f 1 f 2, f 2 f 1 f 2,0 ] [1,0,0 ]=[ f 2 f 1 f 2, f 2 f 1 f 2,0] and hna,h1 2 = 1 Y 2 hna Y h1 = 2 f 2 f 1 f 2 2. These distances are then used in the computation of the AMOVA among male gametes (39). liv

203 Annexe II Estimating the variance of male fecundity from genotypes of progeny arrays : evaluation of the bayesian forward approach.

204 ANNEXE II. ESTIMATING THE VARIANCE OF MALE FECUNDITY Estimating the variance of male fecundity from genotypes of progeny arrays: evaluation of the bayesian forward approach. E. K. Klein 1,2, F. H. Carpentier 1, S. Oddou-Muratorio 2 1 INRA, UR 546, Biostatistique et Processus Spatiaux, F Avignon, France 2 INRA, UR 629, Ecologie des Forêts Méditerranéennes, F Avignon, France. KEY WORDS: mating system, mixed effects mating models, long-distance dispersal, pollen dispersal, microsatellite markers, Bayesian approach CORRESPONDING AUTHOR Etienne Klein INRA, UR 546, Biostatistique et Processus Spatiaux, Domaine Saint Paul, Site Agroparc, F Avignon Cedex 9, France Fax Number: RUNNING TITLE: lvi 1

205 INTRODUCTION Genetic drift and gene flow between and within populations are two main evolutive forces that interact with selection to determine the potential for adaptation. Evaluating the relative weights of these forces has become a challenge to study the fate of populations confronted to environmental changes (e.g. global warming or landscape fragmentation) and to investigate possible management practices that could temper the impacts of this environmental shift (Ellstrand, 1992; Savolainen et al., 2007). Within this scheme, numerous recent studies have been published that characterise the mating systems, variances of reproductive success and gene flow at the instantaneous time scale, named contemporary approaches (Bacles et al., 2005; Sork et al., 1999 ). To measure genetic drift and departure from random mating in plant populations, early studies used neutral genetic markers and paternity assignment to evaluate the male reproductive success (i.e. male fertility) of all pollen donors in an experimental plot (Devlin, Ellstrand, 1990; Smouse, Meagher, 1994). The inter-individual variance of fertility is then directly linked to the effective size of the population, N ep. Simple exclusion ((Chakraborty et al., 1988)), categorical paternity assignments (Marshall et al., 1998; Meagher, 1986) and fractional paternity assignments (Devlin et al., 1988; Nielsen et al., 2001) all concluded to a large variance of male reproductive success only partially explained by phenotypic or microenvironmental variable (Smouse et al., 1999; Smouse, Sork, 2004). For instance, diameter, local density, and flowering intensity were often significantly related to fertility. Among other variables, the distance between a pollen donor and a mother-plant plays a specific role in determining their mating probability (Adams et al., 1992 ; Streiff et al., 1999). First, distance effect on the mating probability was almost always found as very significant (Smouse, Sork, 2004). Second, pollen dispersal limited by distance both determines gene flow at long-distance and contributes to genetic drift and mating system at a very local scale ((Garcia et al., 2005)). Finally, the spatial pattern of pollen donors is most easily modified by human management and thus can be used as a lever to act on gene flow and genetic drift ((Fernandez, Gonzalez-Martinez, 2009)) A specific work has thus been achieved recently to characterize the spatial component within mating patterns (Broquet, Petit, 2009). This first consisted in estimating precisely the pollen dispersal kernel, i.e. the probability density function describing the probability for a pollen grain emitted in 0 to pollinate an ovule at any position in space ((Klein et al., 2006)). In particular, numerous studies characterized both the scale of pollen dispersal but also shape parameters that characterize the shape of the dispersal kernel and thus the intensity of longdistance pollen dispersal (Austerlitz et al., 2004; Burczyk et al., 2004; Goto et al., 2006; Oddou-Muratorio et al., 2005; Robledo-Arnuncio, Gil, 2005; Shimatani et al., 2007). Some studies also compared several families of dispersal functions with shapes slightly different (exponential-power vs. power-law tails) (Austerlitz et al., 2004 ; Klein et al., 2006). Two types of statistical approaches tackled these questions in the last few years: (i) the indirect approaches TwoGener and Kindist that rely on genetic distance or similarity indices among pairs of pollen pools sampled by pairs of mother-trees (Austerlitz, Smouse, 2002; Robledo- Arnuncio et al., 2006) and (ii) spatially explicit mating models that use a maximum likelihood approach to integrate parentage, spatial and fecundity information (Burczyk et al., 2002; Oddou-Muratorio et al., 2005). A second step in the analysis of the spatial component of mating patterns consisted in getting rid of the effect of relative positions of pollen-donors and mother-plants to finally estimate male fecundities instead of male fertilities. This was partially achieved in mating models that estimated selection gradients (i.e. fixed effects of some studied covariates on the infvidual fecundity) in a spatially explicit context (e.g. the NEIGHBOURHOOD model, (Burczyk et al., 2002)). Further, (Klein et al., 2008) proposed to estimate all individual 2 lvii

206 ANNEXE II. ESTIMATING THE VARIANCE OF MALE FECUNDITY fecundities of the pollen donors present in a study plot, and thus to access the whole variance of fecundity instead of the small part explained by the studied covariates. The variance of fecundity being related to the effective density of pollen donors d ep, the results obtained with this approach can be compared with that from the indirect approaches that directly estimate this parameter (Robledo-Arnuncio et al., 2007). (Klein et al., 2008) used a Bayesian approach relying on a Monte-Carlo Markov Chain to estimate the individual fecundities and the effective density of pollen donors d ep and applied it to the Sorbus torminalis dataset previously analysed with several classical approaches ((Austerlitz et al., 2004; Oddou- Muratorio et al., 2003; Oddou-Muratorio et al., 2005; Oddou-Muratorio et al., 2006)). However no investigation of the performance of the approach on simulated datasets were provided, which would help to evaluate the potential benefits. Also, they did not provide a computer program for researchers that would be eager to apply this approach to their specific datasets. In this study our goals were (i) to evaluate the accuracy and robustness of the estimates of the variance of fecundity obtained from the bayesian approach, (ii) to investigate the effect of neglecting a source of variation of fecundity on the likelihood ratio tests achieved on studied effects (iii) to check how variance of fertility differs from variance of fecundity and (iv) to propose a computer program easy to use and that achieve the statistical analyses presented here. MATERIAL AND METHODS Simulated designs - Random distributions Scenario Low density (LD) We simulated 50 study populations distributed following a Poisson distribution with density 0.35 (ha -1 ) in a disk with radius (x100m) placed in the centre of a total population distributed in a disk with radius following the same distribution. These radii were chosen to provide on average 200 trees inside the study area and additional trees outside the study area (example given in Fig 1A). 60 mothertrees were randomly sampled within the study area. Scenario High density (HD) We also simulated 50 study populations distributed following a Poisson distribution with density 3.5 (ha -1 ) in a rectangle with dimensions 5 x 11.4 placed in the centre of a total population distributed in a disk with radius 50 following the same distribution. These dimensions provide on average 200 trees inside the study area and additional trees outside the study area (example given in Fig 1B). 60 mother-trees were randomly sampled within the core of the study area, i.e. in the rectangle with dimensions 3.7 x 8.1 centred within the study rectangle. Simulated designs - Clustered distributions Scenario Sorbus torminalis (ST) In 100 additional simulations, we used the actual positions of 172 reproductive Sorbus torminalis trees studied in (Oddou-Muratorio et al., 2005). Considering the area of the study plot this population has a density of 0.35 ha -1. In these simulations we did not simulate trees outside the study plot but fixed the immigration rate to a constant value m=0.4 (see below). Simulating mating events In simulations LD and HD, all trees were assigned randomly a genotype at six microsatellite loci with 6 to 21 alleles per locus and given allelic frequencies (see Suppl material). These loci are actually MSS1, MMS5, MSS6, MSS9, MSS13, MSS16 with their allelic frequencies as revealed in (Oddou-Muratorio et al., 2001). We assumed linkage equilibrium among all lviii 3

207 loci, absence of inbreeding at each locus and no spatial genetic structure to draw the adult genotypes. The theoretical exclusion probability for this genetic system is In simulations ST, the actual genotypes of the reproductive trees were used. They show a spatial genetic structure with significant average kinship coefficients up to ~300m (Oddou- Muratorio et al., 2004). For each simulation r and tree k, we drew a fecundity value, F r,k, in a log-normal distribution of mean 1 and variance 2 r e r 2. We then computed the composition of the pollen pools over the sampled mother-trees as: r, jk F r,k f,b;d jk F r,l f,b;d jl l: father, and r, jj 0 (eq 1) where jk is the proportion of pollen grains originating from the known father-tree k in the pollen pool of mother-tree j. f is the dispersal kernel with parameters (mean dispersal distance, scale parameter) and b (shape parameter), and d jk is the distance between the mother-tree j and the father-tree k. We chose an exponential-power dispersal kernel (e.g. (Klein et al., 2008)) with =7.5 (x100m) and b=0.3: with b3 b 2 p,b;x,y b exp 3 bd b 3 2 b d x 2 y 2 and Γ the classical gamma function. For each of 1075 seeds sampled from the 60 mother-trees (2-27 seeds per tree, following the same distribution as in the Sorbus torminalis study, see Appendix) we then drew its mate following the probabilities { jk } k=1 respecting independency among seeds. Knowing the mother and the father of each seed and their genotypes, we drew the genotype of the seed using Mendelian rules and independency among loci. For the scenario ST where we did not simulate individually the external trees, we used the following algorithm: with probability m (=0.4) the pollen grain was originating from outside the site with a genotype drawn in the allelic frequencies, with probability s (=0.02) the seed originated from a selfing event and the paternal gamete was drawn from the genotype of the mother-tree using classical segregation probabilities, and with probability (1-m-s) (=0.58) we drew the father among the 171 known trees different from the mother using the pollen pool composition { jk } k=1 171 and then the paternal gamete from the genotype of the retained father. A maternal gamete was drawn from the genotype of the mother-tree and associated to the paternal gamete to provide a diploid genotype to each seed o at each simulation r. 4 (eq 2) 2 With this simulation scheme we fixed the theoretical variance of fecundity r (or equivalently, the ratio d obs /d ep,r = 2 r +1). We then computed the empirical variance of the actual individual fecundities as: S 2 r 1 n1 F r,k F r,. 2, where n is the number of father-trees inside the study site and fecundities F r,k. k F r,. is the average of the lix

208 ANNEXE II. ESTIMATING THE VARIANCE OF MALE FECUNDITY We also computed the variance of fertility over the sampled seeds as SF 2 r 1 n1 N r,k N r,. 2, where N r, k is the number of sampled seeds actually fathered by the tree k and average of the fertilities N r,k. k N r,. is the In scenarios LD and HD, we simulated one data set for each of 2 r varying from 0 to 10 by steps of 0.2, resulting in 50 data sets. In the scenario ST, we simulated one data set for each of 2 r varying from 0 to 10 by steps of 0.1, resulting in 100 data sets. Simulating covariates NOT affecting fecundity In the LD and HD scenarios, for each adult tree inside the study area we drew independently two discrete covariates COV1 and COV2 with probabilities (.9,.16,.25,.25,.16,.9) associated to six modalities (A, B, C, D, E, F). In the ST scenario we had three covariates associated to each reproductive tree: flowering intensity (COV1), local density (COV2) and diameter class (COV3) with 4, 5 and 6 modalities respectively. None of these variables had any effect on fecundity or fertility in the simulated datasets. Estimation of the dispersal parameters and variance of fecundity For each data set, we successively used the following approaches: (ML) the maximum likelihood approach based on a mating model (Burczyk et al., 2002; Oddou-Muratorio et al., 2005) assuming the same fecundity for all trees, (MLCov) the same approach using the covariates as proxies for fecundity, (BayLN) the Bayesian approach modelling fecundity through an individual random effect log-normally distributed (Klein et al., 2008), (BayG) the Bayesian approach with a gamma distribution of fecundities and (TG) the TwoGener approach. For the MLCov approach we used the two covariates COV1 and COV2 in the HD and HD scenarios and the three actual covariates COV1-3 in the ST case. Maximum likelihood and mating model In the approaches ML and MLCov we used the likelihood function previously defined (Adams, Birkes, 1991; Burczyk et al., 2002; Oddou-Muratorio et al., 2005), associated to the set of genotypes g g o o:offspring of the sampled seeds: Lg COV,,b,s,m stg o g jo,g jo mtg o g jo,af 1 s m jo ktg o g jo,g k, (eqn 3) o:offspring k: father where jk are the compositions of the pollen pools (eqn 2) that depend on the dispersal parameters and where fecundities may depend on parameters for the covariates ( COV in the approach MLCov, see eq. 4 in (Oddou-Muratorio et al., 2005)) or be all equal to 1 (approach ML, see eq. 5 in (Oddou-Muratorio et al., 2005)). Tg o g jo,x is the Mendelian segregation probability (Meagher, 1986) of the offspring genotype (g o ) given the genotype of the mother ( g ) and X, where X corresponds (i) to the genotype of the mother in the case of self- j O fertilisation (ii) to the allelic frequencies in the pollen pool external to the neighbourhood (AF) in the case of outcrossing with a non sampled father tree or (iii) to the genotype of the considered father tree (g k ) in the case of outcrossing with a sampled male k. Dispersal parameters (, b), mating parameters (s, m) and effects of covariates ( COV, only in the MLCov case) were estimated by maximizing the likelihood function using lx 5

209 Mathematica 7.1. In the MLCov approach, we computed the variance of fecundity from the estimated COV following Eq. 8 in (Oddou-Muratorio et al., 2005). We also tested the significance of all effects of the covariates globally using a likelihood ratio test that compared the likelihood reached in the MLCov with that reached in the ML approach (ref.). Bayesian estimation and random individual fecundity We used the approach developed in (Klein et al., 2008) to estimate (i) the ratio d obs /d ep, measuring the variance of fecundities (ii) the dispersal parameters (, b) and the mating system parameters (s, m), and (iii) all individual relative fecundities F k. The approach relies on the likelihood for the set of genotypes g g o o:offspring of the sampled seeds LgF, 2,,b,s,m stg o g jo,g jo mtg o g jo,af 1 s m jo ktg o g jo,g k, (eqn 4) o:offspring k: father where the compositions of the pollen pools jk now depend on the dispersal parameters and on the individual fecundities F F k k1... as given by eqn 1. The transition probabilities Tg o g jo,x are defined as above. We used the same prior distributions and the same proposal distributions as in (Klein et al., 2008). We computed the posterior distributions for the parameters r,,b,m,s using a MCMC of steps and omitting the 5000 first steps, and computed the posterior means and medians. We initiated the Markov chain with and F 0 1,1,...,1. For each simulation r and at each iteration t, the effective density was computed through the ratio d obs e r,t d ep,r,t and the posterior distribution for this ratio was computed as for the other parameters: we used the posterior mean and posterior median as point estimates for the theoretical d obs /d ep. 95% credibility intervals were obtained by computing the 2.5% and 97.5-quantiles from the retained values of the parameter in the MCMC. Using the individual fecundities every 15 iterations, F r,t, we also computed the posterior distribution for the fecundity of each individual k, F r,k, and considered its mean F r,k as an estimate of F r,k. We related these estimated fecundities to the actual fecundities by computing the coefficient of determination, R 2, for the log-log regression of log F r,k k1...n over log F r,k k1...n. We also computed the empirical variance of the estimated fecundities as S r 2 1 n1 F r,k F r,. 2, providing an estimator for the empirical ratio d obs /d ep Estimation software d obs d ep,r k (2) 6 2 S 2 r 1. F r,. lxi

210 ANNEXE II. ESTIMATING THE VARIANCE OF MALE FECUNDITY The Bayesian analyses were achieved using the software MEMM (Mixed Effect Mating Model). This software implements the method presented here and in (Klein et al., 2008) to estimate the dispersal and mating parameters and the theoretical and empirical variances of fecundities. Log-normal and gamma distributions for the random individual fecundities can be used. MEMM is available at together with a manual and examples of input data files. Versions for MS Windows, MacOS X (intel) and linux are available. The C++ code is also available from E Klein upon request for users wishing to compile it on their own computer. The input and output files are text files and functions to plot the results in a visual way are provided that run on R (CRAN project). RESULTS Estimates of the dispersal kernel and mating system parameters The Bayesian approach provided estimations of the dispersal parameters independent of the variance of fecundity d obs /d ep for the three scenarios (e.g. Figure 2). The dispersal parameters estimates are slightly biased towards more long-distance dispersal: (i) the mean dispersal distance is biased upward and (ii) the shape parameter is biased downward, i.e. towards fatter-tailed dispersal kernels (Table 1). For the mean dispersal distance, the estimations based on the posterior median were less biased and had a smaller standard deviation than those resulting from the posterior mean (geometric mean= 8.18 vs for ST; 8.68 vs for LD; vs for HD). Using a gamma distribution for the fecundities instead of the log-normal distribution led to a slight increase of the bias and standard deviation (geometric mean of the posterior median estimates = 8.54 vs for ST; 8.93 vs for LD and 21.2 vs for HD). The 95%-credibility interval computed in the Bayesian approach from the posterior distribution were globally accurate, with error rates between 0% (parameter b for BayLN in scenario ST) and 16% (parameter b for BayG in scenario LD) where we expected 5%. Finally, the High Density scenario provided wider credibility interval, especially for the mean dispersal distance but also for the shape parameter b. This scenario was also associated to higher bias and more variance of the estimates (Table 1) The maximum likelihood estimators were almost unbiased for the dispersal parameters (means for estimates were 7.95, 7.89 and 7.70 instead of 7.5 for ML in scenarios ST, LD and HD) and b (means for b estimates were 0.35, 0.34 and 0.33 instead of 0.3 for ML in scenarios ST, LD and HD). The 95%-likelihood-profile confidence intervals for these parameters were narrower that the 95% credibility interval provided by BayLN. But they were too narrow as the true value for the parameters (b=0.3) was not included in the confidence intervals in 72%, 58% and 26% of the simulations (in the ST, LD and HD scenarios respectively) instead of 5%. In our simulation scenarios, the estimates obtained with or without considering the covariates for fecundity had similar properties. Furthermore, contrarily to the Bayesian approach, the estimation of the dispersal parameters was affected by an increase in variance of fecundity. First, the bias in the estimation of increased with d obs /d ep (geometric mean= 7.39 for when d obs /d ep is in (1,6); geometric mean= 8.55 for when d obs /d ep in (6,11); geometric means significantly different, P=0.01). Second, the accuracy of the confidence intervals decreased when d obs /d ep increased: in the ST scenario, if 72 simulations over 100 found the true value (7.5, 0.3) out of the confidence intervals, this type I error was 25% over the 20 simulations with 1<d obs /d ep 3 and 85% over the 80 simulations with 3<d obs /d ep 11. lxii 7

211 The TwoGener estimates were mostly characterized by a large variance (Table 1). Overall, the bias for the mean dispersal distance was not high, but the parameter b was overestimated (means of the b estimates are 1.3, 0.72 and 0.4 instead of 0.3 in scenarios ST, LD and HD). However several simulations led to extreme values for and/or b. Furthermore, in most cases the estimation of all parameters simultaneously failed to converge or provided unrealistic values. We were thus only able to compute the sequential estimation of the parameters. Estimates of the variance of male fecundity The Bayesian approach BayLN estimated well the theoretical variance of the individual fecundity (Figure 3, Table 2). The ratio d obs /d ep was estimated with a low bias (Figure 1; mean relative bias of 14%, 8% and 2% for the posterior median in scenarios ST, LD and HD). Similarly to the dispersal parameters, the posterior mean was more biased than the posterior median. When we used a Gamma distribution to estimate the random fecundity (BayG), (although it was actually log-normally distributed, cf. M&M section) the theoretical variance was strongly under-estimated, in particular for ratios d obs /d ep >3 (Figure 3; and mean relative biases ~ -45%). In fact, the BayG methods hardly estimated values superior to 4 for the ratio d obs /d ep (Figure 3). However, this problem with the BayG method was attenuated in the results concerning the empirical variance of male fecundity (i.e. the variance computed from the actual fecundities of the trees in the study sites, either from the true fecundities (true empirical variance) of from the estimated individual fecundities (estimated empirical variance)). First the estimated empirical variances obtained with the BayLN and BayG methods were quite close from each other, even if those obtained from the BayG were generally lower than those from BayLN (Figure 4). This is confirmed by the strong correlation between the individual fecundities estimated in BayG and in BayLN (the average correlation coefficient was 0.985; and in scenarios ST, LD and HD). Second, the estimated empirical variances are closer to the true empirical variances than the estimated theoretical variances, even with the BayLN method (Figure 4). The average correlation between the true individual fecundities and the estimated individual fecundities also support this result (average correlation = 0.888, 0.921, for the BayLN estimates and average correlation = 0.878, 0.916, for the BayG estimates). As expected, the maximum likelihood approach with covariates that was actually not related to fecundity (MLCov) was unable to estimate correctly the variance of fecundity (Table 2, mean relative biases ~ -70%). However, note that some unexpectedly high variances of fecundity were estimated for some particular simulations (d obs /d ep =3.72, 1.63 and 2.04 were obtained for scenario ST d obs /d ep =9.7, scenario LD d obs /d ep =9.6 and scenario HD d obs /d ep =9.6). Two-Gener estimated values for d ep that were in the correct range of order (0.095 and 0.16 on average instead of 0.35 for ST and LD, 2.20 on average instead of 3.5 in HD). However, among different simulations of the same scenario the estimated values d ep were not correlated to the true value d obs /d ep (R 2 =0.037, and 0.002, P-value=0.054, 0.26, 0.73 for ST, LD and HD). Neglecting the variance of male fecundity in ML approaches As mentioned above, the confidence intervals for dispersal parameters were too narrow when d obs /d ep increasd, leading to excessive rates of CI not containing the true value. Further, the ML approach wrongly concluded to significant effects of the covariates in 192 simulations among 200 over the 3 scenarios (Figure 5). The only 8 simulations where the likelihood ratio test correctly concluded to non-significant effects of the covariates were all 8 lxiii

212 ANNEXE II. ESTIMATING THE VARIANCE OF MALE FECUNDITY concentrated in the range d obs /d ep <3. DISCUSSION We ran two hundred simulations to evaluate the Bayesian estimation of dispersal and fecundity in a realistic context concerning the number of putative parents, the number of mother-trees and sampled seeds and the exclusion power of the genetic system used. Although statistical theory provides theoretical results for large datasets (asymptotic results), it is also necessary to investigate the actual properties of our estimates for typical datasets. This is particularly true for Bayesian algorithms where several tuning parameters (prior distributions, proposal distribution, number of iterations of the MCMC and burn-in iterations) may affect the results of the estimation procedure. This article is also the opportunity to present the MEMM computer program available for biologists that wish to estimate the variance of fecundity and the dispersal function using the Bayesian method first proposed in (Klein et al., 2008) and investigated here. The program presently available at provides the Bayesian estimates for the dispersal and variance of fecundity parameters assuming a log-normal or a gamma distribution for the random individual fecundities and an exponential power function for the dispersal kernel. It will certainly evolve towards next versions that include more diverse dispersal functions since several studies showed that the shape of the dispersal function strongly affects the mating patterns (Klein et al., 2006; Robledo-Arnuncio, Austerlitz, 2006). It thus deserves a careful estimation through the investigation of a wide range of possible dispersal tails (Austerlitz et al., 2004; Goto et al., 2006). Another biological phenomenon crucial at determining the mating events among individuals is asynchronous flowering ((Gérard et al., 2006; Kang et al., 2003)). Including a temporal distance between individuals and considering that the mating probability depends on it is possible in mating models (e.g. (Smouse, Sork, 2004) but requires measures of the flowering phenology of all pollen adult plants in the study site. These data are costly to gather even if they sometimes prove to be more significant than distance to determine mates (Chenault et al. in prep on Populus nigra). This drawback could be partially solved by improving the Bayesian approach developed here to include a supplementary unobserved random variable associated to each individual that would model the flowering date. The information from typical genotypic data is expected to be sufficient to estimate preferential mating among some individuals additionally to the spatial component and the differential fecundities among pollen donors that we presently estimate (even if preferential mating can result from other mechanisms than phenology). Estimating this unobserved phenological data for all trees could however necessitate a reasonably large number of sampled mother-plants with various phenologies, probably a large number of seeds, and certainly some prior information about the phenological variance and overlaps. Concerning prior distributions, our Bayesian approach could probably be improved by providing more restricted prior distributions for the parameters. Here in particular, we used distributions over wide areas ((0,10 6 ) for the mean dispersal distance, (0,5) for the shape parameter b, (1, 1000) for the ratio d obs /d ep ) with long tails providing significant weight to large unrealistic values. These prior distributions probably explain the relatively bad performance of the dispersal parameters for high-density populations. Even if this type of prior distributions can be justified in total absence of expectation concerning the scale of pollen dispersal, in practical studies we generally have some preliminary knowledge about the biology of the species that could lead to narrower prior distributions. Adding the possibility to use several prior distributions in the MEMM approach is a necessary improvement. lxiv 9

213 One main result of our simulations is the unexpected Type I error rate of the likelihood ratio tests (or equivalently AIC-based model selection) used in the classical mating models based on likelihood (e.g (Goto et al., 2006; Oddou-Muratorio et al., 2005; Shimatani et al., 2007), Chybicki et al. in press). This result is qualitatively expected: a large variance of fecundity not considered in the model implies that some trees have large mating probabilities for (some) mother-plants and the multiple offspring they generate on these mothers are regarded by the model as correlated matings. Thus the hypothesis of independent fecundation events used to compute the likelihood is no longer true. This results in overdispersion ((McCullagh, Nelder, 1989)) and wrong inferences (confidence interval too narrow, P-values underestimated). In (Oddou-Muratorio et al., 2005) we already discussed a possible overdispersion and the consequences for inference. However, we did not expect that this phenomenon could be so strong in practice. Here we found that all but one simulation with d obs /d ep >2 concluded wrongly to significant effects of the covariates considered. Such a ratio of d obs /d ep >2 is likely to occur for numerous studies (N/N e is reported to be generally between 2 and 10 by (Frankham, 1995)). Thus conclusions about significant covariates affecting fecundity should be seriously considered. Possible alternatives are proposed by statistical theory to avoid errors due to these correlated matings due to variance of fecundity. Non-parametric bootstrap is a first solution (e.g. Chenault et al. in prep): resampling mother-plants and using the genotypes of the seeds from these mother-plants enables to generate bootstrap datasets (i) with the same number of seeds than the observed dataset and (ii) keeping the correlation structure among seeds within progenies. A second solution would be mixed-effects mating models that consider simultaneously fixed effects on fecundity of the covariates and an additional random individual effect accounting for the remaining unexplained part of variance. The Bayesian framework developed here enables to estimate the parameters in this statistical model and the MEMM computer program should integrate this possibility soon, justifying its name. This type of approach was already fruitful in several domains considering simultaneously genotypic and demographic information such as survival analysis, life-history traits estimation or heritability in relation with capture-mark-recapture data ((Gimenez, Choquet, 2010)). Finally, this study stresses the difference between individual fertility (i.e. male reproductive success) and individual fecundity. The former is defined as the actual number of ovules that a given plant mates after pollen dispersal (either as an expected number before sampling or as a realized number after sampling, which is that estimated from categorical assignments) whereas the latter is the amount of efficient pollen released before dispersal. Assuming random mating, fertility and fecundity are similar, but since pollen limitation by distance generally determines notably the mating patterns, fertility and fecundity are not similar. In our simulations the average correlation between simulated individual fertilities and individual expected fecundities was (only) 0.8, 0.89 and 0.87 in the three scenarios investigated. This correlation was the lowest in the Sorbus torminalis scenario, where both low density and clustered distribution of trees were expected to provide more stochasticity. Also, our scenarios all include 60 mother-plants, which is among the largest sampling effort used generally. Even with this sampling scheme, the realized fertilities (by assuming that all fathers could have been retrieved perfectly from a paternity analysis and just counting the number of offspring found for each tree) provided a worst estimate of the individual fecundities than the Bayesian approach proposed here: the average correlation among the simulated individual fecundities and the observed realized fertilities was 0.75, 0.84 and 0.81 (in ST, LD and HD scenarios) whereas the average correlation with the Bayesian estimate of fecundity was 0.89, 0.92 and 0.90, even if we used the wrong distribution of fecundity 10 lxv

214 ANNEXE II. ESTIMATING THE VARIANCE OF MALE FECUNDITY (Gamma instead of Log-normal provided correlations of 0.88, 0.92 and 0.89). The differences between fecundity and expected fertility should increase with smaller number of sampled mother-trees since no correction is applied to fertility estimates in order to account for the biases generated by a non-representative sampling (i.e. some mothers instead of all plants providing seeds). Further, the differences between expected fertility and observed fertility should be more variable with smaller number of seeds analyzed. Both phenomena should amplify the bad performance of basic paternity analysis for estimating individual fecundities when the sampling rate decreases. Note however that fertility is not always the characteristics of principal interest. It is fruitful to decompose the spatial (and phenological) and fecundity components within a modelling framework. This enables to compute in a second step the male reproductive success (and the variance of male reproductive success, determining the effective size of male population) in different spatial designs, or for different sampling schemes (for instance, over all progenies of all trees of the study site). If the main goal of a study is to characterize the effective number of pollen donors per mother tree in the particular spatial configuration of the study site, basic paternity analyses provide a satisfactory answer. The former approach is a first step towards a mechanistic model of mating pattern, while the second is more a descriptive approach. ACKNOWLEDGMENTS We are grateful to for comments on the successive versions of the manuscript. This work was supported by the program ECOlogie pour la Gestion des Ecosystèmes et de leur Ressources funded by INRA. AUTHOR INFORMATION BOX Etienne Klein is interested in modelling and estimating long-distance dispersal. Florence Carpentier just finished his PhD about computer intensive methods for estimating pollen dispersal. Sylvie Oddou-Muratorio is now studying population genetics of expanding tree populations. lxvi 11

215 Table 1 Mean values for the dispersal parameters estimated from the three types of methods. In the three scenarios ST, LD and HD. For each parameter and each method, we provide the geometric mean of the estimates, the mean confidence/credibility interval, and the percentage of cases where the true value of the parameter wxas outside of the 95%-confidence interval. For bayesian methods BayLN and BayG we provide in each cell the performance of the posterior mean (left) and the posterior median (right). Scenario Method mean dispersal shape parameter, migration rate, selfing rate, s distance, b=0.3 m ST ML (5.80 ; 12.42) 72% (0.28 ; 0.44) 72% MLCov BayLN 8.85 / 8.18 (5.5 ; 16.0) 6% BayG 9.35 / 8.54 (5.62 ; 17.31) 7% 0.29 / 0.29 (0.21 ; 0.37) 0% 0.29 / 0.28 (0.20 ; 0.37) 3% 0.45 / 0.45 (0.42 ; 0.48) 11% 0.45 / 0.45 (0.42 ; 0.48) 8% 0.011/ (0.005 ; 0.019) 62% 0.011/ (0.005 ; 0.019) 59% TwoGener LD ML 7.89 (6.03; 11.87) 58% 0.34 (0.26 ; 0.44) 58% MLCov BayLN / 8.68 (6.12; 20.6) 4% BayG / 8.93 (6.2; 23.4) 10% / (0.16; 0.36) 14% / (0.16; 0.36) 16% 0.31 / 0.31 (0.29; 0.34) 0.31 / 0.31 (0.29; 0.34) <10-8 (0; ) <10-8 (0; ) TwoGener HD ML 7.70 (5.11 ; 52.94) 26% 0.33 (0.18 ; 0.55) 26% MLCov BayLN 122.2/14.73 (4.6; 632) 10% BayG 70.0 / 21.2 (4.9; 383) 14% / (0.11; 0.41) 8% / (0.11; 0.39) 12% 0.54 / 0.54 (0.51; 0.57) 0.54 / 0.54 (0.51; 0.57) <10-6 (0; ) <10-6 (0; ) TwoGener lxvii

216 ANNEXE II. ESTIMATING THE VARIANCE OF MALE FECUNDITY The true value for m was 0.45 in the ST scenario. In the LD and HD scenarios, we computed the true value by averaging over the simulations the proportion of real paternities actually out of the study site. We found m= 0.32 and 0.54 for LD and HD respectively. The simulation dobs/de=10.2 was removed because the absence of convergence led to unrealistic values (delta > 10 5 and b<0.1) * Probability to draw a mate at a larger distance than 1000m was computed from the estimated dispersal function for the Two-Gener method since it does not estimate the m parameter. - Not defined. lxviii 13

217 Table 2 Variance of fecundity parameters estimated from the three types of methods. Mean relative bias and mean relative confidence interval are provided for dobs/de. Geometric mean for de estimates. Type I error rates for MLCov provide the percentage of simulated datsets for which the likelihood ratio 5%-test concluded in a significant effects of the covariates that actually had no effect on fecundity. We would thus expect values close to 5%. Scenario Method d obs /d e d e (trees/ha) Type I Error rate ST MLCov -71% 97% Max= 3.72 BayLN +30% / +14% (-0.34 ; 1.88) 8% BayG -44% / -45% (-0.53 ; -0.33) 89% TwoGener +14% R2=0.037 LD MLCov -74% 96% max= 1.63 BayLN +19% / +8% (-0.32; 1.36) 8% BayG -46% / -46% (-0.54; -0.37) 88% TwoGener -37% 0.16 R2=0.011 HD MLCov -72% 94% max= 2.04 BayLN +13% / +2% (-0.37; 1.34) 6% BayG -42% / -43% (-0.52; -0.30) 88% TwoGener -33% 2.20 R2=0.027 Geometric means are provided for the de estimator. R2 indicates the coefficient of determination for the regression of the estimated ratio dobs/de against the true dobs/de. * - 14 lxix

218 ANNEXE II. ESTIMATING THE VARIANCE OF MALE FECUNDITY Fig. 1 Typical spatial configurations investigated in the three scenarios simulated: (A) Low density; (B) High density and (C) Sorbus torminalis. Bottom figures represent zooms on the white central squares. Blue dots are unsampled pollen donors, black dots are sampled pollen donors and red dots represent mother-trees where seeds are collected lxx 15

219 Fig 2. Estimated values for the dispersal parameters (scale parameter, left column) and b (shape parameter, right column). Scenarios LD, HD and ST are presented from top to bottom. Full dots are the estimates based on the posterior mean, empty dots are for the posterior median, and bars represent the 95% credibility interval. The black line represents the true value of the parameter. 16 lxxi

220 ANNEXE II. ESTIMATING THE VARIANCE OF MALE FECUNDITY Fig 3. Estimated values for the parameter measuring the variance of fecundity, dobs/de. Scenarios LD, HD and ST are presented from top to bottom. Left figures present parameters estimated using a log-normal random fecundity (BayLN) and right figures parameters estimated with a Gamma random fecundity (BayG). Full dots are the estimates based on the posterior mean, empty dots are for the posterior median, and bars represent the 95% credibility interval. The black line represents the diagonal estimated value = true value. lxxii 17

221 Fig 3. Estimated values for the parameter dobs/de measuring the variance of fecundity. True empirical dobs/de computed from the actual fecundity of the simulated putative fathers inside the study plot are plotted on the x-axis. On the y-axis we plotted the theoretical (empty marks) and empirical (full marks) dobs/de estimated with a log-normal (green) and a gamma (black) assumption for the distribution of the random individual fecundity. Scenarios LD, HD and ST are represented from top to bottom. 18 lxxiii

222 ANNEXE II. ESTIMATING THE VARIANCE OF MALE FECUNDITY Fig. 4 Type I errors of the likelihood ratio test aiming at detecting significant effects of covariates on the fecundity. The values of the LRT for all simulated datasets are represented as a function of the true variance of fecundity (x-axis). All three scenarios are plotted (Squares: LD; Circles: HD; Triangles: ST). The horizontal lines represent the threshold values above which the covariates are considered as significant at the 5% level (Black: LD and HD; Gray: ST). 16 values of the LRT were greater than 200 and are not plotted on this scale. lxxiv 19

223 Adams WT, Birkes DS (1991) Estimating mating patterns in forest tree populations. In: Biochemichal markers in the population genetics of forest trees (eds. Fineschi S, Malvolti ME, Cannata F, Hattemer HH), pp SPB Academic Publishing, The Hague. Adams WT, Griffin AR, Moran GF (1992) Using paternity analysis to measure effective pollen dispersal in plant populations. American Naturalist 140, Austerlitz F, Dick CW, Dutech C, et al. (2004) Using genetic markers to estimate the pollen dispersal curve. Molecular Ecology 13, Austerlitz F, Smouse PE (2002) Two-generation analysis of pollen flow across a landscape. IV. Estimating the dispersal parameter. Genetics 161, Bacles CFE, Burczyk J, Lowe AJ, Ennos RA (2005) Historical and contemporary mating patterns in remnant populations of the forest tree Fraxinus excelsior L. Evolution 59, Broquet T, Petit EJ (2009) Molecular Estimation of Dispersal for Ecology and Population Genetics. Annual Review of Ecology Evolution and Systematics 40, Burczyk J, Adams WT, Moran GF, Griffin AR (2002) Complex patterns of mating revealed in a Eucalyptus regnans seed orchard using allozyme markers and the neighbourhood model. Molecular Ecology 11, Burczyk J, Lewandowski A, Chalupka W (2004) Local pollen dispersal and distant gene flow in Norway spruce (Picea abies [L.] Karst.). Forest Ecology and Management 197, Chakraborty R, Meagher TR, Smouse PE (1988) Parentage analysis with genetic markers in natural populations. I. The expected proportion of offspring with unambiguous paternity. Genetics 118, Devlin B, Ellstrand NC (1990) Male and female fertility variation in wild radish, a hermaphrodite. American Naturalist 136, Devlin B, Roeder K, Ellstrand NC (1988) Fractional paternity assignment: theoretical development and comparison to other methods. Theoretical & Applied Genetics 76, Ellstrand NC (1992) Gene flow by pollen: implications for plant conservation genetics. Oikos 63, Fernandez J, Gonzalez-Martinez SC (2009) Allocating individuals to avoid inbreeding in ex situ conservation plantations: so far, so good. Conservation Genetics 10, Frankham R (1995) Effective population-size adult-population size ratios in wildife - A review. Genetical Research 66, Garcia C, Arroyo JM, Godoy JA, Jordano P (2005) Mating patterns, pollen dispersal, and the ecological maternal neighbourhood in a Prunus mahaleb L. population. Molecular Ecology 14, Gérard P, Klein EK, Austerlitz F, Fernandez-Majarres JF, Frascaria-Lacoste N (2006) Assortative mating and differential male mating success in an ash hybrid zone population. BMC Evolutionary Biology 6, 96. Gimenez O, Choquet R (2010) Individual heterogeneity in studies on marked animals using numerical integration: capture-recapture mixed models. Ecology 91, Goto S, Shimatani K, Yoshimaru H, Takahashi Y (2006) Fat-tailed gene flow in the dioecious canopy tree species Fraxinus mandshurica var. japonica revealed by microsatellites. Molecular Ecology 15, Kang KS, Bila AD, Harju AM, Lindgren D (2003) Estimation of fertility variation in forest tree populations. Forestry 76, Klein EK, Desassis N, Oddou-Muratorio S (2008) Pollen flow in the wildservice tree, Sorbus torminalis (L.) Crantz. IV. Whole interindividual variance of male fecundity estimated 20 lxxv

224 ANNEXE II. ESTIMATING THE VARIANCE OF MALE FECUNDITY jointly with the dispersal kernel. Molecular Ecology 17, Klein EK, Lavigne C, Gouyon PH (2006) Mixing of propagules from discrete sources at long distance: comparing a dispersal tail to an exponential. BMC Ecology 6, 3. Marshall TC, Slate J, Kruuk LEB, Pemberton JM (1998) Statistical confidence for likelihoodbased paternity inference in natural populations. Molecular Ecology 7, McCullagh P, Nelder JA (1989) Generalized Linear Models Chapman & Hall/ CRC, Boca Raton. Meagher TR (1986) Analysis of paternity within a population of Chamaelirium luteum. I. Identification of the most-likely male parents. American Naturalist 128, Nielsen R, Mattila DK, Clapham PJ, Palsboll PJ (2001) Statistical approaches to paternity analysis in natural populations and applications to the North Atlantic humpback whale. Genetics 157, Oddou-Muratorio S, Aligon C, Decroocq S, et al. (2001) Microsatellite primers for Sorbus torminalis and related species. Molecular Ecology Notes 1, Oddou-Muratorio S, Demesure-Musch B, Pelissier R, Gouyon PH (2004) Impacts of gene flow and logging history on the local genetic structure of a scattered tree species, Sorbus torminalis L. Crantz. Molecular Ecology 13, Oddou-Muratorio S, Houot ML, Demesure-Musch B, Austerlitz F (2003) Pollen flow in the wildservice tree, Sorbus torminalis (L.) Crantz. I. Evaluating the paternity analysis procedure in continuous populations. Molecular Ecology 12, Oddou-Muratorio S, Klein EK, Austerlitz F (2005) Pollen flow in the wildservice tree, Sorbus torminalis (L.) Crantz. II. Pollen dispersal and heterogeneity in mating success inferred from parent-offspring analysis. Molecular Ecology 14, Oddou-Muratorio S, Klein EK, Austerlitz F (2006) Real-time patterns of pollen flow in the wildservice tree, Sorbus torminalis III. Mating patterns and the ecological maternal neighborhood American Journal of Botany 93, Robledo-Arnuncio JJ, Austerlitz F (2006) Pollen dispersal in spatially aggregated populations. American Naturalist 168, Robledo-Arnuncio JJ, Austerlitz F, Smouse PE (2006) A new method of estimating the pollen dispersal curve independently of effective density. Genetics 173, Robledo-Arnuncio JJ, Austerlitz F, Smouse PE (2007) POLDISP: a software package for indirect estimation of contemporary pollen dispersal. Molecular Ecology Notes 7, Robledo-Arnuncio JJ, Gil L (2005) Patterns of pollen dispersal in a small population of Pinus sylvestris L. revealed by total-exclusion paternity analysis. Heredity 94, Savolainen O, Pyhajarvi T, Knurr T (2007) Gene flow and local adaptation in trees. Annual Review of Ecology Evolution and Systematics 38, Shimatani K, Kimura M, Kitamura K, et al. (2007) Determining the location of a deceased mother tree and estimating forest regeneration variables by use of microsatellites and spatial genetic models. Population Ecology 49, Smouse PE, Meagher TR (1994) Genetic-analysis of male reproductive contributions in Chamaelirium luteum (L) Gray (Liliaceae). Genetics 136, Smouse PE, Meagher TR, Kobak CJ (1999) Parentage analysis in Chamaelirium luteum (L.) Gray (Liliaceae): why do some males have higher reproductive contributions? Journal of Evolutionary Biology 12, Smouse PE, Sork VL (2004) Measuring pollen flow in forest trees: an exposition of alternative approaches. Forest Ecology And Management 197, Sork VL, Nason J, Campbell DR, Fernandez JF (1999) Landscape approaches to historical and contemporary gene flow in plants. Trends in Ecology & Evolution 14, Streiff R, Ducousso A, Lexer C, et al. (1999) Pollen dispersal inferred from paternity analysis lxxvi 21

225 in a mixed oak stand of Quercus robur L-and Q-petraea (Matt.) Liebl. Molecular Ecology 8, lxxvii

226

227 Annexe III Simulating dispersal with the backward dispersion function

228 ANNEXE III. BACKWARD FUNCTION SIMULATIONS Simulating dispersal with the backward dispersal function Carpentier, F. H. and Chadœuf, J. Abstract Propagules (pollen and seed) dispersal can be modeled in two ways using a dispersal function :(i) in a forward approach modeling propagule movement from its origin to its arrival or (ii) in a backward approach modeling its origin location knowing its arrival location. The forward approach uses an explicit statistical mecanistic model describing first the propagule movement with the forward dispersal curve and the probability of the sucess of the propagule (fecundation for pollen or etablishment for the seed). On the contrary, the backward approach uses a more empirical model, describing the mean dispersal process using only a backward dispersal function. In this paper, we demonstrate first that direct simulation of backward dispersal can lead to bias and second we propose a method to correct this simulation. Introduction. Evaluating a propagule dispersal in a statistical framework using genetic data is done through two ways, either by estimating the probability density that a propagule can be found at a given distance from the parent (here after, this probability density is called the forward dispersal function), or by estimating the probability density that the parent of a propagule is at a given distance from the propagule (here after called the backward dispersal function). Statistical modeling is performed on different characteristics of the observed process in these two approaches, so that very different measurements are necessary, a fact which makes them complementary from a practical point of view. The first approach (Burczyk et al. (2002) and Oddou-Muratorio 1 lxxx

229 et al. (2005)) is based on the likelihood of the genetic composition of the propagules and needs the knowledge of the genotypes and positions of all potential parents in a given area. The second approach (first developed for pollen dispersal by Austerlitz and Smouse (2002) in the TwoGener method and by Robledo-Arnuncio et al. (2006) in the Kindist method and adapted for seed dispersal by Grivet et al. (2005)) is based on the variation of the co-origin of propagules (i.e. the fact that they come from the same individuals) with respect to their geographic distance and needs the sampling and genotypes of propagules in several local positions only. A typical example of this complementarity is the pollen dispersal function estimation. In the two cases seeds are sampled on several trees (the mothers hereafter) and genotyped. However all parent trees are sampled (positions and genotypes) in a large area in the first case, whereas the positions and genotypes of the mothers only is needed in the second case, merely to estimate the pollen pool of each sampled mother. Location of the unobserved parents is then assumed to follow a spatial Poisson process (independent positions with a constant density see Diggle (1983) for more details). The second approach can then be preferred in cases where the dispersal function must be estimated on large and/or high-density-population areas where characterizing all parents is impossible, or when parents have disappeared. In the second approach, simulations could be a crucial part of the estimation, to get statistical properties of the backward dispersal function parameters since, Contrarily to the first approach using a classical maximum likelihood approach, statistical properties of the estimated parameters are not established. The estimation is basically the result of the minimization between a theoretical curve and its empirical estimation using the data, but the values of the empirical curve are statistically dependant because (i) they are computed using the same data for several distances and (ii) observed data are statistically dependant due to the distance-dependant dispersal. Then, classical results on non parametric regression cannot be applied. To circumvent this problem, a parametric bootstrap approach (Efron, 1982) can be proposed: (i) estimate model parameters using the data, (ii) simulate several independent data sets using the estimated model parameters, (iii) estimate bootstrap parameters for each simulated data set, (iv) estimate parameter bias, variance... on these bootstrap parameters. Simulation of propagule dispersal in the backward approach is however not so straightforward. The main problem comes from the fact that the model is incompletely specified. In fact, the dispersal backward function 2 lxxxi

230 ANNEXE III. BACKWARD FUNCTION SIMULATIONS defines the probability density that the origin location of a propagule (its father for a pollen grain and its mother for a seed or a seedling) is at a given distance of its arrival location (its mother for a pollen grain or its position for a seedling). The distribution of the process of the arrival-origin distances is only modeled on its fist marginal by the backward dispersal function. The co-origin probability of two propagules is then derived using independence assumptions. Density probabilities of higher order needed for simulation, as for exemple the probability p(x, y a, b) that propagules at positions a and b come from parents at x and y, are not modeled. In fact this probability can be written p(x, y a, b) = p(y a, b, x)p(x a) where p(x a) is the backward density function supposed to be known during the simulation, and p(y a, b, x) is the probability that propagule at b has its parent at y knowing that the propagule at a has its parent at x, a density not modeled explicitly. So several probabilistic processes, corresponding to several simulation procedures, may lead to the same modeled marginals. However, only one simulation method is used at the moment to estimate the variablity of the parameters of backward pollen dispersal functions (Austerlitz and Smouse (2002), Robledo-Arnuncio et al. (2006)), this simulation method being easy to implement and intuitive. They first simulate potential parent patterns, then affect fathers to a set of pollen grains positioned on the mothers trees. During this last step, they must shift from a continuous distribution linked to the model of density probability, to the discrete distribution corresponding to the actual positions. This step is somewhat tricky and can lead to biases. We propose in this article an unbiased simulation method of this model. In a first section, we present the simulation method developed by Austerlitz and Smouse (2001) and Robledo-Arnuncio et al. (2006). In a second section we show how bias may appear with this method and propose a correction. Simulation results are presented in a third section. Extensions to other spatial distributions of potential parents are discussed in a last section. 3 lxxxii

231 1 The simulation method proposed by Austerlitz and Smouse (2001) and Robledo-Arnuncio et al. (2006). Let h(x) the probability density of the position x of the unknown parent of a propagule at location O. The simulation method proposed by Austerlitz and Smouse (2001) to simulate the pollen dispersal observed on seeds attached to their mother trees comprises three steps. In a first step potential parent positions (X i ) are simulated according to a Poisson point process. Seed positions y j (i.e. propagule arrival locations) are then chosen in a second step as a subset of (X i ). These can be the nearest (X i ) from a predefined set on points as the nodes of a regular grid (Austerlitz and Smouse, 2001). A father (an actual parent) of a seed at location y is then sampled in a last step by first sampling a point x y in IR 2 according to h(x y), then attributing the parentage of x to the nearest point of (X i ) from x y. 2 Bias and bias correction 2.1 from h(.) to the simulated parent distribution Consider a propagule at position y = 0 (so that O X if we are interested in pollen dispersal) and let x 0 IR 2 the location of a point simulated under h(.). The probability density that a parent exists at position x and is the nearest from x 0 is { p(x x 0 ) = λe { πλ x 0 x 2} 1 { x0 x < x 0 } for x 0 P (x = 0 x 0 ) = e { πλ x 0 x 2 } where λ is the intensity of the Poisson point process. e { πλ x 0 x 2} corresponds to the probability to have no point inside the circle of radius x 0 x centered on x. Note that the second equation appears only because Austerlitz and Smouse (2001) are interested in pollen dispersal, i.e. how pollen travels from one tree to another one, and that they assume that the selfing (the mother pollinating itself) is driven by the backward dispersal function as the other fecundation events. It disappears if one is interested in seed dispersal. 4 lxxxiii

232 ANNEXE III. BACKWARD FUNCTION SIMULATIONS Integrating over all possible x 0 positions, the simulation procedure then gives the probability for a tree at x X to be the parent of the propagule at 0 as: { 2.2 Conclusions p(x) = λ u B(x, x ) e{ πλ u x 2} h(u)du P (x = 0) = u IR 2 e{ πλ u 2} h(u)du Two main remarks can be drawn from the above equations: First, the parent distribution of a propagule at 0 presents an atom at 0 although no atom is introduced in h(.). Second, the parent distribution for x 0 is not equal to h(.), but is a weighted linear combination of h(.) with weights proportional e { πλ u x 2}. If we are interested in seed dispersal, or if no selfing exists in pollen dispersal, then we expect P (x = 0) = 0 since h is a continuous density function. In this last case, simulation is performed similarly, but the mother of the seed must be excluded when looking at the nearest parent from x 0. Assuming that no selfing is in fact an implicit assumption made when using the TwoGener or the Kindist methods (Carpentier et al. (prep)). Then, p(x) λ u IR 2 e{ πλ u x 2} h(u)du. The density p(.) obtained by simulation is so the convolution ( ) of h(.) by a gaussian density with mean 0 and 1 0 variance matrix 1. If h is symmetric around 0, p(x) is centered 2πλ 0 1 on 0. Moreover the variance vp 2 associated to p(x) is v2 p = v2 h + 1. So, not 2πλ every density function p(x) can be simulated that way; its variance must be greater than 1. 2πλ If h(.) = g z,a 2(.) is the probability density of a bidimensional gaussian variable centered on z with variance a 2, h(u) = 1 e { x z /2a2}, then p(x) 2πa 2 is a gaussian probability density centered on z and with variance 2πλa πλ So, having a gaussian distribution for h(.) leads to a gaussian distribution for p(.), but this not not generally true, the density p(.) associated to an exponential h(.) for exemple is not exponential. 5 lxxxiv

233 2.3 Simulation proposals The Fourier ( transform ) of the gaussian density of mean 0 and variance matrix 1 being a gaussian density with mean 0 and variance matrix 1 0 2πλ 0 1 ( ) 1 0 2πλ, the solution the integral equation p(x) = λ u IR e{ πλ u x 2} h(u)du, is given as h(u) = F 1 (e /4πλ} { u 2 F(p)(u)/4π 2 λ), and simulation performed with h(.) will lead to a dispersal function p(.). In practice, on can compute the aimed density on a fine square grid centred on 0, multiply the value p(x 1, x 2 ) at each node (x 1, x 2 ) by e { (x 2 )/4πλ} 1 +x2 2. Figure 1 illustrates this procedure for λ = 1. Figure 1a shows the aimed disperstion density p(.) obtained as a mixture of three gaussian kernels : p(x) = 1 i ω i 18π e x zi /18, ω = (0.25, 0.5, 0.25), z = ((5, 5), (0, 0), ( 5, 5)), the Fourier transform F(p) is given in Figure 1b, e { u 2 /4πλ} F(p)(u)/4π 2 λ is plotted in Figure 1c, and the proposed dispersal h() to be used in the simulation procedure is shown in Figure 1d. An easer solution exists if one can suppose that p(x) as been modelled as a mixture of densities g i (x) for which the corresponding densities h i (u) are known, each density corresponding to a dispersal at a given scale for example. Then, if p(x) = i a i g i (x), h(.) is simply given as h(u) = i a i h i (u). If for example the aimed density p(x) is the sum of gaussian densities, p(x) = i λ i g zi,a 2 (x), it can be attained by using the proposed simulation i above with the density h(u) = i λ i g zi,b 2(x) with b2 i i as soon as = 2πλa2 i 1 2πλ 2πλa 2 i > 1. Figure 2 shows in black the density of the radial density corresponding to a gaussian distribution p(x) with intensity a 2 = 0.5, in red the radial density of the gaussian distribution a 2 1 corresponding to the density π h(u) to be used if the Poisson process is of intensity λ = 1. On can notice that the two distributions differ a lot arround 0. In green we give the radial distribution p (x) we get if we use p(x) in the simulation procedure. Not taking the correction into account leads to a simulated radius distribution with a lower and broader peak. 6 lxxxv

234 ANNEXE III. BACKWARD FUNCTION SIMULATIONS 3 Discussion Not all densities can be simulated by the procedure proposed by Austerlitz and Smouse (2001), but only those who are the convolution ( of a) probability 1 0 density by a gaussian density with variance matrix 1. However, 2πλ 0 1 if λ becomes large, then p(.) converges to h(.), so that a correction is useless in such cases. Applying directly the proposed correction on densities p(.) which cannot be written as a convolution by this gaussian density can lead to non-valid solutions h(.). One can then chose to approach p(.) by a valid p (.), for exemple minimizing the distance between p ans the convolution of a sum of gaussian distributions. Discrepancies between p and p must then be checked as no garanties exist that this approximate correction is better than no correction. One can also chose directly a dispersal function p() which will be coherent with the simulation model, i.e. a density which is the convolution of another density by the gaussion density. It needs however to know the intensity λ of the point process. One can perform complementary measurements to estimate λ separately. Another way can be to estimate them jointly, but current estimation methods must be modified to take into account the presence of λ in the dispersal function. The change is slight in the TwoGener method, as it already includes an estimation of λ. The greatest change appears with the Kindist method as one interest of this method was to avoid λ estimation. The Kindist and TwoGener methods assume implicitly that no selfing exists (Carpentier et al. (prep)) but we have shown that the current simulation method proposed by Austerlitz and Smouse (2001) produces some selfing. We have proposed to assume that no selfing exists and modified the simulation procedure accordingly. Introducing selfing is possible, but one must then model it explicitly (see Carpentier et al. (prep) for such an example), so that the dispersal fonction p contains an atom of probability at 0. An exact simulation can be performed as above, by considering p() as a mixture of two processes, a continuous distribution and a discreted distribution-the probability of selfing events. One will first test if selfing appears. If not, then the continuous part can be dealt with as before. 7 lxxxvi

235 List of figures Figure 1 : Estimation by Fourier transform of the density to be used in simulation procedure. (a) Aimed dispersal function p(.), ( here) the weighted 1 0 sum of three gaussian densities with variance matrix 9 centered on 0 1 (5,5), (0,0) and (-5,5) and wheights 0.25, 5 and 0.25; (b) Fourier transform (p)(.) of p(.) (; (c) F(p)/g ) where g is the gaussian distribution with variance 1 0 matrix 2πλ, λ = 1; (d) Density h() to be used in the simulation 0 1 procedure in order to obtain a dispersal function p(), obtain as the inverse transform of F(p)/g. Figure 2 : Estimation of the density to be used when it is modelled as a finite mixture of of densities of known Fourier transform, gaussian densities in this exemple. dispersal function. Black line : radial distribution function of a gaussian dispersal function of variance 0.5; red line : radial distribution function of the gaussian distribution with variance 0.5-1/π, to be used to simulate the black curve with a point process of intensity λ = 1; green line : radial distribution function of the distribution obtained when simulation with the black curve. 8 lxxxvii

236 ANNEXE III. BACKWARD FUNCTION SIMULATIONS (a) (b) (c) (d) 9 lxxxviii

237 densite rayon References Austerlitz, F. and Smouse, P. E. (2001). Two-generation analysis of pollen flow across a landscape. ii. relation between phi(ft), pollen dispersal and interfemale distance. Genetics, 157(2): Austerlitz, F. and Smouse, P. E. (2002). Two-generation analysis of pollen flow across a landscape. iv. estimating the dispersal parameter. Genetics, 161(1): Burczyk, J., Adams, W. T., Moran, G. F., and Griffin, A. R. (2002). Complex patterns of mating revealed in a eucalyptus regnans seed orchard using allozyme markers and the neighbourhood model. Molecular Ecology, 11(11): Carpentier, F., Chadoeuf, J., and Klein, E. (in prep). Estimates of backward pollen dispersal curve : Why and how considering selfing explicitly? 10 lxxxix

238 ANNEXE III. BACKWARD FUNCTION SIMULATIONS Diggle, P. J. (1983). Statistical analysis spatial point patterns. academic press inc. LTD, London, first edition. Efron, B. (1982). The Jacknife, the Bootstrap and other resampling plans. SIAM, Philadelphia. Grivet, D., Smouse, P. E., and Sork, V. L. (2005). A novel approach to an old problem: tracking dispersed seeds. Molecular Ecology, 14(11): Oddou-Muratorio, S., Klein, E. K., and Austerlitz, F. (2005). Pollen flow in the wildservice tree, sorbus torminalis (l.) crantz. ii. pollen dispersal and heterogeneity in mating success inferred from parent-offspring analysis. Molecular Ecology, 14(14): Robledo-Arnuncio, J. J., Austerlitz, F., and Smouse, P. E. (2006). A new method of estimating the pollen dispersal curve independently of effective density. Genetics, 173(2): xc

239 Annexe IV Estimates of backward pollen dispersal curve : Why and how considering selfing explicitly?

240 ANNEXE IV. CONSIDERING SELFING EXPLICITLY IN TWOGENER Estimates of backward pollen dispersal curve : Why and how considering selfing explicitly? F. Carpentier 1, J. Chadœuf 1, E. K. Klein 1,2 1 UR546, Unité Biostatistique et Processus Spatiaux, Institut National de Recherche agronomique, Avignon, France 2 UR627, Unité Écologie des Forêts Méditerranéennes, Institut National de Recherche agronomique, Avignon, France xcii 1

241 Short running head : Selfing in pollen dispersal estimation Key Words :TwoGener, Kindist, selfing rate, mixed mating system, real-time pollen dispersal Corresponding author: Florence Carpentier Unité Biostatistique et Processus Spatiaux, Institut National de Recherche Agronomique Domaine St Paul, site agroparc, F AVIGNON cedex 4 FRANCE phone: fax: xciii

242 ANNEXE IV. CONSIDERING SELFING EXPLICITLY IN TWOGENER Abstract The indirect methods TwoGener and Kindist estimate real-time effective pollen dispersal through the use of the indexes Φ ft and Ψ characterizing the genetic structure of pollen pools. They require much less data than paternity analyses, but they rely on numerous assumptions. Here, we study the assumption concerning the selfing rate which is generally said to be controlled by the pollen dispersal curve. We show analytically that the model used by TwoGener and Kindist actually considers a null selfing rate. Using simulations we show that, consequently, the current indirect methods strongly underestimate pollen dispersal distances when selfing occurs. Thus the methods Two- Gener and Kindist should only be applied to strictly outcrossing species. For species with a mixed mating system, we propose three improved methods that consider selfing : (i) a new version of TwoGener modeling selfing by a constant probability and estimating jointly the dispersal kernel parameters and the selfing rate, (ii) a method that leaves out of the data set the seeds whose genotypes are compatible with a selfing event before applying TwoGener or Kindist, or (iii) a sequential method estimating parameters one after the other using both methods (i) and (ii). Using simulations, we show that the sequential method (iii) is the least biased and the most robust among the current and three new methods proposed. xciv 3

243 Gene flow by pollen is a major component of the evolution of genetic diversity in plant populations and consequently strongly determines the ability of populations to perpetuate and to adapt to environmental changes. It is summarized in the mating system, which can be characterized by different parameters : the selfing rate, the pollen dispersal (e.g. the mean dispersal distance) and the effective number of males per mother-individual (Nep). Selfing and short-distance pollen dispersal associated with a significant spatial genetic structure lead to mating among relatives, and thus inbreeding. It also decreases Nep, increasing the intensity of genetic drift and thus decreasing the potential for selection. At the opposite, long distance pollen dispersal and high migration rates decrease gene pollen pool heterogeneity and consequently maintain genetic diversity (SORK and SMOUSE 2006). Trees are known to have a high genetic diversity (HAMRICK 2004), principally explained by low selfing rates associated to a strong inbreeding depression at early development stage and a high potential for long-distance pollen dispersal (PETIT and HAMPE 2006). However in a context of habitat fragmentation and rapid change of environment, it is crucial to evaluate how this genetic diversity can potentially evolve at the scale of only few generations. This requires an evaluation of instantaneous gene flow and mating systems (SORK et al. 1999). Several methods based on genetic markers estimating mixed mating system and pollen dispersal parameters have been recently developed and intensively used. The mixed mating model (RITLAND 2002, ADAMS et al. 1992) is commonly used to study the selfing rates, whereas effective pollen movement from male to female flowers was generally estimated after a paternity assignment (categorical see MEAGHER 1986 and HARDY et al or fractional as in DEVLIN and ELLSTRAND 1988). Pollen dispersal can also be modeled through a dispersal kernel estimated without any paternity assignment (see SMOUSE and SORK 2004 and BURCZYK and KORALEWSKI 2005 for reviews). Two types of approaches, using directly or indirectly the genetic data, can be differentiated, needing different data but also using different models of dispersal, assumptions and estimation methods. 4 xcv

244 ANNEXE IV. CONSIDERING SELFING EXPLICITLY IN TWOGENER In the "forward" approach, including the direct methods (neighborhood model in BURCZYK et al or mating model in ODDOU-MURATORIO et al. 2005) the pollen dispersal is modeled from the pollen source towards the fecundated individual, using a "forward" dispersal kernel which represents the probability for a pollen grain to reach a given location (as defined by KLEIN et al relying on LATTA et al s concepts). The estimation of the dispersal function is made using simultaneously genotypes and positions of an exhaustive sampling of individuals in the study plot. These data are directly used in likelihood function which is maximized. In these methods pollen immigration and pollen movement within the stand are generally modeled differently (but see SHIMATANI et al. 2007). In the backward approach, including the indirect methods TwoGener ((SMOUSE et al. 2001, AUSTERLITZ and SMOUSE 2001 and AUSTERLITZ and SMOUSE 2002) and Kindist ((ROBLEDO- ARNUNCIO et al. 2006)) pollen dispersal is modeled from the fecundated individual towards the pollen donors. These methods use a "backward" dispersal kernel, defined as the probability density that a pollen grain that has fertilized the mother tree, comes from a given location. They do not use seeds and mother-trees genotypes directly but through measures of the genetic structure between pools of pollen sampled by pairs of mother-trees. Pollen dispersal kernel is estimated by relating the pairwise physical distance between mother-trees with the measure of the genetic structure between their pollen pools. Contrarily to the forward approach, this approach requires a lower sampling effort: the genotypes and positions of mother trees (a sample of all trees), and the genotypes of some of their offsprings. Therefore they can be used to estimate the global pollen dispersal for vast and/or high density populations. On the other hand they require several assumptions on the unknown father trees: an infinite population, randomly distributed in space, non-inbred, without spatial genetic structure. Individuals are assumed to have the same fecundity. Selfing occurs "at random" (AUSTERLITZ and SMOUSE 2001). It has been shown that departures from the assumption of (i) absence of genetic structure (DYER et al. 2004), (ii) equal fecundity (ROBLEDO-ARNUNCIO et al. 2006) and (iii) random selfing (BURCZYK et al. 2002) lead to estimation biases. Moreover (ROBLEDO-ARNUNCIO and AUSTERLITZ 2006) showed that spatial aggregation results in change xcvi 5

245 in the backward dispersal kernel which could lead also to biases during the estimation. The dispersal kernel, forward or backward, usually represents the selfing rate badly, since selfing rate is highly variable according to biological and environmental factor. For a given species, it can depend on genetical factors (post-zygotic selection against selfed embryos can reduce effective selfing rate i.e. inbreeding depression, or self-incompatibility mechanisms) and on ecological factors such as population size and density through pollen limitation or weather conditions through blooming synchronism (see GOODWILLIE et al for a complete review). As selfing and dispersal events mostly rely on different mechanisms, disconnecting selfing from the dispersal kernel would be an improvement. In the forward methods based on the likelihood (BURCZYK et al and ODDOU-MURATORIO et al. 2005), the selfing rate is estimated by a parameter different from the forward dispersal kernel. BURCZYK and KORALEWSKI 2005 showed how the TwoGener method based on the global differentiation between mother trees pollen pool is sensitive to selfing. They proposed a correction based on an independent estimation of the selfing rate. Using simulations they proved the efficiency of this correction to estimate the outcross gene flow. However integrating selfing in the new backward approaches (pairwise TwoGener and Kindist), is still expected, as pointed out by ROBLEDO-ARNUNCIO et al because these new methods provide better estimates and enable to infer effective population density and complex dispersal kernels (AUSTERLITZ et al. 2004). So far, TwoGener and Kindist have been applied to a broad range of species with contrasted selfing rates from moderate (e.g. Dinizia excelsa with a selfing rate of 0.14 in DICK et al. 2003) to exactly 0 in totally selfincompatible species (black oak Quercus velutina in FERNANDEZ-MANJARRES et al. 2006). However both TwoGener and Kindist methods assume that "individuals practice no more self-reproduction than would be expected at random" (AUSTERLITZ and SMOUSE 2001) and that the selfing rate is determined by "the probability of random pollination at distance zero" (ROBLEDO-ARNUNCIO et al. 2006). The authors mention that higher or lower selfing rate than 6 xcvii

246 ANNEXE IV. CONSIDERING SELFING EXPLICITLY IN TWOGENER the one expected from the model will lead to downward or upward bias for the estimated average dispersal distance (AUSTERLITZ et al. 2004). However no study has ever given a clear formula for the selfing rate expected from the model. The value of the backward dispersal kernel at distance zero can obviously not be a candidate since dispersal kernels are frequently estimated with value at distance zero higher than one, even equal to infinity, whereas the selfing rate is strictly bound between zero and one (for example see the infinite value at zero obtained from Weibull distribution with a shape parameter (b) lower than 2 estimated by AUSTERLITZ et al ). One could proposed to compute the expected selfing rate by integrating the backward dispersal kernel, but the area on which it should be integrated is not straightforward. In this study, we reconsider the definition of the backward dispersal kernel and the calculation of the probability for two seeds to share the same father tree in order to assess the value of selfing rate accounted for in these methods. We show analytically that selfing is actually considered as null. Using simulations we show that current methods can be biased for some range of selfing rate and number of effective pollen donors. We propose new formula for the expected pairwise Φ ft and Ψ accounting for a constant selfing probability (i.e. modeling selfing as in the neighborhood model (BURCZYK et al. 2002)) and three ways for estimating dispersal for self-compatible species : (i) using this new model in the TwoGener method considering a constant selfing rate or (ii) applying the classical TwoGener and Kindist methods to the subset of seeds that are not potentially issued from selfing according to their genotypes and those of their mother tree, (without any assumption concerning selfing), (iii) using a sequential method relying on the methods (i) and (ii). Using simulations, we compare the accuracy and robustness of the classical methods and the new methods. MODEL Probabilities for two seeds to share the same father tree in the backward approaches: The TwoGener and Kindist methods use different measures of genetic structure of the pollen pools. In the TwoGener method, the measure of genetic structure between the pollen pools of mother trees xcviii 7

247 is the differentiation index Φ ft (AUSTERLITZ and SMOUSE 2001). This index can be estimated using an AMOVA (EXCOFFIER et al. 1992) applied to the sampled seeds. In Kindist, the genetic structure is described by the correlation of paternity Ψ. The observed Ψ is estimated from kinship coefficients (F) (HARDY et al. 2004). The theoretical expressions for these measures depend only on the dispersal function for Kindist, but also on the effective density of pollen sources for TwoGener. The estimation of the parameters of the pollen dispersal function is obtained by minimizing the sum of squared errors between theoretical and observed measures of the genetic structure. Considering diploid genotypes, the theoretical expressions for the Φ ft and Ψ rely on the probabilities that two seeds share the same father tree through the expressions (AUSTERLITZ and SMOUSE 2001 and ROBLEDO-ARNUNCIO et al. 2006) : Φ ft (r AB ) = Q 0 Q(r AB ) 2 Q(r AB ), (1) Ψ(r AB ) = Q(r AB) Q 0, (2) where A and B are two mother trees at a distance r AB apart, Q 0 and Q(r AB ) are the probabilities that two seeds have the same father tree, when they derive respectively from the same mother and from two mother trees at a distance r AB apart. Assuming that (i) all individuals are monoecious with the same male fecundity, self-fertile, (ii) all individuals are considered as punctual pollen sources and receptors, (iii) the population is infinite and randomly distributed with a constant density λ (i.e. it follows a Poisson spatial distribution see DIGGLE 1983), (iv) there is no genetic spatial structure and (v) the dispersal function is isotropic, AUSTERLITZ and SMOUSE 2001 obtained the probabilities for two seeds to share the same father tree : 8 xcix

248 ANNEXE IV. CONSIDERING SELFING EXPLICITLY IN TWOGENER Q 0 = 1 p 2 (x)dx (3) λ R 2 Q(r AB ) = 1 p(x)p(x x AB)dx, (4) λ R 2 where x AB is a position at a distance r AB from the point 0, and p is the two-dimensional backward pollen dispersal kernel. Absence of selfing in the current model: In both TwoGener and Kindist, selfing is said to "occur at random according to the pollen dispersal function". The backward dispersal function used in these methods, p(x), is defined as the density function of the probability that the father tree of a given seed from a mother tree at 0 is an individual located at position x. Therefore this probability includes the probabilities that there is an individual at the location x and that one of its pollen grains fertilizes the mother tree. The positions of the father trees are assumed to follow a Poisson process of density λ. Thus the existence of an individual in a small area dx centered on the location x occurs with a probability λdx, and is independent of the positions of all other individuals. We name g(x), the probability that an individual, located at x fertilizes the mother tree, knowing that there is an individual in dx. We can thus decompose the dispersal function, p as : p(x)dx = λdx g(x), (5) The case of x = 0 is different because the existence of a tree at x = 0 is certain: the mother tree is at this position. For a Poisson distributed point process, the existence of another father in the area dx centered on x = 0 is independent on the existence of the mother tree and its probability is still equal to λdx. Using the same p(x)dx at x = 0 thus means that the existence of the mother tree is not considered and so that the mother tree does not contribute to its pollen pool (i.e. selfing rate c 9

249 is null). g(x) is thus defined exactly as the probability that a father tree different from the mother tree, located at x fertilizes the mother tree. Finally, the probability for two seeds of one mother tree to share the same father tree, considering a null selfing rate, is obtained through the integration on R 2 of the elementary probabilities, that a father tree tree in the small area dx, a small area centered on x, fertilizes twice the mother tree considered. These elementary events are composed of two events : there is an individual on dx, with probability λdx, and this individual at x fertilizes the mother tree twice, with a probability g 2 (x), Q 0 = g 2 (x) λdx. R 2 The same calculations can be applied to compute the probability for two seeds from two mother trees to share the same father tree. Using equation 5, we retrieve the expression 4 computed by AUSTERLITZ and SMOUSE However, unlike the TwoGener and Kindist original demonstration, our formalisation, through equation 5 proves that selfing is considered as null. Considering selfing in the theoretical expressions of Φ ft and Ψ: Modeling selfing requires to distinguish the mother tree from the other potential father trees whose positions are unknown. In order to be able to consider selfing explicitly in the computation of the probabilities for two seeds of one or two mother trees to share the same father tree, it is necessary to condition these probabilities by the existence of the one or two mother tree(s) considered. We model (i) the selfing events by the selfing probability s, assumed to be constant among mother trees, and (ii) the outcrossing events by the dispersal function p(x), redefined as the density function of the probability that a father tree located at x fertilizes a mother tree at 0, given that the father tree is not the mother tree. Since the outcrossing events occur with probability 1 s, equation 5 becomes 10 ci

250 ANNEXE IV. CONSIDERING SELFING EXPLICITLY IN TWOGENER p(x) = λ g(x) 1 s. Let Q s 0 be the probability that two seeds, sampled on the same mother tree have the same father. The father tree of these two seeds can be the mother tree itself, with probability s 2 or another individual in the R 2 space, with probability g 2 (x)λdx, for an individual located on dx : Q s 0 = s 2 + (1 s)2 λ R 2 p 2 (x)dx = s 2 + (1 s) 2 Q s=0 0, (6) where Q s=0 0 is Q s 0 when the selfing rate is null. If selfing is null, Q s 0 = Q 0 i.e. the former model probability (Equation 4). Note that there is no contradiction in considering that unobserved father trees are on R 2 including the location 0 and the mother at 0. In fact, assuming that tree locations follow a Poisson spatial point process involves the total independence of unobserved trees locations (cf theorem of Slivnyak see STOYAN et al. 1987) and a null probability that a unobserved tree is at an exact location (e.g. 0). Let Q s (r AB ) be the probability of the event C(r AB ) that two offsprings, derived from mother trees, A and B, separated by a distance r AB have the same father tree. The father tree can be either one of the mother trees, A or B (respectively events C(r AB ) A and C(r AB ) B ) whose existences are certain, or another individual in the R 2 space (event C(r AB ) s ). Without loss of generality, we place the mother tree A at 0 and the B one at x AB, a location r AB away from the 0 point. Assuming independence among pollination events and the same isotropic dispersal function for all fathers, cii 11

251 Q s (r AB ) = Pr(C(r AB )) = Pr(C(r AB ) A ) + Pr(C(r AB ) B ) + Pr(C(r AB ) s ) =s g(x AB ) + s g(x BA ) + λdx g(x)g(x x AB) R 2 2 s (1 s) (1 s)2 = p(x AB ) + p(x)p(x x AB)dx λ λ R 2 2 s (1 s) = p(x AB ) + (1 s) 2 Q s=0 (r AB ) (7) λ If selfing is null, Q s (r AB ) = Q(r AB ) i.e. the former probability (equation 4). Note also that, contrarily to the classical model, when selfing is considered the expressions of Q s 0, the probability for two seeds from a single tree to share the same father tree and Q s (0), the probability for two seeds from two mother trees at the same location to share the same father tree become different. Indeed the term corresponding to known trees is determined only by selfing events for Q 0 (equation 6) whereas it is also determined by outcrossed events for Q(0) (equation 7). Using equation 1, a generalized formula for the expected Φ s ft is obtained : Φ s ft(r AB ) = s2 2 s (1 s) λ p(x AB ) + (1 s) 2 (Q 0 Q(r AB )) 2 2 s (1 s) λ p(x AB ) + (1 s) 2 Q(r AB ) (8) A generalized formula for the expected Ψ s (r AB ) is also obtained : Ψ s (r AB ) = 2 s (1 s) λ p(x AB ) + (1 s) 2 (Q(r AB )) s 2 + (1 s) 2 Q 0. (9) When selfing is not null, the expected Ψ(r AB ) is no longer independent of the density of pollen sources, since λ is still present in the simplified expression: Ψ s (r AB ) = 2 s (1 s) p(x AB ) + (1 s) 2 R 2 p(x)p(x x AB )dx s 2 λ + (1 s) 2 R 2 p 2 (x)dx. 12 ciii

252 ANNEXE IV. CONSIDERING SELFING EXPLICITLY IN TWOGENER MATERIAL AND METHODS As we showed that selfing is considered as null in the current versions of Kindist and TwoGener, we propose to (i) use the model including explicitly selfing for the TwoGener method (equation 8), (ii) analyse a restricted dataset excluding the seeds that could result from selfing (using genotypic informations), or (iii) use a sequential method based on the methods (i) and (ii). Simulated data and observed genetic distances.: After simulating a population and dispersal events (simulations described further), genotypes of a sample of seeds are obtained. Two dataset are built from these genotypes named data tot for the totality of seeds and data out that contains only the seeds that are certainly issued from outcrossing events (are removed from data tot every seed that could be issued from selfing using genotypes information i.e. every seed whose all alleles at all locus correspond to alleles carried by its mother tree). The observed measures of the genetic structure pollen pool i.e. pairwise Φ ft and Ψ of the mother trees are computed using their genotypes and the genotypes of their seeds represented by data tot or data out. Mother trees pairwise Φ ft are obtained as classically in TwoGener (SMOUSE et al. 2001) using an AMOVA (EXCOFFIER et al. 1992) applied to estimated paternal haplotypes of seeds. Pairwise Ψ are obtained as described in ROBLEDO-ARNUNCIO et al as a ratio of kinship coefficients computed using the formula of LOISELLE et al related to kinship coefficients of a reference population of unrelated male gametes. Φ tot ft (ij) are the pairwise Φ ft obtained from data tot and Φ out ft (ij) are obtained from dataout. Similarly Ψ tot (ij) and Ψ out (ij) correspond to the pairwise Ψ respectively issued from data tot and data out. Estimation methods: Let respectively Φ ft (r ij, δ, λ) and Ψ(r ij, δ) be the theoretical pairwise measures calculated respectively with equation 1 and 2, minimizing the sum of squared errors (SSE) (i, j) ( Φ tot ft (ij) Φ ft (r ij, δ, λ) ) 2, (10) civ 13

253 provides the classical estimates from the TwoGener method, δ T G and λ T G. Minimizing the SSE ( Ψ tot (ij) Ψ(r ij, δ) ) 2, (11) (i, j) provides δ K, the classical estimate from the Kindist method. Using Ψ out (ij) and Φ out (ij), instead of Ψ tot (ij) and Φ tot (ij) in equations 10 and 11, the new estimators (δ T Gout, λ T Gout ) and δ Kout are obtained. Let Φ s ft (r ij, δ, λ, s) be the theoretical pairwise measures calculated with equation 8, including selfing. The three parameters s T Gs, δ T Gs and λ T Gs are jointly estimated by minimizing the SSE (i, j) ( Φ tot ft (ij) Φ s ft(r ij, δ, λ, s) ) 2. (12) We also estimate the parameters sequentially as in the algorithm Poldisp (ROBLEDO-ARNUNCIO et al. 2007). First δ T Gseq is estimated as δ Kout. Second, λ T Gseq is estimated by fixing the parameter δ = δ Kout and minimizing the SSE (i, j) ( Φ out ft (ij) Φ s ft(r ij, δ Kout, λ) ) 2. (13) Third, s T Gseq is estimated by fixing λ = λ T Gseq and δ = δ Kout, and minimizing the SSE (i, j) ( Φ tot ft (ij) Φ ft (r ij, δ Kout, λ T Gseq, s) ) 2. (14) The major asset of Kindist is to be independent of the population density, which is lost when the selfing rate is not null. Thus the formula of Kindist including selfing (equation 9) is not used. Estimations are performed by minimizing the SSE using the software Poldisp (ROBLEDO- ARNUNCIO et al. 2007) for the Kindist method and the Levenberg-Marquardt method described in MARQUARDT 1963 for the TwoGener method. The set of initial values used for the estimation is the observed population density for λ, an estimation of the mean dispersal distance issued from the 14 cv

254 ANNEXE IV. CONSIDERING SELFING EXPLICITLY IN TWOGENER global Φ ft for δ and the average proportion of seeds per mother tree that could issue from selfing according to their genotypes and those of their mother tree for s. Simulations. : For each simulation, a population of diploid adults, monoecious, self-fertile individuals, distributed according to a spatial Poisson process of intensity λ on a circular area of radius R = 5000 m is simulated: the number of individuals is drawn from a Poisson distribution of parameter N = λπr 2, and these individuals are randomly distributed on the disk of radius R. The genotype of each adult at each of N L unlinked loci is drawn following equal frequencies for N A alleles per locus. Among the N adults, N m mother trees are sampled as AUSTERLITZ and SMOUSE 2002, using a central square grid : the sampled mother trees are the closest individuals to each point of the grid. The mesh size is 80 m (when population density is equal to 16 trees per hectare, the expected number of individuals in each cell of the grid is one). A father tree is drawn for each of the N off seeds of each mother tree according to π i,j, the probability of fertilization of a mother tree i by a father tree j in a forward dispersal model. All individuals have the same fecundity and the same dispersal function p(r). The probability of selfing, s, is the same for all mother trees. Assuming a mass-action law and considering independence among pollinations, we obtain : π i,j = (1 s) p(r ij ) f {1,...,N} f i p(r if ), for i j π i,i = s where r ij is the distance between i and j. It has been checked that for our range of effective population density and dispersal kernel parameters (see below), the backward dispersal kernel is equal to the forward dispersal. The genotype of each seed is drawn from its parents genotypes assuming Mendelian segregation rules. cvi 15

255 The reference case corresponds to a population of density λ = trees.m 2 (e.g. 16 trees/ha) where the genotypes of N m = 40 mother trees, and N off = 40 of their seeds are sampled and genotyped at N L = 10 loci with N A = 10 alleles. A 2D isotropic gaussian dispersal function is used: p(r) = 1 πa 2 e ( r a) 2. The mean dispersal distance is equal to δ = a π/2. δ is equal to 100 m and the selfing rate varies in {0,0.05, 0.1, 0.15, 0.2}. The effect of population density is investigated by repeating the simulations with a population density λ at trees.m 2 (i.e. 32 trees/ha) and trees.m 2 (i.e. 64 trees/ha). The effect of the average pollen dispersal distance is evaluated by repeating the simulations with δ = 200 m and δ = 300 m. The effect of the exclusion probability of the genetic system is investigated by changing N L and N A (see table 3). EP, the exclusion probability (CHAKRAVARTI and LI 1983) and P overselfing, the probability of keeping out from data out a seed issued from outcrossing are computed in order to compare different sets of genetic markers. For N L locus with N A alleles at the allelic frequencies (f 1, f 2,..., f NA ), the probabilities are : N L EP = 1 1 (a 1 2a 2 + a 3 + 3(a 2 a 3 a 5 ) 2(a 2 2 a 4 ), l=1 N A where a n = i=1 f n i N L N A P overselfing = (1 s) [ fi 3 + l=1 i=1 i j 2 f i f j (f i + f j )]. Performance of estimators: The bias, the root mean squared error (RMSE), and the five percent quantile interval (corresponding to quantiles of and 0.975) of the different estimators are computed. The relative bias and the relative RMSE are obtained by dividing the two first quan- 16 cvii

256 ANNEXE IV. CONSIDERING SELFING EXPLICITLY IN TWOGENER tities by the true value of the parameters. The relative and centered five percent quantile interval are obtained by subtracting the real value to the five percent interval and then dividing by the real value. The relative bias, RMSE and five percent quantile interval are computed for 1000 replicates of each set of parameters. For each simulated dataset, the estimation is considered as failed (i) when no estimate is found (the estimation procedure could not converge), or (ii) when the mean dispersal distance is estimated negative (zero included) or higher than 10 5 m or/and when the population density is estimated lower than 10 6 i.e trees/ha and higher than 1 i.e trees/ha. For each set of simulations the percentage of failed estimation (%f) is computed. RESULTS Influence of the selfing rate on theoretical Φ ft and Ψ: The effect of the selfing rate on the measures of the genetic structure of pollen pools, Φ ft and Ψ, depends on the values of δ and λ. For high values of δ and λ, increasing selfing increases every pairwise Φ ft (see figure 1 A top), shifting the whole curve upward. Selfing also decreases Ψ (see bottom figure 1 A), decreasing the origin and the slope of the curve (by design Ψ tends to zero when the pairwise distance increases). The value of Ψ at distance zero is lower than one when selfing occurs and equal to one in absence of selfing. When the values of δ and λ increase, the effect of selfing has the same trends but at a higher scale (figure 1 B). For low values of δ and λ, the impact of selfing rate on genetic distances is weaker : the values of Φ ft and Ψ are almost insensitive to the selfing rate for high pairwise distances between mother trees (figure 1 D top with low value of δ). At short distances, increasing the selfing rate decreases the differentiation between pollen pools (figure 1 D top) and increases the correlation of paternity between two mother trees (figure 1 D bottom). Note that Φ ft can then be negative and Ψ can be higher than one. This corresponds to a probability for two seeds of two mother trees to share the same father tree Q s (r AB ) higher than the probability for two seeds from a single mother tree to share the same father tree Q s 0. It happens when the population density is low enough or/and the cviii 17

257 dispersal function sufficiently leptokurtic and mother trees close enough, thus each mother tree becomes the major pollen contributor of the other. The effect of the selfing rate on the measures of the genetic structure of pollen pools can be predicted using the summary value Nep out, defined as 1/Q out 0, which is equal to 8δ 2 λ for a gaussian dispersal curve. High values of Nep out lead to the first behavior (see Nep out = 123 or 512 on figure 1 A and B). Low values of Nep out lead to the second behavior (see Nep out = 8 on figure 1 D). For intermediate value of Nep out the behavior depends on the selfing rate (see Nep out = 32 on figure 1 C). As δ acts quadratically on Nep out and λ linearly, the genetic measures are more sensitive to δ than λ. The formula of Φ s ft (equation 8) is a generalization of the relationship between a global Φ ft and an outcrossed global Φ ft, found by BURCZYK and KORALEWSKI Using the same approximation Φ ft = Q 0 2 we retrieve: as in their computation, valid for high average distances between mother trees, Φ s ft s2 2 + (1 s)2 Φ ft (15) where Φ ft is the global Φ ft that results from outcrossing i.e. calculated with the Q 0 of the Two- Gener method, when selfing is considered as null. However this approximation is not justified for pairwise Φ ft corresponding to close mothers (figure 1 A). Influence of the selfing rate on Φ ft and Ψ estimated from simulated genotypes: As expected from analytical results, the Φ tot ft (i, j) estimated on datatot can not be described by the current theoretical Φ ft (r ij, δ, λ) (equation 1 where s = 0). They are much closer to the values predicted by equation 8 including selfing (figure 2 A). However the Φ tot ft (i, j) estimated on the simulated data are slightly upwardly biased and this bias increases with selfing. The Φ out ft (i, j) estimated only on data out agree well with the expectations from the classical TwoGener model (figure 2 A). They are very slightly upwardly biased for low distances. This confirms that TwoGener is well suited to cases with no selfing or to Φ out ft (i, j) estimated from dataout. The interval between the and quantile of the estimated pairwise Φ tot ft reaching a range of using data tot and using data out. (i, j) and Φout(i, j) have the same scale, ft 18 cix

258 ANNEXE IV. CONSIDERING SELFING EXPLICITLY IN TWOGENER Similarly, the computed Ψ tot (i, j) follow the curve issued from the analytical formula including selfing (equation 9), and the computed Ψ out (i, j) agree well with the current expression of Ψ (equation 2) (figure 2B). For low distances, the computed Ψ out (i, j) are slightly higher than predicted by the theoretical expression (figure 2 B). The interval between the and quantile of the estimated pairwise Ψ out (i, j) are at least twice higher than those of Ψ tot (i, j). Comparison between the three proposed methods and the classical methods when selfing occurs: Mean dispersal distance parameter For the classical TwoGener and Kindist analysis, the estimates of mean dispersal distance decrease consequently when the probability of selfing increases (figure 3 A). For s=0.1, the mean estimation of δ is 2 times smaller than the true value, and the estimation is lower than the true value of dispersal distance in 97.5 percent of the estimations. When TwoGener and Kindist methods are applied to data out, estimates perform similarly whatever the selfing rate. The 95-percent quantile interval provided by Kindist is slightly lower than that provided by TwoGener, as already noted in ROBLEDO-ARNUNCIO et al As the selfing rate increases, quantile intervals slightly increase which is due to a decrease in the number of seeds actually used for the estimation. The TwoGener analysis including selfing provides a positive bias for the estimation of δ and a large 95-percent quantile interval. Both increase with selfing. Population density parameter The estimation of population density was achieved with the Twogener methods. The classical Two- Gener analysis overestimates the effective density of the population, offsetting the underestimation of the mean dispersal distance (figure 3 B). The population density provided by the sequential estimation (i.e. δ fixed to δ Kout ) remains unbiased and its quantile interval is the smaller and the most stable whatever the selfing rate. The population density estimate obtained using data out, λ T Gout is cx 19

259 also stable whatever the selfing rate. The population density estimate provided by the TwoGener analysis modeling selfing and estimating simultaneously three parameters, λ T Gs, is biased when selfing is high (from 0.2). Selfing rate parameter This parameter is only estimated by the TwoGener analysis modeling selfing. The estimate of selfing is unbiased for all selfing probabilities (except for s = 0) for both simultaneous and sequential estimations. The quantile interval is notably smaller and more stable for the sequential estimation than for the simultaneous one. Statistical summaries of parameters estimates As shown above, the range of estimated parameters around the true values is smaller for the sequential TwoGener including selfing (TGseq) than for the TwoGener applied to data out (TGout) which is also smaller than the TwoGener including selfing (TGs). However whatever the TwoGener method applied, parameter estimates are highly correlated (figure 4). For a given set of simulation parameters, the same relationship between the estimated population density and the estimated mean dispersal distance holds for the three methods. Simulation success For the Kindist method applied to data out and the sequential TwoGener estimation including selfing (TGseq), no estimation failed, 1000 repeated estimations achieved for each value of selfing rate. Whereas for the TwoGener including selfing and estimating simultaneously the parameters (TGs) 1.1% (at s = 0.05) to 7.4% (at s = 0.20) of the estimations did not succeed. This percentage remains lower than 0.2% for the TwoGener method applied to data out. All the estimations conducted by Kindist applied to data tot have converged but the number of cases where the mean dispersal distance estimated was null increases with selfing. For the classical TwoGener analysis, the percentage of failed estimations increases with selfing from 0.2% (at s = 0.10) to 3.9% (at 20 cxi

260 ANNEXE IV. CONSIDERING SELFING EXPLICITLY IN TWOGENER s = 0.20). Exploring the sensitivity of the new methods for different sets of parameters: The selfing rate being fixed at 0.10, we modify the mean dispersal distance δ (table 1), the population density λ (table 2) and the number of loci and alleles (table 3) are modified. Impact of δ on the estimated dispersal parameter The biases of δ T G and δ K, the classical estimates, increase with δ. From 8% for δ = 50, they become 80% for δ = 200. For δ = 100 and larger, more than 97.5% of the estimates are lower than the true value of δ. The estimator δ Kout is the least biased and has the smallest RMSE and quantile intervals for almost all mean dispersal distances. The estimator δ T Gout has a positive bias which increases rapidly with the dispersal distance (0.3% at δ = 50 to 59.5% at δ = 200). The estimator δ T Gs follows the same trend with a higher bias and RMSE. Impact of λ on the estimated dispersal parameter The biases of δ T G and δ K increase with λ. They are similar although Kindist is theoretically independent of the population density. Over 97.5% of the δ K and δ T G estimated are lower than the true δ, when λ 16 trees/ha. Nevertheless increasing λ has a lower effect than increasing δ. For example the biases of δ K observed for reference values is 44%, it becomes 82% when δ is multiplied by two and only 65% when λ is multiplied by four (both multiplications modify Q 0 and Nep out in the same way). As already noticed for the other sets of parameters, the best estimates are generally δ T Gseq = δ Kout and λ T Gseq. They have most often the lower bias and the lower RMSE. The performance of δ Kout increases when the population density increases. However (i) when the population density is very high (λ = 64 trees/ha), the estimates λ T Gseq is not a good estimates of λ, as any others (all the estimates of λ have at least a bias of 300%) and (ii) when the population density is low (λ < 16 trees/ha), the estimate δ T Gout is a better estimator than δ Kout which underestimates δ (see its bias and its quantile interval). When population density is low (λ 16 trees/ha), λ T Gs is a cxii 21

261 better estimator than the others based on data out which overestimate λ. Impact of the diversity at genetic markers on the estimated dispersal parameter When the power of the genetic markers used increases, the bias of δ T G and δ K remains high, contrarily to the bias of λ T Gtot which notably decreases. The new estimators performance increases generally with the exclusion probability of the genetic markers. The results suggest that the new methods proposed should not be applied when the genetic marker are not powerful enough (high bias and high percentage of failed estimations at EP=0.75). For a given probability of exclusion the methods "TGout", "Kout" and "TGs" better perform for one locus than more (except for the bias of δ). For the case of TwoGener δ T Gout,δ T Gs,λ T Gs give better results for one locus of 100 alleles (EP=0.98) than for ten alleles at ten loci (EP=0.999). This could be due to the fact that the estimators of Φ ft and Ψ obtained from the genotypes of the mother trees and seeds are more adapted to single locus genotype (HARDY et al. 2004). However the single locus genotypes are penalized in the method based on data out because the probability of removing seeds which are not issued from selfing in data out increases when the number of loci decreases. Then for EP=0.93, for a single locus, the bias of δ Kout and δ T Gout increases. For all estimations, the number of failed estimations increases with the population density or the mean dispersal distance or when the exclusion probability decreases. The method "TGs" fails more frequently than "TGout" which fails more often than "Kout" and "TGseq". DISCUSSION The aim of this study was to disentangle selfing and pollen dispersal in the indirect methods Two- Gener and Kindist and to understand for which values of the selfing rate, these methods provide biased estimates. First we have shown that the selfing rate is considered as null in the current methods and when it is not actually negligible this induce a strong under-estimation of the parameters. Second we could propose new pairwise methods that are more adapted to the presence of selfing. 22 cxiii

262 ANNEXE IV. CONSIDERING SELFING EXPLICITLY IN TWOGENER Through the formalization of the backward dispersal kernel, we showed that selfing is considered as null in the current indirect methods We showed that the backward kernel used in the indirect methods considers only unknown trees, because it includes the probability that a father tree located at a given location fertilizes the mother, but also the probability that this father tree exits. Contrarily to what is assumed in most former studies (AUSTERLITZ and SMOUSE 2001, ROBLEDO-ARNUNCIO et al. 2006, BURCZYK and KO- RALEWSKI 2005), the value of selfing does not depend on the value at 0 of the dispersal function. Using simulations, we showed that current methods applied to datasets with selfing lead to strongly biased estimations for a wide range of selfing rate and number of effective pollen donors. Thus they are only recommended for strictly outcrossed species. The mean dispersal distance is underestimated ( 44% at s = % at s=0.2 for our reference case), consequently the effective population density is overestimated (+50% at s = 0.1 and +560% at s = 0.2). We showed that the bias induced by the selfing rate increases when the selfing rate increases but also when the mean dispersal increases (with a bias of the estimated δ is 44% at δ = 100m and 82% at δ = 200m at s = 0.1 for our reference case) and when the effective population density increases (with a bias of the estimated δ of 44% at λ = 16 trees/ha and of 65% at λ = 64 trees/ha ). Our results corroborate and complement those of BURCZYK and KORALEWSKI 2005 concerning the TwoGener method based on the global Φ ft. They showed a negative bias of the mean dispersal distance, increasing with the selfing rate. They also proposed a formula to link the global Φ s ft with the global outcrossed Φ ft (equation 15). Rewriting this formula with the number of effective pollen donors Nep equal to 1/Q0 (SMOUSE et al. 2001) and Nep out = 1/Q out 0 the number of cxiv 23

263 effective pollen donors different from the mother tree, we obtain :. Nep out Nep = 1 + s2 (Nep out + 1) 2s (16) The number Nep out and the selfing rate enable to predict the bias induced by the selfing in the estimation. Now, if there is no selfing (or when s = 2/(Nep out + 1)), Nep and Nep out are equal and the estimates are not biased (see Figure 1). If Nep out > (2/s) 1 (e.g Nep out > 19 for s = 0.1), the classical estimates of δ and λ are biased, because the pairwise Φ tot ft and Ψtot are very different from the Φ out ft and Ψ out, according to the theoretical formulas (equations 8 and 9). In this case Nep is lower than Nep out because the probability of an effective pollen donor to pollinate the mother tree is low comparing to the probability of selfing events. Roughly, the number of effective pollen donors decreases because "the mother tree takes the place of more than one effective pollen donor". At the opposite, if Nep out < (2/s) 1, the estimates are much less biased, because the pairwise Φ tot ft and Ψtot and the Φ out ft and Ψ out are similar, except for low pairwise distances. In this case, Nep is higher than Nep out. In particular, if s = 1/(Nep out + 1) then the mother tree acts as exactly one effective pollen donor and Nep = Nep out + 1. Nep out summarizes the effect of λ and δ because its value increases with λ and δ as shown by AUSTERLITZ and SMOUSE 2001 through the formula Nep out = 8δ 2 λ for a gaussian dispersal function. So far, the studies that have tested the performance of the indirect methods found no bias due to selfing because they simulated populations with very low Nep out. For example, AUSTERLITZ et al and ROBLEDO-ARNUNCIO et al. 2006, studied simulations where selfing occurs at random according to a gaussian dispersal function, with λ = 1.6 trees/ha and δ = 100 m. Some rapid simulations showed us that this leads to Nep out = 12.8 and s = In this case, Nep out is lower than 2/s 1 = 13.8 and so the difference between Φ ft and Φ out ft and no bias appears in the estimations. is negligible during the estimation The ratio between Nep out and 2/s 1 is very variable among species and we thus expect that the bias due to selfing in the indirect methods will vary consequently. SMOUSE and SORK cxv

264 ANNEXE IV. CONSIDERING SELFING EXPLICITLY IN TWOGENER pointed out that the Nep is highly variable(they reviewed Nep estimations lower than ten up to 70). For high values of Nep, classical estimates are likely to be biased because Nep out is likely to be much higher than the Nep and consequently higher than 2/s 1. In order to predict if classical estimates could be biased, particular attention must be paid to (i) biological variables such as the vector of pollen transport: the N ep is often higher for wind pollinated species rather than for animal or insect pollinated species but also (ii) environmental variables such as the density of conspecific trees (with a positive effect on Nep) or the density of other species (with a negative effect on Nep) (SMOUSE and SORK 2004). For example, in a study of Rhododendron aureum an insect-pollinated alpine shrub, HIRAO et al found s = 0.3 (i.e. 2/s 1 = 5.6) and Nep out =2.21 which should lead to an absence of bias because Nep out < 2/s 1. Whereas O CONNELL et al for a white spruce population (Picea glauca) found s = (i.e. 2/s 1 = 31.3) and Nep = 100 and thus Nep out according to equation 16, which could potentially lead to strong biases. Considering selfing requires to condition the probabilities for two seeds to share the same father by the existence of the one or two mother trees considered. Our approach shows that it is necessary to add the contribution of the known potential father tree (here the mother tree) to the contribution of the unknown father trees distributed throughout R 2, described in the classical methods (AUSTERLITZ and SMOUSE 2001). During the computation of probability for two seeds from two mother trees to share the same father tree, the existence of the two mother trees have to be considered. Consequently the probabilities for a mother tree to pollinate itself or the other mother tree have to be determined. The probability for a mother tree to pollinate itself is the selfing rate, modeled here as a constant probability. The probability for a mother tree, whose existence and location are known, to pollinate the other mother tree is issued from the decomposition of the backward kernel proposed here (equation 5) and described by the probability of pollination given the existence of the father (here the second mother tree). In an attempt to extend this argument, when computing the expected genetic measure for one pair of cxvi 25

265 mother-trees, we could separate the contributions of all the sampled trees from that of the unknown trees. This would rely on a distribution of father trees following a Poisson process on R 2, exactly similarly as when the sampled trees are not considered. This seems illogical in a biological point of view but follows from the assumption used in the model of a random distribution of the trees (i.e. Poisson point process). Here the limits of the assumption of complete spatial randomness of individual locations (i.e. the positions of individuals follows a Poisson point process) are reached. One can argue that it is more biologically relevant to remove from R 2 a disk centered on the mother tree during the integration. The radius of this disk will be given by the minimal distance between two trees. Assuming that there is such distance, the tree location model shifts from spatial randomness to a hardcore process (STOYAN et al. 1987) and even more complex spatial models than Poisson or hardcore processes processes exist that could fit better to biological reality (for example see RIPLEY 1977). As emphasized by (STOYAN and PENTTINEN 2000), the spatial distribution of individual trees in a forest stand can be clustered because of the environmental seed dispersion, heterogeneity of the environment or competition with other species or in contrary can be regular because of competition among neighbors trees, in fact both these trends (clustering and regularity) generally coexist at various scales. However, these assumptions will complicate the computation of the probability for two seeds to share the same father tree whose analytical expressions will become difficult or even impossible to obtain. Computational methods could be a way to integrate more biological relevant assumptions in the indirect methods. We propose new methods more appropriate to estimate pollen dispersal when selfing occurs. These are, (i) estimating dispersal using the equations of the current TwoGener and Kindist methods (respectively equations 1 and 2) on a restricted data set including only the seeds that are certainly not issued from selfing (data out ), (ii) adapting the method to the presence of selfing i.e. using Φ ft issued from the whole data set (data tot ) with the equation 8 issued from a model with a con- 26 cxvii

266 ANNEXE IV. CONSIDERING SELFING EXPLICITLY IN TWOGENER stant selfing rate among individuals, (iii) using these two approaches in a sequential method which estimates the parameters one after the other : first using the current method with data out estimating δ Kout with the current Kindist method and using it as a fixed parameter during the estimation of λ T Gseq in the current TwoGener method, second estimating s seq using the formula including a constant selfing rate 8 with data tot, while δ Kout and λ T Gseq are fixed. The method (i) is pertinent even for species with a variable selfing rate among individuals, which is expected to be common (for example KARRON et al studying a perennial herb or RESTOUX et al considering fir). It is very easy to carry out: it only requires to remove the seeds potentially issued from selfing and then to apply the current TwoGener and Kindist method using the poldisp program (ROBLEDO-ARNUNCIO et al. 2007). However it does not provide an estimate of the selfing rate. This approach was actually used by HIRAO et al but for an analysis based on the global Φ ft. We showed that it provides an unbiased estimation of δ but the effective population density λ is slightly overestimated. This is due to the disequilibrium between pollen pools of pairwise mother trees produced during the creation of data out. The male gametes potentially issued from the two mother trees (A and B) are removed from their own pollen pool (respectively pollen pool of A and B), but they remain in the pollen pool of the other mother tree (respectively B and A). When the distance between A and B is short, A and B are the major pollen contributor to each other. Thus the differentiation between their pollen pool compositions is overestimated. The method (ii) proposes to estimate simultaneously the three parameters of interest using the whole dataset. Although it provides an unbiased estimation of λ, the estimates have large variance. Parameters seem to be too much linked (see figure 4) to permit an accurate joined estimation. Overall, the method (iii) is the best method, with the smallest RMSE. This sequential method follows the same logic as that proposed in the software Poldisp (ROBLEDO-ARNUNCIO et al. 2007). It provides the best results, except when the population density, the probability of exclusion of the markers used or the number of genetic markers used are low (then the best triplet of estimators is δ T Gout, λ T Gs,s T Gseq ). cxviii 27

267 Although we made simulations based only on a gaussian kernel, we expect that the sequential method (iii), relying on the Kindist method applied to data out, will remain the best estimator to fit other kernels. In fact, it keeps the advantage of the current Kindist which is more robust than the TwoGener ones (ROBLEDO-ARNUNCIO et al. 2006) because it estimates only the parameters of the dispersal function and because the estimated dispersal distance is bounded in a some way : the maximal distance of paternity correlation is fixed by the user, by choosing a threshold to renormalize Ψ. In TGs and TGseq, the estimation of the selfing rate only relies on the pairwise differentiation and not on the comparison between the maternal and the seeds genotypes. Consequently our estimation is certainly less accurate than those from methods using mixed mating models (RITLAND 2002) based on paternity likelihoods. Moreover weighting the seeds of data tot during our estimation with the method Kout and TGout instead of simply removing the potentially selfed seeds in data out could lead to more accurate estimates. Using individual selfing rate estimated from mixed mating models (e.g. DE LUCAS et al. 2008) could be an elegant way to do this. Generally, the estimation of dispersal is more difficult when selfing occurs. When the selfing rate increases, more data is required in term of number of seeds and/or of exclusion probability, because (i) less seeds contain information about dispersal, (ii) selfing introduce a noise in this information and (iii) for TGs, an additional parameter has to be estimated. Thus if there is some a priori knowledge that selfing occurs, the sampling scheme should be modified to take into account the potential selfing rates at the level of the population but also at the individual level : higher selfing rates require a larger number of sampled seeds. For example, more seeds could be sampled on isolated trees because they are often expected to self more (NAITO et al. 2008). 28 cxix

268 ANNEXE IV. CONSIDERING SELFING EXPLICITLY IN TWOGENER Separating selfing from outcrossed pollen dispersal is necessary to obtain valuable estimate but also to allow accurate biological interpretations. Disconnecting selfing from the dispersal function is necessary (i) from a biological point of view because they are driven mostly by different mechanisms (ii) from a statistical point of view because the selfing rate represents the probability of a fecundation event from a tree located at a given point whereas for any dispersal kernel this probability is null (as the probability for a random continuous variable to have a given value is null). Nevertheless one can be interested in the "realized" backward mean pollen dispersal distance, δ real, integrating both selfing and outcrossed events. It is the average between outcrossed pollination events and pollination events at distance zero. It is thus given by δ real = (1 s) δ out. This value can be easily computed from the parameters estimated in our approach, and we can wonder if the current indirect approches actually estimate this "realized" dispersal when they omit to consider selfing. Actually, it does not seem to be the case: for example of s = 0.2, δ = 100 m, δ real = 80 m while TwoGener and Kindist methods estimate δ around 35m. Furthermore, disentangling the selfing rate and the estimation of the pollen dispersal curve of the outcrossing pollen provides more fruitful estimates to understand the genetic diversity of seeds produced when integrating the paternal and maternal contributions because offspring result from the union of the female and male gametes, although we are interested in male gamete haplotypes during the estimation of pollen dispersal. The seeds issued from selfing, that carry genes from only one individual, are much less genetically diversified than those issued from outcrossing, whose genotypes are the recombination between two individuals. So a given value for a synthetic mating parameter (e.g. number of effective pollen donors (N ep) or the mean distance of dispersal), can correspond to contrasted genetic diversities of the seeds produced (i.e. their heterozygoty) depending on the presence of selfing or not. It is important to clarify this point when studying the expression of inbreeding or outbreeding depression and the impact of the mating system on these phenomena (CHEPTOU 2006). cxx 29

269 The authors thank C. Bacles and J.Robledo for helpful comments on the manuscript. In addition they acknowledge the generous support of F. Austerlitz. 30 cxxi

270 ANNEXE IV. CONSIDERING SELFING EXPLICITLY IN TWOGENER LITERATURE CITED ADAMS, W., A. GRIFFIN, and G. MORAN, 1992 Using paternity analysis to measure effective pollen dispersal in plant-populations. American naturalist 140: AUSTERLITZ, F., C. W. DICK, C. DUTECH, E. K. KLEIN, S. ODDOU-MURATORIO, et al., 2004 Using genetic markers to estimate the pollen dispersal curve. Molecular Ecology 13: AUSTERLITZ, F., and P. E. SMOUSE, 2001 Two-generation analysis of pollen flow across a landscape. ii. relation between phi(ft), pollen dispersal and interfemale distance. Genetics 157: AUSTERLITZ, F., and P. E. SMOUSE, 2002 Two-generation analysis of pollen flow across a landscape. iv. estimating the dispersal parameter. Genetics 161: BURCZYK, J., W. T. ADAMS, G. F. MORAN, and A. R. GRIFFIN, 2002 Complex patterns of mating revealed in a eucalyptus regnans seed orchard using allozyme markers and the neighbourhood model. Molecular Ecology 11: BURCZYK, J., and T. E. KORALEWSKI, 2005 Parentage versus two-generation analyses for estimating pollen-mediated gene flow in plant populations. Molecular Ecology 14: CHAKRAVARTI, A., and C. LI, 1983 Inclusion probabilities in parentage testing., chapter The effect of linkage on paternity calculations. American Association of Blood Banks, Arlington VA., P CHEPTOU, P., 2006 Population biology - The ecology of inbreeding depression. Heredity 96: 110. DE LUCAS, A., J. ROBLEDO-ARNUNCIO, E. HIDALGO, and S. GONZÁLEZ-MARTÍNEZ, 2008 Mating system and pollen gene flow in mediterranean maritime pine. Heredity 100: DEVLIN, B., R. K., and N. C. ELLSTRAND, 1988 Fractional paternity assignment: theoretical development and comparison to other methods. Theoretical and Applied Genetics 76: DICK, C. W., G. ETCHELECU, and F. AUSTERLITZ, 2003 Pollen dispersal of tropical trees (dinizia excelsa: Fabaceae) by native insects and african honeybees in pristine and fragmented amazonian rainforest. Molecular Ecology 12: DIGGLE, P. J., 1983 Statistical analysis spatial point patterns. academic press inc. LTD, London, cxxii 31

271 first edition. DYER, R. J., R. D. WESTFALL, V. L. SORK, and P. E. SMOUSE, 2004 Two-generation analysis of pollen flow across a landscape v: a stepwise approach for extracting factors contributing to pollen structure. Heredity 92: EXCOFFIER, L., P. E. SMOUSE, and J. M. QUATTRO, 1992 Analysis of molecular variance inferred from metric distances among dna haplotypes - application to human mitochondrial-dna restriction data. Genetics 131: FERNANDEZ-MANJARRES, J. F., J. IDOL, and V. L. SORK, 2006 Mating patterns of black oak quercus velutina (fagaceae) in a missouri oak-hickory forest. Journal of Heredity 97: GOODWILLIE, C., S. KALISZ, and C. G. ECKERT, 2005 The evolutionary enigma of mixed mating systems in plants: Occurrence, theoretical explanations, and empirical evidence. Annual Review of Ecology Evolution and Systematics 36: HAMRICK, J., 2004 Response of forest trees to global environmental changes. Forest ecology and management 197: HARDY, O., S. GONZALEZ-MARTINEZ, H. FREVILLE, G. BOQUIEN, A. MIGNOT, et al., 2004 Fine-scale genetic structure and gene dispersal in Centaurea corymbosa (Asteraceae) I. Pattern of pollen dispersal. Journal of evolutionary biology 17: HARDY, O. J., S. C. GONZALEZ-MARTINEZ, B. COLAS, H. FREVILLE, A. MIGNOT, et al., 2004 Fine-scale genetic structure and gene dispersal in centaurea corymbosa (asteraceae). ii. correlated paternity within and among sibships. Genetics 168: HIRAO, A. S., Y. KAMEYAMA, M. OHARA, Y. ISAGI, and G. KUDO, 2006 Seasonal changes in pollinator activity influence pollen dispersal and seed production of the alpine shrub rhododendron aureum (ericaceae). Molecular Ecology 15: KARRON, J., R. JACKSON, N. THUMSER, and S. SCHLICHT, 1997 Outcrossing rates of individual Mimulus ringens genets are correlated with anther-stigma separation. Heredity 79: KLEIN, E. K., C. LAVIGNE, X. FOUEILLASSAR, P. H. GOUYON, and C. LAREDO, 2003 Corn pollen dispersal: Quasi-mechanistic models and field experiments. Ecological Monographs 73: 32 cxxiii

272 ANNEXE IV. CONSIDERING SELFING EXPLICITLY IN TWOGENER LATTA, R., Y. LINHART, D. FLECK, and M. ELLIOT, 1998 Direct and indirect estimates of seed versus pollen movement within a population of ponderosa pine. Evolution 52: LOISELLE, B., V. SORK, J. NASON, and C. GRAHAM, 1995 Spatial genetic-structure of a tropical understory shrub, Psychotria officinalis (rubiaceae). American journal of botany 82: MARQUARDT, D., 1963 An algorithm for least-squares estimation of nonlinear parameters. Journal of the Society for Industrial and Applied Mathematics 11: MEAGHER, T., 1986 Analysis of paternity within a natural population of /emphchamaelirium lutuem. 1. identification of most-likely male parents. The American Naturalist 128: NAITO, Y., M. KANZAKI, H. IWATA, K. OBAYASHI, S. L. LEE, et al., 2008 Density-dependent selfing and its effects on seed performance in a tropical canopy tree species, Shorea acuminata (Dipterocarpaceae). Forest ecology and management 256: O CONNELL, L. M., A. MOSSELER, and O. P. RAJORA, 2006 Impacts of forest fragmentation on the mating system and genetic diversity of white spruce (Picea glauca) at the landscape level. Heredity 97: ODDOU-MURATORIO, S., E. K. KLEIN, and F. AUSTERLITZ, 2005 Pollen flow in the wildservice tree, sorbus torminalis (l.) crantz. ii. pollen dispersal and heterogeneity in mating success inferred from parent-offspring analysis. Molecular Ecology 14: PETIT, R. J., and A. HAMPE, 2006 Some evolutionary consequences of being a tree. ANNUAL REVIEW OF ECOLOGY EVOLUTION AND SYSTEMATICS 37: RESTOUX, G., F. K. E. SILVA, D.E.AND SAGNARD, and B. FADY, 2008 Life at the margins: the mating system of mediterranean conifers. Web Ecology 8: RIPLEY, B., 1977 Modeling spatial patterns. JJournal of the royal statistical society series b- methodological 39: RITLAND, K., 2002 Extensions of models for the estimation of mating systems using n independent loci. Heredity 88: ROBLEDO-ARNUNCIO, J. J., and F. AUSTERLITZ, 2006 Pollen dispersal in spatially aggregated cxxiv 33

273 populations. American Naturalist 168: ROBLEDO-ARNUNCIO, J. J., F. AUSTERLITZ, and P. E. SMOUSE, 2006 A new method of estimating the pollen dispersal curve independently of effective density. Genetics 173: ROBLEDO-ARNUNCIO, J. J., F. AUSTERLITZ, and P. E. SMOUSE, 2007 POLDISP: a software package for indirect estimation of contemporary pollen dispersal. Molecular ecology notes 7: SHIMATANI, K., M. KIMURA, K. KITAMURA, Y. SUYAMA, Y. ISAGI, et al., 2007 Determining the location of a deceased mother tree and estimating forest regeneration variables by use of microsatellites and spatial genetic models. Population ecology 49: SMOUSE, P. E., R. J. DYER, R. D. WESTFALL, and V. L. SORK, 2001 Two-generation analysis of pollen flow across a landscape. i. male gamete heterogeneity among females. Evolution 55: SMOUSE, P. E., and V. L. SORK, 2004 Measuring pollen flow in forest trees: an exposition of alternative approaches. Forest Ecology and Management 197: SORK, V. L., J. NASON, D. R. CAMPBELL, and J. F. FERNANDEZ, 1999 Landscape approaches to historical and contemporary gene flow in plants. Trends in Ecology & Evolution 14: SORK, V. L., and P. E. SMOUSE, 2006 Genetic analysis of landscape connectivity in tree populations. Landscape ecology 21: STOYAN, D., and A. PENTTINEN, 2000 Recent applications of point process methods in forestry statistics. Statistical science 15: STOYAN, D., K. W.S., and M. J., 1987 Stochastic geometry and its applications. 34 cxxv

274 ANNEXE IV. CONSIDERING SELFING EXPLICITLY IN TWOGENER LIST OF FIGURES Figure 1 Impact of selfing rate on pairwise Φ ft (top) and Ψ (bottom). We used a gaussian dispersal function with an average distance δ, a population density λ and a selfing rate s from 0 to The value of N out ep was computed as 1/Q 0 using equation 6. On figure A, squares represente the corrected Φ ft proposed by BURCZYK et al (equation 15). Figure 2 Mean of pairwise Φ ft (A) and pairwise Ψ (B) computed from all seeds (full dots) or only the seeds certainly issued from outcrossing (open squares). They were calculated by averaging 1000 simulations and grouping pairwise distances in ten meters width classes. The data were simulated with a selfing rate s = 0.1, a gaussian dispersal function with mean δ = 100 m and a density λ = 16 trees/ha. The theoretical curves for Φ ft and Ψ correspond to no selfing (black curves) as in classical methods (equations 1 and 2) and to "s=0.10" (gray curves, equations 8 and 9). The dotted lines correspond to the and quantile of the pairwise Φ ft and Ψ, estimated on all seeds (black dotted curves) or only seeds certainly issued from outcrossing (gray dotted curves). Figure 3 Mean dispersal distance δ (A), population density λ (B) and selfing rate s (C) estimated with classical and corrected methods for different values of selfing rate obtained from 1000 simulations. The average of estimates are plotted together with the quantile and the quantile. Circles represent the Kindist method, squares the TwoGener method and diamonds the sequential TwoGener. Black, white and grey, respectively indicate the method: black circles and squares correspond to classical methods K and TG, white circles and squares correspond to Kout and T Gout ( i.e. without seeds potentially issued from selfing) and grey squares and diamonds correspond to T Gs and T Gseq (both using the model including selfing probability). The horizontal grey lines corresponds to true values i.e. δ = 100 m, λ = 16 trees/ha and s from 0 to 0.2. cxxvi 35

275 Figure 4 Estimated population density and mean dispersal distance obtained from 1000 simulations using a gaussian dispersal function with mean δ = 100 m and a density λ = 16 trees/ha and a selfing rate s=0.2. The 3 figures represent TwoGener (A) modified including an estimation of the selfing rate (s) (here radii of circles are proportional to estimated selfing rate), (B) the current TwoGener applied to data out i.e. sampled seeds without those potentially selfed, (C) the sequential TwoGener. The solid lines represent the true value of parameters. The dashed lines represent the thresholds chosen to reject estimations (i.e. if the estimated population density is lower than 0.01 or higher than 10 4 trees per hectare, we considered that the simulation had failed). 36 cxxvii

276 ANNEXE IV. CONSIDERING SELFING EXPLICITLY IN TWOGENER s s s 0.10 s 0.05 s Pairwise distance between mothers s 0.10 s 0.05 s Pairwise distance between mothers Pairwise Φft Pairwise Φft Pairwise Φft Pairwise distance between mothers Pairwise distance between mothers Pairwise Φft s 0.00 s 0.05 s s 0.00 s s 0.15 s 0.00 Pairwise Ψ Pairwise Ψ Pairwise Ψ Pairwise Ψ 0.2 s Pairwise distance between mothers 0.2 s 0.10 s Pairwise distance between mothers Pairwise distance between mothers Pairwise distance between mothers A B C D δ = 100m λ = 16 trees/ha δ = 100m λ = 64 trees/ha δ = 50m λ = 16 trees/ha δ = 25m λ = 16 trees/ha N out ep = 128 N ep out = 512 N ep out = 32 N ep out = 8 Figure 1: 37 cxxviii

277 Φ ft Ψ pairwise distances between mother A B Figure 2: pairwise distances between mother 38 cxxix

278 ANNEXE IV. CONSIDERING SELFING EXPLICITLY IN TWOGENER estimated mean dispersal distance estimated density (trees per ha) selfing probability A selfing probability B estimated selfing rate selfing probability C Figure 3: 39 cxxx

279 estimated mean dispersal distance (m) estimated density (trees per ha) s=0.1 s=0.2 s= e estimated mean dispersal distance (m) estimated density (trees per ha) e A B estimated mean dispersal distance (m) estimated density (trees per ha) e C Figure 4: 40 cxxxi

280 ANNEXE IV. CONSIDERING SELFING EXPLICITLY IN TWOGENER Excel Table 1 : Impact of the mean dispersal distance (δ) on the δ estimators. Relative bias, relative root mean square error (RMSE) and relative 0.95 confidence interval (CI) calculated by subtracting for CI and by dividing the absolute value by the parametric value of the variable, on the basis of 1000 replicates, using a gaussian dispersal function with a mean dispersal distance δ (m), a density λ=16 trees/ha and a selfing rate s=0.1. %f, percentage of failed estimations. δ=50 δ=100 δ=200 Bias RMSE CI(0.95) %f Bias RMSE CI(0.95) %f Bias RMSE CI(0.95) %f δtgtot [-0.197,0.054] [-0.614,-0.187] [-0.975,-0.706] 15.2 δktot [-0.179,0.027] [-0.572,-0.269] [-0.936,-0.656] 20 δtgout [-0.137,0.186] [-0.427,0.902] [-0.912,5.78] 25.5 δkout a [-0.121,0.124] [-0.361,0.238] [-0.932,1.882] 26.1 δtgs [-0.179,1.3] [-0.464,3.163] [-0.955,6.331] 52.2 δkout=δtgseq a cxxxii

281 Excel Table 2 : Impact of population density (λ) on the estimators. Relative bias, relative root mean square error (RMSE) and relative 0.95 confidence interval (CI) calculated by subtracting for CI and by dividing the absolute value by the parametric value of the variable, on the basis of 1000 replicates, using a gaussian dispersal function with a mean dispersal distance δ=100 m, a density λ (16 trees/ha) and a selfing rate s=0.1. %f, percentage of failed estimations. λ=4 λ=8 λ=16 λ=32 λ=64 Bias RMSE CI(0.95) %f Bias RMSE CI(0.95) %f Bias RMSE CI(0.95) %f Bias RMSE CI(0.95) %f Bias RMSE CI(0.95) %f δtgtot [-0.25,0.09] [-0.45,0.01] [-0.61,-0.19] [-0.81,-0.36] [-0.93,-0.49] 5.1 δktot [-0.28,0.06] [-0.42,-0.15] [-0.57,-0.27] [-0.70,-0.42] [-0.76,-0.53] 6.7 δtgout [-0.21,0.24] [-0.31,0.42] [-0.43,0.90] [-0.61,3.13] [-0.83,7.77] 11.6 δkout a [-0.24,0.01] [-0.28,0.07] [-0.36,0.24] [-0.52,0.71] [-0.77,1.59] 12 δtgs [-0.18,0.46] [-0.32,0.79] [-0.46,3.16] [-0.67,9.92] [-0.90,11.24] 32.1 λtgtot [-0.34,0.62] [-0.34,1.24] [-0.31,2.18] [-0.29,7.41] [-0.38,35.5] 5.1 λtgout [-0.38,0.74] [-0.56,1.25] [-0.76,2.42] [-0.98,6.9] [-1.00,46.6] 11.6 λtgs [-0.47,0.55] [-0.68,1.03] [-0.97,1.99] [-1.00,3.91] [-1.00,50.7] 32.1 λtgseq [-0.04,0.93] [-0.13,1.10] [-0.25,1.54] [-0.49,2.68] [-0.51,31.76] 16.3 a δkout=δtgseq cxxxiii

282 ANNEXE IV. CONSIDERING SELFING EXPLICITLY IN TWOGENER Excel Table 3 : Impact of the exclusion probability on the estimators. NL is the number of loci and NA, the number of alleles by locus. The allelic frequencies are equilibrated. Relative bias, relative root mean square error (RMSE) and relative 0.95 confidence interval (CI) calculated by subtracting for CI and by dividing the absolute value by the parametric value of the variable, on the basis of 1000 replicates, using a gaussian dispersal function with a mean dispersal distance δ =100 m, a density λ=16 trees/ha and a selfing rate s=0.1. %f, percentage of failed estimations. NL =3 NA =3 NL =4 NA =4 NL =1 NA =33 NL =10 NA =10 NL =1 NA =100 PE=0.75 Poverself=0.154 PE=0.93 Poverself=0.033 PE=0.93 Poverself=0.054 PE=0.999 Poverself=6e-8 PE=0.98 Poverself=0.018 Bias RMSE CI(0.95) %f Bias RMSE CI(0.95) %f Bias RMSE CI(0.95) %f Bias RMSE CI(0.95) %f Bias RMSE CI(0.95) %f δtgtot [-0.94,1.24] [-0.91,0.72] [-0.67,0.07] [-0.61,-0.19] [-0.59,-0.09] 0 δktot [-0.86,0.23] [-0.78,0.003] [-0.63,-0.15] [-0.57,-0.27] [-0.56,-0.26] 0 δtgout [-0.98,-0.51] [-0.87,4.5] [-0.82,0.56] [-0.43,0.9] [-0.44,0.7] 0 δkout a [-0.91,-0.49] [-0.78,1.02] [-0.72,0.06] [-0.36,0.24] [-0.4,0.17] 0 δtgs [-0.83,82.1] [-0.66,12.1] [-0.44,14.1] [-0.46,3.2] [-0.49,3.3] 1.8 λtgtot [-0.94,161] [-0.85,48.] [-0.58,3.9] [-0.31,2.2] [-0.41,1.8] 0 λtgout [-0.38,265] [-0.98,81] [-0.78,21] [-0.76,2.4] [-0.73,2.5] 0 λtgs [-0.99,18] [-0.99,3.7] [-0.99,1.3] [-0.97,1.9] [-0.97,1.6] 1.8 λtgseq [-0.37,18] [-0.51,24] [-0.32,9.8] [-0.25,1.5] [-0.22,1.8] 0 a δkout=δtgseq cxxxiv

283 Annexe V Inference with a contrast-based posterior distribution and application in spatial statistics

284 ANNEXE V. INFERENCE WITH A CONTRAST-BASED POSTERIOR DISTRIBUTION Statistical Methodology 6 (2009) Contents lists available at ScienceDirect Statistical Methodology journal homepage: Inference with a contrast-based posterior distribution and application in spatial statistics S. Soubeyrand a,, F. Carpentier a, N. Desassis b, J. Chadœuf a a INRA, UR546 Biostatistique et Processus Spatiaux, F Avignon, France b Ecole Nationale Supérieure des Mines de Paris, Centre de Géosciences, F Fontainebleau, France a r t i c l e i n f o a b s t r a c t Article history: Received 21 August 2008 Received in revised form 31 March 2009 Accepted 31 March 2009 Keywords: Frequentist estimation Quasi-Bayesian estimation Spatial model The likelihood function is often used for parameter estimation. Its use, however, may cause difficulties in specific situations. In order to circumvent these difficulties, we propose a parameter estimation method based on the replacement of the likelihood in the formula of the Bayesian posterior distribution by a function which depends on a contrast measuring the discrepancy between observed data and a parametric model. The properties of the contrast-based (CB) posterior distribution are studied to understand what the consequences of incorporating a contrast in the Bayes formula are. We show that the CB-posterior distribution can be used to make frequentist inference and to assess the asymptotic variance matrix of the estimator with limited analytical calculations compared to the classical contrast approach. Even if the primary focus of this paper is on frequentist estimation, it is shown that for specific contrasts the CB-posterior distribution can be used to make inference in the Bayesian way. The method was used to estimate the parameters of a variogram (simulated data), a Markovian model (simulated data) and a cylinder-based autosimilar model describing soil roughness (real data). Even if the method is presented in the spatial statistics perspective, it can be applied to non-spatial data Elsevier B.V. All rights reserved. 1. Introduction In both the frequentist and the Bayesian viewpoints, the likelihood function has become the major component of statistical inference under a parametric model. Its use, however, has drawbacks in Corresponding author. Tel.: ; fax: address: (S. Soubeyrand) /$ see front matter 2009 Elsevier B.V. All rights reserved. doi: /j.stamet cxxxvi

285 S. Soubeyrand et al. / Statistical Methodology 6 (2009) specific situations. First, it may be impossible to write down the likelihood in a numerically tractable form; see the cases of Boolean models [1], Markov point processes [2], Markov spatial processes [3] and spatial generalized linear mixed models (spatial GLMM; [4]) where multiple integrals cannot be reduced due to spatial dependences. Second, the likelihood may not be completely appropriate because of the associated assumptions. For instance, the likelihood is built under an assumption on the distribution of data, but such an assumption may be tricky to specify in the case of insufficient information as in classical geostatistics [5]; see also [6, chap. 9]. In the same vein, every data are assumed to have the same weights in the likelihood, but the influence of outliers may be too large according to the analyst [7]. The difficulties encountered with the likelihood can be circumvented with the existing Bayesian and frequentist procedures. There are procedures which use conditional simulations to numerically approximate the likelihood. For instance, Markov chain Monte Carlo algorithms (MCMC; [8]) allow the approximation of the posterior distribution for Markov point processes [2] and spatial GLMMs [4]; Markov chain expectation maximization algorithms (MCEM; [9]) allow the maximization of the likelihood for Boolean models [1] and spatial GLMMs [10]. There are procedures where the likelihood function is simplified or replaced. For example, the likelihood can be replaced by a pseudo-likelihood which only takes account of local dependence structures, like in [2] for Markov point processes and [11,3] for Markov spatial processes. The generalized least squares estimation, which does not rely on assumptions on the distribution of data, is used in geostatistics for the estimation of variogram parameters; see [5, chap. 2 3] and [12, chap. 1]. Other examples of procedures where the likelihood function was replaced are: the weighted likelihood maximization [7], the method of moments, the M-estimation [13], the approximate Bayesian computation (ABC; [14]), the pseudo-posterior approach of Walker and Hjort [15], the quasi-likelihood maximization [6] and the quasi-bayesian likelihood method [16]. In the pseudo-posterior approach of Walker and Hjort [15], the likelihood is replaced by its squareroot in the posterior distribution. This has the consequence of flattening the likelihood and leads to a robustifying posterior distribution. In the quasi-bayesian likelihood approach [16], the likelihood appearing in the posterior distribution formula is replaced by a quasi-likelihood which does not rely on distribution assumptions. Then, the posterior distribution which is obtained is used to make inference as in classical Bayesian situations. In this communication we propose to generalize these approaches: the likelihood in the posterior distribution formula is replaced by a function of a contrast. A contrast is a function of the model parameters and the observed data which is minimized to estimate the parameters [17]. The minimum contrast approach is a generic estimation method which was developed in a frequentist perspective. The maximum likelihood estimation as well as the maximum pseudo-, weighted- or quasi-likelihood estimation, the diverse least squares methods, the method of moments and the M-estimation can be formulated as minimum contrast estimation problems. The procedure which is proposed replacing the likelihood by a function of a contrast in the Bayesian formula generalizes some of the existing approaches. It indeed includes the classical Bayesian approach (here and thereafter classical refers to likelihood-based ), the pseudo-posterior approach of Walker and Hjort [15] and the quasi-bayesian approach of Lin [16]. This procedure provides a contrast-based (CB) posterior distribution which does not coincide, in the general case, with the classical posterior distribution. In this paper, we investigate what are the posterior distribution and the MAP (maximum a posteriori) estimator based on a contrast. Under mild conditions on the prior distribution, we show that the CB MAP estimator inherits the asymptotic properties (consistency and asymptotic normality) of the minimum contrast estimator, as the classical MAP estimator inherits the asymptotic properties of the maximum likelihood estimator [18]. The limit variance matrix of the normalized estimator is I 1 θ Γ θ I 1 θ where Γ θ is the limit variance of the gradient of the contrast and I θ is the limit Hessian matrix of the contrast. Moreover, we show that the CB-posterior distribution is asymptotically equivalent to a normal distribution whose variance matrix is I 1 θ. Therefore, when building the contrast, particular attention must be paid to satisfy, if possible, I 1 θ Γ θ I 1 θ = I 1 θ. Indeed, with such a contrast, inference can be made without computing matrices Γ θ and I θ : the posterior distribution can either be used as cxxxvii

286 ANNEXE V. INFERENCE WITH A CONTRAST-BASED POSTERIOR DISTRIBUTION 468 S. Soubeyrand et al. / Statistical Methodology 6 (2009) a limit distribution in a frequentist viewpoint or be used to make inference in the Bayesian way. When building a contrast satisfying I 1 θ Γ θ I 1 θ = I 1 θ is not possible, the CB-posterior distribution can nevertheless be used to estimate I 1 θ. Thus, the computation of the limit Hessian matrix of the contrast is avoided. The article is organized as follows. The method is presented in Section 2, and its properties are derived. Then, it is applied in Sections 3 and 4 to simulated and real cases in spatial statistics (estimation of the range parameter of a variogram; estimation of the parameters of a Markovian spatial process; and estimation of the parameters of a cylinder-based autosimilar model describing soil roughness). The three cases illustrate the application of the method when the parameter has one or several components and when I 1 θ Γ θ I 1 θ is equal to or different from I 1 θ. 2. Incorporating a contrast in the Bayesian formula 2.1. Minimum contrast estimation Consider a family of parametric models {P α : α Θ} and samples of increasing sizes t T N, drawn from the model P θ with the true parameter θ. A contrast for θ is a random function α U t (α) defined over Θ, depending on a sample of size t, and such that {U t (α) : t T} converges in probability, as t, to a function α K(α, θ) which has a strict minimum at α = θ. The minimum contrast estimator is ˆθ t = argmin{u t (α), α Θ}. The maximum likelihood estimation, the maximum pseudo-, weighted- or quasi-likelihood estimation, the diverse least squares methods, the method of moments and the M-estimation can be formulated as minimum contrast estimation problems. A detailed presentation of minimum contrast estimation can be found in [17]. Molchanov [19] illustrates the use of minimum contrast estimation in spatial statistics Posterior distribution and MAP estimator based on a contrast Let (X i ) i t be a sample of size t with distribution P α. Then, the posterior distribution of α is p(α X i, i t) = P α(x i,i t)c(α) Θ P β (X i,i t)c(β)dβ, where P α (X i, i t) denotes the likelihood and c( ) is a prior distribution defined over Θ. The contrast corresponding to the likelihood being U lik t (α) = 1 log P t α(x i, i t) [17], the posterior distribution can be written by replacing P α (X i, i t) by exp( tu lik t (α)) in the previous equation. Here, we propose to substitute the contrast associated with the likelihood in the Bayesian formula with any contrast U t (α). This leads to a contrast-based (CB) posterior distribution denoted by p t (α): p t (α) = exp( tu t (α))c(α) Θ exp( tu t(β))c(β)dβ. (1) The CB MAP estimator obtained by maximizing p t ( ) is denoted by θ t = argmax{p t (α), α Θ} θ t is at the minimum of α U t (α) (1/t) log c(α) and, in general, does not coincide with the classical minimum contrast estimator ˆθ t = argmin{u t (α), α Θ}. Remark. The CB-posterior distribution proposed in Eq. (1) is one out of several possible alternatives to the classical posterior distribution. Indeed, other link functions, say g, could be used instead of the exponential function. The link g should be an increasing function and should satisfy regularity conditions in order to inherit the properties of the contrast. The use of the exponential link has two major advantages: (i) the classical Bayesian approach is included in the method which is proposed and (ii) the exponential link is particularly convenient for mathematical derivations allowing us to cxxxviii

287 S. Soubeyrand et al. / Statistical Methodology 6 (2009) determine the properties of the CB MAP estimator and the CB-posterior distribution. These properties are investigated below Consistency and asymptotic normality of the CB MAP estimator We noted above that the CB MAP estimator θ t is at the minimum of α U t (α) (1/t) log c(α). This function satisfies the definition of a contrast. Consequently, convergence properties of θ t can be easily obtained by using the contrast theory [17]. Assume that the hypotheses required for the convergence of the classical minimum contrast estimator (see Appendix A) are satisfied. Let us assume in addition that the prior distribution c( ) is proper, differentiable and strictly positive over Θ. It follows that, as t, θ t converges in probability to θ and t( θ t θ) converges in law to the Gaussian distribution N ( ) 0, I 1 θ Γ θ I 1 θ, where I θ and Γ θ are matrices satisfying: HU t (θ) I θ in probability as t t grad Ut (θ) N (0, Γ θ ) in law. Remark 1. The convergence results given above can also be obtained by noting that the asymptotic deviation between the classical minimum contrast estimator ˆθ t and the CB MAP estimator θ t is of order 1/t. More exactly, it is shown in Appendix B that θ t ˆθ t = 1 + o proba(1) I 1 θ grad c(θ). (2) tc(θ) Remark 2. It would be interesting to study not only the asymptotics of the CB-posterior maximum but also the asymptotics of the CB-posterior mean and median which are commonly used in classical Bayesian estimation Convergence of the CB-posterior distribution The CB-posterior distribution p t )( ) is asymptotically equivalent to the density function of the Gaussian distribution N ( θ t, (ti θ ) 1 (see Appendix C): ( 1 p t (α) exp 1 ) t (2π) p/2 (ti θ ) 1 1/2 2 (α θ t ) (ti θ )(α θ t ). (3) This result allows us to figure out what the CB-posterior distribution is and how it can be used to make inference in the frequentist and Bayesian ways. ) In the contrast theory, the distribution N ( θ t, (ti θ ) 1 Γ θ I 1 θ is used to make frequentist inference about θ: the point estimator is θ t, and confidence zones are provided based on this normal distribution. Consequently, if the contrast is such that I 1 θ Γ θ I 1 θ = I 1 θ, then the CB-posterior distribution p ) t ( ) which approximates the density of N ( θ t, (ti θ ) 1 can be directly used to make frequentist inference about θ: the mode of p t ( ) is the point estimator, and confidence zones can be directly determined from p t ( ). This case is particularly interesting since the calculation of the limit matrices I θ = lim t HU t (θ) and Γ θ = lim t V θ ( t grad U t (θ)) is no more required. Moreover, when the contrast which is considered satisfies I 1 θ Γ θ I 1 θ = I 1 θ, we propose to use the CB-posterior distribution p t ( ) to make inference in the Bayesian way, i.e. to use p t ( ) as a real posterior density. The motivation is based on the following analogy: when the contrast corresponding to the likelihood is employed (in this case, I 1 θ Γ θ I 1 θ = I 1 θ ), then p t ( ) can be used (i) to make frequentist inference since it is an approximation of the limit distribution of the estimator (see above) and (ii) to make Bayesian inference since it is the classical posterior density. It has to be noted that, in general, cxxxix

288 ANNEXE V. INFERENCE WITH A CONTRAST-BASED POSTERIOR DISTRIBUTION 470 S. Soubeyrand et al. / Statistical Methodology 6 (2009) Fig. 1. Left: realization of a centered Gaussian random field with exponential variogram parameterized with θ = 1, over a square grid. Right: prior density (horizontal dotted line), contrast-based posterior density (dotted curve), density function of the limit distribution N ( θ t, Γ θ /(ni θ ) 2 ) (continuous and dashed lines when the estimate of the limit variance is based on simulations and when it is based on the posterior distribution), and MAP estimator (vertical line). the CB-posterior density p t ( ) does not coincide with the classical posterior density. It is a posterior density based on the information brought by the contrast under consideration. If the contrast does not satisfy I 1 θ Γ θ I 1 θ = I 1 θ, then the CB-posterior distribution p t ( ) cannot be used to approximate the limit distribution of θ t or to make Bayesian inference. However, p t ( ) can be used to estimate the matrix I θ, so avoiding the calculation of the second derivatives of the contrast. Indeed, one can see from (3) that an estimate of I θ is the matrix Ω 1 /t where Ω is the variance matrix of the normal density function centered around θ t and fitted to p t ( ) (using a least squares technique for example). If θ is real, I θ can be more simply estimated by 2πp t ( θ t ) 2 /t since Eq. (3) yields p t ( θ t ) (ti θ /2π) 1/2. We have not found an equivalent way to easily estimate Γ θ t without analytical calculation of the second derivatives and without simulations. 3. Application in spatial statistics: Simulated data This section illustrates the properties of the CB-posterior distribution and shows the possible discrepancy between this posterior and the limit distribution of the CB-MAP Least-square estimation of a variogram range This simulated case illustrates the application of the method for a real parameter. Here, the CB-posterior distribution cannot be directly used to make inference but can be used to estimate I θ. We built a data set by simulating a centered Gaussian random field whose variogram at distance h is γ θ (h) = 1 exp( θh) with θ = 1; θ is the inverse of the range parameter. The field was simulated over a square grid {i = (i 1, i 2 ) : 0 i 1, i 2 n} with size t = n 2 = 20 2 and inter-node distance one. Fig. 1(left) shows the simulated random field. The sample variogram ˆγ (h) [5] was estimated for every possible inter-point distance h less than the half diagonal of the grid; let H denote the set of these distances. For the estimation of θ, we chose a uniform prior density over [0, 4] (horizontal dotted line in Fig. 1, right) and we used the least-square contrast between the sample variogram and the theoretical variogram U n 2(α) = 1 { ˆγ (h) γα (h) }2. (4) 2 cxl h H

289 S. Soubeyrand et al. / Statistical Methodology 6 (2009) The CB-posterior density is shown in Fig. 1 (right, dotted curve). The MAP estimate is θ t = 1.34 (vertical line). Estimation uncertainty was assessed by estimating the limit variance Γ θ /(ni θ ) 2 of θ t. The term Γ θ = lim t V θ ( t grad U t (θ)) (here, t = n 2 ) was estimated based on Monte Carlo simulations: 1000 Gaussian random fields were simulated under θ t ; for each simulation the sample variogram { ˆγ (h) : h H} was computed, and the first derivative of the contrast in θ t, i.e. he θ t h h H { ˆγ (h) (1 e θ t h )}, was calculated; the sample variance of the derivatives multiplied by n 2 gave the estimate 1.97 for Γ θ. The term I θ = lim t HU t (θ) was estimated in two ways: with the estimator 2πp t ( θ t ) 2 /t as suggested in Section 2.4 and with Monte Carlo simulations. In the former way, the estimate of I θ is The second way was carried out as follows: for each of the 1000 simulated Gaussian fields mentioned above, the second derivative of the contrast in θ t, i.e. h H h2 e θ t h [e θ t h { ˆγ (h) (1 e θ t h )}], was computed; then, the sample mean of these derivatives gave the estimate 0.27 for I θ. Thus, the estimate of the limit variance Γ θ /(ni θ ) 2 of θ t is 0.07 when I θ is assessed by simulations and 0.12 when I θ is computed from the CB-posterior distribution. The density function of the limit distribution N ( θ t, Γ θ /(ni θ ) 2 ) is drawn in Fig. 1(right). The continuous and dashed lines show this density when the estimate of the limit variance is 0.07 and 0.12, respectively. The true value θ = 1 belongs to the 95%-confidence interval whatever the estimate of the limit variance is. We see how the two versions of the limit density are different from the CB-posterior density. To assess the efficiency of the method, the coverage rate of the 95%-confidence interval was measured by applying the estimation procedure to 1000 simulated fields. The coverage rate was 94.6% when the estimate of I θ is based on Monte Carlo simulations and 94.7% when the estimate of I θ comes from the contrast-based posterior density Pseudo-likelihood estimation of a Markovian spatial model This simulated case illustrates the application of the method for a bivariate parameter. Here, the CB-posterior distribution is different from the limit distribution of the estimator; it cannot be directly used to make inference but can be used for estimating I θ. We built a data set by simulating a spatial Markov field X with two states, 0 and 1. The model is defined by the conditional probability of X i given X j, j V(i) (V(i) is the set of the four nearest neighbors of i) satisfying [3] P θ (X i X j, j i) = P θ (X i X j, j V(i)) ( exp θ 1 X i + θ 2 = { 1 + exp ( θ 1 + θ 2 ) X i X j j V(i) j V(i) X j )}. The field was simulated on an n n square grid I (here, t = n 2 = 20 2 ); see Fig. 2(left). The classical likelihood cannot be analytically calculated for this model. Therefore, a pseudolikelihood was proposed to make inference [3]. The pseudo-likelihood is the product of the conditional probabilities i I P θ(x i X j, j i). To estimate θ 1 and θ 2, we applied the estimation method proposed in this article by using a uniform prior density over [ 1.5, 1.5] 2 and the contrast corresponding to the pseudo-likelihood: U n 2(α) = 1 log P α (X n 2 i X j, j V(i)). (5) i I The CB-posterior density is shown in Fig. 2 (center). The MAP estimate is θ t = ( 0.21, 0.38). To give the limit distribution N ( θ t, I 1 θ Γ θ I 1 θ /n 2 ) of the estimator, matrices Γ θ and I θ must be estimated. We computed the gradient and the Hessian of the contrast for N = 1000 Markov fields cxli

290 ANNEXE V. INFERENCE WITH A CONTRAST-BASED POSTERIOR DISTRIBUTION 472 S. Soubeyrand et al. / Statistical Methodology 6 (2009) Fig. 2. Left: realization of a Markovian spatial process with two states over a grid. Center: contrast-based posterior density. Right: limit density N ( θ t, I 1 θ Γ θ I 1 θ /n 2 ). On the center and right panels, the MAP estimate and the true parameter are drawn with a black dot and a circle, respectively. On the right panel, the continuous line circumscribes the 95%-confidence zone. simulated under θ t, and we used the sample variance of the gradients for estimating Γ θ and the sample mean of the Hessians for estimating I θ ; see Appendix D. The estimate of the limit variance matrix I 1 θ Γ θ I 1 θ /n 2 was finally ( ) Almost the same limit variance matrix was obtained when I θ was estimated by fitting a normal density to the CB-posterior density as suggested in Section 2.4. Fig. 2 (right) shows the limit density function of the estimator together with the 95%-confidence zone. We can see that the true parameter belongs to this zone. Moreover, Fig. 2 shows that the limit density is quite close from the posterior density. The pseudo-likelihood which takes account of short-distance interactions certainly brings almost the same information than the likelihood brings. It has however to be noted that this would not be the case if long-distance interactions had been introduced in the spatial Markov model. 4. Application in spatial statistics: Real data This section presents a case where the CB-posterior distribution can be directly used to make inference in the frequentist and Bayesian ways (the estimation of the limit matrices I θ and Γ θ being not required). The method is applied to a real data set dealing with soil roughness Cylinder-based autosimilar model Soil roughness plays an important role in rain water absorption, pond and streaming. It also modifies reflectance properties of soils used to estimate soil moisture with remote detection for example. An experiment was carried out to measure soil roughness at a small scale. Soil heights were measured every 2 mm along 1.18 m-transects in a cultivated field [20]. Fig. 3(top) shows the distributions of heights for two among twelve sampled transects. The mean height computed from the 12 transects is 7.6 mm, the maximum is 22.9 mm. Object-based models [21], chap. 14, have been used to describe soil surface [20,22]. Here, we use a cylinder-based autosimilar model defined as follows. For any x R 2 and r > 0, let f (x, r) = r1 { x <r} be the function describing the cylinder which is centered in x and whose radius and height are equal to r (1 { } is the indicator function). In addition, let (X, R) be a marked Poisson point process defined over R 2 R + with intensity function µ(x, r) = α exp{ βr}. The random surface Y representing the soil surface is defined by Y M = f (x M, r). cxlii (x,r) (X,R)

291 S. Soubeyrand et al. / Statistical Methodology 6 (2009) Fig. 3. Top: distribution of heights for two transects. Bottom left: contrast-based posterior density for (α, β); the MAP estimate is at the black dot. Bottom center and right: contrast-based posterior marginal densities for α and β (continuous lines) and prior marginal densities (dashed lines) Parameter estimation using moments For such a process, it is difficult to calculate the joint distribution of the heights whereas the moments can easily be written. We propose to estimate the bivariate parameter vector θ = (α, β) using the first two moments: ˆµ A = ( 1 ν(a) A Y 1 MdM, ν(a) A Y 2 MdM), where A is the set of the sampled transects and ν(a) is its measure. If border effects are neglected, the expected value of ˆµ A is αβ 2 α2 E( ˆµ A ) = (6π, 36π 4 β + 24π α ). 8 β 5 Moreover, the variance matrix of ˆµ A satisfies ν(a)var( ˆµ A ) V, where the components of V are V 11 = 5! 16 α 3 V 12 = 6! 16 3 V 22 = 7! 16 3 with κ = β 6 α α2 + (5!)64π β7 β 10 α α2 2 α3 + {(6!)128π + (10!)32κ} + (3!)(5!)128π β8 β11 β, 14 (arccos(u) u 1 u 2 )(arccos(v) v 1 v 2 ) (uv)5 0 (u+v) 11 dudv. cxliii

292 ANNEXE V. INFERENCE WITH A CONTRAST-BASED POSTERIOR DISTRIBUTION 474 S. Soubeyrand et al. / Statistical Methodology 6 (2009) The estimation method is applied by using a uniform prior over [1, 100] [1, 5] and a contrast based on the weighted least squares of the first two moments: U A (θ) = ( ˆµ A E( ˆµ A )) V 1 ( ˆµ A E( ˆµ A ))/2. For this contrast, the matrices I θ and Γ θ are equal and their component (i, j) is E( ˆµ A ) V E( ˆµ A) 1. θ i θ j Consequently, I 1 θ Γ θ I 1 θ = I 1 θ and the CB-posterior density can be used as an approximation of the limit density of the MAP estimator θ A or as a posterior distribution of the parameter θ (see Section 2.4). Fig. 3(bottom) shows the joint CB-posterior distribution and the marginals. The MAP estimate of θ is θ A = (46.6, 3.28). Marginal 95%-confidence intervals of α and β are [36.1, 58.5] and [3.07, 3.48], respectively. 5. Discussion 5.1. Summary We have proposed an estimation method exploiting a contrast-based posterior distribution (CBPD). This method includes the classical likelihood-based procedures (MLE and Bayesian estimation), but has been mainly developed to circumvent difficulties encountered with the likelihood by generalizing the Bayesian formula of the posterior distribution, so extending the proposal of Lin [16]. The CBPD can be used to make frequentist inference and, in specific situations, Bayesian inference. In case of frequentist inference, the use of the CBPD allows the reduction of analytical calculations usually required to compute the limit variance matrix of the estimator. In this article, the method has been applied to spatial data sets, but can be applied to other cases where likelihood-based procedures are not appropriate Frequentist and Bayesian inference In the frequentist viewpoint, the CBPD can be used to provide a point estimator (the posterior mode) and the limit distribution of this estimator. The limit distribution is directly approximated by the CBPD if the variance of the gradient vector of the contrast is equal to the inverse of the limit Hessian matrix of the contrast (i.e. I 1 θ Γ θ I 1 θ = I 1 θ ; see the third application). In this case, it is not required to calculate and estimate the variance matrix of the estimator. In other cases, the limit distribution is not directly available, but the Hessian matrix of the contrast can be easily estimated from the CBPD and, consequently, the calculation of the second derivatives of the contrast is avoided (see the first two applications). It has to be noted that using Bayesian calculation to make frequentist estimation has been proposed in the literature [23 25], but the proposals were restricted to maximum likelihood estimation. In the Bayesian viewpoint, the CBPD can be used as a classical posterior distribution when I 1 θ Γ θ I 1 θ = I 1 θ, as in the third application. However, the CBPD does not coincide with the classical posterior distribution: It has to be viewed as a posterior distribution based on the information brought by the contrast which is used. Regarding the reconciliation of the frequentist and the Bayesian approaches, it has to be noted that the Bernstein Von Mises (BVM) theorem, translated to our context, does not hold in general. The classical BVM theorem asserts that, under specific conditions, the posterior distribution converges to a Gaussian distribution with variance matrix equal to the asymptotic variance of the maximum likelihood estimator [26]. In this paper we saw that the CBPD is asymptotically equivalent to a Gaussian distribution with variance matrix I 1 θ whereas the asymptotic variance matrix of the minimum contrast estimator is I 1 θ Γ θ I 1 θ Limits of the approach and perspectives Even if the proposed procedure has advantages, it also faces two classical limits: the choice of the prior distribution (or the penalization function in the frequentist viewpoint) which can influence the cxliv

293 S. Soubeyrand et al. / Statistical Methodology 6 (2009) posterior inference, and the choice of the contrast. Regarding the former limit, we refer to [27] and [28] for example. Regarding the choice of the contrast, two comments arise. The first comment concerns the possibility to build a contrast such that I 1 θ Γ θ I 1 θ = I 1 θ (case where our method has favorable properties). Necessary and sufficient conditions for obtaining this equation are not known to us. However, sufficient conditions can be given. For example, using a coding technique [11] based on conditional independence between sets of data is a sufficient condition. We could have applied such a technique instead of the pseudo-likelihood method for the estimation of the parameters of the Markovian spatial model (second simulated case-study). But, the use of the coding method would have induced a loss of information [3]. It is also possible to obtain I 1 θ Γ θ I 1 θ = I 1 θ for specific models by rescaling the contrast with a variance matrix. We applied this approach in the real case-study because we could provide the analytical form for the variance matrix of the sample moments. To apply the same approach for the estimation of the range parameter of a variogram (first case-study), we should have modeled the variance of the sample variogram. However, such a practice is not common in geostatistics when the field is not assumed to be Gaussian (and it may be cumbersome). It has to be noted that if an approximate likelihood is used and its discrepancy from the true likelihood can be analytically quantified, it may be possible to assess the discrepancy between I 1 θ Γ θ I 1 θ and I 1 θ, and to correct the CBPD accordingly. Our second comment concerns the information brought by contrasts. We see that in the real casestudy the two estimators are strongly correlated. We could have tried to use another contrast to avoid correlation. For example, together with the sample mean, we could have used the covariance at a given distance instead of the variance to get two moments which are less correlated. However, the calculation of the expected value and the variance covariance of these moments is much more tricky. Thus, to be able to derive analytical expressions and apply the method as it is presented, the choice of the contrast is limited. Nevertheless, simulations could be used to circumvent this difficulty. This could be an interesting extension of the estimation method proposed in this paper. Appendix A. Hypotheses for minimum contrast estimation H 1 : Θ R p, p <, is compact and θ is in the interior of Θ, H 2 : α K(α, θ) has a strict minimum at θ, H 3 : α U t (α) is C 2 (it has two continuous derivatives) over Θ, H 4 : the normalized gradient vector t grad U t (θ) (first derivatives of U t (θ) with respect to θ) converges in law to the normal distribution N (0, Γ θ ): t grad Ut (θ) N (0, Γ θ ) in law as t, H 5 : the Hessian matrix HU t (θ) (second derivatives of U t (θ) with respect to θ) converges in probability to an invertible matrix I θ : H 6 : HU t (θ) I θ in probability as t, sup H kl U t (θ + β) H kl U t (θ) 0 in probability, where ɛ > 0 and H kl is the component (k, l), β <ɛ 1 k, l p, of the Hessian operator. Under these assumptions, the minimum contrast estimator is consistent and asymptotically normal [17]: as t, ˆθ t converges in probability to θ and t(ˆθ t θ) converges in law to the Gaussian distribution N ( ) 0, I 1 θ Γ θ I 1 θ. Appendix B. Proof of Eq. (2) Since θ t satisfies grad p t ( θ t ) = 0, 0 = tc( θ t ) grad U t ( θ t ) + grad c( θ t ). cxlv

294 ANNEXE V. INFERENCE WITH A CONTRAST-BASED POSTERIOR DISTRIBUTION 476 S. Soubeyrand et al. / Statistical Methodology 6 (2009) Then, applying a first order Taylor s expansion for grad U t ( θ t ) around ˆθ t yields 0 = tc( θ t ){ grad U t (ˆθ t ) + (HU t (ˆθ t ))( θ t ˆθ t )}(1 + o proba (1)) + grad c( θ t ). In this equation, grad U t (ˆθ t ) = 0 because ˆθ t is the maximizer of U t ( ). Moreover, applying zero order Taylor s expansions for c( θ t ), HU t (ˆθ t ) and grad c( θ t ) around θ yields 0 = tc(θ)(hu t (θ))( θ t ˆθ t )(1 + o proba (1)) + grad c(θ) = tc(θ)i θ ( θ t ˆθ t )(1 + o proba (1)) + grad c(θ), since lim t HU t (θ) = I θ in probability. Then Eq. (2) follows. Appendix C. Proof of Eq. (3) Let δ > 0. For any a such that sup 1 i p a i < t δ, a third order Taylor s expansion yields log p t ( θ t + a/ t) log p t ( θ t ) = ta grad U t ( θ t ) 1 2 a I θ a + o proba (t 2δ + t 3δ 1/2 ). Given that grad U t (ˆθ t ) = 0 (definition of the classical minimum contrast estimator ˆθ t ) and that θ t ˆθ t = o proba (t 1+δ )1 p where 1 p is the unit vector of size p, the dimension of Θ (see Eq. (2)), the previous equation becomes log p t ( θ t + a/ t) log p t ( θ t ) = 1 2 a I θ a + o proba (t 2δ + t 3δ 1/2 ). Ensuring that δ < 1/2 (and not only δ > 0), then log p t ( θ t + a/ t) log p t ( θ t ) = 1 2 a I θ a + o proba (t 2δ ) = 1 2 a I θ a {1 + o proba (1)}. Let us introduce g t : a t p/2 p t ( θ t + a/ t) defined over R p. This density function satisfies, from the previous result, ( g t (a) t p/2 p t ( θ t ) exp 1 ) t 2 a I θ a. Since g t ( ) is a density function and given the form of the right-hand-side term of this equation, g t ( ) is equivalent to the density function of the normal law with variance matrix I 1 θ. Eq. (3) is then obtained with the change of variable α = θ t + a/ t. Appendix D. Spatial Markovian model: Limit matrices I θ and Γ θ satisfy I θ = var(z 0 ) and Γ θ = M i 1,i 2 2 M i where M i = cov(z 0, Z i ), i I, and ( ) exp θ 1 + θ 2 X j Z i = X j V(i) i ( ) 1 X j. j V(i) 1 + exp θ 1 + θ 2 X j j V(i) References [1] M.N.M. Van Lieshout, E.W. Van Zwet, Exact sampling from conditional boolean models with applications to maximum likelihood inference, Advances in Applied Probability 33 (2001) [2] J. Møller (Ed.), Spatial Statistics and Computational Methods, in: Lecture Notes in Statistics, vol. 173, Springer-Verlag, New York, cxlvi

295 S. Soubeyrand et al. / Statistical Methodology 6 (2009) [3] X. Guyon, Estimation d un champ par pseudo-vraisemblance conditionnelle: étude asymptotique et application au cas markovien, in: E. des Facultés Universitaires de St Louis (Ed.), Actes de la 6ème rencontre Franco-Belge de Statitisticiens, [4] P.J. Diggle, J.A. Tawn, R.A. Moyeed, Model-based geostatistics, Applied Statistics 47 (1998) [5] J.-P. Chilès, P. Delfiner, Geostatistics. Modeling Spatial Uncertainty, Wiley, New York, [6] P. McCullagh, J.A. Nelder, Generalized Linear Models, 2nd ed., Chapman & Hall, London, [7] M. Markatou, Mixture models, robustness, and the weighted likelihood methodology, Biometrics 56 (2000) [8] C.P. Robert, G. Casella, Monte Carlo Statistical Methods, Springer, New York, [9] G.C.G. Wei, M.A. Tanner, A Monte Carlo implementation of the em algorithm and the poor man s data augmentation algorithms, Journal of the American Statistical Association 85 (1990) [10] H. Zhang, On estimation and prediction for spatial generalized linear mixed models, Biometrics 58 (2002) [11] J. Besag, Statistical analysis of non-lattice data, The Statistician 24 (1975) [12] M.L. Stein, Interpolation of Spatial Data: Some Theory for Kriging, Springer-Verlag, New York, [13] R.J. Serfling, Approximation Theorems of Mathematical Statistics, Wiley, [14] M.A. Beaumont, W. Zhang, D.J. Balding, Approximate Bayesian computation in population genetics, Genetics 162 (2002) [15] S. Walker, N.L. Hjort, On Bayesian consistency, Journal of the Royal Statistical Society B 63 (2001) [16] L. Lin, Quasi Bayesian likelihood, Statistical Methodology 3 (2006) [17] D. Dacunha-Castelle, M. Duflo, Probabilités et Statistiques. Problèmes à Temps Mobile, vol. 2, Masson, Paris, [18] P. Caillot, F. Martin, Le modèle bayésien, Annales de l IHP, section B 8 (1972) [19] I. Molchanov, Statistics of the Boolean Model for Practitioners and Mathematicians, Wiley, Chichester, [20] P. Bertuzzi, L. Garcia-Sanchez, J. Chadœuf, J. Guérif, M. Goulard, P. Monestiez, Modelling surface roughness by a boolean approach, European Journal of Soil Science 46 (1995) [21] C. Lantuéjoul, Geostatistical Simulation, Models and Algorithms, Springer, Berlin, [22] M. Goulard, P. Chadœuf, P. Bertuzzi, Random boolean functions: Non-parametric estimation of the intensity. Application to soil surface roughness, Statistics 25 (1994) [23] C.P. Robert, J.T.G. Hwang, Maximum likelihood estimation under order restrictions by the prior feedback method, Journal of the American Statistical Association 91 (1996) [24] C.P. Robert, D.M. Titterington, Reparameterization strategies for hidden Markov models and Bayesian approaches to maximum likelihood estimation, Statistics and Computing 8 (1998) [25] E. Jacquier, M. Johannes, N. Polson, Mcmc maximum likelihood for latent state models, Journal of Econometrics 137 (2007) [26] D. Freedman, On the Bernstein Von Mises theorem with infinite-dimensional parameters, The Annals of Statistics 27 (1999) [27] B. Clarke, P. Gustafson, On the overall sensitivity of the posterior distribution to its inputs, Journal of Statistical Planning and Inference 71 (1998) [28] H. Rootzén, J. Olsson, On the influence of the prior distribution in image reconstruction, Computational Statistics 21 (2006) cxlvii

296

297 Annexe VI Estimating forward pollen dispersal curves : an Approximate Bayesian Computation approach to extend TwoGener. Application to Sorbus Torminalis (L.) Crantz

298 ANNEXE VI. ESTIMATING FORWARD POLLEN DISPERSAL WITH ABC ESTIMATING FORWARD POLLEN DISPERSAL CURVES: AN APPROXIMATE BAYESIAN C OMPUTATION APPROACH TO EXTEND T WOGENER. APPLICATION TO SORBUS TOMINALIS (L.) CRANTZ 4 F. H. Carpentier, J. Chadœuf, E. K. Klein Key Words: TwoGener, pollen dispersal, Approximate Bayesian Computation, fertility variation, spatial information 8 cl 1

299 1 ABSTRACT The TwoGener method enables to estimate pollen dispersal at the scale of a single reproduction event using only the positions and genotypes of a sample of adults and the genotypes of a sample of their seeds. The estimation is based on the Φft, an index of genetic differentiation among pollen pools. In this study, we use the pairwise indices of TwoGener (Φ ft ) in an Approximate Bayesian Computation (ABC) framework to estimate the pollen dispersal curve. We apply this new method to a Sorbus torminalis dataset and compare our results with former estimates obtained from TwoGener and from a bayesian approach of mating models. We showe the efficiency of our method (i) to completely use the sampled dataset of the classical TwoGener analysis, (ii) to introduce the known positions of potential fathers (which genotypes are possibly unknown) and (iii) to model uneven male fecundities. Thus, this new method permits to introduce partial information and to use complex models. Moreover, contrarily to the current TwoGener method, it provides also a measure of the quality of the estimation and allows comparison with the estimates resulting from neighbourhood and mating models cli

300 ANNEXE VI. ESTIMATING FORWARD POLLEN DISPERSAL WITH ABC 1 INTRODUCTION Pollen dispersal is a major component of gene flow in plant populations. It drives the genetic connectivity between populations through long distance pollen dispersal but also at smaller spatial scale the departure from panmixia in a population. It is one of the key processes which drive the genetic diversity of populations, determining the genetic diversity of seeds produced and thus, impacting the potential of evolution and survival of populations. Estimating pollen dispersal specially at the scale of a single reproduction event is required (i) to measure the impact of recent environmental changes experienced by populations (fragmentation of habitat, climate change...) and (ii) to predict the future of populations This last decade, several methods to estimate pollen dispersal have been proposed parallel to the development of more powerful genetic markers such as microsatellites. Using the genotypes of sampled seeds, it has been possible to estimate the effective pollen dispersal following two types of methods. A first approach proposes to determine which individual is the father of a given seed, according to the genotype of this seed, the genotype of its mother and all the genotypes of the potential fathers of the studied plot (Meagher 1986). We name these methods the direct methods, because they use directly the complete genetic data to compute paternity assignment probabilities. In order to take into account the location of potential fathers during the assignment, maximum likelihood methods have been developed based on a model of pollen dispersal and competition between pollen grains (Burczyk et al. 2002; Oddou-Muratorio et al. 2005). They use a forward approach that models pollen dispersal clii 3

301 from the emission point to the arrival point. All individuals in a stand are supposed to disperse pollen grains according to the same pollen dispersal function which is a two dimensional probability distribution function. The probability for a father to pollinate a given mother is then assumed to follow a mass-action law (Holsinger 1991) i.e. it is equal to the relative concentration of pollen of the father around the mother. This approach permits to introduce some covariates affecting fecundity (Klein et al. 2008) or probability of mating (e.g. genetic incompatibility systems or flowering phenology). The main drawback of this approach is that it requires large datasets: an exhaustive sample of the individuals in the study plot (genotypes and locations, and genotypes of some of their seeds). 11 A second approach was more recently proposed in the TwoGener (Smouse et al ;Austerlitz & Smouse 2001) and Kindist (Robledo-Arnuncio et al. 2006) methods. These methods have been developed to permit estimations at a lower sampling cost, at higher scale or when the population density and/or configuration do not permit an exhaustive sample. They allow estimating pollen dispersal using only the locations and genotypes of some individuals (named mothers hereafter) and the genotypes of some of their seeds. They do not use the complete genetic data but rely on indices of pollen pool genetic structure for every pair of mothers. They are thus termed as indirect methods. Minimizing the distance between the estimates of these indices computed from the data and the analytical expressions for their expectations provide estimates of pollen dispersal kernel parameters and possibly of the population density. Because positions of the fathers are unknown, the indirect methods use a backward dispersal kernel centered on the mother. The backward dispersal kernel is the density function modelling the probability that a pollen grain that had fecundated the mother comes from a certain location. This kernel differs from the forward kernel as it includes a probability of existence of a father at this 4 cliii

302 ANNEXE VI. ESTIMATING FORWARD POLLEN DISPERSAL WITH ABC 1 2 location and the probability that this father fecundates the mother (Carpentier et al. submitted, Meagher & Vassiliadis 2003) These two kernels could not be compared directly because they do not represent the same process: for example the competition between pollen grains follows a mass-action law in the forward approach whereas it is not explicitly defined in the backward model since it is included in the backward function. Moreover the indirect methods only deal with data concerning the mothers and use numerous assumptions concerning the fathers: the population is assumed randomly distributed, non-inbred and genotypes are assumed not spatially structured. These assumptions lead to tractable analytical expressions but are often not verified in natura. As emphasized by Robledo-Arnuncio & Austerlitz (2006), departure from random distribution of positions modifies the effective dispersal (the effective pollen pool size (Nep) and the axial variance of pollen dispersal in their study). They show that the effective dispersal depends on the spatial scale of aggregation relatively to pollen dispersal range. The effective dispersal will be strongly modified in a population composed of small clumps and with a leptokurtic dispersal kernel, which is very common in natural plant populations (Robledo-Arnuncio & Austerlitz 2006) The difficulties to compare the results issued from these two approaches have been illustrated by the case study on Sorbus torminalis on which forward direct methods (mixed mating model based on a maximum likelihood approach with explanatory variables of male fecundity in Oddou-Muratario et al. (2005) and on a bayesian approach modelling a random male fecundity in Klein et al. (2008) and the backward indirect method (TwoGener in Austerlitz et al. (2004)) have been already applied to the same dataset. The three methods agree about a fat-tailed distribution (with estimations of the shape parameter cliv 5

303 indicating a dispersal kernel decreasing much more slowly than an exponential one). But their results are very contrasted concerning the mean dispersal distance (δ) and the effective density of the population. The mating model methods (MMM) infer a large mean dispersal distance (δ=847m for Oddou-Muratario et al. (2005) and δ=737 m for Klein et al. (2008) ) and an effective density twice or three times lower than the observed one, whereas the TwoGener method estimate a larger mean dispersal distance (2998 m) and a lower effective density, 30 times lower than the observed density. It is difficult to exactly attribute these estimation differences (i) to the information actually exploited in the dataset (extensive and explicit spatial and genetic information for MMM or partial for TwoGener), (ii) to the direct use (in MMM) or indirect use (in TwoGener) of the observed genotypes (iii) to the dispersal models chosen (forward approach with constant migration rate for MMM or backward approach with continuous and infinite population for TwoGener), (iv) to the fecundity models chosen (relative fecundities associated to each fathers in MMM or an effective equi-fecund population for TwoGener), (v) to the TwoGener assumptions of absence of spatial and genetic spatial structure of the population (despite the aggregation of locations and genotypes showed by Oddou-Muratario et al. (2004)) Introducing more realistic assumptions in the indirect methods is a crucial issue to obtain accurate estimations. However even in the current "simple" model, the analytical computation of the expected pollen pool genetic structure includes the numerical computation of complex integrals (one estimation can last more than one day). Considering more complex spatial processes or introducing information concerning the locations of some other trees would lead to theoretical expressions very difficult to assess (notably because of the definition of the backward function including the probability of existence of 6 clv

304 ANNEXE VI. ESTIMATING FORWARD POLLEN DISPERSAL WITH ABC 1 2 a father) and increase drastically the estimation time. We thus propose to leave the frequentist statistical framework and to use an ABC approach The bayesian framework is more and more popular in many branches of science especially in ecology (Ellison 2004) and in genetics (Beaumont & Rannala 2004) because it is particularly adapted to complex models with constrained and interdependent variables. In population genetics several models are so complicated that the analytical expression of the likelihood is intractable. In these cases, new bayesian estimations (Pritchard et al. 1999) have been proposed that rely mostly on stochastic simulations, named Approximate Bayesian Computation methods (term introduced by Beaumont et al. (2002)) In this paper, our goal is to overstep the limitation of both currently available dispersal estimation methods: allowing the use of partial information (i.e. the use a non exhaustive information about the location and or the genotypes) and at the same time the use of different models in a forward approach (modelling differently the migration and the fecundity variability). We propose an ABC approach to estimate the parameters of pollen dispersal, replacing the analytical computations of pairwise Φ ft of TwoGener by the simulations of Φ ft under the considered model. This new method can rely on the same data as the TwoGener and Kindist methods (the genotypes and the location of some individuals) but it can exploit additional partial information (position of fathers without genotypes ) to improve the estimates. Our aim is (i) to develop the ABC-TwoGener method and evaluate its performance and (ii) to introduce information (positions and genotypes of some individuals) and to study the range of intermediary models between (i) the mating model with full complete data, forward dispersal and constant migration and (ii) the TwoGener model with incomplete data, backward dispersal and infinite and continuous population. clvi 7

305 1 2 We use the case study of S.torminalis as a framework, applying our methods to the dataset presented in Oddou et al. (2005) and to datasets simulated on the same scheme clvii

306 ANNEXE VI. ESTIMATING FORWARD POLLEN DISPERSAL WITH ABC 1 MATERIAL AND METHODS 2 3 Biological material The studied organism is Sorbus torminalis (L.) Crantz ("the wild service tree"). It is monoecious but mostly outcrossing, and insect pollinated. The study site covered 472ha of scattered mixed broadleaved stands in the managed Rambouillet forest in France (total area: ha). The study population consisted in 185 reproductive trees among which N=172 flowered in 2000 (see details in Oddou-Muratorio et al.2006). Each reproductive tree was mapped and genotyped at six microsatellite loci MSS1, MMS5,MSS6, MSS9, MSS13, MSS16 revealing six to 21 alleles per locus (Oddou-Muratorio et al.2001). From Nm mothers (Nm=60), a total of 1075 seeds were sampled (two to 27 seeds per mother, mean=17.9, SD=3.9) evenly located throughout the site. The pairwise distances between mothers varied from 2.5 to 2747 m (mean=1016m, SD=611m) A spatial aggregation of individuals (in groups of ten individuals in disks of radius 100m) is clear from figure 2 and statistically significant (Oddou-Muratorio et al.2004). Furthermore a significant genetic relationship among close trees had been detected using the software SPAGEDI (Oddou-Muratorio et al.2004). 18 Data and summary statistics common to all models All analyses rely on the genotypes and locations of Nm mothers-trees. For the i th mother, off N i seeds are genotyped We summarized the composition of mothers pollen pools by pairwise Φ ft (i,j), estimating the genetic differentiation between the pollen pools of two mothers i and j. They clviii 9

307 1 2 3 were obtained using an AMOVA (Excoffier et al. 1992) as in TwoGener (Smouse et al. 2001). This results in Nm ( Nm1)/ 2 summary statistics to be used in the ABC algorithms. 4 5 The population allelic frequencies were inferred from the mother genotypes, assuming independence among loci as in the classical TwoGener. 6 7 Dispersal model common to all models 8 9 The dispersal is modelled assuming a mass-action law and a forward kernel, f, chosen to belong to the exponential power family defined as : 10 f 2 b(3 / b) x, y) 2 2 (2 / b) ( 3 r(3 / b) exp (2 / b) b, where δ is the mean dispersal distance, b is the shape parameter, r x² y² is the pollination distance, and Г is the classical gamma function All individuals are monoecious and assumed self-incompatible. The mother-trees participate to pollination like the other father-trees. The relative male fertility of the k th individual is denoted F k (with 1 F k 1) N k 1,..., N. 16 Thus πij, the probability of fertilisation of a mother i by a father j is: 17 ij f ( r f ( r ) ) m im k m 1,..., N mi k N 1,..., N m F F j ij m F f ( r ik ) (1) 10 clix

308 ANNEXE VI. ESTIMATING FORWARD POLLEN DISPERSAL WITH ABC 1 2 where r ij is the distance between i and j, N is the total number of individuals with N m mothers numbered from 1 to N m and N f fathers numbered from N m +1 to N. 3 4 Models and Methods Approximate Bayesian Computation methods have been developed for coalescent models where the likelihood cannot be calculated in a reasonable time. They rely on a algorithm which consists in repeatedly simulating data sets (y') and summary statistics (s ) under the considered model using values of the parameter (θ) drawn in the prior distribution. For a given simulation, the value drawn for θ is stored ("accepted") if s' is sufficiently close to the observed s. Here we propose to apply the ABC method to the estimation of current pollen dispersal using the pairwise pollen pool differentiation Φ ft (i,j) as summary statistics We propose different variants of this method using different levels of information (summarized in figure 2) and different models (summarized in figure 3) The basic ABC approach for TwoGener (TG_Pois(N m )) : The unknown fathers are assumed to be randomly distributed (i.e. their locations are distributed following a Poisson point process) in the Rambouillet forest modeled by a disk of radius R=8 440 m (deduced from a satellite image of the area, see figure 1). The population is assumed to have no spatial genetic structure and to be equi-fecund. The dispersal model is specified by three parameters: δ and b of the dispersal kernel and λ, the density of the unknown fathers. Posterior distributions for the parameters of interest are computed using the following rejection algorithm: clx 11

309 Simulate values for the parameters of interest λ s, δ s and b s by drawing them independently in the prior distributions (see below). 2. Simulate the locations of the unknown fathers: draw N f the number of fathers in a Poisson distribution with parameter λ s πr² and distribute randomly these individuals on the disk of radius R. The total number of trees is N=N m +N f. 3. Simulate the genotype of each father at each locus according to the allelic frequencies estimated from mother genotypes. 4. Draw a father for each of the N m seeds of each mother i according to π ij, the probabilities of fertilisation by a father j, computed from equation 1 assuming equifecundity of all individuals (i.e. F k =1). 5. Draw a genotype for each seed from its parents genotypes assuming Mendelian rules. 6. Compute pairwise Φ s ft(i,j) from the simulated seed genotypes and the observed mother genotypes using an AMOVA. S s 7. Compute SCE ft i, j) ft( i, j) i, j 2 ( and store λ s, δ s, b s and SCE s. This algorithm is repeated a large number of times (Ns). The sampled { λ s, δ s,b s } are weighted according to the value of SCE s : W s (ε) = K ε (SCE s ) where ε is the tolerance threshold and K ε (t) is the Epanechnikov kernel, decreasing to zero as t increases, defined as : c (1 ( t / ) ), K ( t) 0, t t, where c is a normalizing constant, the ABC procedures described above correspond to a smoothed rejection-method (Beaumont et al., 2002). The weighted sample ({ λ s, δ s 12 clxi

310 ANNEXE VI. ESTIMATING FORWARD POLLEN DISPERSAL WITH ABC 1 2,b s }, W s (ε)) provides an approximate of the posterior distributions for the parameters {λ, δ, b} conditional on observed pairwise Φ ft (i,j) TG_Pois(N m +Pos) is similar to TG_Pois(N m ) but in the study plot, the positions of all individuals (mothers and the other fathers) are known and used during the estimations. Thus locations of fathers are only simulated outside of the study plot following a Poisson distribution with density λ s, in each simulation s. All fathers genotypes (inside and outside the plot) are simulated. The parameters to estimate are still λ, δ and b TG_Pois(N m +Pos+Gen) is similar to TG_Pois(N m +Pos) but the genotypes of the fathers inside the study plot are known and used during the estimations. Only the genotypes of the fathers outside the plot are simulated. The parameters to estimate are still λ, δ and b TG_Pois_varfert(N m +Pos) is similar to TG_Pois (N m +Pos) but the known trees (fathers inside the plot and mothers) are not equi-fecund. Inter-individual variation of male fecundity is expressed as a random individual effect as in Klein et al. (2008). The male relative fecundity F k of each individual k, is assumed to follow a gamma distribution with mean 1 and variance ζ². The parameters to estimate are λ, δ, b and ζ². For all variants where a variance of fecundity is explicitly modelled, the algorithm is modified on step 1 where ζ s ² is drawn from a prior distribution such as the other parameters λ, δ and b. The step 4 is divided in two substeps: 4.1. Simulate F k, a fecundity for each tree k (father or mother inside the study plot) according to a Gamma distribution with mean 1 and the simulated variance ζ s ². clxii 13

311 Draw a father for each of the Nm seeds of each mother according to πij, the probability of fertilisation of a mother i by a tree j computed from (1) with the simulated F k values. 4 Finally, on step 7, λ s, δ s, b s, ζ s ² and SCE s are stored TG_Pois_varfert(N m +Pos+Gen) is similar to method TG_Pois_varfert(N m +Pos) but the genotypes of fathers are known and used during the estimation. The parameters to estimate are still λ, δ, b and ζ². TG_Pool(N m +Pos) is similar to method TG_Pois(N m +Pos) but the pollen movement inside the stand is modeled differently from the pollen immigration. In this model the immigration is not spatialized and disconnected from the dispersal kernel. It is modelled by an external pollen pool characterized by m the migration rate (the probability for a mother 13 to be fecundated by this external pollen pool), and N m ep, its diversity, the number of 14 effective pollen donors in this pool. Thus 1/ N m ep is the probability that two seeds issued from the migration share the same father. The probability of fertilisation of a mother i by a father j, πij is then computed following (1 m) ij m F m F j f ( r 1,..., Nm mi knm1,..., N (2) 1 m N m ep f ( r im ij ) ) F k f ( r ik ) j N N j N m ep N 18 instead of using the formula (1). The parameters to estimate are δ, b, m and m N ep. 19 The algorithm is modified at step 1 where m s and N m ep s are simulated from prior 20 distributions such as the other parameters λ, δ and b. During step 3, the genotypes of the 14 clxiii

312 ANNEXE VI. ESTIMATING FORWARD POLLEN DISPERSAL WITH ABC 1 m N ep s effective pollen donors of the external pollen pool are simulated as those of the known fathers inside the plot. So the total number of simulated fathers becomes N+ N. The step 4 is also modified into: 4. Draw a father for each of the Nm seeds of each mother according to πij, the probability of fertilisation of a mother i by a father j computed from (2) with F j =1. m ep 6 Finally, on step 7, λ s, δ s, b s, m s, N m ep s and SCE s are stored TG_Pool(N m +Pos+Gen) is similar to method TG_Pool(N m +Pos) but the genotypes of fathers are known and used during the estimation. The parameters to estimate are still δ, b, m and m N ep TG_Pool_varfert(N m +Pos) is similar to method TG_Pool(N m +Pos) but the trees are not equi-fecund, the fecundities are simulated as in TG_Pois_varfert. The parameters to estimate are δ, b, ζ², m and m N ep TG_Pool_varfert(N m +Pos+Gen) is similar to method TG_Pool_varfert(N m +Pos) but the genotypes of fathers are known and used during the estimation Prior distributions for the parameters are chosen as follows : log 10 (δ) follows a continuous uniform distribution within (0, 4) (i.e. δ in [1,10 4 ] m), b follows a continuous uniform distribution within (0.05,2.05), log 10 (λ) follows a uniform distribution within (-8,- clxiv 15

313 1 2 2) (i.e. λ in [10-4,10 2 ] trees/ha), ζ² follows a uniform distribution within (0,49), m follows a uniform distribution within (0,1) and 1/ m N ep follows a uniform distribution within (0,0.1) Posterior density estimation, point-estimates of the parameters and credibility intervals Three point estimates were considered for each parameter : the mean, the median and the mode of the posterior distribution. The mean estimate is the mean of p s weighted by W s (ε). The median estimate is the weighted median. The weighted quantile of order α is estimated byarg min W k k W as p K k (). The mode estimate is the mode of the posterior univariate density approximated using the Gaussian kernel smoothing applied to the weighted sample ({ p s }, W s (ε)). The 95% credibility interval is estimated with the 97.5% and 2.5% weighted quantiles Simulation-based determination of estimates and tolerance threshold ε and evaluation of performances of estimates for each variant of the method For each variant, 100 datasets were simulated using the algorithm presented above but stopped at step 6 (using the genotypes and the locations of the mothers but simulating seeds genotypes under the different dispersal models). We named this datasets, the test datasets (simulation datasets being the repeated simulations of the ABC inference). For each test data d, the true values of the parameters, {p d }, were recorded and the pairwise Φ d ft(i,j) were computed. For each of the 100 test datasets of each variant, the parameters 16 clxv

314 ANNEXE VI. ESTIMATING FORWARD POLLEN DISPERSAL WITH ABC were estimated using the ABC method described above. The operation is not time consuming because it is achieved simultaneously to the ABC estimation from the observed dataset, by just adding at step 7 for each simulation s the computation of the distances 4 SCE S, d i, j d 2 s s ft( i, j) ft( i, j) using the simulated ft( i, j) already computed (procedures similar to those proposed in the software DIY ABC (Cornuet et al. 2008)). We chose to retain a given proportion of the simulations Pε, closest to the observed dataset according to the summary statistics. Pε is also named the tolerance rate For each variant, the tolerance rate Pε was chosen according to two indices computed from the 100 test datasets : (i) the 0.95 False Discovery Rates which controls the accuracy of the posterior distribution and (ii) the Mean of the relative Root Mean Squared Errors (MRMSE) which controls the accuracy of the point-estimates. During the computations of the indices, the parameters λ and δ were transformed using the log 10 (-) function and the parameter m N ep was transformed on 1/ N m ep, according to the choice of their priors 14 For a tolerance rate P ε and a posterior distribution Pr({p} SCE< ε) of the parameter p, the False Discovery Rates (FDR(p,ε)) are computed as d 1,..., 100 1l d p d IC ( ) (with 1l [x I] equals to 1 if x belongs to I, else 0 and IC d ( ) the estimated 95% credibility interval for the test data d). Computing the FDR also permits to investigate the accuracy of the credibility interval computed for the observed dataset. 19 For a tolerance rate ε and a point estimator pˆ (ε) of the parameter p, the relative RMSE(ε) 20 is defined as d 1,.., 100 p d pˆ p d d ( ) 2. The relative RMSE summarizes the clxvi 17

315 1 2 3 performance of an estimator in terms of bias and variance relatively to the true value of the parameter. As several parameters are estimated, we propose to use MRMSE(ε), the mean of the RMSE(ε) computed over all parameters Using Pε from 10-6 to (number of simulations retained varying from 2 to ), we computed the FDR(ε) and the MRMSE(ε) for the different point estimators (mean, median, mode). We chose the tolerance rate Pε (i) that gives FDR(p,ε) comprised between 0.90 and 0.99 (the confidence interval for a binomial random variable of parameters 0.95 and 100) for each parameter p and (ii) that minimizes the MRMSE(ε). We also determined the point estimate (median, mean or mode) that minimized the MRMSE(ε) For the chosen ε, we computed the following indicators of the accuracy of the estimates: the relative Bias (rbias) and relative 0.95 credibility interval (rci 0.95 ). The parameters λ, δ and m N ep were turned into log 10 (λ), log 10 (δ) and 1/ N m ep. The relative bias is estimated as d d 1 pˆ ( ) p the mean of the relative bias observed on the 100 test data: d 100 relative 0.95 credibility interval is estimated by 0.025,0.975 r e l d1,.., 100 q with p. The rel q the mean of the 15 d q () p relative centered quantiles of order α computed as d p d. 16 Model comparison using Bayes Factor We evaluated the evidence of model M 0 against model M 1 (where M 0 and M 1 are chosen among the different variant methods) using an approximation of the Bayes factor (Kass and Raftery, 1995). Pritchard et al. (1999) computed the Bayes factor as the ratio of the acceptance rates in Models 1 and 2. François at al. (2008) proposed a formula to include smooth ABC. We adapted this formula to account for non equal numbers of ABC 18 clxvii

316 ANNEXE VI. ESTIMATING FORWARD POLLEN DISPERSAL WITH ABC 1 simulation datasets (Ns) approximating the Bayes factor as BF a,b = B a B b, with Ns a B a = K ε (SCE i )/Ns a i= where Kε is the chosen kernel and SCE i the sum of squared errors between the summary statistics obtained at the i th repetition of the ABC algorithm and those observed in the studied dataset These analyses were performed with C and R computer programs written by FHC and EKK (for the R software see for more information on C program, DOS-executable version and R program that perform all the calculations described above are available from FHC on request RESULTS Simulation-based choice of Pε, ABC method and point estimators Different values of the proportion of accepted simulations Pε were chosen for different variants (Table 1). All were very low (from to ) leading to small number of retained simulations (from 60 to 450). The median point estimate globally provided the better estimations in term of MRMSE and FDR0.95 (results in Supplementary Material 1) and were thus chosen for estimation. clxviii 19

317 Simulation-based evaluation of performances of estimates The parameter estimate performances were evaluated for each variant using the 100 test datasets obtained under the model. The set of true parameters, known of each test dataset, were drawn from the prior distributions. The bias (rbias) and credibility (rci 0.95 ) are expressed on a centered and relative form in table 1. Some test datasets with particular parameter values led to extreme biases and CI The classical parameters, λ, b and δ. The best estimated parameter is the population density λ. The mean rbias of λ over the different variants is 0.08 with observed λ rbias from 0.04 to 0.1 (notice that this parameter is expressed as the log 10 (λ) to better express the order of magnitude). The confidence intervals obtained for λ, rci 0.95, are narrow relatively to the range of the prior (the mean range of rci 0.95 is 0.84). The point-estimate of the shape parameter of the dispersal function, b provides a satisfactory estimation as the mean relative bias is 0.22 (with a range from 0.05 to 0.44 depending on variant). The b parameter determines the tail fatness of the dispersal function : b>1 for thin-tailed functions and b<1 for fat-tailed functions. Globally 91 percent of the b point-estimates were actually lower than 1 for fat-tailed function and higher than 1 for thintailed function (this proportion varies from 87 for TG_Pool(N m +Pos) to 97 for TG_Pois_varfert(N m +Pos) ). However the b parameter shows a wide confidence interval rci 0.95 (with a mean range of 1.97) The mean dispersal distance δ (expressed as log 10 (δ)) is estimated with a mean rbias of 0.7 and rbias range of 0.2 to 1.7. However confidence intervals rci 0.95 are wide (with a mean range of 5.8). 20 clxix

318 ANNEXE VI. ESTIMATING FORWARD POLLEN DISPERSAL WITH ABC Variants where the genotypes of all the individuals inside the plot are known (used both for simulations and estimations) generally led to better estimates of b and δ, especially when the sources outside the known plot are spatialized (i.e. for the TG_Pois variants). For example with the TG_Pois variant, using only the positions of individuals (TG_Pois(Nm+Pos)), δ rbias is 1.2 and δ rci 0.95 is [-0.3, 2.9] whereas using the positions and the genotypes of the individuals (TG_Pois(Nm+Pos+Gen)), they decrease to 0.2 and [- 0.3, 0.5] The parameters m, m N ep and σ² Although the bias and confidence intervals of these parameter estimates are larger than those of δ, λ and b, their introduction does not perturb the estimation of the others parameters: We saw no clear increase or decrease of δ, λ and b rbias and rci 0.95 between TG_Pois(-) variants and the corresponding TG_Pois_vartfert(-) variants or TG_Pool(-) and TG_Pool_varfert(-) variants. 15 The number of effective fathers in the migration global pool N (expressed as 1/ N m ep m ep, the copaternity probability of immigrants) is estimated with a mean rbias of However m N ep rci 0.95 is wide with a mean range of 3.9. The migration rate m is estimated with a mean rbias of 0.7 but an important rci 0.95 range of 3.5. Its estimation is greatly improved when the genotypes of individuals in the plot are used (both during the test datasets simulations and the estimation). For instance, in TG_Pool(Nm+Pos) the parameter m is estimated with a bias of 1.42 and a confidence interval of [-0.7,5.5] whereas those of TG_Pool(Nm+Pos+Gen) is estimated with a bias of 0.3 and a confidence interval of [-0.7,1.5]. clxx 21

319 1 2 The variance of fecundity σ 2 is the most difficult to estimate. It has a mean rbias of 2.0 with wide rci 0.95 of mean range of 5.1 (almost the range of the prior distribution) l Real world case study : application to Sorbus torminalis (Table 2) The results are expressed using uniform priors for δ and λ with the same range than their previous log(uniform) priors (obtained by appropriately weighting the simulations obtained under the previous priors) General results. The dispersal functions estimated with the different ABC variants are all fat-tailed : the shape parameter b estimations are all lower than 1 with a mean value of 0.43 (maximum at 0.86 and minimum at 0.12). The mean dispersal distances δ estimations are more variable and depend strongly on the variant. The δ estimated values have a mean of 292m and range from 26 m to 958 m. The estimated number of pollen fathers outside the study plot is large when it is modeled through individuals randomly distributed (TG_Pois) and when it is modeled as a global pollen pool (TG_Pool). In fact in TG_Pois variants, the estimated effective densities λ are very high, superior to 12 trees/ha, except when the individuals inside the plot are not equifecund (TG_Pois_Varfert) for which estimated densities are much lower (0.65 trees/ha on average) but associated in compensation with higher estimated dispersal distance and lower shape parameter. When the external pollen contribution is modeled as a global pollen pool, the probability of migration m estimate is robust with a mean value of clxxi

320 ANNEXE VI. ESTIMATING FORWARD POLLEN DISPERSAL WITH ABC 1 2 (from 0.34 to 0.46) and a large and robust number of effective fathers from 17 to 25). m N ep (mean value of Use of additional information. Taking into account the positions of the individuals in the study plot impacts strongly the effective density point estimate: in TG_Pois(Nm) the global effective density is estimated at 12.6 trees/ha whereas in TG_Pois(Nm+Pos) the effective density outside the plot is estimated at 42 trees/ha, without affecting as much the CI It also decreases the mean dispersal distance, δ estimated from 31m to 18m, whereas the estimation of the shape parameter b stays unchanged. Introducing the genotypes of the study plot individuals generally increases the estimated dispersal through the mean distance (δ is estimated 4.7 times larger on average), the shape parameter (b estimated 0.37 times lower on average), the diversity of the external pollen 14 pool ( N m ep estimated 1.35 times larger). The contribution of the external pollen pool decreases slightly (m estimated 0.13 times lower). It has no clear effect on the effective density outside on the plot Introducing new assumptions introduction. Assuming variable male fecundities inside the plot leads to larger δ (18 m to 676m in TG_Pois and 26m to 66m in TG_Pool using the data (Nm+Pos)), different b (lower for TG_Pois from 0.8 to 0.22 and higher for TG_Pool from 0.2 to 0.41) and decreases the number of pollen fathers outside the plot (λ estimated at 42 decreases to 0.6 trees/ha in TG_Pois and m decreases from 0.46 to 0.38 and m N ep from 17 to 16). clxxii 23

321 1 2 3 Modeling pollen immigration through a global pollen pool instead of individuals randomly distributed leads to larger δ and lower b (except between variants TG_Pois_varfert(Nm+Pos) and TG_Pool_varfert(Nm+Pos)) Models and variants comparison Among all the models, variants where immigration is represented by a global migration pool (TG_Pool) receive a higher statistical support when measured by the Bayes factor. Variants where immigration is represented by individuals randomly distributed (TG_Pois) lead to lower Bayes factors (table 2). When only the positions of individuals inside the plot are used (Nm+Pos), the TG_Pool variant with equal fecundities is the best-supported model, whereas when the individual genotypes are added, the best-supported model is TG_Pool_varfert modeling non equal fecundities clxxiii

322 ANNEXE VI. ESTIMATING FORWARD POLLEN DISPERSAL WITH ABC 1 2 DISCUSSION We developed here an ABC approach that extend the classical TwoGener method in order to fill the gap between the indirect methods relying on strong assumptions about the distribution of pollen sources and the direct approaches (spatially explicit mating models) requiring an exhaustive information about all sources in the study plot. This approach enables the estimation of the classical parameters investigated in pollen dispersal studies (scale and shape of pollen dispersal and effective density of pollen donors). It also provides confidence intervals for the estimated parameters, which was missing in the classical TwoGener results. 11 ABC algorithm coupled with dataset-designed simulations study In this paper, we proposed to perform the ABC estimation simultaneously on the studied dataset and on test datasets (similarly to what proposed in the software DIY ABC (Cornuet et al. 2008)). The test datasets were simulated using exactly the same design as the studied dataset. These simulations permitted (i) to determine an appropriate P ε and (ii) to evaluate the performance of the parameter estimates in the same specific conditions as those of the studied dataset (model, parameters, summary statistics and numbers algorithms repetitions used). Moreover this procedure was quasi-no time consuming because it is included directly in the ABC algorithm The choice of the threshold value, ε or proportion Pε, results from a trade-off between estimators bias and variance which in practice is translated in a trade-off between accuracy and computational time (Beaumont et al., 2002). Theoretically the optimal ε is known to be dependant also on estimated parameters number and summary statistics numbers (Blum, clxxiv 25

323 ). For each our ABC method variants, the very low P ε (order of magnitude 10-5 ) can be explained by the important number of summary statistics that we use (1770). In this paper, we have chosen to use global criteria for all the parameters which represent both point estimates and posterior distribution. Other criteria can be chosen. For example, an optimal Pε d for a single parameter d can be determined using the RMSE obtained only for d. The test datasets permit also to evaluate the expected performances of the parameters estimates under the chosen model and the dataset design used. This is particularly interesting for datasets with correlated data as in spatialized data, for which it is difficult to determine the real information quantity that they bring Validation of the ABC_TG method based on simulations study Comparison with the classical TwoGener method Our adaptation of the TwoGener method through a forward dispersal ABC approach, TG_Pois(Nm) provides estimates of the parameters, δ the mean dispersal distance, b, the shape parameter of the dispersal function and λ, the effective density as accurate than the classical TwoGener method. The rbiases of these estimates computed here from 100 test datasets (with 60 mothers and 27 seeds per mother on average) are 0.3 for δ, 0.18 for b and 0.06 for λ. In comparison, Austerlitz et al. (2004) found with the classical TwoGener method, estimates rbiases of 0.5 for δ, 0.36 for b and for λ (issued from 10 simulated datasets with 40 mothers and 40 seeds per mother and true parameters fixed at 100m for δ, 0.5 for b and 1.6 trees/ha for λ). The first benefit of our method is to provide a measure of the estimation uncertainty through credibility intervals (for all parameters independently) or regions (for sets of parameters). The second benefit is to use totally the 26 clxxv

324 ANNEXE VI. ESTIMATING FORWARD POLLEN DISPERSAL WITH ABC available information i.e. the mother positions and genotypes which are unused in the classical TwoGener method. The third benefit is to provide a forward dispersal method and thus to enable (i) a direct comparison with estimations issued from mating model and (ii) the introduction of additional information and/or new assumptions during the estimation. Further comparisons of the estimations from the classical TwoGener and the ABC approach on the same simulated datasets are necessary to conclude more precisely on the performances of both methods. Those are the topic of a companion paper (Guiton et al. submitted) Introduction of additional information Using the positions and possibly the genotypes of some of the potential fathers permits to introduce information in the estimation. In the case of the Sorbus torminalis dataset, it permitted to avoid the assumptions of an absence of spatial structure of the putative fathers and their genotypes as they both show an aggregated structure in the study plot (Oddou et al., 2004). Consequently, the simulations mimicking the Sorbus torminalis dataset showed simultaneously the effects in the estimation of (i) the information amount and (ii) the departure of the assumption of spatial randomness of genotypes and positions in the study plot. The general results obtained with TG_Pois(Nm) on test datasets, ignoring the fathers positions in the studied plot were better for all the parameters (according to rbias or CI 0.95 ) than TG_Pois(Nm+Pos) results, which take into account of these positions. This decrease of the method performance is more probably due to the difficulty of estimating dispersal in an aggregated population rather than due to an eventual noise introduced by the addition of position information. However more simulation study should be made to confirm this hypothesis, notably considering other spatial distributions. clxxvi 27

325 The use of father genotypes generally improves the estimation of the first model TG_Pois as those of the other models. Because the Sorbus torminalis population studied shows a significant spatial genetic structure (SGS), using the genotypes of all the trees in the test datasets modifies the structure of the pollen pools (summarized in the phifts ). However more simulations are also needed to really detect if it is the use of the father genotypes that improves the estimation or if the estimation is easier when similar fathers genotypes are spatially aggregated. Further improvements of our ABC algorithm should also consider the possibility to use information about the spatial genetic structure (SGS) of the population instead of the exact genotypes. Knowing all the exact genotypes of the trees should lead to using direct methods that are more accurate and necessitate less CPU time than our ABC approach. However, having an information about the SGS is a frequent situation that could be exploited. The challenge is to develop algorithms that simulate spatial distributions of genotypes following a given SGS very rapidly (since it should be used at every simulation step of the ABC approach) Introducing new assumptions in the model We have estimated three new parameters which represent two new assumptions: (i) σ² the variance of fecundity of individuals inside the plot and (ii) m, the migration rate i.e. the 19 probability for a mother to be pollinated by a father outside the studied plot and m N ep the number of effective fathers that contribute to the external pollen pool. It should be noticed that the parameter λ represents the density of the whole population when fathers positions are unknown whereas it represent the density outside the study plot when the positions are known inside. 28 clxxvii

326 ANNEXE VI. ESTIMATING FORWARD POLLEN DISPERSAL WITH ABC Although the σ² parameter is difficultly estimated, it does not affect the performances of the estimates of the others parameters. Thus, models with variable fecundities can be used to estimate the values of the classical parameters, δ, b and λ under unequal fecundities assumption, even if they do not permit to estimate accurately the male fecundities variance. 5 The estimation of the parameters of the global outside pollen pool, m and N m ep provides 6 7 good results. Modeling the outside pollen contribution by a global pollen pool is classical in mating model methods (Burczyk et al. 2002; Oddou-Muratorio et al. 2005). However 8 we introduce here a new parameter, N m ep, the number of effective pollen donors, which 9 10 represents the genetic diversity of the external pollen pool. It equals the inverse of the probability that two seeds with fathers outside the plot share the same father. It is 11 comparable to the effective pollen pool size Nep, developed for continuous plant populations in the TwoGener method (Austerlitz and Smouse 2001) and which could be obtained from the TwoGener φ ft measured (Smouse and Austerlitz, 2001) or through correlated paternity measure issued from mating system analysis (Ritland1989) or kinship coefficients (Hardy et al., 2003). Our m N ep parameter differs from the classical Nep because (i) the same external pollen donors contribute to the pollen pools of all sampled mothers and (ii) it measures the correlated paternity only on the seeds whose fathers are outside the study plot. Introducing this parameter in the external pollen pool allows to evaluate the contribution of exterior pollen sources, quantitatively through m but also qualitatively, i.e. 20 determines the genetic diversity that it brings, with N m ep. Both parameters are crucial to understand the population genetic isolation or connectivity with the individual outside as emphasized by Sork et al., Sorbus torminalis results clxxviii 29

327 Model chosen In this paper, the ABC method permitted us to apply different models (with constant or variable male fecundity or with immigrant pollen modeled by spatialized individuals or by an external pollen pool) on the Sorbus torminalis dataset. These different models gave strongly different estimations of the dispersal function parameters, especially for the mean dispersal distance δ, whose estimation varies from 26m to 958m according to the different models. The model better statistically supported by the Bayes Factor was the model with an external pollen pool and variable male fecundities for known trees inside the plot, when the genotypes of these trees are known (TG_Pool_varfert) Impact of the Sorbus torminalis positions and genotypes spatial configuration The introduction of information (positions and possibly genotypes of fathers) modified considerably the results. This can be imputed to the geometry of this population and its genotypes. Sorbus torminalis is a scattered species and the studied population is composed by genetically related individuals clearly aggregated in space, as shown by the spatial autocorrelation profile of a Ripley-based statistics and the typical isolation-by-distance pattern detected by the Sp-statistics proposed (Oddou-Muratorio et al. 2004). As shown by Meagher & Vassiliadis (2003), the effect of father-trees and mother-trees spatial positions include both the dispersal processes and the geometry of the population. Moreover Robledo-Arnuncio & Austerlitz (2006) have shown theoretically that it exits clear interactions between aggregation and realized structure of pollen pools (Nep and axial variance of pollen dispersal). Here we obtained another result on the effect of the aggregation on the estimation of the forward dispersal kernel. Taking account of the aggregated positions of individuals, we obtained an estimated mean dispersal distance lower in TG_Pois(Nm+Pos) (δ=18m) than in the model assuming fathers complete spatial 30 clxxix

328 ANNEXE VI. ESTIMATING FORWARD POLLEN DISPERSAL WITH ABC 1 2 randomness, TG_Pois(Nm) (δ=31m) and estimated a population density higher than those observed in the study plot (λ=12.6>0.36 trees/ha). This is consistent with the theoretical 3 study of Robledo-Arnuncio & Austerlitz (2006): Sorbus torminalis individuals are aggregated in clumps whose size ( ~ 100 m estimated by Oddou-Muratorio et al. 2004) is larger than the scale of dispersal (δ=18 m estimated by TG_Pois(Nm+Pos) ), thus aggregation should enlarge Nep comparatively to that obtained with the same dispersal function in a random distributed population. Consequently, applied on the observed Sorbus dataset (characterized by a given Nep ), the TG_Pois(Nm) estimated a larger δ and more individuals in the site than TG_Pois(Nm+Pos). Notice that the λ estimated in TG_Pois(Nm+Pos) corresponds to the density of trees outside the study plot and despite their high density, their contribution is probably strongly minimized by the very short estimated δ). The effect of aggregation is different in the backward approach of Robledo- Arnuncio & Austerlitz (2006) where they predicted a similar realized dispersal distance ζ p, and in the forward approach used here where the estimation of δ differs in models with or without aggregation. Introducing genotypes during the estimation strongly modifies the estimation, leading to higher δ and lower b, increasing the variance of fecundity σ² and the effective pollen 18 number in the external pollen pool N m ep. As related genotypes are grouped in clumps (Oddou-Muratorio et al., 2004), the dispersal has to be enlarged (i.e. δ increases and b decreases) to predict the same diversity in the mother pollen pools. We also estimated a 21 larger genetic diversity coming from outside (i.e. m N ep increases). The σ² point estimation increased but the CI 0.95 stayed similar, as the parameter σ² was difficultly estimated, assumptions concerning its estimator behavior should be cautiously made. 24 clxxx 31

329 Methodological aspects: Priors choice In this paper, we have chosen uniform prior distributions, giving the same probability to extreme and credible values (e.g. 1m, 100m or 10km for the dispersal distance). However, in the application on Sorbus torminalis the prior distribution had a strong impact on the estimations (see Supplementary material 2 table showing different estimates and Bayes Factor obtained with log 10 (uniform) priors for δ and λ parameters, according more weight to small values). Even if we genotyped a large sample of seeds, the amount of information in our indirect approach is not so large as expected and thus the prior distributions still largely affect the posterior distributions obtained. It would thus be wise to use informative priors accounting for preliminary biological knowledge about the species. Particularly, the prior for δ should give more weight to large values c.a. 100m to 1 km (such as the log10(uniform) chosen) because many studies on various species have concluded in long distance pollen dispersal. For the λ prior, it would be justified to fix the prior upper limit to the observed density (i.e rather than 100 trees per hectare) because (i) the effective density is expected lower than the observed density and (ii) the tree density is known to be lower outside than inside the plot (Oddou-Muratorio personal communication) Comparison with previous results Even when the population assumptions and the summary statistics are the same as in the classical TwoGener method (TG_Pois(Nm)), the results obtained with our method (δ=31m, b=0.86, λ=12.6 trees/ha) strongly differ from those previously estimated by Austerlitz et al. (2004) (δ=2998m, b=0.28 and λ= trees/ha). This can be explained by the difference between forward and backward pollen dispersal models. We also found that the model is not adequate to the dataset (not supported by the Bayes Factor computed 32 clxxxi

330 ANNEXE VI. ESTIMATING FORWARD POLLEN DISPERSAL WITH ABC 1 2 in our study) which could explain why the classical TwoGener method fails to the estimate the parameters simultaneously (Austerlitz et al. 2004) Using the same model and the same datasets, Oddou-Muratorio et al. (2005) obtained results (δ=589m, b=0.38,m=0.43) with the mating model method (MMM) using a maximum likelihood approach similar to those obtained using TG_Pool(Nm+Pos+Gen) (δ=149m,b=0.27,m=0.39). Except δ which is underestimated, all parameters were included in the confidence intervals given by the MMM. Assuming variable male fecundities, the bayesian version of MMM estimates δ at 699m, b at 0.29, m at 0.43 and σ² at 2.34 with a gamma distribution. The results obtained using TG_Pool_varfert(Nm+Pos+Gen) do not belong to the MMM credibility intervals except δ estimated at 958m but the MMM estimates (point estimate and CI) do belong the wide CI 0.95 provide by the ABC method. The less accurate estimates provided by ABC methods and their variability between models assuming fecundity variation are explained by the indirect use of data: the seed genotypes are summarized in φ ft. In fact the MMM estimation, based on the paternity assignment of seeds, are more precise and remain constant whatever the model. However the ABC method, contrarily to MMM, can provide an estimation when the father genotypes are unknown with similar results (except for δ but see the information introduction for explanations). The estimation on Sorbus torminalis provided by the ABC method can be compared to the MMM results as they used the same forward dispersal model, contrarily to the classical methods results. Moreover this method allow us to compare the adequacy of Sorbus torminalis dataset to different models and to accord for this datatset more credibility to the model which model the outside pollen contribution as in MMM model than in the classical clxxxii 33

331 1 2 TwoGener method. According to our results the pollen dispersal in this application seems to be different inside the study plot from outside Perspectives Our goal in this study was to demonstrate that an ABC method could be used to estimate a pollen dispersal function and we did it with a simple but stable ABC version. However the ABC approach methods are still in development and our algorithm could be improved by the recent approaches proposed, specially to cover more efficiently the parameter space during the estimation (reducing the number of required simulations), such as those based on MCMC algorithm methods (Marjoram et al. 2003; Wegmann et al. 2009) or particules and importance sampling methods ( Sisson et al. 2007;Toni & Stumpf 2009). Similarly, our model comparisons through Bayes Factor could be completed by the use of model testing directly the adequation of data to models using the distribution of the simulated SCE (Ratmann et al. 2009). Here we have summarized the datasets with pairwise φ ft indices, but more indices could be used to improve the estimation: for example, the indices used in the Kindist method (Robledo et al.,2006). We have demonstrated the possibility and the efficiency of introducing information during the pollen dispersal estimation using ABC method. This is important as a partial information can be obtained for a low sampling cost (e.g. the positions of potential fathers given by aerial pictures). In this paper we have proposed to introduce exact information but further work is needed to introduce partial information about the process through simulation. In particular, even if the exact fathers positions and genotypes are unknown, some a priori knowledge about aggregation of the individuals or spatial genetic structure 34 clxxxiii

332 ANNEXE VI. ESTIMATING FORWARD POLLEN DISPERSAL WITH ABC could be worth exploiting. This will raise algorithmic questions to simulate rapidly aggregated patterns conditionally to the knowledge of some of their points. Another future direction with the ABC method would be to develop and explore new models including fecundity variation driven by covariables (as in Oddou-Muratorio et al. 2004), phenologic time-lag (Robledo et al.,2006) or genetic incompatibility... "ABC is easy as one, two, three" (Jackson et al.,1970) and permits for any model that can be simulated rapidly to estimate its parameters and simultaneously investigate the performance of the estimates with the simulated test datasets clxxxiv 35

333 1 References Austerlitz, F., Dick, C. W., Dutech, C., Klein, E. K., Oddou-Muratorio, S., Smouse, P. E. & Sork, V. L. (2004), 'Using genetic markers to estimate the pollen dispersal curve', Molecular Ecology 13(4), Austerlitz, F. & Smouse, P. E. (2001), 'Two-generation analysis of pollen flow across a landscape. II. Relation between φ ft, pollen dispersal and interfemale distance', Genetics 157(2), Beaumont, M. A. & Rannala, B. (2004), 'The Bayesian revolution in genetics', Nature Reviews Genetics 5(4), Burczyk, J., Adams, W. T., Moran, G. F. & Griffin, A. R. (2002), 'Complex patterns of mating revealed in a Eucalyptus regnans seed orchard using allozyme markers and the neighbourhood model', Molecular Ecology 11(11), Carpentier, F., Chadoeuf, J. & Klein, E. (submitted), 'Estimates of backward pollen dispersal curve : Why and how considering selfing explicitly?', Cornuet, J., Santos, F., Beaumont, M., Robert, C., Marin, J., Balding, D., Guillemaud, T. & Estoup, A. (2008), 'Inferring population history with DIY ABC: a user-friendly approach to approximate Bayesian computation', Bioinformatics 24(23), Ellison, A. (2004), 'Bayesian inference in ecology', Ecology Letters 7(6), clxxxv

334 ANNEXE VI. ESTIMATING FORWARD POLLEN DISPERSAL WITH ABC Excoffier, L., Smouse, P. E. & Quattro, J. M. (1992), 'Analysis of Molecular Variance Inferred from Metric Distances among DNA Haplotypes - Application to Human Mitochondrial-DNA Restriction Data', Genetics 131(2), Francois, O., Blum, M., Jakobsson, M. & Rosenberg, N. A. (2008), 'Demographic history of european populations of Arabidopsis thaliana', PLoS genetics 4, Holsinger, K. (1991), 'Mass-action models of plant mating systems : the evolutionary stability of mixed mating systems', The American Naturalist 138, Klein, E. K., Desassis, N. & Oddou-Muratorio, S. (2008), 'Pollen flow in the wildservice tree, Sorbus torminalis (L.) Crantz. IV. Whole interindividual variance of male fecundity estimated jointly with the dispersal kernel', Molecular Ecology 17(14), Marjoram, P., Molitor, J., Plagnol, V. & Tavare, S. (2003), 'Markov chain Monte Carlo without likelihoods', PNAS 100, Marjoram, P. & Tavare, S. (2006), 'Modern computational approaches for analysing molecular genetic variation data', Nature Review Genetics 7(10), Meagher, T. (1986), 'Analysis of paternity within a natural population of Chamaelirium lutuem. 1. Identification of most-likely male parents.', The American Naturalist 128, clxxxvi 37

335 1 2 3 Meagher, T. & Vassiliadis, C. (2003), 'Spatial geometry determines gene flow in plant populations''genes in Environment: 15th Special Symposium of the British Ecological Society', Oddou-Muratorio, S., Aligon, C., Decroocq, S., Plomion, C., Lamant, T. & Mush- Demesure, B. (2001), 'Microsatellite prmers for Sorbus torminalis and related species', Molecular Ecology Notes 1, Oddou-Muratorio, S., Demesure-Musch, B., Pélissier, R. & Gouyon, P.-H. (2004), 'Impacts of gene flow and logging history on the local genetic structure of a scattered tree species, Sorbus torminalis L. Crantz', Molecular Ecology 13, Oddou-Muratorio, S., Klein, E. K. & Austerlitz, F. (2005), 'Pollen flow in the wildservice tree, Sorbus torminalis (L.) Crantz. II. Pollen dispersal and heterogeneity in mating success inferred from parent-offspring analysis', Molecular Ecology 14(14), Oddou-Muratorio, S., Klein, E. K., Demesure-Musch, B. & Austerlitz, F. (2006), 'Realtime patterns of pollen flow in the wild-service tree, Sorbus torminalis (Rosaceae). III. Mating patterns and the ecological maternal neighborhood', American Journal of Botany 93(11), Pritchard, J., Seielstad, M., Perez-Lezaun, A. & Feldman, M. (1999), 'Population growth of human Y chromosomes: A study of Y chromosome microsatellites', Molecular Biology and Evolution 16(12), clxxxvii

336 ANNEXE VI. ESTIMATING FORWARD POLLEN DISPERSAL WITH ABC 1 2 Robledo-Arnuncio, J. J. & Austerlitz, F. (2006), 'Pollen dispersal in spatially aggregated populations', American Naturalist 168(4), Robledo-Arnuncio, J. J., Austerlitz, F. & Smouse, P. E. (2006), 'A new method of estimating the pollen dispersal curve independently of effective density', Genetics 173(2), Sisson, S., Fan, Y. & Tanaka, M. M. (2007), 'Sequential Monte Carlo without likelihoods', PNAS 104, Smouse, P. E., Dyer, R. J., Westfall, R. D. & Sork, V. L. (2001), 'Two-generation analysis of pollen flow across a landscape. I. Male gamete heterogeneity among females', Evolution 55(2), Toni, T. & Stumpf, M. (2009), 'Simulation-based model selection for dynamical systemsin systems and population biology', Bioinformatics Wegmann, D., Leuenberger, C. & Excoffier, L. (2009), 'Efficient Approximate Bayesian Computation Coupled With Markov Chain Monte Carlo Without Likelihood', Genetics 182, clxxxviii 39

337 1 Figures and Table legends Figure 1. Satellite image of the Rambouillet forest. The study plot of Sorbus torminalis is represented by the red polygon. The blue disk represents the simulated area Figure 2. Scheme of the different levels of information introduced in the estimation. Colored points represent individuals whose positions and genotypes are known. Black points represent individuals whose only positions are known. Grey points represent example of drawn positions of unknown individuals Figure 3. Scheme of the different pollen dispersal models. The radius of point represent the relative male fecundity of each individual Table 1. Relative biases and credibility intervals obtained from the test datasets estimation for each ABC method variants. For each variant, 100 test datasets were created. Their parameters values were drawn in the prior distribution Table 2. Parameters estimations (median and 0.95 credibility intervals) of the Sorbus torminalis dataset for each ABC method variants. The results obtained with previous study with classical method were added : TwoGener (Austerlitz et al. 2004) and a Bayesian MMM with random fecundity (Klein et al. 2008). 40 clxxxix

338 ANNEXE VI. ESTIMATING FORWARD POLLEN DISPERSAL WITH ABC 1 Figure cxc 41

339 Figure 2 TG_POIS(NM) TG_POIS(NM+POS) TG_POIS(NM+POS+GEN) 42 cxci

Mariane ALLEAUME-BENHARIRA Sylvie ODDOU-MURATORIO François LEFEVRE. Ecologie des forêts méditerranéennes INRA AVIGNON - FRANCE

Mariane ALLEAUME-BENHARIRA Sylvie ODDOU-MURATORIO François LEFEVRE. Ecologie des forêts méditerranéennes INRA AVIGNON - FRANCE MODELISER L IMPACT DES CHANGEMENTS DEMOGRAPHIQUES ET ENVIRONNEMENTAUX SUR L EVOLUTION DES ARBRES Le module Luberon Version 2010 Mariane ALLEAUME-BENHARIRA Sylvie ODDOU-MURATORIO François LEFEVRE Ecologie

Plus en détail

Deuxième partie. Calcul de fréquences de génotypes multilocus dans des pédigrees complexes XXVII

Deuxième partie. Calcul de fréquences de génotypes multilocus dans des pédigrees complexes XXVII Deuxième partie Calcul de fréquences de génotypes multilocus dans des pédigrees complexes XXVII Présentation Les programmes informatiques MDM et grafgen L analyse de schémas de construction de génotypes

Plus en détail

Une population est un ensemble d individus de la même espèce se reproduisant

Une population est un ensemble d individus de la même espèce se reproduisant V. EFFETS DES REGIMES DE REPRODUCTION La moyenne et la variance des caractères quantitatifs peuvent dépendre de la manière dont les géniteurs sont utilisés, au sein d une population donnée ou entre populations.

Plus en détail

Cours d introduction à la génétique de la souris Notion de Souche

Cours d introduction à la génétique de la souris Notion de Souche Cours d introduction à la génétique de la souris Notion de Souche Introduction: - Réponse d un animal à l expérimentation (diapo 1) Facteurs environnementaux et propres à l animal - Notion d animal standardisé

Plus en détail

DAEU- cours de Sciences de la Nature et de la Vie- Marie Claire Garnier

DAEU- cours de Sciences de la Nature et de la Vie- Marie Claire Garnier Partie 3 : génétique Chapitre 1 : la transmission d un caractère au cours de la reproduction sexuée Rappel : la reproduction sexuée comprend 2 phénomènes fondamentaux successifs : La méiose lors de la

Plus en détail

AP SVT. Exercice 1. Exercice 2. Exercice 3.

AP SVT. Exercice 1. Exercice 2. Exercice 3. Exercice 1. AP SVT On cherche à comprendre le mode de transmission de deux caractères chez la Drosophile, organisme diploïde. Effectuez une analyse génétique pour expliquer les résultats des croisements

Plus en détail

Chapitre 3 L assortiment indépendant des gènes. Des génotypes supérieurs de cultures telles que le riz ont révolutionné l agriculture.

Chapitre 3 L assortiment indépendant des gènes. Des génotypes supérieurs de cultures telles que le riz ont révolutionné l agriculture. Chapitre 3 L assortiment indépendant des gènes Des génotypes supérieurs de cultures telles que le riz ont révolutionné l agriculture. La variation de deux caractères Croisements monohybrides: entre 2 individus

Plus en détail

Chapitre 2 La diversification du vivant

Chapitre 2 La diversification du vivant Chapitre 2 La diversification du vivant 1 Introduction Méiose et fécondation : sources de diversité Mutations germinales : processus fondamental de diversification génétique, générateur de biodiversité

Plus en détail

Louis-André Vallet (CNRS) Laboratoire de Sociologie Quantitative, CREST, UMR 2773 CNRS & INSEE

Louis-André Vallet (CNRS) Laboratoire de Sociologie Quantitative, CREST, UMR 2773 CNRS & INSEE Utiliser le modèle log-linéaire pour mettre au jour la structure du lien entre les deux variables d un tableau de contingence : un exemple d application à la mobilité sociale Louis-André Vallet (CNRS)

Plus en détail

Nom : Groupe : Date : 1 LES RESPONSABLES DES CARACTÈRES CHEZ LES ÊTRES VIVANTS (p. 350-358)

Nom : Groupe : Date : 1 LES RESPONSABLES DES CARACTÈRES CHEZ LES ÊTRES VIVANTS (p. 350-358) CHAPITRE 811 STE Questions 1 à 17, A, B. Verdict 1 LES RESPONSABLES DES CARACTÈRES CHEZ LES ÊTRES VIVANTS (p. 350-358) 1. Observez les deux cellules ci-contre. a) Sous quelle forme apparaît l ADN dans

Plus en détail

Chapitre 14: La génétique

Chapitre 14: La génétique Chapitre 14: La génétique A) Les gènes et les protéines, ça te gêne? 1) a) Quel est l élément de base des vivants? Les cellules b) Qu a-t-elle en son centre? Un noyau c) Qu y retrouve-t-on sous forme de

Plus en détail

A- Exploiter des animations pour repérer une mutation et étudier son mécanisme de réparation.

A- Exploiter des animations pour repérer une mutation et étudier son mécanisme de réparation. THEME 1A : Expression, stabilité et variation du patrimoine génétique Chapitre 2 : Variabilité Génétique et Mutation de l ADN TP-3-: Réparation de l ADN, mutations et polyallélisme Les mutations de l ADN

Plus en détail

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012

Arbres binaires. Hélène Milhem. Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 Arbres binaires Hélène Milhem Institut de Mathématiques de Toulouse, INSA Toulouse, France IUP SID, 2011-2012 H. Milhem (IMT, INSA Toulouse) Arbres binaires IUP SID 2011-2012 1 / 35 PLAN Introduction Construction

Plus en détail

PARTIE II : Reproduction sexuée et maintien des espèces dans leur milieu de vie.

PARTIE II : Reproduction sexuée et maintien des espèces dans leur milieu de vie. PARTIE II : Reproduction sexuée et maintien des espèces dans leur milieu de vie. Une île volcanique vient de se former, que se passe-t-il au bout de plusieurs années? Comment font les êtres vivants pour

Plus en détail

Gènes Diffusion - EPIC 2010

Gènes Diffusion - EPIC 2010 Gènes Diffusion - EPIC 2010 1. Contexte. 2. Notion de génétique animale. 3. Profil de l équipe plateforme. 4. Type et gestion des données biologiques. 5. Environnement Matériel et Logiciel. 6. Analyses

Plus en détail

Les différentes stratégies de quantification :

Les différentes stratégies de quantification : Les différentes stratégies de quantification : Ce chapitre présente les 2 principales stratégies de quantification relative utilisée classiquement : la méthode des droites standards et celle des Ct. Les

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

SBI3U Épreuve Génétique Nom:

SBI3U Épreuve Génétique Nom: SBI3U Épreuve Génétique Nom: PARTIE A (15) (Connaissances et compréhension) Inscrire la bonne réponse sur la carte SCANTRON 1. Une femme porteuse du gène d hémophilie et un homme hémophile sont croisés.

Plus en détail

AGRÉGATION DE SCIENCES DE LA VIE - SCIENCES DE LA TERRE ET DE L UNIVERS

AGRÉGATION DE SCIENCES DE LA VIE - SCIENCES DE LA TERRE ET DE L UNIVERS AGRÉGATION DE SCIENCES DE LA VIE - SCIENCES DE LA TERRE ET DE L UNIVERS CONCOURS EXTERNE ÉPREUVES D ADMISSION session 2008 TRAVAUX PRATIQUES DE CONTRE-OPTION DU SECTEUR B CANDIDATS DES SECTEURS A ET C

Plus en détail

L essentiel sur les tests statistiques

L essentiel sur les tests statistiques L essentiel sur les tests statistiques 21 septembre 2014 2 Chapitre 1 Tests statistiques Nous considérerons deux exemples au long de ce chapitre. Abondance en C, G : On considère une séquence d ADN et

Plus en détail

Introduction aux Méthodes de Monte Carlo

Introduction aux Méthodes de Monte Carlo Méthodes de Monte Carlo pour la Modélisation et le Calcul Intensif Applications à la Physique Numérique et à la Biologie Séminaire CIMENT GRID Introduction aux Méthodes de Monte Carlo Olivier François

Plus en détail

Chapitre 3. La complexité des relations entre gènes, phénotypes et environnement.

Chapitre 3. La complexité des relations entre gènes, phénotypes et environnement. Chapitre 3. La complexité des relations entre gènes, phénotypes et environnement. Les gènes gouvernent la synthèse des protéines qui participent à la réalisation du phénotype mais d'autres éléments, comme

Plus en détail

1A 01 Brassage génétique et sa contribution à la diversité génétique Ex 2.1 SUJET 1

1A 01 Brassage génétique et sa contribution à la diversité génétique Ex 2.1 SUJET 1 SUJET 1 On réalise deux croisements expérimentaux chez la drosophile afin d étudier le devenir de deux caractères : la couleur du corps et l aspect des ailes au cours de la reproduction sexuée La longueur

Plus en détail

B/. 1 1 fr -I- 2 f", I! Méthode de prise en compte de la consanguinité dans un modèle simple de simulation de performances

B/. 1 1 fr -I- 2 f, I! Méthode de prise en compte de la consanguinité dans un modèle simple de simulation de performances NOTE Méthode de prise en compte de la consanguinité dans un modèle simple de simulation de performances J.-L. FOULLEY C. CHEVALET LN.R.A., Station de Génétique quantitative et appliquée, Centre de Recherches

Plus en détail

BACCALAURÉAT GÉNÉRAL SCIENCES DE LA VIE ET DE LA TERRE

BACCALAURÉAT GÉNÉRAL SCIENCES DE LA VIE ET DE LA TERRE BACCALAURÉAT GÉNÉRAL SESSION 2013 SCIENCES DE LA VIE ET DE LA TERRE Série S Durée de l'épreuve : 3h30 Coefficient : 6 ENSEIGNEMENT OBLIGATOIRE L'usage de la calculatrice n'est pas autorisé. Dès que le

Plus en détail

CHAPITRE 4 - LA COMPLEXITÉ DES RELATIONS ENRE GÈNES, PHÉNOTYPES ET ENVIRONNEMENT

CHAPITRE 4 - LA COMPLEXITÉ DES RELATIONS ENRE GÈNES, PHÉNOTYPES ET ENVIRONNEMENT CHAPITRE 4 - LA COMPLEXITÉ DES RELATIONS ENRE GÈNES, PHÉNOTYPES ET ENVIRONNEMENT Introduction Tous les individus de la même espèce possèdent le même patrimoine génétique, cependant chaque individu est

Plus en détail

SCI03 - Analyse de données expérimentales

SCI03 - Analyse de données expérimentales SCI03 - Analyse de données expérimentales Introduction à la statistique Thierry Denœux 1 1 Université de Technologie de Compiègne tél : 44 96 tdenoeux@hds.utc.fr Automne 2014 Qu est ce que la statistique?

Plus en détail

Chapitre 1. L algorithme génétique

Chapitre 1. L algorithme génétique Chapitre 1 L algorithme génétique L algorithme génétique (AG) est un algorithme de recherche basé sur les mécanismes de la sélection naturelle et de la génétique. Il combine une stratégie de survie des

Plus en détail

SCIENCES DE LA VIE ET DE LA TERRE

SCIENCES DE LA VIE ET DE LA TERRE BACCALAURÉAT GÉNÉRAL SESSION 2015 SCIENCES DE LA VIE ET DE LA TERRE Série S ÉPREUVE DU MERCREDI 24 JUIN 2015 Durée de l'épreuve : 3h30 Coefficient : 6 ENSEIGNEMENT OBLIGATOIRE L'usage de la calculatrice

Plus en détail

Modélisation coalescente pour la détection précoce d un cancer

Modélisation coalescente pour la détection précoce d un cancer Modélisation coalescente pour la détection précoce d un cancer Mathieu Emily 27 Novembre 2007 Bioinformatics Research Center - Université d Aarhus Danemark Mathieu Emily Coalescence et cancer 1 Introduction

Plus en détail

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS ATELIER PARISIEN D URBANISME - 17, BD MORLAND 75004 PARIS TÉL : 01 42 71 28 14 FAX : 01 42 76 24 05 http://www.apur.org Observatoire de l'habitat de Paris L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN

Plus en détail

11. Evaluation de la qualité des essais

11. Evaluation de la qualité des essais 11. Evaluation de la qualité des essais L évaluation de la qualité méthodologique d un essai thérapeutique est une tâche difficile [117]. L essai thérapeutique contrôlé randomisé est considéré comme étant

Plus en détail

Ecologie et évolution des systèmes de reproduction des plantes

Ecologie et évolution des systèmes de reproduction des plantes Ecologie et évolution des systèmes de reproduction des plantes Emmanuelle Porcher Laboratoire CESCO Muséum national d Histoire naturelle http://parks.ci.lubbock.tx.us/ Plan des cours Biologie et écologie

Plus en détail

I. TOUITOU (Mise ligne 15/10/08 LIPCOM-RM) Faculté de Médecine Montpellier-Nîmes

I. TOUITOU (Mise ligne 15/10/08 LIPCOM-RM) Faculté de Médecine Montpellier-Nîmes er cycle PCEM MI5 Génétique moléculaire et clinique Année Universitaire 008-009 Comment apprécier la composante héréditaire des maladies?. Excès de cas familiaux - Les études familiales - - La plupart

Plus en détail

Quentin Rougemont, Guillaume Evanno, Sophie Launey INRA Rennes UMR ESE

Quentin Rougemont, Guillaume Evanno, Sophie Launey INRA Rennes UMR ESE Quentin Rougemont, Guillaume Evanno, Sophie Launey INRA Rennes UMR ESE Rennes Le 19/02/2013 Evolution de l anadromie chez les lamproies Contexte général Objectifs Méthodologie Etats des connaissances Résultats

Plus en détail

Les corridors écologiques: Bases scientifiques et limites de la connaissance

Les corridors écologiques: Bases scientifiques et limites de la connaissance Les corridors écologiques: Bases scientifiques et limites de la connaissance Françoise Burel, CNRS Jacques Baudry, INRA CAREN, Rennes www.caren.univ-rennes1.fr/pleine-fougeres Les paysages sont hétérogènes

Plus en détail

Stratégie de reproduction humaine: In vitro

Stratégie de reproduction humaine: In vitro Stratégie de reproduction humaine: In vitro La fécondation in vitro (FIV), est une forme de procréation assisté. C'est à dire, une technologie reproductive offert aux couples incapable de concevoir un

Plus en détail

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p. STATISTIQUE THÉORIQUE ET APPLIQUÉE Tome 2 Inférence statistique à une et à deux dimensions Pierre Dagnelie TABLE DES MATIÈRES Bruxelles, De Boeck, 2011, 736 p. ISBN 978-2-8041-6336-5 De Boeck Services,

Plus en détail

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7

Table des matières. PREMIÈRE PARTIE Étapes initiales des études marketing 7 Table des matières Préface Public 1 Structure de l ouvrage 1 Caractéristiques de l ouvrage 3 Contenu 3 Pédagogie 4 Remarques sur l adaptation française 4 Ressources numériques 5 Biographie 6 PREMIÈRE PARTIE

Plus en détail

Le montant des garanties constituées aux fins du STPGV est-il excessif?

Le montant des garanties constituées aux fins du STPGV est-il excessif? Le montant des garanties constituées aux fins du STPGV est-il excessif? Kim McPhail et Anastasia Vakos* L e système canadien de transfert des paiements de grande valeur (STPGV) sert à effectuer les paiements

Plus en détail

Polymorphismes de l ADN

Polymorphismes de l ADN Introduction Polymorphismes de l ADN Présentation et mise en évidence Recherche de gènes responsables de maladies génétiques : Analyse de pedigrees où la maladie est présente Sur quel chromosome? À quel

Plus en détail

Recherche de parenté entre les vertébrés

Recherche de parenté entre les vertébrés 1 CHAPITRE A Recherche de parenté entre les vertébrés 2 Chapitre A : Recherche de parentés entre les êtres vivants Tous les êtres vivants présentent des structures cellulaires et un fonctionnement commun

Plus en détail

Conférence de clôture Chaire Blaise Pascal de C. J. Jones «Une odyssée de l ingénierie des écosystèmes»

Conférence de clôture Chaire Blaise Pascal de C. J. Jones «Une odyssée de l ingénierie des écosystèmes» Conférence de clôture Chaire Blaise Pascal de C. J. Jones «Une odyssée de l ingénierie des écosystèmes» La pollinisation: un service écosystémique basé sur des réseaux d interactions complexes Isabelle

Plus en détail

TESTS D HYPOTHÈSE FONDÉS SUR LE χ². http://fr.wikipedia.org/wiki/eugénisme

TESTS D HYPOTHÈSE FONDÉS SUR LE χ². http://fr.wikipedia.org/wiki/eugénisme TESTS D HYPOTHÈSE FONDÉS SUR LE χ² http://fr.wikipedia.org/wiki/eugénisme Logo du Second International Congress of Eugenics 1921. «Comme un arbre, l eugénisme tire ses constituants de nombreuses sources

Plus en détail

Biais sociaux et procédure de recrutement, l exemple de l examen d entrée à Sciences Po 1 ère année Septembre 2002. Conclusions d enquête

Biais sociaux et procédure de recrutement, l exemple de l examen d entrée à Sciences Po 1 ère année Septembre 2002. Conclusions d enquête Cécile RIOU Assistante de Recherche (CEVIPOF / IEP) Vincent TIBERJ Chargé de Recherche (CEVIPOF / FNSP) Biais sociaux et procédure de recrutement, l exemple de l examen d entrée à Sciences Po 1 ère année

Plus en détail

Regime Switching Model : une approche «pseudo» multivarie e

Regime Switching Model : une approche «pseudo» multivarie e Regime Switching Model : une approche «pseudo» multivarie e A. Zerrad 1, R&D, Nexialog Consulting, Juin 2015 azerrad@nexialog.com Les crises financières survenues dans les trente dernières années et les

Plus en détail

MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE

MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE Annexe MATHÉMATIQUES CYCLE TERMINAL DE LA SÉRIE ÉCONOMIQUE ET SOCIALE ET DE LA SÉRIE LITTERAIRE CLASSE DE PREMIÈRE L enseignement des mathématiques au collège et au lycée a pour but de donner à chaque

Plus en détail

Intérêt du découpage en sous-bandes pour l analyse spectrale

Intérêt du découpage en sous-bandes pour l analyse spectrale Intérêt du découpage en sous-bandes pour l analyse spectrale David BONACCI Institut National Polytechnique de Toulouse (INP) École Nationale Supérieure d Électrotechnique, d Électronique, d Informatique,

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Cours IFT6266, Exemple d application: Data-Mining

Cours IFT6266, Exemple d application: Data-Mining Cours IFT6266, Exemple d application: Data-Mining Voici un exemple du processus d application des algorithmes d apprentissage statistique dans un contexte d affaire, qu on appelle aussi data-mining. 1.

Plus en détail

Que faire lorsqu on considère plusieurs variables en même temps?

Que faire lorsqu on considère plusieurs variables en même temps? Chapitre 3 Que faire lorsqu on considère plusieurs variables en même temps? On va la plupart du temps se limiter à l étude de couple de variables aléatoires, on peut bien sûr étendre les notions introduites

Plus en détail

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 MATHS/STATS. 1 Généralités sur les tests statistiques 2

UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 MATHS/STATS. 1 Généralités sur les tests statistiques 2 UNIVERSITÉ PARIS OUEST NANTERRE LA DÉFENSE U.F.R. SEGMI Année universitaire 2013 2014 Master d économie Cours de M. Desgraupes MATHS/STATS Document 4 : Les tests statistiques 1 Généralités sur les tests

Plus en détail

Les débuts de la génétique

Les débuts de la génétique HPITRE 9 DES DÉBTS DE L ÉNÉTIQE X ENJEX TELS DES BIOTEHNOLOIES 1 Les débuts de la génétique est avec les travaux de regor Mendel vers la fin du XIX e siècle que furent posées les bases de la génétique.

Plus en détail

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE UE4 : Biostatistiques Chapitre 3 : Principe des tests statistiques d hypothèse José LABARERE Année universitaire 2010/2011 Université Joseph Fourier de Grenoble - Tous droits réservés. Plan I. Introduction

Plus en détail

Statistique en grande dimension pour la génomique Projets 2014-2015 L. Jacob, F. Picard, N. Pustelnik, V. Viallon

Statistique en grande dimension pour la génomique Projets 2014-2015 L. Jacob, F. Picard, N. Pustelnik, V. Viallon Statistique en grande dimension pour la génomique Projets 2014-2015 L. Jacob, F. Picard, N. Pustelnik, V. Viallon Table des matières 1 Graph Kernels for Molecular Structure-Activity Relationship Analysis

Plus en détail

L'ADN mitochondrial a été découvert en 1962 par Margit MK Nass et Sylvan Nass par microscopie électronique.

L'ADN mitochondrial a été découvert en 1962 par Margit MK Nass et Sylvan Nass par microscopie électronique. L L'ADN mitochondrial a été découvert en 1962 par Margit MK Nass et Sylvan Nass par microscopie électronique. Figure 1 Mitochondries observées au microscope électronique à transmission Plus tard, cet ADN

Plus en détail

Item 169 : Évaluation thérapeutique et niveau de preuve

Item 169 : Évaluation thérapeutique et niveau de preuve Item 169 : Évaluation thérapeutique et niveau de preuve COFER, Collège Français des Enseignants en Rhumatologie Date de création du document 2010-2011 Table des matières ENC :...3 SPECIFIQUE :...3 I Différentes

Plus en détail

Chapitre 5: Evolution de la biodiversité

Chapitre 5: Evolution de la biodiversité Chapitre 5: Evolution de la biodiversité Constat: Tous les êtres vivants ont la même structure (cellules, MO) et pourtant ils ont beaucoup évolué au cours des temps géologiques. Problème: Par quels mécanismes

Plus en détail

Introduction générale au codage de canal

Introduction générale au codage de canal Codage de canal et turbo-codes 15/9/2 1/7 Introduction générale au codage de canal Table des matières Table des matières... 1 Table des figures... 1 1. Introduction... 2 2. Notion de message numérique...

Plus en détail

Chapitre 6 L interaction des gènes

Chapitre 6 L interaction des gènes Chapitre 6 L interaction des gènes La variation dans la coloration de la coquille Saint-Jacques (Argopecten irradians) due à trois allèles d un même gène Des gènes aux phénotypes 1- La relation entre les

Plus en détail

Titre de la leçon? Les mutations

Titre de la leçon? Les mutations Titre de la leçon? Les mutations I. La drépanocytose Globules rouges d un sujet normal Globules rouges d un sujet atteint de drépanocytose Circulation des globules rouges dans les capillaires (sujet atteint

Plus en détail

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème.

- Mobiliser les résultats sur le second degré dans le cadre de la résolution d un problème. Mathématiques - classe de 1ère des séries STI2D et STL. 1. Analyse On dote les élèves d outils mathématiques permettant de traiter des problèmes relevant de la modélisation de phénomènes continus ou discrets.

Plus en détail

Structure générale d'une particule virale de type herpès

Structure générale d'une particule virale de type herpès Virus de type herpès et coquillages 1 - Caractéristiques des virus de type herpès infectant les coquillages Des infections à virus de type herpès sont associées à des mortalités massives chez différentes

Plus en détail

N 2015-XX. Les études de l emploi cadre

N 2015-XX. Les études de l emploi cadre DOCUMENT SOUS EMBARGO JUSQU AU 4 MARS À 00 h 01 LES ÉCARTS DE SALAIRE HOMMES-FEMMES ÉDITION 2015 Les études de l emploi cadre N 2015-XX Mars 2015 Composantes de la rémunération des cadres Méthode employée

Plus en détail

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

La survie nette actuelle à long terme Qualités de sept méthodes d estimation La survie nette actuelle à long terme Qualités de sept méthodes d estimation PAR Alireza MOGHADDAM TUTEUR : Guy HÉDELIN Laboratoire d Épidémiologie et de Santé publique, EA 80 Faculté de Médecine de Strasbourg

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

QUELQUES ILLUSTRATIONS NUMÉRIQUES

QUELQUES ILLUSTRATIONS NUMÉRIQUES EFFET D UNE SÉLECTION AVEC TRONCATURE SUR DES GÈNES «IMPORTANTS» OU NON : QUELQUES ILLUSTRATIONS NUMÉRIQUES BASÉES SUR DES RELATIONS APPROXIMATIVES DANS LA LOI NORMALE P. MÉRAT Laboratoire de Génétique

Plus en détail

Chapitre 10 L isolement et la manipulation de gènes. Injection d ADN étranger dans une cellule animale

Chapitre 10 L isolement et la manipulation de gènes. Injection d ADN étranger dans une cellule animale Chapitre 10 L isolement et la manipulation de gènes Injection d ADN étranger dans une cellule animale Comment amplifier un gène d intérêt? Amplification in vivo à l aide du clonage d ADN L ensemble formé

Plus en détail

Chapitre 7 : diversification des êtres vivants et évolution de la biodiversité

Chapitre 7 : diversification des êtres vivants et évolution de la biodiversité Chapitre 7 : diversification des êtres vivants et évolution de la biodiversité Au sein d une espèce, la diversité entre les individus a pour origine les mutations, sources de création de nouveaux allèles,

Plus en détail

Mth2302B - Intra Été 2011

Mth2302B - Intra Été 2011 École Polytechnique de Montréal page 1 Contrôle périodique Été 2011--------------------------------Corrigé--------------------------------------T.Hammouche Question 1 (12 points) Mth2302B - Intra Été 2011

Plus en détail

1ere S THEME 1A CHAPITRE N 2: VARIABILITE GENETIQUE ET MUTATION DE L ADN

1ere S THEME 1A CHAPITRE N 2: VARIABILITE GENETIQUE ET MUTATION DE L ADN 1ere S THEME 1A CHAPITRE N 2: VARIABILITE GENETIQUE ET MUTATION DE L ADN Introduction Toutes ces coccinelles appartiennent au même genre cependant elles présentent toutes des différences. Ces différences

Plus en détail

Distributions bayésiennes nonparamétriques sur les matrices binaires triangulaires infinies : Applications aux modèles graphiques

Distributions bayésiennes nonparamétriques sur les matrices binaires triangulaires infinies : Applications aux modèles graphiques Distributions bayésiennes nonparamétriques sur les matrices binaires triangulaires infinies : Applications aux modèles graphiques Patrick Dallaire Université Laval Département d informatique et de génie

Plus en détail

Principe d un test statistique

Principe d un test statistique Biostatistiques Principe d un test statistique Professeur Jean-Luc BOSSON PCEM2 - Année universitaire 2012/2013 Faculté de Médecine de Grenoble (UJF) - Tous droits réservés. Objectifs pédagogiques Comprendre

Plus en détail

Chapitre VI Échantillonages et simulations

Chapitre VI Échantillonages et simulations Chapitre VI Commentaires : Récursivement, les commentaires ne sont pas à l attention des élèves.. Fluctuation d échantillonnage Définition : En statistiques, un échantillon de taille n est la liste des

Plus en détail

TD1 Signaux, énergie et puissance, signaux aléatoires

TD1 Signaux, énergie et puissance, signaux aléatoires TD1 Signaux, énergie et puissance, signaux aléatoires I ) Ecrire l'expression analytique des signaux représentés sur les figures suivantes à l'aide de signaux particuliers. Dans le cas du signal y(t) trouver

Plus en détail

Qu est-ce qu une probabilité?

Qu est-ce qu une probabilité? Chapitre 1 Qu est-ce qu une probabilité? 1 Modéliser une expérience dont on ne peut prédire le résultat 1.1 Ensemble fondamental d une expérience aléatoire Une expérience aléatoire est une expérience dont

Plus en détail

La méthode des quotas

La méthode des quotas La méthode des quotas Oliviero Marchese, décembre 2006 1 La méthode des quotas Principe de la méthode Point de départ et but recherché Caractère «intuitif» de la méthode A quoi ressemble une feuille de

Plus en détail

UNIVERSITE PARIS 1 PANTHEON SORBONNE LICENCE DE SCIENCES ECONOMIQUES. STATISTIQUE APPLIQUEE F. Gardes / P. Sevestre. Fiche N 7.

UNIVERSITE PARIS 1 PANTHEON SORBONNE LICENCE DE SCIENCES ECONOMIQUES. STATISTIQUE APPLIQUEE F. Gardes / P. Sevestre. Fiche N 7. UNIVERSITE PARIS 1 PANTHEON SORBONNE LICENCE DE SCIENCES ECONOMIQUES STATISTIQUE APPLIQUEE F. Gardes / P. Sevestre Fiche N 7 (avec corrigé) L objet de ce TD est de vous initier à la démarche et à quelques

Plus en détail

Cet article s attache tout d abord

Cet article s attache tout d abord Méthodes internationales pour comparer l éducation et l équité Comparaison entre pays des coûts de l éducation : des sources de financement aux dépenses Luc Brière Marguerite Rudolf Bureau du compte de

Plus en détail

Analyse Chromosomique sur Puce à ADN Applications en Prénatal

Analyse Chromosomique sur Puce à ADN Applications en Prénatal Analyse Chromosomique sur Puce à ADN Applications en Prénatal Véronique Satre, Charles Coutton, Gaëlle Vieville, Françoise Devillard et Florence Amblard Maladies génétiques Anomalies chromosomiques Cytogénétique

Plus en détail

Biodiversité, Taxonomie et Barcode moléculaire. Nicolas Puillandre puillandre@mnhn.fr

Biodiversité, Taxonomie et Barcode moléculaire. Nicolas Puillandre puillandre@mnhn.fr Biodiversité, Taxonomie et Barcode moléculaire Nicolas Puillandre puillandre@mnhn.fr Biodiversité : - les écosystèmes - les espèces - les gènes Taxonomie : Description des unités taxonomiques Classification

Plus en détail

Chapitre 1 Structure et diversité du génome humain

Chapitre 1 Structure et diversité du génome humain Chapitre 1 Structure et diversité du génome humain I. Préambule Le projet de séquençage du génome humain est certainement, après la conquête de la lune, l une des aventures humaines récentes les plus passionnantes

Plus en détail

Cartographie génétique & physique

Cartographie génétique & physique Cartographie génétique & physique INRA, INSERM Septembre 2012 Plan 1 Cartographier Quoi, pourquoi Comment? 2 Les croisements Pedigrees végétaux Pedigrees animaux et humains 3 Construction de cartes Ordonnancement

Plus en détail

Points méthodologiques Adapter les méthodes statistiques aux Big Data

Points méthodologiques Adapter les méthodes statistiques aux Big Data Points méthodologiques Adapter les méthodes statistiques aux Big Data I. Répétition de tests et inflation du risque alpha II. Significativité ou taille de l effet? 2012-12-03 Biomédecine quantitative 36

Plus en détail

Principales techniques utilisées en génie génétique Ces différentes techniques peuvent également se combiner entre elles. Séquençage de l ADN

Principales techniques utilisées en génie génétique Ces différentes techniques peuvent également se combiner entre elles. Séquençage de l ADN Principales techniques utilisées en génie génétique Ces différentes techniques peuvent également se combiner entre elles Séquençage de l ADN 1- Un brin complémentaire de l ADN à séquencer est fabriqué

Plus en détail

SUJET INÉDIT 1. Dossier 1. Charges et choix d une unité d œuvre 4 points 45 minutes CHAPITRES 1 et 4

SUJET INÉDIT 1. Dossier 1. Charges et choix d une unité d œuvre 4 points 45 minutes CHAPITRES 1 et 4 SUJET INÉDIT 1 La société Coupe & Shampoing Coupe & Shampoing est un salon de coiffure indépendant. Afin de faire face à la concurrence de salons de coiffure franchisés, son dirigeant, Kamel, aimerait

Plus en détail

La pollinisation. Nom des intervenants. Frank ALETRU GIE ELEVAGE SECTION APICOLE. www.sauvonslesabeilles.com

La pollinisation. Nom des intervenants. Frank ALETRU GIE ELEVAGE SECTION APICOLE. www.sauvonslesabeilles.com La pollinisation www.sauvonslesabeilles.com Nom des intervenants Frank ALETRU GIE ELEVAGE SECTION APICOLE Sommaire I. Le processus de la pollinisation II. Les acteurs III. Impact agro-économique de la

Plus en détail

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population.

Première STMG1 2014-2015 progression. - 1. Séquence : Proportion d une sous population dans une population. Première STMG1 2014-2015 progression. - 1 Table des matières Fil rouge. 3 Axes du programme. 3 Séquence : Proportion d une sous population dans une population. 3 Information chiffrée : connaître et exploiter

Plus en détail

MASTER «Sciences de la Vie et de la Santé» Mention «Santé Publique»

MASTER «Sciences de la Vie et de la Santé» Mention «Santé Publique» M1_presentation_generale_4juil05.doc 1/11 MASTER «Sciences de la Vie et de la Santé» Mention «Santé Publique» La mention s articule autour de 6 spécialités : Recherche en éthique : Pr Christian HERVE (herve@necker.fr)

Plus en détail

Chapitre 3 : conserver ou transmettre l information génétique.

Chapitre 3 : conserver ou transmettre l information génétique. Chapitre 3 : conserver ou transmettre l information génétique. Mais, que dois-je savoir? Pour rattraper un cours manquant, retrouve-le sur le site du collège dans la rubrique «enseignements» : http://colleges.acrouen.fr/courbet/spipuser/

Plus en détail

PNV 2009. Travaux dirigés n 1

PNV 2009. Travaux dirigés n 1 PNV 2009 Travaux dirigés n 1 Le maintien du statut hydrique est une contrainte majeure pour la croissance et le développement des plantes terrestres. Ces organismes peuvent en particulier être soumis à

Plus en détail

Modèle réduit pour la DSC : Application aux solutions binaires

Modèle réduit pour la DSC : Application aux solutions binaires Modèle réduit pour la DSC : Application aux solutions binaires Stéphane GIBOUT 1, Erwin FRANQUET 1, William MARÉCHAL 1, Jean-Pierre BÉDÉCARRATS 1, Jean-Pierre DUMAS 1 1 Univ. Pau & Pays Adour, LaTEP-EA

Plus en détail

Stratégies scientifiques de secteur d AAC

Stratégies scientifiques de secteur d AAC Stratégies scientifiques de secteur d AAC Présentation à la TRCV du secteur des semences 18 et 19 février 2014 Contexte Les travaux de recherche de la Direction générale des sciences et de la technologie

Plus en détail

Les co-structures génétiques d un parasite (Schistosoma mansoni) et de ses hôtes (mammifères et. dulçaquicole de Guadeloupe

Les co-structures génétiques d un parasite (Schistosoma mansoni) et de ses hôtes (mammifères et. dulçaquicole de Guadeloupe Les co-structures génétiques d un parasite (Schistosoma mansoni) et de ses hôtes (mammifères et mollusques) dans la mangrove dulçaquicole de Guadeloupe Échelles spatiale, fonctionnelle et coévolutive.

Plus en détail

Le bootstrap expliqué par l exemple

Le bootstrap expliqué par l exemple Le bootstrap expliqué par l exemple 1 Le bootstrap expliqué par l exemple 1. Les concepts du bootstrap 2. Des variantes adaptées au contexte 3. Comparaison des différentes méthodes 4. Les cas sensibles

Plus en détail

Université d Orléans - Maitrise Econométrie Econométrie des Variables Qualitatives

Université d Orléans - Maitrise Econométrie Econométrie des Variables Qualitatives Université d Orléans - Maitrise Econométrie Econométrie des Variables Qualitatives Examen Décembre 00. C. Hurlin Exercice 1 (15 points) : Politique de Dividendes On considère un problème de politique de

Plus en détail

Introduction au modèle linéaire général

Introduction au modèle linéaire général Résumé Introductions au modèle linéaire général Retour au plan du cours Travaux pratiques 1 Introduction L objet de ce chapitre est d introduire le cadre théorique global permettant de regrouper tous les

Plus en détail

CHAP 5 : LES PLANTES A FLEURS ET LA VIE FIXEE

CHAP 5 : LES PLANTES A FLEURS ET LA VIE FIXEE CHAP 5 : LES PLANTES A FLEURS ET LA VIE FIXEE Une plante est constituée de racines ancrées dans le sol et de tiges feuillées se développant en milieu aérien. la plante est donc en contact avec 2 milieux

Plus en détail

Etude du transcriptome et du protéome en Neurooncologie

Etude du transcriptome et du protéome en Neurooncologie Etude du transcriptome et du protéome en Neurooncologie Principes, aspects pratiques, applications cliniques François Ducray Neurologie Mazarin, Unité Inserm U711 Groupe hospitalier Pitié-Salpêtrière Etude

Plus en détail

1.2 Utilisation des mésocosmes en écotoxicologie : un outil éprouvé

1.2 Utilisation des mésocosmes en écotoxicologie : un outil éprouvé 1.2 Utilisation des mésocosmes en écotoxicologie : un outil éprouvé Source : Thierry Caquet, Inra, Le Croisic 2009 Mis en œuvre à l origine pour des utilisations en écologie, les écosystèmes aquatiques

Plus en détail