Première partie Introduction Générale IX
L amélioration des espèces cultivées a pour but de produire des variétés présentant des caractéristiques nouvelles pour des caractères d intérêt agronomique (création variétale). La plupart de ces caractères agronomiques sont des caractères quantitatifs, c est à dire que leur variabilité est due à la diversité génétique de plusieurs gènes, et est influencée par l environnement. Le but de la sélection est de combiner des gènes influençant positivement des caractères d intérêt agronomique dans une même variété. De manière classique, les individus sont sélectionnés sur la base de leur phénotype, c est à dire de la résultante de l expression de leurs gènes dans un environnement particulier. La sélection phénotypique est donc une sélection indirecte sur le génotype, et l objectif principal du sélectionneur est de prédire la valeur génétique des individus. Cette valeur génétique est celle qui va conditionner le résultat de la sélection de cet individu, les effets environnementaux ne se transmettant pas à la descendance. En utilisant un modèle simple, la relation entre le phénotype (P ij ) d un individu (i) mesuré dans une condition environnementale j et sa valeur génétique (G i ) est : P ij = G i + e ij (1) où e ij est un effet de l environnement confondu entre l individu i et la condition environnementale j. Suivant ce modèle simple, on constate qu une manière d estimer la valeur génétique d un individu est d observer son phénotype dans plusieurs conditions de milieu j, de telle sorte que Ĝi = E j (P ij ) (Gallais 1990). Suivant ce modèle, la mesure de la valeur génétique des individus est d autant plus précise que le nombre des conditions environnementales dans lesquelles les phénotypes sont mesurés est plus grand. Il faut noter que dans ce cas, le génotype doit être répétable à l identique ; c est le cas des clones, des lignées pures ou des hybrides simples. Depuis longtemps, l intérêt des sélectionneurs se porte vers une meilleure connaissance des gènes impliqués dans le déterminisme des caractères sélectionnés, en particulier pour pouvoir prédire la valeur génétique des individus sur la base de leur génotype pour ces gènes. Il s agit à la fois de connaître les effets de ces gènes et leur localisation sur les chromosomes. En effet, en connaissant ces informations, il serait possible de déterminer la meilleure combinaison de gènes à mettre en place. On pourrait alors diriger les croisements entre individus pour obtenir le plus efficacement possible cette combinaison. Le but est alors de s affranchir, au moins en partie, des effets environnementaux en sélectionnant directement les individus sur leur génotype. Pour pouvoir atteindre ce but, il faut donc remplir plusieurs conditions : déterminer le nombre et les effets des gènes d intérêt, les localiser sur les chromosomes pour pouvoir les manipuler et finalement savoir comment les combiner efficacement dans un même génotype. Dans cette optique, les marqueurs moléculaires sont un outil très important. Les marqueurs moléculaires sont des locus dont le génotype chez un individu donné peut être facilement déterminé. Il est alors possible de sélectionner les individus dans une population sur leur génotype aux marqueurs (Sélection Assistée par Marqueurs, SAM). Cependant, ces marqueurs sont rarement les gènes d intérêt eux-mêmes. Pour pouvoir utiliser l information sur es génotypes aux marqueurs dans des programmes de sélection, il faut préalablement déterminer les associations entre allèles aux marqueurs et allèles aux locus d intérêt agrono- XI
mique. Pour des gènes impliqués dans des caractères quantitatifs (QTL pour Quantitative Trait Loci), la démarche consistant à rechercher ces associations est appelée détection de QTL. Le terme anglais QTL mapping indique bien qu il s agit également de cartographier ces locus sur le génome. De la robustesse de ces associations dépendra l efficacité de la sélection sur le génotype aux marqueurs, et nous allons donc étudier brièvement les méthodes et les résultats attendus de la détection de QTL. 1 Identification des associations gènes / marqueurs La principale utilisation des marqueurs moléculaires en amélioration des plantes à l heure actuelle est l identification de régions chromosomiques impliquées dans la variabilité des caractères quantitatifs. Ces expériences sont appelées expériences de détection de QTL. De nombreuses méthodes de détection de QTL existent, qui diffèrent d une part par les structures de population utilisées et d autre part par les méthodes d analyse statistique utilisées pour identifier les marqueurs liés aux gènes d intérêt agronomique. Nous n allons pas ici nous étendre sur les multiples méthodes de détection de QTL mais présenter l évolution récente de ces méthodes et leur lien avec la sélection assistée par marqueurs. Population bi-parentale en ségrégation La méthode la plus simple à mettre en œuvre pour détecter des QTL consiste à créer spécifiquement une population en ségrégation à partir de deux parents complètement homozygotes. Dans ce cas, les allèles parentaux sont en déséquilibre de liaison total dans l hybride F1 issu du croisement entre les parents entièrement homozygotes : chaque hybride F1 est formé de l union de deux gamètes sur chacun desquels se trouvent tous les allèles d un même parent. Typiquement, cet hybride est alors soit auto-fécondé pour produire une population F2 soit re-croisé avec un des parents pour produire une population backcross 1 (BC1). Dans ces populations en ségrégation, le déséquilibre de liaison entre gènes est réduit par les recombinaisons survenues dans les gamètes produit par l hybride F1. Les allèles ségrègent donc en fonction des taux de recombinaison entre locus. La population (F2 ou BC1) est alors constituée d individus portant des allèles des deux parents, et au sein de laquelle il existe une variabilité pour les caractères agronomiques. Pour détecter des QTL dans ces populations la méthode la plus simple est d effectuer une analyse de variance (ANOVA) à chaque marqueur pour déterminer la part de variance du caractère expliquée par le génotype des individus à ce marqueur. Ainsi, si les différences de génotypes à un marqueur entre individus expliquent une part significative des différences phénotypiques entre ces individus, cela indique que le marqueur est associé à un ou plusieurs QTL (e.g. Sax (1923)). L ANOVA à un marqueur est une méthode simple mais : (i) elle ne permet pas de savoir si le marqueur testé est lié à un ou plusieurs QTL et (ii) elle ne permet pas d estimer précisément la position du QTL. Lander et Botstein (1989) ont proposé une méthode statistique permettant de tester la présence d un QTL en n importe quelle position du génome en utilisant l information aux marqueurs flanquant la position considérée. Cette méthode est appelée Interval Mapping et XII
offre plusieurs avantages par rapport à l analyse à un marqueur. En particulier, la position du QTL peut-être estimée et les effets des QTL sont mieux estimés. Cependant, cette méthode présente aussi des inconvénients. En particulier, la valeur de la statistique calculée à une position ne correspondant pas à un QTL peut être affectée par la présence de QTL situés ailleurs sur le chromosome et dépasser le seuil de significativité. Si il n y a qu un seul QTL sur le chromosome, ce problème n est pas trop important car la position la plus probable du QTL sera quand même bien estimée. Cependant, si plusieurs QTL sont sur le chromosome, la statistique sera affectée par tous ces QTL et il est probable que les positions et les effets estimés des QTL détectés soient alors biaisés. Il est possible de tester la présence de plusieurs QTL sur un même chromosome par Interval Mapping, cependant, comme la méthode proposée par Lander et Botstein (1989) fait appel à la détermination d un maximum de vraisemblance, les résultats obtenus dépendent beaucoup des hypothèses génétiques étudiées et nécessitent des moyens informatiques lourds. Pour pallier ces problèmes de temps de calcul, Haley et Knott (1992) ont eu recours à une statistique de test moins gourmande en ressources calculatoires basée sur la régression multiple plutôt que le maximum de vraisemblance. Des méthodes plus complexes d analyse statistique ont été mises au point pour prendre en compte la possibilité de présence de plusieurs QTL sur le même groupe de liaison (Composite Interval Mapping, Zeng (1994) et Jansen (1993)), mais également pour permettre la détection de plusieurs QTL en même temps, et donc de détecter des effets d interaction entre QTL (épistasie) (e.g. Multiple Interval Mapping, Kao et al. (1999)). Cependant, le fait d étudier une population dans laquelle ne ségrègent que deux allèles parentaux présente des inconvénients lorsqu il s agira ensuite d utiliser les associations entre marqueurs et QTL pour produire de nouvelles variétés améliorées. En effet, en travaillant sur une base génétique plus large, on pourrait s attendre à trouver plus de QTL pour un caractère donné et obtenir ainsi un gain génétique plus important en augmentant le nombre de gènes polymorphes sur lesquels la sélection peut agir. Pour cette raison, des études ont été menées pour développer des méthodes de détection de QTL dans des populations obtenues à partir d une base génétique multiparentale. Population multi-parentale en ségrégation Pour pouvoir analyser des populations présentant une base génétique plus large, la méthode la plus simple consiste à étudier une population constituée de plusieurs populations de bases génétiques étroites (typiquement bi-parentales). La détection de QTL peut alors être faite en utilisant des méthodes similaires à celles exposées dans le paragraphe précédent. Cependant, les modèles précédents supposent des effets fixés des allèles parentaux et impliquent ainsi de distinguer autant de classes de génotypes qu il y a de génotypes possibles aux marqueurs. Dans le cas de l Interval Mapping, il faut prendre en compte tous les génotypes possibles à deux marqueurs. Par exemple, avec seulement 3 allèles possibles à chacun des marqueurs, il existe déjà 45 génotypes possibles aux deux marqueurs flanquant la position testée. Le nombre de paramètres à estimer dans le modèle devient alors rapidement très grand et les effectifs nécessaires pour les estimer trop importants. De plus, si le nombre de parents considérés XIII
est grand, l hypothèse qu ils portent tous un allèle différent à un QTL devient très forte. Il est donc plus réaliste de penser que certains de ces parents portent des allèles provenant d un même ancêtre commun. Ceci présente en outre l avantage que le nombre d effets alléliques à estimer est inférieur au nombre de parents de la population multi-parentale, et donc réduit le nombre des paramètres des modèles statistiques utilisés. Cependant, il faut alors identifier les parents qui portent les mêmes allèles au QTL. Pour se faire, Jansen et al. (2003) ont proposé de comparer les haplotypes aux marqueurs des parents de la population autour de chaque position testée : un haplotype aux marqueurs est le génotype aux marqueurs d un individu sur un des gamètes qui le constitue. Ainsi, un individu diploïde porte deux haplotypes. Dans le cas d haploïdes-doublés, ces haplotypes sont strictement identiques. Dans la méthode proposée par Jansen et al. (2003) si deux parents portent les mêmes haplotypes à des marqueurs autour de la position testée, il sera considérer que les haplotypes portent le même allèle au locus correspondant à la position testée. Il faut noter que pour que cette approximation ne soit pas trop forte, il faut que les taux de recombinaison entre marqueurs soient faibles et donc cette hypothèse implique de travailler avec une densité de marquage importante. Pour l analyse statistique, Jansen et al. (2003) proposent d utiliser une méthode dérivée de l Interval Mapping et d estimer les effets des haplotypes parentaux. Dans cette démarche, il est évidemment nécessaire de connaître les haplotypes des parents et de leurs descendants. Si les individus ne sont pas homozygotes, il faut reconstruire leurs haplotypes aux marqueurs, c est-à-dire identifier le génotype de chacun des gamètes qui constitue chaque individu. Cette reconstruction peut être entachée d erreur ce qui peut représenter un inconvénient pour cette méthode. L effet d erreurs dans la reconstruction des haplotypes sur la détection de QTL utilisant cette méthode reste à étudier. Une autre possibilité pour détecter des QTL dans des populations multiparentales est d avoir recours à des méthodes basées sur le calcul des probabilités d identité par descendance entre individus (IBD pour Identity By Descent). Le principe de ces méthodes est de considérer que deux individus identiques par descendance à des QTL ont plus de chances d avoir des phénotypes proches. Ces méthodes sont basées sur des modèles mixtes où les effets des QTL sont supposés distribués selon une loi normale. Ces modèles ne nécessitent pas de supposer que le nombre d allèles ségrégeant est égal au nombre de parents et requièrent donc un nombre de paramètres plus petit que les modèles à effets fixes. Ces méthodes sont appelées approches en deux étapes de l estimation des composantes de la variance ( two-step variance component approach ) (Hoeschele et al. (1997) ; Xie et al. (1998) ; George et al. (2000)). Un exemple de détection de QTL dans une population multi-parentale simulée suivant une variante de ces méthodes peut être trouvée dans Crepieux et al., (soumis). L utilisation de ces méthodes permet de détecter des QTL dans des populations issues de pedigrees complexes, le facteur limitant étant de pouvoir calculer les probabilités IBD entre individus. Dans la méthode de Crepieux et al., ces probabilités ont été calculée en utilisant le programme MDM (Servin et al. 2002), qui permet de calculer ces probabilités entre individus issus de populations bi-parentales en ségrégation produites par des successions de croisements arbitrairement complexes (e.g. lignées recombinantes et hautement XIV
recombinantes, backcross avancés, haploïdes doublés...). Il faut noter que, par nature, ces méthodes ne donnent pas accès directement aux effets des allèles parentaux. Une fois la position du QTL estimée, il est donc nécessaire de réestimer les effets des allèles parentaux. Dans les méthodes que nous avons décrites ci-dessus, les populations considérées sont constituées d individus descendant de croisements entre lignées entièrement homozygotes. Au départ, il y a donc association totale entre allèles aux marqueurs et allèles aux QTL chez chacun des parents : le déséquilibre de liaison entre locus est maximal dans la F1. Au cours des générations suivantes, les recombinaisons diminuent ce déséquilibre de liaison entre locus. Cette diminution est fonction du taux de recombinaison entre locus. La détection de QTL dans ces populations est appelée analyse de liaison (Linkage Analysis, LA), car les distances (ou liaison) génétiques entre locus sont les paramètres qui suffisent à calculer les probabilités des différents génotypes à la position testée. Cartographie utilisant le Déséquilibre de Liaison Une manière d analyser des populations présentant une grande diversité allélique est de regrouper des individus de provenance quelconque. Pour détecter des QTL dans ces populations, les méthodes décrites précédemment doivent être adaptées. En effet, si les individus n ont pas des relations de parenté entièrement connues ou si ces relations sont trop complexes pour permettre des calculs de transmission allélique, il n est plus possible de prendre en compte directement les liaisons entre locus pour inférer les génotypes possibles à une position testée. Dans ce cas, une solution est de recourir à d autre méthodes appelées détection utilisant le déséquilibre de liaison (LD mapping, pour une synthèse voir Terwilliger et Weiss (1998) et Weiss et Terwilliger (2000)). Dans ce cas, le déséquilibre de liaison entre locus n est pas connu a priori mais doit être estimé à partir des génotypes aux marqueurs des individus. Le principe est de supposer que des individus portant les mêmes haplotypes aux marqueurs sont identiques par descendance entre ces marqueurs. Mais l estimation des probabilités d identité par descendance ne peut plus être faite par calcul de transmission allélique. Meuwissen et Goddard (2001) ont développé une méthode permettant d estimer les probabilités d identité par descendance entre individus à partir des haplotypes aux marqueurs et de la connaissance de l histoire évolutive de l espèce à laquelle ces individus appartiennent (principalement l effectif efficace de la population estimé à partir des haplotypes aux marqueurs, Hayes et al. (2003)). Une fois ces probabilités calculées, l analyse de modèles mixtes permet de tester la présence d un QTL en une position du génome. Le principal problème de la détection de QTL par déséquilibre de liaison est qu elle nécessite une densité de marqueurs très élevée. En effet, dans des populations qui ne sont pas obtenues par croisement de lignées homozygotes, le déséquilibre de liaison entre locus diminue très rapidement avec leur distance génétique. Pour pallier ce problème, (Meuwissen et al. 2001) ont proposé d utiliser à la fois les informations sur les transmissions alléliques données par la connaissance des pedigrees des individus et sur le déséquilibre de liaison observé dans les haplotypes aux marqueurs. Cette méthode est appelée LDLA mapping (pour Linkage Analysis and Linkage Disequilibrium Mapping). En utilisant cette XV
démarche, Meuwissen et al. (2002) ont pu localiser finement un QTL dans un intervalle entre deux marqueurs distant de 1 centimorgans alors qu en utilisant l une ou l autre des deux méthodes séparément, l intervalle de confiance sur la position du QTL était d environ 10 centimorgans. Conclusion Partielle L utilisation de nouvelles méthodes statistiques et la disponibilité de cartes génétiques très denses (en particulier grâce aux marqueurs SNP) permettent d avoir une puissance de discrimination importante pour cartographier les QTL et donc d identifier finement leurs localisations sur le génome. Muni de cette information, il est dans certain cas possible de profiter des résultats de la génomique sur les séquences d ADN avoisinant la position du QTL et d identifier le gène correspondant. L identification des positions des QTL et éventuellement des gènes impliqués dans le déterminisme des caractères d intérêt agronomique est une information qui peut être valorisée en sélection. Cette valorisation est l objet de la sélection assistée par marqueurs. Le principe général de la sélection assistée par marqueurs est de cumuler les gènes d intérêt agronomique dans un même génotype en les manipulant soit directement soit en agissant sur les locus marqueurs qui leur sont liés. Nous allons maintenant détailler les principales pistes théoriques qui ont été explorées pour optimiser ce cumul. 2 Utilisation des associations gènes / marqueurs en sélection : la Sélection Assistée par Marqueurs (SAM) L utilisation des associations entre QTL et marqueurs en sélection peut être envisagée dans deux cadres différents. Les marqueurs peuvent être utilisés pour augmenter la précision de l estimation des valeurs génétiques des individus candidats à la sélection. Les marqueurs permettent également de suivre les évènements de recombinaisons au cours de croisements dirigés. L information que les marqueurs apportent permet ainsi de diriger le cumul de gènes préalablement cartographiés. Cette démarche est appelée construction de génotypes. 2.1 Utilisation de marqueurs pour prédire la valeur génétique des individus Comme nous l avons vu dans la section 1, il est possible de détecter des associations entre les marqueurs et des QTL. Cette information peut être utilisée pour prédire la valeur génétique des individus. Cependant, une certaine part de la variation du caractère n est pas expliquée par les différences des génotypes aux marqueurs. Les locus impliqués dans la variation non expliquée sont regroupés sous le terme de polygène. Les marqueurs ne fournissent pas forcément une information complète sur la valeur génétique des individus. Pour cette raison, Lande et Thompson (1990) ont proposé d intégrer l information donnée par les marqueurs dans l estimation de la valeur génétique des individus en construisant un XVI
index de sélection prenant en compte conjointement l information phénotypique et l information génotypique disponibles pour chaque individu. Cet index est : ẑ = b 0 y + b 1 s (2) où b 0 et b 1 sont les poids donné respectivement au phénotype et aux marqueurs ; y est le phénotype de l individu ; s est une valeur nommée molecular score qui tient compte du génotype de l individu aux marqueurs et de l effet additif sur le caractère associé à ces marqueurs. Ce molecular score est calculé comme suit : s = i M β i x i (3) où M représente l ensemble des marqueurs associés à un effet additif significatif détecté par régression multiple ; β i est l effet additif associé au marqueur i ; x i est le génotype de l individu au marqueur i. Lande et Thompson (1990) ont utilisé la théorie de la sélection sur index pour montrer que les poids b 0 et b 1 qui maximisent l efficacité de la sélection pouvaient être déterminés par : b 1 /b 0 = (1/h 2 1)/(1 p) (4) où h 2 est l héritabilité du caractère. C est à dire la part de la variance phénotypique due à la variance génétique additive, composée de la variance associée aux marqueurs d effets significatifs et de la variance polygénique ; et p est la part de la variance génétique additive associée aux marqueurs. Lande et Thompson (1990) ont prédit analytiquement que l utilisation de cet index permettait d augmenter l efficacité de la sélection en particulier quand l héritabilité du caractère est faible et que les marqueurs sont associés à une part importante de la variance génétique additive. Cependant, pour des caractères d héritabilité faible, il est difficile de trouver des associations significatives entre variation des génotypes aux marqueurs et variation des phénotypes. Moreau et al. (1998) ont ainsi montré qu il existe en fait une héritabilité intermédiaire optimale pour l efficacité de la SAM. Construction du score aux marqueurs La méthode proposée par Lande et Thompson (1990) pour construire l index de sélection ẑ consiste à sélectionner les marqueurs à utiliser dans le calcul du score aux marqueurs s. Dans leur étude, ils ont proposé de déterminer les effets des marqueurs en effectuant une régression multiple des phénotypes des individus sur le génotype de ces individus aux marqueurs. Ceci permet d associer à chaque marqueur un effet additif sur le caractère considéré. Seuls les marqueurs associés à des effets statistiquement significatifs sont conservés pour le calcul du score aux marqueurs s. Différents auteurs ont cherché à améliorer la méthode de sélection des marqueurs (e.g. Whittaker et al. (1995) ; Whittaker et al. (1997)). Cependant Lange et Whittaker (2001) ont démontré que sélectionner les marqueurs était toujours sub-optimal en particulier parce que cela entraîne une sur-estimation des effets qui leur sont associés. Ces auteurs ont proposé de construire l index de sélection en une seule étape en prenant en compte tous les marqueurs dans le molecular score. Ils ont montré que cette méthode permet un gain important XVII
dans l efficacité de la sélection. Il est intéressant de constater que la meilleure information à prendre en compte dans cette optique est donc donnée par les associations marqueursphénotype et non pas directement les associations QTL-phénotype. La détection précise de la localisation des QTL n est donc pas un pré-requis fondamental pour ce type de sélection assistée par marqueurs. Évaluation des effets des marqueurs Au cours des générations, les recombinaisons modifient les associations entre marqueurs et QTL et donc les effets associés aux marqueurs (Gimelfarb et Lande 1994). Idéalement, les effets associés aux marqueurs doivent donc être réévalués à chaque génération. Ceci fait évidemment perdre de l intérêt à la sélection assistée par marqueurs. Hospital et al. (1997) ont suggéré de réévaluer les effets des marqueurs toutes les 2 ou 3 générations. Ceci permet d alterner des cycles de sélection sur marqueurs seuls et des générations où les individus sont réévalués phénotypiquement et les effets des marqueurs réestimés. Cette alternance est particulièrement intéressante quand le phénotype des individus doit être évalué sur descendance. En effet, les étapes d évaluation phénotypique durent alors typiquement deux générations. L utilisation de cycle de sélection sur marqueurs seuls permet d augmenter le gain génétique par unité de temps. 2.2 Construction de Génotypes : Utilisation de marqueurs pour cumuler des gènes (QTL) dans un même génotype La construction de génotypes est un cas particulier de sélection assistée par marqueurs où les individus ne sont sélectionnés que sur la base de leur génotype : il s agit de sélection sur marqueurs seuls. Dans ce cas, il n y a pas d évaluation phénotypique au cours des générations de sélection ; le but est d obtenir un génotype idéal (idéotype) le plus rapidement possible. La démarche implicite de la construction de génotypes se décompose en deux étapes : 1. Définir l idéotype aux marqueurs. C est à dire le génotype de l individu qui doit sortir du processus de sélection. 2. Déterminer les moyens et les méthodes à mettre en œuvre pour obtenir cet idéotype le plus rapidement possible. La méthode de construction de génotypes la plus courante est le backcross assisté par marqueurs. Le backcross est une méthode de sélection qui a pour but d introgresser un gène issu d un parent appelé donneur dans le fond génétique d un parent receveur. C est une méthode de construction de génotypes qui ne nécessite pas forcément d utiliser les marqueurs pour être mise en place. Cependant, la sélection sur marqueurs permet ici d accélérer le processus de sélection tout en permettant de s assurer de la qualité des individus produits. Les principes d optimisation du backcross assisté par marqueurs sont explicités spécifiquement dans une partie de cette thèse et ne sont par conséquent pas détaillés ici. Le backcross assisté par marqueurs reste cependant un programme utilisé pour manipuler peu de gènes et dont l application principale est l amélioration ponctuelle de variété. XVIII
Lorsque l on désire manipuler beaucoup de QTL pour les cumuler dans un même génotype, le backcross n est pas une méthode de sélection adaptée : d autres méthodes de construction de génotypes doivent être développées. Pour cumuler des QTL détectés dans des populations biparentales, une solution possible consiste à identifier les paires d individus complémentaires pour les allèles favorables à des QTL. En croisant ces individus, il serait alors possible de trouver dans leur descendance des individus cumulant tous les allèles favorables aux QTL présents chez les parents. La figure 1 présente le principe de cette méthode de construction de génotype. A la première étape, les meilleures paires de parents (typiquement des lignées recombinantes (RIL) ou des haploïdes doublés (HD)) sont sélectionnées et croisées pour produire une nouvelle population de lignées. Si l idéotype est trouvé parmi ces lignées, la construction de génotypes est achevée, sinon, le processus est recommencé en sélectionnant à nouveau les meilleures paires de lignées filles. Les cycles de sélection / recroisement sont réitérés jusqu à obtention de l idéotype. Population détection de QTL (RIL, HD) Sélection des meilleurs croisements Production de populations de recombinants (RIL, HD) Oui Contient l'idéotype? Non Fin Fig. 1 Construction de génotypes par sélection récurrente dans des populations de lignées recombinantes ou d haploïdes doublés. Chaque cycle est initié en sélectionnant les paires de lignées de génotypes complémentaires aux QTL. van Berloo et Stam (1998) ont été les premiers à suggérer ce type de schéma pour le cumul de QTL. Ils ont proposé une méthode pour sélectionner les meilleures paires de RIL parmi toutes les paires possibles qui consiste à calculer un index de sélection basé sur le génotype de l hybride F1 obtenu en croisant deux lignées. Cet index est CI = ( ) β i(c) G F 1 (i(c)) (5) c où c est le chromosome considéré i(c) XIX
i(c) est un intervalle du chromosome c contenant un QTL β i(c) est l effet du QTL correspondant à l intervalle i(c) G F 1 (i(c)) est le nombre d allèles favorables de l hybride F1 pour l intervalle i(c) déterminé en fonction du génotype des marqueurs de l intervalle. Cet index est calculé pour chaque paire possible de RIL. Les paires de RIL présentant l index le plus élevé sont alors croisées pour obtenir un génotype cumulant les QTL des deux RIL. La sélection sur l index CI conduit à sélectionner un ensemble de lignées qui est différent de celui obtenu en conservant les lignées ayant les valeurs phénotypiques les plus élevées comme le montre la figure 2. L intérêt des marqueurs est donc ici d identifier les lignées complémentaires pour les gènes impliqués dans les caractères sélectionnés, ce qu il n est pas possible de faire par sélection phénotypique. Fig. 2 Croisements sélectionnés au sein d une population de RIL par A. sélection assistée par marqueurs B. sélection phénotypique. La sélection assistée par marqueurs permet d identifier les couples de RIL complémentaires pour le cumul de QTL. D après van Berloo et Stam (1998) van Berloo et Stam (1998) n ont envisagé qu un seul cycle de sélection de paires de RIL, qui ne permet généralement pas d obtenir l idéotype. En effet pour pouvoir l obtenir par croisement entre deux RIL uniquement, il faut que l hybride F1 porte au moins un allèle favorable à chacun des QTL, ce qui est improbable lorsque le nombre de QTL est élevé. Par ailleurs, même si un tel hybride F1 peut être obtenu, la probabilité d obtenir XX
ensuite l idéotype sans sélection en un seul cycle avec des tailles de population raisonnables est très faible. Pour pallier ces problèmes, Charmet et al. (1999) ont proposé d itérer le processus de sélection / recroisement entre RIL jusqu à obtenir l idéotype. Cependant, dans les deux cas, il faut noter qu aucune sélection n est effectuée dans les descendances des croisements entre les RIL, les nouvelles lignées étant obtenues typiquement par SSD (Single Seed Descent) ou haplo-diploïdisation. Sélectionner directement les descendances obtenues après croisement pourrait permettre d augmenter progressivement la probabilité d obtenir le génotype idéal au cours des générations. C est la démarche de la méthode proposée par Hospital et al. (2000) appelée MBRS (Marker Based Recurrent Selection). La méthode proposée par Hospital et al. (2000) suppose une population reproduite par panmixie au sein de laquelle les individus sont sélectionnés uniquement sur leur génotype aux marqueurs. Pour obtenir leurs résultats, ils ont supposé une population de départ en équilibre de liaison pour les QTL à cumuler. Cependant, leur méthode est applicable à partir de n importe quelle population, comme par exemple une population de RIL. A partir de cette population de départ, certains individus sont sélectionnés comme reproducteurs et sont ensuite intercroisés en panmixie. Au cours des générations suivantes, le processus est itéré, les reproducteurs étant sélectionnés en utilisant une stratégie de complémentation aux QTL (QCS, pour QTL Complementation Strategy). La première étape de la sélection suivant la stratégie QCS est de calculer pour tous les individus de la population un score aux marqueurs. Ce score aux marqueurs est calculé en fonction du génotype de l individu aux marqueurs flanquant les QTL. Les individus pourraient être sélectionnés uniquement sur cette valeur, cependant ceci entraîne une perte des allèles favorables à certains QTL (Hospital et al. (2000)). La stratégie QCS vise à éviter cette perte en s assurant qu au moins n T allèles favorables à chaque QTL sont présents dans la population de reproducteurs, le nombre d allèles favorables portés par un individu étant déterminé par son génotype aux marqueurs flanquant le QTL. Le choix des reproducteurs s opère en déterminant le plus petit sous ensemble d individus tel que le score aux marqueurs soit maximal tout en s assurant qu au moins n T allèles favorables sont présent à chaque QTL. Le nombre de reproducteur minimal, c est-à-dire la plus petite taille possible du sous-ensemble, est un paramètre de la stratégie QCS nommé N 0. Le résultat de la stratégie QCS dépend des nombres N 0 et n T. Dans leur conclusion, Hospital et al. (2000) ont montré qu une valeur de n T de 3 était efficace pour maintenir un taux de fixation des allèles aux QTL assez élevé tout en minimisant le risque de perte de ces QTL. Le nombre minimal de reproducteurs (N 0 ) a moins d influence sur l efficacité de la stratégie QCS et peut être relativement restreint pour assurer un progrès génétique suffisant. Hospital et al. (2000) suggèrent un N 0 de 3. La stratégie QCS permet de fixer en une dizaine de générations les allèles favorables aux marqueurs flanquant 50 QTL en sélectionnant 3 à 5 individus dans une population de 200. Cependant, quand les marqueurs ne sont pas situés directement sur les QTL, il existe une probabilité de perdre les associations marqueurs-qtl du fait des doubles recombinaisons survenues entre les marqueurs. L efficacité de la sélection sur marqueurs est alors réduite et la fréquence des allèles favorables aux QTL est seulement de 92% dans XXI
la population. Dans le cadre de la méthode MBRS, une sélection est effectuée à chaque génération de reproduction pour augmenter progressivement les fréquences alléliques au sein de la population, contrairement aux méthodes proposées par van Berloo et Stam (1998) et Charmet et al. (1999) qui proposaient des cycles de recroisement où la sélection n est effectuée qu après obtention de descendances entièrement homozygotes. La méthode de Hospital et al. (2000) est donc plus souple que les méthodes présentées ci-dessus et permettent de manipuler plus de QTL. Dans la méthode MBRS, les croisements entre reproducteurs sont fait au hasard (panmixie). Certains de ces croisements sont utiles et permettent d obtenir des individus présentant des combinaisons d allèles aux QTL meilleures que leurs parents. En revanche, d autres croisements sont inutiles et doivent réduire l efficacité de la sélection. Pour améliorer l efficacité du cumul des QTL, il faut développer des méthodes permettant de déterminer les meilleurs croisements entre individus. Il serait alors possible de déterminer la méthode de cumul optimale, c est-à-dire la meilleure succession de croisements entre individus permettant le cumul de tous les QTL. Pour l identifier, il faut donc tout d abord pouvoir explorer l espace des solutions possibles. Il est ensuite possible d évaluer l ensemble des solutions possibles et ainsi de trouver la meilleure, par exemple il est alors possible de déterminer la succession de croisement permettant d obtenir l idéotype cumulant tous les gènes d une population donnée minimisant les tailles totales de population à gérer au cours du programme de sélection. L article de Servin et al., inclus dans cette thèse, présente un cadre théorique permettant l exploration de l ensemble de ces solutions et un exemple de recherche du plan de croisement minimisant les tailles totales de population. Cette démarche est très prometteuse pour optimiser les programmes de construction de génotypes. Cependant, la méthode présentée dans Servin et al. est limitée par le nombre de gène qu elle est capable de gérer. En effet, l énumération de tous les programmes de cumul est limitée par le nombre total de solutions possibles, qui croit exponentiellement avec le nombre de QTL à cumuler : l énumération exhaustive de plan de croisement destinés à cumuler plus de 9 gènes n est pas possible du fait du nombre très élevé de solutions possibles. Pour pouvoir traiter plus de gènes, une solution est d effectuer plusieurs programmes de cumul en parallèle et de recumuler les sous-ensemble de gènes dans une deuxième étape. Une autre solution est de développer la théorie existante en optimisant la recherche du meilleur programme de sélection, c est à dire en évitant l énumération de toutes les solutions possibles sans remettre en cause la découverte de la meilleure d entre elles. Des développement théoriques sont donc encore à effectuer à partir du cadre d étude présenté dans Servin et al.. Conclusion et Perspectives Le développement de méthodes efficaces de construction de génotypes permet de limiter les coûts nécessaires à l introgression de gènes dans des fonds génétiques homogènes (Backcross Assisté par Marqueurs) et / ou au cumul de gènes dans un même génotype. L intérêt des génotypes produits par construction de génotypes peut être agronomique ; dans ce XXII
cas, la construction de génotypes est une méthode de création variétale. Ces génotypes peuvent également être produits pour étudier comment les gènes s expriment en fonction du fond génétique dans lequel ils se trouvent et / ou comment les gènes interagissent entre eux (c est-à-dire déterminer les relations d épistasie entre les gènes). Le développement de méthodes de construction de génotypes est donc important pour valoriser les résultats des expériences de détection de QTL et/ou d identification des gènes sous-jacents (voir en particulier les articles de Lecomte et al. (soumis) et Thabuis et al. (soumis) inclus dans cette thèse). Le développement de méthodes de construction de génotypes est basé sur le calcul des probabilités de transmission alléliques au cours d un croisement dirigé. Pour optimiser les croisements entre individus, il faut savoir quelles sont les probabilités que deux parents de génotypes connus transmettent leurs gènes à leurs enfants. La construction de génotypes se situe donc plus dans le cadre de la génétique mendélienne que dans celui de la génétique quantitative. Les probabilités de transmission de gènes peuvent être calculées aisément lorsque un ou deux gènes sont pris en compte ou lorsque les gènes ne sont pas liés génétiquement. Cependant, pour développer des méthodes générales de construction de génotypes il faut pouvoir calculer les probabilités de transmissions de nombreux gènes liés. Le programme MDM (Servin et al. 2002), développé au cours de mon DEA puis de ma thèse, permet d effectuer ces calculs dans des configurations de croisement complexes et a donc été un outil utilisé dans plusieurs de mes travaux. Les études sur la construction de génotypes éxistant avant ma thèse étaient essentiellement destinées à étudier l optimisation du backcross assisté par marqueurs. En effet, cette méthode de sélection est un cas typique de construction de génotypes, qui existait préalablement à la détection de QTL et aux développement de marqueurs moléculaires. Cependant, la sélection sur marqueurs permet d améliorer très significativement les résultats de programme de backcross. J ai donc bien évidemment travaillé sur le backcross assisté par marqueurs pour en étudier l optimisation. La plupart des travaux effectués sur le backcross assisté par marqueurs envisagent l optimisation de certains objectifs de la sélection, pris séparément. Je me suis personnellement intéressé à étudier l estimation de la composition génétique des individus produits par backcross en utilisant les informations données par les marqueurs (Servin et Hospital (2002) ; Servin, in prep.). Dans la partie de cette thèse consacrée aux principes d optimisation du backcross assisté par marqueurs, j ai repris les résultats de ces différentes études pour décrire une démarche d optimisation globale. Ce document montre que le backcross assisté par marqueurs est désormais une méthode de construction de génotypes qui peut être parfaitement optimisée. Cependant, la construction de génotypes ne se limite pas au backcross assisté par marqueurs. En effet, le backcross n est pas une méthode de sélection efficace pour cumuler de nombreux gènes. Nous avons vu dans cette introduction les méthodes théoriques développées pour cumuler plusieurs QTL dans un seul génotype. L inconvénient de ces méthodes est qu elles ne permettent pas de diriger complètement les croisements entre individus. Il s agit d un problème complexe et son étude a nécessité la construction d un nouveau cadre de modélisation des croisements dirigés entre individus. Nous avons travaillé à construire un tel cadre (Servin et al., soumis), et nous l avons utilisé pour déterminer la XXIII
meilleure stratégie de cumul de 8 gènes liés dans un même génotype. Cette étude montre que diriger complètement les croisements entre individus permet de réduire à la fois le temps et le coût nécessaire au cumul de ces 8 gènes en comparaison avec la stratégie MBRS (Hospital et al. 2000) décrite dans cette introduction. Ce cadre théorique doit maintenant être enrichi. Deux pistes principales de recherche peuvent être envisagées pour l améliorer. Tout d abord, il serait nécessaire d optimiser la recherche exhaustive de la meilleure stratégie de cumul par amélioration des algorithmes utilisés dans la méthode. Ceci permettra d augmenter le nombre de gènes pour lequel un résultat optimal peut-être trouvé. Ensuite, il faudrait utiliser les résultats obtenus par l énumération exhaustive de toutes les stratégies possibles pour pouvoir identifier les règles générales d optimisation du cumul de gènes qui permettent de les expliquer. Ces deux pistes de recherche sont liées : si des règles générales d optimisation sont connues, il est alors possible d écrire des algorithmes de recherche beaucoup plus performants (Servin et al. a, in prep.). Références Charmet, G., N. Robert, M. Perretant, G. Gay, P. Sourdille, et al., 1999 Marker-assisted recurrent selection for cumulating additive and interactive QTLs in recombinant inbred lines. Theoretical and Applied Genetics 99 : 1143 1148. Crepieux, S., B. Servin, C. Lebreton, et G. Charmet, IBD-based QTL detection in multi-cross inbred-design : A case study of cereal breeding program. soumis à Genetics. Gallais, A., 1990 Théorie de la sélection en amélioration des plantes. Masson. George, A., P. Visscher, et C. Haley, 2000 Mapping quantitative trait loci in complex pedigrees : a two-step variance component approach. Genetics 156(4) : 2081 92. Gimelfarb, A. et R. Lande, 1994 Simulation of marker assisted selection in hybrid populations. Genet Res 63(1) : 39 47. Haley, C. S. et S. A. Knott, 1992 A simple regression method for mapping quantitative trait loci in line crosses using flanking markers. Heredity 315 324. Hayes, B., P. Visscher, H. McPartlan, et M. Goddard, 2003 Novel multilocus measure of linkage disequilibrium to estimate past effective population size. Genome Res 13(4) : 635 43. Hoeschele, I., P. Uimari, F. Grignola, Q. Zhang, et K. Gage, 1997 Advances in statistical methods to map quantitative trait loci in outbred populations. Genetics 147(3) : 1445 57. Hospital, F., I. Goldringer, et S. Openshaw, 2000 Efficient marker-based recurrent selection for multiple quantitative trait loci. Genetical Research 75 : 357 368. Hospital, F., L. Moreau, F. Lacoudre, A. Charcosset, et A. Gallais, 1997 More on the efficiency of marker assisted selection. Theoretical and Applied Genetics 95 : 1181 1189. XXIV
Jansen, R., 1993 Interval mapping of multiple quantitative trait loci. Genetics 135(1) : 205 11. Jansen, R., J.-L. Jannink, et W. Beavis, 2003 Mapping quantitative trait loci in plant breeding populations : use of parental haplotype sharing. Crop Science 43. 829-834. Kao, C., Z. Zeng, et R. Teasdale, 1999 Multiple interval mapping for quantitative trait loci. Genetics 152(3) : 1203 16. Lande, R. et R. Thompson, 1990 Efficiency of marker-assisted selection in the improvement of quantitative traits. Genetics 124(3) : 743 56. Lander, E. et D. Botstein, 1989 Mapping mendelian factors underlying quantitative traits using RFLP linkage maps. Genetics 121(1) : 185 99. Lange, C. et J. Whittaker, 2001 On prediction of genetic values in marker-assisted selection. Genetics 159(3) : 1375 81. Meuwissen, T. et M. Goddard, 2001 Prediction of identity by descent probabilities from marker-haplotypes. Genet Sel Evol 33(6) : 605 34. Meuwissen, T., B. Hayes, et M. Goddard, 2001 Prediction of total genetic value using genome-wide dense marker maps. Genetics 157(4) : 1819 29. Meuwissen, T., A. Karlsen, S. Lien, I. Olsaker, et M. Goddard, 2002 Fine mapping of a quantitative trait locus for twinning rate using combined linkage and linkage disequilibrium mapping. Genetics 161(1) : 373 9. Moreau, L., A. Charcosset, F. Hospital, et A. Gallais, 1998 Marker-assisted selection efficiency in populations of finite size. Genetics 148(3) : 1353 65. Sax, K., 1923 The association of size difference with seed-coat pattern and pigmentation in Phaseolus vulgaris. Genetics 8 : 552 560. Servin, B., Optimal background selection strategy to fullfill selection objectives n marker-assisted backcrossing. in prep.. Servin, B., C. Dillmann, G. Decoux, et F. Hospital, 2002 Mdm : a program to compute fully informative genotype frequencies in complex breeding schemes. Journal of Heredity 93(3) : 227 228. Servin, B. et F. Hospital, 2002 Optimal positioning of markers to control genetic background in marker-assisted backcrossing. Journal of Heredity 93(3) : 214 217. Servin, B., O. C. Martin, M. Mézard, et F. Hospital, a An optimal algorithm for the optimization of gene cascading. in prep.. Servin, B., O. C. Martin, M. Mézard, et F. Hospital, b Towards a theory of marker assisted gene pyramiding. soumis à Genetics. Terwilliger, J. et K. Weiss, 1998 Linkage disequilibrium mapping of complex disease : fantasy or reality? Curr Opin Biotechnol 9(6) : 578 94. van Berloo, R. et P. Stam, 1998 Marker-assisted selection in autogamous RIL populations : a simulation study. Theoretical and Applied Genetics 96 : 147 154. Weiss, K. et J. Terwilliger, 2000 How many diseases does it take to map a gene with SNPs? Nat Genet 26(2) : 151 7. XXV
Whittaker, J., R. Curnow, C. Haley, et R. Thompson, 1995 Using markermaps in marker-assisted selection. Genet Res 66(3) : 255 65. Whittaker, J., C. Haley, et R. Thompson, 1997 Optimal Weighting of information in marker-assisted selection. Genetical Research 69 : 137 144. Xie, C., D. Gessler, et S. Xu, 1998 Combining different line crosses for mapping quantitative trait loci using the identical by descent-based variance component method. Genetics 149(2) : 1139 46. Zeng, Z., 1994 Precision mapping of quantitative trait loci. Genetics 136(4) : 1457 1468. XXVI