Deuxième partie Calcul de fréquences de génotypes multilocus dans des pédigrees complexes XXVII
Présentation Les programmes informatiques MDM et grafgen L analyse de schémas de construction de génotypes ou de populations en ségrégation produites pour détecter des QTL requiert de pouvoir calculer les probabilités que des parents transmettent à leurs descendants un gamète de génotype donné (ou voulu) à des locus cartographiés. Ces probabilités peuvent être calculées formellement (il est possible d écrire les équations permettant de les calculer) dans le cas où (i) le nombre de locus considéré est faible (typiquement deux), (ii) les génotypes des parents sont parfaitement connus et (iii) un seul mode de reproduction est utilisé pour obtenir les descendants à partir des parents. Par exemple, la plupart des programmes informatiques de détection de QTL ne sont adaptés qu à l analyse de plans de croisements relativement simples, typiquement des populations F 2, BC 1 ou de lignées recombinantes. Cependant, dans la pratique, des plans de croisements plus complexes sont rencontrés par exemple des populations de lignées hautement recombinantes ou des backcross suivis de générations d autofécondation pour fixer à l état homozygote les gènes introgressés. Dans certains plans de croisements, comme par exemple le backcross assisté par marqueurs, les populations sont génotypées à chaque génération. Ainsi, la succession des génotypes des individus durant le plan de croisement sont connus. Ces génotypes apportent de l information sur les évènements de recombinaisons ayant eu lieu au cours du plan de croisement et permettent de calculer avec plus de précision les probabilités de transmission alléliques. Cependant, comme les calculs analytiques qu il faut effectuer pour prendre ce type d information en compte sont très fastidieux, l information sur les génotypes des ancêtres aux générations précédentes n est généralement pas utilisée. Pour pouvoir prendre en compte toute l information aux marqueurs disponible dans des pedigrees complexes, nous avons développé un programme informatique de calcul numérique : MDM (Servin et al., 2002). MDM permet de prendre en compte une très grande part de l information apportée par le génotypage des individus du plan de croisement, tout en sachant s accomoder de génotypes partiellement ou entièrement inconnus. Une des principales applications de MDM est de permettre d estimer avec une grande précision la composition génétique d un individu sur l ensemble de son génome en se basant sur son génotype à des marqueurs et ceux de ses ancêtres. Cette information peut être utilisée pour calculer des mesures synthétiques de la valeur d un individu en sélection (comme par exemple, dans le cadre d un programme de backcross, son taux de retour estimé au parent récurrent). Elle permet également de faire des estimations précises du génotype d un individu dans des régions particulièrement intéressantes de son génome. Pour pouvoir analyser facilement les résultats obtenus grâce aux calculs de MDM, il est pratique d avoir recours à une représentation graphique du génotype d un individu dans ces régions, et c est pourquoi nous avons développé le programme GRAFGEN (Servin et Hospital, soumis). XXIX
Exemples d application Détection de QTL : calcul de probabilité d identité par descendance (Crépieux et al., soumis) Pour pouvoir tester la présence d un QTL en n importe quel point du génome, il est nécessaire de disposer de populations d individus dont les phénotypes sont connus pour les caractères d intérêt et de mettre en relation la valeur du phénotype avec le génotypes des individus aux marqueurs et en dehors des marqueurs. Pour éviter de devoir produire spécifiquement des populations pour la détection de QTL, il serait intéressant d utiliser des populations déjà disponibles, par exemple des populations issues de schémas de sélection phénotypique. Comme ces populations sont composées d individus issus d un schéma de sélection, elles sont généralement de petite taille. Pour obtenir une puissance de détection suffisante, il faut alors considérer non pas une population mais un ensemble de populations interconnectées. Il est intéressant dans ce cas de passer par le calcul de probabilités d identité par descendance entre individus à la position testée pour la présence d un QTL et d effectuer ensuite une analyse statistique par maximum de vraisemblance de modèles mixtes. Crépieux et al. (disponible en Annexe) ont utilisé le programme MDM pour calculer les probabilités de transmission allélique au sein de populations de lignées recombinantes. En utilisant ces probabilités et une mesure des relations de parenté entre parents fondateurs de chacune des populations, il est alors possible de déterminer avec précision la probabilité que deux individus quelconques du dispositif soient identiques par descendance en un point du génome. Ceci permet finalement de détecter des QTL en prenant en compte au mieux l information disponible sur l ensemble du dispositif. Analyse de populations produites par backcross assisté par marqueurs Les articles de Thabuis et al. (soumis) et de Lecomte et al. (soumis), disponibles en Annexe, présentent deux programmes d introgression de QTL assistée par marqueurs. Le programme GRAFGEN a été utilisé dans ces études pour estimer précisemment les taux de retour au parent récurrent des individus obtenus à la fin du processus de sélection. GRAFGEN a également permis de produire les génotypes graphiques de ces individus permettant d observer précisemment la répartition des allèles donneurs toujours présents dans leurs fonds génétiques. Position optimale des marqueurs pour contrôler le fond génétique dans des programmes de backcross assisté par marqueurs Le programme MDM a été utilisé pour effectuer les calculs théoriques présentés dans les articles Servin et Hospital (2002) et Servin (soumis) inclus dans la troisième partie de cette thèse. Ces calculs permettent de déterminer les positions optimales des marqueurs pour contrôler le fonds génétique dans des programmes de backcross assisté par marqueurs. Le détail de ces calculs peut être trouvé dans la troisième partie de cette thèse. XXX
Perspectives Les programmes GRAFGEN et MDM commencent à être utilisés par la communauté de recherche en amélioration des plantes. D après les retours d expérience des utilisateurs qui me sont connus, il semble que ces programmes permettent de répondre à des questions scientifiques pertinentes de manière originale. En dehors des exemples d utilisation présentés dans cette thèse, ces programmes ont été utilisés, à ma connaissance, pour identifier simplement des individus recombinants autour de gènes d intérêt dans des populations produites par backcross (Marie Coque, INRA Ferme du Moulon). estimer le taux de retour au parent récurrent dans des populations produites par backcross (Agnès Bouchez, INRA Mons) visualiser les zones de distorsion de ségrégation dans des populations de cartographie génétique (Fabien Chardon, INRA Ferme du Moulon). visualiser les régions du génome qui ont été affectées par la sélection phénotypique (Marie Foulongne, INRA Bordeaux). A la fin de ma thèse, je pense que l on peut considérer que le développement de ces programmes est achevé. La méthodologie implémentée dans le programme MDM (principalement basée sur les développements théorique de Hospital et al., 1996) pourrait être utilisée dans un domaine plus large que ceux traités par le programme MDM et le programme GRAFGEN. Par exemple, cette méthodologie pourrait être adaptée pour permettre l analyse de schémas de croisement encore plus généraux. En particulier il faudrait pouvoir traiter des schémas de croisement : dans lesquels les parents fondateurs ne sont pas des individus homozygotes au sein desquels les croisements entre paires d individus de génotypes partiellement connus sont utilisés au sein desquels sont effectués des croisements entre individus de générations différentes (pedigree comportant des boucles). Ceci permettrait de pouvoir adapter la méthodologie de MDM dans des pedigrees plus complexes et de la diffuser plus largement, en particulier au sein de la communauté de génétique animale. En effet, dans les schémas de sélection des espèces animales majeures, les cas de figure cités ci-dessus sont fréquemment rencontrés. Ces développements supplémentaires nécessitent cependant de développer de nouveaux programmes informatiques, l architecture du programme MDM ne s y prétant pas de façon optimale. XXXI
XXXII