Développement, utilisation et comparaison de différents types de marqueurs pour étudier la diversité parmi une collection de blé tendre

Documents pareils
Gènes Diffusion - EPIC 2010

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

4. Résultats et discussion

MABioVis. Bio-informatique et la

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Génétique et génomique Pierre Martin

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

La classification automatique de données quantitatives

Plateforme. DArT (Diversity Array Technology) Pierre Mournet

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

Improving the breakdown of the Central Credit Register data by category of enterprises

Data issues in species monitoring: where are the traps?

Introduction au Data-Mining

Cet article s attache tout d abord

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Chapitre 7. Récurrences

Principe de symétrisation pour la construction d un test adaptatif

Filtrage stochastique non linéaire par la théorie de représentation des martingales

FOURTH SESSION : "MRP & CRP"

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Travailler avec les télécommunications

Gestion obligataire passive

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

REFERENTIEL DE CERTIFICATION APPLICABLE AUX SEMENCES :

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

Revision of hen1317-5: Technical improvements

ACIDES BASES. Chap.5 SPIESS

Étude des résultats des investisseurs particuliers sur le trading de CFD et de Forex en France

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Évaluation de la régression bornée

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Disparités entre les cantons dans tous les domaines examinés

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Item 169 : Évaluation thérapeutique et niveau de preuve

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

I. COORDONNÉES PERSONNELLES / PERSONAL DATA

Modèles et simulations informatiques des problèmes de coopération entre agents

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Optimisation du rééchantillonnage dans un logiciel d Amélioration des Plantes

ASSURER LA QUALITE DES RESULTATS D ESSAI ET D ETALONNAGE Assuring the quality of test and calibration results

Big data et sciences du Vivant L'exemple du séquençage haut débit

NORME INTERNATIONALE INTERNATIONAL STANDARD. Dispositifs à semiconducteurs Dispositifs discrets. Semiconductor devices Discrete devices

INSERTION TECHNIQUES FOR JOB SHOP SCHEDULING

INFORM OBLIGATIONS DE PREMIÈRE QUALITÉ ET OBLIGATIONS À HAUT RENDEMENT: AUGMENTER LE RENDEMENT ET DIMINUER LE RISQUE GRÂCE À UNE JUSTE COMBINAISON

Les débats sur l évolution des

Bourses d excellence pour les masters orientés vers la recherche

Conférence technique internationale de la FAO

IDENTITÉ DE L ÉTUDIANT / APPLICANT INFORMATION

A 1 auteur. Captures accessoires par les chalutiers gu~b~cois en 1979

S8 - INFORMATIQUE COMMERCIALE

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

INF6304 Interfaces Intelligentes

ÉVALUATION DE L UTILISABILITÉ D UN SITE WEB : TESTS D UTILISABILITÉ VERSUS ÉVALUATION HEURISTIQUE

Interest Rate for Customs Purposes Regulations. Règlement sur le taux d intérêt aux fins des douanes CONSOLIDATION CODIFICATION

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

Introduction au Data-Mining

L externalisation des activités bancaires en France et en Europe

Natixis Asset Management Response to the European Commission Green Paper on shadow banking

APPENDIX 6 BONUS RING FORMAT

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Laboratory accredited by the French Home Office (official gazette date February 5 th, 1959, modified) Valid five years from August 27 th, 2013

Forthcoming Database

Protocoles pour le suivi des pontes de tortues marines dans le cadre de Protomac. Professeur Marc Girondot

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

Analyse des logiciels d application spécialisée pour le courtage en épargne collective

Modélisation géostatistique des débits le long des cours d eau.

Exemple PLS avec SAS

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

SOMMAIRE INTRODUCTION... 3

données en connaissance et en actions?

Industrial Phd Progam

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Profils verticaux de la couverture nuageuse, de ses propriétés et des aérosols: données du lidar CALIOP et du radar CLOUDSAT (DARDAR) de 2006 à 2012

LIVRE BLANC Décembre 2014

: Machines Production a créé dès 1995, le site internet

Introduction au datamining

Extraction d information des bases de séquences biologiques avec R

Format de l avis d efficience

Introduction aux bases de données: application en biologie

choisir H 1 quand H 0 est vraie - fausse alarme

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

SARM: Simulation of Absorption Refrigeration Machine

Séquence 6. Mais ces espèces pour autant ne sont pas identiques et parfois d ailleurs ne se ressemblent pas vraiment.

Le potentiel phénolique du Cabernet franc

Université de XY University of XY. Faculté XY Faculty of XY

statique J. Bertrand To cite this version: HAL Id: jpa

Mise en place d un réseau d Arboretums pour une valorisation coordonnée des ressources ligneuses ex situ

ADHEFILM : tronçonnage. ADHEFILM : cutting off. ADHECAL : fabrication. ADHECAL : manufacturing.

Actualités sur la sélection des pondeuses Prospections futures. Dr. Matthias Schmutz, Lohmann Tierzucht

ICC août 2015 Original: anglais. L'impact du prix du pétrole et du taux de change du dollar américain sur les prix du café

Transcription:

Les Actes du BRG, 6 (2006) 129-144 BRG, 2006 Article original Développement, utilisation et comparaison de différents types de marqueurs pour étudier la diversité parmi une collection de blé tendre François BALFOURIER (1)*, Catherine RAVEL (1), Anne-Marie BOCHARD (2), Florence EXBRAYAT-VINSON (1), Gilles BOUTET (1), Pierre SOURDILLE (1), Philippe DUFOUR (2), Gilles CHARMET (1) (1) INRA - UMR Amélioration et Santé des Plantes, 234 avenue du Brézet, 63000 Clermont-Ferrand, France (2) Limagrain Agro-Industrie, site ULICE, ZAC les Portes de Riom, BP173, 63204 Riom Cedex, France Abstract: Generation, use and comparison of different molecular markers for diversity analyses in bread wheat collection. In order to determine the interest of different types of molecular markers for genetic diversity analyses, molecular polymorphism was studied in a set of 731 bread wheat accessions using 38 genomic microsatellites (SSRg), 44 EST-derived microsatellites (SSRest) and SNPs from 16 genes. The total of 98 markers covers the whole bread wheat genome. SSRg present the highest level of polymorphism (900 alleles) compared to SSRest and SNPs (183 alleles and 69 haplotypes, respectively). Among SSRest markers, those with dinucleotide repeats are significantly more polymorphic than the others with tri and tetra nucleotide repeats. Whatever markers we consider, no significant difference appears in the level of diversity between the different A, B and D genome of bread wheat. The three genetic matrices distances between pairs of accessions, calculated for each type of markers in a sub-sample of 41 accessions with no missing data, are not significantly different. However, SSRg appear to be more efficient than SSRest to estimate these distances. The two types of microsatellites offer the same capacity to restore the topology of a given hierarchical tree. The three hierarchical trees, obtained from the sub-sample of 41 accessions individually analysed by the three types of markers, show a common topological structure. This structure, which clearly separates the European wheat accessions from the Asian ones, may be both explained by historical process of wheat germplasm migration and selective adaptation to environmental conditions. The whole results are discussed according to the nature and the level of neutrality of the different markers in relation to selection. bread wheat/ genetic structure/ microsatellite/ SNP/ phylogenic tree * Correspondance et tirés à part : balfour@clermont.inra.fr 129

F. Balfourier et al. Résumé : Afin d analyser l intérêt de différents marqueurs moléculaires pour des études de diversité génétique, le polymorphisme a été étudié dans un échantillon de 731 blés tendres à l aide de 38 microsatellites génomiques (SSRg), 44 microsatellites issus d EST (SSRest) et de SNP détectés sur 16 gènes, soit 98 locus également répartis sur le génome. Les SSRg apparaissent comme les plus polymorphes (900 allèles) comparés aux SSRest (183 allèles) et aux SNP (69 haplotypes). Parmi les SSRest, ceux au motif di-nucléotique sont significativement plus polymorphes que les autres. Les matrices de distance génétique, calculées entre paires d accessions pour chaque type de marqueur dans un sous échantillon de 41 accessions, ne sont pas significativement différentes, mais les SSRg s avèrent plus efficaces que les SSRest pour estimer ces distances. Les deux types de microsatellites présentent la même cinétique de reconstruction de la topologie d un arbre donné. Les trois arbres, obtenus à partir du sous échantillon de 41 accessions analysé par les trois types de marqueurs pris individuellement, montrent une structure commune en terme de topologie qui est liée à l origine géographique des accessions. Ces résultats sont discutés en fonction de la nature et du niveau de neutralité des marqueurs vis-à-vis de la sélection. blé tendre/ structuration génétique/ microsatellite/ SNP/ arbre phylogénétique 1. INTRODUCTION L analyse des variations de séquence de l ADN est aujourd hui abondamment exploitée pour la cartographie génétique, l étiquetage de gènes ou encore l analyse de populations (analyse de diversité génétique, étude d évolution, ). De nombreux marqueurs moléculaires tels que les RFLP (Restriction Fragment Length polymorphism), les RAPD (Random Amplified Polymorphic DNA), les AFLP (Amplified Fragment Length polymorphism ) ou encore les SSR (Simple Sequence Repeat) ont été récemment utilisés pour conduire ce dernier type d analyse chez le blé tendre [13], [18], [21]. Parmi ces marqueurs, les microsatellites ou SSR sont réputés être les plus performants pour des analyses de diversité dans de vastes collections de ressources génétiques. Ce sont des séquences de quelques nucléotides (1 à 6) répétées en tandem, abondamment dispersées à travers tout le génome, multi-alléliques, co-dominantes et facilement amplifiables par PCR (Polymorphism Chain Reaction). Parmi ceux-ci, on distingue les SSR génomiques (SSRg), issus de banques enrichies en ADN génomique, des SSR développés à partir d EST (Expressed Sequence Tag) représentant les régions exprimées du génome (SSRest). Il a été démontré qu environ 10 % des contigs d EST de blé contiennent un microsatellite [9]. De par leur origine, les SSRg sont supposés présenter une neutralité plus importante vis-à-vis de la sélection que les SSRest possédant potentiellement une valeur sélective non nulle. Plus récemment, un nouveau type de marqueurs basés sur des changements ponctuels d une base dans une séquence donnée et appelés SNP (Single 130

Comparaison de marqueurs chez le blé tendre Nucleotide Polymorphism) a été développé. Ces marqueurs sont général e- ment bi-alléliques et permettent d appréhender des variations de gènes impliqués dans le contrôle de caractères d intérêts. Plusieurs études ont contr i- bué à la mise en évidence de SNP soit par séquençage de gènes sur collection [2], [11], soit par bioanalyse de séquences d EST regroupées en contigs et issues des bases de données [17]. Jusqu à présent, la recherche systémat i- que de SNP chez le blé a été conduite sur une cinquantaine de gènes env i- ron, ce qui a permis de mener quelques travaux de cartographie génétique et des études de génétique d association [3], [12]. Néanmoins, ces marqueurs, qui à l instar des SSRest révèlent un polymorphisme dans des gènes d intérêts, n ont encore jamais été utilisés à grande échelle pour décrire la diversité parmi de larges collections de ressources génétiques et analyser la façon dont ils peuvent structurer cette diversité. Dans l étude présentée ici, nous avons évalué la diversité génétique d un large échantillon de blé tendre déjà décrit pour un jeu de microsatellites g é- nomiques (SSRg), en utilisant un second jeu des microsatellites issus cette fois d EST (SSRest) ainsi qu un panel de SNP développés par ailleurs. Le but est d analyser l intérêt de ces types de marqueurs pour des études de diversité en comparant les différents niveaux de polymorphismes neutres et sélectionnés qu ils révèlent, ainsi que la façon dont ils permettent individuellement de structurer la diversité parmi les collections de ressources génétiques. En effet, pour une conservation optimale (non biaisée) de la diversité dans les collections il peut être préférable de se baser à priori sur la diversité neutre. Cependant, le développement récent de nouveaux marqueurs issus de parties codantes (SSRest, SNP) et destinés au départ plutôt à la recherche de gènes candidats ou d associations, doit nous amener à nous interroger aussi sur leur int é- rêt pour décrire, structurer et donc potentiellement servir de base dans des méthodes d optimisation pour la conservation de la diversité. L objet de cet article est de tenter de répondre à certaines de ces questions. 2. MATÉRIEL ET MÉTHODES 2.1. Choix du matériel d étude Un échantillon de 731 accessions de blé tendre, issues de la collection INRA conservées à Clermont-Ferrand, a été utilisé pour cette étude. Cet échantillon, composé de variétés de pays et de lignées fixées issues de plus de 60 origines géographiques différentes, a été choisi parmi plus de 4 000 blés de la collection globale de manière à contenir la totalité des allèles microsatellites observés à l aide d un jeu de SSRg [13]. Il a en outre été choisi de façon à représenter un optimum de la diversité en terme d origine géo- 131

F. Balfourier et al. graphique et de périodes décennales d inscription au catalogue (lignées) ou de culture (variétés de pays) entre les années 1840 et 2000. L extraction d ADN a été réalisée à partir de plantules issues de semences de plantes autofécondées. Les feuilles de cinq à six plantes par accessions ont été mélangées, puis broyées avant d en extraire l ADN en mélange selon la méthode d extraction au métabisulfite [13]. 2.2. Microsatellites Le jeu de SSRg considéré pour la présente étude correspond à celui utilisé précédemment pour décrire la collection globale de 4 000 blés [13], [14], [15]. Il s agit d un jeu de 37 SSRg donnant 38 loci polymorphes. Ces microsatellites ont été choisis selon leur répartition sur le génome (locus gwm et cfd sur fig. 1). Ce sont en majorité des microsatellites à motif dinucléotidique parfait. gpw7072 cfe167 gwm135 gwm11 gwm413 gpw7082 gwm337 gwm372 gwm312 gpw7438 gwm257 Gogat cfe68 gpw7325 gwm261 cfe78 gwm120 gwm539 cfe175 gwm480 BPGIPBM gwm664 gwm99 gpw7577 gpw7570 gwm642 cfe52 gpw7213 GaMyb cfe189 Aap Glu gpw7443 Glu gpw7335 1A 1B 1D 2A 2B 2D 3A 3B 3D gwm234 gwm469 cfe8 cfe273 gwm190 cfe214 cfd71 gpw7795 gpw7218 Pin B gwm325 gwm415 gpw7592 gwm610 gwm626 gpw7241 cfd71 Pbf Pbf Pbf gpw7574 gwm186 Gdh cfe300 gwm149 cfe186 cfe95 Gdh cfe301 gpw7666 Gdh gpw7425 gpw7107 gpw7384 gwm251 gwm408 gwm272 gwm427 gwm219 gpw7433 4A 4B 4D 5A 5B 5D 6A 6B 6D gwm46 gpw7288 gpw7185 gwm260 gpw7320 gpw7342 gwm400 gwm044 cfe135 Sal1 Sal1 gwm437 cfe248 gpw7596 Sal1 gpw7386 7A 7B 7D gwm2 gpw7553 gpw7452 gwm341 gwm566 cfe172 gpw7586 Figure 1 : Assignation des différents marqueurs aux différents bras chromosomiques du génome du blé tendre (SSRg, SSRest, gènes). Près de 1 200 SSRest ont été développés ces dernières années au sein du laboratoire INRA de Clermont-Ferrand (885 gpw [9] ; 301 cfe [22]). Les conditions d exploitation de ceux-ci sont décrites dans la base de données Graingenes (http://wheat.pw.usda.gov). Pour notre étude, nous avons s é- lectionné 44 SSRest selon des critères de position sur le génome (compl é- mentaire au jeu de SSRg), de type de motif (di-, tri- ou tétranucléotides) et 132

Comparaison de marqueurs chez le blé tendre de facilité de lecture, de façon à couvrir in fine la totalité du génome avec autant que possible quatre microsatellites par chromosome (2 SSRg + 2 SSRest) (locus gpw et cfe sur fig. 1). Les conditions d amplification PCR et de lecture des allèles ont été celles décrites par Roussel et al. [14]. Les opérations de génotypage des microsatellites ont été réalisées sur la plate-forme de génotypage haut-débit INRA de Clermont-Ferrand. 2.3. SNP Les gènes étudiés concernent : le métabolisme azoté (AAP, Amino Acid Permease ; 2,3 BPGIPGM, 2,3 BiphosphoGlycerate Independant Phosphoglycerate Mutase; GDH, Glutamate-deshydrogenase; Gogat, glutamate synthase), la synthèse de protéines de réserve (Glu-A3 et Glu-D1-1, codant respectivement pour des gluténines de faible et de haut poids moléculaires), deux facteurs régulant l expression de gènes codants pour les protéines de réserve (wpbf et Gamyb), la dureté (PinB) et le nombre de couches d aleurone (Sal1, Super Aleurone Layer). Des SNP ont été détectés au sein de ces gènes par séquençage direct d un sous-échantillon de 42 lignées représentatives de la diversité dans le blé tendre (13 kb séquencées par lignée). Les informations nécessaires à l utilisation de ces SNP seront accessibles dans la base de SNP développée par l Unité de Recherche Génomique et Informatique (INRA, Evry) sur le site genoplante-info.infobiogen.fr. En tenant compte des copies homéologues, les gènes étudiés correspondent à 16 locus (fig. 1). Le génotypage des SNP candidats a été réalisé à l'aide de la technologie MassArray (Sequenom Inc., San Diego, CA). Après une amplification PCR, les produits issus de l'extension d'amorce ont été analysés par spe ctrométrie de masse MALDI-TOF. 2.4. Analyse des données La comparaison entre les trois types de marqueurs a tout d abord été réalisée à l aide d indices de diversité simples que sont le nombre de locus polymorphes, la richesse allélique (ou nombre d allèles) et la valeur PIC (Polymorphism Information Content = indice de diversité de Nei), indices calculés par locus, sur l ensemble des 731 individus. Les moyennes de ces indices ont été comparées à l aide d un test non paramétrique de Mann Whitney. Dans un second temps, l aptitude des différents marqueurs à structurer la diversité a été comparée par calcul de la distance génétique de Sokal et Michener entre paires d accessions pour les trois types de marqueurs (SSRg, SSRest 133

F. Balfourier et al. et SNP). Cette distance est définie dans Perrier et al. [10] comme étant égale à 1-P, où P est la proportion d allèles communs aux deux accessions. Les matrices de distances ont d abord été comparées deux à deux par le test de Mantel [8]. Puis elles ont permis de construire des arbres de classification hiérarchique selon la méthode du Neighbor-Joining [16]. Les coefficients de corrélation de Pearson entre ces matrices de distances prises deux à deux, puis entre les matrices de topologie caractérisant la structure de ch a- que arbre, ont également été calculés. Ces coefficients de corrélation ont été comparés deux à deux par la méthode de Lapointe et Legendre [7]. Enfin, les trois arbres obtenus ont été comparés deux à deux selon la méthode du MAST (Maximum Agreement Sub-Tree). Cette méthode repose sur l identification des accessions qui présentent une structuration commune dans chacun des deux arbres. On recherche l échantillon d accessions de taille maximale qui donne la même structure dans les deux arbres comparés ; ces accessions forment alors le MAST. La recherche de cet échantillon fait appel à un algorithme développé par Kubicka et al. [6] et proposé dans le logiciel DARwin [10]. Dans ce cas, le nombre d unités conservées dans le MAST, appelé l ordre «o» est considéré comme une mesure de ressemblance entre les deux arbres. La distribution statistique de ce critère «o» sous l hypothèse d indépendance des arbres n est pas connue mais a été approchée par simulation. Compte tenu de la taille des matrices et des arbres à manipuler, ces calculs ont été réalisés sur un échantillon plus restreint de 41 blés correspondant aux accessions ne présentant aucune donnée manquante, échantillon néanmoins bien représentatif des différentes origines géographiques prése n- tes dans les 731 accessions. 3. RÉSULTATS 3.1. Capacité des différents marqueurs à exprimer du polymorphisme Avec un total de 900 allèles, calculé sur l ensemble des 731 individus, les SSRg apparaissent de loin les marqueurs les plus polymorphes, co mparés aux SSRest (183 allèles) et aux SNP (69 haplotypes) (tabl. I); le nombre d allèles par locus varie ainsi de 7 à 45 pour les SSRg et seulement de 1 à 14 pour les SSRest, tandis que le nombre d haplotypes par locus étudié pour les SNP varie de 2 à 11 dans notre échantillon (un haplotype correspondant ici à la combinaison de différents SNP au même locus). Neuf locus SSRest apparaissent ici non polymorphes. Ramenés aux seuls locus polymorphes, les calculs du nombre moyen d allèles et de la valeur PIC moyenne indiquent 134

Comparaison de marqueurs chez le blé tendre clairement que les SSRg sont signif icativement plus polymorphes (p < 0,0001), tandis que SSRest et SNP présentent un même niveau de polymorphisme. Tableau I : Indices de diversité, par type de marqueurs, calculés à partir des 731 individus. Type de marqueurs Nombre d allèles (SSRs) ou d haplotypes (SNPs) Nbre. de locus Nbre. moyen d allele/locus Valeur PIC moyenne/locus total mini-maxi polymorphes polymorphes polymorphes 38 SSRg 900 7-45 38 23,68 0,771 44 SSRest 183 1-14 35 4,97 0,346 16 gènes 69 2-11 16 4,31 0,353 L analyse de la valeur PIC, moyennée par type de marqueur et par génome du blé tendre (tabl. II) confirme le niveau significativement plus élevé de diversité pour les SSRg et ce quel que soit le génome considéré, tandis que les SSRest et SNP ne semblent pas significativement différents dans notre échantillon. Enfin, que l on considère les marqueurs indépendamment ou en totalité, sans doute compte tenu de nos effectifs en locus, il n apparaît pas ici de différence significative de niveau de diversité entre les génomes A, B ou D. Tableau II : Indices de diversité par type de marqueurs et par génomes. Type de marqueur Nbre. locus poly. Genome A Genome B Genome D Valeur PIC Nbre. Valeur PIC Nbre. moyenne locus moyenne locus Valeur PIC moyenne poly. poly. SSRg 12 0,731 13 0,803 13 0,775 SSRest 13 0,416 12 0,388 10 0,205 SNP 4 0,421 6 0,463 6 0,196 total/genome 29 0,547 31 0,577 29 0,459 L analyse du niveau de polymorphisme des SSRest en fonction de leur motif de base (tabl. III) indique que les SSRest au motif di-nucléotidique sont significativement plus polymorphes (p<0.0012) que les tri- et tétranucléotidiques. Par ailleurs, sept parmi les neuf SSRest non polymorphes ont des motifs tri-nucléotidiques. Ainsi, il semble que le niveau global de polymorphisme d un SSRest décroisse avec la taille de son motif de base. Tableau III : Valeur PIC moyenne en fonction du motif microsatellite des SSRest. Motif microsatellite Di-nucléotidique Tri-nucléotidique Tétra-nucléotidique Nbre. locus total 15 24 5 Nbre locus polymorphes 14 17 4 Valeur PIC moyenne 0,532 0,224 0,220 135

F. Balfourier et al. 3.2. Efficacité des marqueurs à estimer une distance génétique entre paire d accessions La distance génétique moyenne de Sokal et Michener entre paires d accessions est plus faible lorsqu elle est basée sur les SSRg (0,167) que lorsqu elle est calculée sur les SSRest (0,242) ou les SNP (0,267). Global e- ment, les différents tests de Mantel effectués montrent que les matrices de distances obtenues pour chaque type de marqueurs (SSRg, SSRest et SNP) ne sont pas significativement différentes au seuil de 1 %. Figure 2 : Évolution du coefficient de variation moyen de la distance génétique mesurée entre paires d accessions, en fonction du nombre de marqueurs utilisés. 136

Comparaison de marqueurs chez le blé tendre La figure 2 représente l évolution du coefficient de variation (CV) moyen de la distance génétique mesurée entre paires d accessions, en fonction du nombre de microsatellites utilisés, et ce pour les deux types de marqueurs microsatellites. Chaque point a été calculé à partir de 200 matrices de distance 41x41 obtenues par bootstraps sur les marqueurs. À effectif identique en marqueurs, on observe la moindre efficacité des SSRest par rapport aux SSRg ; ainsi, la figure 2 montre que le seuil de 10 % pour le CV sur la distance génétique entre paires d accessions serait atteint en utilisant une cinquantaine de marqueurs SSRg, tandis qu il faudrait plus d une centaine de SSRest pour atteindre ce même seuil. Les coefficients de corrélation de Pearson calculés deux à deux entre les trois matrices de distance, obtenues selon les trois types de marqueurs, sont indiqués dans le tableau IV (partie sous la diagonale). Ces trois coefficients sont significatifs au seuil de 1 %, c'est-à-dire supérieurs à la corrélation attendue avec une matrice de distance permutée au hasard. On observe que la corrélation la plus forte apparaît entre SSRg et SSRest, alors qu elle est la plus faible entre SSRg et SNP. Tableau IV : Coefficients de corrélation entre matrices de topologie (au dessus de la diagonale) et matrices de distance (en dessous de la diagonale) selon les différents types de marqueurs. Matrice SSRg Matrice SSRest Matrice SNP Matrice SSRg 0,520** 0,379** Matrice SSRest 0,417** 0,421** Matrice SNP 0,301** 0,322** 3.3. Efficacité des marqueurs à structurer la diversité Dans un premier temps, nous avons comparé la façon dont les deux types de SSR permettaient d obtenir un arbre de structure donnée, appelé ici arbre de référence. Nous avons considéré comme arbre de référence l arbre global obtenu sur les 41 individus avec la totalité des marqueurs SSR polymorphes (soit 30 et 38 pour les SSRest et les SSRg, respectivement). La figure 3 représente, pour les deux types de microsatellites, la distribution (sous forme de boxplots) de la valeur de l ordre o du MAST obtenue en comparant des arbres réalisés avec un nombre croissant de marqueurs, à l arbre de référence. Afin d avoir une idée de la distribution de o, quinze tirages sans remise ont été effectués pour chaque quantité de microsatellites utilisée. La valeur moyenne de o obtenue pour un tirage de cinq microsatellites apparaît significative au seuil de 5 % pour les deux types de marqueurs, ce qui signifie que l arbre obtenu avec cinq marqueurs présente une ressemblance non liée au hasard avec son arbre de référence. Par ailleurs, nous constatons qu une même proportion de marqueurs conduit, pour chaque type de microsatellites, à une valeur iden- 137

F. Balfourier et al. tique de l ordre o ; la cinétique de reconstruction de l arbre de référence est donc identique pour les deux types de SSR. Enfin, nous observons que la valeur de l ordre o n est en moyenne que d environ 28 accessions pour respectivement 37 SSRg et 29 SSRest, comparée aux 41 accessions des arbres de référence. Nous constatons ici combien l apport d un dernier marqueur su p- plémentaire vient encore modifier les structures des arbres, ce qui traduit le fait qu il faudrait sans doute beaucoup plus de marqueurs, dans le cas de notre échantillon de blé, pour stabiliser la structure des arbres. Figure 3 : Distribution (sous forme de boxplots) et pour les deux types de marqueurs, de la valeur de l ordre o du MAST obtenue en comparant des arbres réalisés avec un nombre croissant de marqueurs, à l arbre de référence. 138

Comparaison de marqueurs chez le blé tendre Enfin la figure 4 représente les arbres de référence obtenus à partir des trois matrices de distance, selon les différents marqueurs. Les trois types de marqueurs permettent de différencier chacune des accessions les unes des autres. Le label utilisé pour caractériser les 41 accessions correspond ici au pays d origine de l accession (Iso3166), suivi éventuellement d un numéro d identification dans le pays considéré. Les coefficients de corrélation, calculés à partir des matrices de topologie de ces trois arbres, sont présentés dans le tableau IV (au dessus de la diagonale). Ces trois coefficients sont significatifs au seuil de 1 %, ce qui indique que les ressemblances topologiques de ces trois arbres, pris deux-à-deux, ne sont pas dues au hasard. Une fois encore la corrélation la plus forte est trouvée entre SSRg et SSRest, la plus faible étant entre SSRg et SNP. Sur la figure 4, compte tenu des échelles différentes de distances entre n uds, l arbre SSRg apparaît comme le plus compact. À un niveau élevé de coupure de l arbre, il permet de distinguer clairement deux classes : la classe de droite (E) regroupe uniquement des accessions provenant d Europe (FRA, DEU, GBR, BEL, NOR, ) et d Amérique du Nord, à l exception de l accessions AFG-2 provenant d Afghanistan. La classe de gauche (A), regroupe quant à elle une majorité d accessions issues d Asie (AFG, CHN, IND, JPN, NPL,..) d Afrique (DZA, MAR) et d Amérique du Sud (ARG, COL, CHL), en plus de quelques accessions européennes. Nous retrouvons ici la structuration en deux grands pools de materiel : le pool des blés européens (E), comprenant également les blés d Amérique du Nord et le pool des blés asiatiques (A) auxquels sont rattachés les blés issus de la révolution verte utilisés en Afrique et en Amérique du Sud. Cette structure forte en deux grandes classes se r e- trouve presque à l identique aussi bien dans l arbre issu des SSRest que dans celui issu des SNP. Par contre à l intérieur de ces deux classes, à un niveau plus faible de coupure de l arbre, il n est pas possible de mettre en évidence, dans notre échantillon, des structures ou regroupements vraiment stables d un arbre à l autre. 139

F. Balfourier et al. A E A E A E Figure 4 : Arbres de référence des 41 accessions de blé tendre, obtenus selon les trois types de marqueurs. 140

Comparaison de marqueurs chez le blé tendre 4. DISCUSSION 4.1. Détection du polymorphisme A notre connaissance, c est la première fois qu est rapportée une telle étude de diversité, menée sur un échantillon aussi large de blé tendre à l aide de marqueurs nouvellement développés comme les SSRest et surtout les SNP. La mise en évidence d un plus haut niveau de polymorphisme des SSRg par rapport aux SSRest (tabl. I) va dans le sens de résultats déjà publiés à propos des caractéristiques des marqueurs microsatellites issus d EST [1], [4]. Cette différence pourrait peut-être s expliquer par des taux de mutations différents pour ces deux types de microsatellites ; on sait en effet que les SSRg présentent de forts taux de mutation [19] qui sont probablement plus élevés que ceux des SSRest. Elle est sans doute aussi explicable par la nature même des SSRest qui sont issus de séquences exprimées, donc certainement plus conservées que les zones du génome dont proviennent les SSRg. Cette origine des SSRest expliquerait également qu ils présentent un niveau de polymorphisme équivalent à celui des SNP. Les SSRg au motif dinucléotidique sont connus pour être d une façon générale plus polymorphes, probablement parce que le nombre de répétitions de leur motif de base est plus grand. Il est cependant surprenant d observer ce même résultat chez les SSRest (tabl. III) puisque l ajout ou le retrait d un tel motif perturbe automatiquement le cadre de lecture. Nous n avons pas vérifié la localisation exacte (5 UTR, 3 UTR ou partie codante) de ce jeu précis de SSRest dans les séquences, mais ceci peut être fait à partir de la base Graingenes. Les résultats de Varshney et al. [20] selon lesquels les régions 3 UTR révèlent le plus de polymorphisme n ont pu donc être vérifiés. Cependant, d après les résultats de Nicot et al. [9] travaillant sur un échantillon plus large de marqueurs SSRest dont est issu notre jeu, il y avait la même proportion de marqueurs issus de chacune des trois régions. 4.2. Distances génétiques et matrices de distances Les plus fortes moyennes de distances génétiques observées pour les SSRest et les SNP, par rapport aux SSRg, sont sans doute liées au nombre de marqueurs utilisés. Toutes les comparaisons effectuées entre matrices de distance montrent que les différents marqueurs conduisent globalement à des structures identiques entre accessions (tabl. IV). Les tests, par ailleurs peu puissants, ne pe r- mettent donc pas de rendre compte de la nature différente des marqueurs. La valeur relative des corrélations entres les trois types de matrice rend sans doute mieux compte de ce phénomène. En effet, la corrélation la plus forte est trouvée entre les deux marqueurs de types microsatellites, la plus faible 141

F. Balfourier et al. étant entre SSRg et SNP : ceci peut sans doute s expliquer par le niveau de neutralité des marqueurs vis-à-vis de la sélection. Par ailleurs, la moindre efficacité des SSRest à estimer une distance génétique avec précision (fig. 2) s explique probablement par le plus faible polymorphisme de ces marqueurs, comparés aux SSRg. Vu le faible nombre de marqueurs SNP (16) la même analyse statistique du CV n a pu être conduite pour ces marqueurs mais il est vraisemblable qu ils auraient, du fait du faible nombre d haplotypes, conduits à des résultats similaires aux SSRest. 4.3. Matrices de topologie et reconstruction d arbres L étude de la cinétique de reconstruction des arbres de référence (fig. 3) ne permet pas de mettre en évidence des différences entre les deux types de SSR. Dans les deux cas, les arbres restent très instables jusqu au dern ier marqueur introduit. Ce résultat est assez surprenant ; il doit être lié à la nature de notre échantillon d accessions de blé tendre. En effet, celui-ci est constitué, par construction, d accessions très diversifiées, appartenant toutes à la même espèce et en même temps non récemment apparentées. Il faudrait sans doute beaucoup plus de marqueurs pour conduire à des structures d arbre plus stables. Peu d études ont, jusqu à présent, eu pour objet de comparer des arbres de diversité génétique obtenus par les différents marqueurs utilisés ici. Une étude de pedigrees menée sur sept orges à l aide de SSRest et de SNP [5] montre que les deux types de marqueurs conduisent à des résultats similaires mais non identiques. Il existe diverses méthodes de comparaisons d arbres [10]. Ainsi, par exemple, les méthodes consensus supposent que toutes les accessions d un arbre soient correctement représentées, c'est-à-dire que leurs n uds d embranchement présentent de fortes valeurs de bootstraps. Dans les méthodes consensus, toutes les accessions ont le même poids ; les quelques unes au comportement plus erratique peuvent alors masquer une stru c- ture commune. Dans notre étude, les valeurs (non représentées) des bootstraps sont faibles à cause de la nature même de l échantillon et du nombre de marqueurs utilisés. Cependant les trois arbres de la figure 4 semblent avoir globalement une structure commune, excepté pour quelques accessions. C est pourquoi nous avons utilisé d autres approches de comparaison comme les méthodes purement topologiques qui ne tiennent pas compte de la longueur des branches ou la méthode du MAST qui permet d éliminer les accessions les plus fluctuantes pour mettre en évidence une structure co m- mune. Ici, la structure commune aux trois arbres est celle liée à l origine géographique des accessions, structure larg ement décrite par Roussel [13] et qui sépare grossièrement le pool des blés «européens» de celui des blés «asiatiques». Cette structure, d origine démographique et évolutive, qui 142

Comparaison de marqueurs chez le blé tendre reflète des phénomènes historiques de migration du blé, doit être une structure forte puisqu elle se rencontre avec les trois types de marqueurs pourtant très différents du point de vue de leur neutralité. Par contre, dans cet écha n- tillon, on ne retrouve pas de structure géographique plus fine comme cela a pu être mis en évidence par exemple à l intérieur du pool européen [15]. Ainsi donc, cette étude met en évidence l intérêt de nouveaux marqueurs comme les SSRest et surtout les SNP pour des analyses de diversité génétique. Comparés aux microsatellites génomiques, ces nouveaux marqueurs, par déf i- nition plus soumis à la sélection, conduisent à des regroupements d accessions similaires. Cependant, le niveau des structures observé reste assez grossier. Pour obtenir, dans un échantillon d accessions aussi diversifié, une plus grande robustesse des arbres et donc une définition plus fine de la structur a- tion observée, cette étude nous suggère qu un plus grand nombre de ces trois marqueurs devrait être utilisé, éventuellement en co mbinaison, puisque les structures qu ils génèrent ne semblent pas incompatibles. RÉFÉRENCES [1] Eujayl I., Sorrells M.E., Baum M., Wolters P., Powell W., Isolation of ESTderived microsatellite markers for genotyping the A and B genomes of wheat, Theor. Appl. Genet. 104 (2002) 399-407. [2] Giroux M.J., Morris C.F., A glycine to serine change in puroindoline b is associated with wheat grain hardness and low levels of starch-surface friabilin, Theor. Appl. Gent. 95 (1997) 857-864. [3] Guillaumie S., Charmet G., Linossier L., Torney V., Robert N., Ravel C., Colocation between a gene encoding for the bzip factor SPA and an eqtl for a high- molecular-weight glutenin subunit in wheat (Triticum aestivum), Genome 47 (2004) 705-713. [4] Gupta P.K., Rustgi S., Sharma S., Singh R., Kumar N., Balyan H.S., Transferable EST-SSR markers for the study of polymorphism and genetic diversity in bread wheat, Theor. Appl Genet. 270 (2003) 315-323. [5] Kota R., Varshney R.K., Thiel T., Dehmer K.J., Graner A., Generation and comparison of EST-derived SSRs and SNPs in barley (Hordeum vulgare L.), Hereditas 135 (2001) 145-151. [6] Kubika E., Kubiki G., Mc Morris F.R., An algorithm to find agreement subtrees, Journal of Classification, 12 (1995) 91-99. [7] Lapointe F.J., Legendre P., Statistical significance of the matrix correlation coefficient for comparing independent phylogenetic trees, Syst. Biol. 41 (1992) 378-384. [8] Mantel N., The detection of disease clustering and a generalized regression approach, Cancer. Res. 27(1967) 209-220. [9] Nicot N., Chiquet V., Gandon B., Amilhat L., Legeai F., Leroy F., Bernard M., Sourdille P., Study of simple sequence repeat (SSR) markers from wheat expressed sequence tags (ESTs),. Theor. Appl. Genet. 109 (2004) 800-805. 143

F. Balfourier et al. [10] Perrier X., Flori A., Bonnot F., Data analysis methods, in: Hamon P., Seguin M., Perrier X., Glaszmann J.C. (eds.), Genetic diversity of cultivated tropical plants. Enfield, Science Publishers. Montpellier, 2003, pp. 43-76. [11] Ravel C., Praud S., Canaguier A., Dufour P., Giancola S., Balfourier F., Chalhoub B., Brunel D., Linossier L., Dardevet M., Beckert M., Rousset M., Murigneux A., Charmet G., DNA sequence polymorphism and their application in bread wheat, in: Vollmann J., Grausgruber H., Ruckenbauer P. (eds) Genetic variation for plant breeding, Eucarpia, Tulln, Austria, 2004, pp. 177-181. [12] Ravel C., Praud S., Murigneux A., Linossier L., Dardevet M., Balfourier F., Dufour P., Brunel D., Charmet G., Identification of Glu-B1-1 as a candidate gene for the quantity of high-molecular-weight glutenin in bread wheat (Triticum aestivum L.) by means of an association study, Theor. Appl. Genet. 112 (2005) 738-743. [13] Roussel V., Analyse de la diversité et de la structuration génétique d une collection de blés tendres (Triticum aestivum) à l aide de marqueurs agromorphologiques, biochimiques et moléculaires, Thèse de doctorat de l ENSAR, 2005, 127p. [14] Roussel V., Koenig J., Beckert M., Balfourier F., Molecular diversity in French bread wheat accessions related to temporal trends and breeding programmes, Theor. Appl. Genet. 108 (2004) 920-930. [15] Roussel V., Leisova L., Exbrayat F., Stehno Z., Balfourier F., SSR allelic diversity changes in 480 European bread wheat varieties released from 1840 to 2000, Theor. Appl. Genet. 111 (2005) 162-170. [16] Saitou N., Nei M., The neighbor-joining method: a new method for reconstructing phylogenetic tree, Mol. Biol. Evol. 4(4) (1987) 406-425. [17] Somers D.J., Kirkpatrick R., Moniwa M., Walsh A., Mining single-nucleotid polymorphisms from hexaploid wheat ESTs, Genome 49 (2003) 431-437. [18] Strelchenko P., Street K., Mitrofanova O., Mackay M., Balfourier F., Genetic diversity among hexaploid wheat landraces with different geographical origins revealed by microsatellites: comparison with AFLP, and RAPD data, in: Proccedings of 4th Int. Cropscience Congress, Brisbane, Australia 26 Sep 1 Oct 2004 ISBN 1 920842 20 9. [19] Thuillet A.C., Bru D., David J.L., Roumet P., Santoni S., Sourdille P., Bataillon T.,Estimation of mutation rate for 10 microsatellite loci in Durum wheat, Triticum turgidum (L.) Thell. ssp Durum Desf., Mol Biol Evol 19 (2002) 122-125. [20] Varshney R.K., Graner A., Sorrells M.E., Genic microsatellite markers in plants: features and applications. Trends in Biotechnology. 23 (2005) 48-55. [21] Ward R.W., Yang Z.L., Kim H.S., Yen C., Comparative analysis of RFLP diversity in landraces of Triticum aestivum and collections of T. tauschii from China and Southwest Asia. Theor. Appl. Genet. 96 (1998) 312-318. [22] Zhang L.Y., Bernard M., Leroy P., Feuillet C., Sourdille P., High transferability of bread wheat EST- derived SSRs to other cereals. Theor. Appl. Genet. 111 (2005) 677-687. 144