GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010 Analyse de la diversité moléculaire des régions génomiques de 30 gènes du développement méristématique dans une core collection de 96 accessions de tomate par combinaison de long range PCR et séquençage 454 Stéphane Muños Projet FLOMEDIV
La tomate, espèce modèle pour la famille des solanacées
Objectif de la sélection de la tomate de frais : des attentes multiples La tomate : légume le plus consommé au monde La France : 27 ème rang mondial pour la production (714 635 tonnes, source FAO 2008) producteur distributeur acheteur consommateur stabilité rendement, précocité adaptation, résistances fermeté conservation couleur aspect saveur sucre acide arôme. volatils texture parois santé pigments, pg vitamines, antioxydants qualité commerciale qualité organoleptique qualité nutritionnelle
L aspect des fruits est nécessaire pour le choix des consommateurs La forme et la couleur pour se distinguer des autres Des QTL clonés chez la tomate : sun, ovate, fw2.2, fasciated, lc
La taille du fruit : un mécanisme précoce lors du développement Méristème floral Nombre de carpelles Nombre de loges Taille du fruit Wild type Processing type Large fresh type Source: Barreroet et al, 2006 Source: Cong et al, 2008 Quels gènes du développement méristématique floral sont impliqués dans la taille et la forme du fruit?
Valoriser la diversité naturelle par la génétique d association Populations naturelles Développée pour la génétique humaine, appliquée aux plantes (Norborg,2006) Variabilité naturelle (plus d allèles et d évènements de recombinaison) Source: Ranc N., thèse 2010
Construction d une core collection Centre national de ressources pour la tomate 2752 accessions entretenues et caractérisées 340 accessions phenotypées and génotypées (20 SSR) 180 accessions phénotypées plus finement Core collection de 96 accessions 98 % de la diversité Thèse Nicolas Ranc, 2010
Contexte et objectifs du projet FLOMEDIV FLOMEDIV : projet INRA Syngenta Seeds Séquençage de gènes candidats du développement méristématique (core collection de 96 accessions) Génétique d association pour la forme et le poids du fruit Objectifs : Stage de Master de Guillaume Bauchet (15/01 au 15/07/201, Université de Wageningen Hollande) identifier les locus impliqués dans la forme et le poids du fruit (génétique d association) Comprendre l histoire évolutive de la forme des fruits chez la tomate et identifier des traces de sélection.
Matériel et méthodes
Matériel végétal Core collection de 96 accessions 11 écotypes sauvages (S. pimpinellifolium, p S. chmielewskii,, S. habrochaites,, S. pennellii, S. cheesmaniae) 65 type intermédiaires (S. lycopersicum var cerasiforme) 16 cultivars (S. lycopersicum var esculentum) 600 Nombre de SNPs 500 400 300 200 100 0 S. pimpi cerise S. lyco
Caractérisation phénotypique de la core collection Caractères généraux des fruits Morphologie des fruits Morphologie florale Nombre de loges Poids Acidité Teneur en sucres Fermeté Couleur Metabolites Activitée enzymatique Analyse des images Forme des fruits: Tomato Analyzer (Esther Van Der Knaap) http://oardc.osu.edu/vanderknaap/tomato_analyzer.htmosu analyzer htm Forme des fleurs : ImageJ http://rsbweb.nih.gov/ij/
RESULTATS 1. Procédures expérimentales
Sélection des gènes candidats Etude bibliographique Sélection de 80 gènes candidats Gènes décrits chez les espèces modèles du développement méristématique: Arabidopsis, Petunia, Antirrhinum Gènes responsables de QTL de la forme et du poids du fruit chez la tomate
Long range PCR Recherche des orthologues chez la tomate (stratégie Blast) Définition des couples d amorces Test de 2 3 couples/fragment 5-7 Kb Long range PCR
30 gènes candidats sélectionnés Gènes sélectionnés sur la base de: leur rôle fonctionnel des résultats d amplification PCR
Pooling des fragments et dosage Pooling: 96 accessions X 30 fragments g g g 1 pool/ accession X 96 Dosage: Picogreen and slingshot titration X 30 Mesure de la qualité des échantillons après fragmentation (nébulisation)
Séquençage 454 accession 1 accession 2 accession 12 accession 85 accession 96 30 fragments 30 fragments 30 fragments 30 fragments 30 fragments pool1 pool2 pool12 pool85 pool96 MID1 MID2 MID12 MID1 MID12 pool1 pool8 Génopole de Toulouse Séquenceur Roche FLX Tagging de chacun des 96 pools 1 run= 300 Mb Données de séquençage obtenues le 18 juin 2010
RESULTATS 2. Détection du Polymorphisme et Génétique d association
Descriptif du run 454 Taille moyenne des séquences : 350 nucléotides Quantité totale de séquences : 322 Mb Nombre total de séquences : 920 413 Référence (30 fragments) : 170Kb Profondeur moyenne : 19X
Des taux de profondeur variables entre pools 9603 séquences/pool en moyenne (19X) 3968 séquences minimum (8X) 21392 séquences maximum (44X) Le pooling entraine des variations malgré une quantification précise
Principe de l assemblage des séquences Séquence de référence (Heinz1706) pour chaque fragment Annotation (Artemis) Assemblage pour les 96 accessions de la core collection (Seqman Ngen) sur les séquences de référence (Heinz 1706) Couverture variable au sein d un même fragment 92.6% des séquences assemblées en moyenne Moins bon assemblage pour les espèces sauvages (61.2% pour S. pennellii)
Le problème des INDELs INDELs: fort taux de faux polymorphisme (problème connu des homopolymères) Non traités
Identification des SNPs Filtre: Profondeur > 2x SNP sur plus de 90% des séquences alignées Redondance entre accession 414 720 SNPs 4320 SNPs Ref.Seq. Read 1 Read 2 Read 3 Read 4 Read 5 Read 6 Read 7 Read 8 Read 9 Read 10 Ref.Seq. Read 1 Read 2 Read 3 Read 4 Read 5 Read 6 Read 7 Read 8 Read 9 Read 10 TCTCCCTCGCCGTGATCC TCTCCCTCGCCGTGATCC TCTCCCTCGCCGTGATCC TCTCCCTCGCCGTGATCC TCTCCCTCGCTGTGATCC TCTCCCTCGCCGTGATCC TCTCCCTCGCCGTGATCC TCTCCCTCGCCGTGATCC TCTCCCTCGCCGTGATCC TCTCCCTCGCCGTGATCC TCTCCCTCGCCGTGATCC Not OK ATTGTGTACAATGTGGTT ATTGTGTACGATGTGGTT ATTGTGTACGATGTGGTT ATTGTGTACGATGTGGTT ATTGTGTACGATGTGGTT ATTGTGTACGATGTGGTT ATTGTGTACGATGTGGTT ATTGTGTACGATGTGGTT ATTGTGTACGATGTGGTT ATTGTGTACGATGTGGTT ATTGTGTACGATGTGGTT OK
Des taux de polymorphisme cohérents cultivars modernes peu polymorphes du polymorphisme dans la référence Espèces sauvages plus polymorphes
Distribution des SNPs en fonction des fragments 350 300 250 200 150 100 50 0 1 4320 SNPs au total
Génétique d association Génétique d association: TASSEL (Bradbury et al, 2007) Minimum allele frequency treshold: MAF=5% ; = set de 533 markers; sauvages exclus (6 access.) 66 associations potentielles Validité des associations?
Analyse du locus ovate ovate est un locus responsable de l allongement des fruits Tomato accession Genotype Fruit shape index code CR102 C 0,6122 CR136 C 0,6327 CR321 C 0,6418 CR134 C 0,7041 CR155 C 0,7049 CR133 C 0,7208 CR288 C 0,7505 CR156 C 0,7519 CR152 N 0,7592 CR130 C 0,76 CR101 C 0,7787 CR256 C 0,7867 CR129 C 0,7893 CR274 C 0,7901 CR093 C 0,7908 CR341 N 0,7926 CR117 C 0,7936 Logiciel Tomato Analyzer CR002 C 0,7959 CR359 C 0,8088 CR097 N 0,8131 CR118 C 0,8141 CR079 c 0,8292 CR077 C 0,8364 CR354 C 0,8398 CR032 C 0,8409 Fruit shape index CR058 C 0,8483 CR150 C 0,8518 CR078 C 0,8565 CR149 C 0,8612 CR250 N 0,8671 CR153 N 0,8699 CR258 C 0,8732 CR186 C 0,874 CR287 C 0,8742 CR001 C 0,8752 CR031 C 0,8761 CR236 C 0,8764 CR076 C 0,8765 CR293 C 0,8772 CR003 C 0,8806 CR253 C 0,8812 Fruit CR280 C 0,8816 CR249 C 0,884 CR267 C 0,8867 CR098 C 0,8917 CR203 C 0,8996 CR125 C 0,9018 CR123 C 0,9056 CR163 C 0,9062 CR273 C 0,9093 CR202 C 0,91 CR106 C 0,9139 CR173 C 0,9174 CR164 C 0,9176 CR094 C 0,9184 CR284 C 0,9276 CR158 C 0,9392 CR254 C 0,9394 CR124 C 0,9402 CR240 C 0,9402 CR199 C 0,9472 CR292 N 0,9473 CR108 C 0,9525 CR110 C 0,9598 CR279 N 0,9619 CR169 C 0,9639 CR056 A 0,9684 CR072 C 0,9724 CR062 C 0,9736 shape ind dex <1 CR234 C 0,9738 CR238 C 0,9843 CR159 C 0,9958 CR014 A 0,9989 CR068 C 1,0114 CR004 C 1,0552 CR122 C 1,0645 CR028 C 1,094 CR294 C 1,1248 CR205 C 1,1253 CR070 A 1,1414 CR275 N 1,1476 CR075 A 1,2388 CR020 A 1,2742 CR291 A 1,3245 CR317 A 1,3732 CR145 A 1,3821 CR252 A 1,4354 CR296 A 1,5153 CR244 N 1,5405 CR271 a 1,6728 >1 Fruits allongés
Validation du SNP causal de ovate Transition C to A Même SNP que celui décrit comme responsable du phénotype. SNP = codon stop (protéine tronquée).
Validation du locus lc contrôlant le nombre de loges des fruits de tomate Tomato accession code Genotype Locule number Validation du SNP causal: Transition de vers A G CR075 A 1,933998 CR068 A 1,983998 CR250 N 2,000665 CR173 A 2,000665 CR159 N 2,000665 CR122 A 2,000665 CR158 A 2,000665 CR271 A 2,017331 CR072 A 2,017331 CR124 A 2,017331 CR123 N 2,017331 CR291 A 2,033998 CR169 A 2,033998 CR028 A 2,050665 CR070 A 2,050665 CR199 A 2,067331 CR236 A 2,083998 CR163 A 2,083998 CR203 A 2,083998 CR202 N 2,083998 CR258 A 2,100665 CR106 A 2,100665 CR056 A 2,100665 CR186 A 2,133998 CR076 A 2,133998 CR280 A 2,150665 CR205 A 2,150665 CR145 A 2,150665 CR164 A 2,150665 CR110 A 2,152516 CR240 A 2,158998 CR108 A 2,183998 CR001 N 2,183998 CR252 A 2,217331 CR292 A 2,217331 CR253 A 2,217331 CR294 A 2,217331 CR296 A 2,229831 CR155 A 2,233998 CR003 A 2,23837 CR020 A 2,245109245109 CR014 A 2,252516 CR279 A 2,267331 CR077 N 2,283998 CR062 A 2,300665 CR125 A 2,300665 CR244 A 2,350665 CR287 A 2,350665 CR097 A 2,350665 CR004 a 2,452516 CR032 A 2,491934 CR317 A 2,500665 CR234 A 2,533998 CR249 N 2,55622 CR275 A 2,600665 CR058 G 2,717331 CR284 A 2,800665 CR267 G 2,800665 CR153 N 2,915479 CR094 G 2,978442 CR254 N 3,133998 CR238 G 3,154831 CR293 N 3,167331 CR031 G 3,167331 CR274 N 3,300665 CR152 G 3,328442 CR078 G 3,333998 CR101 G 3,350665 CR130 G 3,483998 CR093 G 3,583998 CR149 G 3,598813 CR288 G 3,672887 CR098 a 3,817331 CR079 G 3,817331 CR002 N 3,910619 CR129 G 3,939553 CR117 N 4,046961 CR273 G 4,072093 CR156 G 4,133998 CR354 A 4,15622 CR256 G 4,167331 CR150 G 4,511776 CR118 G 5,132146 CR341 N 5,183998 CR359 A 5,539553 CR102 G 7,521498 CR136 G 9,533998 CR321 G 11,182411 CR134 G 12,711776 CR133 G 15,479236 Nom bre de log ges des fru uits <3 >3
Résumé 30 gènes (5kb) séquencés chez 96 accessions de tomate 322 Mb de séquences obtenus 4320 SNPs 66 associations 2 loci validés: ovate and lc Les données obtenues sont fiables Méthodologie validatée
Perspectives Approfondir o et valider les 64 associations at o s restantes tes Explorer le polymorphisme de type INDELs Analyser la diversité moléculaire des 30 gènes: Identifier les polymorphismes codant, rechercher des traces de sélection Nécessité d améliorer l assemblage des accessions sauvages (de novo)
Merci à INRA Avignon Génopole Toulouse Syngenta seeds Guillaume Bauchet Jean Paul Bouchet Yolande Carretero Mathilde Causse Jean Luc Gallois Sophie Rolland Jérôme Lluch Olivier Bouchez Cécile Donnadieu Julien Bonnet Laurent tgi Grivet Nicolas Ranc