Les nouvelles technologies de séquençage au Genoscope. Jean-Marc Aury, France Denoeud

Les nouvelles technologies de séquençage au Genoscope Jean-Marc Aury, France Denoeud

Introduction Présentation du Genoscope et des activités liées aux NTS Séquençage et assemblage des génomes procaryotes Plateforme de détection de mutations par capture Annotation des génomes eucaryotes par RNA-Seq Annotation du génome de la vigne

Genoscope (Centre National de Séquençage) Parmi les plus grands centres de séquençage en Europe Fait partie du CEA depuis mai 2007 Activité centrée aussi bien autour de projets propres que de projets collaboratifs A participé à des projets génomiques de grande envergure : projet génome humain, Arabidopsis, Riz, Anophèle, Coordination de grands projets de séquençage : Tetraodon, Paramécie, Vigne, Oikopleura, Mais aussi des génomes de champignons (Botrytis, Truffe) et de nombreux procaryotes

Genoscope (Centre National de Séquençage) Activités liées aux NTS : Séquençage de génomes procaryote (2007) Transcriptomique / Annotation de génomes eucaryotes (2008) Détection de mutations (2008) Métagénomique procaryote (2008) Séquençage de génomes eucaryotes (2009) Génomique fonctionnelle (2009)

Genoscope (Centre National de Séquençage) Capacité de séquençage : 19 ABI 3730 2 454/Roche Titanium 2 GA2 Illumina 1 Soli d v3

Genoscope (Centre National de Séquençage) Niveaux d accès aux capacités du Genoscope par Appel d Offres Projet Séquençage Assemblage, finition Annotation procaryote (MAGE) Annotation eucaryote (GAZE)

Séquençage de génomes procaryotes

Séquençage de génomes procaryotes Objectifs : diminuer le cout du séquençage des génomes procaryotes produire des séquences de qualité finie : taux d erreur < 10-4 (moins d une erreur tous les 10Kb) Principe : Incorporer des données issues de NTS utilisables pour assembler des génomes de novo Les données produites par le pyroséquençage sont différentes des données Sanger : évaluer la qualité des données brutes estimer la proportion de séquence nécessaire pour produire un assemblage de qualité

Séquençage de génomes procaryotes 454 / Roche Genome Sequence FLX 2006 Gs20 20Mb / run 100pb / lecture 2007 GsFLX 100Mb / run 250pb / lecture 2009 Titanium 500Mb / run 500pb / lecture Version actuelle (GS FLX) : Majorité des lectures à 250bp Environ 500.000 lectures / run et 100Mbp / run Durée du run : 8h Taux d erreurs non négligeable dans les homopolymères Assemblage de qualité à environ 20X Pas de biais de clonage

Séquençage de génomes procaryotes 454 / Roche Genome Sequence FLX Un run sur Acinetobacter baylyi (3,5Mb) : - 522.876 lectures - taille cumulée de 96Mb, soit 26,7 équivalents génome (26,7X)

Séquençage de génomes procaryotes 454 / Roche Genome Sequence FLX Alignement des lectures au niveau nucléotidique : 521.193 lectures mappées (soit 99,68%) 93.553.967 nt alignés contenant 800.295 erreurs (soit 8,6.10-3 erreurs, de l ordre de 10-3 à 5.10-3 en sanger) 17% délétions, 62% insertions, 21% mismatches (12% de Ns). Erreurs concentrées autour des régions homopolymériques => le taux d erreur n est pas constant, il dépend du taux d homopolymères

Séquençage de génomes procaryotes 454 / Roche Genome Sequence FLX

Séquençage de génomes procaryotes 454 / Roche Genome Sequence FLX Quelle profondeur de séquençage nécessaire?

Séquençage de génomes procaryotes Sanger Unpaired 454 Unpaired + PE 454 Coverage 7.4X 20X 25X Assembler Arachne (Broad Institute) Newbler (454/Roche) Newbler (454/Roche) # of contigs 173 119 119 Contigs N50 (Kb) 39.0 48.7 58.2 # of scaffolds 2 119 10 Scaffolds N50 (Kb) 2,200 48.7 1,000 Assembly size (% of reference) 3.417Mb (95%) 3.542 Mb (98%) 3.544 Mb (98%) Mis-assemblies 0 0 0 # of errors 3,442 420 431 Substitutions 2,494 67 75 Insertions / Deletions 948 353 356

Séquençage de génomes procaryotes Structure de l assemblage satisfaisante (plus de scaffolds => banque de 3 et 10Kb pour le sanger contre 3Kb pour 454 PE) Meilleur représentation du génome (couverture homogène) Taux d erreurs trop élevé pour une qualité finie : ~ 1 erreur / 8,5Kb, et surtout composé de nombreux indels (problématique pour l annotation) Idée : ajouter des lectures présentant un type d erreur différent pour corriger les indels de l assemblage 454

Séquençage de génomes procaryotes Illumina / Solexa Genetic Analyzer 1G Test sur Acinetobacter baylyi (3,5Mb) : environ 10M de lectures de 36pb taille cumulée de 440Mb, soit 120 équivalents génome (120X) Lane6 Lane7 Lane8 Mapped reads 87,75% 89,74% 88,76% 100% (length) mapped reads 78,38% 81,05% 79,80% Perfect reads 68,17% 71,41% 69,27% # of aligned bases 85.357.257 139.282.306 163.453.711 # of errors 321.670 (0,377%) 483.135 (0,347%) 631.224 (0,386%) Insertions 0,17% 0,15% 0,14% Deletions 1,02% 1,03% 0,99% Mismatches 98,81% 98,81% 98,87%

Séquençage de génomes procaryotes Alignement des lectures illumina sur l assemblage 454 en utilisant Soap (alignements gappés) : 2 mismatches et 3 gaps maximum Elimination des lectures alignées de façon non-unique Chaque différence est conservée si elle satisfait les critères suivants : Elle n est pas située dans les 5 premières et dernières bases de la lecture La qualité de la base en question et des bases encadrantes est >= 20 Les séquences flanquantes ne sont pas des homopolymères Une différence est considérée comme une erreur de séquence si : Elle est vue au moins par 3 lectures différentes 70% des lectures alignées à cette position sont en accord Ces critères qualités entrainent une chute de la couverture

Séquençage de génomes procaryotes Quelle profondeur de séquençage nécessaire pour corriger le consensus 454? A 50X, reste 163 erreurs : 51 sont dues à des erreurs dans la séquence de référence ou à la présence de variations (cultures différentes). 112 sont localisées dans les régions répétées (pas de couverture solexa) ou en extrémité de contigs.

Séquençage de génomes procaryotes Step Sequenced reads Uniquely mapped reads Filtered reads Number of reads 5.000.000 4.543.370 3.497.539 Number of bases 180.000.000 163.561.320 60.680.570 Genome coverage 50,0X 45,5X 16,9X Alignement des lectures illumina sur l assemblage 454 en utilisant Soap (alignements gappés) : 2 mismatches et 3 gaps maximum Elimination des lectures alignées de façon non-unique Chaque différence est conservée si elle satisfait les critères suivants : Elle n est pas situé dans les 5 premières et dernières bases La qualité de la base et des bases encadrantes est >= 20 Les séquences flanquantes ne sont pas des homopolymères

Séquençage de génomes procaryotes Sanger Unpaired + PE 454 unpaired + paired 454 with Illumina / Solexa GA1 Coverage 7.4X 25X 25X and 50X Assembler Arachne (Broad Institute) Newbler (454/Roche) Newbler (454 / Roche) # of contigs 173 119 119 Contigs N50 (Kb) 39.0 58.2 58.2 # of scaffolds 2 10 10 Scaffolds N50 (Kb) 2,200 1,000 1,000 Assembly size (% of reference) 3.417Mb (95%) 3.544 Mb (98%) 3.544 Mb (98%) Mis-assemblies 0 0 0 # of errors 3,442 431 (1 erreur / 8Kb) 163 (1 erreur / 22Kb) Substitutions 2,494 75 71 Insertions / Deletions 948 356 92

Séquençage de génomes procaryotes

Séquençage de génomes procaryotes Genomic DNA Roche/454 sequenced paired-end library to a ~7x fragment size coverage (for 3Kb fragments) Add 454 unpaired data to a final 25x coverage Newbler assembly Correct errors with ~50x Solexa/illumina short reads data High quality draft (< 10-4 error rate)

Séquençage de génomes procaryotes Until December 2006 : 12x with Sanger technology, 3 libraries (insert sizes 3 kb, 10 kb, 40 kb) Assembly with Phrap or Arachne From january 2007 : 4x Sanger, single library (10 or 40 kb) + 20x GS20 reads Assembly with Arachne (Broad Institute) using Sanger reads and Newbler contigs From June 2007, 4x Sanger, single library (10 or 40 kb) + 15x GSFLX reads Assembly with Newbler2 using Sanger reads and GSFLX reads From June 2008, 7x 454 PE (3kb) + 20-25x GSFLX reads + ~50x Solexa Assembly with Newbler2 using Sanger reads and GSFLX reads and finishing with inhouse software

Plateforme détection de mutations par capture Laboratoire de Ressources Génomique : Gabòr Gyapay Laboratoire de Séquençage : Patrick Wincker Laboratoire d Analyse BIoinformatique des Séquences : François Artiguenave, Vincent Meyer, Marc Wessner, Benjamin Noel

Plateforme détection de mutations Objectifs : détection de mutations sur des grands génomes (typiquement l humain) sur plusieurs individus en parallèle pour un cout raisonnable Principe : définir des régions d intérêts sur ces grands génomes de plusieurs mégabases amplifier spécifiquement ces régions par capture séquençage haut-débit Utilisation de puces Nimblegen pour la capture et séquençage en 454 Quels types de projets? Maladies génétiques rares (dermatologie, nevrologie, etc ). Cancerologie. Autres thématiques venant d appels de proposition du Génoscope (analyse du génome humain et d autres mammifères, etc ).

Plateforme détection de mutations Digital Light Processing technology

Plateforme détection de mutations

Plateforme détection de mutations Projet pilote : sélection de 1.251 gènes, 13.315 exons, taille cumulée d environ 4 Mb 8 échantillons : 4 échantillons tumoraux et 4 échantillons normaux appariés avec 1 run GSFLX par échantillon (soit ~ 100Mb) 13.315 régions ciblées : 3,97Mb (moyenne de 300pb) Après passage chez NimbleGen : 13.944 régions ; 5,6Mb (moyenne de 400pb) Régions séléctionnées Régions capturées

Plateforme détection de mutations Alignement des lectures provenant des 8 échantillons sur le génome humain Calcul de la sensibilité et de la spécificité de la capture

Plateforme détection de mutations Alignement des lectures provenant des 8 échantillons sur le génome humain B C D E F G H I # lectures 740.642 964.866 602.719 601.841 683.096 42.947 480.811 59.167 # lectures alignées 649.017 (88%) 822.999 (85%) 564.580 (94%) 531.657 (88%) 607.093 (89%) 32.755 (76%) 431.060 (90%) 53.022 (90%) # lectures chevauchant des régions cibles 450.267 (69%) 525.778 (64%) 353.295 (63%) 348.492 (66%) 269.594 (44%) 977 (3%) 297.016 (69%) 4.422 (8%) # lectures incluses dans des régions cibles 220.646 (49%) 260.185 (49%) 175.029 (50%) 160.027 (46%) 119.974 (45%)) 424 (43%) 131.609 (44%) 1.729 (39%) # régions cibles touchées 12.275 (92%) 12.434 (93%) 12.796 (96%) 12.325 (93%) 10.574 (79%) 783 (6%) 12.261 (92%) 2.699 (20%) # régions cibles entièrement couvertes 10.932 (82%) 11.405 (86%) 11.091 (83%) 10.856 (82%) 8610 (65%) 142 (1%) 10.862 (82%) 622 (5%)

Plateforme détection de mutations B C D E F H Couverture initiale 42,9 53,3 35,1 35,1 41,1 29,6 Couverture moyenne 13,9 15,8 12,7 11,5 10,5 10,1 Couverture minimale 0 0 0 0 0 0 Couverture maximale 80,7 102,2 102,1 113,0 111,0 86,0 # régions couvertes à 10X 7.026 (53%) 7.985 (60%) 7.123 (54%) 5.886 (44%) 4.097 (31%) 5.502 (41%) Avec >30X initialement, on ne couvre qu environ 50% des régions avec une couverture supérieure à 10X

Plateforme détection de mutations Taille des fragments: 300-700 bp Séquençage de ~225 bp région ciblée région couverte avec les séquences

Plateforme détection de mutations 100 90 80 70 60 50 40 % lectures chevauchant des régions cibles % régions cibles touchées % régions cibles couvertes > 10X 30 20 10 0 0,54 0,75 2,58 4,12 5,19 8,81 10,1 11,5 13,9 15,8

Plateforme détection de mutations Les régions faiblement couvertes sont souvent communes à différents échantillons => biais de capture

Plateforme détection de mutations Initialement environ 20.000 variations de haute qualité Une 50aine de variations à valider par re-séquençage après classification et sélection Les critères de sélection importants : qualité de la variation (profondeur de séquence) localisation de la variation comparaison entre échantillon et avec les variations connues

Annotation de génomes eucaryotes avec des données de RNA-Seq

Annotation de génomes eucaryotes Objectif : annoter des génomes eucaryotes à partir de données de transcriptome issues de séquençage haut-débit (Solexa/Illumina ou Solid) Difficultés : Prédire une structure de gène avec des tags d une 40aine de bases Aligner les tags qui tombent sur une jonction exon/exon (alignements gappés avec au plus 5 gaps) Molecular biology: Power sequencing. Brenton R. Graveley. Nature 453, 1197-1198(26 June 2008)

Annotation de génomes eucaryotes Short-Read Sequencing Technologies for Transcriptional Analyses. Simon SA, Zhai J, Nandety RS, McCormick KP, Zeng J, Mejia D, Meyers BC. Annu Rev Plant Biol. 2009 Jan 9.

Annotation de génomes eucaryotes mapped reads coverage depth 1. covtigs construction genome ag 2. candidate exons covtig 100 nt gt threshold covtigs forward and reverse candidate exons Etape 1. construction des covtigs Etape 2. Extraction des exons candidats

Annotation de génomes eucaryotes Définition imprécise des bornes exoniques GGTGTTCACTACTTAGCCATGAAGATCTAGATTTCACACTTTTAGAAGCCTTAGAAAGCTG... covtig Tags mappés Tags non mappés TGAAGATCTAGATTTCACACTTTTAGAAGCCTT TGAAGATCTAGATTTCACACTTTTAGAAGCCTT TGAAGATCTAGATTTCACACTTTTAGAAGCCTT TGAAGATCTAGATTTCACACTTTTAGAAGCCTT TGAAGATCTAGATTTCACACTTTTAGAAGCCTT TGAAGATCTAGATTTCAAACTTTTAGAAGCCTT TGAAGATCTAGATTTCACACTTTTAGAAGCCTT TGAAGATCTAGATTTCACACTTTTAGAAGCCTT TGAAGATCTAGATTTCACACTTTTAGAAGCCTT TGAAGATCTAGATTTCACACTTTTAGAAGCCTT TGAAGATCTAGATTTCACACTTTTAGAAGCCTT TGAAGATCTAGATTTCACACTTTTAGAAGCCT TGAAGATCTAGATTTCACACTTTTAGAAGCCT TGAAGATCTAGATTTCACACTTTTAGAAGCCT TGAAGATCTAGATTTCACACTTTTAGAAGCCT TGAAGATCTAGATTTCACACTTTTAGAAGCCT CTAGATTTCACACTTTTAGAAGCCTTAGAAAGC TCTAGATTTCACACTTTTAGAAGCCTTAGAAAG CTAGATTTCACACTTTTAGAAGCCTTAGAAAGC CTAGATTTCACACTTTTAGAAGCCTTATAAAG ATCTAGATTTCACACTTTTAGAAGCCTTAGAA CTAGATTTCACACTTTTAGAAGCCTTAGAAAG CTAGATTTCACACTTTTAGAAGCCTTATAAAG ATCTAGATTTCACACTTTTAGAAGCCTTAGAA GACACCATGAAGATCTAGATTTCACACTTTTAG CACCAACACCATGAAGATCTAGATTTCACACTT CACCAACACCATGAAGATCTAGATTTCACACTT CGACACCATGAAGATCTAGATTTCACACTTTTA CCAGCACCCACCAACACCATGAAGATCTAGATT CACCAACACCATGAAGATCTAGATTTCACACTT GGTGCACCCACCAACACCATGAAGATCTAGATT CAACACCATGAAGATCTAGATTTCACACTTTTA CCAACACCATGAAGATCTAGATTTCACACTTTT CACCAACACCATGAAGATCTAGATTTCACACTT Amélioration : Extension des covtigs avec les tags non mappés

Annotation de génomes eucaryotes Variation de couverture au niveau exon et gène - données simulées - données réelles Variation au niveau exonique : - biais expérimentaux - épissage alternatif Biais Global entre 3 et 5 exons

Annotation de génomes eucaryotes unmapped reads word dictionary k-mer 1 X 1 Etape 3: Validation des jonctions exons/exons Validation of junctions between candidate exons using a word dictionary built from the unmapped reads.. k-mer 2 k-mer n X 2 X n verify words existence in the dictionary candidate exons gt ag validated junction covtig1...ggtgttcactacttacccatgt...agatctacacacttttagaagcctgaaag... covtig2 Mots dérivés TTACCCAT CTTACCCAT ACTTACCCAT TACTTACCCAT CTACTTACCCAT ACTACTTACCCAT CACTACTTACCCAT TCACTACTTACCCAT TTCACTACTTACCCAT GTTCACTACTTACCCAT ATCTACACACTTTTAGA ATCTACACACTTTTAG ATCTACACACTTTTA ATCTACACACTTTT ATCTACACACTTT ATCTACACACTT ATCTACACACT ATCTACACAC ATCTACACA ATCTACAC Validation de la jonction Tags non mappées Création du dictionnaire TGTTCACTACTTACCCATATCTACACACTTTTAGAA TGTTCACTACTTACCCATATCTACA TCACTACTTACCCATATCTACACACTTTTAGAAGCC GTTCACTACTTACCCATATCTACAC GTTCACTACTTACCCATATCTACACACTTTTAGAAG TTCACTACTTACCCATATCTACACA TTCACTACTTACCCATATCTACACACTTTTAGAAGC TCACTACTTACCCATATCTACACAC TGTTCACTACTTACCCATATCTACACACTTTTAGAA CACTACTTACCCATATCTACACACT GTTCACTACTTACCCATATCTACACACTTTTAGAAG... GTGTTCACTACTTACCCATATCTACACACTTTTAGA

Annotation de génomes eucaryotes 4. graph of candidate exons linked by validated junctions Etape 4: Création du graphe des exons candidats Open Reading Frame G-Mo.R-Se models 5. model construction and coding sequence detection M1 M 2 M3 M 4 M5 M 6 M 7 T 1 T 2 Real transcripts T 3 Etape 5: Construction des modèles de gènes et détection de séquences codantes Parcours du graphe, un chemin représente un transcrit Recherche d un cadre de lecture dans chaque transcrit Une séquence codante (CDS) est dite plausible si elle fait au moins 50 acides aminés et couvre au moins 2/3 du modèle Les modèles M1, M2, M5 et M7 modélisent correctement les transcrits T1, T2, T3 et T5 Certains chemins ne représentent pas des transcrits réels (modèles M3, M4 et M6) T 4 T 5

Annotation de génomes eucaryotes Méthode baptisée G-Mo.R-Se (Gene MOdeling using Rna-Seq), téléchargeable à cette adresse : http://www.genoscope.cns.fr/gmorse Utilisable sur des données solexa, mais facilement adaptable à des données Solid (colorspace) Méthode utilisée pour annoter le génome de la vigne

Annotation du génome de la vigne avec des données de RNA-Seq

Utilisation de G-Mo.R-Se pour l'annotation du génome de la vigne mapped reads coverage depth threshold covtigs 1. covtigs construction genome Génome de Vitis vinifera: 500 Mb RNA-Seq : 173 millions de lectures Solexa/Illumina (4 tissus: feuille, racine, tige, callus) 138 millions de lectures mappées avec SOAP (position unique, max 2 mismatches) : 73.5 Mb Seuil de profondeur pour construire les covtigs: 4 (minimise les splits et les fusions dans les modèles finaux -par rapport à l'annotation de référence) ( Mb 376 360 covtigs (38.5 Fusions % of exons from predicted models that fuse at least two reference exons Splits % of reference exons that are split by model exons threshold

Utilisation de G-Mo.R-Se pour l'annotation du génome de la vigne 2. candidate exons covtig 100 nt 376 360 covtigs ag gt forward and reverse candidate exons 35 millions de lectures non mappées 3. junction validation unmapped reads. word dictionary k-mer 1 k-mer 2 k-mer n X 1 X 2 X n verify words existence in the dictionary Pour chaque covtig on teste 20 voisins candidate exons gt ag validated junction 94 451 jonctions validées

Utilisation de G-Mo.R-Se pour l'annotation du génome de la vigne 4. graph of candidate exons linked by validated junctions Open Reading Frame 47 640 modèles avant fusion M1 M 2 M3 M4 T 1 T 2 G-Mo.R-Se models Real transcripts 5. model construction and coding sequence detection M5 M 6 T 3 T 4 M 7 T 5 ( loci 46062 modèles (19486 ( loci 28399 avec CDS plausible (12341 Run G-Mo.R-Se : ~ 150 000 secondes (1.7 jours) sur 1 CPU + mapping des lectures : ~ 70 000 secondes (0.8 jours) sur 1 CPU

Evaluation de G-Mo.R-Se contre les gènes de référence de Vitis vinifera Chevauchement nucléotidique entre lectures/covtigs/modèles et les différents compartiments relatifs à l'annotation de référence 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Exons de l'annotation de référence Reads Covtigs Models SP SN 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Introns + régions intergéniques Reads Covtigs Models Seuil de couverture pour construire les covtigs Validation des jonctions Seuil de couverture pour construire les covtigs Validation des jonctions SP= % of nucleotides in reads/covtigs/models falling in the compartment SN= % of nucleotides in the genomic compartment overlapped by reads/covtigs/models

Comparaison de G-Mo.R-Se avec l'assemblage direct des lectures par Velvet Chevauchement entre gènes de référence et contigs Velvet / modèles G-Mo.R-Se % reference exonic nucleotides covered reference genes overlapped on >=1 nt reference genes overlapped on >=75% nt Velvet assemby+mapping 24.8% 12,270 (40.3%) 3595 (11.8%) G-Mo.R-Se models 42.9% 15,323 (50.3%) 9306 (30.6%) Profondeur pour les gènes de référence chevauchés par Velvet / G-Mo.R-Se G-Mo.R-Se ----- Velvet

Comparaison de G-Mo.R-Se avec l'assemblage direct des lectures par Velvet Exemple d'un gène annoté par G-Mo.R-Se et fragmenté par Velvet Comparaison entre Velvet et G-Mo.R-Se pour la prédiction de la structure exacte des transcrits (cdnas): Transcripts and loci derived from cdnas G-Mo.R-Se Velvet Transcripts with exact structure predicted (total : 9829) Genes having at least one transcript with exact structure predicted (total: 7895) 4600 (47%) 2529 (26%) 4407 (56%) 2509 (32%)

Epissage alternatif détecté dans les modèles G-Mo.R-Se Nombre de transcrits par locus Nombre de modèles/transcrits G-Mo.R-Se (all) G-Mo.R-Se (plausible CDS) cdnas 45290 28283 9827* Nombre de loci 18811 12236 7895 Nbr de modèles/locus 2.4 2.3 1.25 * ~ 90 000 ESTs multiexoniques assemblées en structures non redondantes ( G-Mo.R-Se (95% de ces clusters sont détectés par Evénements d'épissage alternatif Events common to cdnas and models Models (all) Models (CDS) (% of cdna cdnas 7,895 loci 19,486 loci 12,341 loci events) alternative acceptor/donor 690 73.1% 7405 62.5% 2988 58.0% 156 (22.6%) skipped 250 26.5% 3656 30.9% 1677 32.5% 18 (7.2%) mutually exclusive 4 0.4% 781 6.6% 487 9.5% 1 (25.0%) intron retention (IR) 1227 - - - - - - 2171 (944 without Total IR) 11,84 5152 175 (18.5%) Total number of loci with alternative splicing (% of all ident ified loci) 783 (9.9%) (598 without IR) 1602 (8.2%) 1029 (8.3%) - G-Mo.R-Se n'est pas optimisé pour détecter les événements d'épissage alternatif de façon exhaustive, mais détecte davantage d'événements que le séquençage de cdnas

Epissage alternatif détecté dans les modèles G-Mo.R-Se

Amélioration de l'annotation de la vigne: Identification de nouveaux gènes Caractéristiques des modèles G-Mo.R-Se «nouveaux» vs «connus» Number of loci Number of models Avg number of models per locus Avg number of exons per model Number of models with more than 2 exons Known model loci Models with a All models plausible CDS ( 65% ) 18,811 12,236 45,290 2.4 8.2 ( 83% ) 37,644 28,283 2.3 8.9 ( 90% ) 25,428 Novel model loci Models with All models a plausible ( 17% ) CDS 675 105 772 1.1 2.3 ( 17% ) 128 Exemple d'un gène nouveau identifié par G-Mo.R-Se 116 1.1 2.9 ( 53% ) 56

Amélioration de l'annotation de la vigne : exemple de fusion de gènes 10% des gènes de référence correspondent à des splits qui ont pu être corrigés grâce aux modèles G-Mo.Rse. 40 % des gènes de référence sont étendus en 5' ou 3' par des modèles G-Mo.R-Se.

Conclusion Nous avons montré la faisabilité de l'approche G-Mo.R-Se pour prédire des gènes de novo à partir de données RNA-Seq sur un génome complexe. Cette approche a permis d'annoter davantage de gènes ( à partir de 175 million de lectures RNA-Seq) que le séquençage d'ests (120000 sequences Sanger), en particulier des gènes faiblement exprimés. Même si G-Mo.R-Se n'est pas dédié à la détection d'épissage alternatif, il permet de détecter un grand nombre de variants d'épissage (souvent peu exprimés), et d'enrichir l'annotation de la vigne. Il sera utilisé pour l'annotation de l'assemblage 12X du génome de la vigne. Cette approche sera particulièrement utile pour l'annotation de génomes dans des phylums avec peu de ressources (ESTs, protéines proches).