Les nouvelles technologies de séquençage au Genoscope. Jean-Marc Aury, France Denoeud

Documents pareils
GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Big data et sciences du Vivant L'exemple du séquençage haut débit

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Contrôle de l'expression génétique :

CATALOGUE DES PRESTATIONS DE LA

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Analyse des données de séquençage massif par des méthodes phylogénétiques

Génétique et génomique Pierre Martin

Gènes Diffusion - EPIC 2010

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Introduction aux bases de données: application en biologie

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Biomarqueurs en Cancérologie

Bases de données des mutations

Introduction à la Génomique Fonctionnelle

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

Exercices sur SQL server 2000

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

Séquençage et Assemblage. de Génomes. François Denizot Emmanuel Talla LCB-IBSM CNRS

Bases de données et outils bioinformatiques utiles en génétique

Package Contents. System Requirements. Before You Begin

Perl Orienté Objet BioPerl There is more than one way to do it

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Exemple PLS avec SAS

SÉQUENÇAGE DE TYPE RAD-SEQ, PRÉSENTATION ET TRAITEMENT ANALYTIQUE

Introduc)on à Ensembl/ Biomart : Par)e pra)que

MABioVis. Bio-informatique et la

Détection des duplications en tandem au niveau nucléique à l'aide de la théorie des flots

Détection et prise en charge de la résistance aux antirétroviraux

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

SysFera. Benjamin Depardon

PRACTICE DIRECTION ON THE LENGTH OF BRIEFS AND MOTIONS ON APPEAL

Business Process Management

TP11 - Administration/Tuning

Folio Case User s Guide

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Get Instant Access to ebook Cest Maintenant PDF at Our Huge Library CEST MAINTENANT PDF. ==> Download: CEST MAINTENANT PDF

Christophe SANNIER

Bases moléculaires des mutations Marc Jeanpierre

Modélisation 3D par le modèle de turbulence k-ε standard de la position de la tête sur la force de résistance rencontrée par les nageurs.

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Improving the breakdown of the Central Credit Register data by category of enterprises

APPENDIX 6 BONUS RING FORMAT

François Louesse Comment rédiger un bon projet de R&D européen? Bien choisir son programme

Compte-rendu de fin de projet

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

INSTRUMENTS DE MESURE SOFTWARE. Management software for remote and/or local monitoring networks

N SIMON Anne-Catherine

Sécurité des systèmes d'informations et communicants dans le médical

Enjeux et défis en assurance habitation Marc-Olivier Faulkner 18 novembre 2011

Monitor LRD. Table des matières

Optimisation SQL. Quelques règles de bases

IFT3902 : (Gestion de projet pour le) développement, (et la) maintenance des logiciels

UML : Unified Modeling Language

Protéomique Séance 1 Introduction aux données de protéomique et aux outils de recherche

Sommaire. Introduction. Nouveautés d Adobe InDesign CS3. Visite guidée d Adobe InDesign

Introduction au datamining

AGROBASE : un système de gestion de données expérimentales

Big Data et Graphes : Quelques pistes de recherche

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Big Data et la santé

Stratégie DataCenters Société Générale Enjeux, objectifs et rôle d un partenaire comme Data4

Utiliser une WebCam. Micro-ordinateurs, informations, idées, trucs et astuces

ASSEMBLY INSTRUCTIONS DIRECTIVES POUR L'ASSEMBLAGE ombre pendant lamp lampe suspendue à tons dégradés, chocolat

Introduction à MapReduce/Hadoop et Spark

ASSEMBLY INSTRUCTIONS DIRECTIVES POUR L'ASSEMBLAGE luster chandelier lamp chandelier à trois branches en verre lustré

Instructions Mozilla Thunderbird Page 1

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

Stéphane Lefebvre. CAE s Chief Financial Officer. CAE announces Government of Canada participation in Project Innovate.

Bill 69 Projet de loi 69

Essais précoces non comparatifs : principes et calcul du nombre de sujets nécessaire

Les bases de données transcriptionnelles en ligne

CALCUL DE LA CONTRIBUTION - FONDS VERT Budget 2008/2009

VI- Expression du génome

Stratégie de réduc-on des déchets Waste Reduc-on Strategy: Contrat 2016 Contract

COURS D ANALYSE DES GENOMES

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Actualités sur la sélection des pondeuses Prospections futures. Dr. Matthias Schmutz, Lohmann Tierzucht

FÉDÉRATION INTERNATIONALE DE NATATION Diving

Interest Rate for Customs Purposes Regulations. Règlement sur le taux d intérêt aux fins des douanes CONSOLIDATION CODIFICATION

INF6304 Interfaces Intelligentes

AudiParc Recommandations IMPORTANTES. AudiParc Principe de fonctionnement. AudiParc Installation Déployement

Face Recognition Performance: Man vs. Machine

IBM Software Group. Migration vers Tivoli Workload Scheduler. Philippe TESSIER 2009 IBM Corporation

Algorithmes de recommandation, Cours Master 2, février 2011

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE

La Recherche du Point Optimum de Fonctionnement d un Générateur Photovoltaïque en Utilisant les Réseaux NEURO-FLOUS

INTERVENANTS ROLAND FITOUSSI DIDIER FAUQUE NICOLAS REBOURS. + Président du Conseil d administration. + Directeur Général. + Directeur Général Délégué

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

VILLE DE MONTRÉAL CITY OF MONTREAL. Arrondissement Kirkland Borough

Objectif et contexte business : piliers du traitement efficace des données -l exemple de RANK- Khalid MEHL Jean-François WASSONG 10 mars 2015

Once the installation is complete, you can delete the temporary Zip files..

Monitoring elderly People by Means of Cameras

Transcription:

Les nouvelles technologies de séquençage au Genoscope Jean-Marc Aury, France Denoeud

Introduction Présentation du Genoscope et des activités liées aux NTS Séquençage et assemblage des génomes procaryotes Plateforme de détection de mutations par capture Annotation des génomes eucaryotes par RNA-Seq Annotation du génome de la vigne

Genoscope (Centre National de Séquençage) Parmi les plus grands centres de séquençage en Europe Fait partie du CEA depuis mai 2007 Activité centrée aussi bien autour de projets propres que de projets collaboratifs A participé à des projets génomiques de grande envergure : projet génome humain, Arabidopsis, Riz, Anophèle, Coordination de grands projets de séquençage : Tetraodon, Paramécie, Vigne, Oikopleura, Mais aussi des génomes de champignons (Botrytis, Truffe) et de nombreux procaryotes

Genoscope (Centre National de Séquençage) Activités liées aux NTS : Séquençage de génomes procaryote (2007) Transcriptomique / Annotation de génomes eucaryotes (2008) Détection de mutations (2008) Métagénomique procaryote (2008) Séquençage de génomes eucaryotes (2009) Génomique fonctionnelle (2009)

Genoscope (Centre National de Séquençage) Capacité de séquençage : 19 ABI 3730 2 454/Roche Titanium 2 GA2 Illumina 1 Soli d v3

Genoscope (Centre National de Séquençage) Niveaux d accès aux capacités du Genoscope par Appel d Offres Projet Séquençage Assemblage, finition Annotation procaryote (MAGE) Annotation eucaryote (GAZE)

Séquençage de génomes procaryotes

Séquençage de génomes procaryotes Objectifs : diminuer le cout du séquençage des génomes procaryotes produire des séquences de qualité finie : taux d erreur < 10-4 (moins d une erreur tous les 10Kb) Principe : Incorporer des données issues de NTS utilisables pour assembler des génomes de novo Les données produites par le pyroséquençage sont différentes des données Sanger : évaluer la qualité des données brutes estimer la proportion de séquence nécessaire pour produire un assemblage de qualité

Séquençage de génomes procaryotes 454 / Roche Genome Sequence FLX 2006 Gs20 20Mb / run 100pb / lecture 2007 GsFLX 100Mb / run 250pb / lecture 2009 Titanium 500Mb / run 500pb / lecture Version actuelle (GS FLX) : Majorité des lectures à 250bp Environ 500.000 lectures / run et 100Mbp / run Durée du run : 8h Taux d erreurs non négligeable dans les homopolymères Assemblage de qualité à environ 20X Pas de biais de clonage

Séquençage de génomes procaryotes 454 / Roche Genome Sequence FLX Un run sur Acinetobacter baylyi (3,5Mb) : - 522.876 lectures - taille cumulée de 96Mb, soit 26,7 équivalents génome (26,7X)

Séquençage de génomes procaryotes 454 / Roche Genome Sequence FLX Alignement des lectures au niveau nucléotidique : 521.193 lectures mappées (soit 99,68%) 93.553.967 nt alignés contenant 800.295 erreurs (soit 8,6.10-3 erreurs, de l ordre de 10-3 à 5.10-3 en sanger) 17% délétions, 62% insertions, 21% mismatches (12% de Ns). Erreurs concentrées autour des régions homopolymériques => le taux d erreur n est pas constant, il dépend du taux d homopolymères

Séquençage de génomes procaryotes 454 / Roche Genome Sequence FLX

Séquençage de génomes procaryotes 454 / Roche Genome Sequence FLX Quelle profondeur de séquençage nécessaire?

Séquençage de génomes procaryotes 454 / Roche Genome Sequence FLX Quelle profondeur de séquençage nécessaire?

Séquençage de génomes procaryotes 454 / Roche Genome Sequence FLX Quelle profondeur de séquençage nécessaire?

Séquençage de génomes procaryotes Sanger Unpaired 454 Unpaired + PE 454 Coverage 7.4X 20X 25X Assembler Arachne (Broad Institute) Newbler (454/Roche) Newbler (454/Roche) # of contigs 173 119 119 Contigs N50 (Kb) 39.0 48.7 58.2 # of scaffolds 2 119 10 Scaffolds N50 (Kb) 2,200 48.7 1,000 Assembly size (% of reference) 3.417Mb (95%) 3.542 Mb (98%) 3.544 Mb (98%) Mis-assemblies 0 0 0 # of errors 3,442 420 431 Substitutions 2,494 67 75 Insertions / Deletions 948 353 356

Séquençage de génomes procaryotes Structure de l assemblage satisfaisante (plus de scaffolds => banque de 3 et 10Kb pour le sanger contre 3Kb pour 454 PE) Meilleur représentation du génome (couverture homogène) Taux d erreurs trop élevé pour une qualité finie : ~ 1 erreur / 8,5Kb, et surtout composé de nombreux indels (problématique pour l annotation) Idée : ajouter des lectures présentant un type d erreur différent pour corriger les indels de l assemblage 454

Séquençage de génomes procaryotes Illumina / Solexa Genetic Analyzer 1G Test sur Acinetobacter baylyi (3,5Mb) : environ 10M de lectures de 36pb taille cumulée de 440Mb, soit 120 équivalents génome (120X) Lane6 Lane7 Lane8 Mapped reads 87,75% 89,74% 88,76% 100% (length) mapped reads 78,38% 81,05% 79,80% Perfect reads 68,17% 71,41% 69,27% # of aligned bases 85.357.257 139.282.306 163.453.711 # of errors 321.670 (0,377%) 483.135 (0,347%) 631.224 (0,386%) Insertions 0,17% 0,15% 0,14% Deletions 1,02% 1,03% 0,99% Mismatches 98,81% 98,81% 98,87%

Séquençage de génomes procaryotes Alignement des lectures illumina sur l assemblage 454 en utilisant Soap (alignements gappés) : 2 mismatches et 3 gaps maximum Elimination des lectures alignées de façon non-unique Chaque différence est conservée si elle satisfait les critères suivants : Elle n est pas située dans les 5 premières et dernières bases de la lecture La qualité de la base en question et des bases encadrantes est >= 20 Les séquences flanquantes ne sont pas des homopolymères Une différence est considérée comme une erreur de séquence si : Elle est vue au moins par 3 lectures différentes 70% des lectures alignées à cette position sont en accord Ces critères qualités entrainent une chute de la couverture

Séquençage de génomes procaryotes Quelle profondeur de séquençage nécessaire pour corriger le consensus 454? A 50X, reste 163 erreurs : 51 sont dues à des erreurs dans la séquence de référence ou à la présence de variations (cultures différentes). 112 sont localisées dans les régions répétées (pas de couverture solexa) ou en extrémité de contigs.

Séquençage de génomes procaryotes Step Sequenced reads Uniquely mapped reads Filtered reads Number of reads 5.000.000 4.543.370 3.497.539 Number of bases 180.000.000 163.561.320 60.680.570 Genome coverage 50,0X 45,5X 16,9X Alignement des lectures illumina sur l assemblage 454 en utilisant Soap (alignements gappés) : 2 mismatches et 3 gaps maximum Elimination des lectures alignées de façon non-unique Chaque différence est conservée si elle satisfait les critères suivants : Elle n est pas situé dans les 5 premières et dernières bases La qualité de la base et des bases encadrantes est >= 20 Les séquences flanquantes ne sont pas des homopolymères

Séquençage de génomes procaryotes Sanger Unpaired + PE 454 unpaired + paired 454 with Illumina / Solexa GA1 Coverage 7.4X 25X 25X and 50X Assembler Arachne (Broad Institute) Newbler (454/Roche) Newbler (454 / Roche) # of contigs 173 119 119 Contigs N50 (Kb) 39.0 58.2 58.2 # of scaffolds 2 10 10 Scaffolds N50 (Kb) 2,200 1,000 1,000 Assembly size (% of reference) 3.417Mb (95%) 3.544 Mb (98%) 3.544 Mb (98%) Mis-assemblies 0 0 0 # of errors 3,442 431 (1 erreur / 8Kb) 163 (1 erreur / 22Kb) Substitutions 2,494 75 71 Insertions / Deletions 948 356 92

Séquençage de génomes procaryotes

Séquençage de génomes procaryotes Genomic DNA Roche/454 sequenced paired-end library to a ~7x fragment size coverage (for 3Kb fragments) Add 454 unpaired data to a final 25x coverage Newbler assembly Correct errors with ~50x Solexa/illumina short reads data High quality draft (< 10-4 error rate)

Séquençage de génomes procaryotes Until December 2006 : 12x with Sanger technology, 3 libraries (insert sizes 3 kb, 10 kb, 40 kb) Assembly with Phrap or Arachne From january 2007 : 4x Sanger, single library (10 or 40 kb) + 20x GS20 reads Assembly with Arachne (Broad Institute) using Sanger reads and Newbler contigs From June 2007, 4x Sanger, single library (10 or 40 kb) + 15x GSFLX reads Assembly with Newbler2 using Sanger reads and GSFLX reads From June 2008, 7x 454 PE (3kb) + 20-25x GSFLX reads + ~50x Solexa Assembly with Newbler2 using Sanger reads and GSFLX reads and finishing with inhouse software

Plateforme détection de mutations par capture Laboratoire de Ressources Génomique : Gabòr Gyapay Laboratoire de Séquençage : Patrick Wincker Laboratoire d Analyse BIoinformatique des Séquences : François Artiguenave, Vincent Meyer, Marc Wessner, Benjamin Noel

Plateforme détection de mutations Objectifs : détection de mutations sur des grands génomes (typiquement l humain) sur plusieurs individus en parallèle pour un cout raisonnable Principe : définir des régions d intérêts sur ces grands génomes de plusieurs mégabases amplifier spécifiquement ces régions par capture séquençage haut-débit Utilisation de puces Nimblegen pour la capture et séquençage en 454 Quels types de projets? Maladies génétiques rares (dermatologie, nevrologie, etc ). Cancerologie. Autres thématiques venant d appels de proposition du Génoscope (analyse du génome humain et d autres mammifères, etc ).

Plateforme détection de mutations Digital Light Processing technology

Plateforme détection de mutations

Plateforme détection de mutations Projet pilote : sélection de 1.251 gènes, 13.315 exons, taille cumulée d environ 4 Mb 8 échantillons : 4 échantillons tumoraux et 4 échantillons normaux appariés avec 1 run GSFLX par échantillon (soit ~ 100Mb) 13.315 régions ciblées : 3,97Mb (moyenne de 300pb) Après passage chez NimbleGen : 13.944 régions ; 5,6Mb (moyenne de 400pb) Régions séléctionnées Régions capturées

Plateforme détection de mutations Alignement des lectures provenant des 8 échantillons sur le génome humain Calcul de la sensibilité et de la spécificité de la capture

Plateforme détection de mutations Alignement des lectures provenant des 8 échantillons sur le génome humain B C D E F G H I # lectures 740.642 964.866 602.719 601.841 683.096 42.947 480.811 59.167 # lectures alignées 649.017 (88%) 822.999 (85%) 564.580 (94%) 531.657 (88%) 607.093 (89%) 32.755 (76%) 431.060 (90%) 53.022 (90%) # lectures chevauchant des régions cibles 450.267 (69%) 525.778 (64%) 353.295 (63%) 348.492 (66%) 269.594 (44%) 977 (3%) 297.016 (69%) 4.422 (8%) # lectures incluses dans des régions cibles 220.646 (49%) 260.185 (49%) 175.029 (50%) 160.027 (46%) 119.974 (45%)) 424 (43%) 131.609 (44%) 1.729 (39%) # régions cibles touchées 12.275 (92%) 12.434 (93%) 12.796 (96%) 12.325 (93%) 10.574 (79%) 783 (6%) 12.261 (92%) 2.699 (20%) # régions cibles entièrement couvertes 10.932 (82%) 11.405 (86%) 11.091 (83%) 10.856 (82%) 8610 (65%) 142 (1%) 10.862 (82%) 622 (5%)

Plateforme détection de mutations B C D E F H Couverture initiale 42,9 53,3 35,1 35,1 41,1 29,6 Couverture moyenne 13,9 15,8 12,7 11,5 10,5 10,1 Couverture minimale 0 0 0 0 0 0 Couverture maximale 80,7 102,2 102,1 113,0 111,0 86,0 # régions couvertes à 10X 7.026 (53%) 7.985 (60%) 7.123 (54%) 5.886 (44%) 4.097 (31%) 5.502 (41%) Avec >30X initialement, on ne couvre qu environ 50% des régions avec une couverture supérieure à 10X

Plateforme détection de mutations Taille des fragments: 300-700 bp Séquençage de ~225 bp région ciblée région couverte avec les séquences

Plateforme détection de mutations 100 90 80 70 60 50 40 % lectures chevauchant des régions cibles % régions cibles touchées % régions cibles couvertes > 10X 30 20 10 0 0,54 0,75 2,58 4,12 5,19 8,81 10,1 11,5 13,9 15,8

Plateforme détection de mutations Les régions faiblement couvertes sont souvent communes à différents échantillons => biais de capture

Plateforme détection de mutations Initialement environ 20.000 variations de haute qualité Une 50aine de variations à valider par re-séquençage après classification et sélection Les critères de sélection importants : qualité de la variation (profondeur de séquence) localisation de la variation comparaison entre échantillon et avec les variations connues

Annotation de génomes eucaryotes avec des données de RNA-Seq

Annotation de génomes eucaryotes Objectif : annoter des génomes eucaryotes à partir de données de transcriptome issues de séquençage haut-débit (Solexa/Illumina ou Solid) Difficultés : Prédire une structure de gène avec des tags d une 40aine de bases Aligner les tags qui tombent sur une jonction exon/exon (alignements gappés avec au plus 5 gaps) Molecular biology: Power sequencing. Brenton R. Graveley. Nature 453, 1197-1198(26 June 2008)

Annotation de génomes eucaryotes Short-Read Sequencing Technologies for Transcriptional Analyses. Simon SA, Zhai J, Nandety RS, McCormick KP, Zeng J, Mejia D, Meyers BC. Annu Rev Plant Biol. 2009 Jan 9.

Annotation de génomes eucaryotes mapped reads coverage depth 1. covtigs construction genome ag 2. candidate exons covtig 100 nt gt threshold covtigs forward and reverse candidate exons Etape 1. construction des covtigs Etape 2. Extraction des exons candidats

Annotation de génomes eucaryotes Définition imprécise des bornes exoniques GGTGTTCACTACTTAGCCATGAAGATCTAGATTTCACACTTTTAGAAGCCTTAGAAAGCTG... covtig Tags mappés Tags non mappés TGAAGATCTAGATTTCACACTTTTAGAAGCCTT TGAAGATCTAGATTTCACACTTTTAGAAGCCTT TGAAGATCTAGATTTCACACTTTTAGAAGCCTT TGAAGATCTAGATTTCACACTTTTAGAAGCCTT TGAAGATCTAGATTTCACACTTTTAGAAGCCTT TGAAGATCTAGATTTCAAACTTTTAGAAGCCTT TGAAGATCTAGATTTCACACTTTTAGAAGCCTT TGAAGATCTAGATTTCACACTTTTAGAAGCCTT TGAAGATCTAGATTTCACACTTTTAGAAGCCTT TGAAGATCTAGATTTCACACTTTTAGAAGCCTT TGAAGATCTAGATTTCACACTTTTAGAAGCCTT TGAAGATCTAGATTTCACACTTTTAGAAGCCT TGAAGATCTAGATTTCACACTTTTAGAAGCCT TGAAGATCTAGATTTCACACTTTTAGAAGCCT TGAAGATCTAGATTTCACACTTTTAGAAGCCT TGAAGATCTAGATTTCACACTTTTAGAAGCCT CTAGATTTCACACTTTTAGAAGCCTTAGAAAGC TCTAGATTTCACACTTTTAGAAGCCTTAGAAAG CTAGATTTCACACTTTTAGAAGCCTTAGAAAGC CTAGATTTCACACTTTTAGAAGCCTTATAAAG ATCTAGATTTCACACTTTTAGAAGCCTTAGAA CTAGATTTCACACTTTTAGAAGCCTTAGAAAG CTAGATTTCACACTTTTAGAAGCCTTATAAAG ATCTAGATTTCACACTTTTAGAAGCCTTAGAA GACACCATGAAGATCTAGATTTCACACTTTTAG CACCAACACCATGAAGATCTAGATTTCACACTT CACCAACACCATGAAGATCTAGATTTCACACTT CGACACCATGAAGATCTAGATTTCACACTTTTA CCAGCACCCACCAACACCATGAAGATCTAGATT CACCAACACCATGAAGATCTAGATTTCACACTT GGTGCACCCACCAACACCATGAAGATCTAGATT CAACACCATGAAGATCTAGATTTCACACTTTTA CCAACACCATGAAGATCTAGATTTCACACTTTT CACCAACACCATGAAGATCTAGATTTCACACTT Amélioration : Extension des covtigs avec les tags non mappés

Annotation de génomes eucaryotes Variation de couverture au niveau exon et gène - données simulées - données réelles Variation au niveau exonique : - biais expérimentaux - épissage alternatif Biais Global entre 3 et 5 exons

Annotation de génomes eucaryotes unmapped reads word dictionary k-mer 1 X 1 Etape 3: Validation des jonctions exons/exons Validation of junctions between candidate exons using a word dictionary built from the unmapped reads.. k-mer 2 k-mer n X 2 X n verify words existence in the dictionary candidate exons gt ag validated junction covtig1...ggtgttcactacttacccatgt...agatctacacacttttagaagcctgaaag... covtig2 Mots dérivés TTACCCAT CTTACCCAT ACTTACCCAT TACTTACCCAT CTACTTACCCAT ACTACTTACCCAT CACTACTTACCCAT TCACTACTTACCCAT TTCACTACTTACCCAT GTTCACTACTTACCCAT ATCTACACACTTTTAGA ATCTACACACTTTTAG ATCTACACACTTTTA ATCTACACACTTTT ATCTACACACTTT ATCTACACACTT ATCTACACACT ATCTACACAC ATCTACACA ATCTACAC Validation de la jonction Tags non mappées Création du dictionnaire TGTTCACTACTTACCCATATCTACACACTTTTAGAA TGTTCACTACTTACCCATATCTACA TCACTACTTACCCATATCTACACACTTTTAGAAGCC GTTCACTACTTACCCATATCTACAC GTTCACTACTTACCCATATCTACACACTTTTAGAAG TTCACTACTTACCCATATCTACACA TTCACTACTTACCCATATCTACACACTTTTAGAAGC TCACTACTTACCCATATCTACACAC TGTTCACTACTTACCCATATCTACACACTTTTAGAA CACTACTTACCCATATCTACACACT GTTCACTACTTACCCATATCTACACACTTTTAGAAG... GTGTTCACTACTTACCCATATCTACACACTTTTAGA

Annotation de génomes eucaryotes 4. graph of candidate exons linked by validated junctions Etape 4: Création du graphe des exons candidats Open Reading Frame G-Mo.R-Se models 5. model construction and coding sequence detection M1 M 2 M3 M 4 M5 M 6 M 7 T 1 T 2 Real transcripts T 3 Etape 5: Construction des modèles de gènes et détection de séquences codantes Parcours du graphe, un chemin représente un transcrit Recherche d un cadre de lecture dans chaque transcrit Une séquence codante (CDS) est dite plausible si elle fait au moins 50 acides aminés et couvre au moins 2/3 du modèle Les modèles M1, M2, M5 et M7 modélisent correctement les transcrits T1, T2, T3 et T5 Certains chemins ne représentent pas des transcrits réels (modèles M3, M4 et M6) T 4 T 5

Annotation de génomes eucaryotes Méthode baptisée G-Mo.R-Se (Gene MOdeling using Rna-Seq), téléchargeable à cette adresse : http://www.genoscope.cns.fr/gmorse Utilisable sur des données solexa, mais facilement adaptable à des données Solid (colorspace) Méthode utilisée pour annoter le génome de la vigne

Annotation du génome de la vigne avec des données de RNA-Seq

Utilisation de G-Mo.R-Se pour l'annotation du génome de la vigne mapped reads coverage depth threshold covtigs 1. covtigs construction genome Génome de Vitis vinifera: 500 Mb RNA-Seq : 173 millions de lectures Solexa/Illumina (4 tissus: feuille, racine, tige, callus) 138 millions de lectures mappées avec SOAP (position unique, max 2 mismatches) : 73.5 Mb Seuil de profondeur pour construire les covtigs: 4 (minimise les splits et les fusions dans les modèles finaux -par rapport à l'annotation de référence) ( Mb 376 360 covtigs (38.5 Fusions % of exons from predicted models that fuse at least two reference exons Splits % of reference exons that are split by model exons threshold

Utilisation de G-Mo.R-Se pour l'annotation du génome de la vigne 2. candidate exons covtig 100 nt 376 360 covtigs ag gt forward and reverse candidate exons 35 millions de lectures non mappées 3. junction validation unmapped reads. word dictionary k-mer 1 k-mer 2 k-mer n X 1 X 2 X n verify words existence in the dictionary Pour chaque covtig on teste 20 voisins candidate exons gt ag validated junction 94 451 jonctions validées

Utilisation de G-Mo.R-Se pour l'annotation du génome de la vigne 4. graph of candidate exons linked by validated junctions Open Reading Frame 47 640 modèles avant fusion M1 M 2 M3 M4 T 1 T 2 G-Mo.R-Se models Real transcripts 5. model construction and coding sequence detection M5 M 6 T 3 T 4 M 7 T 5 ( loci 46062 modèles (19486 ( loci 28399 avec CDS plausible (12341 Run G-Mo.R-Se : ~ 150 000 secondes (1.7 jours) sur 1 CPU + mapping des lectures : ~ 70 000 secondes (0.8 jours) sur 1 CPU

Evaluation de G-Mo.R-Se contre les gènes de référence de Vitis vinifera Chevauchement nucléotidique entre lectures/covtigs/modèles et les différents compartiments relatifs à l'annotation de référence 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Exons de l'annotation de référence Reads Covtigs Models SP SN 90% 80% 70% 60% 50% 40% 30% 20% 10% 0% Introns + régions intergéniques Reads Covtigs Models Seuil de couverture pour construire les covtigs Validation des jonctions Seuil de couverture pour construire les covtigs Validation des jonctions SP= % of nucleotides in reads/covtigs/models falling in the compartment SN= % of nucleotides in the genomic compartment overlapped by reads/covtigs/models

Comparaison de G-Mo.R-Se avec l'assemblage direct des lectures par Velvet Chevauchement entre gènes de référence et contigs Velvet / modèles G-Mo.R-Se % reference exonic nucleotides covered reference genes overlapped on >=1 nt reference genes overlapped on >=75% nt Velvet assemby+mapping 24.8% 12,270 (40.3%) 3595 (11.8%) G-Mo.R-Se models 42.9% 15,323 (50.3%) 9306 (30.6%) Profondeur pour les gènes de référence chevauchés par Velvet / G-Mo.R-Se G-Mo.R-Se ----- Velvet

Comparaison de G-Mo.R-Se avec l'assemblage direct des lectures par Velvet Exemple d'un gène annoté par G-Mo.R-Se et fragmenté par Velvet Comparaison entre Velvet et G-Mo.R-Se pour la prédiction de la structure exacte des transcrits (cdnas): Transcripts and loci derived from cdnas G-Mo.R-Se Velvet Transcripts with exact structure predicted (total : 9829) Genes having at least one transcript with exact structure predicted (total: 7895) 4600 (47%) 2529 (26%) 4407 (56%) 2509 (32%)

Epissage alternatif détecté dans les modèles G-Mo.R-Se Nombre de transcrits par locus Nombre de modèles/transcrits G-Mo.R-Se (all) G-Mo.R-Se (plausible CDS) cdnas 45290 28283 9827* Nombre de loci 18811 12236 7895 Nbr de modèles/locus 2.4 2.3 1.25 * ~ 90 000 ESTs multiexoniques assemblées en structures non redondantes ( G-Mo.R-Se (95% de ces clusters sont détectés par Evénements d'épissage alternatif Events common to cdnas and models Models (all) Models (CDS) (% of cdna cdnas 7,895 loci 19,486 loci 12,341 loci events) alternative acceptor/donor 690 73.1% 7405 62.5% 2988 58.0% 156 (22.6%) skipped 250 26.5% 3656 30.9% 1677 32.5% 18 (7.2%) mutually exclusive 4 0.4% 781 6.6% 487 9.5% 1 (25.0%) intron retention (IR) 1227 - - - - - - 2171 (944 without Total IR) 11,84 5152 175 (18.5%) Total number of loci with alternative splicing (% of all ident ified loci) 783 (9.9%) (598 without IR) 1602 (8.2%) 1029 (8.3%) - G-Mo.R-Se n'est pas optimisé pour détecter les événements d'épissage alternatif de façon exhaustive, mais détecte davantage d'événements que le séquençage de cdnas

Epissage alternatif détecté dans les modèles G-Mo.R-Se

Amélioration de l'annotation de la vigne: Identification de nouveaux gènes Caractéristiques des modèles G-Mo.R-Se «nouveaux» vs «connus» Number of loci Number of models Avg number of models per locus Avg number of exons per model Number of models with more than 2 exons Known model loci Models with a All models plausible CDS ( 65% ) 18,811 12,236 45,290 2.4 8.2 ( 83% ) 37,644 28,283 2.3 8.9 ( 90% ) 25,428 Novel model loci Models with All models a plausible ( 17% ) CDS 675 105 772 1.1 2.3 ( 17% ) 128 Exemple d'un gène nouveau identifié par G-Mo.R-Se 116 1.1 2.9 ( 53% ) 56

Amélioration de l'annotation de la vigne : exemple de fusion de gènes 10% des gènes de référence correspondent à des splits qui ont pu être corrigés grâce aux modèles G-Mo.Rse. 40 % des gènes de référence sont étendus en 5' ou 3' par des modèles G-Mo.R-Se.

Conclusion Nous avons montré la faisabilité de l'approche G-Mo.R-Se pour prédire des gènes de novo à partir de données RNA-Seq sur un génome complexe. Cette approche a permis d'annoter davantage de gènes ( à partir de 175 million de lectures RNA-Seq) que le séquençage d'ests (120000 sequences Sanger), en particulier des gènes faiblement exprimés. Même si G-Mo.R-Se n'est pas dédié à la détection d'épissage alternatif, il permet de détecter un grand nombre de variants d'épissage (souvent peu exprimés), et d'enrichir l'annotation de la vigne. Il sera utilisé pour l'annotation de l'assemblage 12X du génome de la vigne. Cette approche sera particulièrement utile pour l'annotation de génomes dans des phylums avec peu de ressources (ESTs, protéines proches).