Le séquençage Roche 454 www.454.com Stéphane Fénart, Arnaud Mouchon Roscoff, Avril 2012
Systèmes Genome Sequencers Une stratégie unique en séquençage nouvelle génération Pionniers en séquençage de nouvelle génération Premier séquenceur à haut-débit : GS20 (2004)
Systèmes Genome Sequencers Une stratégie unique en séquençage nouvelle génération Bases Longueur de séquence X 8 en moins de 5 ans 800 700 600 500 400 300 200 100 0 GS 20 GS FLX standard GS FLX Titanium GS FLX + Sanger NGS GS Junior Séquençage toutes applications Exactitude de séquence Flexibilité et complémentarité
Bases La technologie longues lectures 454 La seule technique capable de remplacer la méthode Sanger 1T 100G Illumina HiSeq2000 ABI SOLiD Complete Genomics 10G Illumina GAIIx 1G 100M Helicos MiSeq Ion Torrent GS FLX Titanium System Séquençage d amplicons Haplotypage Genotypage 10M GS Junior System Séquencage de Gènes & Régions ciblés Métagénomique 1M Sanger 0 200 400 600 800 Longueur de lecture
454 Sequencing Workflow Un fragment Une bille Une lecture 1. Préparation de la librairie 2. empcr amplification Amplification clonale des fragments 3. Préparation de la PicoTiterPlate Séquençage clonal
454 Sequencing Workflow Un fragment Une bille Une lecture Shotgun Amplicons Genomes entiers BACs, Long Range PCR Transcrits Produits de PCR de 200-500 bp (HIV, exons, 16S...) Blunt-end Ligation ncrna, ADN Ancien ESTs, ADN fragmenté ss DNA Library empcr Sequençage
454 Sequencing Workflow Un fragment Une bille Une lecture Amplification clonale en émulsion Mélange des fragments d ADN de la librairie avec les billes et de l huile. Création d un microréacteur par émulsion Amplification clonale au sein de chaque microréacteurs Selection (enrichissement) des billes ayant les fragments d ADN
454 Sequencing Workflow Chargement de la PicoTiterPlate Device Les billes de capture et les fragments d ADN sont déposés dans la plaque de séquençage (PicoTiterPlate device) Diamètre des puits : 30 µm > 100 000 lectures obtenues en paralleles Une seule bille de capture avec l ADN simple brin amplifié est déposée par puits.
GS Junior : la chimie Titanium Séquençage par synthèse 4 nucleotides (TACG) sont incorporés par flux pendant 200 cycles Un nucléotide complémentaire au brin matrice va s incorporer et générer un signal lumineux. Le signal lumineux est enregistré par la caméra CCD. L intensité du signal est proportionnelle au nombre de nucléotides incorporés. Polymerase ajoute 1 nucleotide (dntp) Pyrophosphate est relargué (PP i ) Sulfurylase crée ATP à partir PP i Luciferase hydrolyse l ATP et utilise la lucéférine pour émettre de la lumière.
GS Titanium Sequencing Flowgrams 4-mer Flowgram T A C G Flow Order 3-mer T T C T G C G A A 2-mer 1-mer Key sequence = TCAG permet de calibrer le signal
Un Fragment, Une Bille, Une Lecture One Fragment One bead One Well Librairie empcr Dépôt One read Analyse des résultats Pyroséquençage
La technologie Roche - 454 Une technique robuste Une technique mondialement reconnue Robustesse des résultats Reproductibilité Fiabilité Evolution de la chimie L assurance de résultats de qualité Une méthode facile à acquérir Une technique rapidement opérationnelle >1500 publications 2005 06 07 08 09 10 2011 La sécurité des résultats La reconnaissance des résultats et des travaux effectués Gain de temps et de coûts
Accuracy La technologie Roche - 454 Une technique précise L exactitude de lecture Qualité identique à Sanger (gold standard) 99,6% en lecture simple 99,995% en lecture consensus (équivalent phred 50) Q20 Des résultats de haute qualité Méthode fiable Méthode de référence (QC) Une qualité de résultats incomparable 100,0% 99,0% 98,0% 97,0% 96,0% 95,0% 94,0% 93,0% 92,0% 91,0% 90,0% Illumina Séq courtes TruSeq GS Junior GS FLX Titanium GS FLX + 0 100 200 300 400 500 600 700 800 Gain de temps et de coûts Position on Read (bp)
La technologie Roche - 454 Les apports des longues séquences Combinaison unique longue séquence et exactitude Chimie FLX+ Titanium = 800 bases Pour GS Junior = améliorations prévues courant 2012 Séquences courtes Séquences longues Des génomes simples aux plus complexes Meilleure qualité d assemblage Lecture des séquences répétées Détection de toutes les anomalies génétiques Transfert des protocoles Sanger Une seule technique = tous les résultats Gain de temps pour l obtention des résultats finaux
Nb de régions ou Nb de gènes La technologie Roche - 454 La préparation d échantillons (amplicons) Les solutions de préparation d échantillons 500 200 Capture de séquences + Roche 454 Raindance + Roche 454 100 Fluidigm + Roche 454 La problématique de la préparation des échantillons résolue Des kits, des essais, des notes d application, de l échantillon aux résultats. 50 10 0 Méthodes maison Kits Roche Multiplicom + Roche 454 100 500 1000 Nb d échantillons Améliorer le rendement du laboratoire Répondre à la demande croissante de séquençage Réduire le temps / coût sur le développement et sur les résultats
La technologie Roche - 454 Rapidité et flexibilité De l échantillon aux résultats 1 run = 10 heures 2h d analyse pour 40 Mbases (100.000 séquences) Optimisation = 1 run /jour Un séquenceur haut débit à la fois de paillasse et de plateforme Day 1 Preparation Sample Day 2 Sequencing Day 3 Analysis Data Capable de répondre aux urgences Flexibilité d utilisation Optimiser l utilisation d un séquenceur de plateforme pour différentes applications Gain de temps pour l accès aux résultats
La technologie Roche - 454 Une analyse des données simplifiée L analyse des données 3 logiciels: de Novo, reséquençage, amplicons Assemblage d E. Coli de novo <10 minutes Interface graphique intuitive Une analyse informatique facilitée Manipulation simple des données et export ouvert Transfert et stockage des données économiques Analyses faciles à intégrer et à maîtriser Script(s) spécifique(s) par application Réduction des coûts Bioinformaticien non nécessaire en routine Gain de temps pour l implémentation de la technologie
Séquençage 454 exemples d applications Microbiologie Génétique des populations Phylogénie, Biogéographie
Séquençage 454 exemples d applications Microbiologie Génétique des populations Phylogénie, Biogéographie
Importance de la longueur de lecture dans la caractérisation fine des populations virales 3 mutations sont régulierement observées en association avec des résistances à des cocktails de molécles thérapeutiques M46I/L, I84V, and L90M Il faut donc savoir si dans la population virale portée par un patient ces mutations se rencontrent au sein d un même génome ou sur des génome séparés : - au sein du même génome viral : le traitement aura peu de chance de marcher + risque de sélectionner le virus résistant - sur différents génomes : le traitement combinant plusieurs molécules pourra convenir Ces 3 mutations se rencontrent dans une séquence de 500pb : seule la technologie Roche-454 peut permettre de savoir si elles sont sur des génomes différents ou non
Séquençage de la souche épidémique O: 109 de E. coli Problématique Emergence de nouveaux variants pathogènes de E. coli identification des facteurs de virulence La communauté bioinformatique reconnait l échec d indentification des gènes de virulence Test sur GS Junior Dépôt des premières données de séquençage ion torrent + Hiseq 2000 June 1 2 juin 9 juin 10 juin
Résultats Séquences courtes génèrent des assemblages très fragmentés data HiSeq 2000 Analyse complexe >450 scaffolds 3 runs GS Junior: Analyse : 3 «clics» 13 scaffolds 7 runs ion torrent > 3000 contigs 2 juin 9 juin 10 juin Caractérisation précise des facteurs virulence/résistance
Séquençage 454 exemples d applications Microbiologie Génétique des populations Phylogénie, Biogéographie
Génétiques des populations : analyse de la diversité intra- et inter-populations Analyse de la diversité : étude des fréquences alléliques Ex : polymorphisme de taille de marqueurs microsatellites polymoprhisme mitochondrial ou nucléotidique - Approche «classique» : Nombreux runs de séquenceurs capillaires Nombreuses analyses de fragments (Genscan, etc) ou de séquences Sanger à relire - Approche «NGS» : PCR avec «tag» (MID) par population Séquençage 454 : un run! Tableau de variants = allèles rencontrés dans chaque population et leur fréquence. Accès aux séquences (plus de problème d homoplasie) Ex : 20 populations 50 individus diploïdes/ pop 10 marqueurs = 2000 séquences à analyser => 1 run de GS Junior = 100.000 séquences = couverture 50x
Génétiques des populations : analyse de la diversité intra- et inter-populations 5 Long-Range PCR sur le génome mitochondrial complet (15kb) Analyse simultanée = 1 run GS Jr 226 variants répartis sur l ensemble des populations
Génétiques des populations : développement rapide de nouveaux marqueurs Séquençage direct (pas d étape de clonage) Filtrage bio-informatique des séquences contenant des motifs répétés Obtention de nouveaux microsatellites
Séquençage 454 exemples d applications Microbiologie Génétique des populations Phylogénie, Biogéographie
Analyses phylogénétiques, phylogéographiques Avec les approches «classiques» : Limites techniques : difficultés de travailler sur séquences nucléaires (clonage obligatoire) Ces limites imposent les choix des séquences analysées! - Séquences chloroplastiques ou mitochondriales analysées en priorité - Pas d information de diversité nucléotidiques nucléaires! - Analyses de polymorphisme de taille (µsats) mais inférence phyologénétiques difficiles Avec approche «NGS» : Levée des contraintes techniques => séquençage clonal!!! Accès à un plus large choix de séquences Roche 454 => séquences longues => haplotypage / génotypage fiable
Analyses phylogénétiques, phylogéographiques A crucial advantage is that the high coverage of clonally amplified sequences simplifies haplotype determination, even in highly polymorphic species. This targeted nextgeneration approach can greatly increase the use of nuclear DNA sequence loci in phylogeographic and population genetic studies by mitigating many of the time, cost, and analytical issues associated with highly polymorphic, diploid sequence markers. Puritz et al (PloS One, 2012)
En résumé >100.000 séquences / run Stockage des données aisé : 1 run = 10Gb Facilité de prise en main = uniquement du pipetage! 1 workflow = plusieurs applications (shotgun, amplicons) Robustesse = pas de laser, pas d éléments mobiles Longues séquences = haplotypage, génotypage, assemblage facilités et transfert facile de projets «sanger» Pas de licence logiciel = Linux! Rapidité = 1,5 jours de labo 10h de run Fiabilité = 1ère technologie de séquençage à Haut-débit
Le GS Junior en France > 30 GS Juniors - en hôpitaux (Toulouse, Lille, Marseille, Bordeaux, Nantes, Montpellier, La Pitié, HEGP ) - en biotech / Pharma - en recherche (INRA, CNRS, INSERM) (4 sites supplémentaires en préparation) Les domaines d application - Oncologie / Génétique humaine - Microbiologie - Ecologie / génétique des populations - Plantes - Interactions hôtes/pathogènes - ADN ancien
GS Systems : des machines et des hommes!!! - Accompagnement à l installation et validation de votre séquenceur dans votre laboratoire. - Formation complète sur site et accompagnement sur les premières manipulations. - Accompagnement au développement de nouvelles applications. ---------------------------------- - Un support application avec des spécialistes français Puces/Séquençage (4 Chefs de Projets terrain et un Chef de Produit). - Un support applications Europe (hotline) : >15 spécialistes en séquençage. - Un support SAV machine régionalisé avec intervention selon les contraintes du Diagnostic.