MODULE 1 Cours 1 Introduction aux technologies de séquençage nouvelle génération nde Séquençage de 2 génération & aperçu des technologies ème de 3 génération Jean-Baptiste Rivière, PhD jean-baptiste.riviere@u-bourgogne.fr 16 octobre 2013
Mise en contexte de Mendel au $1000 genome
1865 Mendel et les bases de l'hérédité Père de la génétique moderne pour ses travaux de croisement de pois entre 1856 et 1863. Première notion d'hérédité par des unités transmissibles d'une génération à l'autre. Ces unités sont aujourd'hui reconnues sous le terme de gènes. Débuts de la génétique moléculaire.
1869 Miescher et la nucléine Friedrich Miescher : biologiste suisse étudiant les globules blancs. 1869 : découverte d'une substance non protéique et non lipidique mais riche en phosphate dans le noyau des cellules. La nucléine sera plus tard caractérisée et nommée acide désoxyribonucléique (ADN).
1952 Rosalind Franklin et la photo 51 Rosalind Franklin utilisait la diffraction des rayons X pour l'étude de matériaux biologiques dont l'adn. 1952 : prise de la photo 51 montrant la structure hélicale de l'adn. Article de Franklin publié en 1953 dans la revue Nature en même temps que celui de Watson et Crick.
1953 Découverte de la double hélice Modèle de la structure de l'adn par Watson et Crick en 1953. Structure en double hélice avec les sucres et phosphates formant la structure externe et les bases pointant vers le centre. Connexion des bases par des ponts hydrogène en paires (A-T et C-G), deux brins parallèles mais orientés dans des directions opposées. Première suggestion du mécanisme de réplication du matériel génétique.
1961 Code de synthèse des protéines Marshall Nirenberg (NIH) étudiait la façon dont l'adn dirigeait la synthèse protéique et le rôle de l'arn dans le processus. 1961 : utilisation d'un ARNm synthétique ne contenant que des uraciles pour produire un peptide de phénylalanine. Identification progressive des 64 codons et des 20 acides aminés correspondants.
1977 Invention du Sanger 1977 : invention d'une méthode de séquençage d'adn rapide par Frederick Sanger. Technologie basée sur une polymérase et des nucléotides modifiés et radioactifs. Technologie améliorée avec le temps et largement utilisée depuis son invention. Le gold standard en génétique médicale encore aujourd'hui.
1983 Locus de la maladie de Huntington Localisation du locus du gène de la MH sur le chromosome 4 grâce à un marqueur polymorphe en déséquilibre de liaison avec la MH (Nature, 1983). Première identification d'un locus associé à une pathologie génétique humaine. 1993: isolation du gène HTT et identification de l'expansion de triplets nucléotidiques à l'origine de la pathologie.
1983 Invention de la PCR Invention réalisée par Kary Mullis. Technologie capable d'amplifier des milliards de copies de fragments d'adn à l'aide d'une Taq polymérase. Technique simple, peu coûteuse et automatisable. Invention révolutionnaire pour la biologie moléculaire.
1989 Gène de la mucoviscidose Identification du gène CFTR, responsable de la mucoviscidose (Riordan et al., Science). Première identification d'un gène responsable d'une pathologie humaine par clonage positionnel uniquement. Illustration classique des techniques de cette époque pré-human Genome Project.
1990 Localisation de BRCA1 Première preuve de l'existence d'un gène (BRCA1) responsable de formes familiales de cancer du sein. Clonage positionnel pour localiser le gène sur le chromosome 17 par le laboratoire de Mary-Claire King. 1994: isolation du gène responsable après une course internationale.
1990 Début du Human Genome Project Initié par le US Department of Energy (DOE) et le NIH. Projet collaboratif international prévu sur 15 ans Objectif : décoder le génome humain pour accélérer les progrès en génétique, de la médecine à l'évolution de l'humain.
1995 Séquençage de H. influenzae Haemophilus influenzae devient le premier génome bactérien à être séquencé (1,8 Mb). Technique basée sur le séquençage et l'assemblage de fragment d'adn non sélectionnés (séquençage shotgun aléatoire de génome entier ou global )
Séquençage shotgun aléatoire global
Séquençage shotgun hiérarchique
Principes des Bermudes & Celera 1996 : Principes des Bermudes proclamant un libre accès immédiat aux données de séquençage générées par les centres impliqués dans le Human Genome Project. 1998 : Fondation par Craig Venter de Celera Genomics, une entreprise dédiée au séquençage du génome humain plus rapidement et à moindre coût par séquençage shotgun de génome entier.
Séquençage d'autres génomes 2000 : séquençage du génome de Drosophila melanogaster par un consortium incluant Celera Genomics. 2002 : séquençage du génome de la souris par l'international Mouse Genome Sequencing Consortium. Premier mammifère utilisé en recherche à être séquencé. Possibilité de comparer les données avec le génome humain (> 90% d'homologie entre les 2 espèces).
2003 Fin du Human Genome Project Human Genome Project 13 ans > 3 milliards $ 2003
Principe du séquençage Sanger
Principe du séquençage Sanger Séquençage d'adn simple brin par réactions en cycles (dénaturation de l'adn, annealing des amorces et élongation). Étape d'élongation : utilisation de dntps classiques non-marqués et de ddntps fluorescents. Résultat : mélange de fragments de tailles différentes en fonction de l'insertion de ddntps à l'extrémité des fragments. Électrophorèse sur gel hautement résolutive et détection des nucléotides marqués par un système de 4 couleurs avec génération de scores de qualité pour chaque base.
Caractéristiques du Sanger Parallélisation limitée par le nombre de capillaires indépendants (96 à 384). Taille des fragments séquencés jusqu'à 1000 pb dans des conditions optimales. Précision élevée, jusqu'à 99,999% pour du séquençage shotgun. Coût par base élevé. Défi : développer des technologies de séquençage plus rapides et moins coûteuses. Objectif : séquencer des génomes humains individuels.
Le séquençage de 2 nde génération Présentation des différentes technologies de séquençage
Quelques définitions Séquençage haut débit (SHD) : terme générique et peu spécifique (utilisation à éviter). Séquençage nouvelle génération (NGS) : regroupe les technologies de 2nde et 3ème génération. Séquençage de 2nde génération : séquençage d'un ensemble de molécules nucléotidiques à l'aide de techniques de wash-and-scan (ou cycles). Wash-and-scan : technique basée sur des polymérases et réactifs qui doivent être enlevés à chaque cycle après l'incorporation des bases à lire.
Quelques définitions Séquençage de 3ème génération : processus de séquençage de molécules uniques ne nécessitant pas de wash-and-scan. Lecture : fragment nucléotidique individuel dont la séquence est déterminée par un instrument. Longueur de lecture : correspond au nombre de bases individuelles composant une lecture donnée. Préparation de librairies : procédure expérimentale précédant le séquençage des fragments d'adn d'intérêt. Varie en fonction de la technologie.
Quelques définitions Séquençage de 3ème génération : processus de séquençage de molécules uniques ne nécessitant pas de wash-and-scan. Lecture : fragment nucléotidique individuel dont la séquence est déterminée par un instrument. Longueur de lecture : correspond au nombre de bases individuelles composant une lecture donnée. Préparation de librairies : procédure expérimentale précédant le séquençage des fragments d'adn d'intérêt. Varie en fonction de la technologie.
Principe du NGS Préparation des libraires Bridge PCR Emulsion PCR Semiconductor sequencing (Ion Torrent) Sequencing by ligation (SOLiD) Pyrosequencing (454) Reversible terminator sequencing (Illumina)
PCR par émulsion L'ADN est fragmenté et lié à des adapteurs. Les fragments sont liés à des billes (idéalement un par bille), lesquelles sont capturées dans des gouttes pour la PCR par émulsion. Résultat : obtention d'amplicons à la surface des billes.
Bridge (ou cluster ) PCR L'ADN est fragmenté et lié à des adapteurs. Les fragments sont liés à une surface tapissée de séquences adaptatrices et amplifiés par PCR. Résultat : obtention de groupes d'amplicons à la surface de la flowcell (appelés clusters).
Pyroséquençage : la technologie 454 Preuve de principe : séquençage et assemblage de novo de Mycoplasma genitalium.
Principe du pyroséquençage (454) Pré-incubation des billes avec polymérase Bst et dépôt sur un support solide (1 bille par puit). Ajout de billes plus petites contenant les enzymes pour le pyroséquençage (ATP sulfurylase et luciférase). Processus basé sur la libération de diphosphate et la production de lumière détectée par caméra.
Instruments 454 / Roche GS Junior GS FLX Titanium
Caractéristiques techniques GS Junior GS FLX Titanium XL+ Lectures 400 pb 700 pb GS FLX Titanium XLR70 450 pb Débit 40 Mb 700 Mb 450 Mb 100,000 1,000,000 1,000,000 Précision 99% 99% 99% Temps d'exécution 10h 23h 10h Lectures/run
2008 Séquençage de Watson Human Genome Project Génome de James Watson 13 ans > 3 milliards $ 2 mois 2 millions $ 2003 2008
Avantages & limites du 454 Avantages Débit supérieur au Sanger Fragments relativement longs Limites Débit trop faible et coût élevé pour le séquençage de génomes individuels Absence de mécanisme intégré pour arrêter l'incorporation de bases multiples (problématique des homopolymères) Grand nombre d'erreurs pour les indels
Séquençage Solexa/Illumina Preuve de principe de la technologie par le séquençage d'un génome humain. Séquençage bidirectionnel de lectures 35 pb et profondeur de séquençage > 30X en moyenne.
Principe du séquençage Illumina
Principe du séquençage Illumina Hybridation d'une amorce de séquençage universelle. Extension d'une seule base à chaque cycle par l'utilisation de nucléotides modifiés ( reversible terminators ) et marqués par fluorescence (une couleur par base). Cycle individuel de séquençage : (1) ajout d'une base, (2) acquisition d'image, (3) clivage chimique du groupement terminator et du marquage fluorescent pour le cycle suivant.
Séquenceurs Illumina
Caractéristiques techniques Lectures Débit Lectures/run Précision Temps d'exécution HiSeq HiScan SQ Genome Analyzer IIx MiSeq 2x100 pb 2x100 pb 2x150 pb 2x250 pb 600 Gb 140 Gb 96 Gb 7,5 Gb 3 milliards 700 millions 320 millions 15 millions 99,9% 99,9% 99,9% 99,9% 11 jours 8 jours 14 jours 39h
Principe des index Principe : utilisation de séquences nucléotidiques synthétiques appelées index (ou barcodes ) pour identifier et combiner plusieurs échantillons dans une même expérience de séquençage.
Illumina : vers le génome à $1000 Human Genome Project Génome de James Watson Génome individuel 13 ans > 3 milliards $ 2 mois 2 millions $ 15 jours 3 000 $ 2003 2008 2013
Avantages et limites d'illumina Avantages Technologie avec le débit le plus important et le coût/base le plus faible actuellement. Technologie adoptée par la communauté scientifique (ex : disponibilité de nombreux outils bio-informatiques en libre accès). Limites Précision inférieure au Sanger (les erreurs principales sont des substitutions) Lectures de petite taille
Séquençage Ion Torrent Principe : détection de la libération d'un proton H+ suite à l'insertion d'un nucléotide. Technologie prometteuse : pas de fluorescence, de nucléotides modifiés ou de prise d'images (stockage & rapidité de séquençage).
Séquençage Ion Torrent Préparation des librairies par empcr. Addition séquentielle de nucléotides nonterminateurs et mesure du changement de voltage en temps réel.
Séquençage Ion Torrent
Séquenceurs Ion Torrent PGM Proton
Caractéristiques techniques PGM Proton 400 pb 200 pb Débit 40 Mb 1,5 Gb 10 Gb Lectures/run 0,1 4 millions 70 millions Précision 99% 99% Temps d'exécution 4-7h 4h Lectures
Avantages et limites d'ion Torrent Avantages Séquençage rapide Taille des lectures Flexibilité au niveau du débit (puces de tailles différentes) Limites Taux d'erreurs, particulièrement pour les indels & homopolymères Débit plus faible que les appareils Illumina Outils informatiques moins développés
Avantages du NGS vs Sanger Construction in vitro de librairies à séquencer et amplification clonale subséquente (vs transformation de E. coli et sélection de colonies). Parallelisation bien supérieure par une miniaturisation du processus de séquençage permettant des millons de réactions de séquençage sur une surface donnée. Diminution des volumes de réactifs de séquençage grâce à la miniaturisation du processus et la fixation des fragments sur un support solide. Conséquence : coût bien inférieur pour un débit bien supérieur.
Désavantages du NGS vs Sanger Taille des lectures limitée (problématique pour les régions non uniques dans le génome et l'analyse bioinformatique). Précision (taux d'erreurs) inférieure au séquençage Sanger (au minimum 10 fois moindre). Problématiques liées aux 2 technologies : Régions fortement répétées (ex: triplets nucléotidiques). Régions riches en nucléotides G et C. Point à considérer : ce n'est que le début du NGS, des améliorations sont à prévoir.
Vers le génome à 1000 $? Human Genome Project Génome de James Watson Génome individuel Génome Individuel 13 ans > 3 milliards $ 2 mois 2 millions $ 15 jours 3 000 $ < 24 h? < 1000 $? 2003 2008 2013???
Nouvelles technologies de séquençage Aperçu des technologies ème de 3 génération
Helicos: séquençage cyclique de molécules uniques Technologie sans amplification préalable de l'adn basée sur des nucléotides fluorescents. Taille des lectures : 35 pb. Débit : 35 Gb, 1 milliard de lectures par run. Précision : 97%. Temps d'exécution : 8 jours
Défis à relever Préparation des librairies Coût des réactifs Stockage des données Longueur des fragments Taux d'erreurs Analyse informatique Interprétation des variations génétiques
Pacific Biosciences : séquençage cyclique de molécules uniques Observation en temps réel de l'incorporation de nucléotides fluorescents. Système existant : 75,000 lectures/run d'une taille moyenne de 1000 pb en 30 min. Limite principale : précision de 90-95%.
Séquençage par nanopore Principe : ajout d'une molécule de cyclodextrine sur la surface intérieure pour agir en tant que site de liaison à des nucléotides individuels et mesurer leur passage. Oxford Nanopore : instrument en cours de développement. Objectif (GridION 8000) : 10 millions de lectures de 10 Kb en 5 heures (100 Go de données). Actuellement 1 Go en 6 heures (Nanopore minion).
Comparaison des différentes technologies de séquençage Comment savoir quelle technologie choisir? De multiples paramètres sont à prendre en considération : Débit Applications prévues Coût des réactifs et de l'instrument Précision Outils informatiques disponibles 2013 NGS Field Guide - The molecular ecologist (lien)