Atelier Epigénétique Université Pierre et Marie Curie Le séquençage à haut débit Juin 2012 Stéphane Le Crom (stephane.le_crom@upmc.fr) Laboratoire de Biologie du Développement (UPMC) de la Montagne Sainte Geneviève
Le séquençage par la méthode Sanger Méthode par synthèse enzymatique inventée en 1977 par Frédérick Sanger (Angleterre, nobel de Chimie 1980). Initiation de la polymérisation de l ADN à l'aide d'une amorce complémentaire. Élongation de l amorce par des ADN polymérases thermostables (PCR). Addition des quatre désoxyribonucléotides (datp, dctp, dgtp, dttp) et d une faible concentration de l'un des quatre didésoxynucléotides (ddatp, ddctp, ddgtp ou ddttp). Ces ddntp une fois incorporés dans le nouveau brin synthétisé, empêchent la poursuite de l élongation. La terminaison se fait de manière statistique sur toutes les positions possibles. D après The Scientist
Lecture de la séquence On obtient un mélange de fragments d ADN de tailles croissantes qui se terminent tous au niveau d'une des bases dans la séquence. Ces fragments sont séparés par électrophorèse sur gel de polyacrylamide. La détection des fragments synthétisés se fait en incorporant un traceur dans l'adn synthétisé. Initialement ce traceur était radioactif, attachés soit à l'oligonucléotide, soit au didésoxyribonucléotide. Environ 1 kb d ADN par lecture en 6-8 heures. Une lecture par échantillon. Du plus grand Au plus petit A C G T
Les séquenceurs à capillaires Les séquenceurs capillaires sont apparus dans les années 90 grâce au remplacement du marqueur radioactif par un marqueur fluorescent. Utilisation des tubes capillaires de verre de seulement quelques microns de diamètre, sur plusieurs dizaines de centimètres de longueur (30 à 50 cm), pour séparer l'adn durant l'électrophorèse. Les quatre nucléotides passent dans le même tube capillaire à l aide de quatre marqueurs fluorescents différents. 300 kb d ADN par lecture en 3 heures. Un grand nombre d échantillons en parallèle.
Les nouvelles méthodes de séquençage à haut débit
Historique des technologies en présence Principe : obtention de séquences courtes en très grand nombre. Roche : 454 GS FLX Illumina/Solexa : Genome Analyzer Applied Biosystems : SOLiD
La technologie 454 (préparation) Fractionnement aléatoire de l ADN de l échantillon à analyser en morceaux de 300 à 800 pb pour obtenir une banque d ADN simple brin matrice. Préparation en ajoutant des adaptateurs spécifiques des extrémités 3' et 5. Immobilisation de chaque brin sur une bille. Un fragment d ADN = une bille. Émulsion des billes avec les produits d amplification dans un mélange eau-huile. Création de microréacteurs contenant une seule bille. PCR en émulsion. Amplification de chaque séquence dans son microréacteur. Amplification de toute la banque en parallèle. Plusieurs millions de copies par bille. Mardis (2008) Trends Genet.
La technologie 454 (séquençage) Purification et chargement des fragments sur plaque. Le diamètre des puits ne permet qu une seule bille à la fois. Ajout des enzymes de séquençage et envoi des nucléotides individuels les uns après les autres. Les bases complémentaires du brin matrice s ajoutent une ou plusieurs à la fois. Le signal chimie luminescent est enregistré par une caméra CCD. Séquençage par synthèse avec émission de lumière, on parle de pyroséquençage. Mardis (2008) Trends Genet.
La technologie 454 (lecture) La lecture est effectuée en simultanée sur plusieurs bases incorporées. Le «flowgram» est alors lu pour obtenir la séquence. On obtient : - 400 000 lectures ; - chacune de 250 bases ; - 100 Mb par run. Les erreurs majeures de séquences proviennent avec cette méthode des homopolymères. http://www.454.com/
La technologie Illumina/Solexa (préparation) Génération d une banque d ADN double brin à partir de l échantillon à analyser par fractionnement aléatoire en morceaux de 200 pb. Ajout d adaptateurs spécifiques aux extrémités. Dénaturation de l ADN en simple brin. Fixation de l extrémité des simples brins aléatoirement à la surface du «flowcell». PCR «bridge» en phase solide. Création d un double brin. Dénaturation et création de groupes (clusters) denses où les fragments sont amplifiés. http://www.illumina.com/
La technologie Illumina/Solexa (séquençage) Le premier cycle de séquençage commence en ajoutant les 4 terminateurs réversibles marqués, les amorces et l ADN polymérase. Après excitation par un laser, la fluorescence émise par chaque cluster est récupérée et la première base est lue. Le cycle suivant continue en ajoutant les 4 terminateurs réversibles marqués. Après excitation l image est acquise de la même façon et la deuxième base est lue. Les cycles de séquences sont répétés pour lire chaque base les unes après les autres. Vidéo présentation Illumina/Solexa http://www.illumina.com/
La technologie Illumina/Solexa (lecture) La lecture est effectuée à chaque position sur toutes les séquences en parallèle. On obtient : - 45 000 000 de lectures ; - chacune de 36 bases ; - 1 Gb par run. Les erreurs majeures de séquences proviennent d erreur de séquençage (99%) http://www.illumina.com/
La technologie SOLiD (préparation) Fabrication de deux types de banque : classique ou «matepaired». Ajout d adaptateurs. PCR par émulsion comme dans la méthode 454. Enrichissement des billes amplifiées. Modification en 3 pour permettre la fixation covalente sur une lame. Dépôts des billes sur la lame qui peut-être séparée en chambres. http://www3.appliedbiosystems.com/ab_home/applicationstechnologies/solidsystemsequencing/
La technologie SOLiD (séquençage) Séquençage par ligation. Des amorces s hybrident sur les adaptateurs présents sur la matrice. Un jeu de 4 sondes de 2 bases marquées en fluorescence sont associées aux amorces. La spécificité des sondes de 2 bases s effectue avec les 1 ère et 2 nd bases de chaque réaction de ligation. Plusieurs cycles de ligation, détection et clivages sont effectués. Les produits d extension sont retirés et une nouvelle amorce complémentaire de la positon n-1 est utilisée pour un second tour de ligations. http://www3.appliedbiosystems.com/ab_home/applicationstechnologies/solidsystemsequencing/
La technologie SOLiD (séquençage) Cinq tours de remise à zéro des amorces sont effectués pour chaque séquence. À chaque nouvelle mise à jour le primer utilisé interroge la position n-1. Dans ce processus chaque base est interrogée dans deux réactions de ligation indépendantes par deux différentes amorces. Par exemple la base en position 5 est mesurée par l amorce 2 dans le cycle de ligation 2 et par l amorce 3 dans le cycle de ligation 1. Vidéo présentation SOLiD http://www3.appliedbiosystems.com/ab_home/applicationstechnologies/solidsystemsequencing/
La technologie SOLiD (séquençage) Le codage des résultats est effectué sur 2 bases dans un espace de 4 couleurs. La lecture des séquences est effectuée dans un espace de couleur. À partir du moment où l on connaît la première base, la conversion de l espace des couleurs vers celui des bases est possible. La séquence de référence est codée dans l espace de couleur. L alignement et la séquence consensus sont aussi effectués dans cet espace. http://www3.appliedbiosystems.com/ab_home/applicationstechnologies/solidsystemsequencing/
La technologie SOLiD (lecture) Le système de codage de la lecture sur deux bases permet une très grande fidélité de la lecture des résultats. Avec ce système on peut faire la différence entre les erreurs de séquençages et les variants réels (SNP, insertions et délétions). On obtient : - 80 000 000 de lectures ; - chacune de 30 bases ; - 3 Gb par run. Le système de codage dans l espace de couleur rend l analyse informatique relativement complexe. Mardis (2008) Trends Genet.
Comparaison des différentes technologies Mardis (2008) Trends Genet. Et http://www.agencourt.com/services/nextgen/
Les améliorations actuelles Augmentation de la densité des éléments (puits, clusters, billes). Amélioration des logiciels de détections. Utilisation du système «paired-end tags» (PET) ou «mate-pair». Fullwood (2009) Genome Res.
Les séquences Paired-End Détection des associations à plus longue distance. Facilite la détection des évènements de transcription. Dans le cas des analyses génomiques, les séquences Paired-End permettent de trouver les variants structuraux et de passer pas dessus les régions répétées des génomes. Ozsolak & Milos (2009) Nat. Rev. Genet.
Comparaison des derniers modèles 454 GS FLX SOLiD 5500XL HiSeq 2000 Run Time 10 heures 10 jours 8 jours Taille des lectures (pb) 1000 2x 75 2x 100 Nombre de lectures 1 10 6 1,4 10 9 3 10 9 Données générées 1 Gb 300 Gb 600 Gb Débit 1 Gb/jour 30 Gb/jour 75 Gb/jour
L évolution des technologies de séquençage Stratton (2009) Nature
L évolution des technologies de séquençage 10 10 10 9 10 8 10 7 10 6 10 5 10 4 10 3 Coût du séquençage du génome humain (en $) Stratton (2009) Nature
La troisième génération
Le séquençage en temps réel Technologie de séquençage en temps réel sur molécule unique grâce à l immobilisation au fond d un puits d une molécule d ADN polymérase. L incorporation de chaque base associée à un fluorochrome est mesuré en temps réel grâce à une caméra CDD placée sous la plaque support. Eid (2009) Science
Pacific Biosciences Vidéo de présentation de Pacific Biosciences http://www.pacificbiosciences.com/
La technologie nanopore Un système nanopore permet la détection de molécules uniques en faisant passer des molécules en solution à travers un pore à l échelle nanométrique. Le système facilite l analyse d une molécule d ADN à haut débit en analysant les bases qui le compose les unes après les autres. La détection s effectue à l échelle du kilobase. Plusieurs types de molécules peuvent être détectées (ADN ou ARN) avec ce système sans amplification. Branton (2008) Nat. Biotech.
Les applications
Elles recouvrent les techniques précédentes Kahvejian et al. (2008) Nat. Biotech.
Elles peuvent se regrouper en 2 catégories Rothberg et Leamon (2008) Nat. Biotech.
Le séquençage de novo Les nouvelles technologies permettent de séquencer plus vite et pour moins cher qu avec la méthode de Sanger. Seulement les lectures sont plus petites et chaque méthode à ses propres limites. La combinaison de plusieurs méthodes différentes permet pour de petits génomes d obtenir des brouillons de bonne qualité. => Combinaison 454 et Illumina. Taux d erreur faible et couverture uniforme car absence des biais introduits par le clonage dans la méthode Sanger. Les erreurs sont différentes entre les deux méthodes. Aury et al. (2008) BMC Genomics
Les applications de reséquençage Leurs buts : analyser différents génomes en les comparant à une souche de référence. Recherche de polymorphismes dans une population, d identification de mutations en biotechnologie, d analyse d évolution d organismes, de différenciation d une cellule au cours du temps, de la découverte d ADN anciens Métagénomique : caractériser les différents génomes présents dans un échantillon. Le champs des applications de cette approche est important : caractériser les micro-organismes pathogènes présents chez un patient (sang, tissus, ), définir l ensemble des espèces présents dans l environnement (écologie, dépollution, ), comprendre l évolution des espèces, http://www.jgi.doe.gov/news/lake_washington_microbes.jpg
Les applications fonctionnelles Wold et al. (2008) Nat. Methods
Les nouvelles technologies de séquençage Avantages Pas de sous-clonage ni d utilisation de bactérie comme hôte : - plus de biais ; - banques plus simples. Chaque séquence provient d une molécule d ADN unique : - quantification ; - gamme dynamique plus grande. Résolution importante pour un très grand nombre de types d expériences différentes. Amélioration considérable dans la vitesse et dans le coût comparé à la méthode de Sanger. Inconvénients Les séquences obtenues sont plus courtes : - par rapport à Sanger ; - paramètres du «base calling» ; - analyses bioinfo à repenser. La quantité de données générées pose de vrai problème d informatique : - plusieurs To par run ; - utilisation de temps CPU ; - Choisir ce qui doit être archivé. La technologie évolue sans cesse ce qui pose des problèmes pour l amortissement des appareils. La fabrication des banques n est pas une étape si simple.
Le traitement informatique
Montagne Sainte Geneviève L analyse des données http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Juin 2012
Stockage des lectures : le format fastq Format de fichier texte qui stocke les séquences des lectures ainsi que leur qualité. Stockage sur 4 lignes 1. @ Identifiant de la séquence 2. Séquence brute 3. + Identifiant (optionnel) 4. Qualité de la séquence @HWI-EAS285:1:1:35:1578#0/1! GCGGTATCCTNGTCTAAGAATCCGGTAAGNTNTATC! +HWI-EAS285:1:1:35:1578#0/1! a`a`z\a`aab^\^a`]z^_`^[]tus\qbab[^! @HWI-EAS285:1:1:35:195#0/1! GCCAGAGCGGNGAGGGCAAGGGCAACAAANGNGGGC! +HWI-EAS285:1:1:35:195#0/1! aaaa`_x`[qb`a`[aa`\`ymxaa_ubbbbbbbbb! @HWI-EAS285:1:1:35:1320#0/1! CGAATACGAGNCACACACATACCGCACTTCTTCCCA! +HWI-EAS285:1:1:35:1320#0/1! ab^]aaab\abaaaa_aaaaaa`aa``` ` a! @HWI-EAS285:1:1:35:1010#0/1! CTTTGAAAAAATTAGAGTGCTCAAGTCAGGCCTATG! +HWI-EAS285:1:1:35:1010#0/1! aabb\^^\^`aaaa[`p]p]_``awva^nra_``_s! http://en.wikipedia.org/wiki/fastq_format
Stockage des alignements : le format SAM Les résultats de l alignement des lectures sur le génome de référence est stocké dans un fichier de type texte au format SAM (Sequence Alignment/Map). Format de gestion des alignements générique (plus que le fastq). Supporte différentes plateformes de séquençage et différentes tailles de lecture. Des lignes d en-têtes peuvent être ajoutées pour décrire les données et les traitements effectués. Elles commencent par @. http://samtools.sourceforge.net/
La baisse des coûts du séquençage = Le début de la génomique «personnelle»
Le séquençage des génomes individuels Encore plus rapide avec les nouveaux séquenceurs Premier génome humain séquencer avec les nouvelles méthodes à haut débit. Génome de James Watson. Navigateur génomique public et accessible à tous. Wheeler et al. (2008) Nature
Applications disponibles Séquençage de transcriptome entier : RNA-Seq Matériel de départ : ARN total Contrôle qualité des échantillons d ARN Préparation des banques - Illumina TruSeq, purification polya - 1 µg (min 500 ng) - ou Epicentre ScriptSeq (directionnel), déplétion ribosomique - 2 µg (min 1 µg) + amplification des ARN (pour les faibles quantités de matériel de départ) - NuGEN Ovation system - 10 ng (min 500 pg) Chromatine IP et séquençage : ChIP-Seq Matériel de départ : ADN immunoprécipité et fragmenté (< 500 bp) Contrôle qualité des échantillons d ADN Préparation des banques - NEXTflex (Bioo Scientific) - 30 ng (min 10 ng)
Séquençage Contrôle qualité et normalisation des banques Séquençage - Lectures simples de 50 bases - ou lectures associées (Paired-End) de 2x100 bases - Multiplexage des banques (2-4 échantillons / ligne) Spécifications des derniers runs (SR 50 V3) - 1.3 10 9 lectures totales (passant les filtres illumina) - 168 10 6 (± 45 10 6 ) lectures par ligne en moyenne - 95% des lectures avec une qualité >Q30 (erreur de détection de base < 0.1%)
Analyses bioinformatiques Analyses des données depuis les sorties brutes du séquenceur (fichiers fastq compressés en bzip2). Génération de rapports de qualité. Alignement des lectures sur un génome de référence. Création de fichiers BAM indexés et triés pour la visualisation dans un navigateur de génome (IGV). + RNA-Seq - Estimation de l abondance des transcrits. - Analyse statistique (normalisation et expression différentielle).
Exemple de tarif Protocole RNA-Seq non directionnel à partir d ARN total. Toutes les étapes sont incluses jusqu à la liste des gènes différentiellement exprimés. Prix HT / échantillon Contrôle qualité des échantillons 8 Fabrication de la banque RNA-Seq 170 Contrôle et normalisation des banques 18 Séquençage Single Read 50 bases (multiplexage : 3 échantillons par ligne) 330 Analyse bioinformatique 90 Total 616 Pour toute question, contactez nous : sgdb@biologie.ens.fr