Le séquençage à haut débit Mars 2011



Documents pareils
Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

CHAPITRE 3 LA SYNTHESE DES PROTEINES

3: Clonage d un gène dans un plasmide

SEQUENÇAGE LI-COR DNA 4200

TD de Biochimie 4 : Coloration.

Biologie Appliquée. Dosages Immunologiques TD9 Mai Stéphanie Sigaut INSERM U1141

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Conférence technique internationale de la FAO

Big data et sciences du Vivant L'exemple du séquençage haut débit

5.5.5 Exemple d un essai immunologique

Plateforme. DArT (Diversity Array Technology) Pierre Mournet

4 : MÉTHODES D ANALYSE UTILISÉES EN ÉCOLOGIE MICROBIENNE

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

ANTICORPS POLYCLONAUX ANTI IMMUNOGLOBULINES

Critères pour les méthodes de quantification des résidus potentiellement allergéniques de protéines de collage dans le vin (OIV-Oeno )

AGRÉGATION DE SCIENCES DE LA VIE - SCIENCES DE LA TERRE ET DE L UNIVERS

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Les outils de génétique moléculaire Les techniques liées aux acides nucléiques

MAB Solut. vos projets. MABLife Génopole Campus 1 5 rue Henri Desbruères Evry Cedex. intervient à chaque étape de

CATALOGUE DES PRESTATIONS DE LA

Les OGM. 5 décembre Nicole Mounier

SERVICES DE SEQUENÇAGE

Procédure d utilisation du Beckman CEQ 2000 XL pour la réalisation de programmes de séquençage ou de génotypage.

Production d une protéine recombinante

HRP H 2 O 2. O-nitro aniline (λmax = 490 nm) O-phénylène diamine NO 2 NH 2

1 Culture Cellulaire Microplaques 2 HTS- 3 Immunologie/ HLA 4 Microbiologie/ Bactériologie Containers 5 Tubes/ 6 Pipetage

Génétique et génomique Pierre Martin

Séquence 1. Reproduction conforme de la cellule et réplication de l ADN Variabilité génétique et mutation de l ADN

MISE AU POINT D UNE TECHNIQUE DE QUANTIFICATION DES POPULATIONS BACTERIENNES ET ARCHAEA DE L ECOSYSTEME CAECAL DU LAPIN PAR PCR EN TEMPS REEL

UE : GENE Responsable : Enseignant : ECUE 1. Enseignant : ECUE 2. Dr COULIBALY Foungotin Hamidou

Biomarqueurs en Cancérologie

Analyse d échantillons alimentaires pour la présence d organismes génétiquement modifiés

Les composites thermoplastiques

MYRIAD. l ADN isolé n est à présent plus brevetable!

Plateforme Transgenèse/Zootechnie/Exploration Fonctionnelle IBiSA. «Anexplo» Service Transgenèse. Catalogue des prestations

ÉPREUVE COMMUNE DE TIPE Partie D. TITRE : Comment s affranchir de la limite de la diffraction en microscopie optique?

altona altona RealStar CMV PCR Kit 1.0 always a drop ahead. 04/2015 altona Diagnostics GmbH Mörkenstr Hamburg Germany

L immunoenzymologie. Technique puissante couramment utilisée e en recherche et en diagnostic cificité des anticorps pour leurs nes

Gènes Diffusion - EPIC 2010

LES BIOTECHNOLOGIES DANS LE DIAGNOSTIC DES MALADIES INFECTIEUSES ET LE DÉVELOPPEMENT DES VACCINS

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Consensus Scientifique sur. les. Champs statiques

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

ATELIER IMAGEJ. Différentes applications vous sont proposées pour apprendre à utiliser quelques fonctions d ImageJ :

Isolement automatisé d ADN génomique à partir de culots de cellules sanguines à l aide de l appareil Tecan Freedom EVO -HSM Workstation

Analyse des données de séquençage massif par des méthodes phylogénétiques

Mise en œuvre de la virtualisation à l IGBMC. Guillaume Seith Remy Fritz

Chapitre 10 : Radioactivité et réactions nucléaires (chapitre 11 du livre)

Les plateformes de génétique

CASA SPERM CLASS ANALYZER

TEST ELISA (ENZYME-LINKED IMMUNOSORBENT ASSEY)

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Rapport Scientifique Seine-Aval 3

TECHNIQUES: Principes de la chromatographie

La PCR en temps réel: principes et applications

Large succès de l introduction en bourse de Genomic Vision sur Euronext à Paris qui lève 23,0 M

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires

TP N 3 La composition chimique du vivant

Atelier : L énergie nucléaire en Astrophysique

Chaine de transmission

Diagnostic biologique de la toxoplasmose

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Structure quantique cohérente et incohérente de l eau liquide

Mesures et incertitudes

Hépatite chronique B Moyens thérapeutiques

Spectrophotomètre double faisceau modèle 6800

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

De la physico-chimie à la radiobiologie: nouveaux acquis (I)

Comprendre l Univers grâce aux messages de la lumière

Table des matières. Renseignements importants sur la sécurité 2. Nettoyage et élimination 4. Spécifications 4

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

Chapitre 11: Réactions nucléaires, radioactivité et fission

Notice d utilisation M Epigenomics AG, Berlin, Allemangne

Chapitre III Le phénotype immunitaire au cours de la vie

Nouvelles techniques d imagerie laser

Fluorescent ou phosphorescent?

Analyse d échantillons alimentaires pour la présence d organismes génétiquement modifiés

M1 Informatique, Réseaux Cours 9 : Réseaux pour le multimédia

I - CLASSIFICATION DU DIABETE SUCRE

Projet Pédagogique Conférence interactive HUBERT REEVES Vendredi 13 mars H

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Assemblage adaptatif de génomes et de méta-génomes par passage de messages

Microscopie de fluorescence Etat de l art

Tout ce que vous avez toujours voulu savoir sur la scintigraphie osseuse et le TEP-SCAN

- MANIP 2 - APPLICATION À LA MESURE DE LA VITESSE DE LA LUMIÈRE

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

Projet Optiperf : les ressources du calcul parallèle à destination des architectes navals

Numérisation du signal

Généralités. Aperçu. Introduction. Précision. Instruction de montage. Lubrification. Conception. Produits. Guides à brides FNS. Guides standards GNS


On distingue deux grandes catégories de mémoires : mémoire centrale (appelée également mémoire interne)

Programme détaillé. LES TABLEAUX DE BORD Formation en présentiel (21 h) accompagnée d un parcours e-learning Excel (5 h)

Big Data et la santé

Suivi d une réaction lente par chromatographie

Réduction de la pollution d un moteur diesel

Environmental Research and Innovation ( ERIN )

PRODUIRE DES SIGNAUX 1 : LES ONDES ELECTROMAGNETIQUES, SUPPORT DE CHOIX POUR TRANSMETTRE DES INFORMATIONS

Simulation d'un examen anthropomorphique en imagerie TEMP à l iode 131 par simulation Monte Carlo GATE

Transcription:

Atelier Epigénétique Université Pierre et Marie Curie Le séquençage à haut débit Mars 2011 Stéphane Le Crom (lecrom@biologie.ens.fr) Institut de Biologie de l École normale supérieure (IBENS) de la Montagne Sainte Geneviève

Le séquençage par la méthode Sanger Méthode par synthèse enzymatique inventée en 1977 par Frédérick Sanger (Angleterre, nobel de Chimie 1980). Initiation de la polymérisation de l ADN à l'aide d'une amorce complémentaire. Élongation de l amorce par des ADN polymérases thermostables (PCR). Addition des quatre désoxyribonucléotides (datp, dctp, dgtp, dttp) et d une faible concentration de l'un des quatre didésoxynucléotides (ddatp, ddctp, ddgtp ou ddttp). Ces ddntp une fois incorporés dans le nouveau brin synthétisé, empêchent la poursuite de l élongation. La terminaison se fait de manière statistique sur toutes les positions possibles. D après The Scientist

Lecture de la séquence On obtient un mélange de fragments d ADN de tailles croissantes qui se terminent tous au niveau d'une des bases dans la séquence. Ces fragments sont séparés par électrophorèse sur gel de polyacrylamide. La détection des fragments synthétisés se fait en incorporant un traceur dans l'adn synthétisé. Initialement ce traceur était radioactif, attachés soit à l'oligonucléotide, soit au didésoxyribonucléotide. Environ 1 kb d ADN par lecture en 6-8 heures. Une lecture par échantillon. Du plus grand Au plus petit A C G T

Les séquenceurs à capillaires Les séquenceurs capillaires sont apparus dans les années 90 grâce au remplacement du marqueur radioactif par un marqueur fluorescent. Utilisation des tubes capillaires de verre de seulement quelques microns de diamètre, sur plusieurs dizaines de centimètres de longueur (30 à 50 cm), pour séparer l'adn durant l'électrophorèse. Les quatre nucléotides passent dans le même tube capillaire à l aide de quatre marqueurs fluorescents différents. 300 kb d ADN par lecture en 3 heures. Un grand nombre d échantillons en parallèle.

Les nouvelles méthodes de séquençage à haut débit

Historique des technologies en présence Principe : obtention de séquences courtes en très grand nombre. Roche : 454 GS FLX Illumina/Solexa : Genome Analyzer Applied Biosystems : SOLiD

La technologie 454 (préparation) Fractionnement aléatoire de l ADN de l échantillon à analyser en morceaux de 300 à 800 pb pour obtenir une banque d ADN simple brin matrice. Préparation en ajoutant des adaptateurs spécifiques des extrémités 3' et 5. Immobilisation de chaque brin sur une bille. Un fragment d ADN = une bille. Émulsion des billes avec les produits d amplification dans un mélange eau-huile. Création de microréacteurs contenant une seule bille. PCR en émulsion. Amplification de chaque séquence dans son microréacteur. Amplification de toute la banque en parallèle. Plusieurs millions de copies par bille. Mardis (2008) Trends Genet.

La technologie 454 (séquençage) Purification et chargement des fragments sur plaque. Le diamètre des puits ne permet qu une seule bille à la fois. Ajout des enzymes de séquençage et envoi des nucléotides individuels les uns après les autres. Les bases complémentaires du brin matrice s ajoutent une ou plusieurs à la fois. Le signal chimie luminescent est enregistré par une caméra CCD. Séquençage par synthèse avec émission de lumière, on parle de pyroséquençage. Mardis (2008) Trends Genet.

La technologie 454 (lecture) La lecture est effectuée en simultanée sur plusieurs bases incorporées. Le «flowgram» est alors lu pour obtenir la séquence. On obtient : - 400 000 lectures ; - chacune de 250 bases ; - 100 Mb par run. Les erreurs majeures de séquences proviennent avec cette méthode des homopolymères. http://www.454.com/

La technologie Illumina/Solexa (préparation) Génération d une banque d ADN double brin à partir de l échantillon à analyser par fractionnement aléatoire en morceaux de 200 pb. Ajout d adaptateurs spécifiques aux extrémités. Dénaturation de l ADN en simple brin. Fixation de l extrémité des simples brins aléatoirement à la surface du «flowcell». PCR «bridge» en phase solide. Création d un double brin. Dénaturation et création de groupes (clusters) denses où les fragments sont amplifiés. http://www.illumina.com/

La technologie Illumina/Solexa (séquençage) Le premier cycle de séquençage commence en ajoutant les 4 terminateurs réversibles marqués, les amorces et l ADN polymérase. Après excitation par un laser, la fluorescence émise par chaque cluster est récupérée et la première base est lue. Le cycle suivant continue en ajoutant les 4 terminateurs réversibles marqués. Après excitation l image est acquise de la même façon et la deuxième base est lue. Les cycles de séquences sont répétés pour lire chaque base les unes après les autres. Vidéo présentation Illumina/Solexa http://www.illumina.com/

La technologie Illumina/Solexa (lecture) La lecture est effectuée à chaque position sur toutes les séquences en parallèle. On obtient : - 45 000 000 de lectures ; - chacune de 36 bases ; - 1 Gb par run. Les erreurs majeures de séquences proviennent d erreur de séquençage (99%) http://www.illumina.com/

La technologie SOLiD (préparation) Fabrication de deux types de banque : classique ou «matepaired». Ajout d adaptateurs. PCR par émulsion comme dans la méthode 454. Enrichissement des billes amplifiées. Modification en 3 pour permettre la fixation covalente sur une lame. Dépôts des billes sur la lame qui peut-être séparée en chambres. http://www3.appliedbiosystems.com/ab_home/applicationstechnologies/solidsystemsequencing/

La technologie SOLiD (séquençage) Séquençage par ligation. Des amorces s hybrident sur les adaptateurs présents sur la matrice. Un jeu de 4 sondes de 2 bases marquées en fluorescence sont associées aux amorces. La spécificité des sondes de 2 bases s effectue avec les 1 ère et 2 nd bases de chaque réaction de ligation. Plusieurs cycles de ligation, détection et clivages sont effectués. Les produits d extension sont retirés et une nouvelle amorce complémentaire de la positon n-1 est utilisée pour un second tour de ligations. http://www3.appliedbiosystems.com/ab_home/applicationstechnologies/solidsystemsequencing/

La technologie SOLiD (séquençage) Cinq tours de remise à zéro des amorces sont effectués pour chaque séquence. À chaque nouvelle mise à jour le primer utilisé interroge la position n-1. Dans ce processus chaque base est interrogée dans deux réactions de ligation indépendantes par deux différentes amorces. Par exemple la base en position 5 est mesurée par l amorce 2 dans le cycle de ligation 2 et par l amorce 3 dans le cycle de ligation 1. Vidéo présentation SOLiD http://www3.appliedbiosystems.com/ab_home/applicationstechnologies/solidsystemsequencing/

La technologie SOLiD (séquençage) Le codage des résultats est effectué sur 2 bases dans un espace de 4 couleurs. La lecture des séquences est effectuée dans un espace de couleur. À partir du moment où l on connaît la première base, la conversion de l espace des couleurs vers celui des bases est possible. La séquence de référence est codée dans l espace de couleur. L alignement et la séquence consensus sont aussi effectués dans cet espace. http://www3.appliedbiosystems.com/ab_home/applicationstechnologies/solidsystemsequencing/

La technologie SOLiD (lecture) Le système de codage de la lecture sur deux bases permet une très grande fidélité de la lecture des résultats. Avec ce système on peut faire la différence entre les erreurs de séquençages et les variants réels (SNP, insertions et délétions). On obtient : - 80 000 000 de lectures ; - chacune de 30 bases ; - 3 Gb par run. Le système de codage dans l espace de couleur rend l analyse informatique relativement complexe. Mardis (2008) Trends Genet.

Comparaison des différentes technologies Mardis (2008) Trends Genet. Et http://www.agencourt.com/services/nextgen/

Les améliorations actuelles Augmentation de la densité des éléments (puits, clusters, billes). Utilisation du système «paired-end tags» (PET) ou «mate-pair». Amélioration des logiciels de détections. Fullwood (2009) Genome Res.

Comparaison des dernières générations 454 GS FLX SOLiD 5500XL HiSeq 2000 Run Time 10 heures 14 jours 8 jours Taille des lectures (pb) 1000 2x 75 2x 100 Nombre de lectures 1 10 6 1,4 10 9 1 10 9 Données générées 1 Gb 300 Gb 200 Gb Débit 1 Gb/jour 15 Gb/jour 25 Gb/jour

L évolution des technologies de séquençage Stratton (2009) Nature

L évolution des technologies de séquençage 10 10 10 9 10 8 10 7 10 6 10 5 10 4 10 3 Coût du séquençage du génome humain (en $) Stratton (2009) Nature

Les prochaines générations

Le séquençage en temps réel Technologie de séquençage en temps réel sur molécule unique grâce à l immobilisation au fond d un puits d une molécule d ADN polymérase. L incorporation de chaque base associée à un fluorochrome est mesuré en temps réel grâce à une caméra CDD placée sous la plaque support. Eid (2009) Science

Pacific Biosciences Vidéo de présentation de Pacific Biosciences http://www.pacificbiosciences.com/

Les applications

Elles recouvrent les techniques précédentes Kahvejian et al. (2008) Nat. Biotech.

Elles peuvent se regrouper en 2 catégories Rothberg et Leamon (2008) Nat. Biotech.

Le séquençage de novo Les nouvelles technologies permettent de séquencer plus vite et pour moins cher qu avec la méthode de Sanger. Seulement les lectures sont plus petites et chaque méthode à ses propres limites. La combinaison de plusieurs méthodes différentes permet pour de petits génomes d obtenir des brouillons de bonne qualité. => Combinaison 454 et Illumina. Taux d erreur faible et couverture uniforme car absence des biais introduits par le clonage dans la méthode Sanger. Les erreurs sont différentes entre les deux méthodes. Aury et al. (2008) BMC Genomics

Les applications de reséquençage Leurs buts : analyser différents génomes en les comparant à une souche de référence. Recherche de polymorphismes dans une population, d identification de mutations en biotechnologie, d analyse d évolution d organismes, de différenciation d une cellule au cours du temps, de la découverte d ADN anciens Métagénomique : caractériser les différents génomes présents dans un échantillon. Le champs des applications de cette approche est important : caractériser les micro-organismes pathogènes présents chez un patient (sang, tissus, ), définir l ensemble des espèces présents dans l environnement (écologie, dépollution, ), comprendre l évolution des espèces, http://www.jgi.doe.gov/news/lake_washington_microbes.jpg

Les applications fonctionnelles Wold et al. (2008) Nat. Methods

Les applications sont très nombreuses Shendure et Ji (2008) Nat. Biotech.

Le traitement informatique

Montagne Sainte Geneviève L analyse des données http://transcriptome.ens.fr Atelier Épigénétique, UPMC, Mars 2011

L analyse des données L obtention de données en très grand nombre nécessite la mobilisation de ressources informatiques importantes. Les systèmes d analyse produisent des To de données à chaque expérience (nombreuses images à forte résolution). Les seuls fichiers de résultats prennent beaucoup d espace (4Go compressé avec Illumina) empêchant les transferts par le réseau de façon efficace. L alignement des lectures sur les génomes de grande taille demande beaucoup de mémoire vive et de temps de calcul. http://www.geospiza.com/finchtalk/labels/next Generation Sequencing.html

Les nouvelles technologies de séquençage Avantages Pas de sous-clonage ni d utilisation de bactérie comme hôte : - plus de biais ; - banques plus simples. Chaque séquence provient d une molécule d ADN unique : - quantification ; - gamme dynamique plus grande. Résolution importante pour un très grand nombre de types d expériences différentes. Amélioration considérable dans la vitesse et dans le coût comparé à la méthode de Sanger. Inconvénients Les séquences obtenues sont plus courtes : - par rapport à Sanger ; - paramètres du «base calling» ; - analyses bioinfo à repenser. La quantité de données générées pose de vrai problème d informatique : - plusieurs To par run ; - utilisation de temps CPU ; - Choisir ce qui doit être archivé. La technologie évolue sans cesse ce qui pose des problèmes pour l amortissement des appareils. La fabrication des banques n est pas une étape si simple.

Quel avenir pour les puces à ADN?

Les puces à ADN vont elles disparaître? Les applications du séquençage recouvrent celles des puces à ADN. La technologie est plus sensible pour détecter les gènes faiblement exprimés. La gamme dynamique est plus large (pas de saturation). Elle est plus précise, plus rapide et moins couteuse pour détecter les SNP dans de grands génomes. Les puces à ADN nécessitent de connaître la séquence à analyser. Ledford (2008) Nature et Shendure (2008) Nat. Methods

Le séquençage s affranchit de l hybridation A complémentaire de T G complémentaire de C Deux séquences complémentaires peuvent s apparier (hybrider). L hybridation est influencée par de nombreux paramètres : Spécificité (cross-hybridation) Sensibilité (Tm, structure secondaire, ) Séquences choisies (taille, composition) Certains paramètres peuvent être contrôlés par la stringence du milieu d hybridation (température, concentration saline et présence d agents déstabilisant les liaisons H comme la formamide).

Comparaison des forces en présence Wang et al. (2009) Nat. Rev. Genet.

Des applications dédiées Les puces à ADN vont de plus en plus se tournées vers des applications de diagnostique ou de criblage. On peut imaginer avec le couplage de l hybridation et de l analyse en temps réel que des solutions rapides et mobiles seront disponibles dans le futur. L augmentation de la densité et surtout du multiplexage va permettre de diminuer le coût de chaque hybridation (moins de 100 euros). Des applications de capture pour ensuite séquencer sont aussi en cours de validation.