MODULE 1 Cours 1. Introduction aux technologies de séquençage nouvelle génération



Documents pareils
CHAPITRE 3 LA SYNTHESE DES PROTEINES

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

Big data et sciences du Vivant L'exemple du séquençage haut débit

TD de Biochimie 4 : Coloration.

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

La surveillance biologique des salariés Surveiller pour prévenir

SERVICES DE SEQUENÇAGE

Les outils de génétique moléculaire Les techniques liées aux acides nucléiques

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Les OGM. 5 décembre Nicole Mounier

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

De la physico-chimie à la radiobiologie: nouveaux acquis (I)

Contrôle de l'expression génétique :

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

CATALOGUE DES PRESTATIONS DE LA

Biomarqueurs en Cancérologie

Table des matières. Renseignements importants sur la sécurité 2. Nettoyage et élimination 4. Spécifications 4

Large succès de l introduction en bourse de Genomic Vision sur Euronext à Paris qui lève 23,0 M

Big Data et la santé

Bases moléculaires des mutations Marc Jeanpierre

Univers Vivant Révision. Notions STE

Introduction à la Génomique Fonctionnelle

Assemblage adaptatif de génomes et de méta-génomes par passage de messages

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

IMMUNOLOGIE. La spécificité des immunoglobulines et des récepteurs T. Informations scientifiques

MYRIAD. l ADN isolé n est à présent plus brevetable!

UE : GENE Responsable : Enseignant : ECUE 1. Enseignant : ECUE 2. Dr COULIBALY Foungotin Hamidou

3: Clonage d un gène dans un plasmide

Structure quantique cohérente et incohérente de l eau liquide

Travaux dirigés de Microbiologie Master I Sciences des Génomes et des Organismes Janvier 2015

Laboratoire de Photophysique et de Photochimie Supra- et Macromoléculaires (UMR 8531)

2 C est quoi la chimie?

Plateforme. DArT (Diversity Array Technology) Pierre Mournet

Les tests génétiques à des fins médicales

Chapitre 2 - Complexité des relations entre génotype et phénotype

MAB Solut. vos projets. MABLife Génopole Campus 1 5 rue Henri Desbruères Evry Cedex. intervient à chaque étape de

Critères pour les méthodes de quantification des résidus potentiellement allergéniques de protéines de collage dans le vin (OIV-Oeno )

Hépatite chronique B Moyens thérapeutiques

Maxwell 16 Blood DNA Purification System

4 : MÉTHODES D ANALYSE UTILISÉES EN ÉCOLOGIE MICROBIENNE

Contrôle de l'expression génétique : Les régulations post-transcriptionnelles

Conférence technique internationale de la FAO

1 Culture Cellulaire Microplaques 2 HTS- 3 Immunologie/ HLA 4 Microbiologie/ Bactériologie Containers 5 Tubes/ 6 Pipetage

Compléments - Chapitre 5 Spectroscopie

Principe de fonctionnement des batteries au lithium

Séquençage et Assemblage. de Génomes. François Denizot Emmanuel Talla LCB-IBSM CNRS

Production d une protéine recombinante

Séquence 2. L expression du patrimoine génétique. Sommaire

Est-elle bonne à boire?

Bases de données des mutations

Gènes Diffusion - EPIC 2010

Jean-François Boulicaut & Mohand-Saïd Hacid

VI- Expression du génome

Biologie Appliquée. Dosages Immunologiques TD9 Mai Stéphanie Sigaut INSERM U1141

Identification de nouveaux membres dans des familles d'interleukines

AutoCAD Petit exercice sous

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Accréditation n Liste des sites accrédités et portée disponibles sur

Les débuts de la génétique

Marquage CE et dispositifs médicaux

Optimisation multi-critère pour l allocation de ressources sur Clouds distribués avec prise en compte de l énergie

SÉQUENÇAGE DE TYPE RAD-SEQ, PRÉSENTATION ET TRAITEMENT ANALYTIQUE

Transfusions sanguines, greffes et transplantations

Diagnostic biologique de la toxoplasmose

ACIDES BASES. Chap.5 SPIESS

Brest (29) Lessay (50), Mars 2012

Plateforme Transgenèse/Zootechnie/Exploration Fonctionnelle IBiSA. «Anexplo» Service Transgenèse. Catalogue des prestations

Rapport Scientifique Seine-Aval 3

Simulations numériques de figures de diffractions à l'usage de la sixième secondaire et du premier baccalauréat

AMAMI Anaïs 3 C LORDEL Maryne. Les dons de cellules & de tissus.

Construire le Business Case lié à l automatisation du Cloud avec vcloud Suite

SEQUENÇAGE LI-COR DNA 4200

P.L.E.A.S.E. Painless Laser Epidermal System Needle-free drug delivery. Arne Heinrich

Batterie Li-ion Evolion. La solution éprouvée ultracompacte de Saft pour les applications télécoms

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Génétique et génomique Pierre Martin

Système MiSeq MD Guide de préparation du site

Chapitre 7 : Structure de la cellule Le noyau cellulaire

Interactions des rayonnements avec la matière

altona altona RealStar CMV PCR Kit 1.0 always a drop ahead. 04/2015 altona Diagnostics GmbH Mörkenstr Hamburg Germany


Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

L universalité et la variabilité de l ADN

Ingénieur R&D en bio-informatique

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

NEXTEEM. Préparation à l Entretien Client. Phase I - L avant entretien :

La recherche d'indices par fluorescence

Mesures in situ et sur site

CHAPITRE 2 : Structure électronique des molécules

Résumé de la thèse intitulée

ANTICORPS POLYCLONAUX ANTI IMMUNOGLOBULINES

ATELIER SANTE PREVENTION N 2 : L ALIMENTATION

FAQ CLEARFIL SE BOND. Pagina 1 van 5

LA TRANSMISSION DES CARACTÈRES

A-ESSE s.p.a. FICHE DE SÉCURITÉ

Formavie Différentes versions du format PDB Les champs dans les fichiers PDB Le champ «ATOM» Limites du format PDB...

Evaluation de cépages résistants ou tolérants aux principales maladies cryptogamiques de la vigne

EXERCICES : MECANISMES DE L IMMUNITE : pages

Transcription:

MODULE 1 Cours 1 Introduction aux technologies de séquençage nouvelle génération nde Séquençage de 2 génération & aperçu des technologies ème de 3 génération Jean-Baptiste Rivière, PhD jean-baptiste.riviere@u-bourgogne.fr 16 octobre 2013

Mise en contexte de Mendel au $1000 genome

1865 Mendel et les bases de l'hérédité Père de la génétique moderne pour ses travaux de croisement de pois entre 1856 et 1863. Première notion d'hérédité par des unités transmissibles d'une génération à l'autre. Ces unités sont aujourd'hui reconnues sous le terme de gènes. Débuts de la génétique moléculaire.

1869 Miescher et la nucléine Friedrich Miescher : biologiste suisse étudiant les globules blancs. 1869 : découverte d'une substance non protéique et non lipidique mais riche en phosphate dans le noyau des cellules. La nucléine sera plus tard caractérisée et nommée acide désoxyribonucléique (ADN).

1952 Rosalind Franklin et la photo 51 Rosalind Franklin utilisait la diffraction des rayons X pour l'étude de matériaux biologiques dont l'adn. 1952 : prise de la photo 51 montrant la structure hélicale de l'adn. Article de Franklin publié en 1953 dans la revue Nature en même temps que celui de Watson et Crick.

1953 Découverte de la double hélice Modèle de la structure de l'adn par Watson et Crick en 1953. Structure en double hélice avec les sucres et phosphates formant la structure externe et les bases pointant vers le centre. Connexion des bases par des ponts hydrogène en paires (A-T et C-G), deux brins parallèles mais orientés dans des directions opposées. Première suggestion du mécanisme de réplication du matériel génétique.

1961 Code de synthèse des protéines Marshall Nirenberg (NIH) étudiait la façon dont l'adn dirigeait la synthèse protéique et le rôle de l'arn dans le processus. 1961 : utilisation d'un ARNm synthétique ne contenant que des uraciles pour produire un peptide de phénylalanine. Identification progressive des 64 codons et des 20 acides aminés correspondants.

1977 Invention du Sanger 1977 : invention d'une méthode de séquençage d'adn rapide par Frederick Sanger. Technologie basée sur une polymérase et des nucléotides modifiés et radioactifs. Technologie améliorée avec le temps et largement utilisée depuis son invention. Le gold standard en génétique médicale encore aujourd'hui.

1983 Locus de la maladie de Huntington Localisation du locus du gène de la MH sur le chromosome 4 grâce à un marqueur polymorphe en déséquilibre de liaison avec la MH (Nature, 1983). Première identification d'un locus associé à une pathologie génétique humaine. 1993: isolation du gène HTT et identification de l'expansion de triplets nucléotidiques à l'origine de la pathologie.

1983 Invention de la PCR Invention réalisée par Kary Mullis. Technologie capable d'amplifier des milliards de copies de fragments d'adn à l'aide d'une Taq polymérase. Technique simple, peu coûteuse et automatisable. Invention révolutionnaire pour la biologie moléculaire.

1989 Gène de la mucoviscidose Identification du gène CFTR, responsable de la mucoviscidose (Riordan et al., Science). Première identification d'un gène responsable d'une pathologie humaine par clonage positionnel uniquement. Illustration classique des techniques de cette époque pré-human Genome Project.

1990 Localisation de BRCA1 Première preuve de l'existence d'un gène (BRCA1) responsable de formes familiales de cancer du sein. Clonage positionnel pour localiser le gène sur le chromosome 17 par le laboratoire de Mary-Claire King. 1994: isolation du gène responsable après une course internationale.

1990 Début du Human Genome Project Initié par le US Department of Energy (DOE) et le NIH. Projet collaboratif international prévu sur 15 ans Objectif : décoder le génome humain pour accélérer les progrès en génétique, de la médecine à l'évolution de l'humain.

1995 Séquençage de H. influenzae Haemophilus influenzae devient le premier génome bactérien à être séquencé (1,8 Mb). Technique basée sur le séquençage et l'assemblage de fragment d'adn non sélectionnés (séquençage shotgun aléatoire de génome entier ou global )

Séquençage shotgun aléatoire global

Séquençage shotgun hiérarchique

Principes des Bermudes & Celera 1996 : Principes des Bermudes proclamant un libre accès immédiat aux données de séquençage générées par les centres impliqués dans le Human Genome Project. 1998 : Fondation par Craig Venter de Celera Genomics, une entreprise dédiée au séquençage du génome humain plus rapidement et à moindre coût par séquençage shotgun de génome entier.

Séquençage d'autres génomes 2000 : séquençage du génome de Drosophila melanogaster par un consortium incluant Celera Genomics. 2002 : séquençage du génome de la souris par l'international Mouse Genome Sequencing Consortium. Premier mammifère utilisé en recherche à être séquencé. Possibilité de comparer les données avec le génome humain (> 90% d'homologie entre les 2 espèces).

2003 Fin du Human Genome Project Human Genome Project 13 ans > 3 milliards $ 2003

Principe du séquençage Sanger

Principe du séquençage Sanger Séquençage d'adn simple brin par réactions en cycles (dénaturation de l'adn, annealing des amorces et élongation). Étape d'élongation : utilisation de dntps classiques non-marqués et de ddntps fluorescents. Résultat : mélange de fragments de tailles différentes en fonction de l'insertion de ddntps à l'extrémité des fragments. Électrophorèse sur gel hautement résolutive et détection des nucléotides marqués par un système de 4 couleurs avec génération de scores de qualité pour chaque base.

Caractéristiques du Sanger Parallélisation limitée par le nombre de capillaires indépendants (96 à 384). Taille des fragments séquencés jusqu'à 1000 pb dans des conditions optimales. Précision élevée, jusqu'à 99,999% pour du séquençage shotgun. Coût par base élevé. Défi : développer des technologies de séquençage plus rapides et moins coûteuses. Objectif : séquencer des génomes humains individuels.

Le séquençage de 2 nde génération Présentation des différentes technologies de séquençage

Quelques définitions Séquençage haut débit (SHD) : terme générique et peu spécifique (utilisation à éviter). Séquençage nouvelle génération (NGS) : regroupe les technologies de 2nde et 3ème génération. Séquençage de 2nde génération : séquençage d'un ensemble de molécules nucléotidiques à l'aide de techniques de wash-and-scan (ou cycles). Wash-and-scan : technique basée sur des polymérases et réactifs qui doivent être enlevés à chaque cycle après l'incorporation des bases à lire.

Quelques définitions Séquençage de 3ème génération : processus de séquençage de molécules uniques ne nécessitant pas de wash-and-scan. Lecture : fragment nucléotidique individuel dont la séquence est déterminée par un instrument. Longueur de lecture : correspond au nombre de bases individuelles composant une lecture donnée. Préparation de librairies : procédure expérimentale précédant le séquençage des fragments d'adn d'intérêt. Varie en fonction de la technologie.

Quelques définitions Séquençage de 3ème génération : processus de séquençage de molécules uniques ne nécessitant pas de wash-and-scan. Lecture : fragment nucléotidique individuel dont la séquence est déterminée par un instrument. Longueur de lecture : correspond au nombre de bases individuelles composant une lecture donnée. Préparation de librairies : procédure expérimentale précédant le séquençage des fragments d'adn d'intérêt. Varie en fonction de la technologie.

Principe du NGS Préparation des libraires Bridge PCR Emulsion PCR Semiconductor sequencing (Ion Torrent) Sequencing by ligation (SOLiD) Pyrosequencing (454) Reversible terminator sequencing (Illumina)

PCR par émulsion L'ADN est fragmenté et lié à des adapteurs. Les fragments sont liés à des billes (idéalement un par bille), lesquelles sont capturées dans des gouttes pour la PCR par émulsion. Résultat : obtention d'amplicons à la surface des billes.

Bridge (ou cluster ) PCR L'ADN est fragmenté et lié à des adapteurs. Les fragments sont liés à une surface tapissée de séquences adaptatrices et amplifiés par PCR. Résultat : obtention de groupes d'amplicons à la surface de la flowcell (appelés clusters).

Pyroséquençage : la technologie 454 Preuve de principe : séquençage et assemblage de novo de Mycoplasma genitalium.

Principe du pyroséquençage (454) Pré-incubation des billes avec polymérase Bst et dépôt sur un support solide (1 bille par puit). Ajout de billes plus petites contenant les enzymes pour le pyroséquençage (ATP sulfurylase et luciférase). Processus basé sur la libération de diphosphate et la production de lumière détectée par caméra.

Instruments 454 / Roche GS Junior GS FLX Titanium

Caractéristiques techniques GS Junior GS FLX Titanium XL+ Lectures 400 pb 700 pb GS FLX Titanium XLR70 450 pb Débit 40 Mb 700 Mb 450 Mb 100,000 1,000,000 1,000,000 Précision 99% 99% 99% Temps d'exécution 10h 23h 10h Lectures/run

2008 Séquençage de Watson Human Genome Project Génome de James Watson 13 ans > 3 milliards $ 2 mois 2 millions $ 2003 2008

Avantages & limites du 454 Avantages Débit supérieur au Sanger Fragments relativement longs Limites Débit trop faible et coût élevé pour le séquençage de génomes individuels Absence de mécanisme intégré pour arrêter l'incorporation de bases multiples (problématique des homopolymères) Grand nombre d'erreurs pour les indels

Séquençage Solexa/Illumina Preuve de principe de la technologie par le séquençage d'un génome humain. Séquençage bidirectionnel de lectures 35 pb et profondeur de séquençage > 30X en moyenne.

Principe du séquençage Illumina

Principe du séquençage Illumina Hybridation d'une amorce de séquençage universelle. Extension d'une seule base à chaque cycle par l'utilisation de nucléotides modifiés ( reversible terminators ) et marqués par fluorescence (une couleur par base). Cycle individuel de séquençage : (1) ajout d'une base, (2) acquisition d'image, (3) clivage chimique du groupement terminator et du marquage fluorescent pour le cycle suivant.

Séquenceurs Illumina

Caractéristiques techniques Lectures Débit Lectures/run Précision Temps d'exécution HiSeq HiScan SQ Genome Analyzer IIx MiSeq 2x100 pb 2x100 pb 2x150 pb 2x250 pb 600 Gb 140 Gb 96 Gb 7,5 Gb 3 milliards 700 millions 320 millions 15 millions 99,9% 99,9% 99,9% 99,9% 11 jours 8 jours 14 jours 39h

Principe des index Principe : utilisation de séquences nucléotidiques synthétiques appelées index (ou barcodes ) pour identifier et combiner plusieurs échantillons dans une même expérience de séquençage.

Illumina : vers le génome à $1000 Human Genome Project Génome de James Watson Génome individuel 13 ans > 3 milliards $ 2 mois 2 millions $ 15 jours 3 000 $ 2003 2008 2013

Avantages et limites d'illumina Avantages Technologie avec le débit le plus important et le coût/base le plus faible actuellement. Technologie adoptée par la communauté scientifique (ex : disponibilité de nombreux outils bio-informatiques en libre accès). Limites Précision inférieure au Sanger (les erreurs principales sont des substitutions) Lectures de petite taille

Séquençage Ion Torrent Principe : détection de la libération d'un proton H+ suite à l'insertion d'un nucléotide. Technologie prometteuse : pas de fluorescence, de nucléotides modifiés ou de prise d'images (stockage & rapidité de séquençage).

Séquençage Ion Torrent Préparation des librairies par empcr. Addition séquentielle de nucléotides nonterminateurs et mesure du changement de voltage en temps réel.

Séquençage Ion Torrent

Séquenceurs Ion Torrent PGM Proton

Caractéristiques techniques PGM Proton 400 pb 200 pb Débit 40 Mb 1,5 Gb 10 Gb Lectures/run 0,1 4 millions 70 millions Précision 99% 99% Temps d'exécution 4-7h 4h Lectures

Avantages et limites d'ion Torrent Avantages Séquençage rapide Taille des lectures Flexibilité au niveau du débit (puces de tailles différentes) Limites Taux d'erreurs, particulièrement pour les indels & homopolymères Débit plus faible que les appareils Illumina Outils informatiques moins développés

Avantages du NGS vs Sanger Construction in vitro de librairies à séquencer et amplification clonale subséquente (vs transformation de E. coli et sélection de colonies). Parallelisation bien supérieure par une miniaturisation du processus de séquençage permettant des millons de réactions de séquençage sur une surface donnée. Diminution des volumes de réactifs de séquençage grâce à la miniaturisation du processus et la fixation des fragments sur un support solide. Conséquence : coût bien inférieur pour un débit bien supérieur.

Désavantages du NGS vs Sanger Taille des lectures limitée (problématique pour les régions non uniques dans le génome et l'analyse bioinformatique). Précision (taux d'erreurs) inférieure au séquençage Sanger (au minimum 10 fois moindre). Problématiques liées aux 2 technologies : Régions fortement répétées (ex: triplets nucléotidiques). Régions riches en nucléotides G et C. Point à considérer : ce n'est que le début du NGS, des améliorations sont à prévoir.

Vers le génome à 1000 $? Human Genome Project Génome de James Watson Génome individuel Génome Individuel 13 ans > 3 milliards $ 2 mois 2 millions $ 15 jours 3 000 $ < 24 h? < 1000 $? 2003 2008 2013???

Nouvelles technologies de séquençage Aperçu des technologies ème de 3 génération

Helicos: séquençage cyclique de molécules uniques Technologie sans amplification préalable de l'adn basée sur des nucléotides fluorescents. Taille des lectures : 35 pb. Débit : 35 Gb, 1 milliard de lectures par run. Précision : 97%. Temps d'exécution : 8 jours

Défis à relever Préparation des librairies Coût des réactifs Stockage des données Longueur des fragments Taux d'erreurs Analyse informatique Interprétation des variations génétiques

Pacific Biosciences : séquençage cyclique de molécules uniques Observation en temps réel de l'incorporation de nucléotides fluorescents. Système existant : 75,000 lectures/run d'une taille moyenne de 1000 pb en 30 min. Limite principale : précision de 90-95%.

Séquençage par nanopore Principe : ajout d'une molécule de cyclodextrine sur la surface intérieure pour agir en tant que site de liaison à des nucléotides individuels et mesurer leur passage. Oxford Nanopore : instrument en cours de développement. Objectif (GridION 8000) : 10 millions de lectures de 10 Kb en 5 heures (100 Go de données). Actuellement 1 Go en 6 heures (Nanopore minion).

Comparaison des différentes technologies de séquençage Comment savoir quelle technologie choisir? De multiples paramètres sont à prendre en considération : Débit Applications prévues Coût des réactifs et de l'instrument Précision Outils informatiques disponibles 2013 NGS Field Guide - The molecular ecologist (lien)