Les technologies de séquençage à haut débit. Patrick Wincker, Genoscope, Institut de Génomique du CEA

Documents pareils

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Big data et sciences du Vivant L'exemple du séquençage haut débit

SEQUENÇAGE LI-COR DNA 4200

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

XtremWeb-HEP Interconnecting jobs over DG. Virtualization over DG. Oleg Lodygensky Laboratoire de l Accélérateur Linéaire

CHAPITRE 3 LA SYNTHESE DES PROTEINES

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Procédure d utilisation du Beckman CEQ 2000 XL pour la réalisation de programmes de séquençage ou de génotypage.

Photoactivatable Probes for Protein Labeling

SÉQUENÇAGE DE TYPE RAD-SEQ, PRÉSENTATION ET TRAITEMENT ANALYTIQUE

Assemblage adaptatif de génomes et de méta-génomes par passage de messages

CATALOGUE DES PRESTATIONS DE LA

Le signal GPS. Les horloges atomiques à bord des satellites GPS produisent une fréquence fondamentale f o = Mhz

Contrôle de l'expression génétique :

Génétique et génomique Pierre Martin

SERVICES DE SEQUENÇAGE

Project 1 Experimenting with Simple Network Management Tools. ping, traceout, and Wireshark (formerly Ethereal)

Introduction à la Génomique Fonctionnelle

altona altona RealStar CMV PCR Kit 1.0 always a drop ahead. 04/2015 altona Diagnostics GmbH Mörkenstr Hamburg Germany

M1 Informatique, Réseaux Cours 9 : Réseaux pour le multimédia

Exemple PLS avec SAS

Calcul intensif pour la biologie

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

Université de Montréal. Développement d outils pour l analyse de données de ChIP-seq et l identification des facteurs de transcription

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Tutoriel de formation SurveyMonkey

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Corrigé du baccalauréat S Pondichéry 12 avril 2007

Guide de formation EndNote Web Interface EndNote Web

Efficace et ciblée : La surveillance des signaux de télévision numérique (2)

Switching PCIe Photonique/Silicium Intel Connectique Intel MXC

DOCUMENTATION - FRANCAIS... 2

Notice d utilisation M Epigenomics AG, Berlin, Allemangne

Actualités sur la sélection des pondeuses Prospections futures. Dr. Matthias Schmutz, Lohmann Tierzucht

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Analyse d échantillons alimentaires pour la présence d organismes génétiquement modifiés

DOCUMENTATION - FRANCAIS... 2

VMware : De la Virtualisation. au Cloud Computing

Représenté par Eric Mamy A22 présenté par CFR & CGL Consulting

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

ATELIER IMAGEJ. Différentes applications vous sont proposées pour apprendre à utiliser quelques fonctions d ImageJ :

Introduction aux bases de données: application en biologie

Xtremweb-HEP : A best effort virtualization middleware

Détection et prise en charge de la résistance aux antirétroviraux

Grid Technology. ActiveMQ pour le grand collisionneur de hadrons (LHC) Lionel Cons Grid Technology Group Information Technology Department

Mise en place d une solution automatique de stockage et de visualisation de données de capture des interactions chromatiniennes à l échelle génomique

OUTIL DE TRAVAIL COLLABORATIF

PLM 2.0 : Mise à niveau et introduction à l'offre version 6 de Dassault systèmes

Monitor LRD. Table des matières

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

MENER UNE RECHERCHE D INFORMATION

Gestion des références bibliographiques. Comment simplifier la gestion des références bibliographiques?

A GRASPxELS approach for the Job Shop with generic time-lags and new statistical determination of the parameters

Hépatite chronique B Moyens thérapeutiques

Gènes Diffusion - EPIC 2010

Innovative BI with SAP Jean-Michel JURBERT D. de Marché BI, HANA, BIG DATA _ SAP France

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

Système à enseigner : Robot M.I.M.I. MultipodeIntelligent à Mobilité Interactive. Version 1.0

Get Instant Access to ebook Cest Maintenant PDF at Our Huge Library CEST MAINTENANT PDF. ==> Download: CEST MAINTENANT PDF

Services à la recherche: Data Management et HPC *

Clé USB Original SPÉCIFICITÉS OPTIONS DE PERSONNALISATION OPTIONS MAINTENANT DISPONIBLE EN COULEUR LAQUÉE BLANC

Spécial Catégorie 6 Patch Cords

FOURTH SESSION : "MRP & CRP"

Once the installation is complete, you can delete the temporary Zip files..

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

L ESPACE UNIQUE DES PAIEMENT EN EUROS (SEPA) Vers une harmonisation des moyens de paiement européens. Direction des affaires économiques de la CGPME

HighPush. document /06/2009 Révision pour version /11/2008 Revision pour la /10/2008 Documentation initiale.

TD de Biochimie 4 : Coloration.

Plateforme. DArT (Diversity Array Technology) Pierre Mournet

Systèmes et Réseaux (ASR 2) - Notes de cours Cours 14

Prototype de canal caché dans le DNS

Configuration d'un trunk SIP OpenIP sur un IPBX ShoreTel

Le nouveau visage de la Dataviz dans MicroStrategy 10

AGRÉGATION DE SCIENCES DE LA VIE - SCIENCES DE LA TERRE ET DE L UNIVERS

Flood risk assessment in the Hydrographic Ebro Basin. Spain

MYRIAD. l ADN isolé n est à présent plus brevetable!

Improving the breakdown of the Central Credit Register data by category of enterprises

TRAVAUX DE RECHERCHE DANS LE

VOIP. QoS SIP TOPOLOGIE DU RÉSEAU

Numérisation du signal

Développons ensemble la Dracénie

Solution dédiée aux canalisations de distribution

Comment tester la vitesse d un réseau Ethernet

Utiliser une WebCam. Micro-ordinateurs, informations, idées, trucs et astuces

Pascale Borla-Salamet Consultante Avant Vente Oracle France. Oracle Exadata Performance et Optimisation de votre Datawarehouse

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence

WEB page builder and server for SCADA applications usable from a WEB navigator

calls.paris-neuroscience.fr Tutoriel pour Candidatures en ligne *** Online Applications Tutorial

COMPUTING. Jeudi 23 juin CLOUD COMPUTING I PRESENTATION

VTP. LAN Switching and Wireless Chapitre 4

DÉVELOPPER LE GAZ NATUREL DANS LES TRANSPORTS

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Guide d'installation rapide TFM-560X YO.13

Solutions Dell Networking pour le Big Data. Philippe MARTIN Networking Sales Specialist - p_martin@dell.com

Master Développement Durable et Organisations Master s degree in Sustainable Development and Organizations Dossier de candidature Application Form

Virus de l hépatite B

Biomarqueurs en Cancérologie

INSTRUMENTS DE MESURE SOFTWARE. Management software for remote and/or local monitoring networks

Transcription:

Les technologies de séquençage à haut débit Patrick Wincker, Genoscope, Institut de Génomique du CEA CNG, 12.05.2009

Séquençage Sanger (méthode des dididéoxy terminateurs) : a permis les progrès de la génomique jusqu en 2006 Les applications sont limitées par le coût Les Nouvelles Technologies de Séquençage (NTSs) répondent d abord à une diminution des coûts, mais sont aussi motivées par la possibilité de nouvelles applications

Applied Biosystems ABI 3730XL Roche / 454 Genome Sequencer FLX Illumina / Solexa Genetic Analyzer Ce qui change : La quantité et le type des données générées La qualité des données (type et taux d erreurs) Applied Biosystems SOLiD

pas seulement une différence quantitative mais aussi qualitative : données intrinsèquement différentes d où une réadaptation complète des procédures

454 / Roche Genome Sequence FLX 2006 Gs20 20Mb / run 100pb / lecture 2007 GsFLX 100Mb / run 250pb / lecture 2008 Titanium GS FLX 500Mb / run 400pb / lecture + Lectures en paires

Données brutes Utilisation d 1/4 run Titanium : 141.771 lectures (51Mb 14,1X) : taille moyenne = 357pb

Illumina / Solexa Genetic Analyzer 1G 2007 2008 GA I 1Gb / run 32 b / lecture Version actuelle (Genome Analyzer II): Lectures de 36 à 108 bases Environ 60M lectures / run et ~2 à 6 Gbp / run 3-4 jours / run GA II 2Gb / run 36 b / lecture + Lectures en paires Taux d erreurs très bas ( ~0,4%) Essentiellement des mismatches => complémentaires du GsFLX

Evolution des besoins en grand séquençage : l Appel à Projets Genoscope Appel d offres annuel depuis 1998 Introduction des technologies 454 (2007), Solexa (2008) et SOLiD (2009)

Evolution des demandes AP Genoscope par technologie 120 100 80 60 40 Sanger 454 Solexa 20 0 2006 2007 2008

GC% = 40.3 1.6% repetitive DNA Manually finished sequence

Taux d erreurs GAI vs. GAII 3 2,5 2 1,5 1 GAI GAII 0,5 0 1 10 20 30 40 50 60 70 80 90 100

GS FLX base calls : initial version GS FLX base calls : upgrade March 2008 Solexa base calls GA I Solexa base calls GA II

Assemblage 454 FLX Titanium FLX Standard

Stratégie pour le séquençage de novo Roche / 454 Genome Sequencer FLX Applied Biosystems ABI 3730XL Illumina / Solexa Genetic Analyzer 15x Assemblage, finition 4x 0x 10-100x 15x Assemblage, finition

Complémentarité des technologies 454 / Roche et Solexa Erreurs dans un assemblage 454 ~ 2/3 d erreurs corrigées

Le séquençage paired-end Illumina GAII, courts fragments

Solexa paired-end (GA I) Mapping des extrémités droite Mapping des extrémités gauche Number of errors : 203099 (0.88%) Number of errors : 124183 (0.29%)

Illumina GAII : long paired-end

Illumina GAII : long paired-end

Assemblages d un génome de levure Comparaison GAII paired-end vs. 454+Sanger Solexa 454 single + Sanger Couverture initiale ~45X ~30X Nb de supercontigs 109,995 360 Nb (%) de bases 15,848,259 12,343,951 Taille moyenne 144bp 34Kb Taille N50 62Kb 156Kb Taille max 364Kb 599Kb

454 GSFLX : Paired-end sequencing

GSFLX paired-end sequencing Nb de lectures pairées (en % lectures totales) : Protocole standard : 26.34% Protocole amélioré : 41.93%

Use of High-Throughput data for annotation of the grape genome 173 millions Solexa/Illumina GA1 reads Many putative genes are tagged But the reads also map in non-genic regions Development of a method to discriminate genes from background transcription, and to create gene models by connecting short sequence tags

Use of short reads to build gene models 1. covtigs construction 2. candidate exons 3. junction validation mapped reads genome covtig 100 nt unmapped reads word dictionary k-mer 1 k-mer 2 X 1 X 2 k-mer n X n coverage ag gt. verify words existence in the dictionary threshold covtigs forward and reverse candidate exons candidate exons gt ag validated junction

Use of short reads to build gene models /2 4. graph of candidates exons linked by validated junctions CDS 5. models construction and coding sequences detection Predicted Models P 1 P 2 P 5 P 6 P 3 P 4 P 7 Real transcripts T 1 T 2 T 3 T 4 T 5

Usefulness of short reads in annotating the grape genome New splice variants discovery (11,842 versus 2,171 using existing cdna resources) Bring cdna confirmation for ~50% of the gene models 675 new gene models (small size) Test with paired-end reads

Reséquençage / SNPs/ Détection de mutations Trois approches : Reséquençage d un génome entier sous forme de microreads Amplification de régions génomiques cibles et séquençage des produits de PCR en 454 Capture d exons : Restreindre l ADN à séquencer à la région d intérêt

Plateforme Recherche de Mutations

454 sequencing

Les NTSs actuelles (2 ème génération) vont vers des lectures de + en + longues de - en - chères Mais la question se pose : quelle pérennité face aux séquenceurs de 3 ème génération?

Perspective : Séquenceurs de 3 ème génération Le séquençage d ADN simple-molécule En temps réel plutôt que par cycles

Heliscope Helicos Biosciences Performances selon le constructeur : 2 Gb par jour ; lectures jusqu à 55 bases Pour des longueurs de 20 bases, 78% des séquences passent les filtres de qualité Problème des homopolymères (mais pas de déphasage) : virtual terminators

Life Technologies : FRETing FRET : Fluorescence Resonance Energy Transfer. Transfert d énergie d une polymérase à un nucléotide. Quand un nucléotide est incorporé, la proximité (entre le fluorophore donneur de la polymérase et le fluorophore accepteur du nucléotide) déclenche un signal FRET. La molécule d ADN s illumine et la couleur indique la base lue. L objectif est de ~1b / seconde

Pacific Biosciences : SMRT (Single Molecule Real Time) La polymérase est attachée au fond d un puit, d une dizaine de nanomètres de diamètre et d un volume de 20 zeptolitres (10-21 litres). Dans ce volume, l activité d un seul nucléotide peut être détecté parmi un bruit de fond de plusieurs centaines de nucléotides fluorescent. Vitesse de 10 bases / secondes et 1000 puits par puce (36Mb / heure), pour des lectures > 1000pb Prévision à 5 ans : 50 bases / secondes, avec des puces à 1M de puits, pour un débit d environ 100Gb / heure

Illumina Oxford Nanopore

Director : J. Weissenbach Sequencing coordination : P. Wincker Production Sequencing: J. Poulain Finishing : V. Barbe NST development : C. Cruaud, A. Alberti Informatics: V. Anthouard, M. Haquelle, F. Gavory, A. Couloux, C. Scarpelli Bio-informatics : J.M. Aury, G. Samson, O. Rogier, C. Battail, F. Artiguenave Mutation Platform : G. Gyapay, B. Noel, V. Meyer, M. Wessner