Barcoding environnemental par séquençage haut débit

Documents pareils

Big data et sciences du Vivant L'exemple du séquençage haut débit

Détection et prise en charge de la résistance aux antirétroviraux

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

Gènes Diffusion - EPIC 2010

SÉQUENÇAGE DE TYPE RAD-SEQ, PRÉSENTATION ET TRAITEMENT ANALYTIQUE

TD de Biochimie 4 : Coloration.

Génétique et génomique Pierre Martin

Plateforme. DArT (Diversity Array Technology) Pierre Mournet

Analyse des données de séquençage massif par des méthodes phylogénétiques

SysFera. Benjamin Depardon

SEQUENÇAGE LI-COR DNA 4200

CHAPITRE 3 LA SYNTHESE DES PROTEINES

1 Culture Cellulaire Microplaques 2 HTS- 3 Immunologie/ HLA 4 Microbiologie/ Bactériologie Containers 5 Tubes/ 6 Pipetage

MAB Solut. vos projets. MABLife Génopole Campus 1 5 rue Henri Desbruères Evry Cedex. intervient à chaque étape de

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Représenté par Eric Mamy A22 présenté par CFR & CGL Consulting

Réduire sa consommation d énergie dans les entreprises industrielles

Thomas Loubrieu (Ifremer) Small to Big Data Novembre 2013, Ifremer, Brest

CATALOGUE DES PRESTATIONS DE LA

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

MABioVis. Bio-informatique et la

Agrégation de liens xdsl sur un réseau radio

2D-Differential Differential Gel Electrophoresis & Applications en neurosciences

Conférence technique internationale de la FAO

Présentation du Master Ingénierie Informatique et du Master Science Informatique , Année 2 Université Paris-Est Marne-la-Vallée

Calcul intensif pour la biologie

Les enjeux stratégiques et économiques du Cloud Computing pour les collectivités territoriales

CBBC Canadian Business & Biodiversity Council

Prélèvement/préparation p des échantillons et analyse des reliquats d azote

Capacité étendue d utilisation en réseau

Evaluation, Certification Axes de R&D en protection

Brest (29) Lessay (50), Mars 2012

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

Efficace et ciblée : La surveillance des signaux de télévision numérique (2)

Biomarqueurs en Cancérologie

Enquête sur les investissements dans l industrie

SERVICES DE SEQUENÇAGE

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Le risque Idiosyncrasique

Introduction aux applications réparties

Optimisation for Cloud Computing and Big Data

M1 Informatique, Réseaux Cours 9 : Réseaux pour le multimédia

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Conserver les Big Data, source de valeur pour demain

Comment valoriser votre patrimoine de données?

Contrôle par commande prédictive d un procédé de cuisson sous infrarouge de peintures en poudre.

Les lières. MSc in Electronics and Information Technology Engineering. Ingénieur civil. en informatique. MSc in Architectural Engineering

Evaluation générale de la qualité des données par âge et sexe

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

altona altona RealStar CMV PCR Kit 1.0 always a drop ahead. 04/2015 altona Diagnostics GmbH Mörkenstr Hamburg Germany

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine Slimane.bah@emi.ac.ma

AGRÉGATION DE SCIENCES DE LA VIE - SCIENCES DE LA TERRE ET DE L UNIVERS

Conception de Médicament

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Bonne tenue de l activité au premier semestre 2009

Big Data et la santé

EXERCICE 2 : SUIVI CINETIQUE D UNE TRANSFORMATION PAR SPECTROPHOTOMETRIE (6 points)

Créer un référentiel client grâce à Talend MDM

Procédure d utilisation du Beckman CEQ 2000 XL pour la réalisation de programmes de séquençage ou de génotypage.

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Communications immersives : Enjeux et perspectives

Assemblage adaptatif de génomes et de méta-génomes par passage de messages

OBJECTIFS. Une démarche E-science

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

Dr E. CHEVRET UE Aperçu général sur l architecture et les fonctions cellulaires

Projet Optiperf : les ressources du calcul parallèle à destination des architectes navals

InfraLab. Analyseur de Viande. Production. Assurance Qualité. Laboratoire. Contrôle Qualité. The Measure of Quality

Kick Off SCC EMC l offre EXTREMIO. fmarti@fr.scc.com Philippe.rolland@emc.com. Vers de nouveaux horizons

Système MiSeq MD Guide de préparation du site

Stéphane DERACO, DSI CNRS l Argos Devops : de l hyperviseur aux conteneurs l 11/12/2014 DOCKER

Métriques de performance pour les algorithmes et programmes parallèles

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Tutoriel Cloud IFB - Initiation -

Item 169 : Évaluation thérapeutique et niveau de preuve

Eco-système calcul et données

: seul le dossier dossier sera cherché, tous les sousdomaines

DORVAL FLEXIBLE MONDE

PROPOSITION TECHNIQUE ET FINANCIERE

PICT DOSAGE DES ANTICOAGULANTS 1. PEFAKIT PICT. Dosage chronométrique. PEFAKIT PiCT. PEFAKIT PiCT Calibrateur HNF. PEFAKIT PiCT Contrôles HNF

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Principe d un test statistique

Les macroinvertébrés: des bioindicateurs incontournables pour le monitoring des cours d eau en CH

Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012.

agile Datacenter vert Le monde naissant des datacenters de nouvelle génération ICAR-2013

Internet et Multimédia Exercices: flux multimédia

Notice d utilisation M Epigenomics AG, Berlin, Allemangne

VMware vsphere 5 Préparation à la certification VMware Certified Professional 5 Data Center Virtualization (VCP5-DCV) - Examen VCP510

SOMMAIRE INTRODUCTION... 3

La nouvelle planification de l échantillonnage

Actualités sur la sélection des pondeuses Prospections futures. Dr. Matthias Schmutz, Lohmann Tierzucht

Suivi d une réaction lente par chromatographie

Better data. Better decisions. La carière digitale, nouvel outil de suivi et de gestion de l exploitation

Sud Expert Plantes Développement Durable. Thème COSMETOPEE participants 8 pays. SEP 2D -Cosmétopée -Restitution session du 11 juin 2012

Transcription:

Barcoding environnemental par séquençage haut débit Potentiel et limites Jean-François Martin

Échantillonnage Spécificités du barcoding environnemental Amplification (PCR) de marqueurs choisis Séquençage haut-débit Extraction ADN Résultats! Analyse Bioinformatique

Objectifs et applications Caractérisation de la diversité spécifique environnementale Caractérisation de régimes alimentaires Comparaison de réseaux trophiques En préparation

Il est nécessaire de mettre au point une méthodologie simple et efficace d acquisition des données pour rendre le barcoding environnemental accessible à tous.

Méthodologie d acquisition de marqueurs Design expérimental Verrou méthodologique Verrou méthodologique

Méthodologie d acquisition de marqueurs Design des amorces spécification basse complexité Reverse Forward 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 «Tag» Amorce #tag 2 T C G A T C A C G A T G T T C C A C T A A T C A C A A R G A T A T T G G T A C 1 C G A T C G T C A T C A C G T C C A C T A A T C A C A A R G A T A T T G G T A C 4 G A T C G A C A G A T C T C C A C T A A T C A C A A R G A T A T T G G T A C 3 A C G A T C C A C A G T G T C C A C T A A T C A C A A R G A T A T T G G T A C 5 T G A T C G A T G A T C A G T C C A C T A A T C A C A A R G A T A T T G G T A C 7 C A T C G A G T A G A G T C C A C T A A T C A C A A R G A T A T T G G T A C 6 G T C G A T C A T G T C A T C C A C T A A T C A C A A R G A T A T T G G T A C 13 A G A T C G T A C T A G C T T C C A C T A A T C A C A A R G A T A T T G G T A C 2 T A T C G A C G A T G T G A A A A T C A T A A T G A A G G C A T G A G C 1 C T C G A T G A T C A C G G A A A A T C A T A A T G A A G G C A T G A G C 4 G C G A T C A G C A G A T C G A A A A T C A T A A T G A A G G C A T G A G C 3 A T A T C G A C A G T G G A A A A T C A T A A T G A A G G C A T G A G C 5 T C T C G A T G A T C A G G A A A A T C A T A A T G A A G G C A T G A G C 7 C G C G A T C T G T A G A G G A A A A T C A T A A T G A A G G C A T G A G C 6 G A G A T C A T G T C A G A A A A T C A T A A T G A A G G C A T G A G C 8 A C A T C G A C G T A C G G A A A A T C A T A A T G A A G G C A T G A G C 17 T G T C G A T C T A C A G C G A A A A T C A T A A T G A A G G C A T G A G C 16 C A C G A T G A C G A C G A A A A T C A T A A T G A A G G C A T G A G C 11 G T G A T C G C A C G A T G A A A A T C A T A A T G A A G G C A T G A G C 12 A G A T C G A G C A C T C A G A A A A T C A T A A T G A A G G C A T G A G C A 25 25 30 25 20 25 35 30 30 35 30 30 15 25 40 70 75 55 30 45 50 55 50 55 45 45 70 55 30 15 45 35 35 20 20 20 T 25 20 25 30 25 20 20 20 15 35 25 15 25 20 15 0 0 30 35 35 30 35 35 20 20 20 0 0 0 10 15 45 45 50 15 10 C 25 25 20 25 30 25 25 30 25 10 25 30 15 20 25 30 25 15 35 20 20 10 15 25 15 15 0 0 0 20 20 20 0 0 0 20 G 25 30 25 20 25 30 20 20 30 20 20 25 45 35 20 0 0 0 0 0 0 0 0 0 20 20 20 30 55 55 20 0 20 30 65 50 Pourcentage de chaque base

Technologies disponibles aujourd hui

Single Molecule Real Time sequencing - Pacific Bioscience Spécificité : Utiliser une DNA polymerase comme moteur de séquençage en temps réel Challenges : dompter la vitesse intrinsèque, la fidélité et la processivité des enzymes 1. La vitesse de la synthèse d ADN montre des variations stochastiques, ce qui implique l observation de chaque processus au niveau moléculaire 2. La surface chimique de contact doit permettre la réaction et inhiber l adsorption non spécifique de dntps marqués 3. Les dntp substrats portant le marquage ne doivent pas inhiber la polymérisation 4. L instrument doit détecter de manière fiable la synthèse et distinguer l incorporation de chaque dntp

Synthèse d ADN en temps réel PacBio RS données brutes

Spécifications techniques (v2.0) vitesse: 4.7 ±1.7 bases.s -1, pas de corrélation spatiale Ratio signal/bruit 24 ±10 dans le pire des cas 36% ZMWs produisent des séquences uniques et pleine longueur Longueur > 11 000 bases avec une moyenne de 7 000 bases Taux d erreur de 14% environ (D:7,4%; I: 4,5% et S: 2,1%)

Pacbio RS sequencer Préparation au séquençage et séquençage SMRT Temps de préparation d une journée environ Temps de séquençage de 3 mois environ (!) Coût global d un séquençage : 1750 pour 100K sequences totales

Indice de Qualité Pacbio RS sequencer Résultats principaux qualitatifs et quantitatifs 96 100 k séquences dont 19-21k ccs Jusqu à xx bases / séquence Variation de qualité Q30 d un run à l autre, distribution de l index avec une forte variabilité Taux d erreur sur le fragment de contrôle inconnu Q30 Q20 Position Circular consensus sequence (CCS)

Pacbio RS sequencer Résultats principaux qualitatifs et quantitatifs CCS : 98% de fragments de taille attendue (658 bases)

Pacbio RS sequencer Résultats principaux qualitatifs et quantitatifs Run #1 CCS Nombre % par étape séquences brutes 21 587 Séquences avec marqueur 20 672 96% Séquences assignées 9 161/11 225 82% 1200 1000 800 600 400 CCS : de 433 à 988 séquences par échantillon 763 en moyenne, 149 d écart type 200 0 1 2 3 4 5 6 7 8 9 10 11 12

Pacbio RS sequencer Résultats principaux qualitatifs et quantitatifs 42% de variation quantitative entre les réplicats techniques en moyenne La séquence majoritaire (17% en moyenne) toujours correspondant à la séquence de référence dans le cas d échantillons «single sample» Une correction d erreur basée sur un choix majoritaire par position corrige 100% des échantillons «single sample», en revanche algorithme peu adapté à un échantillon environnemental Le taux d erreur ne dépasse pas deux mutations par séquence 98% des séquences ont la bonne longueur (658pb), pas plus de 2 bases d écart globalement. Très faible reproductibilité des ratio originaux mise en exergue par la faible profondeur relative Très forte utilité pour le séquençage type barcoding, peu favorable aux applications environnementales en l état

Illumina Miseq sequencer Reads Passing Filter Miseq sequencer (Illumina) RUN TYPE Single Reads Paired-End Reads READS PASSING FILTER 12-15 M 24-30 M READ LENGTH BASES HIGHER THAN Q30 1 36 bp > 90% 2 25 bp > 90% 2 100 bp > 85% 2 150 bp > 80% 2 250 bp > 75% http://www.illumina.com/systems/miseq/performance_specifications.ilmn

Illumina Miseq sequencer Construction de librairies sur la base de TruSeq DNA sample prep. Possibilité de multiplexage sur la base d indexes (-> 24 librairies) «Facilité» et reproductibilité du protocole Rapidité de mise en œuvre (environ une journée) Coût réduit de la librairie (environ 60 de consommable)

Illumina Miseq sequencer Préparation au séquençage et séquençage Illumina. Temps de préparation d une heure environ Facilité du lancement malgré des options étranges Temps de séquençage de 37h (en 2x251 cycles) Coût global d un séquençage : 1150 pour 24-30 M de séquences (paired-end)

Indice de Qualité Illumina Miseq sequencer Résultats principaux qualitatifs et quantitatifs 12,2-14,7 M de séquences de 211pb par run, double lecture paired-end Variation de qualité Q30 d un run à l autre Q30 Q20 Variation du profil qualité d un sens de séquençage à l autre Taux d erreur de 0,18% à 0,39% sur le fragment de contrôle Position Sens R1

Illumina Miseq sequencer Résultats principaux qualitatifs et quantitatifs Run #1 Run #1 Nombre % par étape % du brut séquences brutes 14 127 740 séquences filtrées Miseq 13 929 700 99% 99% séquences filtrées Q30 4 480 524 32% 32% Séquences avec marqueur 2 820 474 63% 20% Séquences assignées 1 271 474 45% 9%

Illumina Miseq sequencer Résultats principaux qualitatifs et quantitatifs Run #1 Run #2 Nombre % par étape % du brut Nombre % par étape % du brut séquences brutes 14 127 740 12 121 700 séquences filtrées Miseq 13 929 700 99% 99% 12 025 783 99% 99% séquences filtrées Q30 4 480 524 32% 32% 11 938 268 99% 98% Séquences avec marqueur 2 820 474 63% 20% 10 872 417 91% 90% Séquences assignées 1 271 474 45% 9% 7 415 678 68% 61%

Illumina Miseq sequencer Résultats principaux qualitatifs et quantitatifs (run #2): de 2 555 à 319 574 séquences par échantillon 350000 300000 250000 200000 150000 100000 50000 0 1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93

Illumina Miseq sequencer Résultats principaux qualitatifs et quantitatifs 12% de variation quantitative entre les réplicats techniques en moyenne La séquence majoritaire (>50%) toujours correspondant à la séquence de référence dans le cas d échantillons «single sample» 97% des séquences ont la bonne longueur (127pb), pas plus de 2 bases d écart globalement. 10-12% de contamination intra manip (échantillon «Melting Pot») Grand progrès de la méthode mais des précautions à prendre et des améliorations à apporter

Technologies NGS à la portée de tous

Bioinformatique et analyse 1- des outils flexibles non dépendants de la technologie de séquençage pour les phases préliminaires de traitement des données : serveur Galaxy http://galaxyproject.org/

Bioinformatique et analyse 2- des outils dédiés au traitement du barcoding environnemental: Basé sur :

Traitement des données et barcoding environnemental La problématique : un grand nombre d échantillons à traiter, potentiellement de multiples marqueurs, des banques de données de référence hétérogènes, des outils d assignation en constante évolution. SE S AM E Barcode est conçu pour répondre à ce challenge Il propose une interface utilisateur unique à un pipeline d analyse modulaire appuyé à une base de données. Il est déployable à n importe quelle échelle de puissance sous forme d appliance virtuelle ou par installation traditionnelle.

Pipeline d analyse Multiplexing des marqueurs Et des échantillons

L utilisateur peut explorer les données des échantillons et valider les allèles si nécessaire.

Librairie de référence Les librairies de référence sont obtenues extraction de Genbank NT, de librairie ad-hoc ou un mélange des deux La taxonomie s appuie sur le format de Genbank

Assignation à la volée des résultats post Blast : nearest neighbor ou seuil de similarité Assignation à l ancêtre Englobant, exclus si très différent Assignation à l espèce la plus proche même si elle est très éloignée!

taxons détectés Échantillons et séquences Liste échantillons multiselection Résultats graphiques

Directions méthodologiques futures Améliorations de la PCR ou approches d acquisition alternatives Evolution continue des technologies NGS Scalabilité des solutions bioinformatiques

Universalité des amorces Améliorer l efficacité de l approche par PCR Cocktail d amorces

Sequence capture Capture par hybridation SureSelect XT Full-Alamano Technology cc

L évolution des technologies NGS : Illumina en progression continue Reads Passing Filter Miseq sequencer (Illumina) RUN TYPE READS PASSING FILTER Current Future** Single Reads 12-15 M 22-25 M Paired-End Reads 24-30 M 44-50 M READ LENGTH BASES HIGHER THAN Q30 1 36 bp > 90% 2 25 bp > 90% 2 100 bp > 85% 2 150 bp > 80% 2 250 bp > 75% 2 300 bp** > 70% ** : deuxième semestre 2013 http://www.illumina.com/systems/miseq/performance_specifications.ilmn

L évolution des technologies NGS Oxford Nanopore technologies disponible à moyen terme MinION TM (Oxford Nanopore) Quelle longueur de lecture pour cette technologie? The system is designed to give ultra-high read lengths. At the recent AGBT conference, examples were shown of tens of kb in a single read of a sense and antisense strand of a single genome, using a hairpin sample prep. > 10kb, 50kb en pointe démontré (AGBT conference 2012) Quel coût pour un MinION TM? A single MinION TM device is expected to retail at under $900 http://www.nanoporetech.com/about-us/for-customers http://www.nanoporetech.com//technology/the-miniondevice-a-miniaturised-sensing-system Pourquoi s intéresser à cette technologie pour des marqueurs de faible longueur? Faibles coûts, pas de librairie à construire, système configurable à différentes échelles. On peut détourner l utilisation par coligation des marqueurs en contigs puis séquencer.

Ordinateur personnel Scalabilité des solutions bioinformatiques Cluster de calcul local Cloud computing

Morgane Ardisson Anne-Laure Clamens Armelle Cœur d Acier Emmanuel Corse Vincent Dubut Philippe Gauthier André Gilles Emmanuel Guivier Emese Meglecz Grégory Mollot Sylvain Piry Audrey Réalini Collaborateurs

Merci! Question? martinjf@supagro.inra.fr Jean-François Martin