Barcoding environnemental par séquençage haut débit Potentiel et limites Jean-François Martin
Échantillonnage Spécificités du barcoding environnemental Amplification (PCR) de marqueurs choisis Séquençage haut-débit Extraction ADN Résultats! Analyse Bioinformatique
Objectifs et applications Caractérisation de la diversité spécifique environnementale Caractérisation de régimes alimentaires Comparaison de réseaux trophiques En préparation
Il est nécessaire de mettre au point une méthodologie simple et efficace d acquisition des données pour rendre le barcoding environnemental accessible à tous.
Méthodologie d acquisition de marqueurs Design expérimental Verrou méthodologique Verrou méthodologique
Méthodologie d acquisition de marqueurs Design des amorces spécification basse complexité Reverse Forward 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 «Tag» Amorce #tag 2 T C G A T C A C G A T G T T C C A C T A A T C A C A A R G A T A T T G G T A C 1 C G A T C G T C A T C A C G T C C A C T A A T C A C A A R G A T A T T G G T A C 4 G A T C G A C A G A T C T C C A C T A A T C A C A A R G A T A T T G G T A C 3 A C G A T C C A C A G T G T C C A C T A A T C A C A A R G A T A T T G G T A C 5 T G A T C G A T G A T C A G T C C A C T A A T C A C A A R G A T A T T G G T A C 7 C A T C G A G T A G A G T C C A C T A A T C A C A A R G A T A T T G G T A C 6 G T C G A T C A T G T C A T C C A C T A A T C A C A A R G A T A T T G G T A C 13 A G A T C G T A C T A G C T T C C A C T A A T C A C A A R G A T A T T G G T A C 2 T A T C G A C G A T G T G A A A A T C A T A A T G A A G G C A T G A G C 1 C T C G A T G A T C A C G G A A A A T C A T A A T G A A G G C A T G A G C 4 G C G A T C A G C A G A T C G A A A A T C A T A A T G A A G G C A T G A G C 3 A T A T C G A C A G T G G A A A A T C A T A A T G A A G G C A T G A G C 5 T C T C G A T G A T C A G G A A A A T C A T A A T G A A G G C A T G A G C 7 C G C G A T C T G T A G A G G A A A A T C A T A A T G A A G G C A T G A G C 6 G A G A T C A T G T C A G A A A A T C A T A A T G A A G G C A T G A G C 8 A C A T C G A C G T A C G G A A A A T C A T A A T G A A G G C A T G A G C 17 T G T C G A T C T A C A G C G A A A A T C A T A A T G A A G G C A T G A G C 16 C A C G A T G A C G A C G A A A A T C A T A A T G A A G G C A T G A G C 11 G T G A T C G C A C G A T G A A A A T C A T A A T G A A G G C A T G A G C 12 A G A T C G A G C A C T C A G A A A A T C A T A A T G A A G G C A T G A G C A 25 25 30 25 20 25 35 30 30 35 30 30 15 25 40 70 75 55 30 45 50 55 50 55 45 45 70 55 30 15 45 35 35 20 20 20 T 25 20 25 30 25 20 20 20 15 35 25 15 25 20 15 0 0 30 35 35 30 35 35 20 20 20 0 0 0 10 15 45 45 50 15 10 C 25 25 20 25 30 25 25 30 25 10 25 30 15 20 25 30 25 15 35 20 20 10 15 25 15 15 0 0 0 20 20 20 0 0 0 20 G 25 30 25 20 25 30 20 20 30 20 20 25 45 35 20 0 0 0 0 0 0 0 0 0 20 20 20 30 55 55 20 0 20 30 65 50 Pourcentage de chaque base
Technologies disponibles aujourd hui
Single Molecule Real Time sequencing - Pacific Bioscience Spécificité : Utiliser une DNA polymerase comme moteur de séquençage en temps réel Challenges : dompter la vitesse intrinsèque, la fidélité et la processivité des enzymes 1. La vitesse de la synthèse d ADN montre des variations stochastiques, ce qui implique l observation de chaque processus au niveau moléculaire 2. La surface chimique de contact doit permettre la réaction et inhiber l adsorption non spécifique de dntps marqués 3. Les dntp substrats portant le marquage ne doivent pas inhiber la polymérisation 4. L instrument doit détecter de manière fiable la synthèse et distinguer l incorporation de chaque dntp
Synthèse d ADN en temps réel PacBio RS données brutes
Spécifications techniques (v2.0) vitesse: 4.7 ±1.7 bases.s -1, pas de corrélation spatiale Ratio signal/bruit 24 ±10 dans le pire des cas 36% ZMWs produisent des séquences uniques et pleine longueur Longueur > 11 000 bases avec une moyenne de 7 000 bases Taux d erreur de 14% environ (D:7,4%; I: 4,5% et S: 2,1%)
Pacbio RS sequencer Préparation au séquençage et séquençage SMRT Temps de préparation d une journée environ Temps de séquençage de 3 mois environ (!) Coût global d un séquençage : 1750 pour 100K sequences totales
Indice de Qualité Pacbio RS sequencer Résultats principaux qualitatifs et quantitatifs 96 100 k séquences dont 19-21k ccs Jusqu à xx bases / séquence Variation de qualité Q30 d un run à l autre, distribution de l index avec une forte variabilité Taux d erreur sur le fragment de contrôle inconnu Q30 Q20 Position Circular consensus sequence (CCS)
Pacbio RS sequencer Résultats principaux qualitatifs et quantitatifs CCS : 98% de fragments de taille attendue (658 bases)
Pacbio RS sequencer Résultats principaux qualitatifs et quantitatifs Run #1 CCS Nombre % par étape séquences brutes 21 587 Séquences avec marqueur 20 672 96% Séquences assignées 9 161/11 225 82% 1200 1000 800 600 400 CCS : de 433 à 988 séquences par échantillon 763 en moyenne, 149 d écart type 200 0 1 2 3 4 5 6 7 8 9 10 11 12
Pacbio RS sequencer Résultats principaux qualitatifs et quantitatifs 42% de variation quantitative entre les réplicats techniques en moyenne La séquence majoritaire (17% en moyenne) toujours correspondant à la séquence de référence dans le cas d échantillons «single sample» Une correction d erreur basée sur un choix majoritaire par position corrige 100% des échantillons «single sample», en revanche algorithme peu adapté à un échantillon environnemental Le taux d erreur ne dépasse pas deux mutations par séquence 98% des séquences ont la bonne longueur (658pb), pas plus de 2 bases d écart globalement. Très faible reproductibilité des ratio originaux mise en exergue par la faible profondeur relative Très forte utilité pour le séquençage type barcoding, peu favorable aux applications environnementales en l état
Illumina Miseq sequencer Reads Passing Filter Miseq sequencer (Illumina) RUN TYPE Single Reads Paired-End Reads READS PASSING FILTER 12-15 M 24-30 M READ LENGTH BASES HIGHER THAN Q30 1 36 bp > 90% 2 25 bp > 90% 2 100 bp > 85% 2 150 bp > 80% 2 250 bp > 75% http://www.illumina.com/systems/miseq/performance_specifications.ilmn
Illumina Miseq sequencer Construction de librairies sur la base de TruSeq DNA sample prep. Possibilité de multiplexage sur la base d indexes (-> 24 librairies) «Facilité» et reproductibilité du protocole Rapidité de mise en œuvre (environ une journée) Coût réduit de la librairie (environ 60 de consommable)
Illumina Miseq sequencer Préparation au séquençage et séquençage Illumina. Temps de préparation d une heure environ Facilité du lancement malgré des options étranges Temps de séquençage de 37h (en 2x251 cycles) Coût global d un séquençage : 1150 pour 24-30 M de séquences (paired-end)
Indice de Qualité Illumina Miseq sequencer Résultats principaux qualitatifs et quantitatifs 12,2-14,7 M de séquences de 211pb par run, double lecture paired-end Variation de qualité Q30 d un run à l autre Q30 Q20 Variation du profil qualité d un sens de séquençage à l autre Taux d erreur de 0,18% à 0,39% sur le fragment de contrôle Position Sens R1
Illumina Miseq sequencer Résultats principaux qualitatifs et quantitatifs Run #1 Run #1 Nombre % par étape % du brut séquences brutes 14 127 740 séquences filtrées Miseq 13 929 700 99% 99% séquences filtrées Q30 4 480 524 32% 32% Séquences avec marqueur 2 820 474 63% 20% Séquences assignées 1 271 474 45% 9%
Illumina Miseq sequencer Résultats principaux qualitatifs et quantitatifs Run #1 Run #2 Nombre % par étape % du brut Nombre % par étape % du brut séquences brutes 14 127 740 12 121 700 séquences filtrées Miseq 13 929 700 99% 99% 12 025 783 99% 99% séquences filtrées Q30 4 480 524 32% 32% 11 938 268 99% 98% Séquences avec marqueur 2 820 474 63% 20% 10 872 417 91% 90% Séquences assignées 1 271 474 45% 9% 7 415 678 68% 61%
Illumina Miseq sequencer Résultats principaux qualitatifs et quantitatifs (run #2): de 2 555 à 319 574 séquences par échantillon 350000 300000 250000 200000 150000 100000 50000 0 1 5 9 13 17 21 25 29 33 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93
Illumina Miseq sequencer Résultats principaux qualitatifs et quantitatifs 12% de variation quantitative entre les réplicats techniques en moyenne La séquence majoritaire (>50%) toujours correspondant à la séquence de référence dans le cas d échantillons «single sample» 97% des séquences ont la bonne longueur (127pb), pas plus de 2 bases d écart globalement. 10-12% de contamination intra manip (échantillon «Melting Pot») Grand progrès de la méthode mais des précautions à prendre et des améliorations à apporter
Technologies NGS à la portée de tous
Bioinformatique et analyse 1- des outils flexibles non dépendants de la technologie de séquençage pour les phases préliminaires de traitement des données : serveur Galaxy http://galaxyproject.org/
Bioinformatique et analyse 2- des outils dédiés au traitement du barcoding environnemental: Basé sur :
Traitement des données et barcoding environnemental La problématique : un grand nombre d échantillons à traiter, potentiellement de multiples marqueurs, des banques de données de référence hétérogènes, des outils d assignation en constante évolution. SE S AM E Barcode est conçu pour répondre à ce challenge Il propose une interface utilisateur unique à un pipeline d analyse modulaire appuyé à une base de données. Il est déployable à n importe quelle échelle de puissance sous forme d appliance virtuelle ou par installation traditionnelle.
Pipeline d analyse Multiplexing des marqueurs Et des échantillons
L utilisateur peut explorer les données des échantillons et valider les allèles si nécessaire.
Librairie de référence Les librairies de référence sont obtenues extraction de Genbank NT, de librairie ad-hoc ou un mélange des deux La taxonomie s appuie sur le format de Genbank
Assignation à la volée des résultats post Blast : nearest neighbor ou seuil de similarité Assignation à l ancêtre Englobant, exclus si très différent Assignation à l espèce la plus proche même si elle est très éloignée!
taxons détectés Échantillons et séquences Liste échantillons multiselection Résultats graphiques
Directions méthodologiques futures Améliorations de la PCR ou approches d acquisition alternatives Evolution continue des technologies NGS Scalabilité des solutions bioinformatiques
Universalité des amorces Améliorer l efficacité de l approche par PCR Cocktail d amorces
Sequence capture Capture par hybridation SureSelect XT Full-Alamano Technology cc
L évolution des technologies NGS : Illumina en progression continue Reads Passing Filter Miseq sequencer (Illumina) RUN TYPE READS PASSING FILTER Current Future** Single Reads 12-15 M 22-25 M Paired-End Reads 24-30 M 44-50 M READ LENGTH BASES HIGHER THAN Q30 1 36 bp > 90% 2 25 bp > 90% 2 100 bp > 85% 2 150 bp > 80% 2 250 bp > 75% 2 300 bp** > 70% ** : deuxième semestre 2013 http://www.illumina.com/systems/miseq/performance_specifications.ilmn
L évolution des technologies NGS Oxford Nanopore technologies disponible à moyen terme MinION TM (Oxford Nanopore) Quelle longueur de lecture pour cette technologie? The system is designed to give ultra-high read lengths. At the recent AGBT conference, examples were shown of tens of kb in a single read of a sense and antisense strand of a single genome, using a hairpin sample prep. > 10kb, 50kb en pointe démontré (AGBT conference 2012) Quel coût pour un MinION TM? A single MinION TM device is expected to retail at under $900 http://www.nanoporetech.com/about-us/for-customers http://www.nanoporetech.com//technology/the-miniondevice-a-miniaturised-sensing-system Pourquoi s intéresser à cette technologie pour des marqueurs de faible longueur? Faibles coûts, pas de librairie à construire, système configurable à différentes échelles. On peut détourner l utilisation par coligation des marqueurs en contigs puis séquencer.
Ordinateur personnel Scalabilité des solutions bioinformatiques Cluster de calcul local Cloud computing
Morgane Ardisson Anne-Laure Clamens Armelle Cœur d Acier Emmanuel Corse Vincent Dubut Philippe Gauthier André Gilles Emmanuel Guivier Emese Meglecz Grégory Mollot Sylvain Piry Audrey Réalini Collaborateurs
Merci! Question? martinjf@supagro.inra.fr Jean-François Martin