Qualité des séquences produites par 454 : exemple de traitement Eric PEYRETAILLADE Equipe d accueil CIDAM Faculté de Pharmacie, Université d Auvergne 1
La Technologie 454 (Roche) Etape 1 : Préparation des banques d ADN Shotgun Fragmentation de l ADN» Cassure mécanique par nébulisation Roche Diagnostics 2
La Technologie 454 (Roche) Etape 1 : Préparation des banques d ADN Shotgun Fragmentation de l ADN» Cassure mécanique par nébulisation Ajout des adaptateurs A et B pour la PCR en émulsion et le séquençage Roche Diagnostics 3
La Technologie 454 (Roche) Etape 1 : Préparation des banques d ADN Shotgun Fragmentation de l ADN» Cassure mécanique par nébulisation Ajout des adaptateurs pour la PCR en émulsion et le séquençage Sélection des fragments avec les adaptateurs A et B Roche Diagnostics 4
La Technologie 454 (Roche) Etape 1 : Préparation des banques d ADN Approche Amplicons Détermination d amorces de fusion Roche Diagnostics 5
La Technologie 454 (Roche) Etape 2 : PCR en émulsion (empcr) Ratio nombre de molécules ADN/nombre de billes : un fragment par bille Emulsion pour individualiser chaque bille (micro-réacteur) PCR Roche Diagnostics 6
La Technologie 454 (Roche) Etape 3 : Pyroséquençage Billes placées sur une plaque avec puits (picotiter plate) détection de lumière résultant de l incorporation des nucléotides ajoutés de manière séquentielle : flow cycle Roche Diagnostics 7
La Technologie 454 (Roche) TACGCGATCGATCGTAGCTACGATCGTACGTACGTAGCTAGTCGTACGCTGACTGCTNNNNN Clé Multiplex Identifier (MID) Clé : Identifier et calibrer les puits MID: «Etiqueter» un échantillon 8
La Technologie 454 (Roche) Roche Diagnostics 9
La Technologie 454 (Roche) Roche Diagnostics 10
Extraction des données Fichier SFF (Standard Flowgram File) Sortie standard du 454 Fichier binaire! Humainement illisible 11
Extraction des données Décryptage du fichier SFF Rendre lisible le.sff Exécutable fourni par Roche sffinfo(unix)./sffinfo fichier_binaire.sff >ficher_decrypte.sff.txt 12
Extraction des données >F7K88GK01BMPI0 Run Prefix: R_2009_12_18_15_27_42_ Region #: 1 XY Location: 0551_2346 Run Name: R_2009_12_18_15_27_42_FLX########_Administrator_yourrunname Analysis Name: D_2009_12_19_01_11_43_XX_fullProcessing Full Path: /data/r_2009_12_18_15_27_42_flx########_administrator_yourrunname/d_2009_12_19_01_11 Read Header Len: 32 Name Length: 14 # of Bases: 500 Clip Qual Left: 15 Clip Qual Right: 490 Clip Adap Left: 0 Clip Adap Right: 0 Flowgram: 1.03 0.00 1.01 0.02 0.00 0.96 0.00 1.00 0.00 1.04 0.00 0.00 0.97 0.00 0.96 0.02 0.00 1.04 0.01 1.04 0.00 0.97 0.96 0.02 0.00 1.00 0.95 1.04 0.00... Flow Indexes: 1 3 6 8 10 13 15 18 20 22 23 26 27 28 31 31 34 35 37 37 37 40 43 45 47 47 47 50 53 53 53 55 58 60 63 66 67 67 67 67 70 71 71 74 74 76 79 82 83 86 86 88 88 91 93 96 97 99 102 105... Bases: tcagatcagacacgccactttgctcccatttcagcaccccaccaagcacaaggctgtcatcccaattggacggacagatatgaggt TAGCATTGGAAACCAATTCAGTCCCTAATTATTCACGACTGAACCCAGCGACAATTGGACATGGATTCATTTTTCA..AGATTTG ACTGCAGaagaagaatc Quality Scores: 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 38 38 38 40 40 40 39 39 39 40 34 34 34 40 40 40 40 39 26 26 26 26 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 13
Extraction des données Démultiplexage Découpage du fichier SFF par échantillon 14
Extraction des données Démultiplexage Découpage du fichier SFF par échantillon Exécutable fourni par Roche sfffile(unix)» -s: 1 fichier de sortie par MID détecté» -o: préfixe des fichiers de sortie./sfffile s o demultiplexage fichier_binaire.sff» Génère les fichiers demultiplexage.mid1.sff, demultiplexage.mid2.sff etc» Configuration possible des différents MIDs dans le fichier MIDConfig.parse 15
Extraction des données Décryptage du fichier SFF Extraction des informations pertinentes Exécutable fourni par Roche sffinfo(unix)./sffinfo -s -n fichier_binaire.sff > fichier_texte.fasta./sffinfo q n fichier_binaire.sff > fichier_texte.qual Option n permet de ne pas prendre en compte les valeurs du fichier sff (Clip Qual Left et Clip Qual Right) pour couper la séquence (tag et mauvaise qualité) 16
Extraction des données Décryptage du fichier SFF Extraction des informations pertinentes Autres scripts libres sff_extract» COMAV Institute, script python, multiplateforme Production des fichiers FASTA, QUAL et FASTQ./sffextract c s fichier_fasta.txt q fichier_qual.txt fichier_binaire.sff./sffextract Q o fichier_fastq fichier_binaire.sff sff2fastq» Indraniel Das, The Genome Center at Washington University./sff2fastq o fichier_fastq fichier_binaire.sff 17
Extraction des données Fichier FASTQ @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT +SEQ_ID (optionnel)!''*((((***+))%%%++)(%%%%).1***-+*''))**55ccf>>>>>>ccccccc65 Valeur de qualité Valeurs numériques (phred) représentées par le caractère ASCII correspondant 18
Problèmes des séquences 454 Erreurs de séquençage Insertions/délétions Difficulté à déterminer le nombre de nucléotides entrant dans la composition d un homopolymère (suite d un même nucléotide) perte de la relation de linéarité entre l intensité lumineuse émise et le nombre de nucléotides incorporé. 19
Problèmes des séquences 454 Erreurs de séquençage Insertions/délétions Signal au dessous du seuil de détection pour l incorporation d un seul nucléotide (autre que homopolymère) Détection d un signal provenant d un puits adjacent Phénomène de CAFIE (CArry Forward/ Incomplete Extension) 20
Problèmes des séquences 454 Erreurs de séquençage Bases ambigües Flow : T A C G Flowgram: 0.03 0.20 0.10 0.02 Sequence : N 21
Problèmes des séquences 454 Erreurs de séquençage Erreur de prédiction Signal surestimé suivi d un signal sous-estimé ou vice versa Flow : T A C G T A C G Flowgram: 1.00 1.52 1.48 0.90 1.00 0.00 0.00 0.95 TAACGTG TACCGTG Signal surestimé Signal sous estimé 22
Problèmes des séquences 454 Gilles et al. BMC genomics 2011 23
Problèmes des séquences 454 Gilles et al. BMC genomics 2011 24
Problèmes des séquences 454 Réplicats artificiels 4 44% (Niu et al., 2010) 11 35% (Gomez-Alvarez et al., 2009) Plusieurs billes dans une même goutte d émulsion dont une seule porte un fragment d ADN La caméra détecte une émission de lumière dans un ou plusieurs puits vides provenant d un puits adjacent où s effectue la réaction de pyroséquençage 25
Problèmes des séquences 454 5 3 Séquences Chimériques (amplicons) amorce amorce 3 Séquence espèce 1 5 Cycle PCR n 5 3 amorce 3 5 n+1 Séquence espèce 2 5 3 amorce Séquence chimérique amorce 3 5 n+2 26
Exemple de traitement : Capture de gène en solution Lac Pavin 90m ADN Métagénomique Biomarqueur (mcra) Amplicons (PCR) Produits de Capture Métagénome 27
Exemple de traitement : Capture de gène en solution «Nettoyage» du jeu de séquences PRINSEQ (outil spécifiquement dédié) Schmieder et al., 2011, Bioinformatics Script PERL Multi-plateformes Permet le prétraitement haut-débit d un grand nombre de séquences 28
Exemple de traitement : Capture «Nettoyage» du jeu de séquences PRINSEQ (outil spécifiquement dédié) Schmieder et al., 2011, Bioinformatics Script PERL Multi-plateformes Permet le prétraitement haut-débit d un grand nombre de séquences MAIS de gène en solution suppose démultiplexage réalisé Elimination des séquences avec erreurs au niveau des MID. 29
Exemple de traitement : Capture de gène en solution «Nettoyage» du jeu de séquences PRINSEQ (outil spécifiquement dédié) Suppression des extrémités 5 : clé, MID, [primer PCR] 3 : [primer PCR] Adaptateur B TACGCGATCGATCGTAGCTACGATCGTACGTACGTAGCTAGTCGTACGCTGACTGCTNNNNN Clé Multiplex Identifier (MID) perl prinseq-lite.pl fastq fichier.fastq -out_good sortietrim -trim_left 16 -trim_right 42 30
Exemple de traitement : Capture de gène en solution «Nettoyage» du jeu de séquences PRINSEQ (outil spécifiquement dédié) Suppression des fins de séquences de mauvaise qualité Fenêtre glissante le long de la séquence» Si qualité moyenne sur X bases successives < valeur seuil, on tronque la séquence à cet endroit perl prinseq-lite.pl -fastq sortietrim.fastq -out_good sortielqe -trim_qual_right 15 -trim_qual_type "mean" -trim_qual_window 2 -trim_qual_step 1 31
Exemple de traitement : Capture de gène en solution «Nettoyage» du jeu de séquences PRINSEQ (outil spécifiquement dédié) Séquences trop courtes Séquences trop longues Mode ±2 SD» Mode : valeur la plus représentée» SD : écart-type perl prinseq-lite.pl fastq sortielqe.fastq -out_good sortielength -min_len 360 -max_len 520 perl prinseq-lite.pl stats_all - fastq 32
Exemple de traitement : Capture de gène en solution «Nettoyage» du jeu de séquences PRINSEQ (outil spécifiquement dédié) Séquences de mauvaise qualité Evaluation de la qualité globale de la séquence» Si qualité moyenne < 20 on exclue la séquence perl prinseq-lite.pl fastq sortielength.fastq -out_good sortielq -min_qual_mean 20 33
Exemple de traitement : Capture de gène en solution «Nettoyage» du jeu de séquences PRINSEQ (outil spécifiquement dédié) Séquences contenant des bases indéterminées Evaluation du pourcentage de N» Si > 1%, on exclue la séquence perl prinseq-lite.pl fastq sortielq.fastq -out_good sortien -ns_max_p 1 34
Exemple de traitement : Capture de gène en solution «Nettoyage» du jeu de séquences PRINSEQ (outil spécifiquement dédié) Séquences de faible complexité Détermination de la fréquences des différents mots de 3 nucléotides sur des fenêtres de 64 nucléotides.» Deux méthodes» DUST» Evaluation de l Entropie : Shannon Wiener perl prinseq-lite.pl fastq sortien.fastq -out_good sortieentropy -lc_method "entropy" -lc_threshold 80 35
Exemple de traitement : Capture de gène en solution «Nettoyage» du jeu de séquences PRINSEQ (outil spécifiquement dédié) réplicats artificiels perl prinseq-lite.pl fastq sortieentropy.fastq -out_good sortiereplicat -derep 2 36
Exemple de traitement : Capture «Nettoyage» du jeu de séquences Gestion des séquences chimériques Uchime de gène en solution Edgar et al., 2011. Bioinformatics Combine comparaison avec une base de données de séquences non chimériques et approche de novo 37
Exemple de traitement : Capture de gène en solution Amplicons Métagénome Capture >Seq1 ATGCACGTAGCTACGAAATCA >Seq2 ATCGACTCAGACAGCCACGAC >Seq1 ATGCACGTAGCTACGAAATCA >Seq2 ATCGACTCAGACAGCCACGAC >Seq1 ATGCACGTAGCTACGAAATCA >Seq2 ATCGACTCAGACAGCCACGAC BLASTX BDD Séquences McrA >Seq1 FTQYEAAALVAARRDEAAL >Seq2 FTQYEAAALVAGRRDEAAL. >Seq1034 FTQYEAAALVAARRDEAAL >Seq5532 FTQYEGAALVALARDEAW. >Seq41 FTQYEAAALVAARRDEAAL >Seq65 AAALVAARRDEAALGLKDEA. 99,98 % 0.003 % 41,32 % 38
Exemple de traitement : Capture de gène en solution «Nettoyage» du jeu de séquences Gestion des sauts de cadre de lecture BLAST Altschul et al., 1997 Utilisation de l option w >D0VNF7_9ARCH 138 SubName: Full=Methyl coenzyme M reductase; Flags: Fragment; Length = 138 Score = 80.9 bits (270), Expect = 4e-17 Identities = 48/52 (92%), Positives = 49/52 (94%) Frame = +1 Query: 4 ITVGLATANS\NAAVTAWYLSMLMHKEG//WSRLGFFGYDLQDQCGSANSMSIRP 160 ITVGLATANS NA + WYLSMLMHKEG WSRLGFFGYDLQDQCGSANSMSIRP Sbjct: 76 ITVGLATANS NAGLNGWYLSMLMHKEG WSRLGFFGYDLQDQCGSANSMSIRP 127 39
Exemple de traitement : Capture de gène en solution Amplicons Métagénome Capture >Seq1 ATGCACGTAGCTACGAAATCA >Seq2 ATCGACTCAGACAGCCACGAC >Seq1 ATGCACGTAGCTACGAAATCA >Seq2 ATCGACTCAGACAGCCACGAC >Seq1 ATGCACGTAGCTACGAAATCA >Seq2 ATCGACTCAGACAGCCACGAC BLASTX BDD Séquences McrA >Seq1 FTQYEAAALVAARRDEAAL >Seq2 FTQYEAAALVAGRRDEAAL. >Seq1034 FTQYEAAALVAARRDEAAL >Seq5532 FTQYEGAALVALARDEAW. >Seq41 FTQYEAAALVAARRDEAAL >Seq65 AAALVAARRDEAALGLKDEA. 99,98 % 0.003 % 41,32 % 38873/119284 1/3 35850/60558 40
Exemple de traitement : Capture de gène en solution >Seq1034 FTQYEAAALVAARRDEAAL >Seq5532 FTQYEGAALVALARDEAW.. Metagenome 58 OTUs >Seq1 FTQYEAAALVAARRDEAAL >Seq2 FTQYEAAALVAGRRDEAAL Amplicons >Seq41 FTQYEAAALVAARRDEAAL >Seq65 AAALVAARRDEAALGLKDEAA Capture 41
Exemple de traitement : Capture de gène en solution Nombre d OTUs Methanopyrales Methanobacteriales Methanococcales Novel Order Methanomicrobiales Methanocellales Methanosarcinales 42
Exemple de traitement : Capture de gène en solution Assemblage des lectures Ensemble des séquences produites par capture après traitement prinseq et uchime. Newbler (Roche) Chevauchement minimal de 60 nucléotides avec un pourcentage d identité d au moins 95% mcr mcrb mcrc mcrd mcrg mcra Contigs mapping 43
Merci de votre attention Merci de votre attention! 44