Qualité des séquences produites par 454 : exemple de traitement



Documents pareils
Analyse des données de séquençage massif par des méthodes phylogénétiques

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

altona altona RealStar CMV PCR Kit 1.0 always a drop ahead. 04/2015 altona Diagnostics GmbH Mörkenstr Hamburg Germany

Big data et sciences du Vivant L'exemple du séquençage haut débit

Procédure d utilisation du Beckman CEQ 2000 XL pour la réalisation de programmes de séquençage ou de génotypage.

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

SERVICES DE SEQUENÇAGE

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Les systèmes de gestion de version

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

ELOECM Conference2015

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Guide de l utilisateur du système MiSeq MD DESTINÉ À LA RECHERCHE

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Gènes Diffusion - EPIC 2010

Mémo technique MODELES GENERIQUES DE SCORE DE CREDIT ou Le scoring de crédit «prêt à l emploi»

Introduction à MATLAB R

DU BINAIRE AU MICROPROCESSEUR - D ANGELIS CIRCUITS CONFIGURABLES NOTION DE PROGRAMMATION

1 Description générale de VISFIELD

Potentiels de la technologie FPGA dans la conception des systèmes. Avantages des FPGAs pour la conception de systèmes optimisés

Multichronomètre SA10 Présentation générale

Plateforme. DArT (Diversity Array Technology) Pierre Mournet

Introduction au datamining

Analyse d images. Edmond.Boyer@imag.fr. Edmond Boyer UFRIMA 1

Annales du Contrôle National de Qualité des Analyses de Biologie Médicale

Janvier Entretien de l ordinateur

CHAPITRE 3 LA SYNTHESE DES PROTEINES

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Cours 1 : introduction

MEDIA NAV Guide de téléchargement de contenus en ligne

MYRIAD. l ADN isolé n est à présent plus brevetable!

Groupe Eyrolles, 2006, ISBN :

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Transmission d informations sur le réseau électrique

Une étude de différentes analyses réalisées par le BIT

Le phénomène du SPAM en 2003!!!

Introduction : présentation de la Business Intelligence

Montréal, 24 mars David Levine Président et chef de la direction DL Strategic Consulting. DL Consulting Strategies in Healthcare

Chapitre 18 : Transmettre et stocker de l information

Isolement automatisé d ADN génomique à partir de culots de cellules sanguines à l aide de l appareil Tecan Freedom EVO -HSM Workstation

SQL2005, la migration Atelier 316

Retour d expérience sur Prelude

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

TP Vidéo surveillance Bac pro SEN CCTV. Lycée de L Aa 1

Améliorer les performances du site par l'utilisation de techniques de Web Mining

Le risque Idiosyncrasique

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Brock. Rapport supérieur

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Transmission de données. A) Principaux éléments intervenant dans la transmission

CASA SPERM CLASS ANALYZER

Exemple PLS avec SAS

Dossier 03 Périphériques d acquisition

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Principe d un test statistique

SSIS Implémenter un flux

Introduc)on à Ensembl/ Biomart : Par)e pra)que

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Écritures comptables : présentation obligatoire aux vérificateurs sous format dématérialisé

Fête de la science Initiation au traitement des images

Notice d utilisation M Epigenomics AG, Berlin, Allemangne

BIG DATA une évolution, une révolution, une promesse pour le diagnostic

PROGRAMME (Susceptible de modifications)

PRINCIPE MICROSCOPIE CONFOCALE

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

INF6304 Interfaces Intelligentes

Chapitre 7 : Structure de la cellule Le noyau cellulaire

Solution de gestion de newsletter 12all Version 1.0 p.montier

Fiche 19 La couleur des haricots verts et cuisson

Les exploitations de grandes cultures face à la variabilité de leurs revenus : quels outils de gestion des risques pour pérenniser les structures?

Objectifs pédagogiques : spectrophotomètre Décrire les procédures d entretien d un spectrophotomètre Savoir changer l ampoule d un

Perl Orienté Objet BioPerl There is more than one way to do it

données en connaissance et en actions?

Large succès de l introduction en bourse de Genomic Vision sur Euronext à Paris qui lève 23,0 M

1 ITEM DESIGNATION DE L ITEM

Etudier l influence de différents paramètres sur un phénomène physique Communiquer et argumenter en utilisant un vocabulaire scientifique adapté

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

Découverte de réseaux IPv6

Utilisation de la plateforme VIA ecollaboration

La Rosette (NGC 2237) Fabien

Traitement bas-niveau

Améliorer la performance énergétique, les aides de l'état

PRECAUTIONS DESCRIPTION DU PRODUIT

Hépatite chronique B Moyens thérapeutiques

Etude d Algorithmes Parallèles de Data Mining

MODE D EMPLOI. Station météo avec senseur extérieur sans fil WS-1100

Détection et prise en charge de la résistance aux antirétroviraux

Comment réussir sa facture photovoltaïque?

ISO/CEI NORME INTERNATIONALE

SECTEUR 4 - Métiers de la santé et de l hygiène

PARAGON Disk Wiper. Guide de l utilisateur. Paragon Technology GmbH, System Programmierung. Copyright Paragon Technology GmbH

SAP BusinessObjects Web Intelligence (WebI) BI 4

COR-E : un modèle pour la simulation d agents affectifs fondé sur la théorie COR

Capture, Filtrage et Analyse de trames ETHERNET avec le logiciel Wireshark. Etape 1 : Lancement des machines virtuelles VMWARE et de Wireshark

1 Culture Cellulaire Microplaques 2 HTS- 3 Immunologie/ HLA 4 Microbiologie/ Bactériologie Containers 5 Tubes/ 6 Pipetage

Support de TD ArcGIS Introduction à l automatisation et au développement avec ArcGIS 10.1 JEAN-MARC GILLIOT e année ingénieur

TP 1. Prise en main du langage Python

Génétique et génomique Pierre Martin

UE 4 Comptabilité et Audit. Le programme

Transcription:

Qualité des séquences produites par 454 : exemple de traitement Eric PEYRETAILLADE Equipe d accueil CIDAM Faculté de Pharmacie, Université d Auvergne 1

La Technologie 454 (Roche) Etape 1 : Préparation des banques d ADN Shotgun Fragmentation de l ADN» Cassure mécanique par nébulisation Roche Diagnostics 2

La Technologie 454 (Roche) Etape 1 : Préparation des banques d ADN Shotgun Fragmentation de l ADN» Cassure mécanique par nébulisation Ajout des adaptateurs A et B pour la PCR en émulsion et le séquençage Roche Diagnostics 3

La Technologie 454 (Roche) Etape 1 : Préparation des banques d ADN Shotgun Fragmentation de l ADN» Cassure mécanique par nébulisation Ajout des adaptateurs pour la PCR en émulsion et le séquençage Sélection des fragments avec les adaptateurs A et B Roche Diagnostics 4

La Technologie 454 (Roche) Etape 1 : Préparation des banques d ADN Approche Amplicons Détermination d amorces de fusion Roche Diagnostics 5

La Technologie 454 (Roche) Etape 2 : PCR en émulsion (empcr) Ratio nombre de molécules ADN/nombre de billes : un fragment par bille Emulsion pour individualiser chaque bille (micro-réacteur) PCR Roche Diagnostics 6

La Technologie 454 (Roche) Etape 3 : Pyroséquençage Billes placées sur une plaque avec puits (picotiter plate) détection de lumière résultant de l incorporation des nucléotides ajoutés de manière séquentielle : flow cycle Roche Diagnostics 7

La Technologie 454 (Roche) TACGCGATCGATCGTAGCTACGATCGTACGTACGTAGCTAGTCGTACGCTGACTGCTNNNNN Clé Multiplex Identifier (MID) Clé : Identifier et calibrer les puits MID: «Etiqueter» un échantillon 8

La Technologie 454 (Roche) Roche Diagnostics 9

La Technologie 454 (Roche) Roche Diagnostics 10

Extraction des données Fichier SFF (Standard Flowgram File) Sortie standard du 454 Fichier binaire! Humainement illisible 11

Extraction des données Décryptage du fichier SFF Rendre lisible le.sff Exécutable fourni par Roche sffinfo(unix)./sffinfo fichier_binaire.sff >ficher_decrypte.sff.txt 12

Extraction des données >F7K88GK01BMPI0 Run Prefix: R_2009_12_18_15_27_42_ Region #: 1 XY Location: 0551_2346 Run Name: R_2009_12_18_15_27_42_FLX########_Administrator_yourrunname Analysis Name: D_2009_12_19_01_11_43_XX_fullProcessing Full Path: /data/r_2009_12_18_15_27_42_flx########_administrator_yourrunname/d_2009_12_19_01_11 Read Header Len: 32 Name Length: 14 # of Bases: 500 Clip Qual Left: 15 Clip Qual Right: 490 Clip Adap Left: 0 Clip Adap Right: 0 Flowgram: 1.03 0.00 1.01 0.02 0.00 0.96 0.00 1.00 0.00 1.04 0.00 0.00 0.97 0.00 0.96 0.02 0.00 1.04 0.01 1.04 0.00 0.97 0.96 0.02 0.00 1.00 0.95 1.04 0.00... Flow Indexes: 1 3 6 8 10 13 15 18 20 22 23 26 27 28 31 31 34 35 37 37 37 40 43 45 47 47 47 50 53 53 53 55 58 60 63 66 67 67 67 67 70 71 71 74 74 76 79 82 83 86 86 88 88 91 93 96 97 99 102 105... Bases: tcagatcagacacgccactttgctcccatttcagcaccccaccaagcacaaggctgtcatcccaattggacggacagatatgaggt TAGCATTGGAAACCAATTCAGTCCCTAATTATTCACGACTGAACCCAGCGACAATTGGACATGGATTCATTTTTCA..AGATTTG ACTGCAGaagaagaatc Quality Scores: 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 38 38 38 40 40 40 39 39 39 40 34 34 34 40 40 40 40 39 26 26 26 26 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 40 13

Extraction des données Démultiplexage Découpage du fichier SFF par échantillon 14

Extraction des données Démultiplexage Découpage du fichier SFF par échantillon Exécutable fourni par Roche sfffile(unix)» -s: 1 fichier de sortie par MID détecté» -o: préfixe des fichiers de sortie./sfffile s o demultiplexage fichier_binaire.sff» Génère les fichiers demultiplexage.mid1.sff, demultiplexage.mid2.sff etc» Configuration possible des différents MIDs dans le fichier MIDConfig.parse 15

Extraction des données Décryptage du fichier SFF Extraction des informations pertinentes Exécutable fourni par Roche sffinfo(unix)./sffinfo -s -n fichier_binaire.sff > fichier_texte.fasta./sffinfo q n fichier_binaire.sff > fichier_texte.qual Option n permet de ne pas prendre en compte les valeurs du fichier sff (Clip Qual Left et Clip Qual Right) pour couper la séquence (tag et mauvaise qualité) 16

Extraction des données Décryptage du fichier SFF Extraction des informations pertinentes Autres scripts libres sff_extract» COMAV Institute, script python, multiplateforme Production des fichiers FASTA, QUAL et FASTQ./sffextract c s fichier_fasta.txt q fichier_qual.txt fichier_binaire.sff./sffextract Q o fichier_fastq fichier_binaire.sff sff2fastq» Indraniel Das, The Genome Center at Washington University./sff2fastq o fichier_fastq fichier_binaire.sff 17

Extraction des données Fichier FASTQ @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT +SEQ_ID (optionnel)!''*((((***+))%%%++)(%%%%).1***-+*''))**55ccf>>>>>>ccccccc65 Valeur de qualité Valeurs numériques (phred) représentées par le caractère ASCII correspondant 18

Problèmes des séquences 454 Erreurs de séquençage Insertions/délétions Difficulté à déterminer le nombre de nucléotides entrant dans la composition d un homopolymère (suite d un même nucléotide) perte de la relation de linéarité entre l intensité lumineuse émise et le nombre de nucléotides incorporé. 19

Problèmes des séquences 454 Erreurs de séquençage Insertions/délétions Signal au dessous du seuil de détection pour l incorporation d un seul nucléotide (autre que homopolymère) Détection d un signal provenant d un puits adjacent Phénomène de CAFIE (CArry Forward/ Incomplete Extension) 20

Problèmes des séquences 454 Erreurs de séquençage Bases ambigües Flow : T A C G Flowgram: 0.03 0.20 0.10 0.02 Sequence : N 21

Problèmes des séquences 454 Erreurs de séquençage Erreur de prédiction Signal surestimé suivi d un signal sous-estimé ou vice versa Flow : T A C G T A C G Flowgram: 1.00 1.52 1.48 0.90 1.00 0.00 0.00 0.95 TAACGTG TACCGTG Signal surestimé Signal sous estimé 22

Problèmes des séquences 454 Gilles et al. BMC genomics 2011 23

Problèmes des séquences 454 Gilles et al. BMC genomics 2011 24

Problèmes des séquences 454 Réplicats artificiels 4 44% (Niu et al., 2010) 11 35% (Gomez-Alvarez et al., 2009) Plusieurs billes dans une même goutte d émulsion dont une seule porte un fragment d ADN La caméra détecte une émission de lumière dans un ou plusieurs puits vides provenant d un puits adjacent où s effectue la réaction de pyroséquençage 25

Problèmes des séquences 454 5 3 Séquences Chimériques (amplicons) amorce amorce 3 Séquence espèce 1 5 Cycle PCR n 5 3 amorce 3 5 n+1 Séquence espèce 2 5 3 amorce Séquence chimérique amorce 3 5 n+2 26

Exemple de traitement : Capture de gène en solution Lac Pavin 90m ADN Métagénomique Biomarqueur (mcra) Amplicons (PCR) Produits de Capture Métagénome 27

Exemple de traitement : Capture de gène en solution «Nettoyage» du jeu de séquences PRINSEQ (outil spécifiquement dédié) Schmieder et al., 2011, Bioinformatics Script PERL Multi-plateformes Permet le prétraitement haut-débit d un grand nombre de séquences 28

Exemple de traitement : Capture «Nettoyage» du jeu de séquences PRINSEQ (outil spécifiquement dédié) Schmieder et al., 2011, Bioinformatics Script PERL Multi-plateformes Permet le prétraitement haut-débit d un grand nombre de séquences MAIS de gène en solution suppose démultiplexage réalisé Elimination des séquences avec erreurs au niveau des MID. 29

Exemple de traitement : Capture de gène en solution «Nettoyage» du jeu de séquences PRINSEQ (outil spécifiquement dédié) Suppression des extrémités 5 : clé, MID, [primer PCR] 3 : [primer PCR] Adaptateur B TACGCGATCGATCGTAGCTACGATCGTACGTACGTAGCTAGTCGTACGCTGACTGCTNNNNN Clé Multiplex Identifier (MID) perl prinseq-lite.pl fastq fichier.fastq -out_good sortietrim -trim_left 16 -trim_right 42 30

Exemple de traitement : Capture de gène en solution «Nettoyage» du jeu de séquences PRINSEQ (outil spécifiquement dédié) Suppression des fins de séquences de mauvaise qualité Fenêtre glissante le long de la séquence» Si qualité moyenne sur X bases successives < valeur seuil, on tronque la séquence à cet endroit perl prinseq-lite.pl -fastq sortietrim.fastq -out_good sortielqe -trim_qual_right 15 -trim_qual_type "mean" -trim_qual_window 2 -trim_qual_step 1 31

Exemple de traitement : Capture de gène en solution «Nettoyage» du jeu de séquences PRINSEQ (outil spécifiquement dédié) Séquences trop courtes Séquences trop longues Mode ±2 SD» Mode : valeur la plus représentée» SD : écart-type perl prinseq-lite.pl fastq sortielqe.fastq -out_good sortielength -min_len 360 -max_len 520 perl prinseq-lite.pl stats_all - fastq 32

Exemple de traitement : Capture de gène en solution «Nettoyage» du jeu de séquences PRINSEQ (outil spécifiquement dédié) Séquences de mauvaise qualité Evaluation de la qualité globale de la séquence» Si qualité moyenne < 20 on exclue la séquence perl prinseq-lite.pl fastq sortielength.fastq -out_good sortielq -min_qual_mean 20 33

Exemple de traitement : Capture de gène en solution «Nettoyage» du jeu de séquences PRINSEQ (outil spécifiquement dédié) Séquences contenant des bases indéterminées Evaluation du pourcentage de N» Si > 1%, on exclue la séquence perl prinseq-lite.pl fastq sortielq.fastq -out_good sortien -ns_max_p 1 34

Exemple de traitement : Capture de gène en solution «Nettoyage» du jeu de séquences PRINSEQ (outil spécifiquement dédié) Séquences de faible complexité Détermination de la fréquences des différents mots de 3 nucléotides sur des fenêtres de 64 nucléotides.» Deux méthodes» DUST» Evaluation de l Entropie : Shannon Wiener perl prinseq-lite.pl fastq sortien.fastq -out_good sortieentropy -lc_method "entropy" -lc_threshold 80 35

Exemple de traitement : Capture de gène en solution «Nettoyage» du jeu de séquences PRINSEQ (outil spécifiquement dédié) réplicats artificiels perl prinseq-lite.pl fastq sortieentropy.fastq -out_good sortiereplicat -derep 2 36

Exemple de traitement : Capture «Nettoyage» du jeu de séquences Gestion des séquences chimériques Uchime de gène en solution Edgar et al., 2011. Bioinformatics Combine comparaison avec une base de données de séquences non chimériques et approche de novo 37

Exemple de traitement : Capture de gène en solution Amplicons Métagénome Capture >Seq1 ATGCACGTAGCTACGAAATCA >Seq2 ATCGACTCAGACAGCCACGAC >Seq1 ATGCACGTAGCTACGAAATCA >Seq2 ATCGACTCAGACAGCCACGAC >Seq1 ATGCACGTAGCTACGAAATCA >Seq2 ATCGACTCAGACAGCCACGAC BLASTX BDD Séquences McrA >Seq1 FTQYEAAALVAARRDEAAL >Seq2 FTQYEAAALVAGRRDEAAL. >Seq1034 FTQYEAAALVAARRDEAAL >Seq5532 FTQYEGAALVALARDEAW. >Seq41 FTQYEAAALVAARRDEAAL >Seq65 AAALVAARRDEAALGLKDEA. 99,98 % 0.003 % 41,32 % 38

Exemple de traitement : Capture de gène en solution «Nettoyage» du jeu de séquences Gestion des sauts de cadre de lecture BLAST Altschul et al., 1997 Utilisation de l option w >D0VNF7_9ARCH 138 SubName: Full=Methyl coenzyme M reductase; Flags: Fragment; Length = 138 Score = 80.9 bits (270), Expect = 4e-17 Identities = 48/52 (92%), Positives = 49/52 (94%) Frame = +1 Query: 4 ITVGLATANS\NAAVTAWYLSMLMHKEG//WSRLGFFGYDLQDQCGSANSMSIRP 160 ITVGLATANS NA + WYLSMLMHKEG WSRLGFFGYDLQDQCGSANSMSIRP Sbjct: 76 ITVGLATANS NAGLNGWYLSMLMHKEG WSRLGFFGYDLQDQCGSANSMSIRP 127 39

Exemple de traitement : Capture de gène en solution Amplicons Métagénome Capture >Seq1 ATGCACGTAGCTACGAAATCA >Seq2 ATCGACTCAGACAGCCACGAC >Seq1 ATGCACGTAGCTACGAAATCA >Seq2 ATCGACTCAGACAGCCACGAC >Seq1 ATGCACGTAGCTACGAAATCA >Seq2 ATCGACTCAGACAGCCACGAC BLASTX BDD Séquences McrA >Seq1 FTQYEAAALVAARRDEAAL >Seq2 FTQYEAAALVAGRRDEAAL. >Seq1034 FTQYEAAALVAARRDEAAL >Seq5532 FTQYEGAALVALARDEAW. >Seq41 FTQYEAAALVAARRDEAAL >Seq65 AAALVAARRDEAALGLKDEA. 99,98 % 0.003 % 41,32 % 38873/119284 1/3 35850/60558 40

Exemple de traitement : Capture de gène en solution >Seq1034 FTQYEAAALVAARRDEAAL >Seq5532 FTQYEGAALVALARDEAW.. Metagenome 58 OTUs >Seq1 FTQYEAAALVAARRDEAAL >Seq2 FTQYEAAALVAGRRDEAAL Amplicons >Seq41 FTQYEAAALVAARRDEAAL >Seq65 AAALVAARRDEAALGLKDEAA Capture 41

Exemple de traitement : Capture de gène en solution Nombre d OTUs Methanopyrales Methanobacteriales Methanococcales Novel Order Methanomicrobiales Methanocellales Methanosarcinales 42

Exemple de traitement : Capture de gène en solution Assemblage des lectures Ensemble des séquences produites par capture après traitement prinseq et uchime. Newbler (Roche) Chevauchement minimal de 60 nucléotides avec un pourcentage d identité d au moins 95% mcr mcrb mcrc mcrd mcrg mcra Contigs mapping 43

Merci de votre attention Merci de votre attention! 44