Le contrôle qualité sur les données fastq



Documents pareils
Once the installation is complete, you can delete the temporary Zip files..

Exemple PLS avec SAS

Nouveautés printemps 2013

Instructions Mozilla Thunderbird Page 1

Utiliser une WebCam. Micro-ordinateurs, informations, idées, trucs et astuces

APPENDIX 6 BONUS RING FORMAT

Notice Technique / Technical Manual

MANUEL MARKETING ET SURVIE PDF

How to Login to Career Page

CEST POUR MIEUX PLACER MES PDF

TABLE DES MATIERES A OBJET PROCEDURE DE CONNEXION

Package Contents. System Requirements. Before You Begin

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Guide d'installation rapide TFM-560X YO.13

Credit Note and Debit Note Information (GST/ HST) Regulations

MELTING POTES, LA SECTION INTERNATIONALE DU BELLASSO (Association étudiante de lʼensaparis-belleville) PRESENTE :

VTP. LAN Switching and Wireless Chapitre 4

DOCUMENTATION - FRANCAIS... 2

lundi 3 août 2009 Choose your language What is Document Connection for Mac? Communautés Numériques L informatique à la portée du Grand Public

Contents Windows

Face Recognition Performance: Man vs. Machine

Get Instant Access to ebook Cest Maintenant PDF at Our Huge Library CEST MAINTENANT PDF. ==> Download: CEST MAINTENANT PDF

Règlement sur le télémarketing et les centres d'appel. Call Centres Telemarketing Sales Regulation

DOCUMENTATION - FRANCAIS... 2

Application Form/ Formulaire de demande

that the child(ren) was/were in need of protection under Part III of the Child and Family Services Act, and the court made an order on

Contrôle d'accès Access control. Notice technique / Technical Manual

GAME CONTENTS CONTENU DU JEU OBJECT OF THE GAME BUT DU JEU

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

SERVEUR DÉDIÉ DOCUMENTATION

Utiliser un proxy sous linux

Tex: The book of which I'm the author is an historical novel.

WEB page builder and server for SCADA applications usable from a WEB navigator

DIPLOME NATIONAL DU BREVET TOUTES SERIES

Comment Créer une Base de Données Ab Initio

THE EVOLUTION OF CONTENT CONSUMPTION ON MOBILE AND TABLETS

I. COORDONNÉES PERSONNELLES / PERSONAL DATA

Comment faire des étiquettes

INSTITUT MARITIME DE PREVENTION. For improvement in health and security at work. Created in 1992 Under the aegis of State and the ENIM

FÉDÉRATION INTERNATIONALE DE NATATION Diving

Logitech Tablet Keyboard for Windows 8, Windows RT and Android 3.0+ Setup Guide Guide d installation

Le passé composé. C'est le passé! Tout ça c'est du passé! That's the past! All that's in the past!

Pour toute information complémentaire, Appeler le , le ou écrire à l adresse e mail : ensai_recherche@yahoo.

Faits saillants et survol des résultats du sondage

3615 SELFIE. HOW-TO / GUIDE D'UTILISATION

Module Title: French 4

NORME INTERNATIONALE INTERNATIONAL STANDARD. Dispositifs à semiconducteurs Dispositifs discrets. Semiconductor devices Discrete devices

Calculation of Interest Regulations. Règlement sur le calcul des intérêts CONSOLIDATION CODIFICATION. Current to August 4, 2015 À jour au 4 août 2015

Compléter le formulaire «Demande de participation» et l envoyer aux bureaux de SGC* à l adresse suivante :

The new consumables catalogue from Medisoft is now updated. Please discover this full overview of all our consumables available to you.

Comment faire un Mailing A partir d une feuille Calc

Interest Rate for Customs Purposes Regulations. Règlement sur le taux d intérêt aux fins des douanes CONSOLIDATION CODIFICATION

Gestion des prestations Volontaire

Comment Utiliser les Versions, les Modification, les Comparaisons, Dans les Documents

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

RULE 5 - SERVICE OF DOCUMENTS RÈGLE 5 SIGNIFICATION DE DOCUMENTS. Rule 5 / Règle 5

Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech

Archived Content. Contenu archivé

APPENDIX 2. Provisions to be included in the contract between the Provider and the. Holder

CETTE FOIS CEST DIFFERENT PDF

Micro-ordinateurs, informations, idées, trucs et astuces utiliser le Bureau à distance

Comment Accéder à des Bases de Données MySQL avec Windows lorqu'elles sont sur un Serveur Linux

Improving the breakdown of the Central Credit Register data by category of enterprises

AMENDMENT TO BILL 32 AMENDEMENT AU PROJET DE LOI 32

CEPF FINAL PROJECT COMPLETION REPORT

GIGABIT PCI DESKTOP ADAPTER DGE-530T. Quick Installation Guide+ Guide d installation+

Principe de TrueCrypt. Créer un volume pour TrueCrypt

DOCUMENTATION MODULE BLOCKCATEGORIESCUSTOM Module crée par Prestacrea - Version : 2.0

Please kindly find below a synoptic table showing the various ways of transport from Mahe to La Digue, with a stop over on Praslin:

IRA (Initial Rapid Assessment)

Garage Door Monitor Model 829LM

I>~I.J 4j1.bJ1UlJ ~..;W:i 1U

EN UNE PAGE PLAN STRATÉGIQUE

Comment sauvegarder ses documents

Thank you for choosing the Mobile Broadband USB Stick. With your USB Stick, you can access a wireless network at high speed.

Eléments de statistique

First Nations Assessment Inspection Regulations. Règlement sur l inspection aux fins d évaluation foncière des premières nations CONSOLIDATION

Paxton. ins Net2 desktop reader USB

France SMS+ MT Premium Description

Folio Case User s Guide

AUDIT COMMITTEE: TERMS OF REFERENCE

Deadline(s): Assignment: in week 8 of block C Exam: in week 7 (oral exam) and in the exam week (written exam) of block D

La coopération dans un contexte de recherches doctorales Cooperation amongst PhD researchers. Josée Charbonneau Anne- Marie Merrien 28 mai 2014

INDIVIDUALS AND LEGAL ENTITIES: If the dividends have not been paid yet, you may be eligible for the simplified procedure.

Examen Final. Indications

Agile&:&de&quoi&s agit0il&?&

L. Obert, T. Lascar, A. Adam

Consultants en coûts - Cost Consultants

English Q&A #1 Braille Services Requirement PPTC Q1. Would you like our proposal to be shipped or do you prefer an electronic submission?

OUVRIR UN COMPTE CLIENT PRIVÉ

Exercices sur SQL server 2000

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

Data issues in species monitoring: where are the traps?

Stratégie DataCenters Société Générale Enjeux, objectifs et rôle d un partenaire comme Data4

calls.paris-neuroscience.fr Tutoriel pour Candidatures en ligne *** Online Applications Tutorial

Frequently Asked Questions

Institut français des sciences et technologies des transports, de l aménagement

ANNALES ISLAMOLOGIQUES

OpenOffice.org Calc Ouvrir un classeur

Transcription:

Le contrôle qualité sur les données fastq

TP detection exome

Plan Théorie 1: le format FastQ et l'encodage des qualités Session pratique 1: conversion des qualités (fichier illumina.fastq) Théorie 2: le contrôle qualité et l'outil FastQC Session pratique 2: le nettoyage des données (dataset pickrel exon chr12.fastq)

FastQ 1 séquence = 4 lignes dans le fichier 1 ère ligne = identifiant de la séquence

Qualité 4ème ligne = Qualité Qualité = score calculé 2 calculs de scores existent Pe: estimated probability of error

Encoder la qualité Les scores sont encodés en ASCII (ex: '%' => 37 ) Il existe différents encodages: S,X,I,J,L

Chaque encodage correspond à un score calculé selon la formule PHRED ou SOLEXA A ce score est ajouté 33 ou 64 La valeur obtenue est convertie en ASCII et inscrite dans le fichier Ex pour un encodage Sanger: de la proba au caractère ASCII: 90% (proba) 10 (score phred) 10 + 33 = 43 43: '+' ASCII

Différents encodages mais les outils en acceptent qu'un seul format FASTQ Groomer: pour convertir les qualités

Session pratique 1 Cliquez sur shared data puis publish histories Cliquez sur TP-QC Olivier Cliquez sur Import history Visualisez (avec l'oeil) le contenu du fichier illumina.fastq Quel est l'encodage pour ces données?

Verification de l'encodage Dans la boîte de recherche d'outils tapez FastQC Selectionnez l'outil FastQC: Read QC Selectionnez le fichier illumina.fastq

Dans la boîte de recherche d'outils tapez FastQ Groomer Selectionnez FASTQ Groomer convert between various FASTQ quality formats Pour le fichier File to groom selectionnez le fichier illumina.fastq Quel est maintenant l'encodage pour ces données?

FastQC A quality control tool for high throughput sequence data Contrôle qualité sur les données sequencées Différentes analyses sur les données, pour chaque analyse:

Per base sequence quality X = Position in read Y = Quality score Box Whisker Green, orange, red Quality of calls will degrade as the run process...

Per base sequence quality lower quartile for any base < 10, or if the median for any base < 25 the lower quartile for any base < 5, or if the median for any base < 20

Per Sequence Quality Scores X = Quality scores Y = Nb sequences See if a proportion of sequences in a run have low quality => indicate a systematic pb (one end of a flowcell,...)

Per Sequence Quality Scores most frequently observed < 27 (O.2% error rate) most frequently observed < 20 (1% error rate)

Per Base Sequence Content X = position in read Y = Sequence content (%T, %C, %A, %G) In a random library: little to no difference between the different bases of a sequence run Detect overexpressed sequence (contamination)

Per Base Sequence Content Differences between A and T or G and C > 10% Differences between A and T or G and C > 20%

Per Base GC Content X = position in read Y = Sequence content (%GC) In a random library: little to no difference between the different bases of a sequence run Detect overexpressed sequence (contamination)

Per Base GC Content GC content of any base > 5% from the mean GC content GC content of any base > 10% from the mean GC content

Per Sequence GC Content X = mean GC content Y = nb sequence Compute a normal distribution (blue) Plot raw data (red) An unusually shaped distribution could indicate a contaminated library or some other kinds of biased subset

Per Sequence GC Content the sum of the deviations from the normal distribution > 15% of the reads the sum of the deviations from the normal distribution > 30% of the reads

Per Base N Content X = position in read Y = N content It's not unusual to see a very low proportion of Ns appearing in a sequence, especially nearer the end of a sequence. However, if this proportion rises above a few percent it suggests that the analysis pipeline was unable to interpret the data well enough to make valid base calls.

Per Base N Content any position shows an N content of >5% any position shows an N content of >20%

Sequence Length Distribution X = sequence length Y = nb sequence Detect sequences trimmed by the pipelines (to remove poor quality)

all sequences are not the same length any of the sequences have zero length

Sequence duplication level X = sequence duplication level Y = proportion of non-unique v.s. unique low level of duplication may indicate a very high level of coverage high level of duplication indicate some kind of enrichment bias

Sequence duplication level non-unique sequences make up more than 20% of the total non-unique sequences make up more than 50% of the total

Overrepresented Sequences lists all of the sequence which make up more than 0.1% of the total look for matches in a database of common contaminants

Overrepresented Sequences any sequence is found to represent more than 0.1% of the total any sequence is found to represent more than 1% of the total

Overrepresented Kmers Kmers? (5 mers) long sequences and poor quality: reduce the counts for exactly duplicated sequences. a partial sequence which is appearing at a variety of places (won't be seen by per base content plot or the duplicate sequence analysis).

a graph for the top 6 hits: enrichment of that Kmer across the length of your reads. This will show if you have a general enrichment, or if there is a pattern of bias at different points over your read length.

based on the base content of the library: calculates an expected level at which this k-mer should have been seen uses the actual count to calculate an observed/expected ratio for that k-mer

any k-mer is enriched more than 3 fold overall, or more than 5 fold at any individual position k-mer is enriched more than 10 fold at any individual base position

Session pratique 2 Attention! chr12 exon: tps de traiement conséquents Les résultats sont disponibles dans l'historique groomer + fastqc on chr12 Cliquez sur shared data puis publish histories Cliquez sur groomer + fastqc on chr12 Cliquez sur Import history A partir de quel outil le dataset n 2 a t-il été obtenu? Visualisez les résultats

Dataset Public data: exome sequenced by the International HapMap Project Single-end reads of 100bp, Illumina Genome Analyzer IIx RNA-seq data of this exome available (Pickrell et al., Nature, 2010)

A partir du dataset 9, visualisez l'outil qui a été utilisé Que signifie une taille de fenêtre à 1? Pourquoi la valeur de qualité 28 a t elle été choisie? Identifiez des reads trimmés Quelles sont le valeurs de qualité qui ont été enlevées?

FastQ Quality Trimmer

Simple Trimming of the ends ATCCTTTATAAATAATTAATA Min qual <= 28? ATCCTTTATAAATAATTAAT Min qual <= 28? ATCCTTTATAAATAATTAA Min qual <= 28?... Min qual <= 28?

Quality scores after trimming