Control qualité des données brutes, ne2oyage des données Manipula7on des fichiers FASTQ

Documents pareils

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

H2PS engage ses compétences auprès des entreprises et des parculiers par la mise en place de soluons d accompagnements et de services.

Ges$on des clients du réseau pédagogique. Stéphan Cammarata - DANE Strasbourg - Version 10/2013

Évolu>on et maintenance

Dysplasie osseuse. Groupe hétérogène de maladies géné%ques 440 types individuellement très rares Manifesta%ons possibles :

LA DIGITALISATION DE LA RELATION CLIENT

Concepon et réalisaon

MTI820 Entrepôts de données et intelligence d affaires. Gouvernance des données et ges1on des données de référence

LE SUPPLIER RELATIONSHIP MANAGEMENT EN PRATIQUE

AVIS A MANIFESTATION D INTERET N 017/MPT/2013/UCP/CAB

Entrepôt de données et l Analyse en ligne. Maguelonne Teisseire Hugo Alatrista Salas hugo.alatrista- salas@teledetec9on.fr Flavien Bouillot

22 & 23 NOVEMBRE 2012 LE MOT DU PRESIDENT 20 ANS ET UN NOUVEAU RECORD 142 PARTICIPANTS POUR 71 CABINETS LES TITRES

Le contrôle fiscal anno 2013

CQP 112 Introduc/on à la programma/on. Thème 2 : Architecture d un système informa/que. Département d informa/que

Séance d'informa7on à propos des stages de longue durée

Le don d organes après arrêt des thérapeu2ques Maastricht 3 Une réalité?...

DOCUMENTATION KAPTravel Module de gestion des appels de disponibilité

Big data et sciences du Vivant L'exemple du séquençage haut débit

SÉLECTIONNER LES MEILLEURS CANDIDATS : L APPORT DES OUTILS D ÉVALUATION AU RECRUTEMENT ET À LA MOBILITÉ INTERNE

Vers un Système unique d informa4on na4onale de médicaments au Mexique, dans le cadre du suivi de l OMD 8.13

Prépara&on Opéra&onnelle à l Emploi de BASYCA (POEB) BASYCA SAS FRANCE - Anzize BADAROU

L Europe s engage en Mar/nique auprès des Entreprises

Pe#t déjeuner Prévention des risques professionnels dans la Mutualité

Jérémie Grodziski. Architecte Logiciel. Présenta2on Domaines et Compétences Contact Références Modes d interven2ons Exper2se Technologique

Les termes du cloud CUMULO NUMBIO 2015 O. COLLIN

Poli%que ins%tu%onnelle: le numérique au service de la forma%on à l Université Laval CFQCU Paris, 26 mai 2015

Améliorez et industrialisez vos feedback produit

INTRASTAT No ce explica ve Merkbla

Vérifica(on et Valida(on de Business Process. Ang Chen et Levi Lúcio

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

DIGITAL INSURANCE. A l a&en)on de : Date de remise : Version : 3.0

Présentation Level5. Editeur de Logiciels. «If it s not monitored, it s not in production» Theo Schlossnagle #velocityconf

Baromètre Direct Assurance des cyberconsommateurs

UN GUIDE PROPOSÉ PAR PME-WEB MARKETING GUIDE ULTIME DES MOTS INTERDITS. Un guide pour Éviter de voir vos passer en SPAM. web.

LA LOGISTIQUE LES BONNES QUESTIONS À SE POSER

Parcours de soins, solu/ons de partage Évolu/ons des poli/ques na/onales & Mises en œuvre régionales Séminaire IFERISS 17 Avril 2014

22ème Conven*on na*onale de l Intercommunalité 14 octobre Mutualisa*on : déployer les nouveaux ou*ls de la réforme

C.M. 1 & 2 : Prise en main de Linux

PRÉSENTATION DES RÉSULTATS DU LIVRE BLANC BIG DATA

COMPÉTENCES ET PROFILS AVANCÉ DES SOINS INFIRMIERS pour améliorer les résultats d'accès et de santé

Commerce interna,onal Master 1 Weller Interna,onal Business school /02/15

Les formations. calipia. novembre 2014 à mai 2015

L ou%l téléphone dans votre stratégie de marke%ng direct

352B - Forefront pour la protec3on des infrastructures de messagerie

Introduc)on à Map- Reduce. Vincent Leroy

Réunion de rentrée Licence PER Programma3on en environnement répar3. Année universitaire

Architecture matériel et logiciel 2

Programmation C. Apprendre à développer des programmes simples dans le langage C

1 Démarrage de Marionnet

DIRECT ASSURANCE. Les femmes et la cyberconsommation. Etude Direct Assurance Juin Focus sur les cyberconsommatrices.

TRANSFORMATION DIGITALE : COMMENT INDUSTRIALISER ET PÉRENNISER LA MÉTHODE AGILE À PLUS GRANDE ÉCHELLE

Chapitre 4 La prise en compte de l informa6on dans le modèle de marché

Catalogue de FORMATIONS 2015

Evalua&on tests diagnos&ques. Arnaud Fontanet

GESTION DE CONTENUS (ECM) Ges1on de l informa1on. Nicolas Bürki, Senior Analyst

14 Octobre 2008 TICPME2010 Sage et TICPME2010

Cabinet de Conseil STRATÉGIE MANAGEMENT ORGANISATION JURIDIQUE FORMATION AVEC BW CONSULTANTS CHOISISSEZ DE GARANTIR VOTRE DEVELOPPEMENT

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

MOBILE FIRST : PARTIR DU MOBILE POUR DÉVELOPPER ENSUITE LES AUTRES DEVICES OU OPTER POUR LE RESPONSIVE DESIGN?

Les méthodes Agiles. Introduc)on aux méthodes Agiles Exemple : Scrum

ENVI-F-409. Economie écologique. Séance 8 13 Mai Tom Bauler tbauler@ulb.ac.be Supports de cours :

Mode d emploi pour le retrait d un cylindre

Le codage informatique

Sécuriser et enrichir les transactions financières. URYX Capital

Octobre Cybersécurité. Guide pra3que

Un nouveau modèle régional à Ouranos : défis et opportunités

Présenta)on DesignBuilder

Outils pour la pratique

CATALOGUE DES OFFRES 2014

SPIP. Gestion de la performance dans SPIP. Préoccupa)on historique

Optimisation de la supervision by Somone. - Présentation Générale -!

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Santé, condi,ons de travail et égalité professionnelle F/H Comment agir?

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Le secteur de la Mutualité. Présenta*on des organismes Structure et caractéris*ques des emplois Zoom sur les mé*ers

Communauté d aggloméra0on Orléans Val de Loire

White Paper - Livre Blanc

Offre Azimut CONTENT MARKETING. A l a&en)on de : Date de remise : Version : 3.0

SAUVER LA DISTRIBUTION!

Base de données bibliographiques Pubmed-Medline

DEVELOPPER SON SOURCING VIA LES RESEAUX SOCIAUX FACEBOOK

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

M1 Informatique, Réseaux Cours 9 : Réseaux pour le multimédia

Présenta6on Isatech. ERP, Décisionnel, Architecture Systèmes & Réseaux. Isatech Tous droits réservés Page 1

USER EXPERIENCE ET DATA : AUGMENTER LES CONVERSIONS GRÂCE À UN PARCOURS UTILISATEUR OPTIMISÉ

Module d anonymisation

Recherche bibliographique

SEO : COMMENT CONSTRUIRE UNE STRATEGIE DE LINKING LICITE ET DURABLE?

DÉPLOIEMENT 4G ET FIBRE : PREMIER BILAN ET PERSPECTIVES

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

Devenez un virtuose de Google. Atelier en informa5que présenté par Dominic P. Tremblay

Les 10 étapes clés pour trouver des clients par internet

Qu est ce qu une PME? 4. Pourquoi investir dans une PME? 6. Comment investir en direct dans une PME? 10

Service de Messagerie Enseignement et Recherche

Sites Internet : les. tendances. Jeudi 30 janvier 2014 Bordeaux L AGENCE CONNECTÉE À L ENTREPRISE

Programme cantonal Diabète une réponse de santé publique au service des patients

Transcription:

Control qualité des données brutes, ne2oyage des données Manipula7on des fichiers FASTQ Stéphanie Le Gras DU Dijon

Objec7fs Comprendre ce que sont les données brutes de séquençage haut débit (type Illumina) Comprendre comment elles sont obtenues Comprendre d où peuvent provenir les biais du Séquençage Haut débit (SHD) Apprendre à préparer les données de SHD pour l analyse secondaire des données Vérifier la qualité des données et si nécessaire les ne2oyer (enlever ce qui pourrait bruiter le signal i.e générer la détec7on de faux variants) 2

Plan Introduc7on Rappel : séquençage Exemple de contrôles qualités du séquençage Données brutes : Le format FastQ Qualité des données brutes Ne2oyage des données brutes 3

RAPPEL : SEQUENÇAGE 4

Séquençage haut débit 3 étapes principales Prépara7on des libraries Généra7on des clusters Séquençage Analyse primaire 5

Prépara7on des librairies 6

Généra7on des clusters Un cluster : ~1000 fois la même séquence d ADN Nécessaire pour détecter la fluorescence pendant le séquençage 7

Séquençage Séquençage Illumina : Séquençage massivement parallèle 8

Analyse primaire Pipeline Illumina Analyse d image ( extrac7on des intensités ) Appel de base Iden7fica7on des nucléo7des Calcul d un score de qualité rela7f à la probabilité d erreur du nucléo7de (0 <= Q <= 41) 9

QC pendant le séquençage L analyse primaire est réalisée pendant le séquençage. On peut donc suivre en temps réel les sta7s7ques du séquençage 10

QC pendant le séquençage 11

QC pendant le séquençage 12

Les biais du séquençage Illumina (données du CNS) 98,5% de lecture alignées Taux d erreur moyen : 0,38% 3% dele7ons, 2% inser7ons, 95% subs7tu7ons Biais dans la couverture des régions riches en AT 13

Comment obtenir des données de SHD En produisant vos propres données de séquençage Centre Na7onal de Séquençage/Génotypage Plateforme technologique Compagnie privée En u7lisant des données publiques SRA : NCBI Sequence Read Archive ENA : EMBL/EBI European Nucleo7de Archive 14

DONNÉES BRUTES : LE FORMAT FASTQ 15

Le format FastQ Extension *.fastq Fichier texte : peut être ouvert avec un simple éditeur de texte (! taille) Con7ent des séquences nucléo7diques + valeurs de qualité (fasta + Qualité) Aucune informa7on rela7ve à un génome Iden7fiant Séquence Qualité 16

Significa7on de l iden7fiant @HWI- ST1136:117:HS055:3:1101:1134:2244 1:N:0:GCCAAT HWI- ST1136 : Nom du séquenceur 117 : iden7fiant du run HS055 : iden7fiant de la flowcell 3 : numéro de ligne 1101 : numéro du 7le 1134 : coordonnée X 2244 : coordonnée Y 1 : Numéro de la paire (1 ou 2) N : booléen indiquant le passage du filtre qualité Y : La séquence est de mauvaise qualité N : la séquence a passé le filtre de qualité 0 : 0 lorsque aucun des bit contrôles n'est ac7vé, sinon c'est un nombre GCCAAT : Index de la librairie (en cas de mul7plexage) 17

Exemple de données pairées LCD- 01_1_ATCACG_L007_R1_045.fastq.gz LCD- 01_1_ATCACG_L007_R2_045.fastq.gz Conven7on : Les lectures sens 1 et sens 2 du même cluster sont à la même ligne entre les deux fichiers (R1 et R2) 18

L encodage de la qualité Score de qualité = Score Phred Score de qualité donné par le séquenceur 1 symbole ASCII = 1 valeur de qualité ASCII : Norme de codage de caractère en informa7que Score Phred (Sanger) : ASCII 33 0 <= p <= 41 Score Phred = - 10 log 10 p p : probabilité d avoir une erreur de séquençage 19

Exemple 1er nucléo7de : G Qualité associée : @ Par7e Pra7que : Déterminez la valeur de qualité associée Score Phred = 64 33 = 31-10 log 10 p = 31 p = 10^(- 31/10) = 7,9x10-3 20

Exemple : Graphe de qualité moyenne p = 10-4 p = 10-3 p = 10-2 p = 10-1 Q30 = propor7on de nucléo7des ayant une qualité supérieure à 30 21

A2en7on à la version de l encodage des qualités (Illumina) 22

NOS DONNÉES TESTS 23

Syndrome Bardet- Biedl Redin et al., 2012 Gene7que Autosomique recessive hautement hétérogène : 16 gènes BBS (274 exons, ~45kb) Rare ~1/100000 - ~1/150000 Phenotype Main Features Minor features ReDnopathy Polydactyly CogniDve defects Re7nal dystrophy Postaxial Polydactyly Intellectual disability, Developmental delay Myopia, cataract, as7gma7sm, strabism Syndactyly, Brachydactyly Hearing defects, Smell defects Renal dysfunc7on Diabetes, glucidic intolerance Obesity Renal anomalies Hypogonadism Hypogonadism/ Hydrometrocolpos Hypertension Cardiopathy, liver fibrosis Ataxias Beales et al 1999 24 Journée campus

Ciliopathies Toughness of differendal clinical diagnosdc: very overlapping/similar phenotypes 25 Journée campus

Diagnos7c BBS Séquençage Sanger exhaus7f Couteux Beaucoup de gènes impliqués Screening des muta7on récurrentes et des gènes fréquemment mutés (BBS1, BBS10, BBS12) combinés à de l alignement hétérozygote Screening systéma7que et automa7que de tous les gènes BBS Capture + NGS 26 Journée campus

Design expérimental Design de la capture (à la carte): exons de 30 genes (16 gènes BBS + 14 gènes d autres ciliopathies) 52 pa7ents: Cohort de preuve de principe: 14 pa7ents dont les muta7on sont connues (iden7fiées en Sanger) 1 cohort: 38 pa7ents avec muta7on inconnue Le pa7ent provient d une autre cohorte analysée après la valida7on de la preuve de principe et après les bons résultats sur la première cohorte 27 Journée campus

QUALITÉ DES DONNÉES BRUTES 28

Par7e pra7que n 1 Objec7f : Nous venons de recevoir les données du séquenceur et nous voulons savoir combien de lectures ont été séquencées Fichiers : CRN- 107_11- R1.fastq CRN- 107_11- R2.fastq Ou7l à u7liser : Command bash : wc Aide : Il faut compter le nombre de ligne Combien de lignes y a- t il dans un fichier fastq par lecture séquencée? 29

Solu7on : par7e pra7que 1 La commande à u7liser est wc l Il y a donc 1122032/4 = 280508 lectures 30

Il existe plusieurs ou7ls développés pour la ges7on des données brutes issues du séquenceur : Evaluer la qualité des données Corriger les problèmes de qualité Manipuler les fichiers (transforma7on de formats). Toujours penser à lire les spécifica7ons pour être sûr que l ou7l fait ce que vous souhaitez (A2en7on aux surprises!) 31

Processus Données brutes Evalua7on de la qualité des données brutes Enlèvement de bases Enlèvement des séquences d adaptateurs Enlèvement des par7es de lectures de mauvaise qualité 32

33

Processus Données brutes Evalua7on de la qualité des données brutes Enlèvement de bases Enlèvement des séquences d adaptateurs Enlèvement des par7es de lectures de mauvaise qualité 34

Evalua7on de la qualité des données brutes Ou7ls : FastQC, SolexaQA, Fastx- toolkit, NGS QC toolkit FastQC (Babraham Ins7tute) Import de fichiers BAM, SAM, FastQ (tous les encodages de qualité sont supportés) Lancement en ligne de commande ou via une interface Fournit un rapport sur la qualité des données Permet d évaluer les problèmes Rapport con7ent des tableaux et des graphes HTML Fonc7onne sur des fichiers compressés Es7ma7on sur un échan7llon du fichier d entrée pour accélérer le temps de calcul 35

Evalua7on de la qualité des données brutes Par7e pra7que n 2 Objec7f : Nous venons de recevoir les données du séquenceur et nous voulons évaluer la qualité des données. Fichiers : CRN- 107_11- R1.fastq CRN- 107_11- R2.fastq Ou7l à u7liser : FastQC Aide: On souhaite voir la qualité pour toutes les bases Me2re les résultats dans le répertoire fastqc 36

Solu7on : par7e pra7que 2 Créer le répertoire de sor7e Lancer la commande fastqc sur les deux fichiers fastq Regarder les résultats 37

FastQC 38

FastQC 39

FastQC 40

FastQC 41

FastQC 42

FastQC 43

FastQC 44

FastQC 45

FastQC 46

FastQC 47

FastQC 48

FastQC 49

NETTOYAGE DES DONNÉES BRUTES 50

Processus Données brutes Evalua7on de la qualité des données brutes Enlèvement de bases Enlèvement des séquences d adaptateurs Enlèvement des par7es de lectures de mauvaise qualité 51

Enlèvement de la dernière base La taille des lectures a2endue est 2x100 et non pas 2x101 Lorsque l on séquence, nous séquençons toujours une base de plus car les bases n+1 sont u7lisées pour calculer les sta7s7ques des bases à la posi7on n La dernière base doit être enlevée 52

FastX toolkit Par7e pra7que n 3a Objec7f : Enlever la dernière base des lectures Fichiers d entrée: CRN- 107_11- R1.fastq CRN- 107_11- R2.fastq Fichiers de sor7e CRN- 107_11- R1_shorter.fastq CRN- 107_11- R2_shorter.fastq Ou7l à u7liser : Fastx toolkit : fastx_trimmer Aide: On souhaite obtenir des lectures de taille 100 On souhaite enlever la dernière base. 53

FastX toolkit Par7e pra7que n 3b Objec7f : Vérifier que les séquences font bien 100nt à présent Fichiers d entrée: CRN- 107_11- R1_shorter.fastq CRN- 107_11- R2_shorter.fastq Ou7l à u7liser : Bash : head Bash : tail Bash : wc Aide Il y a un caractère caché qui est comptabilisé Le faire également sur les fichiers non tronqués 54

Processus Données brutes Evalua7on de la qualité des données brutes Enlèvement de bases Enlèvement des séquences d adaptateurs Enlèvement des par7es de lectures de mauvaise qualité 55

Elimina7on des séquences contaminantes Quel type de contamina7on? Adaptateurs Primer de séquençage Autres Pourquoi ces contaminants? Les fragments d ADN séquencés sont plus pe7ts que la taille des lectures Des dimers d adaptateurs se sont formés lors de la prépara7on de la librairies. Pourquoi les enlever? Ces séquences non génomiques peuvent poser un problème lors de l alignement. 56

Elimina7on des séquences contaminantes A quoi dois- je faire a2en7on? Certains ou7ls n enlèvent la séquence d adaptateur que si les lectures con7ennent exactement la séquence d adaptateur (pas de ges7on des erreurs de séquençage). A2en7on aux données pairées! On ne peut pas enlever une lecture d un sens sans enlever la lecture de l autre sens. Il faut donc analyser les deux fichiers fastq en même temps. Certains ou7ls ne fonc7onnent pas sur des données pairées Ou7ls: ClipReads (GATK), fastx- toolkit, homertools, Trimmoma7c Cutadapt 57

Elimina7on des séquences contaminantes Par7e pra7que n 4 Objec7f : Nous voulons enlever les séquences d adaptateurs se trouvant dans les lectures Fichiers d entrée : CRN- 107_11- R1_shorter.fastq CRN- 107_11- R2_shorter.fastq Séquence d adaptateur : adapterseq.fa Fichiers de sor7e : CRN- 107_11- R1_trimmed.fastq CRN- 107_11- R2_trimmed.fastq Ou7l à u7liser : Cutadapt Aide : Il faut u7liser l adaptateur en sens pour les lectures en sens 1 Il faut u7liser l adaptateur en an7sens pour les lectures en sens 2 (fastx_reverse_complement) 58

Trouver la séquence complémentaire inversée de la séquence d adaptateur Lancer une première fois cutadapt : Lancer une seconde fois cutadapt : Enlèvement des fichiers temporaires 59

Cutadapt : sens 1 60

Cutadapt : sens 2 61

Processus Données brutes Evalua7on de la qualité des données brutes Enlèvement de bases Enlèvement des séquences d adaptateurs Enlèvement des par7es de lectures de mauvaise qualité 62

Elimina7on des par7es de lectures de mauvaise qualité Pourquoi est ce que la fin des lectures est de moins bonne qualité? Problème de chimie Quelle conséquence? Les suites de nucléo7des de mauvaise qualité à la fin des lectures peuvent induire des variants détectés à tord lors de la détec7on des variants. Comment corriger le problème? Enlever les nucléo7des de mauvaise qualité A2en7on aux données pairées! Ou7l : Fastqx toolkit, SolexaQA 63

Elimina7on des par7es de lectures de mauvaise qualité Par7e pra7que n 5 Objec7f : Eliminer les par7es de lecture de mauvaise qualité sur les fichiers fastq générés après avoir re7rer les séquences d adaptateurs. Fichiers d entrée : CRN- 107_11- R1_trimmed.fastq CRN- 107_11- R2_trimmed.fastq Ou7l à u7liser : SolexaQA : le script DynamicTrim.pl Paramètres : Seuil de qualité : Score Phred > 10 A2en7on à l encodage de la qualité 64

SolexaQA Changer le nom des fichiers générés par SolexaQA 65

Par7e pra7que n 7 Objec7f : Compressez tous les fichiers générés Fichiers d entrée : CRN- 107_11- R1.fastq CRN- 107_11- R2.fastq CRN- 107_11- R1_shorter.fastq CRN- 107_11- R2_shorter.fastq CRN- 107_11- R1_trimmed.fastq CRN- 107_11- R2_trimmed.fastq CRN- 107_R1.fastq CRN- 107_R2.fastq Ou7l à u7liser : gzip 66

Par7e pra7que n 8 Objec7f : Me2re tous les fichiers temporaires dans le répertoire intermedfastqfiles Fichiers d entrée : CRN- 107_11- R1_shorter.fastq.gz CRN- 107_11- R2_shorter.fastq.gz CRN- 107_11- R1_trimmed.fastq.gz CRN- 107_11- R2_trimmed.fastq.gz Ou7l à u7liser : bash: mkdir bash : mv 67

Par7e pra7que n 9 Objec7f : Relancer FastQC sur les fichiers finaux Fichiers d entrée : CRN- 107_R1.fastq.gz CRN- 107_R2.fastq.gz Ou7l à u7liser : bash: fastqc Me2re les résultats dans le répertoire Fastqc_final 68

FastQC (avant) 69

FastQC (après) 70

FastQC (avant) 71

FastQC (après) 72

Processus Données brutes Evalua7on de la qualité des données brutes Enlèvement de bases Enlèvement des séquences d adaptateurs Enlèvement des par7es de lectures de mauvaise qualité 73

Références FastQC ( h2p://www.bioinforma7cs.babraham.ac.uk/ projects/fastqc/) Murray P. Cox, Daniel A. Peterson, and Patrick J. Biggs. SolexaQA: at- a- glance quality assessment of illumina second- genera7on sequencing data. BMC Bioinforma7cs, 11(1):485, September 2010. PMID:20875133. Cutadapt (h2p://code.google.com/p/cutadapt/) Fastx- toolkit ( h2p://hannonlab.cshl.edu/fastx_toolkit/) 74