Control qualité des données brutes, ne2oyage des données Manipula7on des fichiers FASTQ Stéphanie Le Gras DU Dijon
Objec7fs Comprendre ce que sont les données brutes de séquençage haut débit (type Illumina) Comprendre comment elles sont obtenues Comprendre d où peuvent provenir les biais du Séquençage Haut débit (SHD) Apprendre à préparer les données de SHD pour l analyse secondaire des données Vérifier la qualité des données et si nécessaire les ne2oyer (enlever ce qui pourrait bruiter le signal i.e générer la détec7on de faux variants) 2
Plan Introduc7on Rappel : séquençage Exemple de contrôles qualités du séquençage Données brutes : Le format FastQ Qualité des données brutes Ne2oyage des données brutes 3
RAPPEL : SEQUENÇAGE 4
Séquençage haut débit 3 étapes principales Prépara7on des libraries Généra7on des clusters Séquençage Analyse primaire 5
Prépara7on des librairies 6
Généra7on des clusters Un cluster : ~1000 fois la même séquence d ADN Nécessaire pour détecter la fluorescence pendant le séquençage 7
Séquençage Séquençage Illumina : Séquençage massivement parallèle 8
Analyse primaire Pipeline Illumina Analyse d image ( extrac7on des intensités ) Appel de base Iden7fica7on des nucléo7des Calcul d un score de qualité rela7f à la probabilité d erreur du nucléo7de (0 <= Q <= 41) 9
QC pendant le séquençage L analyse primaire est réalisée pendant le séquençage. On peut donc suivre en temps réel les sta7s7ques du séquençage 10
QC pendant le séquençage 11
QC pendant le séquençage 12
Les biais du séquençage Illumina (données du CNS) 98,5% de lecture alignées Taux d erreur moyen : 0,38% 3% dele7ons, 2% inser7ons, 95% subs7tu7ons Biais dans la couverture des régions riches en AT 13
Comment obtenir des données de SHD En produisant vos propres données de séquençage Centre Na7onal de Séquençage/Génotypage Plateforme technologique Compagnie privée En u7lisant des données publiques SRA : NCBI Sequence Read Archive ENA : EMBL/EBI European Nucleo7de Archive 14
DONNÉES BRUTES : LE FORMAT FASTQ 15
Le format FastQ Extension *.fastq Fichier texte : peut être ouvert avec un simple éditeur de texte (! taille) Con7ent des séquences nucléo7diques + valeurs de qualité (fasta + Qualité) Aucune informa7on rela7ve à un génome Iden7fiant Séquence Qualité 16
Significa7on de l iden7fiant @HWI- ST1136:117:HS055:3:1101:1134:2244 1:N:0:GCCAAT HWI- ST1136 : Nom du séquenceur 117 : iden7fiant du run HS055 : iden7fiant de la flowcell 3 : numéro de ligne 1101 : numéro du 7le 1134 : coordonnée X 2244 : coordonnée Y 1 : Numéro de la paire (1 ou 2) N : booléen indiquant le passage du filtre qualité Y : La séquence est de mauvaise qualité N : la séquence a passé le filtre de qualité 0 : 0 lorsque aucun des bit contrôles n'est ac7vé, sinon c'est un nombre GCCAAT : Index de la librairie (en cas de mul7plexage) 17
Exemple de données pairées LCD- 01_1_ATCACG_L007_R1_045.fastq.gz LCD- 01_1_ATCACG_L007_R2_045.fastq.gz Conven7on : Les lectures sens 1 et sens 2 du même cluster sont à la même ligne entre les deux fichiers (R1 et R2) 18
L encodage de la qualité Score de qualité = Score Phred Score de qualité donné par le séquenceur 1 symbole ASCII = 1 valeur de qualité ASCII : Norme de codage de caractère en informa7que Score Phred (Sanger) : ASCII 33 0 <= p <= 41 Score Phred = - 10 log 10 p p : probabilité d avoir une erreur de séquençage 19
Exemple 1er nucléo7de : G Qualité associée : @ Par7e Pra7que : Déterminez la valeur de qualité associée Score Phred = 64 33 = 31-10 log 10 p = 31 p = 10^(- 31/10) = 7,9x10-3 20
Exemple : Graphe de qualité moyenne p = 10-4 p = 10-3 p = 10-2 p = 10-1 Q30 = propor7on de nucléo7des ayant une qualité supérieure à 30 21
A2en7on à la version de l encodage des qualités (Illumina) 22
NOS DONNÉES TESTS 23
Syndrome Bardet- Biedl Redin et al., 2012 Gene7que Autosomique recessive hautement hétérogène : 16 gènes BBS (274 exons, ~45kb) Rare ~1/100000 - ~1/150000 Phenotype Main Features Minor features ReDnopathy Polydactyly CogniDve defects Re7nal dystrophy Postaxial Polydactyly Intellectual disability, Developmental delay Myopia, cataract, as7gma7sm, strabism Syndactyly, Brachydactyly Hearing defects, Smell defects Renal dysfunc7on Diabetes, glucidic intolerance Obesity Renal anomalies Hypogonadism Hypogonadism/ Hydrometrocolpos Hypertension Cardiopathy, liver fibrosis Ataxias Beales et al 1999 24 Journée campus
Ciliopathies Toughness of differendal clinical diagnosdc: very overlapping/similar phenotypes 25 Journée campus
Diagnos7c BBS Séquençage Sanger exhaus7f Couteux Beaucoup de gènes impliqués Screening des muta7on récurrentes et des gènes fréquemment mutés (BBS1, BBS10, BBS12) combinés à de l alignement hétérozygote Screening systéma7que et automa7que de tous les gènes BBS Capture + NGS 26 Journée campus
Design expérimental Design de la capture (à la carte): exons de 30 genes (16 gènes BBS + 14 gènes d autres ciliopathies) 52 pa7ents: Cohort de preuve de principe: 14 pa7ents dont les muta7on sont connues (iden7fiées en Sanger) 1 cohort: 38 pa7ents avec muta7on inconnue Le pa7ent provient d une autre cohorte analysée après la valida7on de la preuve de principe et après les bons résultats sur la première cohorte 27 Journée campus
QUALITÉ DES DONNÉES BRUTES 28
Par7e pra7que n 1 Objec7f : Nous venons de recevoir les données du séquenceur et nous voulons savoir combien de lectures ont été séquencées Fichiers : CRN- 107_11- R1.fastq CRN- 107_11- R2.fastq Ou7l à u7liser : Command bash : wc Aide : Il faut compter le nombre de ligne Combien de lignes y a- t il dans un fichier fastq par lecture séquencée? 29
Solu7on : par7e pra7que 1 La commande à u7liser est wc l Il y a donc 1122032/4 = 280508 lectures 30
Il existe plusieurs ou7ls développés pour la ges7on des données brutes issues du séquenceur : Evaluer la qualité des données Corriger les problèmes de qualité Manipuler les fichiers (transforma7on de formats). Toujours penser à lire les spécifica7ons pour être sûr que l ou7l fait ce que vous souhaitez (A2en7on aux surprises!) 31
Processus Données brutes Evalua7on de la qualité des données brutes Enlèvement de bases Enlèvement des séquences d adaptateurs Enlèvement des par7es de lectures de mauvaise qualité 32
33
Processus Données brutes Evalua7on de la qualité des données brutes Enlèvement de bases Enlèvement des séquences d adaptateurs Enlèvement des par7es de lectures de mauvaise qualité 34
Evalua7on de la qualité des données brutes Ou7ls : FastQC, SolexaQA, Fastx- toolkit, NGS QC toolkit FastQC (Babraham Ins7tute) Import de fichiers BAM, SAM, FastQ (tous les encodages de qualité sont supportés) Lancement en ligne de commande ou via une interface Fournit un rapport sur la qualité des données Permet d évaluer les problèmes Rapport con7ent des tableaux et des graphes HTML Fonc7onne sur des fichiers compressés Es7ma7on sur un échan7llon du fichier d entrée pour accélérer le temps de calcul 35
Evalua7on de la qualité des données brutes Par7e pra7que n 2 Objec7f : Nous venons de recevoir les données du séquenceur et nous voulons évaluer la qualité des données. Fichiers : CRN- 107_11- R1.fastq CRN- 107_11- R2.fastq Ou7l à u7liser : FastQC Aide: On souhaite voir la qualité pour toutes les bases Me2re les résultats dans le répertoire fastqc 36
Solu7on : par7e pra7que 2 Créer le répertoire de sor7e Lancer la commande fastqc sur les deux fichiers fastq Regarder les résultats 37
FastQC 38
FastQC 39
FastQC 40
FastQC 41
FastQC 42
FastQC 43
FastQC 44
FastQC 45
FastQC 46
FastQC 47
FastQC 48
FastQC 49
NETTOYAGE DES DONNÉES BRUTES 50
Processus Données brutes Evalua7on de la qualité des données brutes Enlèvement de bases Enlèvement des séquences d adaptateurs Enlèvement des par7es de lectures de mauvaise qualité 51
Enlèvement de la dernière base La taille des lectures a2endue est 2x100 et non pas 2x101 Lorsque l on séquence, nous séquençons toujours une base de plus car les bases n+1 sont u7lisées pour calculer les sta7s7ques des bases à la posi7on n La dernière base doit être enlevée 52
FastX toolkit Par7e pra7que n 3a Objec7f : Enlever la dernière base des lectures Fichiers d entrée: CRN- 107_11- R1.fastq CRN- 107_11- R2.fastq Fichiers de sor7e CRN- 107_11- R1_shorter.fastq CRN- 107_11- R2_shorter.fastq Ou7l à u7liser : Fastx toolkit : fastx_trimmer Aide: On souhaite obtenir des lectures de taille 100 On souhaite enlever la dernière base. 53
FastX toolkit Par7e pra7que n 3b Objec7f : Vérifier que les séquences font bien 100nt à présent Fichiers d entrée: CRN- 107_11- R1_shorter.fastq CRN- 107_11- R2_shorter.fastq Ou7l à u7liser : Bash : head Bash : tail Bash : wc Aide Il y a un caractère caché qui est comptabilisé Le faire également sur les fichiers non tronqués 54
Processus Données brutes Evalua7on de la qualité des données brutes Enlèvement de bases Enlèvement des séquences d adaptateurs Enlèvement des par7es de lectures de mauvaise qualité 55
Elimina7on des séquences contaminantes Quel type de contamina7on? Adaptateurs Primer de séquençage Autres Pourquoi ces contaminants? Les fragments d ADN séquencés sont plus pe7ts que la taille des lectures Des dimers d adaptateurs se sont formés lors de la prépara7on de la librairies. Pourquoi les enlever? Ces séquences non génomiques peuvent poser un problème lors de l alignement. 56
Elimina7on des séquences contaminantes A quoi dois- je faire a2en7on? Certains ou7ls n enlèvent la séquence d adaptateur que si les lectures con7ennent exactement la séquence d adaptateur (pas de ges7on des erreurs de séquençage). A2en7on aux données pairées! On ne peut pas enlever une lecture d un sens sans enlever la lecture de l autre sens. Il faut donc analyser les deux fichiers fastq en même temps. Certains ou7ls ne fonc7onnent pas sur des données pairées Ou7ls: ClipReads (GATK), fastx- toolkit, homertools, Trimmoma7c Cutadapt 57
Elimina7on des séquences contaminantes Par7e pra7que n 4 Objec7f : Nous voulons enlever les séquences d adaptateurs se trouvant dans les lectures Fichiers d entrée : CRN- 107_11- R1_shorter.fastq CRN- 107_11- R2_shorter.fastq Séquence d adaptateur : adapterseq.fa Fichiers de sor7e : CRN- 107_11- R1_trimmed.fastq CRN- 107_11- R2_trimmed.fastq Ou7l à u7liser : Cutadapt Aide : Il faut u7liser l adaptateur en sens pour les lectures en sens 1 Il faut u7liser l adaptateur en an7sens pour les lectures en sens 2 (fastx_reverse_complement) 58
Trouver la séquence complémentaire inversée de la séquence d adaptateur Lancer une première fois cutadapt : Lancer une seconde fois cutadapt : Enlèvement des fichiers temporaires 59
Cutadapt : sens 1 60
Cutadapt : sens 2 61
Processus Données brutes Evalua7on de la qualité des données brutes Enlèvement de bases Enlèvement des séquences d adaptateurs Enlèvement des par7es de lectures de mauvaise qualité 62
Elimina7on des par7es de lectures de mauvaise qualité Pourquoi est ce que la fin des lectures est de moins bonne qualité? Problème de chimie Quelle conséquence? Les suites de nucléo7des de mauvaise qualité à la fin des lectures peuvent induire des variants détectés à tord lors de la détec7on des variants. Comment corriger le problème? Enlever les nucléo7des de mauvaise qualité A2en7on aux données pairées! Ou7l : Fastqx toolkit, SolexaQA 63
Elimina7on des par7es de lectures de mauvaise qualité Par7e pra7que n 5 Objec7f : Eliminer les par7es de lecture de mauvaise qualité sur les fichiers fastq générés après avoir re7rer les séquences d adaptateurs. Fichiers d entrée : CRN- 107_11- R1_trimmed.fastq CRN- 107_11- R2_trimmed.fastq Ou7l à u7liser : SolexaQA : le script DynamicTrim.pl Paramètres : Seuil de qualité : Score Phred > 10 A2en7on à l encodage de la qualité 64
SolexaQA Changer le nom des fichiers générés par SolexaQA 65
Par7e pra7que n 7 Objec7f : Compressez tous les fichiers générés Fichiers d entrée : CRN- 107_11- R1.fastq CRN- 107_11- R2.fastq CRN- 107_11- R1_shorter.fastq CRN- 107_11- R2_shorter.fastq CRN- 107_11- R1_trimmed.fastq CRN- 107_11- R2_trimmed.fastq CRN- 107_R1.fastq CRN- 107_R2.fastq Ou7l à u7liser : gzip 66
Par7e pra7que n 8 Objec7f : Me2re tous les fichiers temporaires dans le répertoire intermedfastqfiles Fichiers d entrée : CRN- 107_11- R1_shorter.fastq.gz CRN- 107_11- R2_shorter.fastq.gz CRN- 107_11- R1_trimmed.fastq.gz CRN- 107_11- R2_trimmed.fastq.gz Ou7l à u7liser : bash: mkdir bash : mv 67
Par7e pra7que n 9 Objec7f : Relancer FastQC sur les fichiers finaux Fichiers d entrée : CRN- 107_R1.fastq.gz CRN- 107_R2.fastq.gz Ou7l à u7liser : bash: fastqc Me2re les résultats dans le répertoire Fastqc_final 68
FastQC (avant) 69
FastQC (après) 70
FastQC (avant) 71
FastQC (après) 72
Processus Données brutes Evalua7on de la qualité des données brutes Enlèvement de bases Enlèvement des séquences d adaptateurs Enlèvement des par7es de lectures de mauvaise qualité 73
Références FastQC ( h2p://www.bioinforma7cs.babraham.ac.uk/ projects/fastqc/) Murray P. Cox, Daniel A. Peterson, and Patrick J. Biggs. SolexaQA: at- a- glance quality assessment of illumina second- genera7on sequencing data. BMC Bioinforma7cs, 11(1):485, September 2010. PMID:20875133. Cutadapt (h2p://code.google.com/p/cutadapt/) Fastx- toolkit ( h2p://hannonlab.cshl.edu/fastx_toolkit/) 74