Alignement de séquences, manipula3on, contrôle- qualité et analyse de fichiers SAM/BAM



Documents pareils
Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Big data et sciences du Vivant L'exemple du séquençage haut débit

H2PS engage ses compétences auprès des entreprises et des parculiers par la mise en place de soluons d accompagnements et de services.

Évolu>on et maintenance

Devenez un virtuose de Google. Atelier en informa5que présenté par Dominic P. Tremblay

Les méthodes Agiles. Introduc)on aux méthodes Agiles Exemple : Scrum

Ges$on des clients du réseau pédagogique. Stéphan Cammarata - DANE Strasbourg - Version 10/2013

Vers un Système unique d informa4on na4onale de médicaments au Mexique, dans le cadre du suivi de l OMD 8.13

DOCUMENTATION KAPTravel Module de gestion des appels de disponibilité

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Concepon et réalisaon

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

MTI820 Entrepôts de données et intelligence d affaires. Gouvernance des données et ges1on des données de référence

14 Octobre 2008 TICPME2010 Sage et TICPME2010

GénoToul 2010, Hôtel de Région Midi Pyrénées, Toulouse, 10 décembre 2010

Prépara&on Opéra&onnelle à l Emploi de BASYCA (POEB) BASYCA SAS FRANCE - Anzize BADAROU

Le contrôle fiscal anno 2013

PRÉSENTATION DES RÉSULTATS DU LIVRE BLANC BIG DATA

CQP 112 Introduc/on à la programma/on. Thème 2 : Architecture d un système informa/que. Département d informa/que

UN GUIDE PROPOSÉ PAR PME-WEB MARKETING GUIDE ULTIME DES MOTS INTERDITS. Un guide pour Éviter de voir vos passer en SPAM. web.

USER EXPERIENCE ET DATA : AUGMENTER LES CONVERSIONS GRÂCE À UN PARCOURS UTILISATEUR OPTIMISÉ

DIRECT ASSURANCE. Les femmes et la cyberconsommation. Etude Direct Assurance Juin Focus sur les cyberconsommatrices.

Pe#t déjeuner Prévention des risques professionnels dans la Mutualité

Découvrir Drupal. Les meilleurs thèmes et modules Drupal (présenta5on démo)

Identification de nouveaux membres dans des familles d'interleukines

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Présenta6on Isatech. ERP, Décisionnel, Architecture Systèmes & Réseaux. Isatech Tous droits réservés Page 1

Améliorez et industrialisez vos feedback produit

Présenta)on DesignBuilder

AVIS A MANIFESTATION D INTERET N 017/MPT/2013/UCP/CAB

Vérifica(on et Valida(on de Business Process. Ang Chen et Levi Lúcio

Les formations. calipia. novembre 2014 à mai 2015

INTRASTAT No ce explica ve Merkbla

Optimisation de la supervision by Somone. - Présentation Générale -!

Entrepôt de données et l Analyse en ligne. Maguelonne Teisseire Hugo Alatrista Salas hugo.alatrista- salas@teledetec9on.fr Flavien Bouillot

Consultants, trouvez de nouveaux marchés grâce aux médias sociaux animé par Valérie March au Salon des micro- entreprises 2012

22ème Conven*on na*onale de l Intercommunalité 14 octobre Mutualisa*on : déployer les nouveaux ou*ls de la réforme

Introduction, présentation de la plateforme South Green. h"p://southgreen.cirad.fr/

Catalogue de FORMATIONS 2015

Présentation Level5. Editeur de Logiciels. «If it s not monitored, it s not in production» Theo Schlossnagle #velocityconf

Déployer et sécuriser des applica1ons mobiles dans votre SI / Cloud

Collabora'on IRISA/INRA sur le transfert de nitrates et l améliora'on de la qualité des eaux des bassins versants:

MTI820 Entrepôts de données et intelligence d affaires. Les applica+ons de BI

Architecture matériel et logiciel 2

LE SUPPLIER RELATIONSHIP MANAGEMENT EN PRATIQUE

Entreprise Chiffres clefs

SAUVER LA DISTRIBUTION!

HighPush. document /06/2009 Révision pour version /11/2008 Revision pour la /10/2008 Documentation initiale.

Procédure d utilisation du Beckman CEQ 2000 XL pour la réalisation de programmes de séquençage ou de génotypage.

SÉLECTIONNER LES MEILLEURS CANDIDATS : L APPORT DES OUTILS D ÉVALUATION AU RECRUTEMENT ET À LA MOBILITÉ INTERNE

Baromètre Direct Assurance des cyberconsommateurs

RESSOURCES INFORMATIQUES UFR IMAG ANNEE Présentation service informatique UFR IMAG année 2010/2011 1

DAY 2 #HUBMWC TRENDS MOBILE WORLD CONGRESS HUBinstitute.com

GENERALITES Sélection du fichier... 7 TRANSFERT DES ECRITURES... 8

La démarche Omnicanal Outils d'aide à l'amélioration de l'expérience client Avec le partenaire SKema Alumni

Notes de cours : bases de données distribuées et repliquées

Le cycle de vie d'un projet en intelligence d'affaires

LA LOGISTIQUE LES BONNES QUESTIONS À SE POSER

MOBILE FIRST : PARTIR DU MOBILE POUR DÉVELOPPER ENSUITE LES AUTRES DEVICES OU OPTER POUR LE RESPONSIVE DESIGN?

Data Mining, Data Scien-st, Data Analy-cs, CRM, Modélisa-on et ou-ls mathéma-ques Eclairages et principes

Introduc)on à Map- Reduce. Vincent Leroy

Les termes du cloud CUMULO NUMBIO 2015 O. COLLIN

IFT 6261: L Analytique Web. Fares Aldik, Consultant principal, Analytique Web et optimisation Bell Marchés Affaires services d expérience client

Travaux pratiques avec RapidMiner

Parcours de soins, solu/ons de partage Évolu/ons des poli/ques na/onales & Mises en œuvre régionales Séminaire IFERISS 17 Avril 2014

Service de Messagerie Enseignement et Recherche

Les hommes cadres et l égalité professionnelle

Services bancaires par Internet aux entreprises. Guide pratique pour : Rapports de solde Version

Big Data et Graphes : Quelques pistes de recherche

Sites Internet : les. tendances. Jeudi 30 janvier 2014 Bordeaux L AGENCE CONNECTÉE À L ENTREPRISE

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Introduction aux Statistiques et à l utilisation du logiciel R

CREG : versailles.fr/spip.php?article803

DG-ADAJ: Une plateforme Desktop Grid

Qui sommes nous? Partie 1

22 & 23 NOVEMBRE 2012 LE MOT DU PRESIDENT 20 ANS ET UN NOUVEAU RECORD 142 PARTICIPANTS POUR 71 CABINETS LES TITRES

Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»).

Produc;on de contenus rédac;onnels avec greatcontent.fr

BIRT (Business Intelligence and Reporting Tools)

TP Bases de données réparties

OLAP : Mondrian + Pentaho. Maguelonne Teisseire Hugo Alatrista Salas hugo.alatrista- salas@teledetec9on.fr Flavien Bouillot

SPIP. Gestion de la performance dans SPIP. Préoccupa)on historique

TRANSFORMATION DIGITALE : COMMENT INDUSTRIALISER ET PÉRENNISER LA MÉTHODE AGILE À PLUS GRANDE ÉCHELLE

#GoSocial. solutions de marketing communautaire & social crm

Faire émerger les théma.ques et les opinions : applica.on à l'analyse des médias sociaux

Principes. 2A-SI 3 Prog. réseau et systèmes distribués 3. 3 Programmation en CORBA. Programmation en Corba. Stéphane Vialle

La coopération dans un contexte de recherches doctorales Cooperation amongst PhD researchers. Josée Charbonneau Anne- Marie Merrien 28 mai 2014

Programme «INVESTISSEUR»

Table des Matières. Pages 3-4. A propos d emblue. Page 5. L environnement emblue. Création d une campagne d marketing. Pages 6-15.

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

L ou%l téléphone dans votre stratégie de marke%ng direct

352B - Forefront pour la protec3on des infrastructures de messagerie

Cabinet de Conseil STRATÉGIE MANAGEMENT ORGANISATION JURIDIQUE FORMATION AVEC BW CONSULTANTS CHOISISSEZ DE GARANTIR VOTRE DEVELOPPEMENT

MABioVis. Bio-informatique et la

Le secteur de la Mutualité. Présenta*on des organismes Structure et caractéris*ques des emplois Zoom sur les mé*ers

LE 1 er BAROMETRE ANNUEL DES ETUDES DE MARCHE (FRANCE) - Résultats Une ini5a5ve. avec le sou5en de

LA DIGITALISATION DE LA RELATION CLIENT

Transcription:

Alignement de séquences, manipula3on, contrôle- qualité et analyse de fichiers SAM/BAM Stéphanie Le Gras DU Dijon

Objec3fs Préparer les données avant de faire l analyse de variants Comprendre à quoi sert un alignement Réaliser un alignement Comprendre les biais qu il peut y avoir dans un alignement de lectures Corriger les biais Connaitre le format SAM/BAM Es3mer l efficacité de capture Calcule la couverture nucléo3dique

Analyse pré détec3on des variants Fichier fastq Données brutes Iden3fica3on des duplicats Fichier SAM/BAM Fichier fastq Fichier SAM/BAM Filtra3on et enlevement des données de mauvaise qualité Alignement Réalignement local Recalibra3on de la qualité des bases Fichier SAM/BAM Fichier SAM/BAM Sta3s3ques Données prêtes pour analyse des variants Fichier SAM/BAM

Analyse de données pour l applica3on de re- séquençage

Plan Alignement Le format SAM/BAM Les régions posant problèmes BWA La couverture nucléo3dique Es3ma3on de l efficacité de capture Raffinement des alignements Recalibra3on des bases

ALIGNEMENT

Process Fichier fastq Données brutes Iden3fica3on des duplicats Fichier SAM/BAM Fichier fastq Fichier SAM/BAM Filtra3on et enlevement des données de mauvaise qualité Alignement Réalignement local Recalibra3on de la qualité des bases Fichier SAM/BAM Fichier SAM/BAM Sta3s3ques Données prêtes pour analyse des variants Fichier SAM/BAM

Alignement Trouver la posi3on des lectures dans le génome de référence Génome de référence Lecture 1 2 Une seule posi3on dans le génome de référence Plusieurs posi3ons possibles (Répé33on, régions dupliqués, pseudogènes )

Alignement de données NGS Défi NGS : Aligner rapidement des millions de lectures courtes en u3lisant le minimum de ressources informa3ques Ges3on des données pairées BLAST, Blat Ou3ls NGS BWA (Li et al, 2009) Bow3e SOAP (Rufallo et al, Bioinforma3cs, 2011) Format SAM/BAM

SAM/BAM format SAM : Sequence Alignment/Map Format d alignement générique Avant SAM/BAM : 1 format de fichier par aligneur! Convient aux reads courts et longs (Illumina, AB/ Solid et Roche/454) U3lisé comme fichiers de sor3e par le projet 1000 génomes Fichier texte tabulé (SAM) Con3ent deux sec3ons: - Entête (op3onnel) - Alignement

Entête Entête commence par @ Se trouve au début du fichier Tag @HG : (version du format, ) @SQ : Liste des séquences de référence (une ligne par séquence de référence u3lisée) @RG : group de lecture @PG : nom du programme

Alignement

Alignement FLAG U3lisé pour filtrer un fichier SAM/BAM hgp://picard.sourceforge.net/explain- flags.html

Alignement

Alignement : CIGAR Comprendre l alignement

Alignement :Tags addi3onnels

Exemple <QNAME> <FLAG> <RNAME> <POS> <MAPQ> <CIGAR> <MRNM> <MPOS> <ISIZE> <SEQ> <QUAL>[<TAG>:<VTYPE>:<VALUE> [...]]

Le fichier BAM Le format de fichier BAM est la version compressée du fichier SAM. (Format compa3ble avec GZIP) Indexer les fichiers BAM (*.bam.bai) : accélérer la recherche des alignements à une posi3on donnée Ordonné par coordonnées chromosomiques

Manipula3on de fichiers SAM/ PlateForMe BAM Manipula3on de fichiers SAM/BAM avec les API (Applica3on Programming Interface) Samtools (en C) Picard (en Java) Pysam (en python) Agen3on: les différentes API ne proposent pas toutes les mêmes fonc3onnalités

Samtools Permet de créer et d indexer des fichiers BAM à par3r de fichier SAM Calculer des sta3s3ques d alignement Enlever les duplicats de PCR Fusionner des fichiers SAM/BAM Visualiser des alignement à par3r des fichiers BAM Détecter des SNP Détecter des pe3ts indels

Picard Modules complémentaires à Samtools Iden3fica3ons de duplicats Ordonner des fichiers BAM Ajouter des informa3ons de groupe de lecture Con3ent plus d ou3ls de conversion de format Pas de visualisa3on d alignements possible Pas de détec3on de variants

Manipula3on des fichiers SAM

SAM: un format universel

BWA Li H. and Durbin R. (2009) Fast and accurate short read alignment with Burrows- Wheeler Transform. Bioinforma3cs, 25:1754-60. [PMID: 19451168] Rapide et peu gourmand en ressources Supporte l alignement de lectures avec des inser3ons/ délé3ons (indels) Supporte les séquençages simples (single end) et pairés (paired end) Nécessite des données de bonne qualité Fonc3onne avec un nombre limité d erreurs (2 pour 32bp, 4 pour 100 bp,...) Nécessite d indexer les séquences de référence (accélérer la recherche)

Par3e pra3que n 1 Objec3f : Réaliser l alignement des lectures Fichiers d entrée : CRN- 107_R1.fastq.gz CRN- 107_R2.fastq.gz Fichiers intermédiaires : CRN- 107- R1.sai CRN- 107- R2.sai Fichier de sor3e : CRN- 107.sam Ou3l à u3liser : BWA (aln) BWA (sampe) Aide : Il faut aligner les lectures de chaque sens (read 1 et read 2) séparément Puis rassembler les données Autoriser des indels de 50nt Nombre maximum de différences : 3

Par3e pra3que n 2 Objec3f : Générer un fichier bam ordonné et indexé Fichiers d entrée : CRN- 107.sam Fichiers intermédiaires : CRN- 107_notSorted.bam Fichier de sor3e : CRN- 107.bam CRN- 107.bam.bai Ou3l à u3liser : Samtools view Samtools sort Samtools index

Par3e pra3que n 3a Objec3f : Ajouter des informa3ons dans l entête du fichier BAM (groupe de lecture, plateforme ) Fichiers d entrée CRN- 107.bam Fichier de sor3e CRN- 107_RG.bam Ou3l à u3liser : Picard : AddOrReplaceReadGroups.jar Aide : Desac3vez la valida3on du fichier BAM RGID=1 RGLB=L52 RGPL=illumina RGPU=GGCTAC RGSM=CRN- 107

Vérifica3on des entêtes Par3e pra3que n 3b Objec3f : Vérifier que les entêtes sont correctes Fichiers d entrée CRN- 107_RG.bam Ou3l à u3liser : Samtools view

Vérifica3on des entêtes

QC : Alignement Pourcentage de lectures alignées sur le génome de référence Si trop faible: Contamina3on? Mauvais génome u3lisé? Mauvaise qualité des lectures?

QC : Alignement Par3e pra3que n 4 Objec3f : Vérifiez combien de lectures ont été alignées Fichier d entrée : CRN- 107_RG.bam Ou3l à u3liser : Samtools flagstat

Samtools flagstat

Régions pouvant poser problème Régions de faibles compléxités (homopolymères) Régions dont les séquences sont représentées plus d une fois dans le génome (répé33ons ) Alignabilité dépend de la longueur des lectures meilleure si données pairées

Alignabilité

Les régions répétées Les lectures s alignant dans les régions répétées ne peuvent pas être gardées pour l analyse (introduc3on de biais) Région répétée génome Taille des fragments

Les régions répétées Les lectures s alignant dans les régions répétées ne peuvent pas être gardées pour l analyse (introduc3on de biais) Région répétée génome Taille des fragments Avantage des lectures pairées!

Les lectures issues de régions répétées Comment les détecter? BWA donne une qualité d alignement de 0 à des lectures s alignant à plus d une posi3on En u3lisant les flags des fichiers SAM

Les régions répétées Par3e pra3que n 5 Objec3f : Enlever les lectures qui s alignent plusieurs fois dans le génome. Indexer le fichier créé. Compter le nombre de lectures enlevées. Fichier d entrée CRN- 107_RG.bam Fichier de sor3e CRN- 107_uniquelyMapped.bam Ou3l à u3liser : Samtools view Samtools index Sa mtools flagstat Aide : Qualité minimum >= 1 Format du fichier de sor3e : BAM

Samtools flagstat (avant)

Samtools flagstat (après) Nombre de lectures mul3- alignées : 561016-463795 = 97221 (17%)

Les lectures dupliquées Lectures dupliquées : Séquences ayant la même séquence nucléo3dique Alignées sur le même chromosome avec la même posi3on de début et de fin d alignement et dans le même sens de lecture Ont le même CIGAR Cause : PCR pendant la prépara3on de la librairie (duplicats moléculaire) Même cluster lu deux fois (duplicats op3ques)

Les lectures dupliquées Source: GATK

Les lectures dupliquées Lectures dupliquées : Avantage des lectures pairées génome

Les lectures dupliquées Lectures dupliquées : Avantage des lectures pairées génome

Les lectures dupliquées Par3e pra3que n 6 Objec3f : Les lectures ne sont pas flaguées comme duplicat par défaut. Il faut u3liser des ou3ls pour les reconnaitre. Annotez les lectures dupliquées dans nos données Fichier d entrée CRN- 107_uniquelyMapped.bam Fichier d entrée CRN- 107_Marked.bam Ou3l à u3liser : Picard MarkDuplicates Aide : Créez un index Desac3vez la valida3on du fichier BAM

Les lectures dupliquées

Les lectures dupliquées Par3e pra3que n 7 Objec3f : Vérifier la quan3té de lectures marquées comme duplicats Fichier : CRN- 107_Marked.bam Ou3l : Samtools flagstat

Les lectures dupliquées

ESTIMATION DE LA COUVERTURE

Process Fichier fastq Données brutes Iden3fica3on des duplicats Fichier SAM/BAM Fichier fastq Fichier SAM/BAM Filtra3on et enlevement des données de mauvaise qualité Alignement Réalignement local Recalibra3on de la qualité des bases Fichier SAM/BAM Fichier SAM/BAM Sta3s3ques Données prêtes pour analyse des variants Fichier SAM/BAM

Couverture nucléo3dique Nombre de lectures présentes à une posi3on donnée Meilleure sera la couverture, meilleure sera la détec3on des variants (Encore plus vrai pour les variants hétérozygotes)

Couverture minimale pour la détec3on des hétérozygotes doi:10.1371/journal.pone.0025531.t001

Par3e pra3que n 8: Objec3f : Nous voulons évaluer la couverture nucléo3dique dans nos données Fichiers : CRN- 107_Marked.bam CaptureDesign_chr4.bed Ou3l à u3liser : GATK : DepthOfCoverage Aide : Pas de downsampling Format de sor3e : CSV (comma (,) separated value) Ques3on : Quelle est la couverture nucléo3dique moyenne?

ESTIMATION DE L EFFICACITÉ DE CAPTURE

Efficacité de capture Comment évaluer l efficacité de capture? Nombre de lectures tombant dans les régions que l on a cherché à capturer Besoin d un fichier avec les coordonnées chromosomiques des régions que l on a cherché à capturer (fichier au format BED)

Le format BED Fichier texte tabulé Minimum de 3 colonnes Col 1 : Chromosome Col 2 : Posi3on de début de la région Col 3 : posi3on de fin de la région Col 4 : Nom de la région (op3onnel) Col 5 : Score (op3onnel) Col 6 : Orienta3on (op3onnel) jusqu à 12 colonnes

Et comme pour SAM il y a SAMtools Pour les fichiers BED il y a BEDtools Calculer l intersec3on entre deux fichiers BED Calculer le nombre de lecture par annota3on génomique (exon, intron, ) (BEDtools peut également gérer les fichiers BAM)

Par3e pra3que n 9 Objec3f : Nous voulons compter le nombre de lecture tombant dans les régions ciblées par la capture Fichier d entrée : CRN- 107_RG.bam CaptureDesign_chr4.bed Fichier de sor3e : exon_coverage_crn- 107.bed Ou3l à u3liser : BEDtools coveragebed

Le fichier de sor3e est de la forme : Col 1 : chromosome Col 2 : début de la région Col 3 : fin de la région Col 4 : Nombre de lecture dans la région Col 5 : Taille de la région Col 6 : Nombre de nucléo3de couvert dans la région Col 7 : Pourcentage de bases couvertes Ques3on : Est ce que toutes les régions sont couvertes? Combien de lectures sont capturées dans la région? Quel est le taux d efficacité de la capture?

Format de fichier Il existe un grand nombre de format de fichiers pour stocker des données génomiques hgp://genome.ucsc.edu/faq/faqformat.html Conversion d un fichier avec un grand nombre d informa3ons vers un fichier contenant la quan3té d informa3on nécessaire Gain de place Pour conver3r d un format vers un autre, il faut que le fichier d origine con3enne les informa3ons nécessaires Ex : Bam - > BED (Perte d informa3on) Ex : BED - > BAM (Informa3on manquante) Ex : Fastq - > BED (Il faut aligner les séquences!)

RAFFINEMENT DES ALIGNEMENTS

Process Fichier fastq Données brutes Iden3fica3on des duplicats Fichier SAM/BAM Fichier fastq Fichier SAM/BAM Filtra3on et enlevement des données de mauvaise qualité Alignement Réalignement local Recalibra3on de la qualité des bases Fichier SAM/BAM Fichier SAM/BAM Sta3s3ques Données prêtes pour analyse des variants Fichier SAM/BAM

Réalignement autour des indels Problème d alignement : Dans les régions de faibles complexités Autour des indels Ces mesappariements détectés comme des variants peuvent biaiser les modèles sta3s3ques u3lisées lors de la détec3on des variants

Réalignement autour des PlateForMe indels 3 différents type de régions sont ciblées par le réalignement des indels Les indels connus (1000 génomes, dbsnp ) Les indels détectés dans les échan3llons analysés (en u3lisant le CIGAR) Sites avec des indels supposés

Comment ça marche 1. Trouver la meilleur séquence consensus dans une région donnée (la région inclue un maximum d un indel) 2. Le score de la séquence consensus est égal à la somme des qualités des bases ayant un mesappariement 3. Si le score du consensus est meilleur que celui de l alignement originel alors le nouvel alignement est conservé.

Exemple sur un autre échan3llon chr12:88,481,520-88,481,560

Réalignement local Par3e pra3que n 10 Objec3f : nous souhaitons réaligner les bases autour des indels Fichiers d entrée CRN- 107_Marked.bam Posi3ons connues à u3liser : Mills_and_1000G_gold_standard.indels.hg19.vcf 1000G_phase1.indels.hg19.vcf Fichier de sor3e indelintv_crn- 107.intervals CRN- 107.realigned.bam Ou3l à u3liser : GATK RealignerTargetCreator (chercher les régions où réaligner) GATK IndelRealigner (réalise les réglements locaux aux posi3ons détectées par RealignerTargetCreator )

IGV Navigateur de Génomes Développé par le Broad Ins3tute Le meilleur pour la visualisa3on de données de reséquençage

IGV Génome à charger : hg19 (Genomes/Load from server) Fichier à charger (File/Load from File): CRN- 107_RG.bam (avant réalignement local) CRN- 107.realigned.bam (après réalignement local) Pour visualiser un fichier Bam il faut avoir son fichier bai (index) correspondant chr4:122,766,732-122,766,861

RECALIBRATION DE LA QUALITÉ DES BASES

Process Fichier fastq Données brutes Iden3fica3on des duplicats Fichier SAM/BAM Fichier fastq Fichier SAM/BAM Filtra3on et enlevement des données de mauvaise qualité Alignement Réalignement local Recalibra3on de la qualité des bases Fichier SAM/BAM Fichier SAM/BAM Sta3s3ques Données prêtes pour analyse des variants Fichier SAM/BAM

Recalibra3on des qualités des bases A quoi ça sert? Corriger les biais d assignement des scores de qualités des séquenceurs Comment ça marche? Les ou3ls scannent les lectures alignées et cherchent les posi3ons qui sont des mesappariements (nucléo3des différents du génome) Si les mesappariements ne sont pas des variants connus alors l ou3l considère que c est une erreur de séquençage Calcul de sta3s3ques sur tous les mesappariements détectés et sur leur contexte dans la lecture (dinucléo3de, posi3on dans la lecture ) Correc3on de la valeur de qualité pour qu elle corresponde à la qualité observée

Par3e pra3que n 11 Objec3f : effectuer la recalibra3on des qualités des bases Fichiers d entrée CRN- 107.realigned.bam Posi3ons connues à u3liser : dbsnp_137.hg19.vcf Fichier de sor3e CRN- 107.recal_data.grp CRN- 107.realigned.recalibrated.bam Ou3l à u3liser : GATK BaseRecalibrator GATK PrintReads

Process Fichier fastq Données brutes Iden3fica3on des duplicats Fichier SAM/BAM Fichier fastq Fichier SAM/BAM Filtra3on et enlevement des données de mauvaise qualité Alignement Réalignement local Recalibra3on de la qualité des bases Fichier SAM/BAM Fichier SAM/BAM Sta3s3ques Données prêtes pour analyse des variants Fichier SAM/BAM

Références Mark A. DePristo, Eric Banks, Ryan Poplin, Kiran V. Garimella, Jared R. Maguire, Christopher Hartl, Anthony A. Philippakis, Guillermo del Angel, Manuel A. Rivas, Mag Hanna, Aaron McKenna, Tim J. Fennell, Andrew M. Kernytsky, Andrey Y. Sivachenko, Kris3an Cibulskis, Stacey B. Gabriel, David Altshuler, and Mark J. Daly. A framework for varia3on discovery and genotyping using next- genera3on DNA sequencing data. Nature Gene3cs, 43(5):491{498, May 2011. Heng Li and Richard Durbin. Fast and accurate short read alignment with BurrowsWheeler transform. Bioinforma3cs, 25(14): 1754{1760, July 2009. Heng Li, Bob Handsaker, Alec Wysoker, Tim Fennell, Jue Ruan, Nils Homer, Gabor Marth, Goncalo Abecasis, and Richard Durbin. The sequence Alignment/Map format and SAMtools. Bioinforma3cs, 25(16):2078{2079, August 2009.