TD1 : Traitement d'un Fichier Brut de Séquences Transcrites.



Documents pareils
Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»).

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Reporting Services - Administration

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

Installation de SQL Server Reporting Services avec l intégration dans un site Windows SharePoint Services V3

données en connaissance et en actions?

INTRODUCTION AU CMS MODX

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Gènes Diffusion - EPIC 2010

Manuel Utilisateur Version 1.6 Décembre 2001

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

La double authentification dans SharePoint 2007

Stockage du fichier dans une table mysql:

Gestion collaborative de documents

Big data et sciences du Vivant L'exemple du séquençage haut débit

Méthode de préparation du fichier texte d import depuis Excel, via Access jusqu à Drupal.

Grain Tracker Manuel d'utilisation

Microsoft Application Center Test

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

FAQ L&TT Version avec interface graphique pour Windows

Recherche dans un tableau

Nettoyer son PC avec des logiciels gratuits

1. Installation du Module

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Tutorial Ophcrack. I) Ophcrack en API. (ou comment utiliser Ophcrack pour recouvrir un mot de passe sous Windows XP et Windows Vista)

Installation personnalisée d'oracle 10g

Travaux pratiques avec RapidMiner

v7.1 SP2 Guide des Nouveautés

ECR_DESCRIPTION CHAR(80), ECR_MONTANT NUMBER(10,2) NOT NULL, ECR_SENS CHAR(1) NOT NULL) ;

Microsoft OSQL OSQL ou l'outil de base pour gérer SQL Server

Tenrox. Guide d intégration Tenrox-Salesforce. Janvier Tenrox. Tous droits réservés.

Network Scanner Tool R2.7. Guide de l'utilisateur

Le service FTP. M.BOUABID, Page 1 sur 5

WINDOWS SHAREPOINT SERVICES 2007

Gestion Electronique des Documents et la qualité documentaire au cœur du développement durable.

Stratégie de sécurité grâce au logiciel libre. Frédéric Raynal Cédric Blancher

Gérer une comptabilité dans Tiny

Création d'un site dynamique en PHP avec Dreamweaver et MySQL

TP 4 de familiarisation avec Unix

Retrospect 7.7 Addendum au Guide d'utilisation

Trier les ventes (sales order) avec Vtiger CRM

LibreOffice Calc : introduction aux tableaux croisés dynamiques

Formateur : Jackie DAÖN

MEDIAplus elearning. version 6.6

Tutoriel de formation SurveyMonkey

ENDNOTE X2 SOMMAIRE. 1. La bibliothèque EndNote 1.1. Créer une nouvelle bibliothèque 1.2. Ouvrir une bibliothèque EndNote 1.3. Fermer une bibliothèque

Sauvegarde des bases SQL Express

Module d introduction Comment réaliser vos propres cartes avec ArcGIS Online

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Déclarer un serveur MySQL dans l annuaire LDAP. Associer un utilisateur DiaClientSQL à son compte Windows (SSO)

Formateur : Franck DUBOIS

Service d'authentification LDAP et SSO avec CAS

SQL MAP. Etude d un logiciel SQL Injection

Stockage des machines virtuelles d un système ESXi jose.tavares@hesge.ch & gerald.litzistorf@hesge.ch

IMPORTATION, CRÉATION, MANIPULATION, EXPORTATION DE DONNÉES STATISTIQUES

Déploiement d application Silverlight

Lancez le setup, après une phase de décompression, la fenêtre d installation des prérequis apparaît, il faut les installer :

La réplication sous SQL Server 2005

1 - Clients 2 - Devis 3 - Commandes 4 - Livraisons 5 - Factures 6 - Avoirs 7 - Modèles

TUTORIAL REUTERS. Utilisation de l'utilitaire de recherche Reuters

Récupérer au format AVI un extrait d'un DVD à l'aide du logiciel FlaskMpeg

Description des pratiques à adopter pour la mise à jour du layout en utilisant le gestionnaire de conception de Sharepoint 2013

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Objectifs de la formation : Savoir réaliser la maintenance et l'administration de premier niveau sur un réseau d'établissement SCRIBE.

TABLEAU CROISE DYNAMIQUE

Cours 1 : introduction

Utiliser Access ou Excel pour gérer vos données

DEPLOIEMENT MICROSOFT WINDOWS

Avertissement. La Gestion Electronique de Documents

Comment Utiliser les Versions, les Modification, les Comparaisons, Dans les Documents

Compte rendu d'activité PTI n 2

Sauvegarder ses données avec Syncback Windows 98, 2000, Me, NT, XP

Certificat Informatique et internet Niveau 1 TD D1. Domaine 1 : Travailler dans un environnement numérique évolutif. 1. Généralités : Filière

LES FICHES Domaines. Domaine D1. Travailler dans un environnement numérique

Maarch V1.4

Intégration de Cisco CallManager IVR et Active Directory

Déclarer un serveur MySQL dans l annuaire LDAP. Associer un utilisateur DiaClientSQL à son compte Windows (SSO)

Your Detecting Connection. Manuel de l utilisateur. support@xchange2.net

L'instruction if permet d'exécuter des instructions différentes selon qu'une condition est vraie ou fausse. Sa forme de base est la suivante:

Outils de traitements de logs Apache

1. Cliquez sur dans le coin supérieur gauche de l'écran 2. Sélectionnez la Langue de l'interface désirée 3. Cliquez sur

> INSTRUCTIONS POUR LA FACTURATION DES BONS DE COMMANDE

GESTION DES BONS DE COMMANDE

Mendeley, pour gérer sa bibliographie et la partager. Patricia Volland-Nail

Retrouver un mot de passe perdu de Windows

Sophos Endpoint Security and Control Guide de configuration pour réseaux étendus. Enterprise Console, version 3.1 EM Library, version 1.

PageScope Suite L accélérateur de workflow * L essentiel de l image

Host Integration Server 2000

Guide de démarrage rapide Centre de copies et d'impression Bureau en Gros en ligne

Gestion des utilisateurs : Active Directory

STATISTICA Version 12 : Instructions d'installation

Nettoyer Windows Vista et Windows 7

Tous les autres noms de produits ou appellations sont des marques déposées ou des noms commerciaux appartenant à leurs propriétaires respectifs.

Aide en ligne du portail

Déploiement d'une application Visual Studio Lightswitch dans Windows Azure.

Faire Le Ménage. Faire le ménage lié à l utilisation de son PC

Transcription:

TD1 : Traitement d'un Fichier Brut de Séquences Transcrites. Dans le cadre de cette formation, nous allons utiliser des données Illumina (75-bases 'pair-ends') issues du transcriptome de plusieurs individus de l'espèce de riz Africain cultivé Oryza glaberrima et de son ancêtre sauvage O. barthii. 1. Prise en main de Galaxy : Nous utiliserons ici l outil Galaxy, qui permet de faciliter l utilisation de plusieurs programmes couramment utilisés en bioinformatique, et ainsi de les rendre utilisable par un plus grand nombre de personne. Connectez-vous sur le serveur Galaxy du CIRAD, accessible à l URL suivante : http://gohelle.cirad.fr/galaxy/ Utilisez les codes fournis pour accéder à votre compte. Différentes possibilités s'offrent à vous pour rendre votre jeu de données accessible dans le serveur Galaxy. Ici, nous allons récupérer les données partagées (Data libraries/formation/preprocessing and Mapping 2012). Chaque groupe va se voir affecter un couple de fichier d'entrée différent, représentant chacun un individu (1 à 10), soit sauvage (RS) soit cultivé (RC). Le fichier noté _1.fastq correspond à la séquence forward de la polonie Illumina séquencé, celui noté _2.fastq à la séquence reverse. Ces fichiers sont dit pairés, c'est à dire que la première séquence du fichier forward correspond à la première séquence du fichier reverse. 2. Vérification de la qualité des séquences : Les fichiers que vous avez récupéré sont des séquences issues d un séquençage par la méthode Illumina. Avant de commencer à les utiliser, nous devons en contrôler la qualité. Pour cela nous utiliserons le logiciel FASTQC (disponible gratuitement, http://www.bioinformatics.bbsrc.ac.uk/projects/download.html#fastqc, et implémenté sur Galaxy). Ce logiciel tourne sous toutes les plate-formes et permet de générer un rapport de la qualité moyenne sous forme HTML. Contrôlez la qualité des séquences à l aide de FASTQC, disponible dans NGS : Quality Control. N'ajoutez pas de liste des contaminants, le logiciel prendra par défaut la liste classique. Formation BioIA, Février 2014 Traitement brut de séquences transcrites 1/7

Quelles sont les critères importants à observer? Quelle(s) analyse(s) majeure(s) pouvez-vous déduire de cette sortie par rapport à vos données? 3. Suppression des adaptateurs/primers : Les adaptateurs/primers sont utilisés pour former la banque, créer les polonies et séquencer ces polonies. En fonction de la taille des séquences initiales (avant formation des polonies) et de la qualité de fabrication de la banque initiale, les adaptateurs peuvent être présent en plus ou moins grande quantité (dans la majorité des cas, si vous passez par un service extérieur pour effectuer votre séquençage, la compagnie peut vous proposer ces traitements). Pour supprimer ces séquences nous utiliserons le logiciel CutAdapt, capable de couper les séquences adaptatrices (entières ou non, avec indel/mismatches) que l'utilisateur lui donne en entrée. Nettoyez les données avec la brique CutAdapt, en spécifiant le contaminant spécifique de votre fichier (affiché au tableau) dans add new 5' or 3' adapters, une couverture commune de 7 bases, une qualité et une taille minimales de 20. Ces critères permettent d'éliminer les contaminants résiduels provenant du multiplexage (séquençage de plusieurs individus en même temps)sans risquer d'éliminer trop de vraies séquences. Le seuil de qualité de 20 permet aussi d'éliminer les bases de mauvaise qualités situées sur la fin des séquences, ce qui risquerait de générer des faux SNPs. Quels sont les risques à cette étape sur l'intégrité des données? Pourquoi ne pas chercher toutes les séquences connues? 4. Filtres des séquences sur leur qualité moyenne : Afin de conserver uniquement des séquences de bonnes qualités, nous allons les filtrer sur leurs qualités moyenne. Utilisez la brique Filter FastQ (ARCAD) (Tools, NGS:Quality Control) pour retirer les séquences avec une qualité moyenne inférieure à 30 et une taille inférieure à 35. En quoi est-il gênant de conserver des séquences de mauvaise qualité? Quelles ont été les modifications qui ont eu lieu dans la structure et la qualité des données après toutes ces étapes? Formation BioIA, Février 2014 Traitement brut de séquences transcrites 2/7

5. Validation des Paires : L'élimination des séquences de mauvaises qualité, ou de petites tailles après élimination des adaptateurs, a probablement invalidé la structure pairée des deux fichiers d'entrée. Or, cette structure en paire est essentielle pour la continuité des opérations, particulièrement dans le cas du Mapping. Utilisez l'outil Separate Fastq pair and single 6. Assemblage de novo avec Mira: Maintenant que nos séquences ont été nettoyées, nous pouvons sans risque commencer à les utiliser. En général, si l'on ne dispose pas de séquence de référence, il convient de créer cette dernière via un assemblage de novo. Pour créer cette séquence, nous utiliserons le logiciel Mira. Mira permet de faire des assemblages quelque soit la technologie utilisé pour générer les séquences. Il permet également de faire des assemblages mixtes entre séquences issues de différentes technologies. Mira prend un fichier unique en entrée pour chaque technologie. Or, nous avons trois fichiers de séquences. Nous allons donc concaténer les fichiers d'entrée. Utilisez Concatenate datasets sur les fichiers nettoyés forward et reverse. Lancer Untested Tools/NGS/Assembly/Assemble with Mira avec les paramètres appropriés, i.e. EST assembly et Solexa/Illumina reads = YES. Combien de contigs obtenez-vous? Qu'en est-il des assemblages des groupes autour de vous? Connaissez-vous la raison de ces différences? 7. Validation des contigs via BLAST sur une base de référence: Une fois vos contigs créés, il serait bon d'essayer d'identifier à quels gènes ils appartiennent. Attention, un même gène peut contenir plusieurs contigs. Utilisez l'outil BLAST+ blastn (MC) de la partie Sequence Comparisons. Effectuez une analyse de type MegaBlast sur la base nt, avec les conditions par défaut. Formation BioIA, Février 2014 Traitement brut de séquences transcrites 3/7

Un même contig peut-il appartenir à deux gènes? Si oui sous quelles conditions? Si non dans quelles conditions ce type de résultat peut-il apparaître? 8. Mapping des données sur une référence de type CDS: Ici, nous n'avons pas besoin de créer une référence, nous allons utiliser la séquence du riz Asiatique Oryza sativa, dont le génome entier est disponible et bien annoté. Nous allons utiliser la référence reference.fasta disponible dans Data Libraries/Formation- NGS/References Pour le mapping nous allons utilisé l'outil BWA. Cet outil allie rapidité et précision, mais est très sensible aux différences entre les reads et la référence. Comme nous utilisons des reads courts (100 bases) et nettoyés de façons stringentes, cet outil est adapté à nos besoin. Pour des séquences plus longues, type 454, BWA a mis en place un outil (BWA for long reads) utilisant un algorithme différent. Cet outil est plus lent, mais il est moins sensible aux erreurs de séquençage et aux polymorphismes. Dans la partie NGS, sélectionnez l'outil BWA for Illumina Choisissez d'utiliser une référence issue de votre historique, et sélectionnez reference.fasta Sélectionnez un mapping de séquences en pair Choisissez comme fichiers d'entrée les séquences forward et reverse nettoyées Lancer le mapping avec les autres conditions par défaut Quelles conditions de mapping aurions nous pu modifier, sachant que nous n'utilisons pas la référence exacte associée à nos échantillons? Il faut maintenant mapper aussi les séquences single. De la même manière qu'auparavant, utiliser l'outil BWA Choisissez d'utiliser une référence issue de votre historique, et sélectionnez reference.fasta Sélectionnez un mapping de séquences en single Choisissez comme fichiers d'entrée les séquences single nettoyées Lancer le mapping avec les autres conditions par défaut Formation BioIA, Février 2014 Traitement brut de séquences transcrites 4/7

9. Tri des fichiers SAM Les fichiers SAM issus du mapping sont triés dans l'ordre d'entrée des séquences, mais pas dans l'ordre de la référence (de la première base du premier gène à la dernière base du dernier gène). Il faut les trier par coordonnées (de la première base du premier gène à la dernière base du dernier gène) pour pouvoir regrouper les fichiers SAM pair et SAM single en un seul fichier représentant l'individu. Les fichiers de sorties de mapping étant généralement très gros, cette étape est indispensable pour tous les post-traitements que vous souhaiterez faire. En effet, avec un fichier ordonné, les logiciels peuvent accéder très rapidement à l'information qui les intéressent. Dans la partie NGS : SAM/BAM manipulation, sélectionnez l'outil SortSam de la suite PicardTools Comme input format, choisissez SAM Comme méthode de tri, choisissez COORDINATES 10. Élimination des duplicats techniques: Une fois le fichier SAM unique créé, il faut éliminer les duplicats techniques, qui risqueraient de fausser la détection de SNPs en accroissant artificiellement la profondeur à leur localisation. Cette manipulation s'effectue sur un fichier BAM, version binaire des SAM. Ces fichiers sont compressés, donc moins volumineux, et indexés ce qui permet une accession rapide aux information qu'ils contiennent. Dans la partie NGS : SAM/BAM manipulation, sélectionnez l'outil SAM-to-BAM de la suite SamTools Choisissez un fichier from history, et indiquez le fichier SAM pair trié la bonne référence reference.fasta. Une fois la conversion effectuée, dans la partie NGS : SAM/BAM manipulation, sélectionnez l'outil RemoveDuplicates de la suitepicardtools Réiterez l'opération avec le fichier SAM single A notez qu'à l'étape précédente (Tri des fichiers SAM), nous aurions pu en même temps faire la transformation au format BAM 11. Assemblage des données single et pair: Une fois les deux fichiers triés dans le même ordre et les duplicats techniques éliminés, il faut les associer pour créer un fichier unique pour l'individu. Dans la partie NGS : SAM/BAM manipulation, sélectionnez l'outil MergeSam de la suite PicardTools Formation BioIA, Février 2014 Traitement brut de séquences transcrites 5/7

Sélectionnez BAM comme format d'entrée et de sortie Indiquez le premier BAM d'entrée (BAM pair) Ajoutez un dataset Indiquez le deuxième BAM (BAM single) 12. Assemblage des sorties des différents individus Avant de pouvoir analyser la variabilité au sein de nos échantillons, nous devons les regrouper au sein d'un fichier de type SAM/BAM unique. Pour pouvoir reconnaître l'origine des variations (i.e. quel individu est affecté par tel ou tel SNP), il nous faut adresser une information supplémentaire à chaque séquence, le readgroup. Il faut convertir le fichier BAM en SAM, via l'outil SAM-to-BAM de la suite SamTools Ensuite, dans la partie NGS : SAM/BAM manipulations sélectionnez l'outil Add or Repalce Groups de la suite Picard Tools Indiquez votre fichier SAM et renseignez votre Read group ID, Read group sample name et Read groups library avec la même information (ex RC1) Renseigner les champs Read group platform et Read group platform unit avec le texte illumina Une fois cette information ajoutée au fichier SAM, partagez le avec les autres membres de la formation. Dans les options de l'historique, choisissez Share or Publish Choisissez ensuite Make History Accessible and Publish Quand chaque groupe aura partagé son historique, récupérez les données des fichiers SAM de tous les individus. Accédez ensuite aux historiques des autres groupes via Shared Data/Published Histories Sélectionnez un historique de la formation Téléchargez en local le fichier BAM correspondant Insérez le dans votre historique via Get Data/ Upload Files from your computer Recommencez l'opération pour récupérer les 18 fichiers BAM supplémentaires Joignez les 20 fichiers en un seul en utilisant l'outil MergeSam comme précédemment Formation BioIA, Février 2014 Traitement brut de séquences transcrites 6/7

13. Création de Workflows: Comme vous avez pu le constater, enchaîner toutes ces étapes est fastidieux. C est pourquoi il est intéressant d automatiser leur enchaînement. Pour cela nous allons créer un petit workflow. Aller dans l onglet Workflow et créer un nouveau workflow Ajouter le programme CutAdapt deux fois et modifier les options Ajouter Filter Fastq (ARCAD) deux fois Lier les sorties des CutAdapt aux FilterFastq (ARCAD) Ajouter le programme Separate Fastq pair and single Lier les sorties de Filter Fastq (ARCAD) à Separate Fastq pair and single Votre workflow de nettoyage est maintenant fonctionnel. Lancer votre workflow avec en entrée les fichiers d'origine. Récupérer le résultat du workflow et lancer FASTQC dessus. Quel est l'avantage d'enregistrer/créer un tel workflow? De la même manière, créez un workflow de mapping et un workflow d'élimination des duplicats techniques. Enfin, créez un workflow complet partant des données brutes à un fichier SAM avec readgroups, trié et nettoyé. Formation BioIA, Février 2014 Traitement brut de séquences transcrites 7/7