I. Obtenir les exons d'un chromosome humain possédant la plus forte densité en SNP. 1. Récupérer les exons codant du chromosome 22 humain



Documents pareils
Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Tutoriel de formation SurveyMonkey

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Module Analyse de Génomes Master 2 module FMBS 326 Immunoinformatique

Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»).

FOXIT READER 6.0 Guide rapide. Table des matières... II Utilisation de Foxit Reader Lecture Travailler dans des documents PDF...

EndNote : outil de gestion bibliographique

Once the installation is complete, you can delete the temporary Zip files..

Introduc)on à Ensembl/ Biomart : Par)e pra)que

Déploiement d'une application Visual Studio Lightswitch dans Windows Azure.

Travaux pratiques avec RapidMiner

OpenPaaS Le réseau social d'entreprise

INFORM :: DEMARRAGE RAPIDE A service by KIS

WEB page builder and server for SCADA applications usable from a WEB navigator

JES Report Broker. Campus Technologies. SAE de CHALEMBERT 1 Rue Blaise PASCAL JAUNAY-CLAN info@campustec.

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Date de diffusion : Rédigé par : Version : Mars 2008 APEM 1.4. Sig-Artisanat : Guide de l'utilisateur 2 / 24

Exploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services

lundi 3 août 2009 Choose your language What is Document Connection for Mac? Communautés Numériques L informatique à la portée du Grand Public

Oracle Database SQL Developer Guide D'Installation Release 4.0 E

Instructions Mozilla Thunderbird Page 1

LES ACCES ODBC AVEC LE SYSTEME SAS

DOCUMENTATION - FRANCAIS... 2

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

WINDOWS SHAREPOINT SERVICES 2007

DECOUVRIR. Le portail La recherche Les présentations & documents

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

La base de données dans ArtemiS SUITE

8. Gestionnaire de budgets

Big data et sciences du Vivant L'exemple du séquençage haut débit

Business Intelligence simple et efficace

Exercices sur SQL server 2000

MANUEL 3A Online. 2013/2014 Manuel 3A Online 1

DOSSIER D'ACTIVITES SUR LE PHP N 03 Créer une base de données MySQL avec PHPMyAdmin

Surveillance de Scripts LUA et de réception d EVENT. avec LoriotPro Extended & Broadcast Edition

Comment faire des étiquettes

Comment Créer une Base de Données Ab Initio

GESTION ELECTRONIQUE DE DOCUMENTS

Les Utilisateurs dans SharePoint

Tango go.box - Aide. Table des matières

BIRT (Business Intelligence and Reporting Tools)

1 Gestionnaire de Données WORD A4 F - USB / / 6020 Alco-Connect

Deuxième Licence en Informatique Data Warehousing et Data Mining La Classification - 1

Guide d utilisation commandes des pièces de rechange Rev.1.0.3

Guide d'utilisation. Mendeley

Climat Scolaire - Manuel utilisateur - Chapitre 2 : «Créer, Editer et suivi d un texte»

DocOnline. Guide utilisateur

RAPID Prenez le contrôle sur vos données

Module pour la solution e-commerce Magento

DOCUMENTATION - FRANCAIS... 2

DOCUMENTATION MODULE BLOCKCATEGORIESCUSTOM Module crée par Prestacrea - Version : 2.0

Paris Airports - Web API Airports Path finding

Administration du site (Back Office)

Guide de l exportation postale en ligne Objets interdits et admis conditionnellement

Le générateur d'activités

Oracle Learning Library Tutoriel Database 12c Installer le logiciel Oracle Database et créer une Database

Les tablettes et l'extranet Intermixt Mode d'emploi

ROYAUME DE BELGIQUE / KINGDOM OF BELGIUM / KONINKRIJK BELGIE

Whitepaper. Méthodologie de création de rapports personnalisés SQL Server Reporting Services

Ocs Inventory et GLPI s appuie sur un serveur LAMP. Je vais donc commencer par installer les paquets nécessaires.

COURS 5 Mettre son site en ligne! Exporter son site avec WordPress Duplicator Installer un logiciel FTP Faire le suivi des visites de son site avec

Partager rapidement un fichier volumineux

3615 SELFIE. HOW-TO / GUIDE D'UTILISATION

Utilisation de JAVA coté Application serveur couplé avec Oracle Forms Hafed Benteftifa Novembre 2008

Virtual Browser Management Console. Guide de l utilisateur

Outils d'analyse de la sécurité des réseaux. HADJALI Anis VESA Vlad

G E S T S K E D. Logiciel de gestion de QSO journaliers ou hebdomadaires appelés SKED. Version 1.0. Logiciel développé par René BUSSY F5AXG

Google Drive, le cloud de Google

Guide d installation du logiciel Proteus V.8 Sous Windows Vista, 7, 8

Maarch V1.4

Comment Définir une Plage de données Pour Utiliser Fonctions de Filtres et de Tris

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques

Internet Group Management Protocol (IGMP) Multicast Listener Discovery ( MLD ) RFC 2710 (MLD version 1) RFC 3810 (MLD version 2)

Fiche produit ifinance v4

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

Comment Utiliser les Versions, les Modification, les Comparaisons, Dans les Documents

Base de Connaissances

Dans la série LES TUTORIELS LIBRES présentés par le site FRAMASOFT. Premiers pas avec WinPT (cryptographie sous Win) EITIC

AssetCenter Notes de version

I. COORDONNÉES PERSONNELLES / PERSONAL DATA

PHOTO ROYAUME DE BELGIQUE /KINDOM OF BELGIUM /KONINKRIJK BELGIE. Données personnelles / personal data

TP Wireshark. Première approche de Wireshark. 1 ) Lancer Wireshark (double clic sur l icône sur le bureau). La fenêtre

Mai Médiathèque «Les Trésors de Tolente»

Guide de démarrage rapide Centre de copies et d'impression Bureau en Gros en ligne

Déployer des tablettes en classe de LVE: les points clés. Rennes, le 26 août 2014

1-Introduction 2. 2-Installation de JBPM 3. 2-JBPM en action.7

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Perl Orienté Objet BioPerl There is more than one way to do it

AdjumedCollect. manuel pour l utilisateur. Version: AdjumedCollect est l instrument servant à la saisie des données.

GUIDE UTILISATEUR SYSTEMES CCTV

TUTORIEL D INSTALLATION D ORACLE ET DE SQL DEVELOPPER TUTORIEL D INSTALLATION D ORACLE...1 ET DE SQL DEVELOPPER...1

KWISATZ_TUTO_module_magento novembre 2012 KWISATZ MODULE MAGENTO

EndNote X7.

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

Guide de formation EndNote Web Interface EndNote Web

SERVEUR DÉDIÉ DOCUMENTATION

Guide d'intégration à ConnectWise

Vanilla : Virtual Box

Guide pour l Installation des Disques Durs SATA et Configuration RAID

Transcription:

Exemples d'analyse sous Galaxy : Adaptation des exercices "Using Galaxy" proposés par la team Galaxy Exercices proposés par la plateforme rennaise GenOuest Jennifer Hillman-Jackson, 1 Dave Clements, 2 Daniel Blankenberg, 1 James Taylor, 2 Anton Nekrutenko, 1 and the Galaxy Team 1,2 1 Penn State University, University Park, Pennsylvania 2 Emory University, Atlanta, Georgia Yvan Le Bras, Projet e Biogenouest, CNRS UMR 6074 IRISA INRIA, Rennes I. Obtenir les exons d'un chromosome humain possédant la plus forte densité en SNP 1. Récupérer les exons codant du chromosome 22 humain Dans le panneau d'outils, rendez vous dans la section Get Data et cliquer sur l'outil UCSC Main. L'UCSC est un site web généraliste au même titre que Ensembl. Il propose une synthèse des informations connues sur les génomes séquencés et de leurs annotations. Quand Ensembl est plutôt orienté génomique fonctionnelle, UCSC est plus orienté génomique structurale. Ces 2 sites utilisent les données d'autres sites comme EBI, Uniprot, L'accès aux données est plus ou moins facilité, et dans le cadre d'ucsc, cet outil permettant de faire un lien direct avec une instance de Galaxy est d'un grand intérêt. Cette page doit s'afficher dans le volet central : Indiquer les bons paramètres afin de récupérer tous les exons présents sur le chromosome 22 humain.

Clade : Mammal Group : Genes and Gene Prediction Tracks Track : RefSeq Genes Region : position [chr22] #Vous pouvez cliquer sur lookup pour voir la taille, en nucleotides, de la region sélectionnée. Get output # vous pouvez cliquer sur summary statistics pour avoir le récapitulatif de la demande Dans la seconde étape, ne récupérer que les exons codant: Create one BED record per: Coding Exons Cliquer ensuite sur Send query to Galaxy. Le jeu de données doit s'afficher dans l'historique

2. Récupérer les SNP du chromosome 22 humain Dans le panneau d'outils, rendez vous à nouveau dans la section Get Data et cliquer sur l'outil UCSC Main. Indiquer les bons paramètres afin de récupérer tous les SNP présents sur le chromosome 22 humain. Clade : Mammal Group : Variation Track : Common SNPs Region : position [chr22] #Vous pouvez cliquer sur lookup pour voir la taille, en nucleotides, de la region sélectionnée. Get output # vous pouvez cliquer sur summary statistics pour avoir le récapitulatif de la demande Dans la seconde étape, récupérer toute les infos en sélectionnant Whole Gene

Cliquer ensuite sur Send query to Galaxy. Le jeu de données doit s'afficher dans l'historique Etapes à suivre: 3. Analyse des données Join the 2 datasets with minimum overlap of 1 bp and return only records that are joined. Count occurences of unique values in the Exon Name column (c4). Note : You can do the same for the SNP Name column (c10) Sort the chromosome 22 Exons by SNP number (column c1) Select first 100 Exons (with larger SNP number) Compare two datasets (first and last steps) by Exon name (on column c4 for output from step 1 and c2 for last step) and keep only matching exons from the Exon File (step 1)

II. Charger des données et comprendre les datatypes Ce protocole présente différentes manières d'importer des données sous Galaxy. Les détails concernent comment les jeux de données sont chargés, nommés, modifiés et suivis au sein d'un historique Galaxy. Prenez le temps de modifier et comprendre les différents attributs. 1. Import de jeux de données Trois jeux de données sont chargés individuellement au début de l'exercice. 2. Jeux de données du projet ENCODE: Ces données sont issus de l'expérience ChIP SEQ souris du projet encode 'Transcription Factor Binding Sites by ChIP seq from ENCODE/Stanford/Yale'. Les données ont été générées et analysées par le laboratoire de Michael Snyder à l'université de Stanford et Sherman Weissman de l'université de Yale. Source 'Tags Chr19 ungroomed' and 'Control Chr19 ungroomed': Les jeux de données originaux ont été réduits pour ne concerner que le chromosome 19: Les jeux de données sont téléchargeables directement via ftp : Jeu de donnée test : ftp://hgdownload.cse.ucsc.edu/goldenpath/mm9/encodedcc/wgencodesydhtfbs/wgencode SydhTfbsMelCtcfDmso20IggyaleRawDataRep2.fastq.gz Jeu de donnée contrôle : ftp://hgdownload.cse.ucsc.edu/goldenpath/mm9/encodedcc/wgencodesydhtfbs/wgencode SydhTfbsMelInputDmso20IggyaleRawData.fastq.gz

3. Jeux de données de la base de données Mammalian Promotor Database (MPromDb): MPromDb du Wistar Instute est une base de données vérifiée qui s'efforce d'annoter les promoteurs de gène identifiés à partir d'expérimentation de type ChIP Seq. Il s'agit d'une ressource publique mais qui requiert un login pour télécharger les données. Ces données sont restreintes à une utilisation non commerciale. Nous remercions le Davuluri Lab de permettre l'utilisation de ces données. Source "MPromDB Promoters chr19": Il s'agit d'un fichier tabulé pour une utilization noncommerciale uniquement.il s'agit d'une version réduite ne contenant uniquement les promoteurs des chromosomes 9 de la souris (mm9). Merci de respecter les restrictions d'utilisation de MPromDb.

Le jeu de données est téléchargeable via l'espace "Shared Data", "Shared libraries", "1 Galaxy teaching folder", "2013_BP2":

4. Jeux de données issus de UCSC Table Browser: Le jeu de données comprenant les gènes RefSeq du chromosome 19 de la souris sont téléchargeable via l'ucsc: Il faut ensuite couper la seconde colonne du jeu de données MPromDB Promoters chr19 en utilisant l'outil Cut Column :

Il faut ensuite convertir les double points en tabulation, de même pour les points. Coller le jeu de données obtenu avec le jeu de données initial (MPromDB_Promoter), l'un à côté de l'autre.

A partir du jeu de données généré, récupérer les colonnes c1,c2,c3,c8,c13,c10 afin d'obtenir un jeu de données au format BED (chrom start end name score4visualisation strand) Modifier le format du jeu de donnée obtenu :

Votre jeu de données est au format BED. Vérifier bien la correspondance des colonnes "Chrom", "Start", "End", "Strand", "Identifier" et "Score". Vous pouvez modifier l'affectation des colonnes si besoin Etapes: Download the Mus musculus chromosome 19 Tags and Control files via FTP. Download the mammalian promoter file for chromosome 19 from Shared Data From UCSC, download the Refseq genes of chromosome 19, mm9 Decompress archives from the 2 first steps Cut second column from the promoter file (contain chromosome number and start/stop position). This is to convert a file in Region file (BED) Convert colons on tab Convert dots to tab Paste the obtained file with the original promoter file to gather all the information on an interval file Cut columns c1,c2,c3,c8,c13,c10 to obtain a good Bed File (chrom start end name score4visualisation strand)

III. GenOuest protocol 1 : Alignement de sequences, DNADist, arbres, BLAST et manipulation de données. 1. Des séquences à un arbre Les données se trouvent dans l'espace "Shared Data", "Shared libraries", "1 Galaxy teaching folder", "2013_GenOuest1". Importer les fichiers Sequences_COI et Danio_rerio_genes dans un nouvel historique. Formater le fichier Fasta Sequences_COI pour obtenir un fichier Fasta dans lequel chaque séquence est représentée sur une seule ligne en utilisant l'outil FASTA Width comme suit : Supprimer la dernière séquence du fichier obtenu. Comme nous avons 7 séquences et que chacune est représentée sur une seule ligne, nous pouvons utiliser l'outil générique Delines pour supprimer les 2 dernières lignes, soit 13 (identifiant de la séquence) et 14 (la séquence en ellemême).

Alignement des séquences en utilisant l'outil clustalw (bien choisir output alignment format=phylip). Générer une matrice de distance en utilisant l'outil PhylipDNAdist (choisir Kimura2P comme paramètre de distance)

Créer un arbre au format nhx en utilisant l'outil PhylipNeighbor. Il est alors possible de visualiser le résultat sous Phyloviz. N'oublier pas de sauvegarder votre arbre avant de quitter l'espace de visualisation.

Il est également possible de créer un arbre au format pdf en utilisant l'outil PhylipDrawtree sur le fichier au format nhx. 2. Le Blast et manipulation de jeux de données tabulés ou Fasta Un Blast peut être lancé en utilisant le jeu de données Danio_rerio_genes comme "query" contre le jeu de données Sequences_COI file. Les résultats du Blast peuvent être filtrés par la suite. Par exemple, il est possible de ne conserver que les séquences présentant un pourcentage d'identité supérieur à 90%. Pour ce faire, utiliser l'outil

Filter et préciser comme critère de filtre, c3<90, la colonne 3 représentant le pourcentage d'identité. Il est aussi possible de filtrer sur toute autre colonne, comme par exemple la 11, pour conserver les séquences avec certaines E value. Il est alors indiqué, au niveau du jeu de données, le résultat du filtre. Ici, 35.22% des lignes ont été conservées. Nous pouvons enfin récupérer les identifiants des séquences ayant servies de référence lors de mon Blast en utilisant l'outil Cut. La colonne 2 permettra de répondre à notre souhait. La colonne 1 aurait permis de récupérer les identifiants des séquences recherchées. Si nous souhaitons récupérer les deux colonnes, il suffit d'indiquer c1,c2 dans le paramètre Cut columns comme suit : Pour récupérer les séquences correspondantes aux Identifiants récupérés dans l'étape précédente, nous pouvons utiliser l'outil Filter fasta sequences. Nous cherchons les identifiants Ensembl présent

dans la seconde colonne du résultat de Blast, et également de l'étape précédente de découpe de colonnes, qui correspondent aux identifiants des séquences du fichier Fasta répertoriant tous les gènes du poisson zèbre. Un jeu de données au format Fasta peut être convertit en format tabulé via l'outil FASTA to Tabular. Nous pouvons par exemple le faire sur le fichier de séquence obtenu à l'étape précédente. Nous obtiendrons ainsi un tableau avec les identifiants en première colonne et les séquences correspondantes dans la seconde. Il est ensuite possible de joindre le fichier tabulé obtenu avec le fichier tabulé de résultat de Blast afin d'afficher par identifiant de séquence, la séquences correspondante et les informations de résultat de Blast. Nous utiliserons ici l'outil Join two Datasets :

IV. GenOuest protocol 2 : Détection de SNP 1. entre 2 individus et une séquence de référence. Récupérer les données de séquençage en pair end (format fastq) pour chacun des 2 individus ainsi que la séquence fasta de référence dans l'espace "Shared Data", "Shared libraries", "1 Galaxy teaching folder", "2012_GenOuest1"."Tuto SNP calling GL349685". S'assurer que le format fastq des séquences soient standardisé (format fastqsanger) en utilisant l'outil "Fastq Groomer". Ceci doit être fait sur chacun des fichiers FastQ (ici au nombre de 4).

Aligner les séquences pairées de chaque individu sur la séquence de référence en utilisant "Bowtie2". Il faut ici utiliser deux fois l'outil, une par paire de séquences (JF975 d'un côté et JF191 de l'autre), en sélectionnant à chaque fois GL349685.fasta comme génome de référence. Affecter le nom de l'individu au groupe de reads alignées en utilisant l'outil "Add or replace groups"

Utiliser l'outil "Unified Genotyper" (même séquence de référence provenant de l'historique que pour l'alignement, soit ici GL349685.fasta) pour récupérer les SNP. Comme un problème de formatage du fichier VCF a été identifié, il faut récupérer le fichier "headerprvcf", couper les 9 premières lignes du fichier vcf généré via "Unified Genotyper" et les remplacer par les 9 lignes contenues dans "headerprvcf". Pour cela, nous utilisons les outils Remove Beginning :

Et l'outil Concatenate datasets tail to head: Des filtres sont possibles en fonction de la profondeur et de la qualité via l'outil "Filter a VCF file"

2. entre 2 individus sans séquence de référence. Récupérer les données de séquençage en pair end (format fastq) pour chacun des 2 individus ainsi que la séquence fasta de référence. Nous pouvons ici réutiliser les fichiers utilisés dans l'étape précédente. S'assurer que le format fastq des séquences soient standardisé en utilisant "Fastq Groomer"

Utiliser l'outil DiscoSNP pour détecter des SNP entre les individus JF975 et JF171. 3. Visualisation. Affecter les vcf au génome de référence adéquat via la spécification de "database" au niveau du jeu de donné. Si le génome n'est pas disponible, vous pouvez vous référer aux étapes suivantes pour

créer un nouveau génome de référence à partir d'un jeu de données au format Fasta présent dans votre historique. Créer une nouvelle visualisation en utilisant le fichier fasta du génome de référence fourni Selectionner Add a Custom Build :

Se rendre en bas de la page (il faut parfois appuyer plusieurs fois sur la touche TAB si un bug d'affichage empêche l'utilisation d'ascenseurs), puis sélectionner le fichier fasta de votre historique a utiliser comme référence. Préciser les noms et clés que vous souhaitez affecter à ce génome. Vous pouvez maintenant ajouter ce génome de référence aux jeux de données qui vous intéresse, ici les VCF. Nous voyons à présent le génome de référence apparaître à la place du point d'interrogation: