Vos traitements bioinformatiques avec GALAXY. Sarah Maman Maria Bernard École Bioinformatique AVIESAN 2015



Documents pareils
Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»).

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Cyberclasse L'interface web pas à pas

Business Intelligence avec SQL Server 2012

Ce guide décrit la procédure à suivre afin de profiter pleinement du Service de Transfert de Fichiers EGIS. Il décrit

Charte d'utilisation des infrastructures de la plate-forme bioinformatique Genotoul

TecLocal 4.0. Nouveautés de la version 4.0 (notes de mise à jour)

Alfresco Guide Utilisateur

Mai Médiathèque «Les Trésors de Tolente»

Date de diffusion : Rédigé par : Version : Mars 2008 APEM 1.4. Sig-Artisanat : Guide de l'utilisateur 2 / 24

WINDOWS SERVER 2003-R2

Microsoft Application Center Test

Tutoriel Cloud IFB - Initiation -

Artica. La déduplication. Révision Du 08 Février 2011 version

Guide d utilisation de «Partages Privés»

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

GLSE301 - TP séance 7 : Travail collaboratif à distance

FileZilla. Sauvegarder son site Guppy à l aide de. Sommaire:

Maarch V1.4

Ref : Résolution problème d'accès aux supports de cours

TP PLACO. Journées Mathrice d'amiens Mars 2010

Qu'est ce que le Cloud?

EXTRANET STUDENT. Qu'est ce que Claroline?

Edutab. gestion centralisée de tablettes Android

1 Démarrage de Marionnet

Déploiement d'une application Visual Studio Lightswitch dans Windows Azure.

Silfid : Agence de création de site internet, formations et Conseils Retour sommaire

Auguria_PCM Product & Combination Manager

OBJECTIFS. Une démarche E-science

Création d'un questionnaire (sondage)

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

SAUVEGARDER SES DONNEES PERSONNELLES

Les Utilisateurs dans SharePoint

Documentation module hosting

UltraBackup NetStation 4. Guide de démarrage rapide

MEDIAplus elearning. version 6.6

Guide d installation esam

Guide de l'utilisateur de SAP BusinessObjects Web Intelligence Rich Client

Quick Start Installation de MDweb version 2.3

Documentation utilisateur, manuel utilisateur MagicSafe Linux. Vous pouvez télécharger la dernière version de ce document à l adresse suivante :

Travail collaboratif à distance

Itium XP. Guide Utilisateur

GUIDE UTILISATEUR LIBRAIRIE CENTRALISEE ET SERVEUR DE RECEPTION. Dernière Mise à Jour : Février 2013 v2.39

Google Drive, le cloud de Google

Créer un diaporama avec Open Office. Sommaire

ECLIPSE ET PDT (Php development tools)

Un serveur FTP personnel, ça ne vous a jamais dit?

Publication sur serveur distant

Reporting Services - Administration

Comparatif fonctionnel des offre Saas d'igsi Easy CRM, Pro CRM, CRM On Demand

OwnCloud. Définition 1 / 10. Date d'édition 03/09/2013 Public concerné Étudiants, Personnels Version du logiciel

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Oracle Developer Suite 10g. Guide de l installation. Vista & Seven

La gestion des boîtes aux lettres partagées

Assistance à distance sous Windows

GUIDE UTILISATEUR LIBRAIRIE CENTRALISEE ET SERVEUR DE RECEPTION

OCLOUD BACKUP GUIDE DE REFERENCE POUR ANDROID

et Groupe Eyrolles, 2006, ISBN :

Installation FollowMe Q server

Gestion des documents avec ALFRESCO

Synchroniser ses photos

Sage 100 CRM Guide de l Import Plus avec Talend Version 8. Mise à jour : 2015 version 8

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques

WEBMESTRE : CONCEPTION DE SITES ET ADMINISTRATION DE SERVEURS WEB

Utiliser CHAMILO pour le travail collaboratif

WordPress :: Migrer son site du local vers le serveur en ligne

Mise en route et support Envision 10 SQL server (Avril 2015) A l'intention de l'administrateur SQL Server et de l administrateur Envision

Archivage de courriels avec Outlook ( )

Apps Sage : les 10 étapes pour publier vos données dans le Cloud.

Climat Scolaire - Manuel utilisateur - Chapitre 2 : «Créer, Editer et suivi d un texte»

Nouveautés FDS Pour créer des équipements 2D et les publier à partir d'autocad

Projet Administration Réseaux

McAfee Security-as-a-Service

1. Installation du Module

Installation personnalisée d'oracle 10g

LA PLATE-FORME D'ALTERN C

1 Gestionnaire de Données WORD A4 F - USB / / 6020 Alco-Connect

Programme détaillé. Administrateur de Base de Données Oracle - SQLServer - MySQL. Objectifs de la formation. Les métiers

Utiliser SQL Server 2008 R2 Reporting Services comme source de donne es pour Microsoft Excel

Sauvegarder et restaurer les données PMB

TD/TP 1 Introduction au SDK d Android

Qu'est-ce que c'est??

Sophos Mobile Encryption pour Android Aide. Version du produit : 1.3

Procédure d installation :

Network Shutdown Module V3 Extension du Manuel Utilisateur pour architecture Virtualisée VMWare ESX Server 3, 3.5

OSIRIS/ Valorisation des données PORTAIL BO MANUEL UTILISATEUR

Introduction aux outils BI de SQL Server Tutoriel sur SQL Server Integration Services (SSIS)

GUGGO 4 ème rencontre

Contrat d accompagnement de projet

MEGA Web Front-End Installation Guide MEGA HOPEX V1R1 FR. Révisé le : 5 novembre 2013 Créé le : 31 octobre Auteur : Noé LAVALLEE

Internet Explorer. Microsoft. Sommaire :

Espace numérique de travail collaboratif

MetaTrader 4/5 pour Android. Guide de l utilisateur

Edition de sites Jahia 6.6

WINDOWS SHAREPOINT SERVICES 2007

Storebox User Guide. Swisscom (Suisse) SA

Transcription:

Vos traitements bioinformatiques avec GALAXY Sarah Maman Maria Bernard École Bioinformatique AVIESAN 2015

Galaxy Project Equipe Galaxy project : Le Center for Comparative Genomics and Bioinformatics - Penn State, Des départements Biology et Mathematics and Computer Science de l Université d Emory. Anton Nekrutenko Penn State Nate Coraor Penn State James Taylor Emory

Une «Galaxy» parmi tant d'autres Serveur public (https://main.g2.bx.psu.edu/ ): Gratuit Quota limité : pour se familier à l outil sur des petits jeux de donneés. Données non protégées Code gratuit et open source Une communauté nationnale et internationnale très active : Listes de diffusion (US, FR) Wiki Twitter "Galaxy tour de France" Chaque instance est : Maintenue par une équipe de bioinformaticien(s). Intègre des outils et scripts locaux.

Groupe de travail GALAXY IFB (http://www.ifb-galaxy.org) Documentation collaborative (wiki) Formations (mise en commun agenda PF) Architecture Intégration d'outils (Tool Shed)

Galaxy «la bioinformatique pour tous» Pour les biologistes il est : Inutile de savoir : Lancer une ligne de commande Programmer en perl, python, shell Lancer un script

Galaxy «la bioinformatique pour tous» Pour les biologistes il est : Inutile d attendre la fin d un traitement: Inutile de savoir : Lancer une ligne de commande Programmer en perl, python, shell Lancer un script Possible de lancer plusieurs jobs en parallèle Partir prendre un café, consulter ses mails,..fermer Internet! Puis voir les résultats le lendemain matin.

Galaxy «la bioinformatique pour tous» Pour les biologistes il est : Inutile d attendre la fin d un traitement: Inutile de savoir : Lancer une ligne de commande Programmer en perl, python, shell Lancer un script Partir prendre un café, consulter ses mails,..fermer Internet! Puis voir les résultats le lendemain matin. Inutile de s inquiéter pour son disque dur: Possible de lancer plusieurs jobs en parallèle Jobs lancés sur un cluster de calculs. Pas d archivage de fichiers sont votre PC.

Galaxy «la bioinformatique pour tous» Pour les biologistes il est : Inutile d attendre la fin d un traitement: Inutile de savoir : Lancer une ligne de commande Programmer en perl, python, shell Lancer un script Partir prendre un café, consulter ses mails,..fermer Internet! Puis voir les résultats le lendemain matin. Inutile de s inquiéter pour son disque dur: Possible de lancer plusieurs jobs en parallèle Jobs lancés sur un cluster de calculs. Pas d archivage de fichiers sont votre PC. Et ceci de manière très intuitive!

Galaxy «la bioinformatique pour tous» Pour les biologistes il est : Inutile d attendre la fin d un traitement: Inutile de savoir : Lancer une ligne de commande Programmer en perl, python, shell Lancer un script Partir prendre un café, consulter ses mails,..fermer Internet! Puis voir les résultats le lendemain matin. Inutile de s inquiéter pour son disque dur: Possible de lancer plusieurs jobs en parallèle Jobs lancés sur un cluster de calculs. Pas d archivage de fichiers sont votre PC. Et ceci de manière très intuitive! Les bioinformaticiens peuvent : Ajouter des outils / WF. Partager des outils (Tool Shed). Partager des traitements. Galaxy devient VOTRE BOITE A OUTILS

Comment fonctionne Galaxy? Galaxy est installée sur une machine virtuelle qui envoie les calculs à un cluster. Utilisateur de Galaxy Envoi de données Récupération des résultats Serveur Web Galaxy Envoi les jobs Gestionnaire de tâches Gère la file d'attente Exécute Cluster de calculs

à Galaxy Let 's go to the https://cloud.france-bioinformatique.fr/cloud/instance/

Accéder à votre machine Galaxy IFB Cloud

Première étape : la connexion à son compte personnel ifbuser

Repérez/explorez les différentes sections de l'interface : Un espace d'outil/tools à gauche Un espace historique/history à droite Un grand espace de visualisation au milieu Un menu d'administration en haut

: Historique Renommez le : TP initiation

: Historique Explorez le menu historique

: Historique Explorez le menu historique Vous pouvez : Publier votre historique Share or Publish Accéder à des historiques partagés Histories Shared With Me. le copier ou l'exporter, ou le supprimer

: Historique Explorez le menu historique Créez un nouvel historique Renommez le «How To Galaxy»

: Historique Listez l'ensemble de vos historiques Vous auriez pu accéder à cette liste via le menu historique précédent

: Tool et Dataset Comment rechercher un outil? oui Nom de l'outil connu Utilisez l'outil Search avec le nom de l'outil Combien d'outils trouvez vous pour le programme d'alignement de séquences BWA?

: Tool et Dataset Comment rechercher un outil? oui Nom de l'outil connu non Utilisez l'outil Search avec le nom de l'outil - Utilisez l'outil Search avec un mot clé Combien d'outil trouvez vous qui permettent de traiter un fichier d'alignement au format SAM?

: Tool et Dataset Comment rechercher un outil? oui Nom de l'outil connu non Utilisez l'outil Search avec le nom de l'outil - Utilisez l'outil Search avec un mot clé - Recherchez votre outil en fonction du nom des sections Quelle section vous permet de charger des données dans Galaxy?

: Tool et Dataset Comment charger des Datasets dans Galaxy? section Get Data Téléchargez le GTF du gène KDM5A de la version hg19 du génome humain via l'outil UCSC Main table browser

: Tool et Dataset Comment charger des Datasets dans Galaxy? section Get Data Téléchargez le GTF du gène KDM5A de la version hg19 du génome humain via l'outil UCSC Main table browser

: Tool et Dataset Comment charger des Datasets dans Galaxy? section Get Data Télécharger un fichier personnel via l'outil Upload File from your computer Selon les versions de Galaxy, cet outil se présente de différente manière, mais vous retrouvez globalement les mêmes fonctionalités Un fichier de son ordinateur

: Tool et Dataset Comment charger des Datasets dans Galaxy? section Get Data Télécharger un fichier personnel via l'outil Upload File from your computer Un fichier provenant d'un serveur FTP en indiquant l'url web

: Tool et Dataset Comment charger des Datasets dans Galaxy? section Get Data Télécharger un fichier personnel via l'outil Upload File from your computer Un fichier disponible via un serveur web, ou en écrivant soit même du texte

: Tool et Dataset Comment charger des Datasets dans Galaxy? section Get Data Télécharger un fichier personnel via l'outil Upload File from your computer - Dans un bloc note sur votre ordinateur, écrivez le fichier tabulé suivant: chr12 394622 498621 - Enregistrez le sous le nom : mes_positions.txt - Utilisez le 1er onglet et allez cherché votre fichier - Allez dans le 3e onglet «Paste/Fetch Data» et indiquez l'url suivante : http://genoweb.toulouse.inra.fr/~formation/ecole_bioinfo_2015/1_alignement_pret raitement_gtk_elodie_girard/roscoff_chr12.fa

: Tool et Dataset Comment charger des Datasets dans Galaxy? section Get Data Télécharger un fichier personnel via l'outil Upload File from your computer Vous pouvez spécifier de quel format de fichier il s'agit ou ajouter une méta-donnée comme le génome correspondant à vos données. Laissez tel quel et cliquez sur Start, puis Close.

: Tool et Dataset Notre historique contient maintenant 3 Datasets Qu'est ce qu'un Dataset? Explorez vos Datasets Les outils liés au dataset : Visualiser sur l'espace principal Éditer les attributs : nom, référence/database, type, outils de conversion... Supprimer

: Tool et Dataset Notre historique contient maintenant 3 Datasets Qu'est ce qu'un Dataset? Explorez vos Datasets Les outils liés au dataset : Enregistrer le fichier sur votre ordinateur Obtenir des informations comment le dataset a été généré Dessiner des graphiques représentant le contenu Relancer le même outil avec le même paramétrage

: Tool et Dataset Notre historique contient maintenant 3 Datasets Qu'est ce qu'un Dataset? Explorez vos Datasets Les outils liés au dataset : Ajouter un tag Ajouter une annotation

: Tool et Dataset Notre historique contient maintenant 3 Datasets Qu'est ce qu'un Dataset? Explorez vos Datasets De quel format est votre dataset correspondant à notre fichier : mes_position.txt? Combien y a t il de séquences dans notre fichier chr12.fasta? Éditez ce dernier dataset en indiquant la référence hg19 du génome humain.

: Tool et Dataset Listez de nouveau vos historiques A quoi correspond le code couleur de vos Dataset? Exemple provenant d'une autre instance

: Tool et Dataset Listez de nouveau vos historiques A quoi correspond le code couleur de vos Dataset? Allez sur votre Historique TP_initiation

: Tool et Dataset Listez de nouveau vos historiques A quoi correspond le code couleur de vos Dataset? Allez sur votre Historique TP_initiation Téléchargez les deux fichiers suivant : http://genoweb.toulouse.inra.fr/~formation/ecole_bioinfo_2015/0_initiation_ Galaxy/chr4.fa http://genoweb.toulouse.inra.fr/~formation/ecole_bioinfo_2015/0_initiation_ Galaxy/chr4.fastq Renommez les respectivement (pour plus de lisibilité): Chr4.fa Chr4.fastq De la même façon que pour vos historiques, vous pouvez lister l'ensemble de vos Datasets utile pour réutiliser un dataset entre différents historique sans consommer de votre quota disque

: Tool, Dataset et Historique Le menu de gauche répertorie les outils, TOOL ère n gé Un TOOL Un/des DATASET(S) Chaque brique verte,dataset, représente un fichier de données d entrée ou de sortie pour les outils. Do n form t la li st e L ensemble représente un HISTORY et correspond donc à une analyse complète e Un HISTORY

: Workflow L'enchaînement des outils va générer différents Dataset et vous amenez à votre résultat final d'analyse Vous pouvez automatiser cet enchaînement via l'utilisation de workflow 1) Via le menu historique

: Workflow L'enchaînement des outils va générer différents Dataset et vous amenez à votre résultat final d'analyse Vous pouvez automatiser cet enchaînement via l'utilisation de workflow 2) Via l'onglet Workflow :

: Shared Data Selon les instances, vous pouvez accéder à des données publiques via l'onglet Shared Data

Des questions?

La bioinfo sous Galaxy Les outils sont nombreux et constituent une bonne alternative à la ligne de commande. Attention!! La liste d outils dépend de l instance sur laquelle vous travaillez Les traitements sont automatiquement lancés sur un cluster (en général) Vous avez très souvent une section non bioinfo de manipulation de fichiers puis des sections bioinfo en fonction de thématiques d analyse de données. Rappel : pour trouver un outil n hésitez pas à utiliser la fonction «Search»

La bioinfo sous Galaxy Testons un outil! Revenez sur l'historique «How to Galaxy» Recherchez l'outil «Extract Genomic DNA» Explorez les différents menus déroulant. Que veut dire «Source for Genomic Data» «Locally cached»?

La bioinfo sous Galaxy Testons un outil! Revenez sur l'historique «How to Galaxy» Recherchez l'outil «Extract Genomic DNA» Explorez les différents menus déroulant. Que veut dire «Source for Genomic Data» «Locally cached»? Vous remarquerez que tous vos dataset ne sont pas présents dans les menus déroulant «Locally cached» signifie que la source génomique = «database» est «codée» dans votre dataset. Lancez l'outil! Qu'est ce que cela signifie? Pourquoi?

La bioinfo sous Galaxy Testons un outil! Nous n'avons pas associé de database à notre dataset mes_positions.txt

La bioinfo sous Galaxy Testons un outil! Solution, 2 possibilités : 1) Editez le dataset mes_positions.txt

La bioinfo sous Galaxy Testons un outil! Solution, 2 possibilités : 1) Editez le dataset mes_positions.txt Relancez l'outil Soit en recherchant l'outil Ou En utilisant l'outil «Run this job again»

La bioinfo sous Galaxy Testons un outil! Solution, 2 possibilités : 1) Editez le dataset mes_positions.txt 2) Indiquez votre génome de référence lors du lancement de l'outil

Les

pratiques Renommer ses datasets Les outils construisent souvent les noms des dataset de sortie en accumulant des informations pas rapport au dataset d'entrée Bonne N'oubliez pas l'outil d'édition

pratiques Renommer ses datasets Lorsque votre calcul n'a pas fonctionné, votre brique est rouge Penser à l'outil info Vous y trouverez des informations sur la façon dont a été lancé votre «job» et des fichiers de log parfois très informatifs Bonne Log standard Log d'erreur

pratiques Renommer ses datasets Lorsque votre calcul n'a pas fonctionné, votre brique est rouge Bonne Penser à l'outil info Partager son historique avec l'équipe support de l'instance Galaxy Pour donner accès à votre historique et que l'on puisse vous aider à résoudre votre problème

pratiques Renommer ses datasets Lorsque votre calcul n'a pas fonctionné, votre brique est rouge Gérer votre quota d'espace disque Bonne Penser à l'outil info Partager son historique avec l'équipe support Exporter ses Historiques («history option») Télécharger ses Datasets

pratiques Renommer ses datasets Lorsque votre calcul n'a pas fonctionné, votre brique est rouge Gérer votre quota d'espace disque Bonne Penser à l'outil info Partager son historique avec le support Exporter ses Historiques («history option») Télécharger ses Datasets Supprimer ses Historiques/Datasets

pratiques Supprimer ses Historiques/Datasets Votre DATASET est supprimé de façon non permanente Supprimez le. Bonne Votre HISTORIQUE est supprimé de façon non permanente Supprimez votre historique How_to_Galaxy

pratiques Supprimer ses Historiques/Datasets Comment récupérer un historique supprimé Listez tous vos historiques Bonne Cliquez sur «Advanced Search»

pratiques Supprimer ses Historiques/Datasets Comment récupérer un dataset supprimé Bonne

pratiques Supprimer vos Historiques/Datasets Comment supprimez un historique et ses datasets de façon permanente Listez tous vos historiques Bonne Supprimez de façon permanente votre historique How to Galaxy et ouvrez l'historique TP initiation pour la suite du cour

pratiques Bonne

Let 's go the S Galaxy IFB cloud (France génomique) https://cloud.france-bioinformatique.fr/cloud Galaxy Ebio (Université Paris Sud) http://galaxy.igmors.u-psud.fr Galaxy ABIMS (Roscoff) : http://galaxy.sb-roscoff.fr Galaxy Biogenouest (Rennes) : http://galaxy.genouest.org Galaxy Sigenae/Genotoul (INRA Toulouse) : http://galaxy-workbench.toulouse.inra.fr Galaxy Nebula (Institut Curie) http://nebula.curie.fr Galaxy URGI (INRA Versailles) https://urgi.versailles.inra.fr/galaxy2