Vos traitements bioinformatiques avec GALAXY Sarah Maman Maria Bernard École Bioinformatique AVIESAN 2015
Galaxy Project Equipe Galaxy project : Le Center for Comparative Genomics and Bioinformatics - Penn State, Des départements Biology et Mathematics and Computer Science de l Université d Emory. Anton Nekrutenko Penn State Nate Coraor Penn State James Taylor Emory
Une «Galaxy» parmi tant d'autres Serveur public (https://main.g2.bx.psu.edu/ ): Gratuit Quota limité : pour se familier à l outil sur des petits jeux de donneés. Données non protégées Code gratuit et open source Une communauté nationnale et internationnale très active : Listes de diffusion (US, FR) Wiki Twitter "Galaxy tour de France" Chaque instance est : Maintenue par une équipe de bioinformaticien(s). Intègre des outils et scripts locaux.
Groupe de travail GALAXY IFB (http://www.ifb-galaxy.org) Documentation collaborative (wiki) Formations (mise en commun agenda PF) Architecture Intégration d'outils (Tool Shed)
Galaxy «la bioinformatique pour tous» Pour les biologistes il est : Inutile de savoir : Lancer une ligne de commande Programmer en perl, python, shell Lancer un script
Galaxy «la bioinformatique pour tous» Pour les biologistes il est : Inutile d attendre la fin d un traitement: Inutile de savoir : Lancer une ligne de commande Programmer en perl, python, shell Lancer un script Possible de lancer plusieurs jobs en parallèle Partir prendre un café, consulter ses mails,..fermer Internet! Puis voir les résultats le lendemain matin.
Galaxy «la bioinformatique pour tous» Pour les biologistes il est : Inutile d attendre la fin d un traitement: Inutile de savoir : Lancer une ligne de commande Programmer en perl, python, shell Lancer un script Partir prendre un café, consulter ses mails,..fermer Internet! Puis voir les résultats le lendemain matin. Inutile de s inquiéter pour son disque dur: Possible de lancer plusieurs jobs en parallèle Jobs lancés sur un cluster de calculs. Pas d archivage de fichiers sont votre PC.
Galaxy «la bioinformatique pour tous» Pour les biologistes il est : Inutile d attendre la fin d un traitement: Inutile de savoir : Lancer une ligne de commande Programmer en perl, python, shell Lancer un script Partir prendre un café, consulter ses mails,..fermer Internet! Puis voir les résultats le lendemain matin. Inutile de s inquiéter pour son disque dur: Possible de lancer plusieurs jobs en parallèle Jobs lancés sur un cluster de calculs. Pas d archivage de fichiers sont votre PC. Et ceci de manière très intuitive!
Galaxy «la bioinformatique pour tous» Pour les biologistes il est : Inutile d attendre la fin d un traitement: Inutile de savoir : Lancer une ligne de commande Programmer en perl, python, shell Lancer un script Partir prendre un café, consulter ses mails,..fermer Internet! Puis voir les résultats le lendemain matin. Inutile de s inquiéter pour son disque dur: Possible de lancer plusieurs jobs en parallèle Jobs lancés sur un cluster de calculs. Pas d archivage de fichiers sont votre PC. Et ceci de manière très intuitive! Les bioinformaticiens peuvent : Ajouter des outils / WF. Partager des outils (Tool Shed). Partager des traitements. Galaxy devient VOTRE BOITE A OUTILS
Comment fonctionne Galaxy? Galaxy est installée sur une machine virtuelle qui envoie les calculs à un cluster. Utilisateur de Galaxy Envoi de données Récupération des résultats Serveur Web Galaxy Envoi les jobs Gestionnaire de tâches Gère la file d'attente Exécute Cluster de calculs
à Galaxy Let 's go to the https://cloud.france-bioinformatique.fr/cloud/instance/
Accéder à votre machine Galaxy IFB Cloud
Première étape : la connexion à son compte personnel ifbuser
Repérez/explorez les différentes sections de l'interface : Un espace d'outil/tools à gauche Un espace historique/history à droite Un grand espace de visualisation au milieu Un menu d'administration en haut
: Historique Renommez le : TP initiation
: Historique Explorez le menu historique
: Historique Explorez le menu historique Vous pouvez : Publier votre historique Share or Publish Accéder à des historiques partagés Histories Shared With Me. le copier ou l'exporter, ou le supprimer
: Historique Explorez le menu historique Créez un nouvel historique Renommez le «How To Galaxy»
: Historique Listez l'ensemble de vos historiques Vous auriez pu accéder à cette liste via le menu historique précédent
: Tool et Dataset Comment rechercher un outil? oui Nom de l'outil connu Utilisez l'outil Search avec le nom de l'outil Combien d'outils trouvez vous pour le programme d'alignement de séquences BWA?
: Tool et Dataset Comment rechercher un outil? oui Nom de l'outil connu non Utilisez l'outil Search avec le nom de l'outil - Utilisez l'outil Search avec un mot clé Combien d'outil trouvez vous qui permettent de traiter un fichier d'alignement au format SAM?
: Tool et Dataset Comment rechercher un outil? oui Nom de l'outil connu non Utilisez l'outil Search avec le nom de l'outil - Utilisez l'outil Search avec un mot clé - Recherchez votre outil en fonction du nom des sections Quelle section vous permet de charger des données dans Galaxy?
: Tool et Dataset Comment charger des Datasets dans Galaxy? section Get Data Téléchargez le GTF du gène KDM5A de la version hg19 du génome humain via l'outil UCSC Main table browser
: Tool et Dataset Comment charger des Datasets dans Galaxy? section Get Data Téléchargez le GTF du gène KDM5A de la version hg19 du génome humain via l'outil UCSC Main table browser
: Tool et Dataset Comment charger des Datasets dans Galaxy? section Get Data Télécharger un fichier personnel via l'outil Upload File from your computer Selon les versions de Galaxy, cet outil se présente de différente manière, mais vous retrouvez globalement les mêmes fonctionalités Un fichier de son ordinateur
: Tool et Dataset Comment charger des Datasets dans Galaxy? section Get Data Télécharger un fichier personnel via l'outil Upload File from your computer Un fichier provenant d'un serveur FTP en indiquant l'url web
: Tool et Dataset Comment charger des Datasets dans Galaxy? section Get Data Télécharger un fichier personnel via l'outil Upload File from your computer Un fichier disponible via un serveur web, ou en écrivant soit même du texte
: Tool et Dataset Comment charger des Datasets dans Galaxy? section Get Data Télécharger un fichier personnel via l'outil Upload File from your computer - Dans un bloc note sur votre ordinateur, écrivez le fichier tabulé suivant: chr12 394622 498621 - Enregistrez le sous le nom : mes_positions.txt - Utilisez le 1er onglet et allez cherché votre fichier - Allez dans le 3e onglet «Paste/Fetch Data» et indiquez l'url suivante : http://genoweb.toulouse.inra.fr/~formation/ecole_bioinfo_2015/1_alignement_pret raitement_gtk_elodie_girard/roscoff_chr12.fa
: Tool et Dataset Comment charger des Datasets dans Galaxy? section Get Data Télécharger un fichier personnel via l'outil Upload File from your computer Vous pouvez spécifier de quel format de fichier il s'agit ou ajouter une méta-donnée comme le génome correspondant à vos données. Laissez tel quel et cliquez sur Start, puis Close.
: Tool et Dataset Notre historique contient maintenant 3 Datasets Qu'est ce qu'un Dataset? Explorez vos Datasets Les outils liés au dataset : Visualiser sur l'espace principal Éditer les attributs : nom, référence/database, type, outils de conversion... Supprimer
: Tool et Dataset Notre historique contient maintenant 3 Datasets Qu'est ce qu'un Dataset? Explorez vos Datasets Les outils liés au dataset : Enregistrer le fichier sur votre ordinateur Obtenir des informations comment le dataset a été généré Dessiner des graphiques représentant le contenu Relancer le même outil avec le même paramétrage
: Tool et Dataset Notre historique contient maintenant 3 Datasets Qu'est ce qu'un Dataset? Explorez vos Datasets Les outils liés au dataset : Ajouter un tag Ajouter une annotation
: Tool et Dataset Notre historique contient maintenant 3 Datasets Qu'est ce qu'un Dataset? Explorez vos Datasets De quel format est votre dataset correspondant à notre fichier : mes_position.txt? Combien y a t il de séquences dans notre fichier chr12.fasta? Éditez ce dernier dataset en indiquant la référence hg19 du génome humain.
: Tool et Dataset Listez de nouveau vos historiques A quoi correspond le code couleur de vos Dataset? Exemple provenant d'une autre instance
: Tool et Dataset Listez de nouveau vos historiques A quoi correspond le code couleur de vos Dataset? Allez sur votre Historique TP_initiation
: Tool et Dataset Listez de nouveau vos historiques A quoi correspond le code couleur de vos Dataset? Allez sur votre Historique TP_initiation Téléchargez les deux fichiers suivant : http://genoweb.toulouse.inra.fr/~formation/ecole_bioinfo_2015/0_initiation_ Galaxy/chr4.fa http://genoweb.toulouse.inra.fr/~formation/ecole_bioinfo_2015/0_initiation_ Galaxy/chr4.fastq Renommez les respectivement (pour plus de lisibilité): Chr4.fa Chr4.fastq De la même façon que pour vos historiques, vous pouvez lister l'ensemble de vos Datasets utile pour réutiliser un dataset entre différents historique sans consommer de votre quota disque
: Tool, Dataset et Historique Le menu de gauche répertorie les outils, TOOL ère n gé Un TOOL Un/des DATASET(S) Chaque brique verte,dataset, représente un fichier de données d entrée ou de sortie pour les outils. Do n form t la li st e L ensemble représente un HISTORY et correspond donc à une analyse complète e Un HISTORY
: Workflow L'enchaînement des outils va générer différents Dataset et vous amenez à votre résultat final d'analyse Vous pouvez automatiser cet enchaînement via l'utilisation de workflow 1) Via le menu historique
: Workflow L'enchaînement des outils va générer différents Dataset et vous amenez à votre résultat final d'analyse Vous pouvez automatiser cet enchaînement via l'utilisation de workflow 2) Via l'onglet Workflow :
: Shared Data Selon les instances, vous pouvez accéder à des données publiques via l'onglet Shared Data
Des questions?
La bioinfo sous Galaxy Les outils sont nombreux et constituent une bonne alternative à la ligne de commande. Attention!! La liste d outils dépend de l instance sur laquelle vous travaillez Les traitements sont automatiquement lancés sur un cluster (en général) Vous avez très souvent une section non bioinfo de manipulation de fichiers puis des sections bioinfo en fonction de thématiques d analyse de données. Rappel : pour trouver un outil n hésitez pas à utiliser la fonction «Search»
La bioinfo sous Galaxy Testons un outil! Revenez sur l'historique «How to Galaxy» Recherchez l'outil «Extract Genomic DNA» Explorez les différents menus déroulant. Que veut dire «Source for Genomic Data» «Locally cached»?
La bioinfo sous Galaxy Testons un outil! Revenez sur l'historique «How to Galaxy» Recherchez l'outil «Extract Genomic DNA» Explorez les différents menus déroulant. Que veut dire «Source for Genomic Data» «Locally cached»? Vous remarquerez que tous vos dataset ne sont pas présents dans les menus déroulant «Locally cached» signifie que la source génomique = «database» est «codée» dans votre dataset. Lancez l'outil! Qu'est ce que cela signifie? Pourquoi?
La bioinfo sous Galaxy Testons un outil! Nous n'avons pas associé de database à notre dataset mes_positions.txt
La bioinfo sous Galaxy Testons un outil! Solution, 2 possibilités : 1) Editez le dataset mes_positions.txt
La bioinfo sous Galaxy Testons un outil! Solution, 2 possibilités : 1) Editez le dataset mes_positions.txt Relancez l'outil Soit en recherchant l'outil Ou En utilisant l'outil «Run this job again»
La bioinfo sous Galaxy Testons un outil! Solution, 2 possibilités : 1) Editez le dataset mes_positions.txt 2) Indiquez votre génome de référence lors du lancement de l'outil
Les
pratiques Renommer ses datasets Les outils construisent souvent les noms des dataset de sortie en accumulant des informations pas rapport au dataset d'entrée Bonne N'oubliez pas l'outil d'édition
pratiques Renommer ses datasets Lorsque votre calcul n'a pas fonctionné, votre brique est rouge Penser à l'outil info Vous y trouverez des informations sur la façon dont a été lancé votre «job» et des fichiers de log parfois très informatifs Bonne Log standard Log d'erreur
pratiques Renommer ses datasets Lorsque votre calcul n'a pas fonctionné, votre brique est rouge Bonne Penser à l'outil info Partager son historique avec l'équipe support de l'instance Galaxy Pour donner accès à votre historique et que l'on puisse vous aider à résoudre votre problème
pratiques Renommer ses datasets Lorsque votre calcul n'a pas fonctionné, votre brique est rouge Gérer votre quota d'espace disque Bonne Penser à l'outil info Partager son historique avec l'équipe support Exporter ses Historiques («history option») Télécharger ses Datasets
pratiques Renommer ses datasets Lorsque votre calcul n'a pas fonctionné, votre brique est rouge Gérer votre quota d'espace disque Bonne Penser à l'outil info Partager son historique avec le support Exporter ses Historiques («history option») Télécharger ses Datasets Supprimer ses Historiques/Datasets
pratiques Supprimer ses Historiques/Datasets Votre DATASET est supprimé de façon non permanente Supprimez le. Bonne Votre HISTORIQUE est supprimé de façon non permanente Supprimez votre historique How_to_Galaxy
pratiques Supprimer ses Historiques/Datasets Comment récupérer un historique supprimé Listez tous vos historiques Bonne Cliquez sur «Advanced Search»
pratiques Supprimer ses Historiques/Datasets Comment récupérer un dataset supprimé Bonne
pratiques Supprimer vos Historiques/Datasets Comment supprimez un historique et ses datasets de façon permanente Listez tous vos historiques Bonne Supprimez de façon permanente votre historique How to Galaxy et ouvrez l'historique TP initiation pour la suite du cour
pratiques Bonne
Let 's go the S Galaxy IFB cloud (France génomique) https://cloud.france-bioinformatique.fr/cloud Galaxy Ebio (Université Paris Sud) http://galaxy.igmors.u-psud.fr Galaxy ABIMS (Roscoff) : http://galaxy.sb-roscoff.fr Galaxy Biogenouest (Rennes) : http://galaxy.genouest.org Galaxy Sigenae/Genotoul (INRA Toulouse) : http://galaxy-workbench.toulouse.inra.fr Galaxy Nebula (Institut Curie) http://nebula.curie.fr Galaxy URGI (INRA Versailles) https://urgi.versailles.inra.fr/galaxy2