UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Documents pareils
e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

OBJECTIFS. Une démarche E-science

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Towards a Life Sciences Virtual Research Environment

Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»).

Jean-François Boulicaut & Mohand-Saïd Hacid

Visual Paradigm Contraintes inter-associations

Qu'est-ce que c'est??

Galaxy4Bioinformatics Développement et intégration d application sous Galaxy

Iyad Alshabani SysCom - CReSTIC Université de Reims 17/02/2011 1

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

SysFera. Benjamin Depardon

PageScope Suite L accélérateur de workflow * L essentiel de l image

Eco-système calcul et données

Guide d utilisation. Version 1.1

PHP et le Cloud. All rights reserved. Zend Technologies, Inc.

Gestion de la relation Client (CRM)

LES OUTILS DU TRAVAIL COLLABORATIF

et Groupe Eyrolles, 2006, ISBN :

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Adobe Technical Communication Suite 5

Programmation Web. Madalina Croitoru IUT Montpellier

REQUEA. v PD 20 mars Mouvements d arrivée / départ de personnels Description produit

SharePoint Foundation 2013 Construire un intranet collaboratif en PME (édition enrichie de vidéos)

B&C PRIVATE ROOM GUIDE D UTILISATION. B&C COLLECTION // BE INSPIRED //

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Logiciel photothèque professionnel GUIDE D UTILISATION - 1 -

ARCHEOVISION. Centre de Ressources Numériques 3D. UMR 5607 du CNRS. R. Vergnieux IR-CNRS

OpenText Content Server v10 Cours (ex 101) L essentiel de la gestion des connaissances

Fiche technique Les fonctionnalités selon les versions de Sage CRM. Introduction

Nouveau Web Client marquant, Cumulus Video Cloud, optimisations de la base de données, et plus..

Nouveautés dans Excel 2013

Microsoft Office SharePoint Server Guide d évaluation

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Panorama des solutions analytiques existantes

Gérez et diffusez vos contenus médias

2014/2015. Rapport 4 REALISE PAR : ISMAIL NAIT ABDELLAH OUALI SOUFIANE HOURRI MOHAMED OUSSAFI ENCADRE PAR : MME L.LAMRINI ANOUAR OUFQIR SMARTSIR

ArcGIS 10 Christophe Tourret Gaëtan Lavenu

ContactForm et ContactFormLight - Gestionnaires de formulaire pour Prestashop Edité par ARETMIC S.A.

Portail collaboratif Intranet documentaire Dématérialisation de processus

Environmental Research and Innovation ( ERIN )

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

Big Data et Graphes : Quelques pistes de recherche

Les nouveautés de FME 2014

«Clustering» et «Load balancing» avec Zope et ZEO

KIELA CONSULTING. Microsoft Office Open Office Windows - Internet. Formation sur mesure

Algoba Systems valoriser et partager leur patrimoine numérique Orphea Studio

Comparatif fonctionnel des offre Saas d'igsi Easy CRM, Pro CRM, CRM On Demand

Assemblée générale Aristote

Journée SITG, Genève 15 octobre Nicolas Lachance-Bernard M.ATDR Doctorant, Laboratoire de systèmes d information géographique

WEB15 IBM Software for Business Process Management. un offre complète et modulaire. Alain DARMON consultant avant-vente BPM

EMME : un environnement de gestion des métadonnées expérimentales

TRAVAUX DE RECHERCHE DANS LE

I. Descriptif de l offre. L offre Sage 100 Entreprise Edition Entreprise

ELOECM Conference2015

Plateformes vidéo d entreprise. Choisir sa plateforme vidéo d entreprise

Présentation Alfresco

Gènes Diffusion - EPIC 2010

INDUSTRIALISATION ET RATIONALISATION

Pour une entreprise plus performante

Complaints Manager 4/06/2015 Page 1 Arpaweb 2015

ArcGIS. for Server. Comprendre notre monde

Archivage des pièces comptables

EndNote X7.

Manuel d utilisation du site web de l ONRN

BIRT (Business Intelligence and Reporting Tools)

Exécution de processus

Une méthode d apprentissage pour la composition de services web

Tutoriel Cloud IFB - Initiation -

LES NOUVEAUTES DE COST AND PROFITABILITY MANAGEMENT 8.1

Publier un Carnet Blanc

PRÉSENTÉ PAR : NOVEMBRE 2007

Contrat d accompagnement de projet

Thème : Gestion commerciale

UE 8 Systèmes d information de gestion Le programme

Découpage fonctionnel

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Semestre 2 Spécialité «Analyse in silico des complexes macromolécules biologiques-médicaments»

Google Drive, le cloud de Google

Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012.

La dernière base de données de Teradata franchit le cap du big data grâce à sa technologie avancée

Titre : La BI vue par l intégrateur Orange

Démonstration Google Apps. Christophe Thuillier Avril 2010 Arrowsoft

AGILITE DIGITAL RESPONSIVE DESIGN PERSONNALISATION OPTIMISATION DES PROCESSUS INDICATEURS DE ROI EFFICIENCE TRANSFORMATION HR ENGINE DATA

Sybase PowerAMC 16. Guide des nouvelles fonctionnalités générales. DOCUMENTATION

Présentation d Epicard

Contact : Jennifer Hrycyszyn Greenough Communications jhrycyszyn@greenoughcom.com

CRM pour le Service clients et l Assistance technique

26 Centre de Sécurité et de

Messagerie & Groupeware. augmentez l expertise de votre capital humain

Tests de SlipStream sur les plateformes et : vers la. Vers la fédération du Cloud computing

Big Data et Graphes : Quelques pistes de recherche

Bases de données documentaires et distribuées Cours NFE04

Formation. Module WEB 4.1. Support de cours

SOUMETTRE DES OFFRES VIA INTERNET E-PROCUREMENT POUR LES ENTREPRISES

Espace numérique de travail collaboratif

Transcription:

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY Yvan Le Bras yvan.le_bras@irisa.fr Cyril Monjeaud, Mathieu Bahin, Claudia Hériveau, Olivier Quenez, Olivier Sallou, Aurélien Roult, Olivier Collin Plateforme Bio-informatique GenOuest CNRS UMR 6074 IRISA-INRIA, Campus de Beaulieu, 35042 Rennes Cedex

INTRODUCTION Concepts, principes, principaux outils

Life Sciences Research evolution Data heterogeneity Data quantity Data size Technological Evolutions Uses Evolution http://en.genomics.cn/navigation/show_navigation.ac tion?navigation.id=143 Life sciences data = digital High Performance Computing

Evolution de la recherche Spectromètre de masse Séquenceur IRM Microscopes électronique Capteurs Caméra sous marine Puce à ADN Sondeurs GPS Données digitales Utilisateurs Analyseurs

GALAXY Concepts, Principe, Présentation

Concepts Portail web d analyse de données initialement orienté NGS Interface «user friendly» pour utiliser des outils bioinformatiques pas toujours «user friendly» Utilisation de formulaires xml pour recréer les lignes de commandes Intégration d outils en différents langage (Python, Perl, Bash, R, Ruby, ) Utilisation «explicite» pour un non informaticien Faciliter la réanalyse Optimiser les ressources de traitements (calcul, stockage et réseaux Outil équivalent : Mobyle (ex : http://mobyle.genouest.org/)

Concepts Faciliter l intégration d outils Pas de développement «graphique» Création d un descripteur Liaison avec le logiciel ou le script Supporte de nombreux langages dont Bash, Python, Perl, R, Faciliter l analyse par des non-bio-informaticiens Pas besoin de connaitre des langages de programmation Enchaînements d outils différents (provenance, type de langage, ) dans une même interface Gain de temps -> à utiliser pour mieux connaître le fonctionnement des outils Faciliter le partage jeux de données, historiques, visualisations, workflows, pages, Optimisation des ressources informatiques

Concepts Orientation principalement NGS mais flexible! Protéomique, Métabolomique, Génétique quantitative, Bio-imagerie, SHS, La fonctionnalité de workflow : La cerise sur le gâteau! Galaxy = Environnement complet Analyse, Visualisation, Workflows, Partage, Vision simplifiée mais efficace Prise en main intuitive Rapidité et simplicité Outil essentiel dans le cadre du 4 ième paradigme Accessibilité Reproductibilité Transparence Optimisation

Principe 1 Ressources de stockage -cluster -poste de travail -cloud 6 4 Ressources de calcul -cluster -poste de travail -cloud 5 2 3 1-Récupération de la donnée 2-Recherche et utilisation d un outil 3-besoin de données externes? 4-envoi de l analyse sur calculateur 5-récupération des résultats 6-Enregistrement des données générées Logiciels bioinformatiques -Blast -Bowtie -Velvet Banques de données biologiques -Génomes -Protéines -structures

Présentation Panneau d outils Barre de menu Analyse / workflow / Shared data / visualisation Historique Espace d affichage des informations Formulaire d un Outil, donnée, historiques sauvegardés,

Présentation : Mode analyse Get Data Upload File

Présentation : Mode analyse 1er jeu de données de l historique

Présentation : Mode analyse 1er jeu de données de l historique

Présentation : Mode analyse Contenu du fichier Prévisualisation

Présentation : Mode analyse Formulaire de l outil Paramètres de l outil Outil Cut columns from a table Jeu de données d entrée

Présentation : Mode analyse Exécution de l outil Nouveau jeu de données en création

Présentation : Mode analyse Remplissage de l historique Visualisation du nouveau jeu de données en création

LA VISUALISATION

Présentation : Mode visualisation Trackster : orienté NGS et génomique Visualisation d un jeu de donnée par piste, ici 8, en fonction des positions génomiques

Présentation : Mode visualisation Phyloviz : Arbres phylogénétique Visualisation d un jeu de donnée par visualisation

LES WORKFLOWS Concepts, principes, principaux outils

Concepts Google : Requête «workflow + bio-informatique» Galaxy Biorigami Wokflow ou automatisation de processus Pérennisation des processus analytiques Sortir de la logique «projet» Création de processus d analyses génériques Outil permettant d exécuter un ensemble de processus de façon automatique Pipelines très présents en bio-info même si peu utilisés! Permet aux chercheurs en Biologie d analyser leurs données de façon relativement transparente et quasiment sans l aide d informaticiens

Principes Génériques Automatisation des processus d analyse (outil/composant) en les reliant dans un pipeline Lancer des analyses sur des architectures matérielles complexes Cluster Grilles de calculs Cloud Formalisation du processus d analyse Enchaînement de boîtes

Exemples d outils Faciles à prendre en main mais moins flexibles Galaxy Mobyle Taverna Knime BioMOBY Difficiles à prendre en main mais plus flexibles Ergatis Pegasys WildFire Kepler

Principes extrait de «Accelerating the scientific exploration process with scientific workflows«ilkay Altintas et al 2006 J. Phys.: Conf. Ser. 46 468 doi:10.1088/1742-6596/46/1/065

Workflow pour la Biologie Biologie -Trouver des biomarqueurs -Comprendre la structure génétique de populations -Modéliser le comportement d un système Bio-informatique -Créer un outil de comparaison de séquences -Développer de nouvelles méthodologies -Concevoir un portail web dédié à l analyse Informatique -Proposer des ressources techniques fiables et adaptées

WORKLOW IN GALAXY Fonctionnement

Galaxy Workflows et workflows Coût de développement variable Création en 10 minute. Un workflow = 1 outil! Projet de collaboration sur x années Portée variable nombre d utilisateurs nombre de communautés utilisatrices

Des données au workflow : L historique Notion d historique Notion de workflow Provenance des données Suivi des traitements Conversion vers un workflow

Créer un workflow

GALAXY BY GENOUEST Avantages, limites et verrous identifiés

Avantages génériques Gestion des ressources Mécanisme d intégration

Avantages génériques Gestion des métadonnées Exploitation au niveau des composants Type de données d entrée et sortie Annotation de l outil

Avantages génériques Gestion de l accessibilité Reproductibilité

Avantages génériques Gestion de l accessibilité Partage, échange, publication

Avantages génériques Gestion de l accessibilité Partage, échange, publication

Avantages génériques Gestion d exécution Dans Galaxy

Avantages génériques Gestion d exécution Dans Galaxy Gestion des jobs sur un cluster

Avantages génériques Gestion d exécution Dans Galaxy Gestion des jobs sur un cluster À distance : API Cloud

Avantages génériques Gestion d exécution Dans Galaxy Gestion des jobs sur un cluster À distance : API

Avantages : Worflows Gestion de l édition Visualisation Mécanisme d intégration

Avantages : Worflows Gestion des composants Liens entre composants Ajout, modification, suppression facilité Ajout/suppression de composants

Avantages : Worflows Gestion des actions Modification des actions d un composant Renommer la sortie Changer le format de donnée Assigner des colonnes Notification par email Sorties d outils = sorties de workflow? Si oui, le préciser Si non, les sorties seront cachées

Avantages Administration

Limites et verrous Quelques difficultés Version des outils

Limites et verrous Quelques difficultés Version des outils

Limites et verrous Quelques difficultés Version des outils Simplifié donc Difficulté à gérer les entrées et sorties multiples Modifications lors du lancement possibles mais limitées

Limites et verrous Quelques difficultés La parallélisation Pistes : Utilisation de l API et du cloud

Solutions proposées Local, en ligne ou via le cloud Interface utilisateur uniquement via un serveur web Installation locale en moins de 10 minutes

Solutions proposées Local, en ligne ou via le cloud Interface utilisateur uniquement via un serveur web Installation locale en moins de 10 minutes Mais nécessite De s occuper de l administration complète la présence des outils (liens vides souvent) Perte des avantages du système Notre vision Pas ou peu fait pour une utilisation locale Privilégier le cloud

Références Galaxy Page d accueil wiki : http://wiki.galaxyproject.org/frontpage Vidéos : http://wiki.galaxyproject.org/learn Workflows publics : https://usegalaxy.org/workflow/list_published J. Goecks, A. Nekrutenko, J. Taylor, and The Galaxy Team, Galaxy: a comprehensive approach for supporting accessible, reproducible, and transparent computational research in the life sciences.genome Biol, 25;11(8):R86, 2010. Biorigami Galaxy : un workflow pour l analyse bioinformatique 12/2011 http://www.biorigami.com/?p=1480 Workflows : http://www.biorigami.com/?s=workflows&submit.x=-1117&submit.y=-218 MyExperiment Find, use and share scientific workflows : http://www.myexperiment.org/ Solutions logicielles KNIME : http://www.knime.org/ BioKepler : http://www.biokepler.org/ Taverna : http://www.taverna.org.uk/ Solutions en ligne de commande Makeflow: http://www3.nd.edu/~ccl/software/makeflow/..