Automatisation du pipeline d annotation de e la plateforme MicroScope pour un



Documents pareils
Le moteur de workflow JBPM

Présentation Alfresco

1-Introduction 2. 2-Installation de JBPM 3. 2-JBPM en action.7

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Cours en ligne Développement Java pour le web

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Iyad Alshabani SysCom - CReSTIC Université de Reims 17/02/2011 1

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

REQUEA. v PD 20 mars Mouvements d arrivée / départ de personnels Description produit

Open Source Job Scheduler. Installation(s)

SOA Open Source Intégration des services et business process dans une architecture SOA Open Source. Bruno Georges JBoss, a Division of Red Hat

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Alfstore workflow framework Spécification technique

LES NOUVEAUTES DE COST AND PROFITABILITY MANAGEMENT 8.1

Les journées SQL Server 2013

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Les processus métiers : concepts, modèles et systèmes

OpenPaaS Le réseau social d'entreprise

Les journées SQL Server 2013

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Mineure Architectures Orientées Services SOA Exécution de processus. Mineure SOA. Exécution de processus

MABioVis. Bio-informatique et la

Types d applications pour la persistance. Outils de développement. Base de données préexistante? 3 modèles. Variantes avec passerelles

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

LES SOLUTIONS OPEN SOURCE RED HAT

Cours Linux. Cours en ligne Administrateur Systèmes Linux. Académie Libre

Présentation du module Base de données spatio-temporelles

Retour d'expérience migration Oracle vers PostgreSQL. Vincent Moreau Adeo Services

Fouillez facilement dans votre système Big Data. Olivier TAVARD

DEMARREZ RAPIDEMENT VOTRE EVALUATION

Exécution de processus

Exécution de processus

Cursus Sage ERP X3 Outils & Développement. Le parcours pédagogique Sage ERP X3 Outils et Développement

Evaluation des performances de programmes parallèles haut niveau à base de squelettes

Bases de données et interfaces Génie logiciel

Suite Jedox La Business-Driven Intelligence avec Jedox

Catalogue Formation «Vanilla»

2011 Hakim Benameurlaine 1

Février Novanet-IS. Suite progicielle WEB pour l Assurance. Description fonctionnelle

L art d ordonnancer. avec JobScheduler. François BAYART

BIRT (Business Intelligence and Reporting Tools)

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Business Intelligence avec Excel, Power BI et Office 365

Programmation parallèle et distribuée

Introduction à ElasticSearch

TP Contraintes - Triggers

Programmation parallèle et distribuée

Formation Webase 5. Formation Webase 5. Ses secrets, de l architecture MVC à l application Web. Adrien Grand <jpountz@via.ecp.fr> Centrale Réseaux

Analyse comparative entre différents outils de BI (Business Intelligence) :

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

BPEL Orchestration de Web Services

Introduction MOSS 2007

NOVA BPM. «Première solution BPM intégr. Pierre Vignéras Bull R&D

Business Process Execution Language

Gestion collaborative de documents

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

SQL Server 2012 et SQL Server 2014

Visual Paradigm Contraintes inter-associations

Notes de cours : bases de données distribuées et repliquées

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

Les technologies du Big Data

Internet Information Services (versions 7 et 7.5) Installation, configuration et maintenance du serveur Web de Microsoft

Compte Rendu d intégration d application

Notre Catalogue des Formations IT / 2015

Chapitre 1 Windows Server

Projet de développement

WORKSHOP OBIEE 11g (version ) PRE-REQUIS:

Cursus Sage ERP X3 Outils & Développement. CURSUS Sage ERP X3 Outils & Développement ADVANCED. Outils avancés. 2 jours X3A-ADM. Développement 1 &2

C-JDBC. Emmanuel Cecchet INRIA, Projet Sardes.

La gestion de la performance applicative dans des environnements complexes et distribués

NEXTDB Implémentation d un SGBD Open Source

Quelques patterns pour la persistance des objets avec DAO DAO. Principe de base. Utilité des DTOs. Le modèle de conception DTO (Data Transfer Object)

Service Public Fédéral des Finances - Belgique. WITO Juin 2008

Information utiles. webpage : Google+ : digiusto/

JES Report Broker. Campus Technologies. SAE de CHALEMBERT 1 Rue Blaise PASCAL JAUNAY-CLAN info@campustec.

Introduction au Déploiement

Introduction à MapReduce/Hadoop et Spark

ELOECM Conference2015

Charte d'utilisation des infrastructures de la plate-forme bioinformatique Genotoul

Master Informatique et Systèmes. Architecture des Systèmes d Information. 03 Architecture Logicielle et Technique

SITE WEB E-COMMERCE ET VENTE A DISTANCE

IBM DB2 Alphablox. d administration GC

Tour des Unités du C.I.A.M. Tour des Unités du C.I.A.M. Maurice Baudry Laboratoire Statistique & Génome, Évry.

Veeam Backup and Replication

Des solutions sur mesure à partir de modules fonctionnels & CRM associés à un studio de customisation.

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

les techniques d'extraction, les formulaires et intégration dans un site WEB

Vérifier la qualité de vos applications logicielle de manière continue

Cartographie des solutions BigData

Module BDR Master d Informatique (SAR)

Valoriser vos bases de connaissances avec AMI Help Desk. AMI Enterprise Discovery version 3.9

SQL Server Installation Center et SQL Server Management Studio

Automatisation de l administration système

LA GOUVERNANCE, OU COMMENT RAPPROCHER LES ÉQUIPES DE DÉVELOPPEMENT ET D INFRASTRUCTURE

Jérôme FESSY. IUT de Paris 5. Base de Données. Cours Introductif. Base de Données

Transcription:

ter@tec09-01/07/09 Automatisation du pipeline d annotation de e la plateforme MicroScope pour un passage à large échelle Stéfan Engelen & David Vallenet CEA/DSV/IG/Genoscope CNRS-UMR Génomique Métabolique Laboratoire (Atelier) de Génomique Comparative

Les composants de MicroScope Système de production Pipeline d annotation automatique Gestionnaire de données Base de données relationnelle PkGDB BD objet MicroCyc (Réseaux métaboliques) Système de visualisation Interface graphique de consultation et d édition MaGe Explorer et éditer les connaissances contenues dans le gestionnaire de données : Outils de génomique comparative Annotation experte Plateforme de Recherche opérationnelle RIO (oct 06)

Pipeline d annotation d : flux d information d SYNTAXIQUE Séquences génomiques FONCTIONNEL Calculs, recherche de similarités RELATIONNEL Reconstruction de processus RNA and protein genes Transcription/translation start & stop Nucleotide composition and «Words» Codon usage Genomic islands Ortho/Para/Homologs Gene/protein families Subcellular localization Motifs Assignations fonctionnelles Gene context, gene order Comparative genomics: PhyloProfile Gene fusion/fission Regulatory networks Protein interaction Metabolic networks Gènes / Protéines Protéines annotées Processus biologiques EXPERTISE HUMAINE Visualisation des données Annotations expertes EXPERTISE HUMAINE

Pipeline d annotation d : calculs Plus de 20 workflows différents pour l annotation syntaxique, fonctionnelle et relationnelle. Temps CPU (AMD optéron double-cœur) pour un génome (5000 gènes/protéines) Blast sur Uniprot : 73 heures Blast PkGDB + Syntenie : 16 heures Blast RefSeq + Syntenie : 32 heures InterPro : 305 heures Autres analyses (COG, PRIAM, BioCyc, Rfam) : 10 heures => Total = 436 heures Parallélisation sur 36 CPU (72 cœurs) pour 1 génome = 6 heures pour tous les génomes de PkGDB = 86 jours

La base PkGDB pipeline MicroScope Internal genomic data Computational results Primary/public data Genomic_Object (PK) GO_id (FK) GO_ori_id (FK) A_id (FK) S_id GO_evidence GO_update Genomic Object description Result 1 (PK) Result R_id 2 (FK)(PK) GO_id Result R_id (FK) (FK). (PK) GO_id Result R_id n (FK) (FK). (PK) GO_id R_id (FK) (FK). GO_id (FK). InterPro UniProt RefSeq HAMAP COG Enzyme ISFinder PubMed 5 Go 38 tables 600 Go 29 tables 6 Go 41 tables

Interface graphique : Magnifying Genomes MicroScope project Help(s) Options Authentification Genome Overview Annotator editor Export Artemis LinePlot CGView Synteny map Synton visualization Metabolic pathways KeyWords Blast / Motif Phylogenetic profiles Fusions / Fissions Genomic islands Metabolic profiles Exploration

Taux d utilisation d de la plateforme 563 comptes personnels{ 380 en France 76 en Europe 45 Etats-Unis + 62 autres pays Projets collaboratifs avec une trentaine de laboratoires en France : Universités Paris, Strasbourg, Lyon, Marseille - CNRS - Institut Pasteur - CIRAD Montpellier INRA - CEA. Projets collaboratifs avec 16 laboratoires hors France : USA, Chine, Corée, Allemagne, Belgique, Portugal, Partenaire(s) industriel(s) : Sanofi-Aventis 70 authentifications par jour (env. 150 pages consultées par session) Efficacité du serveur Web MaGe (interface graphique)

Evolution du nombre d annotations d expertes 236 233 annotations expertes sont à ce jour enregistrées es dans la base PkGDB

Pipeline d annotation d : objectifs? Sites distants Mise à jour données primaires Données primaires Processus biologiques Génome Nouveau génome 5000 calculs Annotation relationnelle PkGDB Annotation syntaxique Tous les génomes 4000000 calculs Protéines annotées Gènes Protéines annotées Annotation fonctionnelle Gènes Objectifs Automatisation pour un passage à large échelle Garantir les performances d accd accès s (concurrence requêtes utilisateurs / chargement calculs) Maintenir les données primaires et calculs à jour

Identification des besoins Définir / décrire rigoureusement les processus métiers : diagramme d activités Orchestrer / synchroniser les activités humaines, calculs et processus systèmes l aide d un langage de description Robustesse : reprendre sur échec une activité Contrôler et suivre l évolution des calculs en temps réel Garantir la traçabilité : sauvegarde de l historique

JBPM - Java Business Process Management : solution technique à la mise en œuvre des processus métiers Solution open-source, souple, capable d orchestrer un ensemble de programmes, quelque soit le langage d implémentation JPDL : langage de description des activités (Orchestrer / synchroniser) API (JAVA) : développement de nouveaux composants techniques et métiers (suivi / contrôle) Hibernate : Persistance dans une BD (robustesse / traçabilité) Composants métiersm Composants techniques Hibernate JBoss JBPM JPDL API (JAVA)

JBPM : cycle de développement Identification des cas d utilisationd Ecriture des scénarios Elaboration du diagramme d activitd activités Traduction avec JPDL Adaptation des composants techniques Développement des composants métiersm

JBPM : architecture logicielle Serveur Apache TOMCAT JBPM console (serveur d application) BD Contexte d exécution Instance de processus SEAM (serveur WEB) Serveur JBOSS BD contient : - les objets JBPM (hibernate) - les objets métiers (PkGDB )

Définition du processus On décrit le processus avec le langage JPDL (Java Process Definition Language) au format XML JPDL décrit un graphe et des propriétés dans chaque noeud et transition du graphe <?xml version="1.0" encoding="utf-8"?> <process-definition xmlns="" name="demo"> <start-state name="start"> <transition name="to_node1" to="node1"></transition> </start-state> <end-state name="end"></end-state> <node name="node1"> <transition name="to_end" to="end"></transition> </node> </process-definition>

Définition du processus Plusieurs type de nœuds dont l activité dépend : d un comportement initial du nœud State (état d attente) Node (état à comportement personnalisable) TaskNode (assigne et crée des tâches) Decision (dirige le flux en fonction d un critère) Fork (sépare le chemin d exécution entrant) Join (état bloquant/passant) de l exécution d un certain nombre d actions implémentées via l API JBPM de la synchronisation des actions par des évènements Un seul type de transition

Définition finition du processus L activité d un nœud correspond à l exécution d actions associées à des types d évènements Action : composant métier reposant sur des composants techniques noeuds Événements Actions state node Task node Decision Fork Join Process start Node enter Node leave Node error Node success Process end Envoi mail Lecture fichier Soumission calculs lsf Chargement données Exécution logiciel Création répertoire Requête sql

Cas d utilisation d : workflow de calculs des synténies nies Comparaison blast Tache métier 1 : whichgenome génomes non à jour Tache métier 2 : executelsfscript comparer 2 à 2 n génomes avec blast 2 n calculs parallélisés sur un cluster calculs terminés ou échoués Tache métier 3 : loaddataanalysis chargement dans PkGDB des calculs terminés à la tache 2 Calcul de synténies Tache métier 1 : whichgenome génomes avec blast et sans synténies Tache métier 2 : executelsfscript calculs de synténies 2n calculs parallélisés sur un cluster calculs terminés ou échoués Tache métier 3 : loaddataanalysis chargement des synténies terminés à la tache 2

Tache métier m : soumission de calculs blast Entrée : n génomes Formatage : 2 n lignes de commandes o blast -d genome_1 -i seq_1_1.fasta o blast -d genome_n -i seq_m_n.fasta Soumissions de 2 n calculs répartis en p paquets : LSF o bsub -o seq1.out -q big blast -d genome_1 -i seq_1_1.fasta o bsub -o seqn.out -q big blast -d genome_n -i seq_m_n.fasta Attente des résultats Parçage des p fichiers de résultats Resoumissions des calculs en erreurs o nombre de resoumissions fixé Persistance des statuts des calculs on e calculs en erreur on s calculs en succès Sortie : (2 n -N e ) alignements Reprise sur erreur o base de donnée o id workflows non terminés o id taches échouées o ligne de commande échouées o données utilisées

CRON : Synchronisation de workflows métiers CRON Start Suspend Resume Stop new analysis input sequences update all sequences old analysis id of process to rerun Workflow métier Suspend jobs (bstop) Resume jobs (bresume) Stop jobs (bkill) with load without load Exit at breakpoint n

Architecture plateforme JBPM Workflows Data Management Process Management PkGDB Primary Databank Update JBPM Database Primary Databanks DB Release Internal Genomic Objects Syntactic Annotations Job History Computational results Functional / relational Analyses MicroCyc Pathway Genome DataBases Visualization MaGe Web Interface Tutorial Genome overview Data Export Artemis CGView LinePlot Synton display Mage Login Genome browser and Synteny maps Gene editor Gene cart Keyword search Blast and Patterns Phylogenetic Profiles Fusion / Fission Tandem duplications Minimal Gene Set RGPfinder SNPs / InDels KEGG MicroCyc Metabolic Profiles Pathway / Synteny

Conclusion Automatisation : o 15 workflows de calculs de fréquence journalière o 9 workflows de mise à jour des données primaires Synchronisation : o Taches séquentielles, branchements conditionnels, états d attente o Taches parallèles de chargement dans la base, backup des BD o Mise à jour données primaire / calculs Robustesse : o Reprise automatique en cas de panne d un composant de la chaîne (base de données, cluster de calculs, panne électrique, ) o Mise en évidence d erreurs et reprise des traitements sur erreurs Interaction en ligne de commande : o Suivi : avancement et historique des calcul, calculs en erreurs o Contrôle : priorité, reprise et arrêt de calculs, fréquence de mise à jour Volumétrie : o 2004-2009 : 2276387 calculs lancés et 200 GO chargés o depuis 6 mois : 4330795 calculs lancés et 400 GO chargés

Perspectives Court terme: o Intégration des méthodes d analyses syntaxiques et relationnelles de la plateforme o Intégration de nouveaux workflows automatiques de mise à jour des données primaires différentielles ou complète Moyen terme: o Mise en place d un service web «MaGe Light» pour la soumission anonyme de projets d annotation de génomes o Mise en place et intégration de nouvelles méthodes d analyses Long terme: o Utilisation de grilles pour les calculs lourds de la plateforme

Remerciements ANR PFTV MicroScope Equipe Informatique : Claude Scarpelli Support informatique Ludovic Fleury Equipe LGC : Claudine Medigue Alexandra Calteau Stéphane Cruveiller David Vallenet Zoé Rouy Aurélie Lajus Grégory Salvignol David Roche Alexander Smith Damien Mornico