Conception de workflows de traitement de données

Documents pareils
UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

INDUSTRIALISATION ET RATIONALISATION

Automatisation de l administration système

Mise en place d'un gestionnaire de données léger, pluridisciplinaire et national pour les données scientifiques

E-BIOGENOUEST, VERS UN ENVIRONNEMENT VIRTUEL DE RECHERCHE (VRE) ORIENTÉ SCIENCES DE LA VIE? Intervenant(s) : Yvan Le Bras, Olivier Collin

OBJECTIFS. Une démarche E-science

Évaluation et implémentation des langages

e-biogenouest CNRS UMR 6074 IRISA-INRIA / Plateforme de Bioinformatique GenOuest yvan.le_bras@irisa.fr Programme fédérateur Biogenouest co-financé

TP3 Intégration de pratiques agiles. 1. User Stories (1) Scénario d intégration agile. En direct-live du château

Architectures d'intégration de données

Contrat d accompagnement de projet

Module 4 Tablettes et lieux de culture, musées, bibliothèques, universités

Automatiser le Software-Defined Data Center avec vcloud Automation Center

Catalogue des formations Edition 2015

La plate-forme DIMA. Master 1 IMA COLI23 - Université de La Rochelle

MASTER SIS PRO : logique et sécurité DÉTECTION D INTRUSIONS. Odile PAPINI, LSIS. Université de Toulon et du Var. papini@univ-tln.

Knowledge Enabled Real-Time Recommendation System

Compte-rendu re union Campus AAR 3 mars 2015

SECTION 5 BANQUE DE PROJETS

Présentation de la solution Open Source «Vulture» Version 2.0

Développement d un interpréteur OCL pour une machine virtuelle UML.

Evidian Secure Access Manager Standard Edition

Semantic Web Inside Guillaume Érétéo Directeur R&D

D une part, elles ne peuvent faire table rase de la richesse contenue dans leur système d information.

THOT - Extraction de données et de schémas d un SGBD

Mise en place de serveurs Galaxy dans le cadre du réseau CATI BBRIC

Pelleas : Le projet XML pour le systeme d information documentaire du polytechnicum de Marne- la Vallée

SysFera. Benjamin Depardon

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

GOUVERNANCE DES IDENTITES ET DES ACCES ORIENTEE METIER : IMPORTANCE DE CETTE NOUVELLE APPROCHE

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

1/15. Jean Bernard CRAMPES Daniel VIELLE

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

Présentation du PL/SQL

SQL Server 2012 et SQL Server 2014

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

Evolution des catalogues et des métiers: comment se préparer aux changements? Quelques échos de la BnF. CRFCB Université de Toulouse 29 mars 2013

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

Vérifier la qualité de vos applications logicielle de manière continue

Initiation aux bases de données (SGBD) Walter RUDAMETKIN

Ministère de la Culture et de la Communication

Cours Bases de données

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

openarchitectureware & transformation de modèle Yannick Lizzi Architecte Logiciel itemis France Mail: lizzi@itemis.de

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

I) - DEFINITIONS I-A) TERMINOLOGIE

Présentation générale du projet data.bnf.fr

Les environnements de calcul distribué

Conception, architecture et urbanisation des systèmes d information

ANTICIPEZ ET PRENEZ LES BONNES DÉCISIONS POUR VOTRE ENTREPRISE

Introduction à MATLAB R

L exploitation des rapports de vérifications réglementaires : quels enjeux, quelle solution?

IBM Tivoli Monitoring, version 6.1

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

Arcserve unifié UNE SOLUTION UNIQUE

Adaptabilité d un MOOC aux styles d apprentissage. Hubert Kadima Directeur de Recherche LARIS/EISTI hubert.kadima@eisti.fr

TP1. Outils Java Eléments de correction

Plan de notre intervention 1. Pourquoi le test de charge? 2. Les différents types de tests de charge 1.1. Le test de performance 1.2.

Évaluation d une architecture de stockage RDF distribuée

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

Accenture accompagne la première expérimentation cloud de l État français

TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile

Résumé CONCEPTEUR, INTEGRATEUR, OPERATEUR DE SYSTEMES CRITIQUES

DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier?

Urbanisation de système d'information. PLM 6 (Product Lifecycle Management) Collaboration et partage d'informations

Urbanisation des SI. Des composants technologiques disponibles. Urbanisation des Systèmes d'information Henry Boccon Gibod 1

La solution pour gérer vos connaissances techniques et scientifiques

L'automatisation open source pour SI complexes

La Continuité d Activité

Alfstore workflow framework Spécification technique

StratusLab : Le projet et sa distribution cloud

Présentation du Master Ingénierie Informatique et du Master Science Informatique , Année 2 Université Paris-Est Marne-la-Vallée

Les diagrammes de modélisation

Les Architectures Orientées Services (SOA)

Présentation aux entreprises du numérique

Les services en ligne

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Programmes des classes préparatoires aux Grandes Ecoles

Chapitre VIII. Les bases de données. Orientées Objet. Motivation

Business & High Technology

LES DONNÉES SENSIBLES SONT PARTOUT. NOUS AUSSI.

Intégration de la CAO dans

SSTIC Désobfuscation automatique de binaires. Alexandre Gazet. Yoann Guillot. Et autres idyles bucoliques...

Système de Gestion de Fichiers

Industrialiser la chaîne complète de fabrication 1ère partie - Les bénéfices de la solution logicielle IBM VisualAge Pacbase / Rational

Le travail collaboratif avec

10. Base de données et Web. OlivierCuré

Comment initialiser une démarche SOA

SafeKit. Sommaire. Un livre blanc de Bull Evidian

Evidian IAM Suite 8.0 Identity Management

Vision prospective et obstacles à surmonter pour les assureurs

Spécialité Création de projets numériques

Partie I Le Management des Systèmes d Information : un défi pour les PME

Alignement avec les métiers par le test fonctionnel et d acceptation en projets agiles

Messagerie asynchrone et Services Web

Optimisation de la mise en œuvre de la virtualisation des postes de travail et des applications

Axway SecureTransport

Transcription:

1 / 30 Conception de workflows de traitement de données L expérience de MaIAGE avec Galaxy, AlvisNLP et OpenMinTeD Robert Bossy Bibliome AG ICAT 5 décembre 2016

2 / 30 1 Introduction 2 Gestionnaire de workflows 3 OpenMinTeD 4 Conclusions

Introduction 3 / 30

4 / 30 Introduction Retour d expérience sur l utilisation et le développement de worflows logiciels de traitement de données. Exemples Taitement Automatique de la Langue (TAL), Extraction d Information (IE) Bioinformatique Bibliome passe progressivement d une pratique empirique vers une approche méthodique (H2020 OpenMinTeD).

Workflow, qu est-ce que c est? 5 / 30 Définition Série de traitements de données automatisés interdépendants dans l objectif de produire des données secondaires. Exemples TAL : annotation sémantique de textes Bioinformatique : annotation fonctionnelle des gènes d un génome

6 / 30 Exemple détaillé Quelques caractéristiques Composants logiciels avec des tâches distinctes identifiées Le flot de données impose une interdépendance entre ces composants Chaque composant utilise des ressources externes

Comment fait-on? Majorité des cas : un script La série de traitements est plus ou moins explicite. Le flot de données est implicite. Problèmes La reproductiblité des résultats dépend de la maintenance du script. L adaptation à de nouvelles données n est pas toujours triviale. Le passage à l échelle est limité. Le code est un obstacle au transfert et au partage. La valorisation se borne à la distribution du code. 7 / 30

8 / 30 Comment faire? Reproductibilité Assurer systématiquement la provenance des données produites. Centralisation et isolement de la spécification de la séquence de traitements, et des ressources externes utilisées. Adaptation Possibilité d insérer de nouveaux traitements, de réassembler les workflows. Identification et isolement des paramètres des algorithmes et des ressources externes.

9 / 30 Comment faire? Transfert et partage Résultats enrichis de leur provenance. Transfert du processus, et non du code. Valorisation des développements Assurer la synergie des développements, mutualisation des compétences. Penser chaque nouveau développement comme un composant de workflows, élaboration d une bibliothèque.

10 / 30 Comment faire? Passage à l échelle Optimiser le flot de données. S affranchir du modèle d éxecution machine unique. Assurer le rapport et la surveillance. Séparation des responsabilités : exécution des composants logiciels, gestion des données.

11 / 30 Et si on s attaquait à ces problèmes? Le script devient logiciel Cela necessite une compétence de développement logiciel. Il existe un acquis sur les workflows, problématique très ancienne. Exemples AlvisNLP/ML (TAL, Bibliome) UIMA (TAL, Apache) Galaxy (Bioinfo, Univ. de Pennsylvanie) OpenMinTeD (TAL, E-INFRA)

12 / 30 Que va permettre un gestionnaire de workflow? Assembler les workflows de traitement de données. Prendre en charge complètement le flot de données. Prendre en charge les corvées. Vérifier et exécuter le workflow spécifié.

Gestionnaire de workflows 13 / 30

14 / 30 Focus sur trois fonctions 1 Interprétation du workflow 2 Prise en charge des données 3 Animation du workflow Standardisation des composants logiciels.

Interprétation du workflow Écrire de façon déclarative le workflow Décrire une séquence des processus de façon déclarative. Expliciter les paramètres et les ressources externes. Centralisation déclarations Adaptabilité Transfert et partage 15 / 30

Exemples 16 / 30 <alvisnlp-plan id="ren"> <module id="reader" class="xmlreader2"> <sourcepath filter="\.xml$">../corpus/quaero_t3.2_gene_dev+train-v1.1</> <xsltransform>../../bibliome/share/xslt/gene-train2alvisnlp.xslt</> </module> <import file="../resources/segmig.xml" id="segmig"/> <module id="tt" class="treetagger"> <treetaggerexecutable>/bibdev/install/tree-tagger-3.2/bin/tree-tagger</> <parfile>/bibdev/install/tree-tagger-3.2/lib/english.par</> </module> <module id="train" class="trainingelementclassifier"> <algorithm>weka.classifiers.bayes.naivebayes</> <classifierfile>classifier.model</> <relationdefinition>attributes.xml</> <examples>documents[@set=="train"].sections.layer:candidates</> </module> </alvisnlp-plan>

Flux de données Intégrer les données produites par les difféérents composants Encapsuler la conversion des données E/S. Aligner la sémantique des données. Abstraction des formats de données Transfert et partage Reproductibilité Adaptabilité 17 / 30

Deux approches pour le flux de données Galaxy Les données manipulées sont une signature de chaque logiciel. + Assistance à l assemblage des workflows - Scénarios prédéfinis, conversions explicites AlvisNLP, UIMA Définition d une représentation universelle, d un format pivot. + Liberté d assemblage, conversion implicite - Pas toujours possible 18 / 30

19 / 30 Animation du workflow Coordoner l exécution des composants logiciels Sur la base d une séquence spécifiée par l utilisateur (workflow). Support pour des environnements variés : serveur unique, ferme de calcul, virtualisation des composants... Rapport d exécution : logs, moniteur d avancement, échec grâcieux. Prise en charge de l exécution Passage à l échelle Reproductibilité

20 / 30 Standardisation des composants logiciels Les composants doivent être décrits et encapsulés de façon uniforme de façon à : coopérer avec l animation, concrétiser le flux de données. Exemple simple : commandes Unix cut -f 4 tableau.txt sort uniq -c sort -n

Description des composants 21 / 30 AlvisNLP Galaxy

OpenMinTeD 22 / 30

23 / 30 Constat Multiples gestionnaires de workflow développés spécifiques au TAL (AlvisNLP, DKPro, Argo, GATE). Composants intégrés distincts dans chacune des plate-formes. Les plate-formes ne sont pas interopérables. Exploiter l état de l art en TAL nécessite plus de compétences que nécessaire.

24 / 30 Objectifs de OpenMinTeD Démocratiser le TAL. Créer une union des bilbiothèques de composants. Composer, réutiliser et partager des workflows, indépendamment. Centraliser l accès aux documents et aux ressources. Puissance de calcul et de stockage (GRNET).

Méthodologie OpenMinTeD 25 / 30

Les choix de OpenMinTeD Flux de données : XMI+RDF Constante en TAL : représentation unique Représentation des corpus (RDF), et des annotations (XMI). Animation du workflow : Galaxy Large base d utilisateurs, durable Qualités techniques : grilles, cloud, stockage, API... Interfaces graphiques Adaptation à la logique représentation universelle : s appuyer sur l expérience de LAPPS et CLARINO Annuaire des ressources Dépôt, description et recherche de ressources. Ressources : lexiques, ontologies, composants logiciels... Interface REST et graphique. 26 / 30

27 / 30 Verrous Droits associés aux données traitées. Logiciels interactifs : éditeur d annotations, rythme différent, statut des données. Versionnement des ressources et mises à jour. Interaction avec les applications qui exploitent les résultats.

Conclusions 28 / 30

Que choisir? 29 / 30 Flux de données La nature des données manipulées est déterminante : Paradigme intrinsèque : tables, signaux, graphes... Hétérogénéité parmi les logiciels Volume et granularité Délimitation Étroite données plus homogènes repousse des problèmes d intégration inévitables Large : plus de couverture données plus hétérogènes

30 / 30 Discussion : CATI Workflows Réflexion autour de une ou plusieurs applications Objectif applicatif réel. Mutualiser des développements et des données distinctes. Définition et spécifications pour un gestionnaire de workflows. Développement de prototype(s).