Dafoe Présentation de la plate-forme UIMA



Documents pareils
D E S C R I P T I O N D E S É L É M E N T S C L E F S D ' U I M A

Vers des outils robustes et interopérables pour le TAL : la piste UIMA

Cours Plugin Eclipse. Université Paris VI / Parcours STL / Master I Pierre-Arnaud Marcelot - Iktek - pamarcelot@iktek.com

(TALN) . Traitement Automatique du Langage Naturel. Outils d analyse de données textuelles. Laurent Audibert (LIPN - UMR CNRS 7030) 4 novembre 2010

Master Data Management en Open Source C est le Bon Moment

Logiciel Libre Cours 3 Fondements: Génie Logiciel

NOVA BPM. «Première solution BPM intégr. Pierre Vignéras Bull R&D

Architecture client riche Evolution ou révolution? Thomas Coustenoble IBM Lotus Market Manager

Programmation de services en téléphonie sur IP

openarchitectureware & transformation de modèle Yannick Lizzi Architecte Logiciel itemis France Mail: lizzi@itemis.de

La démarche MDA. Auteur : Projet ACCORD (Assemblage de composants par contrats en environnement ouvert et réparti)*

Une méthode d apprentissage pour la composition de services web

NFP111 Systèmes et Applications Réparties

Master Informatique Aix-Marseille Université

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

S7 Le top 10 des raisons d utiliser PHP pour moderniser votre existant IBM i

La Stratégie d Intégration Advantage

Eclipse Process Framework et Telelogic Harmony/ITSW

Vulgarisation Java EE Java EE, c est quoi?

Projet de développement

Programmation Mobile Android Master CCI

Les Biolangages. Thierry Lecroq. Université de Rouen FRANCE. university-logo. Thierry Lecroq (Univ. Rouen) MB / 16

Communications unifiées?

L Orchestration de Services Web avec Orchestra. Goulven Le Jeune Orchestra Project Manager

La voie rapide vers le cpdm

Les BRMS Business Rules Management System. Groupe GENITECH

Solution de Collaboration synchrone

Adaptabilité d un MOOC aux styles d apprentissage. Hubert Kadima Directeur de Recherche LARIS/EISTI hubert.kadima@eisti.fr

Cloud computing Architectures, services et risques

Migration et import de données

Générer du code à partir d une description de haut niveau

Développer une stratégie SIG Entreprise efficace avec ESRI et ArcGIS

SITE WEB E-COMMERCE ET VENTE A DISTANCE

StratusLab : Le projet et sa distribution cloud

Communication Unifiée UC² IBM Corporation

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

pythonocc: une plateforme de développement agile d applications CAO.

PloneLabs un gestionnaire de contenu pour les laboratoires

Business Process Execution Language

Développer avec les technologies ESRI. ESRI Developer Network (EDN) Gaëtan LAVENU ESRI France Jérémie MAJEROWICZ ESRI France

Présentation Alfresco

Un serveur d'archivage

Moderniser. le système d information et le portefeuille applicatif.

Java à Murex: un retour d'expérience. Jean-Pierre DACHER & Craig MORRISON

Le projet PALETTE et les CoPs L exemple de la CoP eprep

Panorama des solutions analytiques existantes

4. SERVICES WEB REST 46

D une part, elles ne peuvent faire table rase de la richesse contenue dans leur système d information.

Gestion collaborative de documents

Projet de développement. Introduction à Eclipse. Application à votre projet. Philippe Collet. Organisation. Cours 1 : principes généraux - svn

Cours de Java. Sciences-U Lyon. Java - Introduction Java - Fondamentaux Java Avancé.

Tutoriel QSOS. Version /02/2013

ISTIA INNOVATION. 62, Ave ND du Lac F Angers

21 mars Simulations et Méthodes de Monte Carlo. DADI Charles-Abner. Objectifs et intérêt de ce T.E.R. Générer l'aléatoire.

Bases Java - Eclipse / Netbeans

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

Les nouvelles architectures des SI : Etat de l Art

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

ELOECM Conference2015

Valorisez vos actifs logiciels avec Rational Asset Manager. Jean-Michel Athané, Certified IT Specialist IBM Rational Software

Table des matières PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS. Introduction

Vers une meilleure gouvernance des plateformes d ingénierie

Le pilotage des collaborations et l interopérabilité des systèmes d information Vers une démarche intégrée

Projet M1 Sujet 21 : Développement d'un logiciel simplifié de type Business Object

Introduction au Génie Logiciel

Le Processus RUP. H. Kadima. Tester. Analyst. Performance Engineer. Database Administrator. Release Engineer. Project Leader. Designer / Developer

Oracle Fusion Middleware Concepts Guide 11g Release 1 (11.1.1) Figure 1-1 Architecture Middleware

Développer des Applications Internet Riches (RIA) avec les API d ArcGIS Server. Sébastien Boutard Thomas David

Fusion : l interopérabilité chez Oracle

e-science : perspectives et opportunités pour de nouvelles pratiques de la recherche en informatique et mathématiques appliquées

FLEX 3. Applications Internet riches avec Flash ActionScript 3, MXML et Flex Builder. Aurélien Vannieuwenhuyze

Dynamiser l innovation tout en réduisant son coût

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

Rapport de Synthèse. Création d un Générateur de modèle PADL pour le langage C++ Sébastien Colladon

1 JBoss Entreprise Middleware

Iyad Alshabani SysCom - CReSTIC Université de Reims 17/02/2011 1

Applications distribuées: le retour du client "riche"

Messagerie asynchrone et Services Web

Technologies du Web. Créer et héberger un site Web. Pierre Senellart. Page 1 / 26 Licence de droits d usage

Environnements de développement (intégrés)

Analyse comparative entre différents outils de BI (Business Intelligence) :

SOA Open Source Intégration des services et business process dans une architecture SOA Open Source. Bruno Georges JBoss, a Division of Red Hat

Applications et Services WEB: Architecture REST

Modéliser et déployer des processus d entreprise avec Biztalk 2006

Vérifier la qualité de vos applications logicielle de manière continue

Méthode d Évaluation des Coûts liés à l Open Source (ECOS)

Perspectives pour l entreprise. Desktop Cloud. JC Devos IBM IT Architect jdevos@fr.ibm.com IBM Corporation

Description de Produit Logiciel. AMI News Monitor v2.0. SPD-AMINM-10 v1.0

JOnAS 5 Enterprise OSGi javaee compliant

Extension de VeSMEL pour la manipulation des contenus dans le m-learning

Bases de Données Avancées

Stage Ingénieur en développement logiciel/modélisation 3D

LES SOLUTIONS OPEN SOURCE RED HAT

Extensions, Documentation, Tutoriels, Astuces

Présentation du module Base de données spatio-temporelles

BIG Data et R: opportunités et perspectives

Cursus Sage ERP X3 Outils & Développement. Le parcours pédagogique Sage ERP X3 Outils et Développement

TP1 : Initiation à Java et Eclipse

Transcription:

Laboratoire d Informatique de l université Paris-Nord (UMR CNRS 7030) Institut Galilée - Université Paris-Nord 99, avenue Jean-Baptiste Clément 93430 Villetaneuse, France 11 juillet 2007

Plates-formes d annotation UIMA UIMA vs GATE Source d information (texte, audio, image ou vidéo) difficilement exploitable en raison de la nature non structurée du contenu. Objectifs d une application de gestion de l information non structurée (Unstructured Information Management, UIM) : Organiser un grand volume d information non structurée pour extraire, structurer et diffuser l information. Technologies mises en œuvre : OCR, Reconnaissance de la parole, Outils TAL, Apprentissage, Ontologies, etc. Problème : les technologies développées sont hétérogènes et non interopérables.

Plates-formes d annotation UIMA UIMA vs GATE Source d information (texte, audio, image ou vidéo) difficilement exploitable en raison de la nature non structurée du contenu. Objectifs d une application de gestion de l information non structurée (Unstructured Information Management, UIM) : Organiser un grand volume d information non structurée pour extraire, structurer et diffuser l information. Technologies mises en œuvre : OCR, Reconnaissance de la parole, Outils TAL, Apprentissage, Ontologies, etc. Problème : les technologies développées sont hétérogènes et non interopérables.

Plates-formes d annotation Plates-formes d annotation UIMA UIMA vs GATE Objectif Permettre d intégrer des outils existants et faciliter leur interopérabilité par des mécanismes d encapsulation. Unstructured Information Management Architecture (UIMA) d IBM open source free SDK General Architecture of Text Engineering (GATE) GNU License Projet SciBorg de l University of Cambridge. Architecture and Tools for Linguistic Analysis Systems (ATLAS) du National Institute of Standards and Technology (NIST). Plate-forme d annotation de documents ALVIS (Ogmios) du LIPN free software OpenNLP Open Source projects

UIMA Contexte et problématique Plates-formes d annotation UIMA UIMA vs GATE Plate-forme d intégration et de déploiement d outils TAL (et autres). Kit de développement Java et C++ incluant un ensemble de plug-ins Eclipse. Annotations déportées. Possibilité d intégrer/déployer des composants sous forme de services web. Pré et post traitements prévus par la plate-forme. Documentation importante et existence de tutoriaux. Plus puissant et général que des plates-formes comme GATE ou ATLAS. Passerelle possible avec GATE. Gratuit et open source.

UIMA vs GATE Contexte et problématique Plates-formes d annotation UIMA UIMA vs GATE UIMA GATE Documentation Bonne Bonne Langages de programmation Java, C++ Java Outils intégrés Palette moyenne Palette très riche Type de documents Tout Texte Déploiement Prévu et flexible Non prévu? La plateforme GATE fournie : Un adaptateur permettant d utiliser sous forme de PR (Processing Resource) dans GATE un TAE (Text Analysis Engine) primitif ou composé d UIMA ; Un adaptateur permettant d utiliser sous forme de TAE dans UIMA un pipeline de traitement de GATE (CorpusController).

Analysis Engine (AE) Analysis Engine (AE) Common Analysis System (CAS) Common Analysis System Initialiser (CAS) Analysis Engine (AE) Composant fondamental de traitement. AE primitif : Partie déclarative (spécifications) en XML ; Annotator : implémentation en Java, en C++ ou sous forme de service Internet. Appelé TAE (Text Analysis Engine) quand il manipule des documents textuels. UIMA favorise la réutilisation et l agrégation de composants en s appuyant sur leur description XML.

Analysis Engine (AE) Analysis Engine (AE) Common Analysis System (CAS) Common Analysis System Initialiser (CAS) Analysis Engine (AE) Composant fondamental de traitement. AE complexe : composition ordonnée d un ensemble d AE complexes ou primitifs (Aggregate Analysis Engine). UIMA favorise la réutilisation et l agrégation de composants en s appuyant sur leur description XML.

Common Analysis System (CAS) Analysis Engine (AE) Common Analysis System (CAS) Common Analysis System Initialiser (CAS) Common Analysis System (CAS) Objet commun aux différents composants contenant le document original, ses méta-données (annotations) et une ou plusieurs interfaces pour accéder aux données. Un TAE ne fait que compléter un CAS. Pour plus de flexibilité, les annotations sont déportées.

CAS Initialiser Contexte et problématique Analysis Engine (AE) Common Analysis System (CAS) Common Analysis System Initialiser (CAS) CAS Initialiser Un CAS Initialiser est propre à un format de document source et a pour tâche de produire un objet CAS.

CAS Consumer Contexte et problématique Common Analysis System Consumer (CAS Consumer) Collection Reader Collection Processing Engine (CPE) Utilisation de ressources d informations structurées Collection Processing Management (CPM) CAS Consumer Intervient à la fin de la chaîne des différents AE pour produire, à partir des CAS, une ressource exploitable par une autre application (indexes, base de données,... ). Consomment des CAS mais n en produisent pas. Le rôle peut aller de la simple mémorisation des CAS à des inférences portant sur la totalité des CAS consommés.

Collection Reader Contexte et problématique Common Analysis System Consumer (CAS Consumer) Collection Reader Collection Processing Engine (CPE) Utilisation de ressources d informations structurées Collection Processing Management (CPM) Collection Reader Itère sur la collection des documents pour alimenter les CAS Initialiser. La seule méthode d un composant Collection Reader est passer au document suivant.

Collection Processing Engine (CPE) Common Analysis System Consumer (CAS Consumer) Collection Reader Collection Processing Engine (CPE) Utilisation de ressources d informations structurées Collection Processing Management (CPM) Collection Processing Engine (CPE) Composant complexe rassemblant tous les composants participant au traitement du Collection Reader jusqu aux CAS Consumer. Contrôle le flux entre ses différents composants.

Common Analysis System Consumer (CAS Consumer) Collection Reader Collection Processing Engine (CPE) Utilisation de ressources d informations structurées Collection Processing Management (CPM) Utilisation de ressources d informations structurées UIMA permet à un AE d accéder à une ressources d informations structurées.

Common Analysis System Consumer (CAS Consumer) Collection Reader Collection Processing Engine (CPE) Utilisation de ressources d informations structurées Collection Processing Management (CPM) Collection Processing Management (CPM) Collection Processing Management (CPM) Composant permettant de déployer et d exécuter un CPE dans un environnement UIMA. Le CPM permet : le démarrage, la pause et la reprise des traitements ; l exécution d un sous-ensemble des TAE en respectant les contraintes inhérentes aux méta-données du CAS ; la définition d une stratégie concernant la gestion des documents provoquant des erreurs ; le monitoring des performances (temps, mémoire,... ) ; la parallélisation des traitements sur différents documents.

D. Ferrucci, & A. Lally. (2004). Building an example application with the Unstructured Information Management Architecture. In Unstructured Information Management (Vol. 43, p. 455-475). IBM Systems Journal. Mustapha Es-salihe, & Stéphane Bond. (2006, 29 mars). Étude des frameworks UIMA, Gate et OpenNLP. Internet. (http :// www.crim.ca/ fr/ R-D/ Technologies Internet/ documents/ Etude-UIMA-GATE-OpenNLP.pdf) Scott Piao, Sophia Ananiadou, & John McNaught. (2007, septembre). Integrating Annotation Tools into UIMA for Interoperability. In Sixth UK e-science All Hands Meeting (AHM2007). UIMA SDK User s Guide and Reference. (s. d.). Internet. (http :// dl.alphaworks.ibm.com/ technologies/ uima/ UIMA SDK Users Guide Reference.pdf)