Recherche sémantique d information textuelle

Documents pareils
Apprentissage Automatique

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Recherche et veille documentaire scientifique

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Master Informatique Aix-Marseille Université

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21


Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Marc SALLIERES CEO ALTIC

Masses de données et calcul : à l IRIT. 8 octobre 2013

Dafoe Présentation de la plate-forme UIMA

TEXT MINING Tour d Horizon

Informatique Médicale & Ingénierie des Connaissances Pour la e-santé

Introduction au Data-Mining

LES INTERFACES HOMME-MACHINE

Master de Bioinformatique et Biologie des Systèmes Toulouse Responsable : Pr. Gwennaele Fichant

Laboratoire d Informatique, de Traitement de l Information et des Systèmes EA établissements T. Paquet D. Olivier T. Lecroq A.

Business Intelligence avec Excel, Power BI et Office 365

LANGAGUE JAVA. Public Développeurs souhaitant étendre leur panel de langages de programmation

Introduction au Data-Mining

Description du programme du Master M2 MIAGE SIIN (1)

Construction d ontologies à partir de textes

Compte-rendu re union Campus AAR 3 mars 2015

Maîtriser l'utilisation des outils bureautiques. Maîtriser le logiciel de traitement de texte - Word. Maitriser le logiciel tableur - Excel

Annotation collaborative en ligne de l'archive manuscrite

Évaluation et implémentation des langages

Ingénierie et gestion des connaissances

Recherche d'images par le contenu Application au monitoring Télévisuel à l'institut national de l'audiovisuel

La gestion électronique de documents

Ecole Technique «Transformation de données documentaires» Poitiers, mars Atelier 1: Sphinx. import, conversion, export de données

I) - DEFINITIONS I-A) TERMINOLOGIE

Learning Object Metadata

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

ARCHIVISTIQUE ET INGÉNIERIE DOCUMENTAIRE

Advene, une plate-forme ouverte pour la construction d'hypervidéos

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Panorama des contenus

Initiation à la recherche documentaire

Problématiques de recherche. Figure Research Agenda for service-oriented computing

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

traduction - translation Les affaires sans frontières PROFIL d ENTREPRISE

7/26/2011. Analyse des besoins. Contextualisation. Univers de pensée et univers de croyance. Droit et interculturel. Les bases de connaissances

Google Apps for Business

Etudier l informatique

Urbanisation des Systèmes d Information Architecture d Entreprise. 04 Architecture du SI : identifier et décrire les services, structurer le SI

Concevoir sa stratégie de recherche d information

ISTEX, vers des services innovants d accès à la connaissance

Tout au long de votre cursus Quel métier futur? Dans quel secteur d activité? En fonction de vos goûts et aptitudes et du «niveau d emploi» dans ce

MASTER LANGUES, LITTÉRATURES ET CIVILISATIONS ETRANGÈRES ET RÉGIONALES. Parcours Langues et Technologies (LT)

LECTURE CRITIQUE. Accompagner les enseignants et formateurs dans la conception d une formation en ligne

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

Développement spécifique d'un système d information

Comment déterminer les définitions les plus pertinentes d un sigle donné?

MASTERS DE LA DOCUMENTATION NUMÉRIQUE

Rapport : Base de données. Anthony Larcher 1

Laboratoire d informatique Gaspard-Monge UMR Journée Labex Bézout- ANSES

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN

Quels apprentissages info-documentaires au collège?

La solution pour gérer vos connaissances techniques et scientifiques

INTERNET, C'EST QUOI?

Les bases de données transcriptionnelles en ligne

Luc Grivel (*, **)

Business Intelligence

DEMATERIALISATION de DOCUMENTS courrier formulaires factures

Laboratoire 4 Développement d un système intelligent

La Veille Scientifique

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

UNIV. LA ROCHELLE (IUT) Référence GALAXIE : 4099

Filière MMIS. Modélisation Mathématique, Images et Simulation. Responsables : Stefanie Hahmann, Valérie Perrier, Zoltan Szigeti

DOCADOCT 2014/2015 MOTEURS DE RECHERCHE SPECIALISES

Cognit Ive Cas d utilisation

Déjeuner de la Technologie 23 Mars 2007 Gestion de Documents Electroniques. Thierry GUILLOTIN - Elie FRANCIS EVER TEAM

Elaborer un «Référentiel d Organisation 2.0»

Gestion collaborative de documents

Le SMS fait entendre sa voix... Énergie solaire, énergie du futur? Recherche et développement technologique

Plan de la présentation

Direction des bibliothèques. Sondage Ithaka S+R. Questionnaire français Université de Montréal

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Charte d'utilisation des infrastructures de la plate-forme bioinformatique Genotoul

LES TECHNOLOGIES DU WEB APPLIQUÉES AUX DONNÉES STRUCTURÉES

Présentation générale du projet data.bnf.fr

Approches innovantes vers le Cloud, la Mobilité et les outils sociaux de formation

Algèbre 40 Analyse Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

CONTRIBUTEURS MEMBRES APROGED... 2 CONTRIBUTEUR EXTERNE A L APROGED... 2

Atelier 1. Portails documentaires : BioLib et Cemadoc

Le traitement automatique des langues dans les industries de l'information

La plate-forme DIMA. Master 1 IMA COLI23 - Université de La Rochelle

PROJET BIGDATART DOSSIER DE PRESENTATION

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

Veille Internet avec les flux RSS, recherche et veille sur les réseaux sociaux

Partage en ligne 3.1. Édition 1

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

Catalogue des formations Edition 2015

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

SECTION 5 BANQUE DE PROJETS

Transcription:

Unité Mathématique, Informatique et Génome T e c h n i q u e s d ' e x p l o i t a t i o n d e s d o c u m e n t s m u l t i m é d i a s Recherche sémantique d information textuelle Claire Nédellec, Pascale Sébillot, Philippe Bessières, Vincent Claveau A L I M E N T A T I O N A G R I C U L T U R E E N V I R O N N E M E N T

Projet CADERIGE (2000-2003) Extraction de réseaux d'interactions géniques Projet inter-epst bioinformatique Partenaires Intelligence Artificielle Bioinformatique et IA Biologie Projet AÏDA de l'irisa (INRIA Rennes)-CNRS Laboratoire LEIBNIZ Joseph Fourier, Grenoble de l'imag, CNRS-Université Laboratoire LIPN, Institut Galilée, CNRS-Université Paris 13, Villetaneuse. Laboratoire LRI, CNRS-Université Paris 11, Orsay Unité MIG, INRA, Jouy-en-Josas Laboratoire ENSAR CNRS-INRA Rennes. 2

La bibliographie, une source critique d'information en génomique fonctionnelle Des sources d'information complémentaires pour l'annotation fonctionnelle - Expérimentation (séquençage, analyse fonctionnelle) - Modèles prédictifs, mathématiques et informatiques - Littérature en biologie (> 16 millions de références dans MedLine) Bibliographie centralisée : Références et résumés libres d'accès, interrogation par index ou en "full-text". Texte de l'article accessible sous réserve d'abonnement. Besoin important d'accès à l'information, non disponible dans des bases structurées Automatisation de l'annotation / extraction sémantique de texte libre. 3

Exemple d'extraction d information structurée : le réseau d'interaction génique 4

Source : interface PubMed 5

Extraction d information À partir d'un fragment de phrase the GerE protein inhibits transcription in vitro of the sigk gene encoding sigmak Connaissance structurée (formulaire) Interaction Type : négative Agent : GerE protein Cible : Expression Source : sigk gene Produit : sigmak 6

Règle d'extraction syntaxico-sémantique (MIG TexMex) GerE stimulates cotd transcription and cota transcription [ ], and, unexpectedly, inhibits [ ] transcription of the gene (sigk) [ ] Règle apprise par programmation logique inductive (PLI) à partir d exemples Interaction_negative (X, Z):- is-a(x, protein), sujet(x, Y), is-a(y, neg_interaction), objet(z, Y), is-a(z, gene-expression). Interprétation Si le sujet X d'un verbe d'interaction négative Y est un nom de protéine et que son complément d'objet Z est une expression de gène, Alors, X est l'agent et Z est la cible de l'interaction génique. La règle s applique ici au couple (GerE, sigk) Expérimentation MIG sur les données LLL05 : Rappel : 56 % Précision 68 %. 7

Une même représentation sémantique pour des formulations différentes. agent target Protein Negative interaction Gene The GerE protein inhibits transcription in vitro of the sigk gene agent target Protein Negative interaction Gene GerE dependent repression of the sigk promoter 8

Texte normalisé sur lequel appliquer des patrons d'extraction Protein Negative interaction Expression Method Gene Expression Protein comp_of Subject Obj Subject Obj mod_att mod_att The GerE protein inhibits transcription in vitro of the sigk gene encoding sigmak Noun Noun Noun phrase Verb Noun phrase Cat. sémantiques Dép. syntaxiques Terminologie Cat. syntaxique Entité nommée Texte segmenté is_a(ger_protein, protein), is_a(inibit, negative_interaction), sujet(ger_protein, inhibit), obj(transcription, inhibit), terme(gere protein), terme(in vitro) terme(sigk gene) cat(the, det), cat(ger_protein, term), cat(inhibit, verb), entité(gere), entité(sigk), entité(sigma K) mot(the), mot(ger_protein), mot(inhibit), mot(transcription), 9

Objectifs de Quaero (2007-2012) "Développement de nouveaux services de mise à disposition des contenus et à la production de solutions et d'outils pour la gestion des informations multimédias". Les documents à traiter sont multilingues intégrent des données textuelles, des images fixes, mais aussi des fonds de documents audio, des séquences vidéo et des scènes en 3D. Marchés visés Grand public (moteur de recherche, mobile, TV, vidéo à la demande) Professionnel (fournisseurs de contenus, opérateurs) Budget : environ 250 millions euros. Financement AII : 90 millions Début du projet : septembre 2007? 10

Organisation du projet Quaero Six (sous-)projets industriels menés par Thomson (2), France Télécom, Exalead, INA et Jouve Exploitant le Core Technology Cluster (CTC) Fournissant toutes les technologies nécessaires aux projets industriels CNRS, INRA, INRIA, Université Joseph Fourier, Synapse, IRCAM, ENST, Univ. Karlsruhe, LTU Technologies, VECSYS Forme "packagée" et intégrée 11

Méthodes et outils du CTC Automatisation de la production, de l'archivage, de la protection et de la recherche de contenus multimedia. Techniques avancées de Reconnaissance des Formes - transcription de la parole, traitement du son et de la musique, reconnaissance d'images fixes et vidéo, numérisation de document papier Techniques avancées en Intelligence Artificielle - Traitement automatique de la langue (TAL), acquisition et exploitation de terminologies et d'ontologies, traduction automatique - Apprentissage artificiel - Classification et indexation de documents - Fusion d'information multimedia, traitement multi-modal Techniques avancées en indexation, interrogation et navigation Codage, archivage et protection 12

Le texte, media pivot Constitution des collections de documents Reconnaissance de la parole transcription Traitement spécifique aux médias Matériau textuel Traitement sémantique Service Documents sources multimedia Décom position Documents par médias Traitement de l écrit Traitement de l image extraction insert, sous-titrage, commentaires Fusion de données Représentation enrichie et unifiée des docs Service multimédia Question ouverte : quelle représentation sémantique des documents? 13

Verrou critique Automatisation de la recherche d information multimedia L'acquisition automatique de ressources linguistiques appropriées, spécifiques à l application, permet l'annotation sémantique fine et normalisée de documents Pour le développement de services intelligent d accès à l information multimedia Tâches Quaero du WP2 Traitement Automatique de la Langue (TAL) 1. Acquisition et reconnaissance d'entités nommées (noms propres) 2. Acquisition et identification de termes (mots-clefs) 3. Acquisition d'ontologie (connaissances conceptuelles) MIG / TexMex 4. Annotation sémantique de concepts et de relations 5. Résumé de document 6. Interrogation "Question-réponse" 14

Annotation sémantique grâce à l acquisition des ressources spécialisées Semantic metadata production Named-entity recognition Sentence segmentation and filtering POS tagging Terminological analysis Syntactic parsing Semantic typing Semantic relation Identification Anaphora resolution NER patterns Classifier Terminology Grammar Ontology Domain-dependent Resources IE rules Anaphora resolution rules Supervised Learning of NE and patterns + NE dictionary integration Supervised classification Term extraction + Term dictionary integration Knowledge Acquisition Ontology learning + Ontology integration Semantic relation learning + Declarative specifications Entités nommées Terminologie Ontologie 15

Collaboration INRA-INRIA en terminologie Normalisation de termes Concevoir et adapter des méthodes pour associer automatiquement à des termes certifiés, les formes variantes d un corpus. Acronyme chloramphenicol acetyltransferase / CAT Abréviation Bacillus subtilis / B. subtilis Ellipse EPO mimetic peptide / EPO Variation typographique sigma K / sigma(k) / sigma-k Synonymie due au renommage SpoIIIG / sigma G Variation morpho-syntaxique cancer in human / human cancer Apprentissage de patrons d extraction de termes Par induction à partir de fragments textuels et de termes validés et invalidés. transgenic plant transformed - patron [ADJ N PP] = exclu gene silencing + patron [N G]= retenu 16

Acquisition automatique d ontologie à partir de corpus Apprentissage supervisé de patrons (Compétence TexMex) Pour automatiser l acquisition de relations sémantiques générales ou spécifiques au domaine et basées sur, la structure interne des termes (compositionalité) pour acquérir des relations de généralité voice data recorder is a data recorder des patrons morpho-syntaxiques (extraction d information à-la Hearst) pour acquérir des relations o de généralité X is an example of Y X is-a Y o spécifiques au domaine protein X interacts with gene Y interaction(x,y) Analyse distributionnelle (Compétence MIG) La classification non-supervisée appliquée à l analyse syntaxique d un corpus construit des hiérarchies de classes sémantiques (heat-shock = thermal upshock) is-a stress-factor. Intégration des deux familles de méthodes (Collaboration MIG TexMex) 17

Exemple : interrogation de base de brevet (Projet industriel : Jouve) 18

Conclusion La recherche fondamentale en informatique à MIG intégrée au sein de l INRA, organisme de recherche finalisée apporte un lien critique avec, la recherche en informatique (ici l INRIA) les besoins applicatifs (internes, ou industriels) Particulièrement vrai pour les Technologies de l Information et de la Communication, par nature, pluridisciplinaires, Projets Caderige et Quaero : exemples de coopération entre terminologues/documentalistes, informaticiens (IHM, SI, IA) et biologistes. 19