Recherche sémantique d information textuelle

Unité Mathématique, Informatique et Génome T e c h n i q u e s d ' e x p l o i t a t i o n d e s d o c u m e n t s m u l t i m é d i a s Recherche sémantique d information textuelle Claire Nédellec, Pascale Sébillot, Philippe Bessières, Vincent Claveau A L I M E N T A T I O N A G R I C U L T U R E E N V I R O N N E M E N T

Projet CADERIGE (2000-2003) Extraction de réseaux d'interactions géniques Projet inter-epst bioinformatique Partenaires Intelligence Artificielle Bioinformatique et IA Biologie Projet AÏDA de l'irisa (INRIA Rennes)-CNRS Laboratoire LEIBNIZ Joseph Fourier, Grenoble de l'imag, CNRS-Université Laboratoire LIPN, Institut Galilée, CNRS-Université Paris 13, Villetaneuse. Laboratoire LRI, CNRS-Université Paris 11, Orsay Unité MIG, INRA, Jouy-en-Josas Laboratoire ENSAR CNRS-INRA Rennes. 2

La bibliographie, une source critique d'information en génomique fonctionnelle Des sources d'information complémentaires pour l'annotation fonctionnelle - Expérimentation (séquençage, analyse fonctionnelle) - Modèles prédictifs, mathématiques et informatiques - Littérature en biologie (> 16 millions de références dans MedLine) Bibliographie centralisée : Références et résumés libres d'accès, interrogation par index ou en "full-text". Texte de l'article accessible sous réserve d'abonnement. Besoin important d'accès à l'information, non disponible dans des bases structurées Automatisation de l'annotation / extraction sémantique de texte libre. 3

Exemple d'extraction d information structurée : le réseau d'interaction génique 4

Source : interface PubMed 5

Extraction d information À partir d'un fragment de phrase the GerE protein inhibits transcription in vitro of the sigk gene encoding sigmak Connaissance structurée (formulaire) Interaction Type : négative Agent : GerE protein Cible : Expression Source : sigk gene Produit : sigmak 6

Règle d'extraction syntaxico-sémantique (MIG TexMex) GerE stimulates cotd transcription and cota transcription [ ], and, unexpectedly, inhibits [ ] transcription of the gene (sigk) [ ] Règle apprise par programmation logique inductive (PLI) à partir d exemples Interaction_negative (X, Z):- is-a(x, protein), sujet(x, Y), is-a(y, neg_interaction), objet(z, Y), is-a(z, gene-expression). Interprétation Si le sujet X d'un verbe d'interaction négative Y est un nom de protéine et que son complément d'objet Z est une expression de gène, Alors, X est l'agent et Z est la cible de l'interaction génique. La règle s applique ici au couple (GerE, sigk) Expérimentation MIG sur les données LLL05 : Rappel : 56 % Précision 68 %. 7

Une même représentation sémantique pour des formulations différentes. agent target Protein Negative interaction Gene The GerE protein inhibits transcription in vitro of the sigk gene agent target Protein Negative interaction Gene GerE dependent repression of the sigk promoter 8

Texte normalisé sur lequel appliquer des patrons d'extraction Protein Negative interaction Expression Method Gene Expression Protein comp_of Subject Obj Subject Obj mod_att mod_att The GerE protein inhibits transcription in vitro of the sigk gene encoding sigmak Noun Noun Noun phrase Verb Noun phrase Cat. sémantiques Dép. syntaxiques Terminologie Cat. syntaxique Entité nommée Texte segmenté is_a(ger_protein, protein), is_a(inibit, negative_interaction), sujet(ger_protein, inhibit), obj(transcription, inhibit), terme(gere protein), terme(in vitro) terme(sigk gene) cat(the, det), cat(ger_protein, term), cat(inhibit, verb), entité(gere), entité(sigk), entité(sigma K) mot(the), mot(ger_protein), mot(inhibit), mot(transcription), 9

Objectifs de Quaero (2007-2012) "Développement de nouveaux services de mise à disposition des contenus et à la production de solutions et d'outils pour la gestion des informations multimédias". Les documents à traiter sont multilingues intégrent des données textuelles, des images fixes, mais aussi des fonds de documents audio, des séquences vidéo et des scènes en 3D. Marchés visés Grand public (moteur de recherche, mobile, TV, vidéo à la demande) Professionnel (fournisseurs de contenus, opérateurs) Budget : environ 250 millions euros. Financement AII : 90 millions Début du projet : septembre 2007? 10

Organisation du projet Quaero Six (sous-)projets industriels menés par Thomson (2), France Télécom, Exalead, INA et Jouve Exploitant le Core Technology Cluster (CTC) Fournissant toutes les technologies nécessaires aux projets industriels CNRS, INRA, INRIA, Université Joseph Fourier, Synapse, IRCAM, ENST, Univ. Karlsruhe, LTU Technologies, VECSYS Forme "packagée" et intégrée 11

Méthodes et outils du CTC Automatisation de la production, de l'archivage, de la protection et de la recherche de contenus multimedia. Techniques avancées de Reconnaissance des Formes - transcription de la parole, traitement du son et de la musique, reconnaissance d'images fixes et vidéo, numérisation de document papier Techniques avancées en Intelligence Artificielle - Traitement automatique de la langue (TAL), acquisition et exploitation de terminologies et d'ontologies, traduction automatique - Apprentissage artificiel - Classification et indexation de documents - Fusion d'information multimedia, traitement multi-modal Techniques avancées en indexation, interrogation et navigation Codage, archivage et protection 12

Le texte, media pivot Constitution des collections de documents Reconnaissance de la parole transcription Traitement spécifique aux médias Matériau textuel Traitement sémantique Service Documents sources multimedia Décom position Documents par médias Traitement de l écrit Traitement de l image extraction insert, sous-titrage, commentaires Fusion de données Représentation enrichie et unifiée des docs Service multimédia Question ouverte : quelle représentation sémantique des documents? 13

Verrou critique Automatisation de la recherche d information multimedia L'acquisition automatique de ressources linguistiques appropriées, spécifiques à l application, permet l'annotation sémantique fine et normalisée de documents Pour le développement de services intelligent d accès à l information multimedia Tâches Quaero du WP2 Traitement Automatique de la Langue (TAL) 1. Acquisition et reconnaissance d'entités nommées (noms propres) 2. Acquisition et identification de termes (mots-clefs) 3. Acquisition d'ontologie (connaissances conceptuelles) MIG / TexMex 4. Annotation sémantique de concepts et de relations 5. Résumé de document 6. Interrogation "Question-réponse" 14

Annotation sémantique grâce à l acquisition des ressources spécialisées Semantic metadata production Named-entity recognition Sentence segmentation and filtering POS tagging Terminological analysis Syntactic parsing Semantic typing Semantic relation Identification Anaphora resolution NER patterns Classifier Terminology Grammar Ontology Domain-dependent Resources IE rules Anaphora resolution rules Supervised Learning of NE and patterns + NE dictionary integration Supervised classification Term extraction + Term dictionary integration Knowledge Acquisition Ontology learning + Ontology integration Semantic relation learning + Declarative specifications Entités nommées Terminologie Ontologie 15

Collaboration INRA-INRIA en terminologie Normalisation de termes Concevoir et adapter des méthodes pour associer automatiquement à des termes certifiés, les formes variantes d un corpus. Acronyme chloramphenicol acetyltransferase / CAT Abréviation Bacillus subtilis / B. subtilis Ellipse EPO mimetic peptide / EPO Variation typographique sigma K / sigma(k) / sigma-k Synonymie due au renommage SpoIIIG / sigma G Variation morpho-syntaxique cancer in human / human cancer Apprentissage de patrons d extraction de termes Par induction à partir de fragments textuels et de termes validés et invalidés. transgenic plant transformed - patron [ADJ N PP] = exclu gene silencing + patron [N G]= retenu 16

Acquisition automatique d ontologie à partir de corpus Apprentissage supervisé de patrons (Compétence TexMex) Pour automatiser l acquisition de relations sémantiques générales ou spécifiques au domaine et basées sur, la structure interne des termes (compositionalité) pour acquérir des relations de généralité voice data recorder is a data recorder des patrons morpho-syntaxiques (extraction d information à-la Hearst) pour acquérir des relations o de généralité X is an example of Y X is-a Y o spécifiques au domaine protein X interacts with gene Y interaction(x,y) Analyse distributionnelle (Compétence MIG) La classification non-supervisée appliquée à l analyse syntaxique d un corpus construit des hiérarchies de classes sémantiques (heat-shock = thermal upshock) is-a stress-factor. Intégration des deux familles de méthodes (Collaboration MIG TexMex) 17

Exemple : interrogation de base de brevet (Projet industriel : Jouve) 18

Conclusion La recherche fondamentale en informatique à MIG intégrée au sein de l INRA, organisme de recherche finalisée apporte un lien critique avec, la recherche en informatique (ici l INRIA) les besoins applicatifs (internes, ou industriels) Particulièrement vrai pour les Technologies de l Information et de la Communication, par nature, pluridisciplinaires, Projets Caderige et Quaero : exemples de coopération entre terminologues/documentalistes, informaticiens (IHM, SI, IA) et biologistes. 19