FOUILLE DE TEXTES Méthodes et enjeux 23 mars 2007 Adeline Nazarenko Laboratoire d Informatique de Paris-Nord UMR7030 Université Paris 13 & CNRS adeline.nazarenko@lipn.univ-paris13.fr Plan Applications Deux exemples en biologie Méthodes sous-jacentes 1 A. Nazarenko / LIPN
APPLICATIONS (1) Gestion de bases documentaires Retrouver un document pertinent par rapport à un besoin d information (recherche d information) Regrouper les documents en classes homogènes Routage, filtrage, catégorisation de documents Filtrage de mails Classification de dépêches Elimination du spam 2 A. Nazarenko / LIPN
APPLICATIONS (2) Accès au contenu des documents Alimenter des bases de données (extraction d information) Prise de participation des entreprises Interaction géniques Agenda de manifestations culturelles Interconnecter des bases de connaissances Synthétiser des contenus Résumés de larges documents Résumés statistiques d enquêtes d opinion Naviguer dans de larges documents 3 A. Nazarenko / LIPN
APPLICATIONS (3) La veille, entre accès aux documents et accès au contenu Qui fait quoi? Qui dit quoi? Quand? Où? En fonction d un secteur d activité et d un type d activité Trouver les sources Analyser les sources (fiabilité, nouveauté, représentativité ) Extraire des informations Les corréler Prendre des décisions 4 A. Nazarenko / LIPN
5 A. Nazarenko / LIPN
EXTRACTION D INFORMATION Explorer la bibliographie en génomique Il faut une journée pour annoter 8 gènes de Lactobacillus bulgaricus (2000 gènes)! Requête "Bacillus subtilis transcription" Moteur de recherche de MedLine Caderige Moteur d extraction d information 2243 résumés d articles 6 A. Nazarenko / LIPN
... DU TEXTE AU FRAGMENT UI - 99175219 AU - Ichikawa H AU - Halberg R AU - Kroos L TI - Negative regulation by the Bacillus subtilis GerE protein.... PT - JOURNAL ARTICLE... DP - 1999 Mar 19 TA - J Biol Chem AB - GerE is a transcription factor produced in the mother cell compartment of sporulating Bacillus subtilis. It is a critical regulator of cot genes encoding proteins that form the spore coat late in development. Most cot genes, and the gere gene, are transcribed by sigmak RNA polymerase. Previously, it was shown that the GerE protein inhibits transcription in vitro of the sigk gene encoding sigmak. Here, we show that GerE binds near the sigk transcriptional start site, to act as a repressor. A sigk-lacz fusion containing the GerE-binding site in the promoter region was expressed at a 2-fold lower level during sporulation of wild-type cells than gere mutant cells. Likewise, the level of SigK protein (i. e. pro-sigmak and sigmak) was lower in sporulating wildtype cells than in a gere mutant. Résumé de Medline 7 A. Nazarenko / LIPN
DU FRAGMENT AU FORMULAIRE Fragment de texte sélectionné dans un résumé de MedLine [..] the GerE protein inhibits transcription in vitro of the sigk gene encoding sigmak [..] Formulaire Interaction Type : negative Agent : GerE protein Cible : Expression : Source : sigk gene Produit : sigmak 8 A. Nazarenko / LIPN
APPROCHE GÉNÉRALE Requête (mots clefs) Base documentaire (Medline) Recherche d information Articles potentiellement pertinents Sélection de fragments Fragments potentiellement pertinents Formulaire Extraction Formulaire 9 A. Nazarenko / LIPN
EXPLOITATION D INDICES LINGUISTIQUES GerE stimulates cotd transcription and y cota transcription [ ], and, unexpectedly, inhibits [ ] transcription of the gene (sigk) [ ] Exemple de règle [Appelt et al. 93, Grishman 95] SI le sujet X d un verbe Y d interaction est un nom de protéine et l objet direct Z est un nom de gène ou l expression d un gène ALORS Il y a une interaction dont X est l agent et Z est la cible Apprendre des règles d extraction 10 A. Nazarenko / LIPN
NORMALISER LES TEXTES Document P R O D U C T I O N Etiquetage des entités nommées Segmentation Etiquetage morpho-syntaxique Etiquetage terminologique Analyse syntaxique Etiquetage sémantique Dictionnaire d entités nommées Lexique morpho-syntaxique Terminologie Ontologie Extraction d information Règles d extraction Document annoté (Formulaire rempli) 11 A. Nazarenko / LIPN
COUPLER ACQUISITION ET PRODUCTION Document Corpus d'acquisition ACQUISITION P R O D U C T I O N Etiquetage des entités nommées Segmentation Etiquetage morpho-syntaxique Etiquetage terminologique Analyse syntaxique Etiquetage sémantique Dictionnaire d entités nommées Lexique morpho-syntaxique Terminologie Ontologie Extraction d information Document annoté Déjeuner de la (Formulaire technologie rempli) Règles d extraction 12 A. Nazarenko / LIPN
Enjeux Analyser les langues de spécialités Biologie Droit Chimie Médecine Coupler analyse de texte et acquisition de connaissances Acquisition de dictionnaires Acquisition de terminologie Acquisition d ontologie (thesaurus) Acquérir de nouveaux types de connaissances? Concevoir de nouvelles méthodes d accès au texte Recherche + Extraction + Navigation Résumé d un article de MedLine 13 A. Nazarenko / LIPN