FOUILLE DE TEXTES Méthodes et enjeux



Documents pareils
Ecole Technique «Transformation de données documentaires» Poitiers, mars Atelier 1: Sphinx. import, conversion, export de données

Pratiques induites par les réunions à distance : discours, identités et organisation des actions

Apprentissage Automatique

TEXT MINING Tour d Horizon

ISTEX, vers des services innovants d accès à la connaissance

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Concevoir sa stratégie de recherche d information

Ingénierie et gestion des connaissances

UNIVERSITY OF MALTA FACULTY OF ARTS. French as Main Area in an ordinary Bachelor s Degree

TRAVAUX DE RECHERCHE DANS LE

! Text Encoding Initiative

Morphosyntaxe de l'interrogation en conversation spontanée : modélisation et évaluations

N. Paparoditis, Laboratoire MATIS

GKR. Geological Knowledge Representation Base de connaissances métallogéniques

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

Informatique Médicale & Ingénierie des Connaissances Pour la e-santé

Que signifie être membre du Programme de l OMS pour la pharmacovigilance internationale

Interest Rate for Customs Purposes Regulations. Règlement sur le taux d intérêt aux fins des douanes CONSOLIDATION CODIFICATION

Préparer un état de l art

Les bases de données transcriptionnelles en ligne

Dafoe Présentation de la plate-forme UIMA

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Short-term Pooled Investment Fund Regulations. Règlement sur le fonds commun de placement à court terme CONSOLIDATION CODIFICATION

Déjeuner de la Technologie 23 Mars 2007 Gestion de Documents Electroniques. Thierry GUILLOTIN - Elie FRANCIS EVER TEAM

PRÉSENTATION PRODUIT. Plus qu un logiciel, la méthode plus efficace de réconcilier.

Compte-rendu technique complet et détaillé des cookies

Natixis Asset Management Response to the European Commission Green Paper on shadow banking

Règlement sur les baux visés à la Loi no 1 de 1977 portant affectation de crédits. Appropriation Act No. 1, 1977, Leasing Regulations CODIFICATION

COUNCIL OF THE EUROPEAN UNION. Brussels, 18 September 2008 (19.09) (OR. fr) 13156/08 LIMITE PI 53

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Material Banking Group Percentage Regulations. Règlement fixant le pourcentage (groupe bancaire important) CONSOLIDATION CODIFICATION

Appointment or Deployment of Alternates Regulations. Règlement sur la nomination ou la mutation de remplaçants CONSOLIDATION CODIFICATION

Small Businesses support Senator Ringuette s bill to limit credit card acceptance fees

SEMINAIRE SAS VISUAL ANALYTICS LAUSANNE, MARCH 18 : JÉRÔME BERTHIER VALERIE AMEEL

Calculation of Interest Regulations. Règlement sur le calcul des intérêts CONSOLIDATION CODIFICATION. Current to August 4, 2015 À jour au 4 août 2015

Dossier de presse. L Anses lance son nouveau site Internet

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Participer à l activité en ligne d un groupe. Michel Futtersack, Faculté de Droit, Université Paris Descartes, Sorbonne Paris Cité

Recherche bibliographique

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Order Binding Certain Agents of Her Majesty for the Purposes of Part 1 of the Personal Information Protection and Electronic Documents Act

First Nations Assessment Inspection Regulations. Règlement sur l inspection aux fins d évaluation foncière des premières nations CONSOLIDATION

MABioVis. Bio-informatique et la

Railway Operating Certificate Regulations. Règlement sur les certificats d exploitation de chemin de fer CODIFICATION CONSOLIDATION

Hervé Couturier EVP, SAP Technology Development

Formulaire de candidature pour les bourses de mobilité internationale niveau Master/ Application Form for International Master Scholarship Programme

IDENTITÉ DE L ÉTUDIANT / APPLICANT INFORMATION

REMARQUES IMPORTANTES. - L usage d une calculatrice non programmable est autorisé.

GEDEXPERT. La Gestion Electronique de Documents spécialement conçue pour les Experts Comptables VOTRE NOUVEL ASSISTANT POUR

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

ÉVALUATION PRIMAIRE D UN SYSTÈME D AIDE AU CONTRÔLE AÉRIEN EN ROUTE

Cheque Holding Policy Disclosure (Banks) Regulations. Règlement sur la communication de la politique de retenue de chèques (banques) CONSOLIDATION

Le traitement automatique des langues dans les industries de l'information

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques

Ships Elevator Regulations. Règlement sur les ascenseurs de navires CODIFICATION CONSOLIDATION. C.R.C., c C.R.C., ch. 1482

Archived Content. Contenu archivé

2013 IIHF WORLD WOMEN S HOCKEY CHAMPIONSHIP

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

1 Description générale. Résumé

LOI SUR LA RECONNAISSANCE DE L'ADOPTION SELON LES COUTUMES AUTOCHTONES ABORIGINAL CUSTOM ADOPTION RECOGNITION ACT

Des applications locales à l infonuagique: comment faire la transition?

Technologie et terminologie: vers le grand partage de l information

SYSTRAN 7 Guide de démarrage

Air Transportation Tax Order, Décret de 1995 sur la taxe de transport aérien CONSOLIDATION CODIFICATION

Master Informatique Aix-Marseille Université

FORMATION PROFESSIONNELLE

Surveillance de Scripts LUA et de réception d EVENT. avec LoriotPro Extended & Broadcast Edition

Luc Grivel (*, **)

Les modes de recherche sur le Web 2.0

Classification Automatique de messages : une approche hybride

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Annotation collaborative en ligne de l'archive manuscrite

LabCom SMILK. Social Media Intelligence and Linked Knowledge. ISTE 2013 Keynote thumb wrestling

Projet base de connaissances Réseau UNAF / UDAF. Cahier des charges

2 ième AG de MAGMET Article de presse 2 ième AG of MAGMET Press article

Introduction de la journée

RÈGLEMENT SUR LES CEINTURES DE SÉCURITÉ ET LES ENSEMBLES DE RETENUE POUR ENFANTS R.R.T.N.-O. 1990, ch. M-35

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Entreposage de données complexes pour la médecine d anticipation personnalisée

RÈGLEMENT SUR LA RÉGION DE CONSERVATION DU NOYAU DE POPULATION MOBILE DU CARIBOU DE BATHURST R En vigueur le 28 janvier 2015

RULE 5 - SERVICE OF DOCUMENTS RÈGLE 5 SIGNIFICATION DE DOCUMENTS. Rule 5 / Règle 5

Form of Deeds Relating to Certain Successions of Cree and Naskapi Beneficiaries Regulations

CONSOLIDATION CODIFICATION. Current to August 30, 2015 À jour au 30 août 2015

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Sendmail milter/greylisting

Support Orders and Support Provisions (Banks and Authorized Foreign Banks) Regulations

NOM ENTREPRISE. Document : Plan Qualité Spécifique du Projet / Project Specific Quality Plan

UNIVERSITÉ DE TECHNOLOGIE COMPIÈGNE. Département Génie des Systèmes Mécaniques / UMR CNRS Roberval en option Sous titre ex : Espace documentaire

Le nouveau portail Internet de la Fondation Mohammed VI. Dossier de presse

Le pilotage des collaborations et l interopérabilité des systèmes d information Vers une démarche intégrée

Portefeuille de ta vision

Ressources lexicales au service de recherche et d indexation des images

Tex: The book of which I'm the author is an historical novel.

Loi sur la remise de certaines dettes liées à l aide publique au développement. Forgiveness of Certain Official Development Assistance Debts Act

UTILISATION DE LA PLATEFORME WEB D ANALYSE DE DONNÉES GALAXY

Séminaire «Maîtrise de l information scientifique» Exploitation de l information : optimiser sa gestion documentaire

Initiation à la recherche documentaire

Conserver les Big Data, source de valeur pour demain

INSTITUT MARITIME DE PREVENTION. For improvement in health and security at work. Created in 1992 Under the aegis of State and the ENIM

Instrumentation de la recherche en Education : analyse épistémologique de quelques logiciels d aide à l analyse d enregistrements vidéos

Transcription:

FOUILLE DE TEXTES Méthodes et enjeux 23 mars 2007 Adeline Nazarenko Laboratoire d Informatique de Paris-Nord UMR7030 Université Paris 13 & CNRS adeline.nazarenko@lipn.univ-paris13.fr Plan Applications Deux exemples en biologie Méthodes sous-jacentes 1 A. Nazarenko / LIPN

APPLICATIONS (1) Gestion de bases documentaires Retrouver un document pertinent par rapport à un besoin d information (recherche d information) Regrouper les documents en classes homogènes Routage, filtrage, catégorisation de documents Filtrage de mails Classification de dépêches Elimination du spam 2 A. Nazarenko / LIPN

APPLICATIONS (2) Accès au contenu des documents Alimenter des bases de données (extraction d information) Prise de participation des entreprises Interaction géniques Agenda de manifestations culturelles Interconnecter des bases de connaissances Synthétiser des contenus Résumés de larges documents Résumés statistiques d enquêtes d opinion Naviguer dans de larges documents 3 A. Nazarenko / LIPN

APPLICATIONS (3) La veille, entre accès aux documents et accès au contenu Qui fait quoi? Qui dit quoi? Quand? Où? En fonction d un secteur d activité et d un type d activité Trouver les sources Analyser les sources (fiabilité, nouveauté, représentativité ) Extraire des informations Les corréler Prendre des décisions 4 A. Nazarenko / LIPN

5 A. Nazarenko / LIPN

EXTRACTION D INFORMATION Explorer la bibliographie en génomique Il faut une journée pour annoter 8 gènes de Lactobacillus bulgaricus (2000 gènes)! Requête "Bacillus subtilis transcription" Moteur de recherche de MedLine Caderige Moteur d extraction d information 2243 résumés d articles 6 A. Nazarenko / LIPN

... DU TEXTE AU FRAGMENT UI - 99175219 AU - Ichikawa H AU - Halberg R AU - Kroos L TI - Negative regulation by the Bacillus subtilis GerE protein.... PT - JOURNAL ARTICLE... DP - 1999 Mar 19 TA - J Biol Chem AB - GerE is a transcription factor produced in the mother cell compartment of sporulating Bacillus subtilis. It is a critical regulator of cot genes encoding proteins that form the spore coat late in development. Most cot genes, and the gere gene, are transcribed by sigmak RNA polymerase. Previously, it was shown that the GerE protein inhibits transcription in vitro of the sigk gene encoding sigmak. Here, we show that GerE binds near the sigk transcriptional start site, to act as a repressor. A sigk-lacz fusion containing the GerE-binding site in the promoter region was expressed at a 2-fold lower level during sporulation of wild-type cells than gere mutant cells. Likewise, the level of SigK protein (i. e. pro-sigmak and sigmak) was lower in sporulating wildtype cells than in a gere mutant. Résumé de Medline 7 A. Nazarenko / LIPN

DU FRAGMENT AU FORMULAIRE Fragment de texte sélectionné dans un résumé de MedLine [..] the GerE protein inhibits transcription in vitro of the sigk gene encoding sigmak [..] Formulaire Interaction Type : negative Agent : GerE protein Cible : Expression : Source : sigk gene Produit : sigmak 8 A. Nazarenko / LIPN

APPROCHE GÉNÉRALE Requête (mots clefs) Base documentaire (Medline) Recherche d information Articles potentiellement pertinents Sélection de fragments Fragments potentiellement pertinents Formulaire Extraction Formulaire 9 A. Nazarenko / LIPN

EXPLOITATION D INDICES LINGUISTIQUES GerE stimulates cotd transcription and y cota transcription [ ], and, unexpectedly, inhibits [ ] transcription of the gene (sigk) [ ] Exemple de règle [Appelt et al. 93, Grishman 95] SI le sujet X d un verbe Y d interaction est un nom de protéine et l objet direct Z est un nom de gène ou l expression d un gène ALORS Il y a une interaction dont X est l agent et Z est la cible Apprendre des règles d extraction 10 A. Nazarenko / LIPN

NORMALISER LES TEXTES Document P R O D U C T I O N Etiquetage des entités nommées Segmentation Etiquetage morpho-syntaxique Etiquetage terminologique Analyse syntaxique Etiquetage sémantique Dictionnaire d entités nommées Lexique morpho-syntaxique Terminologie Ontologie Extraction d information Règles d extraction Document annoté (Formulaire rempli) 11 A. Nazarenko / LIPN

COUPLER ACQUISITION ET PRODUCTION Document Corpus d'acquisition ACQUISITION P R O D U C T I O N Etiquetage des entités nommées Segmentation Etiquetage morpho-syntaxique Etiquetage terminologique Analyse syntaxique Etiquetage sémantique Dictionnaire d entités nommées Lexique morpho-syntaxique Terminologie Ontologie Extraction d information Document annoté Déjeuner de la (Formulaire technologie rempli) Règles d extraction 12 A. Nazarenko / LIPN

Enjeux Analyser les langues de spécialités Biologie Droit Chimie Médecine Coupler analyse de texte et acquisition de connaissances Acquisition de dictionnaires Acquisition de terminologie Acquisition d ontologie (thesaurus) Acquérir de nouveaux types de connaissances? Concevoir de nouvelles méthodes d accès au texte Recherche + Extraction + Navigation Résumé d un article de MedLine 13 A. Nazarenko / LIPN