Construction d un dictionnaire multilingue de biodiversité à partir de dires d experts

Documents pareils
Comment déterminer les définitions les plus pertinentes d un sigle donné?

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Multi-catégorisation de textes juridiques et retour de pertinence

Ressources lexicales au service de recherche et d indexation des images

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Évaluation de G-LexAr pour la traduction automatique statistique

1 Description générale. Résumé

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

Aide : publication de décisions VS

Luc Grivel (*, **)

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Classification Automatique de messages : une approche hybride

Traduction automatique à partir de corpus comparables: extraction de phrases parallèles à partir de données comparables multimodales

Évaluation d une architecture de stockage RDF distribuée

Extraction automatique de terminologie à partir de libellés textuels courts

TEXT MINING von 7

Ingénierie et gestion des connaissances

Forthcoming Database

Expériences de formalisation d un guide d annotation : vers l annotation agile assistée

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

Aide du Grand dictionnaire terminologique

Une méthode d apprentissage pour la composition de services web

Les modes de recherche sur le Web 2.0

Apprentissage Automatique

Programme GREAT-MED: «Generating a Risk and Ecological Analysis Toolkit for the Mediterranean»

Vocabulaire juridique multilingue comparé. Caroline Reichling Direction générale de la Traduction Cour de justice de l Union européenne

Recherche bibliographique

Introduction à la B.I. Avec SQL Server 2008

Trois approches du GREYC pour la classification de textes

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

Integrated Music Education: Challenges for Teaching and Teacher Training Presentation of a Book Project

SYSTRAN 7 Guide de démarrage

Exploitation de hiérarchies sémantiques construites à partir du Trésor de la Langue Française informatisé (TLFi) pour la recherche d images

Recherche et veille documentaire scientifique

TEXT MINING Tour d Horizon

Rédigez efficacement vos rapports et thèses avec Word (2ième édition)

GKR. Geological Knowledge Representation Base de connaissances métallogéniques

Data issues in species monitoring: where are the traps?

Travaux pratiques avec RapidMiner

recommandation Domaine : Informatique, Intelligence Artificielle, Modélisation de préférences

CBBC Canadian Business & Biodiversity Council

Deadline(s): Assignment: in week 8 of block C Exam: in week 7 (oral exam) and in the exam week (written exam) of block D

La recherche documentaire et la recherche d informations professionnelles. BU Sciences BIU Montpellier PPE 2012

BIRT (Business Intelligence and Reporting Tools)

Les documents primaires / Les documents secondaires

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Technologie et terminologie: vers le grand partage de l information

ISTEX, vers des services innovants d accès à la connaissance

Table des matières. Préface...5. Introduction...9

Traitement automatique des entités nommées en arabe : détection et traduction

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

Application de l AMDEC à un satellite en phase active

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

Quel est l apport de la détection d entités nommées pour l extraction d information en domaine restreint?

Initiation à la recherche documentaire

Principe de symétrisation pour la construction d un test adaptatif

Chapitre 9 : Informatique décisionnelle

RETHINKING JACQUES ELLUL AND THE TECHNOLOGICAL SOCIETY IN THE 21ST CENTURY REPENSER JACQUES ELLUL ET LA SOCIETE TECHNICIENNE AU 21EME SIECLE

INTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Un métier, une passion : la traduction

Entrepôt de données 1. Introduction

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

Préparer un état de l art

JADT /06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire

GFM 296 UNIVERSITE LA SAGESSE FACULTÉ DE GESTION ET DE FINANCE GUIDE POUR LA REDACTION DU MEMOIRE DE MASTER MBA (FORMULAIRE D)

Réflexion sur la mise en place d'un système mobile d'aide à la navigation destiné aux services d'urgence basée sur une solution libre.

Entreposage de données complexes pour la médecine d anticipation personnalisée

Les Portfolios et Moodle Petit inventaire

COUNCIL OF THE EUROPEAN UNION. Brussels, 18 September 2008 (19.09) (OR. fr) 13156/08 LIMITE PI 53

GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU

INF 1250 INTRODUCTION AUX BASES DE DONNÉES. Guide d étude

Didacticiel Études de cas. Description succincte de Pentaho Data Integration Community Edition (Kettle).

Europresse.com. Pour bibliothèque d enseignement Pour bibliothèque publique. Consulter facilement la presse. Guide version 1.

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Exemple PLS avec SAS

RI sociale : intégration de propriétés sociales dans un modèle de recherche

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

UNIVERSITE LA SAGESSE FACULTÉ DE GESTION ET DE FINANCE MBA OPTION MIS. MIAGe METHODES INFORMATIQUES APPLIQUEES A LA GESTION

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

e-recrutement : recherche de mots-clés pertinents dans le titre des annonces d emploi

Supervision et infrastructure - Accès aux applications JAVA. Document FAQ. Page: 1 / 9 Dernière mise à jour: 15/04/12 16:14

Langue, techniques de rédaction et correction d épreuves (412-2A1-LG)

Table des matières L INTEGRATION DE SAS AVEC JMP. Les échanges de données entre SAS et JMP, en mode déconnecté. Dans JMP

LIVRE BLANC Décembre 2014

Recherche d information textuelle

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Accès instantané aux mots et aux locutions Le dictionnaire électronique offre une traduction rapide d'un mot ou d'une locution

Gestion de références bibliographiques

MASTER LPL : LANGUE ET INFORMATIQUE (P)

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Application d un algorithme de traduction statistique à la normalisation de textos

Méthode de classification des réponses d un moteur de recherche

Norme de qualité. Catégorie 3 : Services de traduction juridique (de l anglais au français ou du français à l anglais)

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

N SIMON Anne-Catherine

Ecole Technique «Transformation de données documentaires» Poitiers, mars Atelier 1: Sphinx. import, conversion, export de données

Transcription:

Construction d un dictionnaire multilingue de biodiversité à partir de dires d experts Mamadou Dieye*, Mohamed Rafik Doulache*, Mustapha Floussi*, Julie Chabalier**, Isabelle Mougenot *, ***, Mathieu Roche *, ****, *Université Montpellier 2 ** Natural Solutions, Marseille *** Espace-Dev, IRD, Montpellier **** LIRMM, CNRS, Montpellier RÉSUMÉ. Nous présentons les premières phases d'un travail orienté vers la construction d'un thésaurus trilingue dédié à la biodiversité en méditerranée. Notre démarche se veut résolument synthétique et exploite à posteriori les dires d'experts accessibles depuis les publications scientifiques faisant référence dans le domaine. Les termes clés, qui sont à la base du socle conceptuel nécessaire à une meilleure compréhension de la biodiversité en méditerranée, sont acquis au travers d'une approche rigoureuse de fouille de texte qui est détaillée ici. Les premiers résultats obtenus sont rapportés et évalués. Les experts du domaine seront ensuite sollicités pour aider à articuler les termes au travers de structures hiérarchiques et ainsi retranscrire leur savoir sous la forme d'un thésaurus dédié à la biodiversité dans le bassin méditerranéen. MOTS-CLÉS : thésaurus, biodiversité, fouille de texte ABSTRACT. We describe the first steps towards developing a methodology for building a trilingual thesaurus that is dedicated to biodiversity in the Mediterranean region. A key property of our synthetic approach is to discover expert domain knowledge by means of literature-based information extraction techniques. Thus, a highly relevant set of terms, which provides the foundation for a better understanding of biodiversity in a Mediterranean context, is acquired through a text mining method that is outlined in the manuscript. The first results are reported and evaluated. Experts in ecology and biodiversity will be invited in the near future to help improve the design of the terms through hierarchical taxonomies and thus inject their in-depth knowledge in form of a thesaurus dedicated to biodiversity in the Mediterranean region. KEYWORDS: thesaurus, biodiversity, text mining Revue. Volume X n x/année, pages 1 à X

2 INFORSID 2012 1. Introduction Un projet de construction d un glossaire trilingue (français, anglais, arabe) des termes de l'écologie, financé par la Banque Mondiale et le Conservatoire du Littoral vient de débuter. Un premier outil de type Wiki a d'ores et déjà permis à des scientifiques du domaine de dégager une cinquantaine de termes clés du domaine. Le travail que nous proposons consiste à extraire des termes consacrés à l écologie au travers d'une approche de fouille de texte. L'organisation entre les termes du glossaire est également au centre de nos préoccupations dans le cadre de ce projet global. Les experts du domaine seront alors sollicités afin de matérialiser leur savoir sous forme de relations entre termes clés de la biodiversité au travers de liens de généralisation/spécialisation, de voisinage ou encore de synonymie. A cet effet, un environnement dédié viendra faciliter la construction collaborative d'un thésaurus trilingue à partir du glossaire en cours d'acquisition. Cet article décrit la première phase de ce projet qui consiste à proposer un processus d extraction de la terminologie à partir d un corpus anglais afin de constituer un glossaire de la biodiversité. Dans ce contexte, une approche de fouille de texte composée de quatre étapes (conversion des fichiers PDF, normalisation, étiquetage morphosyntaxique, extraction de la terminologie) est appliquée (cf. Figure 1). Chaque étape est décrite en section 2. Une fois la terminologie acquise, un transfert lexical à partir des termes sources (en anglais) vers des termes cibles (en français) sera effectué. Dans ce cadre, un processus de fouille du Web est proposé. Celui-ci est résumé en section 3. Figure 1 : Processus de Fouille de Texte

Construction d un dictionnaire multilingue 3 2. Processus de Fouille de Texte Le processus de fouille de texte afin d extraire la terminologie à partir d un fichier PDF est décrit dans les sous-sections suivantes. 2.1 Prétraitement des données (étapes 1 et 2) La première étape du processus consiste à convertir les fichiers PDF en données textuelles. Pour cette tâche, plusieurs outils peuvent être appliqués (cf. Tableau 1). Notre travail d analyse a permis de mettre en relief le bon comportement de Simpo PDF converter 1, en particulier grâce à la restitution scrupuleuse de la forme originale des fichiers PDF. Caractéristiques / Outils Adobe Reader Foxit Reader Zilla PDF Simpo PDF to text Libre Oui Oui Oui Oui Conversion par lots Non Non Oui Oui Conservation de la mise en page Non Non Non Oui Tableau 1 : Comparaison des performances des outils de conversion sur la base de trois critères cruciaux pour le projet. L étape suivante consiste à normaliser les fichiers textuels afin qu ils soient adaptés à la phase d étiquetage morphosyntaxique. Ce traitement consiste, entre autres, à insérer un espace entre tous les mots lorsqu ils sont suivis d un signe de ponctuation. Ceci permet de distinguer les étiquettes propres aux mots par rapport aux étiquettes des ponctuations. 2.2 Etiquetage grammatical (étape 3) L étiquetage est le processus qui consiste à associer aux mots d'un texte une fonction grammaticale (nom, verbe, etc.) en s appuyant sur des informations lexicales et contextuelles. Pour une telle tâche, nous appliquons l étiqueteur de Brill (Brill 1994). Un exemple d étiquetage à partir de données réelles issues de la thématique de la biodiversité est donné ci-dessous : - Exemple avant étiquetage : The processes of domestication of plant and animal... 1 http://www.simpopdf.com/

4 INFORSID 2012 - Exemple après étiquetage avec les étiquettes DT (article), NN et NNS (noms au singulier et pluriel), IN (préposition), CC (conjonction de coordination): The/DT processes/nns of/in domestication/nn of/in plant/nn and/cc animal/nn... Outre un lexique constitué à partir du Wall Street Journal, l étiqueteur de Brill utilise deux types de règles : Règles lexicales : ces règles permettent de définir l étiquette du mot en s appuyant sur ses propriétés lexicales (par exemple, les informations liées aux suffixes et/ou préfixes). Règles contextuelles : ce type de règles permet d affiner l étiquetage, c'est-à-dire de revenir sur les étiquettes précédemment affectées et de les corriger en examinant le contexte local. L étiquetage s effectue en deux étapes. Durant la première étape, chaque mot du texte reçoit l étiquette la plus probable dans le contexte considéré, soit par consultation du lexique si le mot est connu, soit par application des règles lexicales si le mot est inconnu au lexique. Pendant la seconde étape, le système revient sur ces premières affectations, examine le contexte local et corrige éventuellement les étiquettes précédemment affectées à l aide des règles contextuelles (par exemple, «les mots suivis du modal can sont étiquetés comme des verbes»). Une fois l étiquetage grammatical effectué, l étape suivante consiste à extraire la terminologie. Dans ce contexte, nous nous sommes concentrés sur l extraction de la terminologie nominale, c est-à-dire les groupes de mots pertinents au regard de la thématique du projet (Bourigault et Jacquemin, 1999). 2.3 Extraction de la terminologie (étape 4) Dans nos travaux, nous utilisons le système EXIT (cf. Figure 2) qui est conçu pour extraire la terminologie à partir d un corpus étiqueté (Roche et al. 2004). Ce logiciel est destiné à des utilisateurs experts d'un domaine. Quelques connaissances en linguistique de base et dans la création d'expressions régulières peuvent néanmoins être nécessaires pour modifier les fichiers d'options (notamment pour concevoir et/ou modifier des patrons d extraction).

Construction d un dictionnaire multilingue 5 Lors de l extraction des termes, EXIT propose des couples ou triplets d unités prédéfinis (par exemple, des termes de type Nom-Nom, Adjectif- Nom, Nom-Préposition-Nom, etc.). Notons qu outre ces paramètres, l utilisateur peut appliquer des filtres statistiques (Information Mutuelle, Information Mutuelle au Cube, Rapport de Vraisemblance) qui permettent de présenter les termes les plus pertinents en tête de liste. Par ailleurs ce système peut appliquer un processus itératif afin de construire des termes plus complexes (composés de plusieurs mots). Figure 2 : Capture d écran du logiciel EXIT Le tableau 2 donne un exemple de termes pertinents, non pertinents, et non évalués par manque de connaissance experte (JNSP : «je ne sais pas»). L évaluation a été effectuée par consensus des trois premiers auteurs de cet article. Par ailleurs, le tableau 2 présente la répartition des évaluations de près de 200 candidats termes obtenus à partir d un article scientifique lié à la biodiversité Méditerranéenne 2. Ceci montre que 57% des termes ont été déclarés comme pertinents par rapport à cette thématique alors que 29% ne 2 Jacques Blondel, The Design of Mediterranean Landscapes: A Millennial Story of Humans and Ecological Systems during the Historic Period, Hum Ecol (2006) 34:713 729

6 INFORSID 2012 le sont pas. Notons que de nombreuses erreurs sont dues à des problèmes de nettoyage lors de la normalisation du texte original. Néanmoins la quantité de termes pertinents se révèle tout à fait satisfaisante et constitue un élément de base pour la construction d un dictionnaire spécialisé en biodiversité. Tableau 2 : Extrait de termes obtenus après application du processus complet de fouille de texte. 3. Perspectives : transfert lexical des termes Dans nos futurs travaux, nous proposerons une méthode de fouille du Web qui permettra de déterminer des termes en français représentant une traduction des termes extraits dans les textes en anglais (par exemple, le terme Mediterranean landscapes donné en section 2.3). Le transfert lexical d'une langue à une autre est un problème difficile particulièrement dans les domaines de spécialité (Claveau, 2008). Notre approche s'appuie, entre autres, sur une méthode de fouille du Web et sur l'algorithme PMI-IR (Pointwise Mutual Information and Information Retrieval) de (Turney, 2001). PMI-IR consiste à interroger le Web via un moteur de recherche pour déterminer des synonymes appropriés. A partir d'un terme donné noté mot, l'objectif de PMI-IR est de choisir un synonyme parmi une liste donnée. Ainsi, le but est de calculer, pour chaque mot, le synonyme choix i qui donne le meilleur score. Pour ce faire, l'algorithme PMI-IR utilise, de la même manière que nos travaux, différentes mesures statistiques fondées sur la proportion de documents dans lesquels les deux termes sont présents (par exemple, l Information Mutuelle ou la mesure de Dice). Plus la proportion de documents contenant ces deux mots est importante (par exemple, dans une fenêtre donnée) et plus mot et choix i sont considérés comme synonymes. L approche que nous souhaitons adopter dans ce projet se décline de la manière suivante :

Construction d un dictionnaire multilingue 7 Extraction des candidats à la traduction : Dans un premier temps, nous interrogeons un moteur de recherche (par exemple, Google) pour rassembler les pages Web contenant un terme à traduire (par exemple, Mediterranean landscapes). Nous cherchons alors les pages contenant le terme à traduire et certains marqueurs paralinguistiques comme les parenthèses afin d en extraire le contenu. Ce dernier peut se révéler un excellent candidat à la traduction après avoir vérifié de manière automatique qu il représente une expression écrite en français. L étape suivante consiste à nettoyer les données textuelles extraites en supprimant des données représentant du bruit (signes de ponctuation, marqueurs linguistiques, etc.). Ceci permet d obtenir un certain nombre de candidats normalisés. Par exemple avec l expression Mediterranean landscapes à traduire, nous pouvons obtenir le candidat Paysages Méditerranéens. Notons que ce principe a déjà été adopté avec succès dans un processus de traduction de termes liés au domaine informatique. Classement des candidats à la traduction : Dans un second temps, nous allons appliquer des méthodes de fouille du Web sur la base de l approche de Peter Turney décrite précédemment afin de classer les termes candidats à la traduction. Les mesures que nous souhaitons utiliser calculent une forme de dépendance entre un terme à traduire (exp) et les candidats proposés à l étape précédente (cand). Cette dépendance peut par exemple s appuyer sur la mesure de Dice où nb(exp) représente le nombre de pages retournées par un moteur de recherche avec la requête exp: Dice(exp,cand) = 2 X nb(exp, cand) / (nb(exp) + nb(cand)) Notons que nb(exp, cand) peut représenter le nombre de pages où les termes exp et cand sont présents dans la même page (dépendance souple) ou strictement voisins (dépendance stricte). Des expérimentations sur des données réelles liées au domaine informatique avec la dépendance stricte ont montré que le candidat proposé est pertinent dans 83% des premiers cas proposés par notre système (sur la base de 358 couples termes/candidats). Nous souhaitons maintenant expérimenter notre approche avec les termes spécifiquement liés à la biodiversité que nous avons obtenus dans la première partie du projet.

8 INFORSID 2012 4. Conclusion et Perspectives L objectif de notre projet porte sur la construction d un glossaire trilingue en Méditerranée. Il consiste, dans un premier temps, à extraire d un fichier PDF des termes standards liés à la biodiversité. Pour parvenir à ce résultat, nous avons mis en place plusieurs étapes successives de traitements. La première étape consiste à mener une analyse rigoureuse et méthodique des différents outils de conversion d un fichier PDF en un fichier textuel de bonne facture. Les deuxième et troisième étapes concernent respectivement la normalisation et l étiquetage grammatical des données textuelles. Enfin, la dernière étape a trait à l extraction de la terminologie. Dans la suite du travail, nous souhaitons focaliser notre recherche sur les méthodes de traduction qui pourront s appuyer sur des approches pointues de fouille du Web (Roche et Prince, 2010) mais aussi sur des méthodes d alignement de corpus (Och et Ney, 2004). A plus long terme, il nous faudra prendre en compte la traduction en arabe qui se révèlera plus complexe compte tenu des spécificités de cette langue. 5. Bibliographie Bourigault D., Jacquemin C. Term Extraction + Term Clustering: An Integrated Platform for Computer-Aided Terminology. Proceedings of the European Chapter of the Association for Computational Linguistics (EACL'99), p.15-22, 1999 Brill E.. Some advances in transformation-based part of speech tagging. In Proc. of AAAI, volume 1, pages 722 727, 1994. Claveau V. Automatic Translation of Biomedical Terms by Supervised Machine Learning. Proceedings of the Language Resources Conference (LREC), 2008 Och, F.J., Ney H. The Alignment Template Approach to Statistical Machine Translation. Computational Linguistics. Vol 30 n 4, 417-449, 2004 Roche M., Heitz T., Matte-Tailliez O., Kodratoff Y. EXIT: Un système itératif pour l'extraction de la terminologie du domaine à partir de corpus spécialisés. Dans les Actes des JADT, Volume 2, p946-956, 2004 Roche M, Prince V. A Web-Mining Approach to Disambiguate Biomedical Acronym Expansions. Informatica, Vol 34, No2, p243-253, 2010 Turney P. Mining the Web for synonyms: PMI IR versus LSA on TOEFL. In Proc. of ECML, pages 491 502, 2001.Kolski C., Interfaces homme-machine, Paris, Hermès, 1997