Recherche d information et repérage de termes et de leurs variantes

Documents pareils

Apprentissage Automatique

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

1 Description générale. Résumé

Recherche d Information(RI): Fondements et illustration avec Apache Lucene. par Majirus

Bases de données documentaires et distribuées Cours NFE04

INDEXATION ET RECHERCHE D'INFORMATION (IRI) Cours DESS II et SCHM, Université Paris 11

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

! Text Encoding Initiative

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Gestion collaborative de documents

Construction d ontologies à partir de textes

LIVRE BLANC Décembre 2014

N SIMON Anne-Catherine

Accès instantané aux mots et aux locutions Le dictionnaire électronique offre une traduction rapide d'un mot ou d'une locution

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

données en connaissance et en actions?

Extraction automatique de terminologie à partir de libellés textuels courts

Recherche bibliographique

Grammaires d unification

La classification automatique de données quantitatives

Modélisation des données

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Ressources lexicales au service de recherche et d indexation des images

TEXT MINING Tour d Horizon

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

et les Systèmes Multidimensionnels

Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

Le modèle standard, SPE (1/8)

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Introduction au Data-Mining

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie

IFT2255 : Génie logiciel

Catalogue des formations Edition 2015

TEXT MINING von 7

Construction et maintenance d une ressource lexicale basées sur l usage

Entrepôt de données 1. Introduction

INF6304 Interfaces Intelligentes

MODELISATION UN ATELIER DE MODELISATION «RATIONAL ROSE»

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

JADT /06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

Classification Automatique de messages : une approche hybride

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Formula Negator, Outil de négation de formule.

Compte-rendu de Hamma B., La préposition en français

: seul le dossier dossier sera cherché, tous les sousdomaines

Unix/Linux I. 1 ere année DUT. Université marne la vallée

1. Cliquez sur dans le coin supérieur gauche de l'écran 2. Sélectionnez la Langue de l'interface désirée 3. Cliquez sur

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Architecture d'entreprise : Guide Pratique de l'architecture Logique

Les Entrepôts de Données

Information utiles. webpage : Google+ : digiusto/

THOT - Extraction de données et de schémas d un SGBD

Traitement bas-niveau

Recherche d information textuelle

Bases de données Cours 1 : Généralités sur les bases de données

Évaluation et implémentation des langages

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

Introduction aux SGBDR

Programme. Matière : RECHERCHE D INFORMATION Crédit : 4 Cours : 1h30 TD : 1h30 Semestre : S1 du M1 Assuré par: Herzallah Abdelkarim

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Présentation du module Base de données spatio-temporelles

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB Olivier Augereau Formation UML

Systèmes d information et bases de données (niveau 1)

Vocabulaire juridique multilingue comparé. Caroline Reichling Direction générale de la Traduction Cour de justice de l Union européenne

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

TYPO3 & Synomia Cédric Tempestini <ctempestini@archriss.com>

Introduction à la B.I. Avec SQL Server 2008

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

Cours Bases de données

nom : Collège Ste Clotilde

UE 8 Systèmes d information de gestion Le programme

DES OUTILS DE RECHERCHE À VOTRE MESURE, LA SUITE JURIBISTRO MD DU CAIJ : COMMENT MIEUX EXPLOITER CES OUTILS? PLAN DE FORMATION

Introduction au Data-Mining

Introduction à MATLAB R

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Big Data et Graphes : Quelques pistes de recherche

Differential Synchronization

INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

La demande Du consommateur. Contrainte budgétaire Préférences Choix optimal

Limitations of the Playstation 3 for High Performance Cluster Computing

GKR. Geological Knowledge Representation Base de connaissances métallogéniques

GROUPE DE TRAVAIL «ARTICLE 29» SUR LA PROTECTION DES DONNÉES

Business Intelligence

Cours 1 : La compilation

Apprentissage statistique dans les graphes et les réseaux sociaux

Conception des bases de données : Modèle Entité-Association

Analyse d images. Edmond.Boyer@imag.fr. Edmond Boyer UFRIMA 1

Transcription:

Recherche d information et repérage de termes et de leurs variantes Cours de Dialogue et Analyse de Texte Aurélien Max Master Recherche en Informatique Université Paris-Sud 11 Année 2006-07

Plan du cours 1 Introduction 2 Indexation 3 Terminologie 4 Systèmes d acquisition 5 Variation terminologique 6 Repérage des variantes : Fastr

Recherche d information Besoins d information : disposer des bonnes informations par rapport à une question ou à un problème donné Importance accrue de la veille scientifique, technique, commerciale, culturelle, etc. L accès aux informations externes est devenu tout aussi important que l accès aux informations internes Types de recherche d information questions précises, ex : Quels sont les programmes que je peux utiliser pour installer des programmes sous Linux Debian? problèmes plus larges, ex : installation de programmes sous Linux

Principales difficultés de la recherche d information Les bases documentaires sont très grandes, réparties sur de nombreux supports dans des endroits différents Nos capacités de recherche et d assimilation sont très limitées ; or il faut être capable de trouver, classer et comparer de nombreux documents Comment un document remplit-il un besoin informationnel? Quel est sa pertinence? Les documents pertinents ne sont pas nécessairement dans la langue souhaitée

Évolution de la recherche d information Précédemment : bases documentaires structurées (essentiellement des bases de données relationnelles) et de taille relativement peu importante accès par des métadonnées décrivant les documents (pas toujours disponible en texte intégral électronique : documents physiques, bitmaps, etc.) utilisation de langages documentaires par des spécialistes Aujourd hui : les documents existent sous forme électronique et sont multimédia nombreux formats de représentation (texte brut, HTML, XML, RTF, PDF, formats propriétaires, etc.) bases de documents à accès restreint, et... le web de plus en plus de données non structurées (pour les données structurées, voir le cours de Web Sémantique) il faut pouvoir faire une recherche directement sur le contenu textuel (texte intégral) (et/ou sur les autres éléments des documents) la réponse n est pas stéréotypée ni organisée, et elle peut répondre plus ou moins bien à la question posée

Recherche d information et Internet Utilisation massive par des utilisateurs non experts la requête typique est constituée d au plus quelques mots clés domaine en pleine expansion économique (Altavista, Yahoo, Lycos, AskJeeves, Google, MSN, etc.) Une partie du web n est pas directement accessible (web invisible : pages à accès restreint et pages dynamiques) L information présente est fortement multilingue : les documents répondant aux requêtes peuvent être dans des langues différentes L information présente n est pas toujours fiable (le web peut être un vecteur de désinformation) La visualisation de l information est particulièrement importante : classement des résultats, présentation d extraits, extraction de segments pertinents, etc.

Performance de la recherche d information Classement des documents retournés par score décroissante, avec de nombreux critères pouvant intervenir (date du document, qualité/notoriété de la source, liens commerciaux, etc.) Évaluation par l utilisateur, qui dépend : de la pertinence (relevance) des documents retournés et la quantité de bruit (comment détermine-t-on si un document est pertinent? Cela dépend du point de vue de l utilisateur, de ses connaissances, etc.) du temps de réponse du système de l ergonomie du système (présentation des résultats, mode d interaction) Évaluation automatique : comparaison booléenne des documents retournés avec des réponses «idéales» (un document en fait partie ou pas) notions de précision et de rappel campagnes d évaluation de systèmes de recherche d information

Évaluation booléenne (1/3) Rappel = card(rp) card(p) Silence = 1 Rappel = card(p) card(rp) card(p) Précision = card(rp) card(r) Bruit = 1 Précision = card(r) card(rp) card(r)

Évaluation booléenne (2/3) Cas spécifiques : Pour un document dont l existence est certaine, on raisonne davantage en termes du temps nécessaire pour le trouver Sur de très grandes bases documentaires, la pertinence des premiers documents retournés importe plus que le rappel, et il faut minimiser le bruit Le rappel augmente avec le nombre de réponses, mais la précision diminue. On utilise des courbes Précision/Rappel pour caractériser les systèmes de recherche d information, ex :

Évaluation booléenne (3/3) On utilise également une mesure combinant la précision et le rappel, la F-mesure, qui correspond à leur moyenne harmonique : 1 F = α P 1 +(1 α) R 1 = (β 2 + 1) P R) β 2 P + R avec α = 1 β 2 + 1 Pour donner autant d importance à la précision qu au rappel, on utilise β = 1 : F = 2 P R P + R Les valeurs β < 1 favorisent la précision, et les valeurs β > 1 le rappel

Prétraitement des documents (1/2) Le parcours complet de l ensemble des documents avec les termes d une requête est impossible en pratique : trop de documents (pas forcément toujours accessibles) et temps de réponse prohibitif On passe par un traitement préalable des documents contenus dans les bases : l indexation Le but de l indexation automatique est de transformer des documents en substituts capables de représenter le contenu de ces documents (Salton et McGill, 1983) Parmi les difficultés de l indexation, on trouve celles inhérentes à la langue utilisée dans les documents Les index peuvent prendre plusieurs formes : mots simples, termes complexes, syntagmes, entrées dans un thésaurus, etc. les index sont plus ou moins difficiles à extraire les index sont extraits des documents, et donc ne représentent qu une partie de ces documents

Prétraitement des documents (2/2) Un fichier inverse associe des index aux documents qui les contiennent, ex : abaissement de Ph d2, d85, d22, d37 abaissement de température d3, d85 abaissement de teneur d782 L indexation peut être : libre : mots, termes contrôlée : listes de termes contrôlés, listes d autorité (pour chaque concept existe un terme unique), thésaurus (ensemble de concepts structurés sémantiquement). Exemple du thésaurus UMLS (Unified Medical Language System) :

Architecture des systèmes de RI «[...] on voit dès lors le service que peut rendre à la RI l ingénierie linguistique, qui met en rapport la question de l utilisateur exprimée avec ses propres mots, et les textes interrogés, exprimés par leurs auteurs avec d autres mots.» (C. Fluhr)

Caractéristiques de la langue et RI À la différence des langages artificiels, la langue est : implicite : tout n est pas dit de façon explicite dans les textes et leur compréhension requiert de nombreuses connaissances sur le contexte et sur le monde redondante : la langue offre de nombreuses façons de formuler le même contenu (variations des mots aux textes) ambiguë : un même énoncé peut souvent être interprété de différentes façons La recherche d information est également rendue compliquée par : le fait que des mots peuvent jouer des rôles différents dans les textes le fait que les mots peuvent être composés sous forme de mots composés ou termes

Caractère redondant de la langue La synonymie est l équivalence de sens entre mots ou entre mots et expressions : totale : vélo et bicyclette partielle : hyperonymie (terme générique) : véhicule vélo hyponymie (terme spécifique) : VTT vélo méronymie (partie de) : cadre vélo holonymie (totalité de) : pédalier pédale abbréviations : s il-vous-plaît et SVP entre mots et expressions : périphrases : lave-vaisselle et machine à laver la vaisselle définitions : selle et petit siège, le plus souvent de cuir, d un cycle ou d un véhicule à deux roues à moteur sigles : VTC et Vélo Tout Chemin La paraphrase est l équivalence de sens entre expressions dont les termes et/ou la syntaxe diffèrent.

Caractère ambigü de la langue De nombreux phénomènes rendent les textes ambigüs, notamment : homographes (mots de catégories différentes mais dont une forme fléchie coïncide), ex : Les poules du couvent couvent sigles et acronymes peuvent également être homographes : (1a) Il a un PC à la maison (1b) Le candidat du PC a remporté l élection (2a) Il a fait un don à l ARC (2b) Vincent a appris à souder à l arc polysèmes (mots ayant plusieurs sens et dont toutes les formes fléchies coïncident), ex : Les cambrioleurs ont volé le tableau, Les oies sauvages ont volé toute la journée structures syntaxiques menant à des interprétations différentes, ex : Le pilote ferme la porte, Vincent a acheté un gâteau à Brigitte, Quel auteur cite ce conférencier? anaphores, ex : Kévin aide Vincent parce qu il est gentil ellipses, ex : Vincent programme en Perl et Kévin en CAML, Vincent aime son vélo, et moi aussi

Rôle des mots et RI L identification du rôle que jouent les mots dans les phrases peut avoir un impact sur la recherche d information, ex : Vincent a été convoqué par sa directrice de thèse. (patient) Vincent a terminé l écriture de son programme. (agent) Cette entreprise fabrique des ordinateurs. (produits industriels) L ordinateur a produit des résultats étonnants. (instrument de calcul) L ordinateur est désormais présent dans une majorité de foyer. (objet qu on possède) De nombreux rôles sont possibles : agent, patient, origine-source, but-bénéficiaire, instrument-moyen, résultat-produit, etc.

Chaîne d indexation

Mémorisation des index Représentation du contenu des documents par des matrices index x documents, ex : Les matrices étant essentiellement creuses, on utile une liste chaînée par index représentant la liste des documents qui le contiennent (insertion et recherches faciles) :

Normalisation linguistique Pour une indexation simple basée sur les mots : conserver la forme fléchie (i.e. celle du document) utiliser la racine morphologique, ex : algorithme de racinisation (stemming) de Porter pour l anglais automates, automatic, automation automat conventions et phases de réduction, ex : appliquer en priorité les règles qui s appliquent aux suffixes les plus longs règles, ex : sses ss, ies i, ational ate, tional tion utiliser le lemme (entrée du dictionnaire) utilisation de transducteurs ou de dictionnaires de mots fléchis

Construction des fichiers inverses

Mémorisation des index Mémorisation : les dictionnaires sont en mémoire de travail les postings sont plutôt en mémoire de stockage Compromis entre techniques de compression de l information et vitesse d exécution des requêtes Nature des formes stockées stockage de tous les caractères ou d une partie, ex : caractères accentués (resume Vs résumé) utilisation de la racinisation (stemming) : nombre de termes réduit d environ 40% nombre de pointeurs réduit de 10-20% espace total réduit d environ 30% Non conservation de certaines formes, ex : utilisation de listes de mots vides (stop lists) règle des 30 : environ 30 mots représentent environ 30% des occurrences de termes dans des textes écrits éliminer les 150 termes les plus fréquents réduit l espace d environ 25%

Requêtes booléennes Requêtes boolénnes (termes connectés par ET, OU et modifiables par NON) : permettent des recherches précises, ex : Brutus AND Caesar trouver les postings de «Brutus» et «Caesar» parcours simulanné des deux listes (temps linéaire sur le nombre d entrées ; nécessite que les postings soient triés) Optimisation du temps de traitement, ex : requête conjonctive Brutus AND Calpurnia AND Caesar : commencer par considérer le plus petit ensemble, et continuer à couper l espace des résultats (fréquences conservées dans le dictionnaire) : (Caesar AND Brutus) AND Calpurnia

Recherche par proximité et recherche flexible Recherche de segments (ex : «to be or not to be») ou de proximités (ex : moteur NEAR recherche) : mémorisationde la position (offset) des termes dans les documents, ex : be : 1 :17,19; 4 :17,191,291,430,434... augmentation significative de la taille de l index (*2 à *4), l index de position représente jusqu à 50% de la taille du texte indexé regroupement des positions dans les documents et recherche des segments Recherche flexible support de jockers (ex : info*) correction orthographique (erreurs de reconnaissance (OCR), de saisie) des index (utilisation de dictionnaires) ou des requêtes (utilisation des index) : correction des mots en isolation : distance d édition, éventuellement pondérée (erreurs fréquentes de saisie (ex : a q) ou de reconnaissance (ex : D O)) mots en contexte (ex : flight form Eathrow) : trouver des mots proches pour chaque mot et tester les fréquences des combinaisons ; utiliser les plus grands ensembles ou les requêtes les plus populaires correction phonétique (ex : chebyshev rightarrow tchebycheff), utilisation de l algorithme Soundex qui réduit chaque mot en une forme réduite de 4 caractères (ex : Herman H655)

Indexation dynamique Les documents changent avec le temps : apparition de nouveaux termes / documents apparition de nouvelles occurrences de termes disparition de termes / documents Approche simple : deux index : index principal et index auxilaire recherche dans les deux index, regroupement des résultats utilisation d un vecteur d invalidation pour les documents disparus (mais possibilité de mettre en cache) fusion périodique des deux index Mises à jour dynamiques sur l index plus compliquées à mettre en œuvre Compromis pour l accès et la mise-à-jour : stockage en mémoire de travail ou sur mémoire de masse

Recherche : calcul de scores Les requêtes booléennes associe ou non un document à l ensemble des résultats : type de recherche adapté pour les spécialistes, mais possibilité de nombreux résultats en général les utilisateurs ne souhaitent pas analyser finement de nombreux résultats ; de plus, la formulation d expressions booléennes n est pas forcément simple classement des résultats dans un ordre susceptible de correspondre au besoin informationnel de l utilisateur Calcul sur les expressions booléennes : vecteur de poids pour chaque élément de l expression (spécifié par l utilisateur ou déterminé automatiquement) combinaison linéaire de booléens tri par score décroissant (N meilleurs résultats) Pour les recherches en texte intégral, possibilté d exprimer une requête en langue naturelle

Pondération de termes : modèle «sac de mots» Intuition : plus un document contient un terme, et plus il est «à propos» de ce terme (plus il est pertinent par rapport à une requête qui contient ce terme) Modèles «sacs de mots» (bag-of-words) : nombre d occurrences d un terme dans chaque document (fréquence du terme) Problème : ces modèles ne tiennent pas compte de l ordre des mots Si cela est important, il faut alors mémoriser la position des occurrences individuelles des mots dans les index Les longs documents sont favorisés car ils sont susceptibles de contenir davantage d occurrences

Mesure de pondération tf.idf Prise en compte de la fréquence des termes relativement au corpus de document (uniquement possible pour les corpus statiques) pour diminuer l importance des termes très fréquents dans le corpus La mesure «tf.idf» attribue un poids à un terme dans un document en combinant à la fréquence du terme (tf) dans le document son informativité relativement à un corpus (idf) : mesure simple : inverse du nombre de documents du corpus contenant le terme (idf i = 1/df i ) mesure utilisée en pratique : log du quotient du nombre de documents dans le corpus par le nombre de documents contenant le terme : idf i = log n df i La mesure augmente avec la fréquence du terme dans un document et avec la rareté du terme dans le corpus : w i,d = tf i log n df i

Pondération du corpus

Modèle vectoriel Un document peut être considéré comme un vecteur de poids correspondant à chaque terme On définit ainsi un espace vectoriel dont les termes constituent les dimensions et dans lequel se trouvent les documents Le nombre de dimensions peut être très grand, même après normalisation linguistique Recherche de réponses à une requête : une requête peut être considérée comme un document dont on peut calculer le vecteur trouver des documents similaires à un document donné (par l exemple) postulat : des documents proches dans l espace vectoriel sont susceptibles d être à propos des mêmes thèmes

Mesures de similarité entre vecteurs Distance euclidienne entre vecteur : d j d k = n i=1 (d i,j d i,k ) 2 Ne normalise pas sur la taille des documents (de longs documents peuvent être trouvés similaires du fait de leur taille, pas de leur contenu commun) Une façon de normaliser est de considérer les angles entre vecteurs : une similarité entre deux vecteurs peut être mesurée par le cosinus de leur angle : dj d k sim(d j,d k ) = d j. d k = n i=1 w i,jw i,k n i=1 w i,j 2 n i=1 w i,k 2 Combinaison possible avec le modèle booléen les meilleurs documents contiennent les éléments de la requête puis éléments de la requête rapprochés enfin, mesure de score basée sur le poids des termes

Limitations du vocabulaire Le nombre de concepts à désigner est beaucoup plus grand que la taille du vocabulaire il faut pouvoir combiner des mots pour diminuer la polysémie des entrées du dictionnaire et pouvoir désigner de façon non ambiguë Le sens des mots composés ne se déduit pas directement du sens des mots qui les composent AN : grand-mère, beau joueur NA : carte bleue, gare routière NàN : machine à laver, pompe à vélo NdeN : traitement de texte, pomme de terre NN : homme-grenouille, science-fiction PN : sans-abris, contre-proposition VN : attrape-mouche, porte-drapeau

Mots composés - Critères Atomicité sémantique Le sens des mots composés ne peut être décomposé, ex : le sens de pomme de terre ne s obtient pas à partir d un sens de pomme et d un sens de terre. Institutionalisation de l usage L utilisation des mots composés relève d un choix largement partagé, ex : on parle de traitement de textes et non de *logiciel à écrire ou de *processeur de mots. Inséparabilité des composants Il n est pas possible de séparer les composants d un mot composé pour y adjoindre des modifieurs, ex : une *pomme de bonne terre n est plus liée sémantiquement à une pomme de terre.

Termes Les termes désignent des concepts dans des domaines techniques particuliers, ils ne remplissent pas nécessairement les critères des mots composés entretien (périodique) de la chaudière ministre (luxembourgeois) des affaires étrangères Le sens des termes peut varier d un domaine à l autre. ex : lignes aériennes trajets d avions (domaine aéronautique) lignes électrique (domaine du transport de l énergie) lignes téléphoniques (domaine des télécommunications) Économie et précision réutilisation de termes existants par juxtaposition ou composition (ex : flux de sang capillaire obtenu à partir de flux de sang) ajout de modifieurs lorsqu un terme est ambigu (ex : glande endocrine pancréatique est plus précis que glande endocrine)

Termes et construction de terminologie La conception classique du terme est réductrice : la connaissance est découpée a priori en domaines stables représentables par des réseaux de concepts dont les termes sont les représentants linguistiques Or, les terminologies peuvent varier en fonction de l application pour un même domaine de connaissances On peut donc voir le terme comme le résultat d une analyse terminologique (Bourigault et Jacquemin, 2000) : décision sur le statut de terme d une unité, qui débouche davantage sur la construction d une terminologie plutôt que sa découverte Cette construction doit se faire selon une double pertinence : vis-à-vis du corpus : termes à la fois spécifiques au domaine et stables dans le corpus vis-à-vis de l application visée : termes utiles et permettant une certaine efficacité

Ingénierie terminologique Basée sur une réflexion méthodologique sur l activité d analyse terminologique sur un corpus de référence plutôt que sur une théorie Travail mené de façon incrémentale par un analyste (terminologue) Validation par des experts qui jugent de la conformité au domaine des propositions du terminologue, et par des utilisateurs sur l application utilisant les ressources construites Nécessité d automatiser autant que possible la tâche de construction Typologie fonctionnelle des travaux en construction de terminologie : Acquisition de termes : extraction de candidats termes à partir d un corpus validés par un terminologue (approche syntaxique et/ou statistique) Structuration de termes : aide à la structuration d ensembles de termes (classification automatique ou repérage de relations) Alignement de termes : alignement de termes à partir de corpus multilingues

Acquisition terminologique Objectif Extraire des documents des informations linguistiques compactes et représentatives de leur contenu. Applications indexation, résumé, construction de thésaurus, etc. Extensions reconnaissance d entités nommées (ex : dates, noms propres, montants numériques, noms de lieux, d institutions, de pays, etc.)

Acquisition et reconnaissance terminologiques Deux domaines complémentaires : Acquisition : on cherche à découvrir des occurrences de termes dans les documents au moyen de techniques linguistiques ou statistiques Reconnaissance : un ensemble de termes contrôlés étant donné, on cherche à reconnaître les occurrences de ces termes ou de leurs variantes dans les documents sans données initiales avec données initiales sur des documents quelconques sur des documents connus indexation libre acquisition terminologique indexation contrôlée enrichissement de thésaurus

Termes simples ou multi-mots Les enjeux sont différents pour un système d extraction terminologique en fonction du type de termes visé : simples : généralement ambigus, requièrent une désambiguïsation utilisant le contexte d apparition du terme chaîne (de montagne? outil? séquence d éléments chimiques? etc.) multi-mots : moins ambigus mais sujets aux variations, requièrent une analyse syntaxique ou des mesures statistiques de cooccurrence chaîne des Puys chaîne de l espoir réactions en chaîne chaîne N-glycosylée scie à chaîne

Acquisition de terminologies à partir de corpus Au départ, extraction de termes candidats principalement sur le français et en milieu industriel types de termes plus difficiles à repérer qu en anglais par exemple (utilisation de prépositions et de déterminants Vs juxtaposition de noms et d adjectifs) besoin fort pour la traduction (ex : information retrieval recherche d information, natural language processing traitement automatique des langues) disponibilité des corpus techniques Projets pionniers Acabit (Daille, 1994) : IBM, construction de lexiques terminologiques multilingues pour la traduction ANA (Enguehard, 1995) : CEA, enrichissement de réseaux lexicaux exploités par un système de gestion de connaissances Lexter (Bourigault, 1996) : EDF, mise à jour d un thésaurus utilisé par un système d indexation automatique

Acabit (Daille, 1994) Acquisition terminologique par analyse superficielle et filtrage statistique : Acquisition sur un corpus pré-étiqueté et désambiguïsé Deux étapes : 1 Analyse linguistique et regroupement de variantes : analyse du corpus par des transducteurs et production de candidats termes binaires Nom Adj : connaissances informatiques Nom1 à (Det) Nom2 : aide à domicile Nom1 Prep Nom2 : vente par téléphone etc. décomposition : réseau de transit à satellite réseau de transit et réseau à satellite 2 Filtrage statistique : tri des candidats termes à partir d un corpus de référence et de termes valides. Comparaison de mesures statistiques en fonction de leur capacité à distinguer les termes des séquences ne correspondant pas à des termes, ex : information mutelle au cube I 3 (x,y) = log 2 nb(x,y) 3 nb(x).nb(y)

Acabit - Regroupement des variantes Des transformations syntaxiques permettent d associer une forme de base à plusieurs variantes coordination de termes assemblage et désassemblage de paquets assemblage de paquets, désassamblage de paquets surcomposition de termes réseau de transit à satellites réseau de transit, réseau à satellites modification adjectivale de termes liaisons multiples par satellites liaison par satellites

ANA (Enguehard, 1995) Extraction de termes candidats sans analyse linguistique : Module de familiarisation : l utilisateur fournit une liste de termes initiale (bootstrap) Module de découverte de termes : repérage incrémental de répétitions de séquences de deux mots dont au moins un est déjà un terme : 1 associations fréquentes de deux termes (ex : cœur du réacteur) 2 associations fréquentes d un mot avec un terme, dans une structure de type X du T (ex : température du réacteur, où réacteur est un terme), ou dans une structure T X (ex : structure interne, où structure est un terme) Arrêt lorsqu aucun nouveau terme n est découvert Organisation des terme en réseau qui relie les termes partageant les mêmes têtes ou les mêmes arguments

Lexter (Bourigault, 1996) Acquisition terminologique par analyse superficielle Acquisition sur un corpus pré-étiqueté et désambiguïsé Trois étapes : 1 Extraction de syntagmes nominaux maximaux : repérage de frontières syntaxiques (ex : verbes, conjonctions) les clapets situés sur les tubes d alimention clapets, tubes d alimentation 2 Décomposition de syntagmes nominaux : analyse récursive et extraction de têtes et d expansions, avec désambiguïsation sur corpus rejet d air froid rejet froid, air froid seul air froid est conservé après recherche sur corpus 3 Structuration en réseau : chaque terme candidat est lié à ceux dont il est tête ou expansion. Calcul d un coefficient de productivité pour mesurer la densité du réseau autour d un terme.

Lexter - structuration du réseau terminologique

Terms (Justeson et Katz, 1995) Repose sur 2 hypothèses issues de l analyse de corpus techniques et de dictionnaires spécialisés : Les termes sont répétés dans un document technique plus fréquemment que les syntagmes non terminologiques Les termes ont une structure et des variantes différentes de celles des syntagmes non terminologiques Utilisation d un filtrage par un patron de catégories morpho-syntaxiques décrit par l expression régulière (pour l anglais) : ((A N)+ (A N)* (N P) (A N)*) N

XTract (Smadja, 1993) Extracteur de collocations (associations lexicales préférentielles et répétées) Hypothèses : les mots dans une collocation apparaissent ensemble plus fréquemment que par hasard (cf. mesure de l information mutuelle) les mots apparaissent dans une palette limitée de positions relatives correspondant à des contraintes syntaxiques particulières Trois modules : 1 Extraction de collocations binaires : couples de mots associés à une distance fixe rencontrés plus fréquemment que par hasard (ex : rachat coûteux) 2 Expansion des collocations : itération pour construire des collocations comprenant plus de deux mots 3 Étiquetage des collocations : un analyseur linguistique étiquette les collocations selon trois familles : collocations prédicatives telles que verbe support + nom prédicatif (ex : make decision) ; syntagmes figés (ex : stock market) ; phrases à trous (ex : X increase) À la différence d Acabit, le filtrage linguistique est effectué en sortie de la sélection statistique

Fastr (Jacquemin, 1997) Analyseur syntaxique robuste pour la reconnaissance de termes appartenant à une liste contrôlée Détection des variantes des termes en corpus (formes linguistiques différentes) Variations capturées par des métarègles opérant à différents niveaux : morpho-syntaxique : flux de sève mesurés est une variation de mesure de flux s appuyant sur le lien morphologique entre le verbe mesurer et le nom mesure syntaxique : mesure de volume et de flux est une variante de mesure de flux obtenue par coordination syntaxico-sémantique : évaluation de flux est une variante de mesure de flux s appuyant sur le lien sémantique existant entre les noms évaluation et mesure L objectif n est pas d acquérir des termes de façon massive, mais d enrichir des terminologies existantes avec des variantes de termes connus Application à la recherche d information : indexation contrôlée

Exit (Roche et al., 2004) Extraction itérative de la terminologie Extraction de termes sur un corpus normalisé et étiqueté Réinjection des termes reconnus sous forme d éléments uniques 1ère itération : assistant de gestion 2ème itération : assistant-de-gestion de production Sélection de mesures statistiques sur leur capacité à reconnaître des termes Comparaison de courbes d élévation, correspondant à la variation de la précision des termes en fonction du nombre de termes proposés à l expert precision = rappel = nb candidats termes pertinents extraits nb candidats termes extraits nb candidats termes pertinents extraits nb candidats termes pertinents : incalculable

Acquisition terminologique - bilan Acabit Ana Lexter Terms XTract Fastr Exit étiquetage X X X X X racinisation X X patrons syntaxiques X X X X X filtrage X X X X X X statistique incrémentalité X X X

La variation terminologique L interprétation du contenu des textes est nécessaire pour évaluer leur pertinence relativement à une requête Des techniques de surface peuvent parfois extraire de bons indicateurs de contenu, par exemple ceux qu un humain extrait visuellement lorsqu il parcourt rapidement un texte Compromis : analyse peu profonde et non sensible au domaine des documents analyse fine requerrant des connaissances sur un domaine précis Les termes constituent de très bons candidats pour l indexation documentaire : ils peuvent être extraits par des techniques peu profondes et ils révèlent des concepts abordés dans les documents Problèmes : comment reconnaître automatiquement des termes? comment repérer les variantes de termes connus? ces variantes désignent-elles exactement les mêmes concepts?

Termes pour la recherche d information Un concept dénoté par un terme peut apparaître sous de nombreuses formes, ex. pour loan offer :... offer our commercial customers credit commercial loans...... offer a complete range of home investment and business loans...... offering a special jumbo mortgage loan... Mais il ne s agit pourtant pas de repérer les mots composant un terme dans une fenêtre de taille fixée :... interlibrary loan continues to offer a full range of services to our graduate students...... education loan center offers tutorials about references about financing scholarships... Il serait impossible pour les terminologues d énumérer a priori toutes les variantes des termes...

La variation terminologique Objectif : mettre en relation des segments de texte qui sont conceptuellement proches mais diffèrent dans leur construction linguistique Variation terminologique - Définition (Jacquemin, 2001) Une variation terminologique est une transformation d un terme contrôlé qui satisfait les 4 conditions suivantes : 1 les mots pleins du termes sont conservés par la transformation, ou ils sont transformés en des mots morphologiquement ou sémantiquement liés 2 les variations peuvent être morphologiques, syntaxiques, sémantiques ou une combinaison 3 les relations de dépendances dans le terme d origine doivent être conservées 4 les variantes ne doivent pas contenir le terme de départ (ou une flexion)

La variation terminologique Condition 1 Les mots pleins du termes sont conservés par la transformation, ou ils sont transformés en des mots morphologiquement ou sémantiquement liés Ex : recognized neural cells est une variante de cell recognition car cell est conservée et recognized et recognition sont liés morphologiquement Les mots outils (ex : prépositions, déterminants) peuvent être supprimés ou remplacés par une transformation, ex : réserve en eau est une variante de réserve d eau

La variation terminologique Condition 2 Les variations peuvent être morphologiques, syntaxiques, sémantiques ou une combinaison Les variantes qui ne mettent en jeu ni variation morphologique ni variation sémantique sont dites syntaxiques, ex : language comprehension et comprehension of language Les variantes mettant en jeu des mots appartenant à une même famille morphologique sont dites morphologiques, ex : determine the structure et structure determination Les variantes mettant en jeu des mots appartenant à une même famille sémantique sont dites sémantiques, ex : language comprehension et speech comprehension

La variation terminologique Condition 3 Les relations de dépendances dans le terme d origine doivent être conservées L ordre des mots dans les variantes peut être modifié et de nouveaux mots peuvent être insérés, mais les dépendances existant dans le terme d origine doivent être conservées Ex : pressure fluctuation et fluctuation in mean arterial blood pressure sont des variantes, car la dépendance entre pressure et fluctuation se retrouve dans les deux

La variation terminologique Condition 4 Les variantes ne doivent pas contenir le terme de départ (ou une flexion) Ex : mean arterial pressures n est pas une variante de arterial pressure car la suite de mots du terme controllé n est pas modifiée

Exemples de variations Exemples de variations sur le terme genetic disease : genetic diseases : flexion disease is genetic : syntaxique hereditary disease : sémantique genetically determined forms of the disease : morpho-syntaxique disease is familial : syntaxico-sémantique transmissible neurodegenerative diseases : syntaxico-sémantique genetic risk factors for coronary artery disease : pas une variante Distribution des variantes : par exemple, dans un corpus scientifique en anglais, 1/3 des occurrences de termes sont des variantes : 9% syntaxiques, 6.5% morpho-syntaxiques, 22% sémantiques (Jacquemin, 1999)

Ressources pour la reconnaissance des variantes normalisation flexionnelle : lemmatiseur normalisation morphologique : base de données lexicale avec les structures des mots normalisation syntaxique : règles de réécritures normalisation sémantique : une ressource avec des liens sémantiques

Fastr (Jacquemin, 1997) Formalisme pour la reconnaissance des variantes morphologiques à trois niveaux : Premier niveau : mots simples et liens morphologiques et sémantiques Deuxième niveau : termes construits sur les mots simples Troisième niveau : variations qui transforment les règles et termes en règles de variantes dimension syntagmatique : transformations structurales dimension paradigmatique : liens morphologiques et sémantiques

Fastr - Vue d ensemble

Fastr - Reconnaissance de variantes

Fastr - Indexation

Fastr - Sortie Exemple de sortie d indexation : Preliminary results from experiments conducted on parsing speech, which recognized spontaneous speech, are also reported. Doc Terme Variante Variation 148 Experimental results from experiments XX,31,AtoN results 148 Preliminary results preliminary results 0 148 Speech recognition recognized spontaneous XX,20,NtoV speech 148 Spontaneous speech spontaneous speech 0

Fastr - Formalisme pour les deux premiers niveaux Utilisation de grammaires d unification (Shieber, 1986) Règles de termes composées : d un squelette hors-contexte (constituants) de contraintes représentées par des graphes acycliques Mots simples : Word disease : <cat> = Noun. Termes multi-mots : Rule Noun1 -> Adj2 Noun3 : <Noun1 lexicalisation> = Noun3 <Noun1 label> = 203973 <Adj2 lemma> = genetic <Noun3 lemma> = disease.

Fastr - Structures de traits Rule Noun1 -> Adj2 Noun3 : <Noun1 lexicalisation> = Noun3 <Noun1 label> = 203973 <Noun1 agreement> = <Noun3 agreement> <Adj2 lemma> = genetic <Noun3 lemma> = disease.

Fastr - Lexique enrichi de liens Addition de liens morphologiques et sémantiques aux mots simples : Word genetic : <cat> = Adj <syn> = ( familial,a) ( genetic,a) ( genetical,a)... Word geneticist : <cat> = N <root> = ( genetic,a). Word genetics : <cat> = N <root> = ( genetic,a).

Fastr - Exploitation de ressources existantes Divers imports : Familles morphologiques de la base lexicale CELEX, ex : genetic\a\ : genetically\adv\-ally geneticist\n\-s,ist genetics\n\-s genetic\a\- Relations sémantiques de WordNet (Miller et al., 1993), ex : 3 senses of genetic Sense 1 : familial, genetic, hereditary, inherited, transmitted, transmissible Sense 2 : genic, genetic Pertains to noun gene (sense 1) Sense 3 : genetic, genetical Pertains to noun genetics (sense 1) genetic\a\ : familial\a\genetic\a\hereditary\a\ inherited\a\transmitted\a\transmissible\a\ genic\a\genetical\a\

Fastr - Étiquetage par le TreeTagger Analyse par le TreeTagger (ex : Mammals inflected by scrapie...) : Mammals <lem> = mammal <cat> = N <agr num> = plu. inflected <lem> = inflect <cat> = V <ten> = pastparticiple. with <lem> = with <cat> = PREP. scrapie <lem> = scrapie <cat> = N <agr num> = sin....

Fastr - Consultation lexicale Enrichissement des informations lexicales :

Exemple : métarègle de coordination Règle de terme initiale : Rule N1 -> A2 N3 : <N1 lexicalization> = N3 <A2 lemma> = umbilical <N3 lemma> = artery <N1 agreement> = <N3 agreement>. Métarègle de coordination Metarule Coor(N1 -> A2 N3) = N1 -> A2 C4 A5 N3 :. Règle de terme transformée Rule N1 -> A2 C4 A5 N3 : <N1 lexicalization> = N3 <A2 lemma> = umbilical <N3 lemma> = artery <N1 agreement> = <N3 agreement>. Exemple de variante : umbilical or carotid artery

Expressions régulières dans les métarègles Métarègle de coordination : Metarule Coor(N1 -> A2 N3) = N1 -> A2 <C {A N}1-3 > N3 :. Règle de terme transformée : Rule N1 -> A2 <C {A N}1-3 > N3 : <N1 lexicalization> = N3 <A2 lemma> = umbilical <N3 lemma> = artery <N1 agreement> = <N3 agreement>. Exemple de variante : umbilical or middle cerebral artery Opérateurs : + *? X1-X2

Contraintes dans les métarègles Métarègle de coordination filtrante Metarule Coor(N1 -> N2 N3) = N1 -> N2 <C {A N}1-3 > N3 : <N2 agreement>!= plural. Accepte :... the damage of tumor or nontumorous hepatic cells... Rejette :... but failed to lyse tumors or cells... Métarègle avec des liens morphologiques Metarule NounToAdj(N1 -> N2 N3) = N1 -> A4 N3 : <N2 root> = <A4 root>. Reconnaît : enzymatic activity comme une variante de enzyme activity Métarègle avec des liens sémantiques Metarule SemArg(N1 -> A2 N3) = N1 -> A4 N3 : <A2 syn> = <A4 syn>. Reconnaît : hard lens comme une variante de rigid lens

Principaux types de variantes syntaxiques Coordination femoral and carotid arteries femoral artery Modification femoral cutaneous nerve femoral nerve Permutation comprehension of language language comprehension

Principaux types de variantes sémantiques Synonymie neural tissue nervous tissue Antonymie automatic control manual control Hyponymie apple juice fruit juice Méronymie security report security analysis

Fonctionnement des métarègles Exemple : genetic disease et disease is familial Metarule PermSemArg(X1 -> X2 N3) = X1 -> N3 Adv? Vaux? V4 Adv? X4 : <V4 lem> = be <X2 syn> = <X4 syn> <X2 cat> = <X4 cat>.

Fastr - Type d application des règles Deux approches pour implémenter la génération des règles transformées par les métarègles : Application à la compilation calcul des règles transformées une fois pour toutes en prétraitement ensemble important demandant de fortes capacités de stockage et des techniques d accès rapide aux données Application à l exécution les règles transformées sont calculées dynamiquement à la demande surcharge calculatoire à l exécution capacité de ne générer que dans les cas pertinents Fastr : analyse transformationnelle analyse différentielle (lien entre une variante et un terme source) analyse implicite (paraphrase sans calcul du sens) analyse partielle (restreinte aux parties pertinentes) analyse lexico-syntaxique (exploitation des termes multi-mots)

Exempe de métarègle Default metarules : [2] XX "METARULE X X" "language processing -> language automatic understanding or processing" Metarule Coor ( X1 -> X2 N3 ) = X1 -> X2 < {A N}1-3 PUNC? > C4 < {A N}? > N3 : <X2 num>! plu <X1 metalabel> = XX.

Bibliographie du cours Bourigault, D. (1996) LEXTER, a Natural Language Processing tool for terminology extraction, Proceedings of the 7th EURALEX international congress, Gotebord, Suède Bourigault, D. et C. Jacquemin (2000) Construction de ressources terminologiques, dans Ingénierie des Langues, sous la direction de J.-M. Pierrel, Hermès Daille, B. (1994) Approche mixte pour l extraction de terminologie : statistique lexicale et filtres linguistiques, Thèse en informatique fondamentale, Université Paris 7 Fluhr, C. (2000) Indexation et recherche d information textuelle, in Ingénierie des Langues, Jean-Marie Pierrel éditeur, Hermès Jacquemin, C. (1997) Variation terminologique : reconnaissance et acquisition automatiques de termes et de leurs variantes en corpus, Mémoire d habilitation à diriger des recherches en informatique fondamentale, Université de Nantes

Bibliographie du cours Jacquemin, C. (1999) Syntagmatic and paradigmatic representations of term variation, Actes de ACL 99, University of Maryland Jacquemin, C. (2001) Spotting and Discovering Terms through Natural Language Processing, MIT Press, Cambridge, États-Unis Jacquemin, C. (2004) Indexation et Recherche d Information, Cours de DESS II et SCHM, Université Paris-Sud 11 Lefèvre, P. (2000) La recherche d informations, Hermès Sciences, Paris Manning, C. et P. Raghavan (2004) Text retrieval and mining, CS276A, Cours, Université Stanford Roche M., T. Heitz, O. Matte-Tailliez et Y. Kodratoff (2004) EXIT : Un système itératif pour l extraction de la terminologie du domaine à partir de corpus spécialisés, dans Actes de JADT 04, Louvain-la-Neuve, Belgique