Extraction automatique de terminologie à partir de libellés textuels courts



Documents pareils
UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

1 Description générale. Résumé

Comment déterminer les définitions les plus pertinentes d un sigle donné?

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Ressources lexicales au service de recherche et d indexation des images

Apprentissage Automatique

Trois approches du GREYC pour la classification de textes

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Laboratoire 4 Développement d un système intelligent

Construction d ontologies à partir de textes

Classification Automatique de messages : une approche hybride

Les produits solidaires, 100 jours pour convaincre!

ANALYSE SÉMANTICO-DISCURSIVE DES COLLOCATIONS LEXICALES EN CORPUS SPÉCIALISÉ : LA BASE CONNAISSANCE-S

JADT /06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire

LIVRE BLANC Décembre 2014

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Indexation sémantique au moyen de coupes de redondance minimale dans une ontologie

Rapport : Base de données. Anthony Larcher 1

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Comment bien s hydrater pendant l été?

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Utiliser un tableau de données

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

Construction et maintenance d une ressource lexicale basées sur l usage

Tâche : Comparer l étiquette de produits alimentaires afin de connaître leur valeur nutritive.

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Multi-catégorisation de textes juridiques et retour de pertinence

Chapitre 3. Les distributions à deux variables

TEXT MINING Tour d Horizon

Nutrition et santé : suivez le guide

1. Cliquez sur dans le coin supérieur gauche de l'écran 2. Sélectionnez la Langue de l'interface désirée 3. Cliquez sur

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Luc Grivel (*, **)

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining -

Application de la méthode QFD comme outil d'extraction des connaissances métier en conception intégrée

Extraction d informations stratégiques par Analyse en Composantes Principales

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

Article de recherche théorique et article de recherche empirique : particularités 1

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

# let rec concat l1 l2 = match l1 with [] -> l2 x::l 1 -> x::(concat l 1 l2);; val concat : a list -> a list -> a list = <fun>

THOT - Extraction de données et de schémas d un SGBD

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Charte PNNS Groupe CASINO Résultats

N SIMON Anne-Catherine

ISO/IEC TR Première édition Numéro de référence ISO/IEC TR 90006:2013(F) ISO/IEC 2013

LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS

Retour d expériences avec UML

Analyse dialectométrique des parlers berbères de Kabylie

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

Expériences de formalisation d un guide d annotation : vers l annotation agile assistée

60 produits solidaires pour les familles

Recommandations pour la réalisation pratique et la diffusion des mémoires

Introduction au Data-Mining

Geoffrey Clive WILLIAMS.

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Intégration de la dimension sémantique dans les réseaux sociaux

GRIVEL Luc, GUILLEMIN-LANNE Sylvie, COUPET Pascal, HUOT Charles {luc.grivel, sylvie.guillemin-lanne, pascal.coupet,

COMMENT REDIGER UN RAPPORT TECHNIQUE?

Disparités entre les cantons dans tous les domaines examinés

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs!

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

Relation entre deux variables : estimation de la corrélation linéaire

Économétrie, causalité et analyse des politiques

Extraction automatique de modèles de processus pour l étude de la résolution collective de problèmes dans les communautés du logiciel libre

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques

Chapitre 5 LE MODELE ENTITE - ASSOCIATION

Exploitation de hiérarchies sémantiques construites à partir du Trésor de la Langue Française informatisé (TLFi) pour la recherche d images

Une méthode d apprentissage pour la composition de services web

Séminaire «Maîtrise de l information scientifique» Exploitation de l information : optimiser sa gestion documentaire

Les Petites Toques PLAT CHAUD. STEAK HACHE PETIT MODELE Poids net pour une part : 80 g Ingrédients : Steak haché (origine Union Européenne).

COMMENTAiRES/ DECISIONS

Calc 2 Avancé. OpenOffice.org. Guide de formation avec exercices et cas pratiques. Philippe Moreau

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Introduction à la méthodologie de la recherche

Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

A quels élèves profite l approche par les compétences de base? Etude de cas à Djibouti

MON LAIT ISSU DE VACHES NOURRIES AUX OGM?

Organiser le disque dur Dossiers Fichiers

Principe de symétrisation pour la construction d un test adaptatif

3. Hypothèses 4. Méthodologie

Influence de l alimentation-santé sur les tendances de marché. Paul Paquin, Ph.D. INAF, Université Laval, Québec

E-Gen : traitement automatique des offres d emploi

Règles d élaboration d une évaluation par Questions à Choix Multiple Joël LECHEVALLIER 1

Problématiques de recherche. Figure Research Agenda for service-oriented computing

La construction de composants de connaissance pour l extraction et le filtrage de l information sur les réseaux

AGROBASE : un système de gestion de données expérimentales

Recherche bibliographique

Infolettre #18 : Les graphiques avec Excel 2010

Ingénierie et gestion des connaissances

! Text Encoding Initiative

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Introduction aux concepts d ez Publish

Évaluation de G-LexAr pour la traduction automatique statistique

Désambiguïsation lexicale par propagation de mesures sémantiques locales par algorithmes à colonies de fourmis

Transcription:

Extraction automatique de terminologie à partir de libellés textuels courts Jean-Claude Meilland ismart Le Mercure A, 565 Rue Berthelot 13851 Aix en Provence Cedex 3 (France) jean-claude.meilland@ismart.fr Patrice Bellot Université d Avignon (LIA CNRS) Agroparc BP 1228 84911 Avignon Cedex 9 (France) patrice.bellot@lia.univ-avignon.fr Résumé : Cet article concerne l extraction automatique de terminologie appliquée à des libellés textuels courts issus de la grande distribution. Elle s appuie sur les données du projet industriel SmartyCart. Nous montrons que certains critères d associations de termes peu utilisés dans des textes longs sont particulièrement adaptés pour des libellés courts et que la seule fréquence d apparition comme critère de sélection donne de mauvais résultats. Mots-clés : extraction terminologique, coefficients d associations, libellés commerciaux, TALN. 1. Introduction L avènement d Internet a créé un besoin accru d accès et de traitement de l information. En effet, outre la recherche d informations, on voit émerger de nombreuses problématiques de structuration et de classification d informations issues d applications fédératrices de données (e.g. les portails comme Free affichent la météo ou les programmes de télévision issus d autres sites spécialisés). Par applications fédératrices de données nous entendons les applications qui recherchent, comprennent et utilisent des informations décrites en langage naturel afin de fournir un service basé sur celles-ci ou plus simplement de les diffuser d une autre manière (structurées et/ou classées autrement). Cependant, la diversité des domaines (commercial, social, industriel, littéraire, journalistique, technique/spécialisé) et surtout les caractéristiques des textes (longs, télégraphiques) rendent le Traitement Automatique du Langage Naturel (TALN) particulièrement complexe. Depuis de nombreuses années certains travaux ont permis la constitution de bases terminologiques dans des domaines de référence. Dans le cadre de nos travaux, nous souhaitons proposer une étude et une méthode d extraction automatique de terminologie sur des textes dont la nature est très présente sur Internet : les libellés courts (dépêches journalistiques, petites annonces, descriptions de produits commerciaux, publicités, forums de discussion). Plus spécifiquement, notre étude est appliquée à des libellés courts décrivant des produits commerciaux issus de la grande distribution. Nous nous appuyons sur les données du projet industriel SmartyCart, elles-mêmes obtenues à partir des différents sites de magasins en ligne (www.ooshop.fr, www.telemarket.fr, www.houra.fr, www.auchandirect.fr). Le projet SmartyCart est soutenu par la société ismart. Il concerne des applications consuméristes d aide à la consommation dans le secteur de la grande distribution. Les libellés courts ont une sémantique particulièrement riche dans laquelle il n existe que relativement peu d ambiguïtés pour un lecteur humain qui doit toutefois utiliser le contexte pour les comprendre. Dans l exemple suivant, le terme lait pris isolément est particulièrement ambigu : «Lait hydratant Bodytonic + Shampooing cuir chevelu irrité - Neutralia - + le lait nutritif Bodycocoon gratuit» et «Lait frais entier GrandLait - Candia - la bouteille de 1l». À partir d un corpus de libellés catégorisés, nous tentons de définir la terminologie de chaque catégorie afin d être, à terme, capable de classer un nouveau produit et de structurer son libellé (avec notamment la reconnaissance automatique du type d emballage, du prix, de la quantité ou du parfum pour une glace et du pourcentage de matière grasse pour un produit laitier). Pour cela nous mettons en perspective les statistiques relatives à un terme dans une catégorie avec celles de ce même terme dans les autres catégories et dans l ensemble du corpus. Nous verrons que certains critères peu utilisés dans des textes longs (coefficient d Ochiai, coefficient de proximité simple) sont particulièrement adaptés pour notre application. Contrairement à de nombreux résultats en extraction automatique de terminologie voir par exemple (Bourigault & Jacquemin 2000), nous montrons que la seule fréquence d apparition des termes comme critère de sélection donne de mauvais résultats dans les libellés courts. Nos travaux se basent principalement sur une étude des collocations (Manning & Schütze 1999) et des critères d associations (Daille 1994). Dans la section 2, nous énonçons quelques uns des principes fondamentaux de l extraction terminologique. Ensuite (section 3), nous présentons en détail l application visée par le présent travail et nous continuons (section 4) en détaillant les résultats obtenus. Le principal intérêt scientifique de cette étude est de comparer à quel point les résultats des études en extraction de terminologie couramment effectuées sur des textes «longs» se retrouvent sur des libellés courts. 1

2. Principes fondamentaux Nous ne discutons pas ici de la notion de terme mais retenons la définition que l on peut trouver dans (Dubois 1994) indiquant qu un terme est une unité signifiante constituée d un mot (terme simple) ou de plusieurs mots (terme complexe), qui désigne une notion de façon univoque à l intérieur d un domaine. Ainsi, le terme s oppose au(x) mot(s) par sa référence inhérente à un domaine. En ce qui concerne notre étude, la classification automatique de libellés textuels commerciaux courts, les «domaines» sont les différentes catégories de produits que l on peut acquérir dans un cybermarché. Si l adéquation terme/concept/domaine peut s avérer difficile à établir lorsque l analyse porte sur des textes classiques (articles journalistiques, monographies), elle est dans notre cas plus rapidement identifiable : les libellés sont écrits de la manière la plus concise et la moins ambiguë possible pour le lecteur (en l occurrence un acheteur potentiel) et ne contiennent aucune tournure complexe (paraphrases, anaphores). Cela ne signifie pas pour autant que le problème consistant à attribuer une étiquette à un libellé (une catégorie à un produit) soit simple, comme nous le verrons par la suite sur des exemples. Il l est tout de même suffisamment pour que nous puissions envisager l exploitation de l analyse terminologique dans un cadre commercial avec une supervision humaine restreinte. Dans de très nombreux cas, l extraction terminologique s intéresse essentiellement à l identification de syntagmes nominaux (substantifs isolés pour les termes simples, schémas de type «N de N» ou «N à N» pour les termes complexes où N désigne un nom). En ce qui nous concerne, de nombreux types de structures syntaxiques sont intéressants. L extraction du terme complexe lait écrémé (N ADJ) permet à la fois l identification d un type de produit particulier (puisque de nombreux libellés débutent par ces deux mots) mais aussi la désambiguïsation du mot lait (nous sommes en présence d un lait à boire et non pas d un lait de beauté) et donc la classification du produit. Notons qu il est en outre très difficile de déterminer des règles décrivant des structures grammaticales figées sur des libellés (cela pourrait toutefois être envisageable en distinguant chaque site de commerce électronique ciblé, chaque site ayant sa propre manière de décrire les produits) et, par extension, de ne retenir comme candidat terme que les mots correspondants à telle ou telle catégorie syntaxique. Il est d ailleurs intéressant de constater, même si c était prévisible, que les étiqueteurs syntaxiques souvent utilisés tels le TreeTagger (Schmidt 1994), sont inopérants sur les libellés. A cause de cela, il nous est difficile d utiliser des méthodes hybrides (combinant des informations linguistiques et statistiques) pour l extraction des termes caractérisant les catégories comme cela est réalisé par exemple par (Daille et al. 1994; Enguehard & Pantera 1994 ; Frantzi 1998, Maynard & Ananiadou 1999). Nous donnons dans la sous-section suivante un rapide aperçu des approches couramment employées pour l extraction terminologique. Pour une étude plus complète des méthodes et outils développés ces dernières années, le lecteur pourra se référer par exemple à (Bourigault & Jacquemin 2000) ainsi qu à (Séguéla 2001). 2.1. Différentes approches pour l extraction terminologique Les méthodes automatiques d extraction terminologique utilisant principalement des informations linguistiques sont jusqu ici relativement peu nombreuses (Maynard & Ananiadou 1999). Citons toutefois celles qui sont basées sur les informations syntaxiques des termes candidats avec par exemple les outils logiciels LEXER (Bourigault 1992 ; Bourigault 1994) ou bien SEXTANT (Grefenstette 1994) ou, conjointement, sur les informations syntaxiques et morphologiques (Ananiadou 1988). L extraction de relations à partir de critères statistiques part de l hypothèse que de le sens d une unité terminologique est étroitement lié avec la distribution de son utilisation en contexte. De nombreux travaux sur l étude des co-occurrences sont venus appuyer cette hypothèse voir par exemple (Smadja 1993). Malheureusement, les méthodes essentiellement statistiques ont tendance à rapporter des relations conceptuelles de nature différente qu il est difficile de dissocier sans recours à un expert du domaine (Séguéla 2001). L extraction terminologique basée uniquement sur des critères statistiques se heurte à une difficulté supplémentaire liée aux différentes variantes terminologiques possibles pour exprimer un concept ou une notion. La faible dimension du corpus sur lequel sont calculés les critères d association et la variabilité des termes utilisés peuvent masquer certaines associations. L emploi de méthodes de reconnaissance de variations terminologiques pourrait remédier à ce problème (Jacquemin 1997) et aider à obtenir une meilleure extraction. Une autre approche, abondamment décrite dans (Séguela 2001) consiste à déterminer quelles sont les formules linguistiques prévisibles et récurrentes exprimant les relations sémantiques observables d un texte. Ces formules sont autant de marqueurs déposées dans le texte servant à extraire ensuite automatiquement d autres relations voir (Hearst 1992 ; Riloff 1996 ; Morin 1999 ; Faure & Poibault 2000) pour ne citer qu eux. 2

2.2. Approches statistiques et approches hybrides La plupart des modèles statistiques se résument au calcul de valeurs numériques telles que les fréquences, les critères d association ou de diversité par exemple la diversité de Shannon et l information mutuelle (Hamming 1980) et les mesures de distance voir par exemple (Oakes 1998). Parmi les critères d association, nous pouvons citer ceux que l on trouve dans (Daille 1994) tous basés sur quatre valeurs associées à un couple de mots/lemmes : le nombre d occurrences du couple, le nombre d occurrences de tous les couples où le premier élément (resp. le deuxième) du couple analysé est présent mais pas le second (resp. le premier) et le nombre d occurrences de tous les couples où ni le premier ni le second élément du couple candidat n est présent (on parle de tableau de contingence, voir section 4.2). Parmi ces critères : le coefficient de proximité simple, de Kulczinsky, d Ochiai, de Fager et de McGowan, de Yule, de Mc Connoughly, du F 2, le score d association au cube et le coefficient de vraisemblance (loglike) introduit par Dunning (1993). Pour une comparaison de ces différents critères et une étude bibliographique étendue de leur application à la linguistique de corpus, le lecteur peut se reporter à (Chung & Lee 2001). Nous renvoyons également aux travaux de B. Daille (2002). Également parmi les approches statistiques, celle de Frantzi (1998) consiste à retenir comme termes candidats ceux qui ont la plus grande C-value, valeur basée sur la fréquence d apparition du mot et sur sa longueur. Maynard et Ananiadou (1999) combinent cette valeur avec un facteur contextuel correspondant à la prise en compte de la fréquence d apparition des noms, adjectifs et verbes apparaissant dans le contexte du terme candidat (le contexte étant défini par l intermédiaire d une fenêtre autour du candidat). Parmi les éléments du contexte ceux qui sont eux-mêmes des termes candidats sont pris en compte différemment de ceux qui ne sont que de simples mots. Une distance entre les termes du contexte et le terme candidat intervient dans le calcul de la «valeur terminologique» finale du terme candidat à partir d un réseau sémantique. Les expériences décrites dans (Maynard & Ananiadou 1999) concernent le domaine médical et emploient le réseau sémantique UMLS (NLM 1997). La tendance actuelle consiste finalement à combiner des approches linguistiques avec des approches statistiques. Généralement, la partie essentielle de la méthode d extraction est statistique, la partie «linguistique» consistant à filtrer les termes en fonction de leur catégorie syntaxique. L utilisation d informations sémantiques est naturellement envisagée même si elle est souvent difficile à mettre en œuvre. Dans le cadre de la désambiguisation d un mot (par opposition à la désambiguisation d un terme), nous pouvons citer par exemple les travaux de Lesk (1986) qui utilise un dictionnaire en ligne afin de comparer la définition d un terme candidat avec les mots apparaissant dans le contexte de ce terme dans le corpus analysé. D autres approches, citées dans (Maynard & Ananiadou 1999), concernent le calcul de distances entre deux mots à partir de leurs relations dans un thésaurus (Smeaton 1996; Yarowsky 1992). E. Noleau (1998) a employé dans ses travaux en recherche documentaire des ressources sémantiques propres à un domaine pour valider (ou invalider) des termes retenus lors d une première extraction (enrichissement automatique des ressources après validation ou invalidation). Les techniques de désambiguisation d un terme (on rappelle qu un terme est souvent un composé de plusieurs mots dont le sens est dépendant d un domaine) s inspirent largement des approches que l on vient de citer. Elles permettent de distinguer différents cas d utilisation d un terme candidat. 3. Une problématique industrielle En partant d un corpus catégorisé issu des sites de grande distribution, nous souhaitons étiqueter chaque catégorie. Dans le cadre du projet SmartyCart nous avons défini manuellement la liste des catégories et avons utilisé les moteurs de recherche des sites de grande distribution en ligne afin d'obtenir les libellés des produits de chaque catégorie. Après avoir effectué un filtrage manuel, nous appliquons notre méthode d extraction automatique afin de définir un pseudo-modèle de langage de chaque catégorie. Celui-ci nous permettra par la suite de classer et de structurer les produits automatiquement. Les figures 1, 2 et 3 décrivent la méthode de collecte des données initiales. 3

Figure 1 - Site OOShop SmartyCart utilise les moteurs de recherche des sites de grande distribution (le site de Carrefour OOShop pour la figure 1) afin de constituer le corpus catégorisé. Un filtrage manuel supprime le bruit (sur la figure 1, le lait frais demi-écrémé n appartient pas à la catégorie «lait écrémé» est n est donc pas retenu). Figure 2 - Corpus catégorisé Une fois les produits catégorisés (figure 2) et filtrés manuellement, on utilise une méthode ad-hoc afin d extraire les termes représentatifs de chaque catégorie et si possible de les étiqueter (figure 3). Catégorie Lait écrémé Noms Lait, Silhouette Marques Candia, Lactel, Danone, Carrefour Quantités Emballages Brique, Bouteille Unités Litre Adjectifs (Qualifiants) Ecrémé, Vitaminé, Bébé Figure 3 Objectif final : étiquetage des termes représentatifs des catégories Un tel étiquetage permettra de constituer un corpus d'apprentissage pour des algorithmes de classification et de structuration de produits à grande échelle sur lesquels s appuieront des applications gratuites à forte valeur ajoutée pour les utilisateurs (un moteur de recherche par exemple). 4. La méthode d extraction de terminologie dans des libellés courts À partir d un corpus de départ catégorisé, nous souhaitons extraire les termes les plus représentatifs de chaque catégorie. Notre approche consiste à calculer la variance et certains critères d associations des termes présents dans les libellés aussi bien dans chaque catégorie que dans l ensemble du corpus (réunion de toutes les catégories). Comme cela a été dit en section 2, quatre types de mesures sont communément utilisés pour l extraction terminologique : les fréquences, les critères d association, la diversité et les mesures de distance. Dans un texte long, la fréquence d un couple constitue un bon indicateur de son caractère terminologique. Dans des libellés courts d un même domaine d application on observe le phénomène inverse. En effet la majorité des couples ont 4

une fréquence similaire et relativement faible. La figure 4 permet de constater qu il n apparaît pas de seuils évidents pour la catégorie «margarine» (le corpus est constitué de 718 libellés répartis en 42 catégories) : la distribution des fréquences normalisées est similaire sur les catégories et sur l ensemble du corpus. 0.05 0.045 0.04 0.035 0.03 0.025 0.02 Fréquence Catégorie Fréquence Corpus 0.015 0.01 0.005 0 Figure 4 - Fréquences normalisées pour la catégorie «Margarine» (abscisses : les couples de mots ; ordonnées : fréquence normalisée) Nous avons donc centré notre étude sur les mesures de distances et les critères d associations. La liste des couples de mots candidats est constituée en se basant sur une fenêtre maximale et en prenant uniquement les mots d au moins deux caractères. Nous évaluons chaque critère dans une catégorie et dans le corpus entier. Pour cela nous utilisons une évaluation graphique sur des valeurs normalisées et triées. Ainsi nous retenons un critère si sa courbe met en évidence des seuils (fortes variations dans la pente). Un critère dont la courbe ne connaît pas de variations importantes n est pas retenu. 4.1. Étude des collocations (mesure de variance) Nous reprenons la définition de la variance citée dans (Manning & Schütze 1999). Pour cela on calcule la moyenne des distances séparant les deux mots d un couple de termes dans sa catégorie. La table ci-contre contient trois libellés illustrant cette définition. Cafe Regal Jacques Vabre, moulu, melange classique, paquet 250 g, 4,80 euros le kg 1.20 euros Cafe Tradition Maison du Cafe, moulu, melange classique, paquet 250 g, 4,64 euros le kg 1.16 euros Cafe melange Hediard, moulu, boite en fer 250 g, 27,44 euros le kg 6.86 euros Pour le couple (café, mélange) la distance moyenne est de 1/3(4+5+1)=3,33 mots. Ensuite la variances 2, pour un couple donné, est calculée de la manière suivante : s 2 = n  i=1 ( d i - m) 2 où n (n > 1) est le nombre de fois où le couple apparaît (dans la catégorie si l on calcule sa variance dans la catégorie et dans le corpus entier sinon), d i la distance en nombre de mots séparant les deux mots du couple dans le i-ème libellé où il apparaît et µ la distance moyenne séparant les deux mots du couple. La figure 5 correspond à l évaluation de la variance pour la catégorie «Margarine» (l'axe des ordonnées représente la variance normalisée tandis que l'axe des abscisses représente les couples de mots). Trois types de couples sont répertoriés : n -1 les couples ayant une variance élevée dans le corpus et faible dans la catégorie : 15% des couples ; les couples ayant une variance identique dans le corpus et dans la catégorie : 60% des couples ; les couples ayant une variance faible dans la corpus et élevé dans la catégorie : 15% des couples 5

0.11 0.09 0.07 0.05 0.03 0.01-0.01-0.03-0.05 matiere or grasse or activ or matiere fin matiere planta matiere grasse tartiner fin fruit or activ grasse cuire fin tartiner allegee cuire planta activ matiere cuire allegee allegee planta fruit steak tartine or pro tartine pro cuisson pince cadeau or steak matiere steak margarine or tartine fruit matiere cuisson margarine agriculture cuisson steak grasse pince activ steak cuisson pince fruit cadeau cuisson or demi sel allegee demi tartiner nature sel hubert grasse demi tartiner sel matiere demi matiere sel allegee hubert tartiner hubert matiere hubert µ?(couple, catégorie) µ?(couple, corpus) µ?(couple, catégorie) - µ?(couple, corpus) Figure 5 Valeurs de variance pour la catégorie «Margarine» La variance paraît être une mesure intéressante dans la catégorie Margarine car elle met en évidence plusieurs seuils. Voici un extrait des résultats obtenus si l on retient cette mesure : Couple Li,Lj Variance catégorie Variance corpus Ecart (Var.Corp - Vat.Cat) matiere hubert 0,065976414 0,114718605 0,04874219 grasse hubert 0,046463981 0,081608927 0,035144945 agriculture bio 0 0,000609422 0,000609422 cuire nature 0,000365858 0,0006563 0,000290442 demi sel 0,000365858 0,0006563 0,000290442 allegee matiere 0 0 0 fruit pince 0 0 0 planta fin 0,000365858 0,000140636-0,000225222 tartiner allegee 0,009512311 0,007750593-0,001761718 grasse allegee 0,025829583 0,023892454-0,001937129 matiere grasse 0,026524714 0,022173573-0,004351141 grasse cuire 0,02926865 0,017813864-0,011454786 grasse fin 0,00914645 0,00351589-0,00563056 matiere cuire 0,06585446 0,04008119-0,02577327 On distingue des valeurs seuils de couples significatifs : les couples ayant une variance plus faible dans la catégorie que dans le corpus (agriculture bio, demi-sel) qui ne sont pas représentatifs de la catégorie; les couples ayant une variance plus grande dans la catégorie que dans le corpus (planta fin, tartiner allégée). Lorsque la variance est trop élevée il s agit généralement de bruit. Lorsque elle est nulle et qu il n y a pas d écart entre la variance de la catégorie et du corpus on ne peut pas tirer de conclusion. Ce critère a plusieurs inconvénients. En effet, il ne nous permet pas d extraire les couples significatifs dans le corpus (par exemple «matière, allégée»). Par ailleurs on constate souvent la présence de couples de mots sémantiquement opposés dans les termes retenus par exemple : (cuire, nature) et (grasse, allégée). Cette mesure ne nous permet pas d extraire les termes représentatifs d une catégorie. Il faut probablement la combiner à d autres critères. 6

4.2. Étude des critères d associations «D un point de vue statistique, les deux lemmes qui forment un couple sont considérés comme deux variables qualitatives dont il s agit de tester la liaison.», (Daille 1994 : 116). La matrice de contingence suivante est à la base des critères d association testés : Lj Lj avec j j Li a b Li avec i i c d a = le nombre d occurrences du couple de mots (Li, Lj), b = le nombre d occurrences des couples où Li est le premier élément d un couple et Lj n est pas le second, c = le nombre d occurrences des couples où Lj est le second élément du couple et Li n est pas le premier, d = le nombre d occurrences de couples où ni Li ni Lj n apparaissent. La somme a + b + c + d est notée N. On calcule ensuite les critères suivants : Coefficient de proximité simple SMC (Simple Matching Coefficient) a + b SMC = a + b + c + d L évaluation graphique de cette mesure (figure 6) nous donne des résultats particulièrement intéressants dans la catégorie «margarine» (l'axe des ordonnés représente le coefficient SMC des différents couples tandis que l'axe des abscisses représente les couples eux-mêmes) : 1 0.8 0.6 0.4 0.2 0-0.2-0.4-0.6-0.8-1 SMC(Couple,Catégorie) SMC(Couple,Corpus) grasse fleurier grasse fruit grasse demi allegee sel cuire fleurier cuire or allegee fin grasse st matiere doux allegee st matiere st grasse doux tartiner doux grasse fin demi sel tartiner st tartiner fruit tartiner fin cuisson fruit matiere cuire matiere fin activ pince tartine or matiere or tartiner demi margarine fruit grasse tartiner pro tartine margarine agriculture matiere cuisson matiere planta grasse tartine allegee fruit sel hubert matiere allegee margarine allegee tournesol bio cuire fruit fruit steak allegee or fruit pince allegee matiere margarine tournesol Figure 6 - SMC catégorie Margarine Ce critère est retenu car il décrit une courbe «quasi-parfaite» (valeur seuil évidente). Voici un extrait des résultats : COUPLES Li, Lj SMC.CAT SMC.CORP st hubert 1 0 fruit or 1 0 agriculture bio 1 0 demi sel 1 0 pro activ 1 0 7

planta fin 1 0 tournesol bio 1 0 cuisson cadeau 1 0 cuisson steak 1 1 matiere grasse 0 0 grasse tartiner 0 0 On constate que les couples de mots extraits sont très pertinents (il s agit des marques ou des caractéristiques de produits propres à la catégorie margarine). Par ailleurs les valeurs du critère SMC sur le corpus (colonne SMC.CORP) constituent même un filtre anti-bruit («cuisson, steak»). Les couples qui ne sont pas significatifs de la catégorie («matière, grasse») et («grasse, tartiner») ne sont pas extraits. Coefficient d Ochiai : OCH = a ( a + b) a + c ( ) Figure 7 - Coefficient d'ochiai pour la catégorie "Margarine" Ce coefficient donne des résultats plus fins que le SMC (l'axe des ordonnés de la figure 7 représente les valeurs du coefficient d Ochiai tandis que l'axe des abscisses représente les couples). On observe le même comportement qu avec le coefficient SMC pour les couples très significatifs de la catégorie. Cependant l OCH est beaucoup plus fin pour les autres couples. Voici un extrait des résultats obtenus : COUPLES Li, Lj SMC.CAT OCH.CAT OCH.CORP st hubert 1 1 0,63245553 fruit or 1 1 0,9258201 agriculture bio 1 1 0,8660254 demi sel 1 1 0,36980013 pro activ 1 1 0,65465367 planta fin 1 1 0,70710678 tournesol bio 1 1 0,57735027 bio bio 1 1 1 cuisson cadeau 1 1 0,5 cuisson pince 1 1 1 tournesol agriculture 1 1 0,5 matiere grasse 0 0,96824584 0,95742711 grasse tartiner 0 0,89442719 0,90578946 matiere tartiner 0 0,8660254 0,91287093 matiere allegee 0 0,66143783 0,6770032 margarine allegee 0 0,21821789 0,17407766 8

Les mesures suivantes ont également été évaluées mais n ont pas été retenues faute de résultats suffisants : coefficient de Kulzcinsky, coefficient de Fager et de McGowen, coefficient de Yule, coefficient de Mc Connoughy, coefficent du Phi 2, le score d association IM et IM au cube et enfin le coefficient de vraisemblance Loglike tels qu ils sont définis dans (Daille 1994) et dans (Daille et al. 1998). Le tableau suivant présente, pour quelques catégories, la terminologie finalement retenue : Catégorie Termes Margarine (st, hubert), (fruit, or), (agriculture, bio), (demi, sel)... Viande hachée fraiche (pur, boeuf), (pur, porc), (viande, hachée),... Eau gazeuse (citron, vert), (st, yorre), (eau, minérale),... Sel (sel, marin), (sel, iodé), (gros, sel), (sel, fin),... Chips (chips, grillé), (goût, jambon), (goût, tomate),... Produit pour feu (allume, feu), (cube cheminé), (multi, usage),... 5. Conclusions et perspectives L utilisation croissante des libellés courts sur Internet dans des domaines d applications très variés (culturel, scientifique, social) nous ont poussé à étudier les méthodes existantes d extraction automatique de terminologie sur les libellés courts. L existence d un objectif précis et fonctionnel ainsi que l obligation de résultat liée au projet industriel SmartyCart nous a déjà permis d obtenir des résultats concrets. Une première conclusion montre que la fréquence normalisée n est pas une mesure suffisamment fine pour être retenue. En effet les termes de notre corpus ont des fréquences d'apparition souvent similaires. Par contre le coefficient de proximité simple SMC et le coefficient d Ochiai donnent des résultats particulièrement satisfaisants. Cependant il nous faut maintenant valider la stabilité de ces critères à travers la totalité des catégories de l application cible et sur un corpus complet. Nous entamons actuellement une validation de ces premiers résultats sur un corpus de 20 000 produits répartis dans 750 catégories. Nous souhaitons ultérieurement évaluer notre méthode sur des libellés courts issus d autres domaines d application que les produits de grande distribution. Nous avons prévu de travailler sur les petites annonces, les dépêches journalistiques et les forums de discussion. Nous tenterons d étudier la stabilité de nos résultats à travers ces différents domaines. Les résultats actuels tendent à confirmer une nouvelle fois qu il est très difficile de définir une méthode d extraction automatique de terminologie générale, sans objectif fonctionnel précis. La nature du corpus ainsi que la finalité de l'extraction sont autant de paramètres essentiels. 6. Bibliographie Ananiadou S., 1998, Towards a methodology for automatic term recognition, PhD Thesis, Université de Manchester, UK. Bourigault D., 1992, «Surface grammatical analysis for the extraction of terminological noun phrases», in Proceedings of COLING, p. 977-981. Bourigault D., 1994, LEXTER, un Logiciel d EXtraction de TERminologie. Application à l acquisition de connaissances à partir de textes, Thèse de doctorat, EHESS. Bourigault D., Jacquemin C., 2000, «Construction de ressources terminologiques», Ingénierie des Langues, éd. J.-M. Pierrel, Hermès Sciences, p. 215-230. Chung Y.M., Lee J.Y., 2001, «A Corpus-Based Approach to Comparative Evaluation of Statistical Term Association Measures», Journal of the American Society for Information Science and Technology, 52(4), p. 283-296. Daille B., 1994, Approche Mixte pour l'extraction Automatique de Terminologie, Thèse de Doctorat. Daille B., 2002, Découvertes linguistiques en corpus, Habilitation à diriger des recherches, Université de Nantes. Daille B., Gaussier E., Langé J.-M., 1994, «Towards automatic extraction of monolingual and bilingual terminology», in Proceedings of COLING, p. 515-521. Daille B., Gaussier E., Langé J.-M., 1998, «An Evaluation of Statistical Scores for Word Association», The Tbilisi Symposium on Logic, Language and Computation - Selected papers, CSLI publications, p. 177-188. Dubois J., Guespin L., Giacomo M., Marcellesi C., Marcellesi J.-B., Mével J.-P., 1994, Dictionnaire de linguistique et des sciences du langage. Collection Trésors du Français, Larousse, Paris. Dunning T., 1993, «Accurate Methods for the Statistics of Surprise and Coincidence», Computational Linguistics, vol. 19, n 1. 9

Enguehard C., Pantera L., 1994, «Automatic natural acquisition of terminology», Journal of Quantitative Linguistics, 2(1), p. 27-32. Faure D., Poibeault D., 2000, «Extraction d information utilisant INTEX et des connaissances sémantiques apprises par ASIUM, premières expérimentations», Actes du 12è congrès Reconnaissance des Formes et Intelligence Artificielle RFIA 2000, Paris, France, p. 91-100. Frantzi K.T., 1998, Automatic Recognition of Multi-Word Terms, PhD Thesis, Manchester Metropolitan University, UK. Grefenstette G., 1994, Explorations in Automatic Thesaurus Discovery, Kluwer Academic Publisher. Hamming R.W., 1980, Coding and Information Theory, Englewood Cliffs, NJ : Prentice-Hall. Hearst M., 1992, «Automatic Acquisition of Hyponyms from Large Text Corpora», Proceedings of the 13th Internation Conference on Computational Linguistics COLING 92, Nantes, France, p. 539-545. Lesk M., 1986, «Automatic sense disambiguation : how to tell a pine cone from an ice cream cone», in Proceedings of SIGDOC, p. 24-26. Jacquemin C., 1997, Variation terminologique : reconnaissance et acquisition automatique de termes et de leurs variantes en corpus, Habilitation à diriger des recherches, IRIN, Université de Nantes, France. Manning C.D., Schütze H., 1999, Foundation of Statistical Natural Language Processing, chapitre 5, p. 141-177. Maynard D., Ananiadou S., 1999, «Term Extraction using a Similarity-based Approach.», in Recent Advances in Computational Terminology, Ed. by D. Bourigault, C. Jacquemin, M.-C. L'Homme, John Benjamins. http://citeseer.nj.nec.com/maynard99term.html Morin E., 1999, Extraction de liens sémantiques entre termes à partir de corpus de textes techniques, Thèse de doctorat, Université de Nantes, France. NLM, 1997, UMLS Knowledge Sources, U.S. Dept of Health and Human Services, 8è édition. Noleau E., 1998, Apprentissage et filtrage syntaxico-sémantique de syntagmes pertinents pour la recherche documentaire, Thèse de doctorat, Université Paris-Nord, France. Oakes M., 1998, Statistics for corpus linguistics, Edinburgh University Press, U.K. Riloff E., 1996, «Automatic Generating Extraction Patterns from Untagged Text», Proceedings of the 13th National Conference on Artifical Intelligence AAAI 96, Portland, USA, p. 1004-1049. Séguéla P., 2001, Construction de modèles de connaissances par analyse linguistique de relations lexicales dans les documents techniques, Thèse de doctorat, Université de Toulouse-III, France. Smadja F., 1993, «Retrieving Collocations from Text : Xtract», Computational Linguistics, 19(1), p. 143-178. Smeaton A., Quigley L., «Experiments on using semantic distances between words in image caption retrieval», in Proceedings of 19th International Conference on Research and Development in Information Retrieval, Zurich, Suisse. Schmid H., 1994, «Probablistic Part-of-Speech Tagging Using Decision Trees», actes du First International Conference on New Methods in Natural Language Processing (NemLap-94), Manchester, U.K., p. 44-49. Yarowsky D., 1992, «Word-sense disambiguation using statistical models of Roget s categories trained on large corpora», in Proceedings of 14th International Conference on Computational Linguistics, p. 454-460. 10