Extraction automatique de terminologie à partir de libellés textuels courts

Dimension: px
Commencer à balayer dès la page:

Download "Extraction automatique de terminologie à partir de libellés textuels courts"

Transcription

1 Extraction automatique de terminologie à partir de libellés textuels courts Jean-Claude Meilland ismart Le Mercure A, 565 Rue Berthelot Aix en Provence Cedex 3 (France) Patrice Bellot Université d Avignon (LIA CNRS) Agroparc BP Avignon Cedex 9 (France) Résumé : Cet article concerne l extraction automatique de terminologie appliquée à des libellés textuels courts issus de la grande distribution. Elle s appuie sur les données du projet industriel SmartyCart. Nous montrons que certains critères d associations de termes peu utilisés dans des textes longs sont particulièrement adaptés pour des libellés courts et que la seule fréquence d apparition comme critère de sélection donne de mauvais résultats. Mots-clés : extraction terminologique, coefficients d associations, libellés commerciaux, TALN. 1. Introduction L avènement d Internet a créé un besoin accru d accès et de traitement de l information. En effet, outre la recherche d informations, on voit émerger de nombreuses problématiques de structuration et de classification d informations issues d applications fédératrices de données (e.g. les portails comme Free affichent la météo ou les programmes de télévision issus d autres sites spécialisés). Par applications fédératrices de données nous entendons les applications qui recherchent, comprennent et utilisent des informations décrites en langage naturel afin de fournir un service basé sur celles-ci ou plus simplement de les diffuser d une autre manière (structurées et/ou classées autrement). Cependant, la diversité des domaines (commercial, social, industriel, littéraire, journalistique, technique/spécialisé) et surtout les caractéristiques des textes (longs, télégraphiques) rendent le Traitement Automatique du Langage Naturel (TALN) particulièrement complexe. Depuis de nombreuses années certains travaux ont permis la constitution de bases terminologiques dans des domaines de référence. Dans le cadre de nos travaux, nous souhaitons proposer une étude et une méthode d extraction automatique de terminologie sur des textes dont la nature est très présente sur Internet : les libellés courts (dépêches journalistiques, petites annonces, descriptions de produits commerciaux, publicités, forums de discussion). Plus spécifiquement, notre étude est appliquée à des libellés courts décrivant des produits commerciaux issus de la grande distribution. Nous nous appuyons sur les données du projet industriel SmartyCart, elles-mêmes obtenues à partir des différents sites de magasins en ligne (www.ooshop.fr, Le projet SmartyCart est soutenu par la société ismart. Il concerne des applications consuméristes d aide à la consommation dans le secteur de la grande distribution. Les libellés courts ont une sémantique particulièrement riche dans laquelle il n existe que relativement peu d ambiguïtés pour un lecteur humain qui doit toutefois utiliser le contexte pour les comprendre. Dans l exemple suivant, le terme lait pris isolément est particulièrement ambigu : «Lait hydratant Bodytonic + Shampooing cuir chevelu irrité - Neutralia - + le lait nutritif Bodycocoon gratuit» et «Lait frais entier GrandLait - Candia - la bouteille de 1l». À partir d un corpus de libellés catégorisés, nous tentons de définir la terminologie de chaque catégorie afin d être, à terme, capable de classer un nouveau produit et de structurer son libellé (avec notamment la reconnaissance automatique du type d emballage, du prix, de la quantité ou du parfum pour une glace et du pourcentage de matière grasse pour un produit laitier). Pour cela nous mettons en perspective les statistiques relatives à un terme dans une catégorie avec celles de ce même terme dans les autres catégories et dans l ensemble du corpus. Nous verrons que certains critères peu utilisés dans des textes longs (coefficient d Ochiai, coefficient de proximité simple) sont particulièrement adaptés pour notre application. Contrairement à de nombreux résultats en extraction automatique de terminologie voir par exemple (Bourigault & Jacquemin 2000), nous montrons que la seule fréquence d apparition des termes comme critère de sélection donne de mauvais résultats dans les libellés courts. Nos travaux se basent principalement sur une étude des collocations (Manning & Schütze 1999) et des critères d associations (Daille 1994). Dans la section 2, nous énonçons quelques uns des principes fondamentaux de l extraction terminologique. Ensuite (section 3), nous présentons en détail l application visée par le présent travail et nous continuons (section 4) en détaillant les résultats obtenus. Le principal intérêt scientifique de cette étude est de comparer à quel point les résultats des études en extraction de terminologie couramment effectuées sur des textes «longs» se retrouvent sur des libellés courts. 1

2 2. Principes fondamentaux Nous ne discutons pas ici de la notion de terme mais retenons la définition que l on peut trouver dans (Dubois 1994) indiquant qu un terme est une unité signifiante constituée d un mot (terme simple) ou de plusieurs mots (terme complexe), qui désigne une notion de façon univoque à l intérieur d un domaine. Ainsi, le terme s oppose au(x) mot(s) par sa référence inhérente à un domaine. En ce qui concerne notre étude, la classification automatique de libellés textuels commerciaux courts, les «domaines» sont les différentes catégories de produits que l on peut acquérir dans un cybermarché. Si l adéquation terme/concept/domaine peut s avérer difficile à établir lorsque l analyse porte sur des textes classiques (articles journalistiques, monographies), elle est dans notre cas plus rapidement identifiable : les libellés sont écrits de la manière la plus concise et la moins ambiguë possible pour le lecteur (en l occurrence un acheteur potentiel) et ne contiennent aucune tournure complexe (paraphrases, anaphores). Cela ne signifie pas pour autant que le problème consistant à attribuer une étiquette à un libellé (une catégorie à un produit) soit simple, comme nous le verrons par la suite sur des exemples. Il l est tout de même suffisamment pour que nous puissions envisager l exploitation de l analyse terminologique dans un cadre commercial avec une supervision humaine restreinte. Dans de très nombreux cas, l extraction terminologique s intéresse essentiellement à l identification de syntagmes nominaux (substantifs isolés pour les termes simples, schémas de type «N de N» ou «N à N» pour les termes complexes où N désigne un nom). En ce qui nous concerne, de nombreux types de structures syntaxiques sont intéressants. L extraction du terme complexe lait écrémé (N ADJ) permet à la fois l identification d un type de produit particulier (puisque de nombreux libellés débutent par ces deux mots) mais aussi la désambiguïsation du mot lait (nous sommes en présence d un lait à boire et non pas d un lait de beauté) et donc la classification du produit. Notons qu il est en outre très difficile de déterminer des règles décrivant des structures grammaticales figées sur des libellés (cela pourrait toutefois être envisageable en distinguant chaque site de commerce électronique ciblé, chaque site ayant sa propre manière de décrire les produits) et, par extension, de ne retenir comme candidat terme que les mots correspondants à telle ou telle catégorie syntaxique. Il est d ailleurs intéressant de constater, même si c était prévisible, que les étiqueteurs syntaxiques souvent utilisés tels le TreeTagger (Schmidt 1994), sont inopérants sur les libellés. A cause de cela, il nous est difficile d utiliser des méthodes hybrides (combinant des informations linguistiques et statistiques) pour l extraction des termes caractérisant les catégories comme cela est réalisé par exemple par (Daille et al. 1994; Enguehard & Pantera 1994 ; Frantzi 1998, Maynard & Ananiadou 1999). Nous donnons dans la sous-section suivante un rapide aperçu des approches couramment employées pour l extraction terminologique. Pour une étude plus complète des méthodes et outils développés ces dernières années, le lecteur pourra se référer par exemple à (Bourigault & Jacquemin 2000) ainsi qu à (Séguéla 2001) Différentes approches pour l extraction terminologique Les méthodes automatiques d extraction terminologique utilisant principalement des informations linguistiques sont jusqu ici relativement peu nombreuses (Maynard & Ananiadou 1999). Citons toutefois celles qui sont basées sur les informations syntaxiques des termes candidats avec par exemple les outils logiciels LEXER (Bourigault 1992 ; Bourigault 1994) ou bien SEXTANT (Grefenstette 1994) ou, conjointement, sur les informations syntaxiques et morphologiques (Ananiadou 1988). L extraction de relations à partir de critères statistiques part de l hypothèse que de le sens d une unité terminologique est étroitement lié avec la distribution de son utilisation en contexte. De nombreux travaux sur l étude des co-occurrences sont venus appuyer cette hypothèse voir par exemple (Smadja 1993). Malheureusement, les méthodes essentiellement statistiques ont tendance à rapporter des relations conceptuelles de nature différente qu il est difficile de dissocier sans recours à un expert du domaine (Séguéla 2001). L extraction terminologique basée uniquement sur des critères statistiques se heurte à une difficulté supplémentaire liée aux différentes variantes terminologiques possibles pour exprimer un concept ou une notion. La faible dimension du corpus sur lequel sont calculés les critères d association et la variabilité des termes utilisés peuvent masquer certaines associations. L emploi de méthodes de reconnaissance de variations terminologiques pourrait remédier à ce problème (Jacquemin 1997) et aider à obtenir une meilleure extraction. Une autre approche, abondamment décrite dans (Séguela 2001) consiste à déterminer quelles sont les formules linguistiques prévisibles et récurrentes exprimant les relations sémantiques observables d un texte. Ces formules sont autant de marqueurs déposées dans le texte servant à extraire ensuite automatiquement d autres relations voir (Hearst 1992 ; Riloff 1996 ; Morin 1999 ; Faure & Poibault 2000) pour ne citer qu eux. 2

3 2.2. Approches statistiques et approches hybrides La plupart des modèles statistiques se résument au calcul de valeurs numériques telles que les fréquences, les critères d association ou de diversité par exemple la diversité de Shannon et l information mutuelle (Hamming 1980) et les mesures de distance voir par exemple (Oakes 1998). Parmi les critères d association, nous pouvons citer ceux que l on trouve dans (Daille 1994) tous basés sur quatre valeurs associées à un couple de mots/lemmes : le nombre d occurrences du couple, le nombre d occurrences de tous les couples où le premier élément (resp. le deuxième) du couple analysé est présent mais pas le second (resp. le premier) et le nombre d occurrences de tous les couples où ni le premier ni le second élément du couple candidat n est présent (on parle de tableau de contingence, voir section 4.2). Parmi ces critères : le coefficient de proximité simple, de Kulczinsky, d Ochiai, de Fager et de McGowan, de Yule, de Mc Connoughly, du F 2, le score d association au cube et le coefficient de vraisemblance (loglike) introduit par Dunning (1993). Pour une comparaison de ces différents critères et une étude bibliographique étendue de leur application à la linguistique de corpus, le lecteur peut se reporter à (Chung & Lee 2001). Nous renvoyons également aux travaux de B. Daille (2002). Également parmi les approches statistiques, celle de Frantzi (1998) consiste à retenir comme termes candidats ceux qui ont la plus grande C-value, valeur basée sur la fréquence d apparition du mot et sur sa longueur. Maynard et Ananiadou (1999) combinent cette valeur avec un facteur contextuel correspondant à la prise en compte de la fréquence d apparition des noms, adjectifs et verbes apparaissant dans le contexte du terme candidat (le contexte étant défini par l intermédiaire d une fenêtre autour du candidat). Parmi les éléments du contexte ceux qui sont eux-mêmes des termes candidats sont pris en compte différemment de ceux qui ne sont que de simples mots. Une distance entre les termes du contexte et le terme candidat intervient dans le calcul de la «valeur terminologique» finale du terme candidat à partir d un réseau sémantique. Les expériences décrites dans (Maynard & Ananiadou 1999) concernent le domaine médical et emploient le réseau sémantique UMLS (NLM 1997). La tendance actuelle consiste finalement à combiner des approches linguistiques avec des approches statistiques. Généralement, la partie essentielle de la méthode d extraction est statistique, la partie «linguistique» consistant à filtrer les termes en fonction de leur catégorie syntaxique. L utilisation d informations sémantiques est naturellement envisagée même si elle est souvent difficile à mettre en œuvre. Dans le cadre de la désambiguisation d un mot (par opposition à la désambiguisation d un terme), nous pouvons citer par exemple les travaux de Lesk (1986) qui utilise un dictionnaire en ligne afin de comparer la définition d un terme candidat avec les mots apparaissant dans le contexte de ce terme dans le corpus analysé. D autres approches, citées dans (Maynard & Ananiadou 1999), concernent le calcul de distances entre deux mots à partir de leurs relations dans un thésaurus (Smeaton 1996; Yarowsky 1992). E. Noleau (1998) a employé dans ses travaux en recherche documentaire des ressources sémantiques propres à un domaine pour valider (ou invalider) des termes retenus lors d une première extraction (enrichissement automatique des ressources après validation ou invalidation). Les techniques de désambiguisation d un terme (on rappelle qu un terme est souvent un composé de plusieurs mots dont le sens est dépendant d un domaine) s inspirent largement des approches que l on vient de citer. Elles permettent de distinguer différents cas d utilisation d un terme candidat. 3. Une problématique industrielle En partant d un corpus catégorisé issu des sites de grande distribution, nous souhaitons étiqueter chaque catégorie. Dans le cadre du projet SmartyCart nous avons défini manuellement la liste des catégories et avons utilisé les moteurs de recherche des sites de grande distribution en ligne afin d'obtenir les libellés des produits de chaque catégorie. Après avoir effectué un filtrage manuel, nous appliquons notre méthode d extraction automatique afin de définir un pseudo-modèle de langage de chaque catégorie. Celui-ci nous permettra par la suite de classer et de structurer les produits automatiquement. Les figures 1, 2 et 3 décrivent la méthode de collecte des données initiales. 3

4 Figure 1 - Site OOShop SmartyCart utilise les moteurs de recherche des sites de grande distribution (le site de Carrefour OOShop pour la figure 1) afin de constituer le corpus catégorisé. Un filtrage manuel supprime le bruit (sur la figure 1, le lait frais demi-écrémé n appartient pas à la catégorie «lait écrémé» est n est donc pas retenu). Figure 2 - Corpus catégorisé Une fois les produits catégorisés (figure 2) et filtrés manuellement, on utilise une méthode ad-hoc afin d extraire les termes représentatifs de chaque catégorie et si possible de les étiqueter (figure 3). Catégorie Lait écrémé Noms Lait, Silhouette Marques Candia, Lactel, Danone, Carrefour Quantités Emballages Brique, Bouteille Unités Litre Adjectifs (Qualifiants) Ecrémé, Vitaminé, Bébé Figure 3 Objectif final : étiquetage des termes représentatifs des catégories Un tel étiquetage permettra de constituer un corpus d'apprentissage pour des algorithmes de classification et de structuration de produits à grande échelle sur lesquels s appuieront des applications gratuites à forte valeur ajoutée pour les utilisateurs (un moteur de recherche par exemple). 4. La méthode d extraction de terminologie dans des libellés courts À partir d un corpus de départ catégorisé, nous souhaitons extraire les termes les plus représentatifs de chaque catégorie. Notre approche consiste à calculer la variance et certains critères d associations des termes présents dans les libellés aussi bien dans chaque catégorie que dans l ensemble du corpus (réunion de toutes les catégories). Comme cela a été dit en section 2, quatre types de mesures sont communément utilisés pour l extraction terminologique : les fréquences, les critères d association, la diversité et les mesures de distance. Dans un texte long, la fréquence d un couple constitue un bon indicateur de son caractère terminologique. Dans des libellés courts d un même domaine d application on observe le phénomène inverse. En effet la majorité des couples ont 4

5 une fréquence similaire et relativement faible. La figure 4 permet de constater qu il n apparaît pas de seuils évidents pour la catégorie «margarine» (le corpus est constitué de 718 libellés répartis en 42 catégories) : la distribution des fréquences normalisées est similaire sur les catégories et sur l ensemble du corpus Fréquence Catégorie Fréquence Corpus Figure 4 - Fréquences normalisées pour la catégorie «Margarine» (abscisses : les couples de mots ; ordonnées : fréquence normalisée) Nous avons donc centré notre étude sur les mesures de distances et les critères d associations. La liste des couples de mots candidats est constituée en se basant sur une fenêtre maximale et en prenant uniquement les mots d au moins deux caractères. Nous évaluons chaque critère dans une catégorie et dans le corpus entier. Pour cela nous utilisons une évaluation graphique sur des valeurs normalisées et triées. Ainsi nous retenons un critère si sa courbe met en évidence des seuils (fortes variations dans la pente). Un critère dont la courbe ne connaît pas de variations importantes n est pas retenu Étude des collocations (mesure de variance) Nous reprenons la définition de la variance citée dans (Manning & Schütze 1999). Pour cela on calcule la moyenne des distances séparant les deux mots d un couple de termes dans sa catégorie. La table ci-contre contient trois libellés illustrant cette définition. Cafe Regal Jacques Vabre, moulu, melange classique, paquet 250 g, 4,80 euros le kg 1.20 euros Cafe Tradition Maison du Cafe, moulu, melange classique, paquet 250 g, 4,64 euros le kg 1.16 euros Cafe melange Hediard, moulu, boite en fer 250 g, 27,44 euros le kg 6.86 euros Pour le couple (café, mélange) la distance moyenne est de 1/3(4+5+1)=3,33 mots. Ensuite la variances 2, pour un couple donné, est calculée de la manière suivante : s 2 = n  i=1 ( d i - m) 2 où n (n > 1) est le nombre de fois où le couple apparaît (dans la catégorie si l on calcule sa variance dans la catégorie et dans le corpus entier sinon), d i la distance en nombre de mots séparant les deux mots du couple dans le i-ème libellé où il apparaît et µ la distance moyenne séparant les deux mots du couple. La figure 5 correspond à l évaluation de la variance pour la catégorie «Margarine» (l'axe des ordonnées représente la variance normalisée tandis que l'axe des abscisses représente les couples de mots). Trois types de couples sont répertoriés : n -1 les couples ayant une variance élevée dans le corpus et faible dans la catégorie : 15% des couples ; les couples ayant une variance identique dans le corpus et dans la catégorie : 60% des couples ; les couples ayant une variance faible dans la corpus et élevé dans la catégorie : 15% des couples 5

6 matiere or grasse or activ or matiere fin matiere planta matiere grasse tartiner fin fruit or activ grasse cuire fin tartiner allegee cuire planta activ matiere cuire allegee allegee planta fruit steak tartine or pro tartine pro cuisson pince cadeau or steak matiere steak margarine or tartine fruit matiere cuisson margarine agriculture cuisson steak grasse pince activ steak cuisson pince fruit cadeau cuisson or demi sel allegee demi tartiner nature sel hubert grasse demi tartiner sel matiere demi matiere sel allegee hubert tartiner hubert matiere hubert µ?(couple, catégorie) µ?(couple, corpus) µ?(couple, catégorie) - µ?(couple, corpus) Figure 5 Valeurs de variance pour la catégorie «Margarine» La variance paraît être une mesure intéressante dans la catégorie Margarine car elle met en évidence plusieurs seuils. Voici un extrait des résultats obtenus si l on retient cette mesure : Couple Li,Lj Variance catégorie Variance corpus Ecart (Var.Corp - Vat.Cat) matiere hubert 0, , , grasse hubert 0, , , agriculture bio 0 0, , cuire nature 0, , , demi sel 0, , , allegee matiere fruit pince planta fin 0, , , tartiner allegee 0, , , grasse allegee 0, , , matiere grasse 0, , , grasse cuire 0, , , grasse fin 0, , , matiere cuire 0, , , On distingue des valeurs seuils de couples significatifs : les couples ayant une variance plus faible dans la catégorie que dans le corpus (agriculture bio, demi-sel) qui ne sont pas représentatifs de la catégorie; les couples ayant une variance plus grande dans la catégorie que dans le corpus (planta fin, tartiner allégée). Lorsque la variance est trop élevée il s agit généralement de bruit. Lorsque elle est nulle et qu il n y a pas d écart entre la variance de la catégorie et du corpus on ne peut pas tirer de conclusion. Ce critère a plusieurs inconvénients. En effet, il ne nous permet pas d extraire les couples significatifs dans le corpus (par exemple «matière, allégée»). Par ailleurs on constate souvent la présence de couples de mots sémantiquement opposés dans les termes retenus par exemple : (cuire, nature) et (grasse, allégée). Cette mesure ne nous permet pas d extraire les termes représentatifs d une catégorie. Il faut probablement la combiner à d autres critères. 6

7 4.2. Étude des critères d associations «D un point de vue statistique, les deux lemmes qui forment un couple sont considérés comme deux variables qualitatives dont il s agit de tester la liaison.», (Daille 1994 : 116). La matrice de contingence suivante est à la base des critères d association testés : Lj Lj avec j j Li a b Li avec i i c d a = le nombre d occurrences du couple de mots (Li, Lj), b = le nombre d occurrences des couples où Li est le premier élément d un couple et Lj n est pas le second, c = le nombre d occurrences des couples où Lj est le second élément du couple et Li n est pas le premier, d = le nombre d occurrences de couples où ni Li ni Lj n apparaissent. La somme a + b + c + d est notée N. On calcule ensuite les critères suivants : Coefficient de proximité simple SMC (Simple Matching Coefficient) a + b SMC = a + b + c + d L évaluation graphique de cette mesure (figure 6) nous donne des résultats particulièrement intéressants dans la catégorie «margarine» (l'axe des ordonnés représente le coefficient SMC des différents couples tandis que l'axe des abscisses représente les couples eux-mêmes) : SMC(Couple,Catégorie) SMC(Couple,Corpus) grasse fleurier grasse fruit grasse demi allegee sel cuire fleurier cuire or allegee fin grasse st matiere doux allegee st matiere st grasse doux tartiner doux grasse fin demi sel tartiner st tartiner fruit tartiner fin cuisson fruit matiere cuire matiere fin activ pince tartine or matiere or tartiner demi margarine fruit grasse tartiner pro tartine margarine agriculture matiere cuisson matiere planta grasse tartine allegee fruit sel hubert matiere allegee margarine allegee tournesol bio cuire fruit fruit steak allegee or fruit pince allegee matiere margarine tournesol Figure 6 - SMC catégorie Margarine Ce critère est retenu car il décrit une courbe «quasi-parfaite» (valeur seuil évidente). Voici un extrait des résultats : COUPLES Li, Lj SMC.CAT SMC.CORP st hubert 1 0 fruit or 1 0 agriculture bio 1 0 demi sel 1 0 pro activ 1 0 7

8 planta fin 1 0 tournesol bio 1 0 cuisson cadeau 1 0 cuisson steak 1 1 matiere grasse 0 0 grasse tartiner 0 0 On constate que les couples de mots extraits sont très pertinents (il s agit des marques ou des caractéristiques de produits propres à la catégorie margarine). Par ailleurs les valeurs du critère SMC sur le corpus (colonne SMC.CORP) constituent même un filtre anti-bruit («cuisson, steak»). Les couples qui ne sont pas significatifs de la catégorie («matière, grasse») et («grasse, tartiner») ne sont pas extraits. Coefficient d Ochiai : OCH = a ( a + b) a + c ( ) Figure 7 - Coefficient d'ochiai pour la catégorie "Margarine" Ce coefficient donne des résultats plus fins que le SMC (l'axe des ordonnés de la figure 7 représente les valeurs du coefficient d Ochiai tandis que l'axe des abscisses représente les couples). On observe le même comportement qu avec le coefficient SMC pour les couples très significatifs de la catégorie. Cependant l OCH est beaucoup plus fin pour les autres couples. Voici un extrait des résultats obtenus : COUPLES Li, Lj SMC.CAT OCH.CAT OCH.CORP st hubert 1 1 0, fruit or 1 1 0, agriculture bio 1 1 0, demi sel 1 1 0, pro activ 1 1 0, planta fin 1 1 0, tournesol bio 1 1 0, bio bio cuisson cadeau 1 1 0,5 cuisson pince tournesol agriculture 1 1 0,5 matiere grasse 0 0, , grasse tartiner 0 0, , matiere tartiner 0 0, , matiere allegee 0 0, , margarine allegee 0 0, ,

9 Les mesures suivantes ont également été évaluées mais n ont pas été retenues faute de résultats suffisants : coefficient de Kulzcinsky, coefficient de Fager et de McGowen, coefficient de Yule, coefficient de Mc Connoughy, coefficent du Phi 2, le score d association IM et IM au cube et enfin le coefficient de vraisemblance Loglike tels qu ils sont définis dans (Daille 1994) et dans (Daille et al. 1998). Le tableau suivant présente, pour quelques catégories, la terminologie finalement retenue : Catégorie Termes Margarine (st, hubert), (fruit, or), (agriculture, bio), (demi, sel)... Viande hachée fraiche (pur, boeuf), (pur, porc), (viande, hachée),... Eau gazeuse (citron, vert), (st, yorre), (eau, minérale),... Sel (sel, marin), (sel, iodé), (gros, sel), (sel, fin),... Chips (chips, grillé), (goût, jambon), (goût, tomate),... Produit pour feu (allume, feu), (cube cheminé), (multi, usage), Conclusions et perspectives L utilisation croissante des libellés courts sur Internet dans des domaines d applications très variés (culturel, scientifique, social) nous ont poussé à étudier les méthodes existantes d extraction automatique de terminologie sur les libellés courts. L existence d un objectif précis et fonctionnel ainsi que l obligation de résultat liée au projet industriel SmartyCart nous a déjà permis d obtenir des résultats concrets. Une première conclusion montre que la fréquence normalisée n est pas une mesure suffisamment fine pour être retenue. En effet les termes de notre corpus ont des fréquences d'apparition souvent similaires. Par contre le coefficient de proximité simple SMC et le coefficient d Ochiai donnent des résultats particulièrement satisfaisants. Cependant il nous faut maintenant valider la stabilité de ces critères à travers la totalité des catégories de l application cible et sur un corpus complet. Nous entamons actuellement une validation de ces premiers résultats sur un corpus de produits répartis dans 750 catégories. Nous souhaitons ultérieurement évaluer notre méthode sur des libellés courts issus d autres domaines d application que les produits de grande distribution. Nous avons prévu de travailler sur les petites annonces, les dépêches journalistiques et les forums de discussion. Nous tenterons d étudier la stabilité de nos résultats à travers ces différents domaines. Les résultats actuels tendent à confirmer une nouvelle fois qu il est très difficile de définir une méthode d extraction automatique de terminologie générale, sans objectif fonctionnel précis. La nature du corpus ainsi que la finalité de l'extraction sont autant de paramètres essentiels. 6. Bibliographie Ananiadou S., 1998, Towards a methodology for automatic term recognition, PhD Thesis, Université de Manchester, UK. Bourigault D., 1992, «Surface grammatical analysis for the extraction of terminological noun phrases», in Proceedings of COLING, p Bourigault D., 1994, LEXTER, un Logiciel d EXtraction de TERminologie. Application à l acquisition de connaissances à partir de textes, Thèse de doctorat, EHESS. Bourigault D., Jacquemin C., 2000, «Construction de ressources terminologiques», Ingénierie des Langues, éd. J.-M. Pierrel, Hermès Sciences, p Chung Y.M., Lee J.Y., 2001, «A Corpus-Based Approach to Comparative Evaluation of Statistical Term Association Measures», Journal of the American Society for Information Science and Technology, 52(4), p Daille B., 1994, Approche Mixte pour l'extraction Automatique de Terminologie, Thèse de Doctorat. Daille B., 2002, Découvertes linguistiques en corpus, Habilitation à diriger des recherches, Université de Nantes. Daille B., Gaussier E., Langé J.-M., 1994, «Towards automatic extraction of monolingual and bilingual terminology», in Proceedings of COLING, p Daille B., Gaussier E., Langé J.-M., 1998, «An Evaluation of Statistical Scores for Word Association», The Tbilisi Symposium on Logic, Language and Computation - Selected papers, CSLI publications, p Dubois J., Guespin L., Giacomo M., Marcellesi C., Marcellesi J.-B., Mével J.-P., 1994, Dictionnaire de linguistique et des sciences du langage. Collection Trésors du Français, Larousse, Paris. Dunning T., 1993, «Accurate Methods for the Statistics of Surprise and Coincidence», Computational Linguistics, vol. 19, n 1. 9

10 Enguehard C., Pantera L., 1994, «Automatic natural acquisition of terminology», Journal of Quantitative Linguistics, 2(1), p Faure D., Poibeault D., 2000, «Extraction d information utilisant INTEX et des connaissances sémantiques apprises par ASIUM, premières expérimentations», Actes du 12è congrès Reconnaissance des Formes et Intelligence Artificielle RFIA 2000, Paris, France, p Frantzi K.T., 1998, Automatic Recognition of Multi-Word Terms, PhD Thesis, Manchester Metropolitan University, UK. Grefenstette G., 1994, Explorations in Automatic Thesaurus Discovery, Kluwer Academic Publisher. Hamming R.W., 1980, Coding and Information Theory, Englewood Cliffs, NJ : Prentice-Hall. Hearst M., 1992, «Automatic Acquisition of Hyponyms from Large Text Corpora», Proceedings of the 13th Internation Conference on Computational Linguistics COLING 92, Nantes, France, p Lesk M., 1986, «Automatic sense disambiguation : how to tell a pine cone from an ice cream cone», in Proceedings of SIGDOC, p Jacquemin C., 1997, Variation terminologique : reconnaissance et acquisition automatique de termes et de leurs variantes en corpus, Habilitation à diriger des recherches, IRIN, Université de Nantes, France. Manning C.D., Schütze H., 1999, Foundation of Statistical Natural Language Processing, chapitre 5, p Maynard D., Ananiadou S., 1999, «Term Extraction using a Similarity-based Approach.», in Recent Advances in Computational Terminology, Ed. by D. Bourigault, C. Jacquemin, M.-C. L'Homme, John Benjamins. Morin E., 1999, Extraction de liens sémantiques entre termes à partir de corpus de textes techniques, Thèse de doctorat, Université de Nantes, France. NLM, 1997, UMLS Knowledge Sources, U.S. Dept of Health and Human Services, 8è édition. Noleau E., 1998, Apprentissage et filtrage syntaxico-sémantique de syntagmes pertinents pour la recherche documentaire, Thèse de doctorat, Université Paris-Nord, France. Oakes M., 1998, Statistics for corpus linguistics, Edinburgh University Press, U.K. Riloff E., 1996, «Automatic Generating Extraction Patterns from Untagged Text», Proceedings of the 13th National Conference on Artifical Intelligence AAAI 96, Portland, USA, p Séguéla P., 2001, Construction de modèles de connaissances par analyse linguistique de relations lexicales dans les documents techniques, Thèse de doctorat, Université de Toulouse-III, France. Smadja F., 1993, «Retrieving Collocations from Text : Xtract», Computational Linguistics, 19(1), p Smeaton A., Quigley L., «Experiments on using semantic distances between words in image caption retrieval», in Proceedings of 19th International Conference on Research and Development in Information Retrieval, Zurich, Suisse. Schmid H., 1994, «Probablistic Part-of-Speech Tagging Using Decision Trees», actes du First International Conference on New Methods in Natural Language Processing (NemLap-94), Manchester, U.K., p Yarowsky D., 1992, «Word-sense disambiguation using statistical models of Roget s categories trained on large corpora», in Proceedings of 14th International Conference on Computational Linguistics, p

Acquisition terminologique pour identifier les mots clés d articles scientifiques

Acquisition terminologique pour identifier les mots clés d articles scientifiques Actes du huitième défi fouille de texte, DEFT2012, Grenoble, France, 8 juin 2012. Pages 29-35. Proceedings of the Eight DEFT Workshop, DEFT2012, Grenoble, France, 8th July 2012. Pages 29-35. Acquisition

Plus en détail

Extraction de termes centrée autour de l expert

Extraction de termes centrée autour de l expert Thomas Heitz, Mathieu Roche, Yves Kodratoff Université Paris-Sud, Bât 490, 91405 Orsay Cedex France, {heitz, roche, yk}@lri.fr, http://www.lri.fr/ {heitz, roche, yk}/ Résumé. Nous développons un logiciel,

Plus en détail

Acquisition de la terminologie et définition des tâches à effectuer, deux principes indissociables

Acquisition de la terminologie et définition des tâches à effectuer, deux principes indissociables Acquisition de la terminologie et définition des tâches à effectuer, deux principes indissociables Mathieu Roche Équipe TAL, LIRMM, UMR 5506, Université Montpellier 2 mathieu.roche@lirmm.fr Résumé L acquisition

Plus en détail

Marie-Claude L Homme Université de Montréal

Marie-Claude L Homme Université de Montréal Évaluation de logiciels d extraction de terminologie : examen de quelques critères Plan Marie-Claude L Homme Université de Montréal Unités recherchées et problèmes de base Catégories de critères Critères

Plus en détail

Présentation de la plateforme d analyse linguistique médiévale

Présentation de la plateforme d analyse linguistique médiévale Présentation de la plateforme d analyse linguistique médiévale 1. Introduction Tout au long de ce document, notre projet sera présenté à travers la méthodologie suivie pour développer la plateforme d analyse

Plus en détail

revue de littérature - corpus comparables

revue de littérature - corpus comparables revue de littérature - corpus comparables Julie Roy April 23, 2015 Université de Montréal Introduction Matière première MT : corpus parallèles. Intérêt des corpus comparables : corpus parallèles et dictionnaires

Plus en détail

Un modèle HMM pour la détection des mots composés dans un corpus textuel.

Un modèle HMM pour la détection des mots composés dans un corpus textuel. Un modèle HMM pour la détection des mots composés dans un corpus textuel. Lakhdar Remaki & Jean Guy Meunier LANCI Université du Québec à Montréal. Cp 8888, succ A Montréal. H3C 3P8 Canada remaki@livia.etsmtl.ca

Plus en détail

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE

Plus en détail

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES Chrystel Millon & Stéphanie Léon Equipe DELIC Université de Provence

Plus en détail

Adverbiaux temporels et expressions référentielles comme marqueurs de segmentation : emploi simultané ou exclusif?

Adverbiaux temporels et expressions référentielles comme marqueurs de segmentation : emploi simultané ou exclusif? 23 Schedae, 2006 Prépublication n 3 Fascicule n 1 Adverbiaux temporels et expressions référentielles comme marqueurs de segmentation : emploi simultané ou exclusif? Sophie Piérard & Yves Bestgen 1 Université

Plus en détail

Nicolas Béchet. To cite this version: HAL Id: lirmm-00370815 http://hal-lirmm.ccsd.cnrs.fr/lirmm-00370815

Nicolas Béchet. To cite this version: HAL Id: lirmm-00370815 http://hal-lirmm.ccsd.cnrs.fr/lirmm-00370815 Description d un protocole d évaluation automatique comme alternative à l évaluation humaine. Application à la validation de relations syntaxiques induites Nicolas Béchet To cite this version: Nicolas

Plus en détail

Le dictionnaire DEM dans NooJ

Le dictionnaire DEM dans NooJ 21 ème Traitement Automatique des Langues Naturelles, Marseille, 2014 Le dictionnaire DEM dans NooJ Max Silberztein ELLIADD, Université de Franche-Comté, 30 rue Mégevand, 25000 Besançon max.silberztein@univ-fcomte.fr

Plus en détail

Indexation de sous-collections pour l amélioration de la haute précision

Indexation de sous-collections pour l amélioration de la haute précision Indexation de sous-collections pour l amélioration de la haute précision Joëlson Randriamparany *,** *IRIT, Institut de Recherche Informatique de Toulouse Université Paul Sabatier Toulouse III 118 Route

Plus en détail

MARQUEUR, UN LOGICIEL DE MARQUAGE SEMI-AUTOMATIQUE DE TEXTES

MARQUEUR, UN LOGICIEL DE MARQUAGE SEMI-AUTOMATIQUE DE TEXTES MARQUEUR, UN LOGICIEL DE MARQUAGE SEMI-AUTOMATIQUE DE TEXTES 1 Abdelkrim Mokhtari Département de Langue et de Littérature Françaises Université Ibn Tofail Faculté des Lettres et des Sciences Humaines Kénitra,

Plus en détail

Construction d un dictionnaire multilingue de biodiversité à partir de dires d experts

Construction d un dictionnaire multilingue de biodiversité à partir de dires d experts Construction d un dictionnaire multilingue de biodiversité à partir de dires d experts Mamadou Dieye*, Mohamed Rafik Doulache*, Mustapha Floussi*, Julie Chabalier**, Isabelle Mougenot *, ***, Mathieu Roche

Plus en détail

Représentation géométrique d un paradigme lexical.

Représentation géométrique d un paradigme lexical. Conférence TALN 1999, Cargèse, 12-17 juillet 1999 Représentation géométrique d un paradigme lexical. Jean-Luc Manguin, Bernard Victorri Laboratoire ELSAP CNRS Université de Caen Esplanade de la Paix 14032

Plus en détail

Traduction automatique

Traduction automatique Traduction automatique M. Constant Université Paris-Est Marne-la-Vallée 5 octobre 2009 Outline Introduction Problèmes Différentes approches Traduction automatique statistique Modélisation Exemple de modèle

Plus en détail

CorpuSearch : présentation d un outil d extraction spécifique

CorpuSearch : présentation d un outil d extraction spécifique CorpuSearch : présentation d un outil d extraction spécifique Jean-Philippe Demoulin, Alda Mari, Romain Vinot ENST Département INFRES CNRS URA 820 46 rue Barrault - 75013 PARIS - +33(0)145817259 {demoulin,

Plus en détail

Fouille de collections de documents en vue d une cartographie thématique de connaissances textuelles

Fouille de collections de documents en vue d une cartographie thématique de connaissances textuelles Fouille de collections de documents en vue d une cartographie thématique de connaissances textuelles Abdenour Mokrane, Gérard Dray, Pascal Poncelet Groupe Connaissance et Systèmes Complexes LGI2P Site

Plus en détail

Similarité entre les mots

Similarité entre les mots Similarité entre les mots Traitement Automatique des Langues Master Informatique Université Paris-Est Marne-la-Vallée Matthieu Constant Références de base du cours Christopher D. Manning and Hinrich Schütze,

Plus en détail

1 Description générale. Résumé

1 Description générale. Résumé Station Sensunique: une plateforme Web modulaire, collaborative et évolutive d acquisition assistée de ressources terminologiques et non terminologiques (orientée Langues Contrôlées) Izabella Thomas 1,

Plus en détail

Comment déterminer les définitions les plus pertinentes d un sigle donné?

Comment déterminer les définitions les plus pertinentes d un sigle donné? Comment déterminer les définitions les plus pertinentes d un sigle donné? Application au Domaine Biomédical Mathieu Roche, Violaine Prince LIRMM, Université Montpellier 2 CNRS UMR5506, {mroche,prince}@lirmm.fr

Plus en détail

Construction et enrichissement automatique d ontologie à partir de ressources externes

Construction et enrichissement automatique d ontologie à partir de ressources externes Construction et enrichissement automatique d ontologie à partir de ressources externes JFO 2009 Jeudi 3 décembre 2009 E. Kergosien (LIUPPA, Pau) M. Kamel (IRIT- UPS, Toulouse) M. Sallabery (LIUPPA, Pau)

Plus en détail

Un langage pivot entre langue naturelle et langage informatique

Un langage pivot entre langue naturelle et langage informatique Un langage pivot entre langue naturelle et langage informatique Laurent Tromeur Ontomantics S.A.S. France laurent.tromeur@ontomantics.com GERFLINT Reçu le 17-03-2015 / Évalué le 24-04-2015 / Accepté le

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

Processus d extraction et de validation de la terminologie issue de logs

Processus d extraction et de validation de la terminologie issue de logs Processus d extraction et de validation de la terminologie issue de logs Hassan Saneifar, Stéphane Bonniol, Anne Laurent, Pascal Poncelet, Mathieu Roche To cite this version: Hassan Saneifar, Stéphane

Plus en détail

Traitement Automatique des Langues

Traitement Automatique des Langues Traitement Automatique des Langues Jean-Yves Antoine Université François Rabelais de Tours www.info.univ-tours.fr/~antoine J.Y. Antoine 1 Traitement Automatique des Langues INTRODUCTION : TECHNOLOGIES

Plus en détail

Désambiguïsation lexicale à base de connaissances par sélection distributionnelle et traits sémantiques

Désambiguïsation lexicale à base de connaissances par sélection distributionnelle et traits sémantiques Désambiguïsation lexicale à base de connaissances par sélection distributionnelle et traits sémantiques Mardi 23 Juin 2015 Mokhtar Boumedyen BILLAMI Doctorant, équipe TALEP, Laboratoire LIF (Marseille)

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Ressources lexicales au service de recherche et d indexation des images

Ressources lexicales au service de recherche et d indexation des images RECITAL 2011, Montpellier, 27 juin - 1er juillet 2011 Ressources lexicales au service de recherche et d indexation des images Inga Gheorghita 1,2 (1) ATILF-CNRS, Nancy-Université (UMR 7118), France (2)

Plus en détail

Segmentation des fichiers logs

Segmentation des fichiers logs Segmentation des fichiers logs Hassan Saneifar,, Stéphane Bonniol, Pascal Poncelet, Mathieu Roche LIRMM, CNRS, Université Montpellier 2; Satin Technologies Résumé. Avec la méthode de segmentation appelée

Plus en détail

La construction du sens chez l enfant : entre contexte et contraste

La construction du sens chez l enfant : entre contexte et contraste La construction du sens chez l enfant : entre contexte et contraste Khalid Rashdan To cite this version: Khalid Rashdan. La construction du sens chez l enfant : entre contexte et contraste. Colloque GREG-PLSII

Plus en détail

Au-delà de la paire de mots : extraction de cooccurrences syntaxiques multilexémiques

Au-delà de la paire de mots : extraction de cooccurrences syntaxiques multilexémiques TALN 2010, Montréal, 19-23 juillet 2010 Au-delà de la paire de mots : extraction de cooccurrences syntaxiques multilexémiques Simon CHAREST, Éric BRUNELLE, Jean FONTAINE Druide informatique inc. 1435,

Plus en détail

Prise en compte de l application dans la constitution de produits terminologiques

Prise en compte de l application dans la constitution de produits terminologiques Prise en compte de l application dans la constitution de produits terminologiques Nathalie Aussenac-Gilles 1, Anne Condamines 2, Sylvie Szulman 3 (1) IRIT CNRS, UPS, Toulouse, aussenac@irit.fr (2) ERSS

Plus en détail

Visualisation automatique du contenu d une base de documents textuels via les hyper-cartes d information

Visualisation automatique du contenu d une base de documents textuels via les hyper-cartes d information Visualisation automatique du contenu d une base de documents textuels via les hypercartes d information Motsclés Abdenour Mokrane, Pascal Poncelet, Gérard Dray Email : {abdenour.mokrane, pascal.poncelet,

Plus en détail

CONTRIBUTION DES CORPUS A L ENRICHISSEMENT DES DICTIONNAIRES

CONTRIBUTION DES CORPUS A L ENRICHISSEMENT DES DICTIONNAIRES CONTRIBUTION DES CORPUS A L ENRICHISSEMENT DES DICTIONNAIRES BILINGUES GÉNÉRAUX. APPLICATION AU DOMAINE DE LA VOLCANOLOGIE POUR L ENSEIGNEMENT DE LA TRADUCTION SPÉCIALISÉE. Résumé : Les données de deux

Plus en détail

GLOSSAIRE DES TERMES DE TRADUCTIQUE. Marie-Claude L'Homme

GLOSSAIRE DES TERMES DE TRADUCTIQUE. Marie-Claude L'Homme GLOSSAIRE DES TERMES DE TRADUCTIQUE Marie-Claude L'Homme aide à la correction Angl. proofreading aid Tout logiciel conçu pour repérer des erreurs contenues dans un texte. aide à la traduction Angl. translation

Plus en détail

THÈSE. en vue de l obtention du GRADE DE DOCTEUR. délivré par. L Institut Nationale des Sciences Appliquées de Lyon. présentée par.

THÈSE. en vue de l obtention du GRADE DE DOCTEUR. délivré par. L Institut Nationale des Sciences Appliquées de Lyon. présentée par. THÈSE en vue de l obtention du GRADE DE DOCTEUR délivré par L Institut Nationale des Sciences Appliquées de Lyon présentée par Farah HARRATHI École doctorale : InfoMaths Unité de recherche : Laboratoire

Plus en détail

Evaluation de méthodes de segmentation thématique linéaire non supervisées après adaptation au français

Evaluation de méthodes de segmentation thématique linéaire non supervisées après adaptation au français TALN 2004, Fès, 19 21 avril 2004 Evaluation de méthodes de segmentation thématique linéaire non supervisées après adaptation au français Laurianne Sitbon, Patrice Bellot Laboratoire d Informatique d Avignon

Plus en détail

Avancée en classification multi-labels de textes en langue chinoise

Avancée en classification multi-labels de textes en langue chinoise Avancée en classification multi-labels de textes en langue chinoise Thèse en cotutelle présentée par Zhihua WEI pour les doctorats en informatique des Universités Lyon2 et Tongji La thèse est centrée sur

Plus en détail

Une extension pour RDF/RDFS utilisant des relations procédurales

Une extension pour RDF/RDFS utilisant des relations procédurales Une extension pour RDF/RDFS utilisant des relations procédurales Jean-François Baget * * INRIA Sophia-Antipolis & LIRMM(CNRS - UM2) LIRMM, 161 rue Ada, 34392 Montpellier Cedex 5 baget@lirmm.fr RÉSUMÉ.

Plus en détail

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

Évaluer les liens entre codage et les données structurées (variables) Introduction au gestionnaire de rapport et au journal de commandes

Évaluer les liens entre codage et les données structurées (variables) Introduction au gestionnaire de rapport et au journal de commandes Trois approches en analyse de texte L'Analyse Qualitative L'analyse de Contenu Quantitative (par dictionnaires) Le forage de texte ("Text Mining") Introduction aux logiciels de Provalis Research QDA Miner

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Les entités nommées : éléments pour la conceptualisation

Les entités nommées : éléments pour la conceptualisation Les entités nommées : éléments pour la conceptualisation Nouha Omrane 1, Adeline Nazarenko 1, Sylvie Szulman 1 LIPN CNRS-UMR 7030, 99 avenue Jean-Baptiste Clément, 93430 Villetaneuse prenom.nom@lipn.univ-paris13.fr

Plus en détail

Quelle plus-value linguistique pour la segmentation automatique de texte?

Quelle plus-value linguistique pour la segmentation automatique de texte? 85 Schedae, 2006 Prépublication n 11 Fascicule n 1 Quelle plus-value linguistique pour la segmentation automatique de texte? Christophe Pimm ERSS, Université de Toulouse-le-Mirail 5 Allées Antonio Machado

Plus en détail

Outils de veille : typologie

Outils de veille : typologie Outils de veille : typologie Claire FRANCOIS Unité de recherche et Innovation INIST / CNRS Plan Introduction Les grands types d outils de veille Les différentes fonctionnalités Les technologies mises en

Plus en détail

Mustafa El Hadi Widad

Mustafa El Hadi Widad INDEXATION HUMAINE ET INDEXATION AUTOMATISÉE : LA PLACE DU TERME ET DE SON ENVIRONNEMENT Mustafa El Hadi Widad UFR IDIST/CERSATES, UMR 8529 Lille 3 France Résumé : dans cet article, nous examinerons l

Plus en détail

Solutions de traitement du document textuel avec prise en charge de ressources linguistiques

Solutions de traitement du document textuel avec prise en charge de ressources linguistiques 135 Schedae, 2006 Prépublication n 17 Fascicule n 1 Solutions de traitement du document textuel avec prise en charge de ressources linguistiques Abderrafih Lehmam Pertinence Mining SARL 82, avenue Jean

Plus en détail

Un cycle de modélisation comme méthodologie supportant l élaboration d un construit théorique en recherche en éducation

Un cycle de modélisation comme méthodologie supportant l élaboration d un construit théorique en recherche en éducation Un cycle de modélisation comme méthodologie supportant l élaboration d un construit théorique en recherche en éducation Une valeur ajoutée à l anasynthèse Nicole Landry, Ph.D. Réjean Auger, Ph.D. TELUQ,

Plus en détail

ANALYSE DES DONNÉES TEXTUELLES

ANALYSE DES DONNÉES TEXTUELLES Université Paris Dauphine Ecole Doctorale de Gestion M. Gettler Summa, C. Pardoux ANALYSE DES DONNÉES TEXTUELLES Traitement automatique des questions ouvertes Question ouverte Souhaitez-vous ajouter des

Plus en détail

Trois approches du GREYC pour la classification de textes

Trois approches du GREYC pour la classification de textes DEFT 2008, Avignon (associé à TALN 08) Trois approches du GREYC pour la classification de textes Thierry Charnois Antoine Doucet Yann Mathet François Rioult GREYC, Université de Caen, CNRS UMR 6072 Bd

Plus en détail

Du texte brut au web sémantique

Du texte brut au web sémantique Du texte brut au web sémantique Thierry Poibeau LIPN, CNRS et Université Paris 13 Faciliter l accès au texte But : Améliorer l accès à l information (essentiellement textuelle) Moyen : Proposer de nouveaux

Plus en détail

Système D Indexation et de Recherche d Images par le contenu

Système D Indexation et de Recherche d Images par le contenu Système D Indexation et de Recherche d Images par le contenu 1 Houaria ABED, 1 Lynda ZAOUI Laboratoire : Systèmes, Signaux, Données Département Informatique, Faculté des Sciences Université des Sciences

Plus en détail

Rapport OUTILEX. 1 Introduction. Laboratoire d'informatique de Paris 6 B. Piwowarski. September 18, 2006

Rapport OUTILEX. 1 Introduction. Laboratoire d'informatique de Paris 6 B. Piwowarski. September 18, 2006 Rapport OUTILEX Laboratoire d'informatique de Paris 6 B. Piwowarski September 18, 2006 1 Introduction Les systèmes de Recherche d'information (RI), permettent de rechercher dans de grand corpus électronique

Plus en détail

Analyse syntaxique et application aux langues naturelles. Jacques Farré et Sylvain Schmitz

Analyse syntaxique et application aux langues naturelles. Jacques Farré et Sylvain Schmitz Analyse syntaxique et application aux langues naturelles Jacques Farré et Sylvain Schmitz Plan du cours 2. Introduction, généralités, rappels 3. Analyse ascendante, LR, LALR, 4. N SLR, N LALR et LALR R

Plus en détail

Glossaire Analyse en Composantes Principales (ACP) Analyse Factorielle des Correspondances (AFC) Apprentissage supervisé Apprentissage non supervisé

Glossaire Analyse en Composantes Principales (ACP) Analyse Factorielle des Correspondances (AFC) Apprentissage supervisé Apprentissage non supervisé Glossaire Analyse en Composantes Principales (ACP) : *méthode factorielle (Pearson 1901, Hotelling 1933) permettant de fournir un résumé descriptif (sous forme graphique le plus souvent) d une population

Plus en détail

Prise en compte de l application dans la constitution de produits terminologiques

Prise en compte de l application dans la constitution de produits terminologiques Prise en compte de l application dans la constitution de produits terminologiques Nathalie Aussenac-Gilles 1, Anne Condamines 2, Sylvie Szulman 3 (1) IRIT CNRS, UPS, Toulouse, aussenac@irit.fr (2) ERSS

Plus en détail

Des indices sur la fiabilité des sorties ou comment un analyseur robuste pourrait s auto-évaluer.

Des indices sur la fiabilité des sorties ou comment un analyseur robuste pourrait s auto-évaluer. Des indices sur la fiabilité des sorties ou comment un analyseur robuste pourrait s auto-évaluer. Nuria Gala GETA-CLIPS-IMAG 385 av. de la Bibliothèque, BP 53 F-38041 Grenoble cedex 9, France nuria.gala@imag.fr

Plus en détail

Recherche de passages pertinents dans les fichiers logs par enrichissement de requêtes

Recherche de passages pertinents dans les fichiers logs par enrichissement de requêtes Recherche de passages pertinents dans les fichiers logs par enrichissement de requêtes Hassan Saneifar *,** Stéphane Bonniol ** Anne Laurent * Pascal Poncelet * Mathieu Roche * * LIRMM, Université Montpellier

Plus en détail

Le poids des entités nommées dans le filtrage des termes d un domaine

Le poids des entités nommées dans le filtrage des termes d un domaine Le poids des entités nommées dans le filtrage des termes d un domaine Nouha Omrane Adeline Nazarenko Sylvie Szulman LIPN UMR 7030 (Université Paris 13 & CNRS) 99, av. J.B. Clément, 93430, Villetaneuse

Plus en détail

Accès au Contenu Informationnel pour les Masses de Données de Documents

Accès au Contenu Informationnel pour les Masses de Données de Documents Accès au Contenu Informationnel pour les Masses de Données de Documents Grappa LILLE 3 - UR Futurs INRIA MOSTRARE Laboratoire d Informatique de Paris 6 Laboratoire de Recherche en Informatique Orsay -

Plus en détail

Détection d Opinion : Apprenons les bons Adjectifs!

Détection d Opinion : Apprenons les bons Adjectifs! Détection d Opinion : Apprenons les bons Adjectifs! Ali Harb 1,2, Gérard Dray 1, Michel Plantié 1, Pascal Poncelet 1, Mathieu Roche 2, François Trousset 1 1 EMA-LGI2P, Parc Scientifique Georges Besse,

Plus en détail

Résumé automatique de textes scientifiques et construction de fiches de synthèse catégorisées :

Résumé automatique de textes scientifiques et construction de fiches de synthèse catégorisées : Université Paris IV-Sorbonne Ecole doctorale Concepts et Langages Thèse pour obtenir le grade de DOCTEUR DE L UNIVERSITE PARIS IV-SORBONNE Discipline : Informatique Spécialité : Informatique linguistique

Plus en détail

Indexation conceptuelle application au domaine biomédical. Mesures de similarité dans les ontologies. [Séminaire MIAD Montpellier SupAgro]

Indexation conceptuelle application au domaine biomédical. Mesures de similarité dans les ontologies. [Séminaire MIAD Montpellier SupAgro] [] Indexation conceptuelle application au domaine biomédical Mesures de similarité dans les ontologies Sylvie Ranwez Sébastien Harispe LGI2P de l école des mines d Alès équipe KID (Knowledge and Image

Plus en détail

Rapport : Base de données. Anthony Larcher 1

Rapport : Base de données. Anthony Larcher 1 Rapport : Base de données Anthony Larcher 1 1 : Laboratoire d Informatique d Avignon - Université d Avignon Tél : +33 (0) 4 90 84 35 55 - Fax : + 33 (0) 4 90 84 35 01 anthony.larcher@univ-avignon.fr 14

Plus en détail

Vers la conception interactive d une hiérarchie sémantique de descripteurs d images

Vers la conception interactive d une hiérarchie sémantique de descripteurs d images PROPOSITION DE STAGE Année 2016 Laboratoire L3i Sujet de stage : Vers la conception interactive d une hiérarchie sémantique de descripteurs d images Résumé du travail proposé : Ce travail s intéresse à

Plus en détail

LIZARD, un assistant pour le développement de ressources linguistiques à base de cascades de transducteurs

LIZARD, un assistant pour le développement de ressources linguistiques à base de cascades de transducteurs RÉCITAL 2002, Nancy, 24-27 juin 2002 LIZARD, un assistant pour le développement de ressources linguistiques à base de cascades de transducteurs Antonio Balvet Université Paris X Nanterre / UMR MoDyCo 200,

Plus en détail

Typologie des fonctionnalités textométriques selon un point de vue utilisateur : illustration par leurs implémentations dans des logiciels

Typologie des fonctionnalités textométriques selon un point de vue utilisateur : illustration par leurs implémentations dans des logiciels EDITION DU 19 NOVEMBRE 2009 Typologie des fonctionnalités textométriques selon un point de vue utilisateur : illustration par leurs implémentations dans des logiciels Bénédicte Pincemin (éditeur) Les différents

Plus en détail

Analyse conjointe du signal sonore et de sa transcription pour l identification nommée de locuteurs

Analyse conjointe du signal sonore et de sa transcription pour l identification nommée de locuteurs Analyse conjointe du signal sonore et de sa transcription pour l identification nommée de locuteurs Vincent Jousse Sylvain Meignier Christine Jacquin Simon Petitrenaud Yannick Estève Béatrice Daille LIUM

Plus en détail

ANALYSE SÉMANTICO-DISCURSIVE DES COLLOCATIONS LEXICALES EN CORPUS SPÉCIALISÉ : LA BASE CONNAISSANCE-S

ANALYSE SÉMANTICO-DISCURSIVE DES COLLOCATIONS LEXICALES EN CORPUS SPÉCIALISÉ : LA BASE CONNAISSANCE-S ANALYSE SÉMANTICO-DISCURSIVE DES COLLOCATIONS LEXICALES EN CORPUS SPÉCIALISÉ : LA BASE CONNAISSANCE-S Estelle Dubreil et Béatrice Daille LINA FRE CNRS 2729 Université de Nantes France Résumé : L association

Plus en détail

Détection de mots-clés par approches au grain caractère et au grain mot

Détection de mots-clés par approches au grain caractère et au grain mot Détection de mots-clés par approches au grain caractère et au grain mot Gaëlle Doualan, Mathieu Boucher, Romain Brixtel, Gaël Lejeune, Gaël Dias Équipe HULTECH (GREYC, Université de Caen), Bd Maréchal

Plus en détail

TALN (traitement automatique du langage naturel) Eva Sassolini, 30/06/2015

TALN (traitement automatique du langage naturel) Eva Sassolini, 30/06/2015 TALN (traitement automatique du langage naturel) Eva Sassolini, 30/06/2015 Objectifs de TALN Construction de modèles et d outils capables d'effectuer des tâches spécifiques liées à la langue naturelle,

Plus en détail

Analyse de données symboliques et graphe de connaissances d un agent

Analyse de données symboliques et graphe de connaissances d un agent d un agent Philippe Caillou*, Edwin Diday** *LAMSADE - Université Paris Dauphine Place du maréchal de Lattre de Tassigny 7516 Paris caillou@lamsade.dauphine.fr **CEREMADE - Université Paris Dauphine Place

Plus en détail

Classification de questions par traduction

Classification de questions par traduction Classification de questions par traduction Anne-Laure Ligozat LIMSI-CNRS rue John von Neumann 91403 Orsay Cedex prenom.nom@limsi.fr RÉSUMÉ. Dans cet article, nous nous intéressons à la classification de

Plus en détail

Construction d un corpus arabe à partir du Web dans le but d identifier les mots-outils ou tokens

Construction d un corpus arabe à partir du Web dans le but d identifier les mots-outils ou tokens Construction d un corpus arabe à partir du Web dans le but d identifier les mots-outils ou tokens Dhaou Ghoul 1 1 STIH dhaou.ghoul@gmail.com Abstract In this paper, we present a method to build a large

Plus en détail

Analyse sémantique latente et segmentation automatique des textes

Analyse sémantique latente et segmentation automatique des textes Analyse sémantique latente et segmentation automatique des textes Yves Bestgen FNRS UCL/PSOR 1348 Louvain-la-Neuve Belgique yves.bestgen@psp.ucl.ac.be Abstract Latent semantic analysis (LSA) is employed

Plus en détail

Des traitements aux ressources linguistiques : le rôle d une architecture linguistique

Des traitements aux ressources linguistiques : le rôle d une architecture linguistique Des traitements aux ressources : le rôle d une architecture Frederik Cailliau Villetaneuse, le 9 décembre 2010 Sous la direction d Adeline Nazarenko 1. 2. 3. 4. 5. 6. 2 Sinequa Cifre à Sinequa Recherche

Plus en détail

Détection de variantes terminologiques

Détection de variantes terminologiques Rapport de stage Université de Nantes, Master 2 Atal Détection de variantes terminologiques Étudiante : Coraline Marie Encadrants : Béatrice Daille Sebastián Peña Saldarriaga Stage réalisé du 19 janvier

Plus en détail

Sous-graphes de cooccurrences pour la détection de thématiques dans un corpus de taille moyenne

Sous-graphes de cooccurrences pour la détection de thématiques dans un corpus de taille moyenne Sous-graphes de cooccurrences pour la détection de thématiques dans un corpus de taille moyenne Aurélien Lauf* ** * ERTIM 1 (Équipe de Recherche en Textes, Informatique, Multilinguisme) INALCO - 49bis

Plus en détail

Jus de pomme. 1 portion d HC. 51 kcal / 215 kj. 115 ml ± 1 verre à moitié rempli IG = 44

Jus de pomme. 1 portion d HC. 51 kcal / 215 kj. 115 ml ± 1 verre à moitié rempli IG = 44 Boissons Boissons Il est indispensable de boire suffisamment pour maintenir un bon état de santé général. Si nous examinons attentivement la pyramide alimentaire, force est de constater que les boissons

Plus en détail

Initiation Access 2003

Initiation Access 2003 Initiation Access 2003 Sommaire Introduction...3 1. Création d une base...3 1.1. Modélisation...3 1.2. Création de la base...4 2. Les tables...5 2.1. Création d'une table en mode Création...5 2.2. Les

Plus en détail

La Veille multilingue : outils et ressources pour les traducteurs. Jean-Paul PINTE Institut Catholique de Lille

La Veille multilingue : outils et ressources pour les traducteurs. Jean-Paul PINTE Institut Catholique de Lille La Veille multilingue : outils et ressources pour les traducteurs Jean-Paul PINTE Institut Catholique de Lille Premier Colloque International sur la veille multilingue Genève les 28 et 29 mai 2008 Nous

Plus en détail

Approche pour le suivi de l évolution des données d usage du Web : application sur un jeu de données en marketing

Approche pour le suivi de l évolution des données d usage du Web : application sur un jeu de données en marketing Approche pour le suivi de l évolution des données d usage du Web : application sur un jeu de données en marketing Alzennyr Da Silva, Yves Lechevallier Projet AxIS, INRIA Paris-Rocquencourt Domaine de Voluceau,

Plus en détail

CONCLUSIONS DU COMITE PERMANENT SUR LA CHAINE ALIMENTAIRE ET LA SANTÉ ANIMALE

CONCLUSIONS DU COMITE PERMANENT SUR LA CHAINE ALIMENTAIRE ET LA SANTÉ ANIMALE 14 décembre 2007 ORIENTATIONS RELATIVES À LA MISE EN ŒUVRE DU RÈGLEMENT N 1924/2006 CONCERNANT LES ALLÉGATIONS NUTRITIONNELLES ET DE SANTÉ PORTANT SUR LES DENRÉES ALIMENTAIRES CONCLUSIONS DU COMITE PERMANENT

Plus en détail

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus JEP-TALN 2004, Traitement Automatique de l Arabe, Fès, 20 avril 2004 Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus ZAAFRANI Riadh Faculté des Sciences Juridiques,

Plus en détail

DIC9410 Présentation du projet de recherche. Titre : Maintenance d ontologies de domaine à partir d analyses textuelles

DIC9410 Présentation du projet de recherche. Titre : Maintenance d ontologies de domaine à partir d analyses textuelles DIC9410 Présentation du projet de recherche Doctorat en Informatique Cognitive Titre : Maintenance d ontologies de domaine à partir d analyses textuelles YASSINE GARGOURI GARY31087407 gargouri.yassine@courrier.uqam.ca

Plus en détail

Acquisition et développement du langage

Acquisition et développement du langage Acquisition et développement du langage I- Introduction In utero le bébé grandit dans un bain sonore. Dès 5 mois de grossesse les bruits extérieurs lui parviennent. Le fœtus peut mémoriser des sons. La

Plus en détail

Traitement automatique des données hétérogènes liées à l'aménagement des territoires

Traitement automatique des données hétérogènes liées à l'aménagement des territoires Traitement automatique des données hétérogènes liées à l'aménagement des territoires Mathieu, ROCHE & Maguelonne, TEISSEIRE, UMR TETIS (Cirad, Irstea, AgroParisTech) 500 rue Jean-François Breton 34093

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET Phase 4 : Modélisation non-supervisée - 5 : Règles d association

Plus en détail

Les produits solidaires, 100 jours pour convaincre!

Les produits solidaires, 100 jours pour convaincre! Juin 2012 Les produits solidaires, 100 jours pour convaincre! Contexte et historique de la démarche La Réunion a connu au mois de février des tensions sociales dont la cause la plus immédiate résultait

Plus en détail

Comment mesurer la couverture d une ressource terminologique pour un corpus?

Comment mesurer la couverture d une ressource terminologique pour un corpus? Comment mesurer la couverture d une ressource terminologique pour un corpus? Goritsa Ninova, Adeline Nazarenko, Thierry Hamon, Sylvie Szulman LIPN UMR 7030 CNRS Université Paris-Nord 99 av. J.-B. Clément,

Plus en détail

Chapitre 5 LE MODELE ENTITE - ASSOCIATION

Chapitre 5 LE MODELE ENTITE - ASSOCIATION Chapitre 5 LE MODELE ENTITE - ASSOCIATION 1 Introduction Conception d une base de données Domaine d application complexe : description abstraite des concepts indépendamment de leur implémentation sous

Plus en détail

Construction et enrichissement d une ontologie à partir d un corpus de textes

Construction et enrichissement d une ontologie à partir d un corpus de textes Lyon - France Construction et enrichissement d une ontologie à partir d un corpus de textes Rokia BENDAOUD LORIA Campus Scientifique - BP 239 54506 VANDOEUVRE-lès-NANCY CEDEX {Rokia.Bendaoud}@loria.fr

Plus en détail

Construction d ontologies à partir de textes

Construction d ontologies à partir de textes TALN 2003, Batz-sur-Mer, 11-14 juin 2003 Construction d ontologies à partir de textes Didier Bourigault (1) et Nathalie Aussenac-Gilles (1) ERSS CNRS & Université Toulouse le Mirail 5, allées Antonio Machado

Plus en détail

XI. 1. Propriétés nutritionnelles. En Normandie

XI. 1. Propriétés nutritionnelles. En Normandie XI. En Normandie Parmi ses produits phares on se doit de citer la crème et le, dotés d une AOC, qui évoquent le terroir d Isigny : les méthodes de fabrication, la qualité de l herbe et le climat tempéré

Plus en détail

11. Evaluation de la qualité des essais

11. Evaluation de la qualité des essais 11. Evaluation de la qualité des essais L évaluation de la qualité méthodologique d un essai thérapeutique est une tâche difficile [117]. L essai thérapeutique contrôlé randomisé est considéré comme étant

Plus en détail

Enquête consommation - Tableaux croisés dynamiques

Enquête consommation - Tableaux croisés dynamiques Enquête consommation Tableaux croisés dynamiques 1. Chargement des données dans Excel Souvent les données collectées sont stockées dans un fichier au format texte, dont les informations sont séparées par

Plus en détail

Classification du genre vidéo reposant sur des transcriptions automatiques

Classification du genre vidéo reposant sur des transcriptions automatiques TALN 2010, Montréal, 19 23 juillet 2010 Classification du genre vidéo reposant sur des transcriptions automatiques Stanislas Oger, Mickael Rouvier, Georges Linarès LIA, Université d Avignon, France {stanislas.oger,

Plus en détail