Extraction automatique de terminologie à partir de libellés textuels courts

Dimension: px
Commencer à balayer dès la page:

Download "Extraction automatique de terminologie à partir de libellés textuels courts"

Transcription

1 Extraction automatique de terminologie à partir de libellés textuels courts Jean-Claude Meilland ismart Le Mercure A, 565 Rue Berthelot Aix en Provence Cedex 3 (France) Patrice Bellot Université d Avignon (LIA CNRS) Agroparc BP Avignon Cedex 9 (France) Résumé : Cet article concerne l extraction automatique de terminologie appliquée à des libellés textuels courts issus de la grande distribution. Elle s appuie sur les données du projet industriel SmartyCart. Nous montrons que certains critères d associations de termes peu utilisés dans des textes longs sont particulièrement adaptés pour des libellés courts et que la seule fréquence d apparition comme critère de sélection donne de mauvais résultats. Mots-clés : extraction terminologique, coefficients d associations, libellés commerciaux, TALN. 1. Introduction L avènement d Internet a créé un besoin accru d accès et de traitement de l information. En effet, outre la recherche d informations, on voit émerger de nombreuses problématiques de structuration et de classification d informations issues d applications fédératrices de données (e.g. les portails comme Free affichent la météo ou les programmes de télévision issus d autres sites spécialisés). Par applications fédératrices de données nous entendons les applications qui recherchent, comprennent et utilisent des informations décrites en langage naturel afin de fournir un service basé sur celles-ci ou plus simplement de les diffuser d une autre manière (structurées et/ou classées autrement). Cependant, la diversité des domaines (commercial, social, industriel, littéraire, journalistique, technique/spécialisé) et surtout les caractéristiques des textes (longs, télégraphiques) rendent le Traitement Automatique du Langage Naturel (TALN) particulièrement complexe. Depuis de nombreuses années certains travaux ont permis la constitution de bases terminologiques dans des domaines de référence. Dans le cadre de nos travaux, nous souhaitons proposer une étude et une méthode d extraction automatique de terminologie sur des textes dont la nature est très présente sur Internet : les libellés courts (dépêches journalistiques, petites annonces, descriptions de produits commerciaux, publicités, forums de discussion). Plus spécifiquement, notre étude est appliquée à des libellés courts décrivant des produits commerciaux issus de la grande distribution. Nous nous appuyons sur les données du projet industriel SmartyCart, elles-mêmes obtenues à partir des différents sites de magasins en ligne (www.ooshop.fr, Le projet SmartyCart est soutenu par la société ismart. Il concerne des applications consuméristes d aide à la consommation dans le secteur de la grande distribution. Les libellés courts ont une sémantique particulièrement riche dans laquelle il n existe que relativement peu d ambiguïtés pour un lecteur humain qui doit toutefois utiliser le contexte pour les comprendre. Dans l exemple suivant, le terme lait pris isolément est particulièrement ambigu : «Lait hydratant Bodytonic + Shampooing cuir chevelu irrité - Neutralia - + le lait nutritif Bodycocoon gratuit» et «Lait frais entier GrandLait - Candia - la bouteille de 1l». À partir d un corpus de libellés catégorisés, nous tentons de définir la terminologie de chaque catégorie afin d être, à terme, capable de classer un nouveau produit et de structurer son libellé (avec notamment la reconnaissance automatique du type d emballage, du prix, de la quantité ou du parfum pour une glace et du pourcentage de matière grasse pour un produit laitier). Pour cela nous mettons en perspective les statistiques relatives à un terme dans une catégorie avec celles de ce même terme dans les autres catégories et dans l ensemble du corpus. Nous verrons que certains critères peu utilisés dans des textes longs (coefficient d Ochiai, coefficient de proximité simple) sont particulièrement adaptés pour notre application. Contrairement à de nombreux résultats en extraction automatique de terminologie voir par exemple (Bourigault & Jacquemin 2000), nous montrons que la seule fréquence d apparition des termes comme critère de sélection donne de mauvais résultats dans les libellés courts. Nos travaux se basent principalement sur une étude des collocations (Manning & Schütze 1999) et des critères d associations (Daille 1994). Dans la section 2, nous énonçons quelques uns des principes fondamentaux de l extraction terminologique. Ensuite (section 3), nous présentons en détail l application visée par le présent travail et nous continuons (section 4) en détaillant les résultats obtenus. Le principal intérêt scientifique de cette étude est de comparer à quel point les résultats des études en extraction de terminologie couramment effectuées sur des textes «longs» se retrouvent sur des libellés courts. 1

2 2. Principes fondamentaux Nous ne discutons pas ici de la notion de terme mais retenons la définition que l on peut trouver dans (Dubois 1994) indiquant qu un terme est une unité signifiante constituée d un mot (terme simple) ou de plusieurs mots (terme complexe), qui désigne une notion de façon univoque à l intérieur d un domaine. Ainsi, le terme s oppose au(x) mot(s) par sa référence inhérente à un domaine. En ce qui concerne notre étude, la classification automatique de libellés textuels commerciaux courts, les «domaines» sont les différentes catégories de produits que l on peut acquérir dans un cybermarché. Si l adéquation terme/concept/domaine peut s avérer difficile à établir lorsque l analyse porte sur des textes classiques (articles journalistiques, monographies), elle est dans notre cas plus rapidement identifiable : les libellés sont écrits de la manière la plus concise et la moins ambiguë possible pour le lecteur (en l occurrence un acheteur potentiel) et ne contiennent aucune tournure complexe (paraphrases, anaphores). Cela ne signifie pas pour autant que le problème consistant à attribuer une étiquette à un libellé (une catégorie à un produit) soit simple, comme nous le verrons par la suite sur des exemples. Il l est tout de même suffisamment pour que nous puissions envisager l exploitation de l analyse terminologique dans un cadre commercial avec une supervision humaine restreinte. Dans de très nombreux cas, l extraction terminologique s intéresse essentiellement à l identification de syntagmes nominaux (substantifs isolés pour les termes simples, schémas de type «N de N» ou «N à N» pour les termes complexes où N désigne un nom). En ce qui nous concerne, de nombreux types de structures syntaxiques sont intéressants. L extraction du terme complexe lait écrémé (N ADJ) permet à la fois l identification d un type de produit particulier (puisque de nombreux libellés débutent par ces deux mots) mais aussi la désambiguïsation du mot lait (nous sommes en présence d un lait à boire et non pas d un lait de beauté) et donc la classification du produit. Notons qu il est en outre très difficile de déterminer des règles décrivant des structures grammaticales figées sur des libellés (cela pourrait toutefois être envisageable en distinguant chaque site de commerce électronique ciblé, chaque site ayant sa propre manière de décrire les produits) et, par extension, de ne retenir comme candidat terme que les mots correspondants à telle ou telle catégorie syntaxique. Il est d ailleurs intéressant de constater, même si c était prévisible, que les étiqueteurs syntaxiques souvent utilisés tels le TreeTagger (Schmidt 1994), sont inopérants sur les libellés. A cause de cela, il nous est difficile d utiliser des méthodes hybrides (combinant des informations linguistiques et statistiques) pour l extraction des termes caractérisant les catégories comme cela est réalisé par exemple par (Daille et al. 1994; Enguehard & Pantera 1994 ; Frantzi 1998, Maynard & Ananiadou 1999). Nous donnons dans la sous-section suivante un rapide aperçu des approches couramment employées pour l extraction terminologique. Pour une étude plus complète des méthodes et outils développés ces dernières années, le lecteur pourra se référer par exemple à (Bourigault & Jacquemin 2000) ainsi qu à (Séguéla 2001) Différentes approches pour l extraction terminologique Les méthodes automatiques d extraction terminologique utilisant principalement des informations linguistiques sont jusqu ici relativement peu nombreuses (Maynard & Ananiadou 1999). Citons toutefois celles qui sont basées sur les informations syntaxiques des termes candidats avec par exemple les outils logiciels LEXER (Bourigault 1992 ; Bourigault 1994) ou bien SEXTANT (Grefenstette 1994) ou, conjointement, sur les informations syntaxiques et morphologiques (Ananiadou 1988). L extraction de relations à partir de critères statistiques part de l hypothèse que de le sens d une unité terminologique est étroitement lié avec la distribution de son utilisation en contexte. De nombreux travaux sur l étude des co-occurrences sont venus appuyer cette hypothèse voir par exemple (Smadja 1993). Malheureusement, les méthodes essentiellement statistiques ont tendance à rapporter des relations conceptuelles de nature différente qu il est difficile de dissocier sans recours à un expert du domaine (Séguéla 2001). L extraction terminologique basée uniquement sur des critères statistiques se heurte à une difficulté supplémentaire liée aux différentes variantes terminologiques possibles pour exprimer un concept ou une notion. La faible dimension du corpus sur lequel sont calculés les critères d association et la variabilité des termes utilisés peuvent masquer certaines associations. L emploi de méthodes de reconnaissance de variations terminologiques pourrait remédier à ce problème (Jacquemin 1997) et aider à obtenir une meilleure extraction. Une autre approche, abondamment décrite dans (Séguela 2001) consiste à déterminer quelles sont les formules linguistiques prévisibles et récurrentes exprimant les relations sémantiques observables d un texte. Ces formules sont autant de marqueurs déposées dans le texte servant à extraire ensuite automatiquement d autres relations voir (Hearst 1992 ; Riloff 1996 ; Morin 1999 ; Faure & Poibault 2000) pour ne citer qu eux. 2

3 2.2. Approches statistiques et approches hybrides La plupart des modèles statistiques se résument au calcul de valeurs numériques telles que les fréquences, les critères d association ou de diversité par exemple la diversité de Shannon et l information mutuelle (Hamming 1980) et les mesures de distance voir par exemple (Oakes 1998). Parmi les critères d association, nous pouvons citer ceux que l on trouve dans (Daille 1994) tous basés sur quatre valeurs associées à un couple de mots/lemmes : le nombre d occurrences du couple, le nombre d occurrences de tous les couples où le premier élément (resp. le deuxième) du couple analysé est présent mais pas le second (resp. le premier) et le nombre d occurrences de tous les couples où ni le premier ni le second élément du couple candidat n est présent (on parle de tableau de contingence, voir section 4.2). Parmi ces critères : le coefficient de proximité simple, de Kulczinsky, d Ochiai, de Fager et de McGowan, de Yule, de Mc Connoughly, du F 2, le score d association au cube et le coefficient de vraisemblance (loglike) introduit par Dunning (1993). Pour une comparaison de ces différents critères et une étude bibliographique étendue de leur application à la linguistique de corpus, le lecteur peut se reporter à (Chung & Lee 2001). Nous renvoyons également aux travaux de B. Daille (2002). Également parmi les approches statistiques, celle de Frantzi (1998) consiste à retenir comme termes candidats ceux qui ont la plus grande C-value, valeur basée sur la fréquence d apparition du mot et sur sa longueur. Maynard et Ananiadou (1999) combinent cette valeur avec un facteur contextuel correspondant à la prise en compte de la fréquence d apparition des noms, adjectifs et verbes apparaissant dans le contexte du terme candidat (le contexte étant défini par l intermédiaire d une fenêtre autour du candidat). Parmi les éléments du contexte ceux qui sont eux-mêmes des termes candidats sont pris en compte différemment de ceux qui ne sont que de simples mots. Une distance entre les termes du contexte et le terme candidat intervient dans le calcul de la «valeur terminologique» finale du terme candidat à partir d un réseau sémantique. Les expériences décrites dans (Maynard & Ananiadou 1999) concernent le domaine médical et emploient le réseau sémantique UMLS (NLM 1997). La tendance actuelle consiste finalement à combiner des approches linguistiques avec des approches statistiques. Généralement, la partie essentielle de la méthode d extraction est statistique, la partie «linguistique» consistant à filtrer les termes en fonction de leur catégorie syntaxique. L utilisation d informations sémantiques est naturellement envisagée même si elle est souvent difficile à mettre en œuvre. Dans le cadre de la désambiguisation d un mot (par opposition à la désambiguisation d un terme), nous pouvons citer par exemple les travaux de Lesk (1986) qui utilise un dictionnaire en ligne afin de comparer la définition d un terme candidat avec les mots apparaissant dans le contexte de ce terme dans le corpus analysé. D autres approches, citées dans (Maynard & Ananiadou 1999), concernent le calcul de distances entre deux mots à partir de leurs relations dans un thésaurus (Smeaton 1996; Yarowsky 1992). E. Noleau (1998) a employé dans ses travaux en recherche documentaire des ressources sémantiques propres à un domaine pour valider (ou invalider) des termes retenus lors d une première extraction (enrichissement automatique des ressources après validation ou invalidation). Les techniques de désambiguisation d un terme (on rappelle qu un terme est souvent un composé de plusieurs mots dont le sens est dépendant d un domaine) s inspirent largement des approches que l on vient de citer. Elles permettent de distinguer différents cas d utilisation d un terme candidat. 3. Une problématique industrielle En partant d un corpus catégorisé issu des sites de grande distribution, nous souhaitons étiqueter chaque catégorie. Dans le cadre du projet SmartyCart nous avons défini manuellement la liste des catégories et avons utilisé les moteurs de recherche des sites de grande distribution en ligne afin d'obtenir les libellés des produits de chaque catégorie. Après avoir effectué un filtrage manuel, nous appliquons notre méthode d extraction automatique afin de définir un pseudo-modèle de langage de chaque catégorie. Celui-ci nous permettra par la suite de classer et de structurer les produits automatiquement. Les figures 1, 2 et 3 décrivent la méthode de collecte des données initiales. 3

4 Figure 1 - Site OOShop SmartyCart utilise les moteurs de recherche des sites de grande distribution (le site de Carrefour OOShop pour la figure 1) afin de constituer le corpus catégorisé. Un filtrage manuel supprime le bruit (sur la figure 1, le lait frais demi-écrémé n appartient pas à la catégorie «lait écrémé» est n est donc pas retenu). Figure 2 - Corpus catégorisé Une fois les produits catégorisés (figure 2) et filtrés manuellement, on utilise une méthode ad-hoc afin d extraire les termes représentatifs de chaque catégorie et si possible de les étiqueter (figure 3). Catégorie Lait écrémé Noms Lait, Silhouette Marques Candia, Lactel, Danone, Carrefour Quantités Emballages Brique, Bouteille Unités Litre Adjectifs (Qualifiants) Ecrémé, Vitaminé, Bébé Figure 3 Objectif final : étiquetage des termes représentatifs des catégories Un tel étiquetage permettra de constituer un corpus d'apprentissage pour des algorithmes de classification et de structuration de produits à grande échelle sur lesquels s appuieront des applications gratuites à forte valeur ajoutée pour les utilisateurs (un moteur de recherche par exemple). 4. La méthode d extraction de terminologie dans des libellés courts À partir d un corpus de départ catégorisé, nous souhaitons extraire les termes les plus représentatifs de chaque catégorie. Notre approche consiste à calculer la variance et certains critères d associations des termes présents dans les libellés aussi bien dans chaque catégorie que dans l ensemble du corpus (réunion de toutes les catégories). Comme cela a été dit en section 2, quatre types de mesures sont communément utilisés pour l extraction terminologique : les fréquences, les critères d association, la diversité et les mesures de distance. Dans un texte long, la fréquence d un couple constitue un bon indicateur de son caractère terminologique. Dans des libellés courts d un même domaine d application on observe le phénomène inverse. En effet la majorité des couples ont 4

5 une fréquence similaire et relativement faible. La figure 4 permet de constater qu il n apparaît pas de seuils évidents pour la catégorie «margarine» (le corpus est constitué de 718 libellés répartis en 42 catégories) : la distribution des fréquences normalisées est similaire sur les catégories et sur l ensemble du corpus Fréquence Catégorie Fréquence Corpus Figure 4 - Fréquences normalisées pour la catégorie «Margarine» (abscisses : les couples de mots ; ordonnées : fréquence normalisée) Nous avons donc centré notre étude sur les mesures de distances et les critères d associations. La liste des couples de mots candidats est constituée en se basant sur une fenêtre maximale et en prenant uniquement les mots d au moins deux caractères. Nous évaluons chaque critère dans une catégorie et dans le corpus entier. Pour cela nous utilisons une évaluation graphique sur des valeurs normalisées et triées. Ainsi nous retenons un critère si sa courbe met en évidence des seuils (fortes variations dans la pente). Un critère dont la courbe ne connaît pas de variations importantes n est pas retenu Étude des collocations (mesure de variance) Nous reprenons la définition de la variance citée dans (Manning & Schütze 1999). Pour cela on calcule la moyenne des distances séparant les deux mots d un couple de termes dans sa catégorie. La table ci-contre contient trois libellés illustrant cette définition. Cafe Regal Jacques Vabre, moulu, melange classique, paquet 250 g, 4,80 euros le kg 1.20 euros Cafe Tradition Maison du Cafe, moulu, melange classique, paquet 250 g, 4,64 euros le kg 1.16 euros Cafe melange Hediard, moulu, boite en fer 250 g, 27,44 euros le kg 6.86 euros Pour le couple (café, mélange) la distance moyenne est de 1/3(4+5+1)=3,33 mots. Ensuite la variances 2, pour un couple donné, est calculée de la manière suivante : s 2 = n  i=1 ( d i - m) 2 où n (n > 1) est le nombre de fois où le couple apparaît (dans la catégorie si l on calcule sa variance dans la catégorie et dans le corpus entier sinon), d i la distance en nombre de mots séparant les deux mots du couple dans le i-ème libellé où il apparaît et µ la distance moyenne séparant les deux mots du couple. La figure 5 correspond à l évaluation de la variance pour la catégorie «Margarine» (l'axe des ordonnées représente la variance normalisée tandis que l'axe des abscisses représente les couples de mots). Trois types de couples sont répertoriés : n -1 les couples ayant une variance élevée dans le corpus et faible dans la catégorie : 15% des couples ; les couples ayant une variance identique dans le corpus et dans la catégorie : 60% des couples ; les couples ayant une variance faible dans la corpus et élevé dans la catégorie : 15% des couples 5

6 matiere or grasse or activ or matiere fin matiere planta matiere grasse tartiner fin fruit or activ grasse cuire fin tartiner allegee cuire planta activ matiere cuire allegee allegee planta fruit steak tartine or pro tartine pro cuisson pince cadeau or steak matiere steak margarine or tartine fruit matiere cuisson margarine agriculture cuisson steak grasse pince activ steak cuisson pince fruit cadeau cuisson or demi sel allegee demi tartiner nature sel hubert grasse demi tartiner sel matiere demi matiere sel allegee hubert tartiner hubert matiere hubert µ?(couple, catégorie) µ?(couple, corpus) µ?(couple, catégorie) - µ?(couple, corpus) Figure 5 Valeurs de variance pour la catégorie «Margarine» La variance paraît être une mesure intéressante dans la catégorie Margarine car elle met en évidence plusieurs seuils. Voici un extrait des résultats obtenus si l on retient cette mesure : Couple Li,Lj Variance catégorie Variance corpus Ecart (Var.Corp - Vat.Cat) matiere hubert 0, , , grasse hubert 0, , , agriculture bio 0 0, , cuire nature 0, , , demi sel 0, , , allegee matiere fruit pince planta fin 0, , , tartiner allegee 0, , , grasse allegee 0, , , matiere grasse 0, , , grasse cuire 0, , , grasse fin 0, , , matiere cuire 0, , , On distingue des valeurs seuils de couples significatifs : les couples ayant une variance plus faible dans la catégorie que dans le corpus (agriculture bio, demi-sel) qui ne sont pas représentatifs de la catégorie; les couples ayant une variance plus grande dans la catégorie que dans le corpus (planta fin, tartiner allégée). Lorsque la variance est trop élevée il s agit généralement de bruit. Lorsque elle est nulle et qu il n y a pas d écart entre la variance de la catégorie et du corpus on ne peut pas tirer de conclusion. Ce critère a plusieurs inconvénients. En effet, il ne nous permet pas d extraire les couples significatifs dans le corpus (par exemple «matière, allégée»). Par ailleurs on constate souvent la présence de couples de mots sémantiquement opposés dans les termes retenus par exemple : (cuire, nature) et (grasse, allégée). Cette mesure ne nous permet pas d extraire les termes représentatifs d une catégorie. Il faut probablement la combiner à d autres critères. 6

7 4.2. Étude des critères d associations «D un point de vue statistique, les deux lemmes qui forment un couple sont considérés comme deux variables qualitatives dont il s agit de tester la liaison.», (Daille 1994 : 116). La matrice de contingence suivante est à la base des critères d association testés : Lj Lj avec j j Li a b Li avec i i c d a = le nombre d occurrences du couple de mots (Li, Lj), b = le nombre d occurrences des couples où Li est le premier élément d un couple et Lj n est pas le second, c = le nombre d occurrences des couples où Lj est le second élément du couple et Li n est pas le premier, d = le nombre d occurrences de couples où ni Li ni Lj n apparaissent. La somme a + b + c + d est notée N. On calcule ensuite les critères suivants : Coefficient de proximité simple SMC (Simple Matching Coefficient) a + b SMC = a + b + c + d L évaluation graphique de cette mesure (figure 6) nous donne des résultats particulièrement intéressants dans la catégorie «margarine» (l'axe des ordonnés représente le coefficient SMC des différents couples tandis que l'axe des abscisses représente les couples eux-mêmes) : SMC(Couple,Catégorie) SMC(Couple,Corpus) grasse fleurier grasse fruit grasse demi allegee sel cuire fleurier cuire or allegee fin grasse st matiere doux allegee st matiere st grasse doux tartiner doux grasse fin demi sel tartiner st tartiner fruit tartiner fin cuisson fruit matiere cuire matiere fin activ pince tartine or matiere or tartiner demi margarine fruit grasse tartiner pro tartine margarine agriculture matiere cuisson matiere planta grasse tartine allegee fruit sel hubert matiere allegee margarine allegee tournesol bio cuire fruit fruit steak allegee or fruit pince allegee matiere margarine tournesol Figure 6 - SMC catégorie Margarine Ce critère est retenu car il décrit une courbe «quasi-parfaite» (valeur seuil évidente). Voici un extrait des résultats : COUPLES Li, Lj SMC.CAT SMC.CORP st hubert 1 0 fruit or 1 0 agriculture bio 1 0 demi sel 1 0 pro activ 1 0 7

8 planta fin 1 0 tournesol bio 1 0 cuisson cadeau 1 0 cuisson steak 1 1 matiere grasse 0 0 grasse tartiner 0 0 On constate que les couples de mots extraits sont très pertinents (il s agit des marques ou des caractéristiques de produits propres à la catégorie margarine). Par ailleurs les valeurs du critère SMC sur le corpus (colonne SMC.CORP) constituent même un filtre anti-bruit («cuisson, steak»). Les couples qui ne sont pas significatifs de la catégorie («matière, grasse») et («grasse, tartiner») ne sont pas extraits. Coefficient d Ochiai : OCH = a ( a + b) a + c ( ) Figure 7 - Coefficient d'ochiai pour la catégorie "Margarine" Ce coefficient donne des résultats plus fins que le SMC (l'axe des ordonnés de la figure 7 représente les valeurs du coefficient d Ochiai tandis que l'axe des abscisses représente les couples). On observe le même comportement qu avec le coefficient SMC pour les couples très significatifs de la catégorie. Cependant l OCH est beaucoup plus fin pour les autres couples. Voici un extrait des résultats obtenus : COUPLES Li, Lj SMC.CAT OCH.CAT OCH.CORP st hubert 1 1 0, fruit or 1 1 0, agriculture bio 1 1 0, demi sel 1 1 0, pro activ 1 1 0, planta fin 1 1 0, tournesol bio 1 1 0, bio bio cuisson cadeau 1 1 0,5 cuisson pince tournesol agriculture 1 1 0,5 matiere grasse 0 0, , grasse tartiner 0 0, , matiere tartiner 0 0, , matiere allegee 0 0, , margarine allegee 0 0, ,

9 Les mesures suivantes ont également été évaluées mais n ont pas été retenues faute de résultats suffisants : coefficient de Kulzcinsky, coefficient de Fager et de McGowen, coefficient de Yule, coefficient de Mc Connoughy, coefficent du Phi 2, le score d association IM et IM au cube et enfin le coefficient de vraisemblance Loglike tels qu ils sont définis dans (Daille 1994) et dans (Daille et al. 1998). Le tableau suivant présente, pour quelques catégories, la terminologie finalement retenue : Catégorie Termes Margarine (st, hubert), (fruit, or), (agriculture, bio), (demi, sel)... Viande hachée fraiche (pur, boeuf), (pur, porc), (viande, hachée),... Eau gazeuse (citron, vert), (st, yorre), (eau, minérale),... Sel (sel, marin), (sel, iodé), (gros, sel), (sel, fin),... Chips (chips, grillé), (goût, jambon), (goût, tomate),... Produit pour feu (allume, feu), (cube cheminé), (multi, usage), Conclusions et perspectives L utilisation croissante des libellés courts sur Internet dans des domaines d applications très variés (culturel, scientifique, social) nous ont poussé à étudier les méthodes existantes d extraction automatique de terminologie sur les libellés courts. L existence d un objectif précis et fonctionnel ainsi que l obligation de résultat liée au projet industriel SmartyCart nous a déjà permis d obtenir des résultats concrets. Une première conclusion montre que la fréquence normalisée n est pas une mesure suffisamment fine pour être retenue. En effet les termes de notre corpus ont des fréquences d'apparition souvent similaires. Par contre le coefficient de proximité simple SMC et le coefficient d Ochiai donnent des résultats particulièrement satisfaisants. Cependant il nous faut maintenant valider la stabilité de ces critères à travers la totalité des catégories de l application cible et sur un corpus complet. Nous entamons actuellement une validation de ces premiers résultats sur un corpus de produits répartis dans 750 catégories. Nous souhaitons ultérieurement évaluer notre méthode sur des libellés courts issus d autres domaines d application que les produits de grande distribution. Nous avons prévu de travailler sur les petites annonces, les dépêches journalistiques et les forums de discussion. Nous tenterons d étudier la stabilité de nos résultats à travers ces différents domaines. Les résultats actuels tendent à confirmer une nouvelle fois qu il est très difficile de définir une méthode d extraction automatique de terminologie générale, sans objectif fonctionnel précis. La nature du corpus ainsi que la finalité de l'extraction sont autant de paramètres essentiels. 6. Bibliographie Ananiadou S., 1998, Towards a methodology for automatic term recognition, PhD Thesis, Université de Manchester, UK. Bourigault D., 1992, «Surface grammatical analysis for the extraction of terminological noun phrases», in Proceedings of COLING, p Bourigault D., 1994, LEXTER, un Logiciel d EXtraction de TERminologie. Application à l acquisition de connaissances à partir de textes, Thèse de doctorat, EHESS. Bourigault D., Jacquemin C., 2000, «Construction de ressources terminologiques», Ingénierie des Langues, éd. J.-M. Pierrel, Hermès Sciences, p Chung Y.M., Lee J.Y., 2001, «A Corpus-Based Approach to Comparative Evaluation of Statistical Term Association Measures», Journal of the American Society for Information Science and Technology, 52(4), p Daille B., 1994, Approche Mixte pour l'extraction Automatique de Terminologie, Thèse de Doctorat. Daille B., 2002, Découvertes linguistiques en corpus, Habilitation à diriger des recherches, Université de Nantes. Daille B., Gaussier E., Langé J.-M., 1994, «Towards automatic extraction of monolingual and bilingual terminology», in Proceedings of COLING, p Daille B., Gaussier E., Langé J.-M., 1998, «An Evaluation of Statistical Scores for Word Association», The Tbilisi Symposium on Logic, Language and Computation - Selected papers, CSLI publications, p Dubois J., Guespin L., Giacomo M., Marcellesi C., Marcellesi J.-B., Mével J.-P., 1994, Dictionnaire de linguistique et des sciences du langage. Collection Trésors du Français, Larousse, Paris. Dunning T., 1993, «Accurate Methods for the Statistics of Surprise and Coincidence», Computational Linguistics, vol. 19, n 1. 9

10 Enguehard C., Pantera L., 1994, «Automatic natural acquisition of terminology», Journal of Quantitative Linguistics, 2(1), p Faure D., Poibeault D., 2000, «Extraction d information utilisant INTEX et des connaissances sémantiques apprises par ASIUM, premières expérimentations», Actes du 12è congrès Reconnaissance des Formes et Intelligence Artificielle RFIA 2000, Paris, France, p Frantzi K.T., 1998, Automatic Recognition of Multi-Word Terms, PhD Thesis, Manchester Metropolitan University, UK. Grefenstette G., 1994, Explorations in Automatic Thesaurus Discovery, Kluwer Academic Publisher. Hamming R.W., 1980, Coding and Information Theory, Englewood Cliffs, NJ : Prentice-Hall. Hearst M., 1992, «Automatic Acquisition of Hyponyms from Large Text Corpora», Proceedings of the 13th Internation Conference on Computational Linguistics COLING 92, Nantes, France, p Lesk M., 1986, «Automatic sense disambiguation : how to tell a pine cone from an ice cream cone», in Proceedings of SIGDOC, p Jacquemin C., 1997, Variation terminologique : reconnaissance et acquisition automatique de termes et de leurs variantes en corpus, Habilitation à diriger des recherches, IRIN, Université de Nantes, France. Manning C.D., Schütze H., 1999, Foundation of Statistical Natural Language Processing, chapitre 5, p Maynard D., Ananiadou S., 1999, «Term Extraction using a Similarity-based Approach.», in Recent Advances in Computational Terminology, Ed. by D. Bourigault, C. Jacquemin, M.-C. L'Homme, John Benjamins. Morin E., 1999, Extraction de liens sémantiques entre termes à partir de corpus de textes techniques, Thèse de doctorat, Université de Nantes, France. NLM, 1997, UMLS Knowledge Sources, U.S. Dept of Health and Human Services, 8è édition. Noleau E., 1998, Apprentissage et filtrage syntaxico-sémantique de syntagmes pertinents pour la recherche documentaire, Thèse de doctorat, Université Paris-Nord, France. Oakes M., 1998, Statistics for corpus linguistics, Edinburgh University Press, U.K. Riloff E., 1996, «Automatic Generating Extraction Patterns from Untagged Text», Proceedings of the 13th National Conference on Artifical Intelligence AAAI 96, Portland, USA, p Séguéla P., 2001, Construction de modèles de connaissances par analyse linguistique de relations lexicales dans les documents techniques, Thèse de doctorat, Université de Toulouse-III, France. Smadja F., 1993, «Retrieving Collocations from Text : Xtract», Computational Linguistics, 19(1), p Smeaton A., Quigley L., «Experiments on using semantic distances between words in image caption retrieval», in Proceedings of 19th International Conference on Research and Development in Information Retrieval, Zurich, Suisse. Schmid H., 1994, «Probablistic Part-of-Speech Tagging Using Decision Trees», actes du First International Conference on New Methods in Natural Language Processing (NemLap-94), Manchester, U.K., p Yarowsky D., 1992, «Word-sense disambiguation using statistical models of Roget s categories trained on large corpora», in Proceedings of 14th International Conference on Computational Linguistics, p

Extraction de termes centrée autour de l expert

Extraction de termes centrée autour de l expert Thomas Heitz, Mathieu Roche, Yves Kodratoff Université Paris-Sud, Bât 490, 91405 Orsay Cedex France, {heitz, roche, yk}@lri.fr, http://www.lri.fr/ {heitz, roche, yk}/ Résumé. Nous développons un logiciel,

Plus en détail

Un modèle HMM pour la détection des mots composés dans un corpus textuel.

Un modèle HMM pour la détection des mots composés dans un corpus textuel. Un modèle HMM pour la détection des mots composés dans un corpus textuel. Lakhdar Remaki & Jean Guy Meunier LANCI Université du Québec à Montréal. Cp 8888, succ A Montréal. H3C 3P8 Canada remaki@livia.etsmtl.ca

Plus en détail

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES Chrystel Millon & Stéphanie Léon Equipe DELIC Université de Provence

Plus en détail

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE

Plus en détail

MARQUEUR, UN LOGICIEL DE MARQUAGE SEMI-AUTOMATIQUE DE TEXTES

MARQUEUR, UN LOGICIEL DE MARQUAGE SEMI-AUTOMATIQUE DE TEXTES MARQUEUR, UN LOGICIEL DE MARQUAGE SEMI-AUTOMATIQUE DE TEXTES 1 Abdelkrim Mokhtari Département de Langue et de Littérature Françaises Université Ibn Tofail Faculté des Lettres et des Sciences Humaines Kénitra,

Plus en détail

1 Description générale. Résumé

1 Description générale. Résumé Station Sensunique: une plateforme Web modulaire, collaborative et évolutive d acquisition assistée de ressources terminologiques et non terminologiques (orientée Langues Contrôlées) Izabella Thomas 1,

Plus en détail

Comment déterminer les définitions les plus pertinentes d un sigle donné?

Comment déterminer les définitions les plus pertinentes d un sigle donné? Comment déterminer les définitions les plus pertinentes d un sigle donné? Application au Domaine Biomédical Mathieu Roche, Violaine Prince LIRMM, Université Montpellier 2 CNRS UMR5506, {mroche,prince}@lirmm.fr

Plus en détail

GLOSSAIRE DES TERMES DE TRADUCTIQUE. Marie-Claude L'Homme

GLOSSAIRE DES TERMES DE TRADUCTIQUE. Marie-Claude L'Homme GLOSSAIRE DES TERMES DE TRADUCTIQUE Marie-Claude L'Homme aide à la correction Angl. proofreading aid Tout logiciel conçu pour repérer des erreurs contenues dans un texte. aide à la traduction Angl. translation

Plus en détail

Recherche d information textuelle

Recherche d information textuelle Recherche d information textuelle Pré-traitements & indexation B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques

Plus en détail

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

Ressources lexicales au service de recherche et d indexation des images

Ressources lexicales au service de recherche et d indexation des images RECITAL 2011, Montpellier, 27 juin - 1er juillet 2011 Ressources lexicales au service de recherche et d indexation des images Inga Gheorghita 1,2 (1) ATILF-CNRS, Nancy-Université (UMR 7118), France (2)

Plus en détail

Visualisation automatique du contenu d une base de documents textuels via les hyper-cartes d information

Visualisation automatique du contenu d une base de documents textuels via les hyper-cartes d information Visualisation automatique du contenu d une base de documents textuels via les hypercartes d information Motsclés Abdenour Mokrane, Pascal Poncelet, Gérard Dray Email : {abdenour.mokrane, pascal.poncelet,

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Trois approches du GREYC pour la classification de textes

Trois approches du GREYC pour la classification de textes DEFT 2008, Avignon (associé à TALN 08) Trois approches du GREYC pour la classification de textes Thierry Charnois Antoine Doucet Yann Mathet François Rioult GREYC, Université de Caen, CNRS UMR 6072 Bd

Plus en détail

ProxiDocs : un outil de cartographie et de catégorisation thématique de corpus

ProxiDocs : un outil de cartographie et de catégorisation thématique de corpus ProxiDocs : un outil de cartographie et de catégorisation thématique de corpus Thibault ROY 1 et Pierre BEUST 1 1 GREYC- ISLanD CNRS UMR 6072 Université de Caen 14032 Caen Cedex France thibault.roy@etu.info.unicaen.fr,

Plus en détail

Détection de variantes terminologiques

Détection de variantes terminologiques Rapport de stage Université de Nantes, Master 2 Atal Détection de variantes terminologiques Étudiante : Coraline Marie Encadrants : Béatrice Daille Sebastián Peña Saldarriaga Stage réalisé du 19 janvier

Plus en détail

LIVRE BLANC Décembre 2014

LIVRE BLANC Décembre 2014 PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus JEP-TALN 2004, Traitement Automatique de l Arabe, Fès, 20 avril 2004 Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus ZAAFRANI Riadh Faculté des Sciences Juridiques,

Plus en détail

Construction d ontologies à partir de textes

Construction d ontologies à partir de textes TALN 2003, Batz-sur-Mer, 11-14 juin 2003 Construction d ontologies à partir de textes Didier Bourigault (1) et Nathalie Aussenac-Gilles (1) ERSS CNRS & Université Toulouse le Mirail 5, allées Antonio Machado

Plus en détail

ANALYSE DES DONNÉES TEXTUELLES

ANALYSE DES DONNÉES TEXTUELLES Université Paris Dauphine Ecole Doctorale de Gestion M. Gettler Summa, C. Pardoux ANALYSE DES DONNÉES TEXTUELLES Traitement automatique des questions ouvertes Question ouverte Souhaitez-vous ajouter des

Plus en détail

Classification Automatique de messages : une approche hybride

Classification Automatique de messages : une approche hybride RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,

Plus en détail

Utiliser un tableau de données

Utiliser un tableau de données Utiliser un tableau de données OBJECTIFS : - Définir une Base de Données. - Présentation : tableau de données. - Création d un tableau de données - Gestion d un tableau de données. - Trier et Filtrer des

Plus en détail

CONCLUSIONS DU COMITE PERMANENT SUR LA CHAINE ALIMENTAIRE ET LA SANTÉ ANIMALE

CONCLUSIONS DU COMITE PERMANENT SUR LA CHAINE ALIMENTAIRE ET LA SANTÉ ANIMALE 14 décembre 2007 ORIENTATIONS RELATIVES À LA MISE EN ŒUVRE DU RÈGLEMENT N 1924/2006 CONCERNANT LES ALLÉGATIONS NUTRITIONNELLES ET DE SANTÉ PORTANT SUR LES DENRÉES ALIMENTAIRES CONCLUSIONS DU COMITE PERMANENT

Plus en détail

ANALYSE SÉMANTICO-DISCURSIVE DES COLLOCATIONS LEXICALES EN CORPUS SPÉCIALISÉ : LA BASE CONNAISSANCE-S

ANALYSE SÉMANTICO-DISCURSIVE DES COLLOCATIONS LEXICALES EN CORPUS SPÉCIALISÉ : LA BASE CONNAISSANCE-S ANALYSE SÉMANTICO-DISCURSIVE DES COLLOCATIONS LEXICALES EN CORPUS SPÉCIALISÉ : LA BASE CONNAISSANCE-S Estelle Dubreil et Béatrice Daille LINA FRE CNRS 2729 Université de Nantes France Résumé : L association

Plus en détail

Les produits solidaires, 100 jours pour convaincre!

Les produits solidaires, 100 jours pour convaincre! Juin 2012 Les produits solidaires, 100 jours pour convaincre! Contexte et historique de la démarche La Réunion a connu au mois de février des tensions sociales dont la cause la plus immédiate résultait

Plus en détail

Amélioration d un corpus de requêtes à l aide d une méthode non-supervisée

Amélioration d un corpus de requêtes à l aide d une méthode non-supervisée Amélioration d un corpus de requêtes à l aide d une méthode non-supervisée Une approche basée sur la distance d édition normalisée et sur les statistiques distributionnelles Vincent Bouvier *,** Patrice

Plus en détail

Analyse conjointe du signal sonore et de sa transcription pour l identification nommée de locuteurs

Analyse conjointe du signal sonore et de sa transcription pour l identification nommée de locuteurs Analyse conjointe du signal sonore et de sa transcription pour l identification nommée de locuteurs Vincent Jousse Sylvain Meignier Christine Jacquin Simon Petitrenaud Yannick Estève Béatrice Daille LIUM

Plus en détail

Classification du genre vidéo reposant sur des transcriptions automatiques

Classification du genre vidéo reposant sur des transcriptions automatiques TALN 2010, Montréal, 19 23 juillet 2010 Classification du genre vidéo reposant sur des transcriptions automatiques Stanislas Oger, Mickael Rouvier, Georges Linarès LIA, Université d Avignon, France {stanislas.oger,

Plus en détail

Indexation sémantique au moyen de coupes de redondance minimale dans une ontologie

Indexation sémantique au moyen de coupes de redondance minimale dans une ontologie TALN 25, Dourdan, 6 1 juin 25 Indexation sémantique au moyen de coupes de redondance minimale dans une ontologie Florian Seydoux & Jean-Cédric Chappelier Faculté Informatique et Communications Ecole Polytechnique

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

JADT 2010-11/06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire

JADT 2010-11/06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire JADT 2010-11/06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire Delphine Amstutz (CELLF Université Paris-Sorbonne Paris 4 / CNRS) Philippe Gambette (LIRMM Université

Plus en détail

Recherche d information et repérage de termes et de leurs variantes

Recherche d information et repérage de termes et de leurs variantes Recherche d information et repérage de termes et de leurs variantes Cours de Dialogue et Analyse de Texte Aurélien Max Master Recherche en Informatique Université Paris-Sud 11 Année 2006-07 Plan du cours

Plus en détail

Comment bien s hydrater pendant l été?

Comment bien s hydrater pendant l été? Comment bien s hydrater pendant l été? C est bien connu, il faut boire davantage en été pour ne pas se déshydrater, notamment en cas de forte chaleur. Il faut en effet être vigilant dès que la température

Plus en détail

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES Techniques symboliques de traitement automatique du langage pour l indexation thématique et l extraction d information temporelle Thèse Défense publique

Plus en détail

Des ontologies pour indexer un site Web

Des ontologies pour indexer un site Web Des ontologies pour indexer un site Web E. DESMONTILS, C. JACQUIN IRIN, Université de Nantes 2, rue de la Houssinière, BP92208 F-44322 NANTES Cedex 3, France {desmontils,jacquin}@irin.univ-nantes.fr Résumé

Plus en détail

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) 87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation

Plus en détail

Rapport : Base de données. Anthony Larcher 1

Rapport : Base de données. Anthony Larcher 1 Rapport : Base de données Anthony Larcher 1 1 : Laboratoire d Informatique d Avignon - Université d Avignon Tél : +33 (0) 4 90 84 35 55 - Fax : + 33 (0) 4 90 84 35 01 anthony.larcher@univ-avignon.fr 14

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Alimentation des nourrissons et viande

Alimentation des nourrissons et viande L interprofession suisse de la filière viande Proviande société coopérative Finkenhubelweg 11 Case postale CH-3001 Berne +41(0)31 309 41 11 +41(0)31 309 41 99 info@proviande.ch www.viandesuisse.ch Alimentation

Plus en détail

Construction et maintenance d une ressource lexicale basées sur l usage

Construction et maintenance d une ressource lexicale basées sur l usage Construction et maintenance d une ressource lexicale basées sur l usage Laurie Planes 1, (1) Inbenta France, 164 route de Revel, 31400 TOULOUSE lplanes@inbenta.com Résumé. Notre société développe un moteur

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

Profilez vos offres d'emploi en 4 clics, Mesurez l'adéquation des candidats au profil que vous recherchez en temps réel avec

Profilez vos offres d'emploi en 4 clics, Mesurez l'adéquation des candidats au profil que vous recherchez en temps réel avec Profilez vos offres d'emploi en 4 clics, Mesurez l'adéquation des candidats au profil que vous recherchez en temps réel avec Logiciel d'aide au recrutement Présentation : Semiojob est une technologie qui

Plus en détail

Méthode d extraction des signaux faibles

Méthode d extraction des signaux faibles Méthode d extraction des signaux faibles Cristelle ROUX GFI Bénélux, Luxembourg cristelle.roux@gfi.be 1. Introduction Au début d une analyse stratégique, la première question posée est très souvent la

Plus en détail

Exploitation des connaissances d UMLS pour la recherche d information médicale Vers un modèle bayésien d'indexation

Exploitation des connaissances d UMLS pour la recherche d information médicale Vers un modèle bayésien d'indexation 443 Exploitation des connaissances d UMLS pour la recherche d information médicale Vers un modèle bayésien d'indexation Diem Le Thi Hoang Equipe MRIM, Laboratoire CLIPS-IMAG 38041 Grenoble Cedex 9, France

Plus en détail

Tâche : Comparer l étiquette de produits alimentaires afin de connaître leur valeur nutritive.

Tâche : Comparer l étiquette de produits alimentaires afin de connaître leur valeur nutritive. 13 aliments pour une bonne santé Valeurs nutritives Grande compétence A Rechercher et utiliser de l information Groupe de tâches A2 : Interpréter des documents Grande compétence C Comprendre et utiliser

Plus en détail

Extraction et regroupement de descripteurs morpho-syntaxiques pour des processus de Fouille de Textes

Extraction et regroupement de descripteurs morpho-syntaxiques pour des processus de Fouille de Textes Extraction et regroupement de descripteurs morpho-syntaxiques pour des processus de Fouille de Textes Nicolas Béchet To cite this version: Nicolas Béchet. Extraction et regroupement de descripteurs morpho-syntaxiques

Plus en détail

# let rec concat l1 l2 = match l1 with [] -> l2 x::l 1 -> x::(concat l 1 l2);; val concat : a list -> a list -> a list =

# let rec concat l1 l2 = match l1 with [] -> l2 x::l 1 -> x::(concat l 1 l2);; val concat : a list -> a list -> a list = <fun> 94 Programmation en OCaml 5.4.8. Concaténation de deux listes Définissons maintenant la fonction concat qui met bout à bout deux listes. Ainsi, si l1 et l2 sont deux listes quelconques, concat l1 l2 constitue

Plus en détail

Traduction compositionnelle automatique de bitermes dans des corpus anglais/français alignés

Traduction compositionnelle automatique de bitermes dans des corpus anglais/français alignés Conférence TIA-2005, Rouen, 4 et 5 avril 2005 Traduction compositionnelle automatique de bitermes dans des corpus anglais/français alignés Sylwia Ozdowska 1, Aurélie Névéol 2,3, Benoît Thirion 3 1 ERSS

Plus en détail

Approches endogène et exogène pour améliorer la segmentation thématique de documents

Approches endogène et exogène pour améliorer la segmentation thématique de documents Approches endogène et exogène pour améliorer la segmentation thématique de documents Olivier Ferret CEA-LIST/LIC2M 18, route du Panorama B.P. 6, F-92265 Fontenay-aux-Roses Cedex ferreto@zoe.cea.fr RÉSUMÉ.

Plus en détail

À propos des matrices échelonnées

À propos des matrices échelonnées À propos des matrices échelonnées Antoine Ducros appendice au cours de Géométrie affine et euclidienne dispensé à l Université Paris 6 Année universitaire 2011-2012 Introduction Soit k un corps, soit E

Plus en détail

Comportements et sentiments. De l ambiguïté dans les émotions? Pierre Molette LERASS PsyCom Toulouse mai 2014

Comportements et sentiments. De l ambiguïté dans les émotions? Pierre Molette LERASS PsyCom Toulouse mai 2014 Comportements et sentiments. De l ambiguïté dans les émotions? Pierre Molette LERASS PsyCom Toulouse mai 2014 www.tropes.fr www.owledge.org www.lerass.com 2 Différentes approches pour l analyse de textes

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Application de la méthode QFD comme outil d'extraction des connaissances métier en conception intégrée

Application de la méthode QFD comme outil d'extraction des connaissances métier en conception intégrée Application de la méthode QFD comme outil d'extraction des connaissances métier en conception intégrée Estelle FREY, Samuel GOMES, Jean-Claude SAGOT Laboratoire Systèmes et Transports Equipe ERgonomie

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET Phase 4 : Modélisation non-supervisée - 5 : Règles d association

Plus en détail

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS Quatrième colloque hypermédias et apprentissages 275 BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS Anne-Olivia LE CORNEC, Jean-Marc FARINONE,

Plus en détail

Approche hybride de reconstruction de facettes planes 3D

Approche hybride de reconstruction de facettes planes 3D Cari 2004 7/10/04 14:50 Page 67 Approche hybride de reconstruction de facettes planes 3D Ezzeddine ZAGROUBA F. S.T, Dept. Informatique. Lab. d Informatique, Parallélisme et Productique. Campus Universitaire.

Plus en détail

ALIMENTATION ET DIABETE

ALIMENTATION ET DIABETE Mise à jour 11/2009 4A, rue du Bignon - 35000 RENNES ALIMENTATION ET DIABETE Avec l activité physique, l alimentation constitue l un des axes majeurs de votre traitement. Respecter un minimum de principes

Plus en détail

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3 RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3 Pour construire un graphique : On lance l assistant graphique à l aide du menu Insérer è Diagramme en ayant sélectionné au préalable une cellule vide dans

Plus en détail

Nutrition et santé : suivez le guide

Nutrition et santé : suivez le guide Prévention ALIMENTATION PLAISIR ET ÉQUILIBRE ALIMENTAIRE Nutrition et santé : suivez le guide Nous savons tous que l alimentation joue un rôle essentiel pour conserver une bonne santé. En voici quelques

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

N 334 - SIMON Anne-Catherine

N 334 - SIMON Anne-Catherine N 334 - SIMON Anne-Catherine RÉALISATION D UN CDROM/DVD CONTENANT DES DONNÉES DU LANGAGE ORAL ORGANISÉES EN PARCOURS DIDACTIQUES D INITIATION LINGUISTIQUE A PARTIR DES BASES DE DONNÉES VALIBEL Introduction

Plus en détail

Luc Grivel (*, **) Luc.Grivel@univ-paris1.fr

Luc Grivel (*, **) Luc.Grivel@univ-paris1.fr MAITRISER LE PROCESSUS DE TEXT MINING DANS LE CADRE D APPLICATIONS D INTELLIGENCE ECONOMIQUE, DE GESTION DE LA RELATION CLIENT OU DE GESTION DE CONNAISSANCES Luc Grivel (*, **) Luc.Grivel@univ-paris1.fr

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Extraction et classification automatique de matériaux textuels pour la création de tests de langue

Extraction et classification automatique de matériaux textuels pour la création de tests de langue RÉCITAL 2002, Nancy, 24-27 juin 2002 Extraction et classification automatique de matériaux textuels pour la création de tests de langue Murielle Marchand Centre de traitement électronique des documents

Plus en détail

Article de recherche théorique et article de recherche empirique : particularités 1

Article de recherche théorique et article de recherche empirique : particularités 1 La présentation d un article de recherche de type théorique 1 Article de recherche théorique et article de recherche empirique : particularités 1 Gilles Raîche, professeur Université du Québec à Montréal

Plus en détail

Charte PNNS Groupe CASINO Résultats

Charte PNNS Groupe CASINO Résultats Charte PNNS Groupe CASINO Résultats Calendrier En 2008, Casino a signé Les une engagements charte d engagements de la charte de progrès PNNS ont nutritionnel été appréhendés du PNNS. Elle comprenait 10

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Explorer l espace des mots : du linéaire au non-linéaire

Explorer l espace des mots : du linéaire au non-linéaire Explorer l espace des mots : du linéaire au non-linéaire Ludovic Lebart CNRS ENST, 46 rue Barrault, 75013, Paris. Abstract To visualize the associations between words within a series of texts, it is frequent

Plus en détail

Multi-catégorisation de textes juridiques et retour de pertinence

Multi-catégorisation de textes juridiques et retour de pertinence Multi-catégorisation de textes juridiques et retour de pertinence Vincent Pisetta, Hakim Hacid et Djamel A. Zighed article paru dans G. Ritschard et C. Djeraba (eds), Extraction et gestion des Connaissances

Plus en détail

Lire pour préparer un travail

Lire pour préparer un travail Leçon LA LECTURE 5 Choisir ses sources documentaires 1 EFFICACE Lire pour préparer un travail Leçon 5 Choisir ses sources documentaires Avertissement Dans la présente leçon, on se préoccupe du choix adéquat

Plus en détail

Bilan de thèse à mi-parcours

Bilan de thèse à mi-parcours Bilan de thèse à mi-parcours Benjamin Lévy 26 mars 2012 Introduction La thèse de doctorat d informatique (école doctorale 130, EDITE) dont le titre officiel est le suivant : Avatars capables d écoute,

Plus en détail

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE Jean-Paul Valois, Claude Mouret & Nicolas Pariset Total, 64018 Pau Cédex MOTS CLEFS : Analyse spatiale, ACP, Lissage, Loess PROBLEMATIQUE En analyse multivariée,

Plus en détail

Séminaire: Méthodes et outils d'analyse de données textuelles, un nouveau souffle?

Séminaire: Méthodes et outils d'analyse de données textuelles, un nouveau souffle? Séminaire: Méthodes et outils d'analyse de données textuelles, un nouveau souffle? Daniel K. Schneider TECFA FPSE - Université de Genève daniel.schneider@unige.ch Unité de technologie de l'éducation Université

Plus en détail

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents

Master ISI 2010-2011. Data Mining Recherche des sous-ensembles fréquents Master ISI 2010-2011 Data Mining Recherche des sous-ensembles fréquents Yves Lechevallier INRIA-Rocquencourt E_mail : Yves.Lechevallier@inria.fr 1 Processus Data Mining Phase A : Entrepôt de données Entrepôt

Plus en détail

Recherche et visualisation de mots sémantiquement liés

Recherche et visualisation de mots sémantiquement liés Recherche et visualisation de mots sémantiquement liés Alexander Panchenko 1, 2 Hubert Naets 1 Laetitia Brouwers 1 Pavel Romanov 2 Cédrick Fairon 1 (1) CENTAL, Université catholique de Louvain, Belgique

Plus en détail

Modélisation de la relation entre le comportement au volant et la consommation de carburant

Modélisation de la relation entre le comportement au volant et la consommation de carburant ÉTUDE TECHNIQUE Modélisation de la relation entre le comportement au volant et la consommation de carburant De nombreuses entreprises investissent dans des services d accompagnement destinés aux conducteurs

Plus en détail

TEXT MINING Tour d Horizon

TEXT MINING Tour d Horizon TEXT MINING Tour d Horizon Media Campus WAN IFRA "Structurer, optimiser et valoriser son contenu éditorial : les outils de text mining" 24 novembre 2009, PARIS Philippe BONNY Cabinet de Conseil et d Etudes

Plus en détail

Calculatrice vocale basée sur les SVM

Calculatrice vocale basée sur les SVM Calculatrice vocale basée sur les SVM Zaïz Fouzi *, Djeffal Abdelhamid *, Babahenini MohamedChaouki*, Taleb Ahmed Abdelmalik**, * Laboratoire LESIA, Département d Informatique, Université Mohamed Kheider

Plus en détail

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier Détection et reconnaissance des sons pour la surveillance médicale Dan Istrate le 16 décembre 2003 Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier Thèse mené dans le cadre d une collaboration

Plus en détail

Généralités sur les fonctions d impression du menu Etat... 1337 Envoi d un document par e-mail... 1339 Devise d édition ou d exportation...

Généralités sur les fonctions d impression du menu Etat... 1337 Envoi d un document par e-mail... 1339 Devise d édition ou d exportation... Généralités sur les fonctions d impression du menu Etat... 1337 Envoi d un document par e-mail... 1339 Devise d édition ou d exportation... 1340 Etats personnalisés... 1342 Impression d un état personnalisé...

Plus en détail

1. Cliquez sur dans le coin supérieur gauche de l'écran 2. Sélectionnez la Langue de l'interface désirée 3. Cliquez sur

1. Cliquez sur dans le coin supérieur gauche de l'écran 2. Sélectionnez la Langue de l'interface désirée 3. Cliquez sur NOTIFICATIONS GUIDE Le module Notifications permet de retrouver des notifications en utilisant les champs spécifiques de la base de données du Registre central des notifications (RCN). Il comporte une

Plus en détail

Typage sémantique de verbes avec LVF, pour la résolution d anaphores

Typage sémantique de verbes avec LVF, pour la résolution d anaphores 21 ème Traitement Automatique des Langues Naturelles, Marseille, 2014 Typage sémantique de verbes avec LVF, pour la résolution d anaphores Elisabeth Godbert Aix-Marseille Université, LIF-CNRS UMR 7279,

Plus en détail

Expériences de formalisation d un guide d annotation : vers l annotation agile assistée

Expériences de formalisation d un guide d annotation : vers l annotation agile assistée Expériences de formalisation d un guide d annotation : vers l annotation agile assistée Bruno Guillaume 1,2 Karën Fort 1,3 (1) LORIA 54500 Vandœuvre-lès-Nancy (2) Inria Nancy Grand-Est (3) Université de

Plus en détail

L apport des concepts métiers pour la classification des questions ouvertes d enquête.

L apport des concepts métiers pour la classification des questions ouvertes d enquête. TALN 2010, Montréal, 19-23 juillet 2010 L apport des concepts métiers pour la classification des questions ouvertes d enquête. Ludivine Kuznik 1 3 Anne-Laure Guénet 1 Anne Peradotto 2 Chloé Clavel 2 (1)

Plus en détail

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

Thèmes : Ateliers Bureautiques F2+ dans le cadre du DIF

Thèmes : Ateliers Bureautiques F2+ dans le cadre du DIF Thèmes : Ateliers Bureautiques F2+ dans le cadre du DIF Prise en main de l outil micro / Word / Excel / Internet : 20 h Perfectionnement de l outil micro : Word / Excel / Internet : 20 h Perfectionnement

Plus en détail

Séminaire «Maîtrise de l information scientifique» Exploitation de l information : optimiser sa gestion documentaire

Séminaire «Maîtrise de l information scientifique» Exploitation de l information : optimiser sa gestion documentaire Séminaire «Maîtrise de l information scientifique» Exploitation de l information : optimiser sa gestion documentaire Dernière mise à jour : 01/09/2013 - Auteur : Frédérique Flamerie Programme Exploitation

Plus en détail

Retour d expériences avec UML

Retour d expériences avec UML Retour d expériences avec UML UML pour les systèmes biologiques Marie-Hélène Moirez-Charron, UMR AGIR, équipe MAGE INRA Toulouse mailto:marie-helene.charron@toulouse.inra.fr PLAN Contexte de travail UML,

Plus en détail

Accès personnalisé multicritères à de multiples sources d informations.

Accès personnalisé multicritères à de multiples sources d informations. Lyon - France Accès personnalisé multicritères à de multiples sources d informations. Samir kechid Université des Sciences et de la Technologie Houari Boumediene. USTHB BP 32 El Alia Bab Ezzouar Alger

Plus en détail

ISO/IEC TR 90006. Première édition 2013-11-01. Numéro de référence ISO/IEC TR 90006:2013(F) ISO/IEC 2013

ISO/IEC TR 90006. Première édition 2013-11-01. Numéro de référence ISO/IEC TR 90006:2013(F) ISO/IEC 2013 RAPPORT TECHNIQUE ISO/IEC TR 90006 Première édition 2013-11-01 Technologies de l information Lignes directrices pour l application de l ISO 9001:2008 pour la gestion des services IT et son intégration

Plus en détail

Recherche sémantique d information textuelle

Recherche sémantique d information textuelle Unité Mathématique, Informatique et Génome T e c h n i q u e s d ' e x p l o i t a t i o n d e s d o c u m e n t s m u l t i m é d i a s Recherche sémantique d information textuelle Claire Nédellec, Pascale

Plus en détail

Je découvre Lina Process

Je découvre Lina Process Je découvre Lina Process Une interface simple et ergonomique pour gérer vos process 1 Sommaire Présentation de Lina Process 4 Collecter 5 Mesurer 6 Alerter 7 Là où d autres agissent dans le présent, nous

Plus en détail

Analyse dialectométrique des parlers berbères de Kabylie

Analyse dialectométrique des parlers berbères de Kabylie Saïd GUERRAB Analyse dialectométrique des parlers berbères de Kabylie Résumé de la thèse (pour affichage) Il est difficile de parler du berbère sans parler de la variation. Il y a d abord une variation

Plus en détail

LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS

LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS Annuaire Ouvrage publié en principe chaque année ou selon une périodicité proche de l'année, qui donne une liste de noms de personnes ou d'organismes

Plus en détail

Séance d'accueil. Année académique 2011-2012

Séance d'accueil. Année académique 2011-2012 Séance d'accueil Année académique 2011-2012 Spécificités Pluridisciplinaire dans les cours chez les enseignants chez les étudiants Formation universitaire professionalisante public adulte horaire aménagé

Plus en détail

Sources d information : lexicale. Sources d information : phonotactique. Sources d information : prosodie (2/3) Sources d information : prosodie (1/3)

Sources d information : lexicale. Sources d information : phonotactique. Sources d information : prosodie (2/3) Sources d information : prosodie (1/3) Organisation de la présentation Reconnaissance automatique des langues RMITS 28 http://www.irit.fr/~jerome.farinas/rmits28/ Jérôme Farinas jerome.farinas@irit.fr Équipe SAMOVA (Structuration, Analyse et

Plus en détail

Introduction à la méthodologie de la recherche

Introduction à la méthodologie de la recherche MASTER DE RECHERCHE Relations Économiques Internationales 2006-2007 Introduction à la méthodologie de la recherche geraldine.kutas@sciences-po.org Les Etapes de la Recherche Les étapes de la démarche Etape

Plus en détail

Le problème des collocations en TAL

Le problème des collocations en TAL Le problème des collocations en TAL Luka Nerima, Violeta Seretan, Eric Wehrli Laboratoire d analyse et de technologie du langage Département de linguistique, Université de Genève {Luka.Nerima, Violeta.Seretan,

Plus en détail