Extraction automatique de terminologie à partir de libellés textuels courts

Dimension: px
Commencer à balayer dès la page:

Download "Extraction automatique de terminologie à partir de libellés textuels courts"

Transcription

1 Extraction automatique de terminologie à partir de libellés textuels courts Jean-Claude Meilland ismart Le Mercure A, 565 Rue Berthelot Aix en Provence Cedex 3 (France) jean-claude.meilland@ismart.fr Patrice Bellot Université d Avignon (LIA CNRS) Agroparc BP Avignon Cedex 9 (France) patrice.bellot@lia.univ-avignon.fr Résumé : Cet article concerne l extraction automatique de terminologie appliquée à des libellés textuels courts issus de la grande distribution. Elle s appuie sur les données du projet industriel SmartyCart. Nous montrons que certains critères d associations de termes peu utilisés dans des textes longs sont particulièrement adaptés pour des libellés courts et que la seule fréquence d apparition comme critère de sélection donne de mauvais résultats. Mots-clés : extraction terminologique, coefficients d associations, libellés commerciaux, TALN. 1. Introduction L avènement d Internet a créé un besoin accru d accès et de traitement de l information. En effet, outre la recherche d informations, on voit émerger de nombreuses problématiques de structuration et de classification d informations issues d applications fédératrices de données (e.g. les portails comme Free affichent la météo ou les programmes de télévision issus d autres sites spécialisés). Par applications fédératrices de données nous entendons les applications qui recherchent, comprennent et utilisent des informations décrites en langage naturel afin de fournir un service basé sur celles-ci ou plus simplement de les diffuser d une autre manière (structurées et/ou classées autrement). Cependant, la diversité des domaines (commercial, social, industriel, littéraire, journalistique, technique/spécialisé) et surtout les caractéristiques des textes (longs, télégraphiques) rendent le Traitement Automatique du Langage Naturel (TALN) particulièrement complexe. Depuis de nombreuses années certains travaux ont permis la constitution de bases terminologiques dans des domaines de référence. Dans le cadre de nos travaux, nous souhaitons proposer une étude et une méthode d extraction automatique de terminologie sur des textes dont la nature est très présente sur Internet : les libellés courts (dépêches journalistiques, petites annonces, descriptions de produits commerciaux, publicités, forums de discussion). Plus spécifiquement, notre étude est appliquée à des libellés courts décrivant des produits commerciaux issus de la grande distribution. Nous nous appuyons sur les données du projet industriel SmartyCart, elles-mêmes obtenues à partir des différents sites de magasins en ligne ( Le projet SmartyCart est soutenu par la société ismart. Il concerne des applications consuméristes d aide à la consommation dans le secteur de la grande distribution. Les libellés courts ont une sémantique particulièrement riche dans laquelle il n existe que relativement peu d ambiguïtés pour un lecteur humain qui doit toutefois utiliser le contexte pour les comprendre. Dans l exemple suivant, le terme lait pris isolément est particulièrement ambigu : «Lait hydratant Bodytonic + Shampooing cuir chevelu irrité - Neutralia - + le lait nutritif Bodycocoon gratuit» et «Lait frais entier GrandLait - Candia - la bouteille de 1l». À partir d un corpus de libellés catégorisés, nous tentons de définir la terminologie de chaque catégorie afin d être, à terme, capable de classer un nouveau produit et de structurer son libellé (avec notamment la reconnaissance automatique du type d emballage, du prix, de la quantité ou du parfum pour une glace et du pourcentage de matière grasse pour un produit laitier). Pour cela nous mettons en perspective les statistiques relatives à un terme dans une catégorie avec celles de ce même terme dans les autres catégories et dans l ensemble du corpus. Nous verrons que certains critères peu utilisés dans des textes longs (coefficient d Ochiai, coefficient de proximité simple) sont particulièrement adaptés pour notre application. Contrairement à de nombreux résultats en extraction automatique de terminologie voir par exemple (Bourigault & Jacquemin 2000), nous montrons que la seule fréquence d apparition des termes comme critère de sélection donne de mauvais résultats dans les libellés courts. Nos travaux se basent principalement sur une étude des collocations (Manning & Schütze 1999) et des critères d associations (Daille 1994). Dans la section 2, nous énonçons quelques uns des principes fondamentaux de l extraction terminologique. Ensuite (section 3), nous présentons en détail l application visée par le présent travail et nous continuons (section 4) en détaillant les résultats obtenus. Le principal intérêt scientifique de cette étude est de comparer à quel point les résultats des études en extraction de terminologie couramment effectuées sur des textes «longs» se retrouvent sur des libellés courts. 1

2 2. Principes fondamentaux Nous ne discutons pas ici de la notion de terme mais retenons la définition que l on peut trouver dans (Dubois 1994) indiquant qu un terme est une unité signifiante constituée d un mot (terme simple) ou de plusieurs mots (terme complexe), qui désigne une notion de façon univoque à l intérieur d un domaine. Ainsi, le terme s oppose au(x) mot(s) par sa référence inhérente à un domaine. En ce qui concerne notre étude, la classification automatique de libellés textuels commerciaux courts, les «domaines» sont les différentes catégories de produits que l on peut acquérir dans un cybermarché. Si l adéquation terme/concept/domaine peut s avérer difficile à établir lorsque l analyse porte sur des textes classiques (articles journalistiques, monographies), elle est dans notre cas plus rapidement identifiable : les libellés sont écrits de la manière la plus concise et la moins ambiguë possible pour le lecteur (en l occurrence un acheteur potentiel) et ne contiennent aucune tournure complexe (paraphrases, anaphores). Cela ne signifie pas pour autant que le problème consistant à attribuer une étiquette à un libellé (une catégorie à un produit) soit simple, comme nous le verrons par la suite sur des exemples. Il l est tout de même suffisamment pour que nous puissions envisager l exploitation de l analyse terminologique dans un cadre commercial avec une supervision humaine restreinte. Dans de très nombreux cas, l extraction terminologique s intéresse essentiellement à l identification de syntagmes nominaux (substantifs isolés pour les termes simples, schémas de type «N de N» ou «N à N» pour les termes complexes où N désigne un nom). En ce qui nous concerne, de nombreux types de structures syntaxiques sont intéressants. L extraction du terme complexe lait écrémé (N ADJ) permet à la fois l identification d un type de produit particulier (puisque de nombreux libellés débutent par ces deux mots) mais aussi la désambiguïsation du mot lait (nous sommes en présence d un lait à boire et non pas d un lait de beauté) et donc la classification du produit. Notons qu il est en outre très difficile de déterminer des règles décrivant des structures grammaticales figées sur des libellés (cela pourrait toutefois être envisageable en distinguant chaque site de commerce électronique ciblé, chaque site ayant sa propre manière de décrire les produits) et, par extension, de ne retenir comme candidat terme que les mots correspondants à telle ou telle catégorie syntaxique. Il est d ailleurs intéressant de constater, même si c était prévisible, que les étiqueteurs syntaxiques souvent utilisés tels le TreeTagger (Schmidt 1994), sont inopérants sur les libellés. A cause de cela, il nous est difficile d utiliser des méthodes hybrides (combinant des informations linguistiques et statistiques) pour l extraction des termes caractérisant les catégories comme cela est réalisé par exemple par (Daille et al. 1994; Enguehard & Pantera 1994 ; Frantzi 1998, Maynard & Ananiadou 1999). Nous donnons dans la sous-section suivante un rapide aperçu des approches couramment employées pour l extraction terminologique. Pour une étude plus complète des méthodes et outils développés ces dernières années, le lecteur pourra se référer par exemple à (Bourigault & Jacquemin 2000) ainsi qu à (Séguéla 2001) Différentes approches pour l extraction terminologique Les méthodes automatiques d extraction terminologique utilisant principalement des informations linguistiques sont jusqu ici relativement peu nombreuses (Maynard & Ananiadou 1999). Citons toutefois celles qui sont basées sur les informations syntaxiques des termes candidats avec par exemple les outils logiciels LEXER (Bourigault 1992 ; Bourigault 1994) ou bien SEXTANT (Grefenstette 1994) ou, conjointement, sur les informations syntaxiques et morphologiques (Ananiadou 1988). L extraction de relations à partir de critères statistiques part de l hypothèse que de le sens d une unité terminologique est étroitement lié avec la distribution de son utilisation en contexte. De nombreux travaux sur l étude des co-occurrences sont venus appuyer cette hypothèse voir par exemple (Smadja 1993). Malheureusement, les méthodes essentiellement statistiques ont tendance à rapporter des relations conceptuelles de nature différente qu il est difficile de dissocier sans recours à un expert du domaine (Séguéla 2001). L extraction terminologique basée uniquement sur des critères statistiques se heurte à une difficulté supplémentaire liée aux différentes variantes terminologiques possibles pour exprimer un concept ou une notion. La faible dimension du corpus sur lequel sont calculés les critères d association et la variabilité des termes utilisés peuvent masquer certaines associations. L emploi de méthodes de reconnaissance de variations terminologiques pourrait remédier à ce problème (Jacquemin 1997) et aider à obtenir une meilleure extraction. Une autre approche, abondamment décrite dans (Séguela 2001) consiste à déterminer quelles sont les formules linguistiques prévisibles et récurrentes exprimant les relations sémantiques observables d un texte. Ces formules sont autant de marqueurs déposées dans le texte servant à extraire ensuite automatiquement d autres relations voir (Hearst 1992 ; Riloff 1996 ; Morin 1999 ; Faure & Poibault 2000) pour ne citer qu eux. 2

3 2.2. Approches statistiques et approches hybrides La plupart des modèles statistiques se résument au calcul de valeurs numériques telles que les fréquences, les critères d association ou de diversité par exemple la diversité de Shannon et l information mutuelle (Hamming 1980) et les mesures de distance voir par exemple (Oakes 1998). Parmi les critères d association, nous pouvons citer ceux que l on trouve dans (Daille 1994) tous basés sur quatre valeurs associées à un couple de mots/lemmes : le nombre d occurrences du couple, le nombre d occurrences de tous les couples où le premier élément (resp. le deuxième) du couple analysé est présent mais pas le second (resp. le premier) et le nombre d occurrences de tous les couples où ni le premier ni le second élément du couple candidat n est présent (on parle de tableau de contingence, voir section 4.2). Parmi ces critères : le coefficient de proximité simple, de Kulczinsky, d Ochiai, de Fager et de McGowan, de Yule, de Mc Connoughly, du F 2, le score d association au cube et le coefficient de vraisemblance (loglike) introduit par Dunning (1993). Pour une comparaison de ces différents critères et une étude bibliographique étendue de leur application à la linguistique de corpus, le lecteur peut se reporter à (Chung & Lee 2001). Nous renvoyons également aux travaux de B. Daille (2002). Également parmi les approches statistiques, celle de Frantzi (1998) consiste à retenir comme termes candidats ceux qui ont la plus grande C-value, valeur basée sur la fréquence d apparition du mot et sur sa longueur. Maynard et Ananiadou (1999) combinent cette valeur avec un facteur contextuel correspondant à la prise en compte de la fréquence d apparition des noms, adjectifs et verbes apparaissant dans le contexte du terme candidat (le contexte étant défini par l intermédiaire d une fenêtre autour du candidat). Parmi les éléments du contexte ceux qui sont eux-mêmes des termes candidats sont pris en compte différemment de ceux qui ne sont que de simples mots. Une distance entre les termes du contexte et le terme candidat intervient dans le calcul de la «valeur terminologique» finale du terme candidat à partir d un réseau sémantique. Les expériences décrites dans (Maynard & Ananiadou 1999) concernent le domaine médical et emploient le réseau sémantique UMLS (NLM 1997). La tendance actuelle consiste finalement à combiner des approches linguistiques avec des approches statistiques. Généralement, la partie essentielle de la méthode d extraction est statistique, la partie «linguistique» consistant à filtrer les termes en fonction de leur catégorie syntaxique. L utilisation d informations sémantiques est naturellement envisagée même si elle est souvent difficile à mettre en œuvre. Dans le cadre de la désambiguisation d un mot (par opposition à la désambiguisation d un terme), nous pouvons citer par exemple les travaux de Lesk (1986) qui utilise un dictionnaire en ligne afin de comparer la définition d un terme candidat avec les mots apparaissant dans le contexte de ce terme dans le corpus analysé. D autres approches, citées dans (Maynard & Ananiadou 1999), concernent le calcul de distances entre deux mots à partir de leurs relations dans un thésaurus (Smeaton 1996; Yarowsky 1992). E. Noleau (1998) a employé dans ses travaux en recherche documentaire des ressources sémantiques propres à un domaine pour valider (ou invalider) des termes retenus lors d une première extraction (enrichissement automatique des ressources après validation ou invalidation). Les techniques de désambiguisation d un terme (on rappelle qu un terme est souvent un composé de plusieurs mots dont le sens est dépendant d un domaine) s inspirent largement des approches que l on vient de citer. Elles permettent de distinguer différents cas d utilisation d un terme candidat. 3. Une problématique industrielle En partant d un corpus catégorisé issu des sites de grande distribution, nous souhaitons étiqueter chaque catégorie. Dans le cadre du projet SmartyCart nous avons défini manuellement la liste des catégories et avons utilisé les moteurs de recherche des sites de grande distribution en ligne afin d'obtenir les libellés des produits de chaque catégorie. Après avoir effectué un filtrage manuel, nous appliquons notre méthode d extraction automatique afin de définir un pseudo-modèle de langage de chaque catégorie. Celui-ci nous permettra par la suite de classer et de structurer les produits automatiquement. Les figures 1, 2 et 3 décrivent la méthode de collecte des données initiales. 3

4 Figure 1 - Site OOShop SmartyCart utilise les moteurs de recherche des sites de grande distribution (le site de Carrefour OOShop pour la figure 1) afin de constituer le corpus catégorisé. Un filtrage manuel supprime le bruit (sur la figure 1, le lait frais demi-écrémé n appartient pas à la catégorie «lait écrémé» est n est donc pas retenu). Figure 2 - Corpus catégorisé Une fois les produits catégorisés (figure 2) et filtrés manuellement, on utilise une méthode ad-hoc afin d extraire les termes représentatifs de chaque catégorie et si possible de les étiqueter (figure 3). Catégorie Lait écrémé Noms Lait, Silhouette Marques Candia, Lactel, Danone, Carrefour Quantités Emballages Brique, Bouteille Unités Litre Adjectifs (Qualifiants) Ecrémé, Vitaminé, Bébé Figure 3 Objectif final : étiquetage des termes représentatifs des catégories Un tel étiquetage permettra de constituer un corpus d'apprentissage pour des algorithmes de classification et de structuration de produits à grande échelle sur lesquels s appuieront des applications gratuites à forte valeur ajoutée pour les utilisateurs (un moteur de recherche par exemple). 4. La méthode d extraction de terminologie dans des libellés courts À partir d un corpus de départ catégorisé, nous souhaitons extraire les termes les plus représentatifs de chaque catégorie. Notre approche consiste à calculer la variance et certains critères d associations des termes présents dans les libellés aussi bien dans chaque catégorie que dans l ensemble du corpus (réunion de toutes les catégories). Comme cela a été dit en section 2, quatre types de mesures sont communément utilisés pour l extraction terminologique : les fréquences, les critères d association, la diversité et les mesures de distance. Dans un texte long, la fréquence d un couple constitue un bon indicateur de son caractère terminologique. Dans des libellés courts d un même domaine d application on observe le phénomène inverse. En effet la majorité des couples ont 4

5 une fréquence similaire et relativement faible. La figure 4 permet de constater qu il n apparaît pas de seuils évidents pour la catégorie «margarine» (le corpus est constitué de 718 libellés répartis en 42 catégories) : la distribution des fréquences normalisées est similaire sur les catégories et sur l ensemble du corpus Fréquence Catégorie Fréquence Corpus Figure 4 - Fréquences normalisées pour la catégorie «Margarine» (abscisses : les couples de mots ; ordonnées : fréquence normalisée) Nous avons donc centré notre étude sur les mesures de distances et les critères d associations. La liste des couples de mots candidats est constituée en se basant sur une fenêtre maximale et en prenant uniquement les mots d au moins deux caractères. Nous évaluons chaque critère dans une catégorie et dans le corpus entier. Pour cela nous utilisons une évaluation graphique sur des valeurs normalisées et triées. Ainsi nous retenons un critère si sa courbe met en évidence des seuils (fortes variations dans la pente). Un critère dont la courbe ne connaît pas de variations importantes n est pas retenu Étude des collocations (mesure de variance) Nous reprenons la définition de la variance citée dans (Manning & Schütze 1999). Pour cela on calcule la moyenne des distances séparant les deux mots d un couple de termes dans sa catégorie. La table ci-contre contient trois libellés illustrant cette définition. Cafe Regal Jacques Vabre, moulu, melange classique, paquet 250 g, 4,80 euros le kg 1.20 euros Cafe Tradition Maison du Cafe, moulu, melange classique, paquet 250 g, 4,64 euros le kg 1.16 euros Cafe melange Hediard, moulu, boite en fer 250 g, 27,44 euros le kg 6.86 euros Pour le couple (café, mélange) la distance moyenne est de 1/3(4+5+1)=3,33 mots. Ensuite la variances 2, pour un couple donné, est calculée de la manière suivante : s 2 = n  i=1 ( d i - m) 2 où n (n > 1) est le nombre de fois où le couple apparaît (dans la catégorie si l on calcule sa variance dans la catégorie et dans le corpus entier sinon), d i la distance en nombre de mots séparant les deux mots du couple dans le i-ème libellé où il apparaît et µ la distance moyenne séparant les deux mots du couple. La figure 5 correspond à l évaluation de la variance pour la catégorie «Margarine» (l'axe des ordonnées représente la variance normalisée tandis que l'axe des abscisses représente les couples de mots). Trois types de couples sont répertoriés : n -1 les couples ayant une variance élevée dans le corpus et faible dans la catégorie : 15% des couples ; les couples ayant une variance identique dans le corpus et dans la catégorie : 60% des couples ; les couples ayant une variance faible dans la corpus et élevé dans la catégorie : 15% des couples 5

6 matiere or grasse or activ or matiere fin matiere planta matiere grasse tartiner fin fruit or activ grasse cuire fin tartiner allegee cuire planta activ matiere cuire allegee allegee planta fruit steak tartine or pro tartine pro cuisson pince cadeau or steak matiere steak margarine or tartine fruit matiere cuisson margarine agriculture cuisson steak grasse pince activ steak cuisson pince fruit cadeau cuisson or demi sel allegee demi tartiner nature sel hubert grasse demi tartiner sel matiere demi matiere sel allegee hubert tartiner hubert matiere hubert µ?(couple, catégorie) µ?(couple, corpus) µ?(couple, catégorie) - µ?(couple, corpus) Figure 5 Valeurs de variance pour la catégorie «Margarine» La variance paraît être une mesure intéressante dans la catégorie Margarine car elle met en évidence plusieurs seuils. Voici un extrait des résultats obtenus si l on retient cette mesure : Couple Li,Lj Variance catégorie Variance corpus Ecart (Var.Corp - Vat.Cat) matiere hubert 0, , , grasse hubert 0, , , agriculture bio 0 0, , cuire nature 0, , , demi sel 0, , , allegee matiere fruit pince planta fin 0, , , tartiner allegee 0, , , grasse allegee 0, , , matiere grasse 0, , , grasse cuire 0, , , grasse fin 0, , , matiere cuire 0, , , On distingue des valeurs seuils de couples significatifs : les couples ayant une variance plus faible dans la catégorie que dans le corpus (agriculture bio, demi-sel) qui ne sont pas représentatifs de la catégorie; les couples ayant une variance plus grande dans la catégorie que dans le corpus (planta fin, tartiner allégée). Lorsque la variance est trop élevée il s agit généralement de bruit. Lorsque elle est nulle et qu il n y a pas d écart entre la variance de la catégorie et du corpus on ne peut pas tirer de conclusion. Ce critère a plusieurs inconvénients. En effet, il ne nous permet pas d extraire les couples significatifs dans le corpus (par exemple «matière, allégée»). Par ailleurs on constate souvent la présence de couples de mots sémantiquement opposés dans les termes retenus par exemple : (cuire, nature) et (grasse, allégée). Cette mesure ne nous permet pas d extraire les termes représentatifs d une catégorie. Il faut probablement la combiner à d autres critères. 6

7 4.2. Étude des critères d associations «D un point de vue statistique, les deux lemmes qui forment un couple sont considérés comme deux variables qualitatives dont il s agit de tester la liaison.», (Daille 1994 : 116). La matrice de contingence suivante est à la base des critères d association testés : Lj Lj avec j j Li a b Li avec i i c d a = le nombre d occurrences du couple de mots (Li, Lj), b = le nombre d occurrences des couples où Li est le premier élément d un couple et Lj n est pas le second, c = le nombre d occurrences des couples où Lj est le second élément du couple et Li n est pas le premier, d = le nombre d occurrences de couples où ni Li ni Lj n apparaissent. La somme a + b + c + d est notée N. On calcule ensuite les critères suivants : Coefficient de proximité simple SMC (Simple Matching Coefficient) a + b SMC = a + b + c + d L évaluation graphique de cette mesure (figure 6) nous donne des résultats particulièrement intéressants dans la catégorie «margarine» (l'axe des ordonnés représente le coefficient SMC des différents couples tandis que l'axe des abscisses représente les couples eux-mêmes) : SMC(Couple,Catégorie) SMC(Couple,Corpus) grasse fleurier grasse fruit grasse demi allegee sel cuire fleurier cuire or allegee fin grasse st matiere doux allegee st matiere st grasse doux tartiner doux grasse fin demi sel tartiner st tartiner fruit tartiner fin cuisson fruit matiere cuire matiere fin activ pince tartine or matiere or tartiner demi margarine fruit grasse tartiner pro tartine margarine agriculture matiere cuisson matiere planta grasse tartine allegee fruit sel hubert matiere allegee margarine allegee tournesol bio cuire fruit fruit steak allegee or fruit pince allegee matiere margarine tournesol Figure 6 - SMC catégorie Margarine Ce critère est retenu car il décrit une courbe «quasi-parfaite» (valeur seuil évidente). Voici un extrait des résultats : COUPLES Li, Lj SMC.CAT SMC.CORP st hubert 1 0 fruit or 1 0 agriculture bio 1 0 demi sel 1 0 pro activ 1 0 7

8 planta fin 1 0 tournesol bio 1 0 cuisson cadeau 1 0 cuisson steak 1 1 matiere grasse 0 0 grasse tartiner 0 0 On constate que les couples de mots extraits sont très pertinents (il s agit des marques ou des caractéristiques de produits propres à la catégorie margarine). Par ailleurs les valeurs du critère SMC sur le corpus (colonne SMC.CORP) constituent même un filtre anti-bruit («cuisson, steak»). Les couples qui ne sont pas significatifs de la catégorie («matière, grasse») et («grasse, tartiner») ne sont pas extraits. Coefficient d Ochiai : OCH = a ( a + b) a + c ( ) Figure 7 - Coefficient d'ochiai pour la catégorie "Margarine" Ce coefficient donne des résultats plus fins que le SMC (l'axe des ordonnés de la figure 7 représente les valeurs du coefficient d Ochiai tandis que l'axe des abscisses représente les couples). On observe le même comportement qu avec le coefficient SMC pour les couples très significatifs de la catégorie. Cependant l OCH est beaucoup plus fin pour les autres couples. Voici un extrait des résultats obtenus : COUPLES Li, Lj SMC.CAT OCH.CAT OCH.CORP st hubert 1 1 0, fruit or 1 1 0, agriculture bio 1 1 0, demi sel 1 1 0, pro activ 1 1 0, planta fin 1 1 0, tournesol bio 1 1 0, bio bio cuisson cadeau 1 1 0,5 cuisson pince tournesol agriculture 1 1 0,5 matiere grasse 0 0, , grasse tartiner 0 0, , matiere tartiner 0 0, , matiere allegee 0 0, , margarine allegee 0 0, ,

9 Les mesures suivantes ont également été évaluées mais n ont pas été retenues faute de résultats suffisants : coefficient de Kulzcinsky, coefficient de Fager et de McGowen, coefficient de Yule, coefficient de Mc Connoughy, coefficent du Phi 2, le score d association IM et IM au cube et enfin le coefficient de vraisemblance Loglike tels qu ils sont définis dans (Daille 1994) et dans (Daille et al. 1998). Le tableau suivant présente, pour quelques catégories, la terminologie finalement retenue : Catégorie Termes Margarine (st, hubert), (fruit, or), (agriculture, bio), (demi, sel)... Viande hachée fraiche (pur, boeuf), (pur, porc), (viande, hachée),... Eau gazeuse (citron, vert), (st, yorre), (eau, minérale),... Sel (sel, marin), (sel, iodé), (gros, sel), (sel, fin),... Chips (chips, grillé), (goût, jambon), (goût, tomate),... Produit pour feu (allume, feu), (cube cheminé), (multi, usage), Conclusions et perspectives L utilisation croissante des libellés courts sur Internet dans des domaines d applications très variés (culturel, scientifique, social) nous ont poussé à étudier les méthodes existantes d extraction automatique de terminologie sur les libellés courts. L existence d un objectif précis et fonctionnel ainsi que l obligation de résultat liée au projet industriel SmartyCart nous a déjà permis d obtenir des résultats concrets. Une première conclusion montre que la fréquence normalisée n est pas une mesure suffisamment fine pour être retenue. En effet les termes de notre corpus ont des fréquences d'apparition souvent similaires. Par contre le coefficient de proximité simple SMC et le coefficient d Ochiai donnent des résultats particulièrement satisfaisants. Cependant il nous faut maintenant valider la stabilité de ces critères à travers la totalité des catégories de l application cible et sur un corpus complet. Nous entamons actuellement une validation de ces premiers résultats sur un corpus de produits répartis dans 750 catégories. Nous souhaitons ultérieurement évaluer notre méthode sur des libellés courts issus d autres domaines d application que les produits de grande distribution. Nous avons prévu de travailler sur les petites annonces, les dépêches journalistiques et les forums de discussion. Nous tenterons d étudier la stabilité de nos résultats à travers ces différents domaines. Les résultats actuels tendent à confirmer une nouvelle fois qu il est très difficile de définir une méthode d extraction automatique de terminologie générale, sans objectif fonctionnel précis. La nature du corpus ainsi que la finalité de l'extraction sont autant de paramètres essentiels. 6. Bibliographie Ananiadou S., 1998, Towards a methodology for automatic term recognition, PhD Thesis, Université de Manchester, UK. Bourigault D., 1992, «Surface grammatical analysis for the extraction of terminological noun phrases», in Proceedings of COLING, p Bourigault D., 1994, LEXTER, un Logiciel d EXtraction de TERminologie. Application à l acquisition de connaissances à partir de textes, Thèse de doctorat, EHESS. Bourigault D., Jacquemin C., 2000, «Construction de ressources terminologiques», Ingénierie des Langues, éd. J.-M. Pierrel, Hermès Sciences, p Chung Y.M., Lee J.Y., 2001, «A Corpus-Based Approach to Comparative Evaluation of Statistical Term Association Measures», Journal of the American Society for Information Science and Technology, 52(4), p Daille B., 1994, Approche Mixte pour l'extraction Automatique de Terminologie, Thèse de Doctorat. Daille B., 2002, Découvertes linguistiques en corpus, Habilitation à diriger des recherches, Université de Nantes. Daille B., Gaussier E., Langé J.-M., 1994, «Towards automatic extraction of monolingual and bilingual terminology», in Proceedings of COLING, p Daille B., Gaussier E., Langé J.-M., 1998, «An Evaluation of Statistical Scores for Word Association», The Tbilisi Symposium on Logic, Language and Computation - Selected papers, CSLI publications, p Dubois J., Guespin L., Giacomo M., Marcellesi C., Marcellesi J.-B., Mével J.-P., 1994, Dictionnaire de linguistique et des sciences du langage. Collection Trésors du Français, Larousse, Paris. Dunning T., 1993, «Accurate Methods for the Statistics of Surprise and Coincidence», Computational Linguistics, vol. 19, n 1. 9

10 Enguehard C., Pantera L., 1994, «Automatic natural acquisition of terminology», Journal of Quantitative Linguistics, 2(1), p Faure D., Poibeault D., 2000, «Extraction d information utilisant INTEX et des connaissances sémantiques apprises par ASIUM, premières expérimentations», Actes du 12è congrès Reconnaissance des Formes et Intelligence Artificielle RFIA 2000, Paris, France, p Frantzi K.T., 1998, Automatic Recognition of Multi-Word Terms, PhD Thesis, Manchester Metropolitan University, UK. Grefenstette G., 1994, Explorations in Automatic Thesaurus Discovery, Kluwer Academic Publisher. Hamming R.W., 1980, Coding and Information Theory, Englewood Cliffs, NJ : Prentice-Hall. Hearst M., 1992, «Automatic Acquisition of Hyponyms from Large Text Corpora», Proceedings of the 13th Internation Conference on Computational Linguistics COLING 92, Nantes, France, p Lesk M., 1986, «Automatic sense disambiguation : how to tell a pine cone from an ice cream cone», in Proceedings of SIGDOC, p Jacquemin C., 1997, Variation terminologique : reconnaissance et acquisition automatique de termes et de leurs variantes en corpus, Habilitation à diriger des recherches, IRIN, Université de Nantes, France. Manning C.D., Schütze H., 1999, Foundation of Statistical Natural Language Processing, chapitre 5, p Maynard D., Ananiadou S., 1999, «Term Extraction using a Similarity-based Approach.», in Recent Advances in Computational Terminology, Ed. by D. Bourigault, C. Jacquemin, M.-C. L'Homme, John Benjamins. Morin E., 1999, Extraction de liens sémantiques entre termes à partir de corpus de textes techniques, Thèse de doctorat, Université de Nantes, France. NLM, 1997, UMLS Knowledge Sources, U.S. Dept of Health and Human Services, 8è édition. Noleau E., 1998, Apprentissage et filtrage syntaxico-sémantique de syntagmes pertinents pour la recherche documentaire, Thèse de doctorat, Université Paris-Nord, France. Oakes M., 1998, Statistics for corpus linguistics, Edinburgh University Press, U.K. Riloff E., 1996, «Automatic Generating Extraction Patterns from Untagged Text», Proceedings of the 13th National Conference on Artifical Intelligence AAAI 96, Portland, USA, p Séguéla P., 2001, Construction de modèles de connaissances par analyse linguistique de relations lexicales dans les documents techniques, Thèse de doctorat, Université de Toulouse-III, France. Smadja F., 1993, «Retrieving Collocations from Text : Xtract», Computational Linguistics, 19(1), p Smeaton A., Quigley L., «Experiments on using semantic distances between words in image caption retrieval», in Proceedings of 19th International Conference on Research and Development in Information Retrieval, Zurich, Suisse. Schmid H., 1994, «Probablistic Part-of-Speech Tagging Using Decision Trees», actes du First International Conference on New Methods in Natural Language Processing (NemLap-94), Manchester, U.K., p Yarowsky D., 1992, «Word-sense disambiguation using statistical models of Roget s categories trained on large corpora», in Proceedings of 14th International Conference on Computational Linguistics, p

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES

UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES Chrystel Millon & Stéphanie Léon Equipe DELIC Université de Provence

Plus en détail

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE

Plus en détail

1 Description générale. Résumé

1 Description générale. Résumé Station Sensunique: une plateforme Web modulaire, collaborative et évolutive d acquisition assistée de ressources terminologiques et non terminologiques (orientée Langues Contrôlées) Izabella Thomas 1,

Plus en détail

Comment déterminer les définitions les plus pertinentes d un sigle donné?

Comment déterminer les définitions les plus pertinentes d un sigle donné? Comment déterminer les définitions les plus pertinentes d un sigle donné? Application au Domaine Biomédical Mathieu Roche, Violaine Prince LIRMM, Université Montpellier 2 CNRS UMR5506, {mroche,prince}@lirmm.fr

Plus en détail

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

Ressources lexicales au service de recherche et d indexation des images

Ressources lexicales au service de recherche et d indexation des images RECITAL 2011, Montpellier, 27 juin - 1er juillet 2011 Ressources lexicales au service de recherche et d indexation des images Inga Gheorghita 1,2 (1) ATILF-CNRS, Nancy-Université (UMR 7118), France (2)

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Trois approches du GREYC pour la classification de textes

Trois approches du GREYC pour la classification de textes DEFT 2008, Avignon (associé à TALN 08) Trois approches du GREYC pour la classification de textes Thierry Charnois Antoine Doucet Yann Mathet François Rioult GREYC, Université de Caen, CNRS UMR 6072 Bd

Plus en détail

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus JEP-TALN 2004, Traitement Automatique de l Arabe, Fès, 20 avril 2004 Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus ZAAFRANI Riadh Faculté des Sciences Juridiques,

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Construction d ontologies à partir de textes

Construction d ontologies à partir de textes TALN 2003, Batz-sur-Mer, 11-14 juin 2003 Construction d ontologies à partir de textes Didier Bourigault (1) et Nathalie Aussenac-Gilles (1) ERSS CNRS & Université Toulouse le Mirail 5, allées Antonio Machado

Plus en détail

Classification Automatique de messages : une approche hybride

Classification Automatique de messages : une approche hybride RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,

Plus en détail

Les produits solidaires, 100 jours pour convaincre!

Les produits solidaires, 100 jours pour convaincre! Juin 2012 Les produits solidaires, 100 jours pour convaincre! Contexte et historique de la démarche La Réunion a connu au mois de février des tensions sociales dont la cause la plus immédiate résultait

Plus en détail

ANALYSE SÉMANTICO-DISCURSIVE DES COLLOCATIONS LEXICALES EN CORPUS SPÉCIALISÉ : LA BASE CONNAISSANCE-S

ANALYSE SÉMANTICO-DISCURSIVE DES COLLOCATIONS LEXICALES EN CORPUS SPÉCIALISÉ : LA BASE CONNAISSANCE-S ANALYSE SÉMANTICO-DISCURSIVE DES COLLOCATIONS LEXICALES EN CORPUS SPÉCIALISÉ : LA BASE CONNAISSANCE-S Estelle Dubreil et Béatrice Daille LINA FRE CNRS 2729 Université de Nantes France Résumé : L association

Plus en détail

JADT 2010-11/06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire

JADT 2010-11/06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire JADT 2010-11/06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire Delphine Amstutz (CELLF Université Paris-Sorbonne Paris 4 / CNRS) Philippe Gambette (LIRMM Université

Plus en détail

LIVRE BLANC Décembre 2014

LIVRE BLANC Décembre 2014 PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

Indexation sémantique au moyen de coupes de redondance minimale dans une ontologie

Indexation sémantique au moyen de coupes de redondance minimale dans une ontologie TALN 25, Dourdan, 6 1 juin 25 Indexation sémantique au moyen de coupes de redondance minimale dans une ontologie Florian Seydoux & Jean-Cédric Chappelier Faculté Informatique et Communications Ecole Polytechnique

Plus en détail

Rapport : Base de données. Anthony Larcher 1

Rapport : Base de données. Anthony Larcher 1 Rapport : Base de données Anthony Larcher 1 1 : Laboratoire d Informatique d Avignon - Université d Avignon Tél : +33 (0) 4 90 84 35 55 - Fax : + 33 (0) 4 90 84 35 01 anthony.larcher@univ-avignon.fr 14

Plus en détail

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) 87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation

Plus en détail

Comment bien s hydrater pendant l été?

Comment bien s hydrater pendant l été? Comment bien s hydrater pendant l été? C est bien connu, il faut boire davantage en été pour ne pas se déshydrater, notamment en cas de forte chaleur. Il faut en effet être vigilant dès que la température

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Utiliser un tableau de données

Utiliser un tableau de données Utiliser un tableau de données OBJECTIFS : - Définir une Base de Données. - Présentation : tableau de données. - Création d un tableau de données - Gestion d un tableau de données. - Trier et Filtrer des

Plus en détail

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES Techniques symboliques de traitement automatique du langage pour l indexation thématique et l extraction d information temporelle Thèse Défense publique

Plus en détail

Construction et maintenance d une ressource lexicale basées sur l usage

Construction et maintenance d une ressource lexicale basées sur l usage Construction et maintenance d une ressource lexicale basées sur l usage Laurie Planes 1, (1) Inbenta France, 164 route de Revel, 31400 TOULOUSE lplanes@inbenta.com Résumé. Notre société développe un moteur

Plus en détail

Tâche : Comparer l étiquette de produits alimentaires afin de connaître leur valeur nutritive.

Tâche : Comparer l étiquette de produits alimentaires afin de connaître leur valeur nutritive. 13 aliments pour une bonne santé Valeurs nutritives Grande compétence A Rechercher et utiliser de l information Groupe de tâches A2 : Interpréter des documents Grande compétence C Comprendre et utiliser

Plus en détail

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI 1 Déroulement d un projet en DATA MINING, préparation et analyse des données Walid AYADI 2 Les étapes d un projet Choix du sujet - Définition des objectifs Inventaire des données existantes Collecte, nettoyage

Plus en détail

Multi-catégorisation de textes juridiques et retour de pertinence

Multi-catégorisation de textes juridiques et retour de pertinence Multi-catégorisation de textes juridiques et retour de pertinence Vincent Pisetta, Hakim Hacid et Djamel A. Zighed article paru dans G. Ritschard et C. Djeraba (eds), Extraction et gestion des Connaissances

Plus en détail

Chapitre 3. Les distributions à deux variables

Chapitre 3. Les distributions à deux variables Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles

Plus en détail

TEXT MINING Tour d Horizon

TEXT MINING Tour d Horizon TEXT MINING Tour d Horizon Media Campus WAN IFRA "Structurer, optimiser et valoriser son contenu éditorial : les outils de text mining" 24 novembre 2009, PARIS Philippe BONNY Cabinet de Conseil et d Etudes

Plus en détail

Nutrition et santé : suivez le guide

Nutrition et santé : suivez le guide Prévention ALIMENTATION PLAISIR ET ÉQUILIBRE ALIMENTAIRE Nutrition et santé : suivez le guide Nous savons tous que l alimentation joue un rôle essentiel pour conserver une bonne santé. En voici quelques

Plus en détail

1. Cliquez sur dans le coin supérieur gauche de l'écran 2. Sélectionnez la Langue de l'interface désirée 3. Cliquez sur

1. Cliquez sur dans le coin supérieur gauche de l'écran 2. Sélectionnez la Langue de l'interface désirée 3. Cliquez sur NOTIFICATIONS GUIDE Le module Notifications permet de retrouver des notifications en utilisant les champs spécifiques de la base de données du Registre central des notifications (RCN). Il comporte une

Plus en détail

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3 RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3 Pour construire un graphique : On lance l assistant graphique à l aide du menu Insérer è Diagramme en ayant sélectionné au préalable une cellule vide dans

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

Luc Grivel (*, **) Luc.Grivel@univ-paris1.fr

Luc Grivel (*, **) Luc.Grivel@univ-paris1.fr MAITRISER LE PROCESSUS DE TEXT MINING DANS LE CADRE D APPLICATIONS D INTELLIGENCE ECONOMIQUE, DE GESTION DE LA RELATION CLIENT OU DE GESTION DE CONNAISSANCES Luc Grivel (*, **) Luc.Grivel@univ-paris1.fr

Plus en détail

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr 1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data

Plus en détail

Application de la méthode QFD comme outil d'extraction des connaissances métier en conception intégrée

Application de la méthode QFD comme outil d'extraction des connaissances métier en conception intégrée Application de la méthode QFD comme outil d'extraction des connaissances métier en conception intégrée Estelle FREY, Samuel GOMES, Jean-Claude SAGOT Laboratoire Systèmes et Transports Equipe ERgonomie

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS Quatrième colloque hypermédias et apprentissages 275 BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS Anne-Olivia LE CORNEC, Jean-Marc FARINONE,

Plus en détail

Article de recherche théorique et article de recherche empirique : particularités 1

Article de recherche théorique et article de recherche empirique : particularités 1 La présentation d un article de recherche de type théorique 1 Article de recherche théorique et article de recherche empirique : particularités 1 Gilles Raîche, professeur Université du Québec à Montréal

Plus en détail

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE Jean-Paul Valois, Claude Mouret & Nicolas Pariset Total, 64018 Pau Cédex MOTS CLEFS : Analyse spatiale, ACP, Lissage, Loess PROBLEMATIQUE En analyse multivariée,

Plus en détail

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier

Dan Istrate. Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier Détection et reconnaissance des sons pour la surveillance médicale Dan Istrate le 16 décembre 2003 Directeur de thèse : Eric Castelli Co-Directeur : Laurent Besacier Thèse mené dans le cadre d une collaboration

Plus en détail

# let rec concat l1 l2 = match l1 with [] -> l2 x::l 1 -> x::(concat l 1 l2);; val concat : a list -> a list -> a list = <fun>

# let rec concat l1 l2 = match l1 with [] -> l2 x::l 1 -> x::(concat l 1 l2);; val concat : a list -> a list -> a list = <fun> 94 Programmation en OCaml 5.4.8. Concaténation de deux listes Définissons maintenant la fonction concat qui met bout à bout deux listes. Ainsi, si l1 et l2 sont deux listes quelconques, concat l1 l2 constitue

Plus en détail

THOT - Extraction de données et de schémas d un SGBD

THOT - Extraction de données et de schémas d un SGBD THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) pj@miningdb.com, benoit@miningdb.com Mots clefs : Fouille d information, base de données, système

Plus en détail

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57

Analyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57 Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation

Plus en détail

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des

Plus en détail

Charte PNNS Groupe CASINO Résultats

Charte PNNS Groupe CASINO Résultats Charte PNNS Groupe CASINO Résultats Calendrier En 2008, Casino a signé Les une engagements charte d engagements de la charte de progrès PNNS ont nutritionnel été appréhendés du PNNS. Elle comprenait 10

Plus en détail

N 334 - SIMON Anne-Catherine

N 334 - SIMON Anne-Catherine N 334 - SIMON Anne-Catherine RÉALISATION D UN CDROM/DVD CONTENANT DES DONNÉES DU LANGAGE ORAL ORGANISÉES EN PARCOURS DIDACTIQUES D INITIATION LINGUISTIQUE A PARTIR DES BASES DE DONNÉES VALIBEL Introduction

Plus en détail

ISO/IEC TR 90006. Première édition 2013-11-01. Numéro de référence ISO/IEC TR 90006:2013(F) ISO/IEC 2013

ISO/IEC TR 90006. Première édition 2013-11-01. Numéro de référence ISO/IEC TR 90006:2013(F) ISO/IEC 2013 RAPPORT TECHNIQUE ISO/IEC TR 90006 Première édition 2013-11-01 Technologies de l information Lignes directrices pour l application de l ISO 9001:2008 pour la gestion des services IT et son intégration

Plus en détail

LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS

LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS Annuaire Ouvrage publié en principe chaque année ou selon une périodicité proche de l'année, qui donne une liste de noms de personnes ou d'organismes

Plus en détail

Retour d expériences avec UML

Retour d expériences avec UML Retour d expériences avec UML UML pour les systèmes biologiques Marie-Hélène Moirez-Charron, UMR AGIR, équipe MAGE INRA Toulouse mailto:marie-helene.charron@toulouse.inra.fr PLAN Contexte de travail UML,

Plus en détail

Analyse dialectométrique des parlers berbères de Kabylie

Analyse dialectométrique des parlers berbères de Kabylie Saïd GUERRAB Analyse dialectométrique des parlers berbères de Kabylie Résumé de la thèse (pour affichage) Il est difficile de parler du berbère sans parler de la variation. Il y a d abord une variation

Plus en détail

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE

EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE ème Colloque National AIP PRIMECA La Plagne - 7- avril 7 EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE Bruno Agard Département de Mathématiques et de Génie Industriel, École

Plus en détail

Expériences de formalisation d un guide d annotation : vers l annotation agile assistée

Expériences de formalisation d un guide d annotation : vers l annotation agile assistée Expériences de formalisation d un guide d annotation : vers l annotation agile assistée Bruno Guillaume 1,2 Karën Fort 1,3 (1) LORIA 54500 Vandœuvre-lès-Nancy (2) Inria Nancy Grand-Est (3) Université de

Plus en détail

60 produits solidaires pour les familles

60 produits solidaires pour les familles 60 produits solidaires pour les familles Une mobilisation de tous les acteurs Éleveurs Maraîchers Produits frais Produits secs GMS Conseil Général agriculteurs Droguerie Enseignes Transformateurs Manufacturiers

Plus en détail

Recommandations pour la réalisation pratique et la diffusion des mémoires

Recommandations pour la réalisation pratique et la diffusion des mémoires Recommandations pour la réalisation pratique et la diffusion des mémoires Sommaire 1 Décrire le contenu du mémoire : le résumé et les mots-clés...2 1.1.1 Le résumé...2 1.1.2 Les mots-clés...2 2 Bibliographie...4

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Geoffrey Clive WILLIAMS. geoffrey.williams@univ-ubs.fr

Geoffrey Clive WILLIAMS. geoffrey.williams@univ-ubs.fr Geoffrey Clive WILLIAMS geoffrey.williams@univ-ubs.fr ACTIVITÉS DE RECHERCHE PROJETS DE RECHERCHE PCRD 6 INTUNE Coordinateur à l Université de Bretagne Sud pour le groupe corpus du projet FP6 Topics 7.1.1

Plus en détail

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux

Plus en détail

Intégration de la dimension sémantique dans les réseaux sociaux

Intégration de la dimension sémantique dans les réseaux sociaux Intégration de la dimension sémantique dans les réseaux sociaux Application : systèmes de recommandation Maria Malek LARIS-EISTI maria.malek@eisti.fr 1 Contexte : Recommandation dans les réseaux sociaux

Plus en détail

GRIVEL Luc, GUILLEMIN-LANNE Sylvie, COUPET Pascal, HUOT Charles {luc.grivel, sylvie.guillemin-lanne, pascal.coupet, charles.huot} @temis-group.

GRIVEL Luc, GUILLEMIN-LANNE Sylvie, COUPET Pascal, HUOT Charles {luc.grivel, sylvie.guillemin-lanne, pascal.coupet, charles.huot} @temis-group. Analyse en ligne de l information : une approche permettant l extraction d informations stratégiques basée sur la construction de composants de connaissance GRIVEL Luc, GUILLEMIN-LANNE Sylvie, COUPET Pascal,

Plus en détail

COMMENT REDIGER UN RAPPORT TECHNIQUE?

COMMENT REDIGER UN RAPPORT TECHNIQUE? COMMENT REDIGER UN RAPPORT TECHNIQUE? Christiaens Sébastien Université de Liège Département PROMETHEE Institut de Mécanique et de Génie Civil, Bât. B52 Chemin des Chevreuils, 1 B-4000 Liège, Belgique Janvier

Plus en détail

Disparités entre les cantons dans tous les domaines examinés

Disparités entre les cantons dans tous les domaines examinés Office fédéral de la statistique Bundesamt für Statistik Ufficio federale di statistica Uffizi federal da statistica Swiss Federal Statistical Office EMBARGO: 02.05.2005, 11:00 COMMUNIQUÉ DE PRESSE MEDIENMITTEILUNG

Plus en détail

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs!

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs! CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE Information importante : Ces conseils ne sont pas exhaustifs! Conseils généraux : Entre 25 et 60 pages (hormis références, annexes, résumé) Format d un

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot Chapitre 5 Arithmétique binaire L es codes sont manipulés au quotidien sans qu on s en rende compte, et leur compréhension est quasi instinctive. Le seul fait de lire fait appel au codage alphabétique,

Plus en détail

Relation entre deux variables : estimation de la corrélation linéaire

Relation entre deux variables : estimation de la corrélation linéaire CHAPITRE 3 Relation entre deux variables : estimation de la corrélation linéaire Parmi les analyses statistiques descriptives, l une d entre elles est particulièrement utilisée pour mettre en évidence

Plus en détail

Économétrie, causalité et analyse des politiques

Économétrie, causalité et analyse des politiques Économétrie, causalité et analyse des politiques Jean-Marie Dufour Université de Montréal October 2006 This work was supported by the Canada Research Chair Program (Chair in Econometrics, Université de

Plus en détail

Extraction automatique de modèles de processus pour l étude de la résolution collective de problèmes dans les communautés du logiciel libre

Extraction automatique de modèles de processus pour l étude de la résolution collective de problèmes dans les communautés du logiciel libre Extraction automatique de modèles de processus pour l étude de la résolution collective de problèmes dans les communautés du logiciel libre Gabriel Ripoche 1,2 gripoche@uiuc.edu Les Gasser 1 gasser@uiuc.edu

Plus en détail

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques Guide de recherche documentaire à l usage des doctorants Partie : Exploiter les bases de données académiques Sylvia Cheminel Dernière mise à jour : décembre 04 PANORAMA DES SOURCES DOCUMENTAIRES ACADEMIQUES...

Plus en détail

Chapitre 5 LE MODELE ENTITE - ASSOCIATION

Chapitre 5 LE MODELE ENTITE - ASSOCIATION Chapitre 5 LE MODELE ENTITE - ASSOCIATION 1 Introduction Conception d une base de données Domaine d application complexe : description abstraite des concepts indépendamment de leur implémentation sous

Plus en détail

Exploitation de hiérarchies sémantiques construites à partir du Trésor de la Langue Française informatisé (TLFi) pour la recherche d images

Exploitation de hiérarchies sémantiques construites à partir du Trésor de la Langue Française informatisé (TLFi) pour la recherche d images Exploitation de hiérarchies sémantiques construites à partir du Trésor de la Langue Française informatisé (TLFi) pour la recherche d images Inga Gheorghita 1,2,3 (1) Université de Lorraine, ATILF UMR 7118,

Plus en détail

Une méthode d apprentissage pour la composition de services web

Une méthode d apprentissage pour la composition de services web Une méthode d apprentissage pour la composition de services web Soufiene Lajmi * Chirine Ghedira ** Khaled Ghedira * * Laboratoire SOIE (ENSI) University of Manouba, Manouba 2010, Tunisia Soufiene.lajmi@ensi.rnu.tn,

Plus en détail

Séminaire «Maîtrise de l information scientifique» Exploitation de l information : optimiser sa gestion documentaire

Séminaire «Maîtrise de l information scientifique» Exploitation de l information : optimiser sa gestion documentaire Séminaire «Maîtrise de l information scientifique» Exploitation de l information : optimiser sa gestion documentaire Dernière mise à jour : 01/09/2013 - Auteur : Frédérique Flamerie Programme Exploitation

Plus en détail

Les Petites Toques PLAT CHAUD. STEAK HACHE PETIT MODELE Poids net pour une part : 80 g Ingrédients : Steak haché (origine Union Européenne).

Les Petites Toques PLAT CHAUD. STEAK HACHE PETIT MODELE Poids net pour une part : 80 g Ingrédients : Steak haché (origine Union Européenne). Les Petites Toques PLAT CHAUD STEAK HACHE PETIT MODELE Poids net pour une part : 80 g Ingrédients : Steak haché (origine Union Européenne). PEPITES DE PLET PANE Poids net pour une part : 115 g Ingrédients

Plus en détail

COMMENTAiRES/ DECISIONS

COMMENTAiRES/ DECISIONS Plate-forme d'échanges affichage environnemental des PGC Date : 2009-12-21 Assistante: Lydia GIPTEAU Ligne directe : + 33 (0)1 41 62 84 20 Lydia.gipteau@afnor.org GT Méthodologie Numéro du document: N

Plus en détail

Calc 2 Avancé. OpenOffice.org. Guide de formation avec exercices et cas pratiques. Philippe Moreau

Calc 2 Avancé. OpenOffice.org. Guide de formation avec exercices et cas pratiques. Philippe Moreau OpenOffice.org Calc 2 Avancé Guide de formation avec exercices et cas pratiques Philippe Moreau Tsoft et Groupe Eyrolles, 2007, ISBN : 2-212-12036-2, ISBN 13 : 978-2-212-12036-3 4 - Plages de données 4

Plus en détail

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte 1Les bases : vos objectifs 2 Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Plus en détail

Introduction à la méthodologie de la recherche

Introduction à la méthodologie de la recherche MASTER DE RECHERCHE Relations Économiques Internationales 2006-2007 Introduction à la méthodologie de la recherche geraldine.kutas@sciences-po.org Les Etapes de la Recherche Les étapes de la démarche Etape

Plus en détail

Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons

Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons Amélioration de la fiabilité d inspection en CND grâce à la fusion d information : applications en rayons X et ultrasons Ahmad OSMAN 1a, Valérie KAFTANDJIAN b, Ulf HASSLER a a Fraunhofer Development Center

Plus en détail

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL J. TICHON(1) (2), J.-M. TOULOTTE(1), G. TREHOU (1), H. DE ROP (2) 1. INTRODUCTION Notre objectif est de réaliser des systèmes de communication

Plus en détail

A quels élèves profite l approche par les compétences de base? Etude de cas à Djibouti

A quels élèves profite l approche par les compétences de base? Etude de cas à Djibouti A quels élèves profite l approche par les compétences de base? Etude de cas à Djibouti Hamid Mohamed Aden, Directeur du CRIPEN, Djibouti Xavier Roegiers, Professeur à l Université de Louvain, Directeur

Plus en détail

MON LAIT ISSU DE VACHES NOURRIES AUX OGM?

MON LAIT ISSU DE VACHES NOURRIES AUX OGM? MON LAIT ISSU DE VACHES NOURRIES AUX OGM? L U X E M B O U R G octobre 2005 Ë Les OGM, nos animaux d élevage et nous : 20 millions de tonnes d OGM sont importées chaque année en Europe. 80% de celles-ci

Plus en détail

Organiser le disque dur Dossiers Fichiers

Organiser le disque dur Dossiers Fichiers Ce document contient des éléments empruntés aux pages d aide de Microsoft Organiser le disque dur Dossiers Fichiers Généralités La connaissance de la logique d organisation des données sur le disque dur

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

3. Hypothèses 4. Méthodologie

3. Hypothèses 4. Méthodologie Céline Paganelli Evelyne Mounier GRESEC, Université Stendhal Grenoble III Institut de la Communication et des Médias 11, Avenue du 8 mai 1945 38130 Échirolles Influence des variables métier et expertise

Plus en détail

Influence de l alimentation-santé sur les tendances de marché. Paul Paquin, Ph.D. INAF, Université Laval, Québec

Influence de l alimentation-santé sur les tendances de marché. Paul Paquin, Ph.D. INAF, Université Laval, Québec Influence de l alimentation-santé sur les tendances de marché Paul Paquin, Ph.D. INAF, Université Laval, Québec «Les tendances clés» «TENDANCE» Une tendance qui démontre une véritable opportunité de croissance;

Plus en détail

E-Gen : traitement automatique des offres d emploi

E-Gen : traitement automatique des offres d emploi 591 E-Gen : traitement automatique des offres d emploi Rémy Kessler 1, 2, Marc El-Bèze 1 1 Laboratoire Informatique d Avignon, BP 1228 F-84911 Avignon Cedex 9 FRANCE 2 AKTOR Interactive Parc Technologique

Plus en détail

Règles d élaboration d une évaluation par Questions à Choix Multiple Joël LECHEVALLIER 1

Règles d élaboration d une évaluation par Questions à Choix Multiple Joël LECHEVALLIER 1 Règles d élaboration d une évaluation par Questions à Choix Multiple Joël LECHEVALLIER 1 Préambule Les questions à choix multiple (QCM) sont une méthode à la fois fiable, objective, valide et rentable

Plus en détail

Problématiques de recherche. Figure Research Agenda for service-oriented computing

Problématiques de recherche. Figure Research Agenda for service-oriented computing Problématiques de recherche 90 Figure Research Agenda for service-oriented computing Conférences dans le domaine ICWS (International Conference on Web Services) Web services specifications and enhancements

Plus en détail

La construction de composants de connaissance pour l extraction et le filtrage de l information sur les réseaux

La construction de composants de connaissance pour l extraction et le filtrage de l information sur les réseaux La construction de composants de connaissance pour l extraction et le filtrage de l information sur les réseaux une approche industrielle Grivel Luc, Guillemin-Lanne Sylvie, Lautier Christian, Mari Alda

Plus en détail

AGROBASE : un système de gestion de données expérimentales

AGROBASE : un système de gestion de données expérimentales AGROBASE : un système de gestion de données expérimentales Daniel Wallach, Jean-Pierre RELLIER To cite this version: Daniel Wallach, Jean-Pierre RELLIER. AGROBASE : un système de gestion de données expérimentales.

Plus en détail

Recherche bibliographique

Recherche bibliographique Séminaire «Maîtrise de l information scientifique» Recherche bibliographique Dernière mise à jour : 07/01/2015 - Auteur : Frédérique Flamerie Recherche bibliographique : méthode & outils La recherche bibliographique

Plus en détail

Infolettre #18 : Les graphiques avec Excel 2010

Infolettre #18 : Les graphiques avec Excel 2010 Infolettre #18 : Les graphiques avec Excel 2010 Table des matières Introduction... 1 Hourra! Le retour du double-clic... 1 Modifier le graphique... 4 Onglet Création... 4 L onglet Disposition... 7 Onglet

Plus en détail

Ingénierie et gestion des connaissances

Ingénierie et gestion des connaissances Master Web Intelligence ICM Option Informatique Ingénierie et gestion des connaissances Philippe BEAUNE Philippe.Beaune@emse.fr 18 novembre 2008 Passer en revue quelques idées fondatrices de l ingénierie

Plus en détail

! Text Encoding Initiative

! Text Encoding Initiative Format XML: suite! le contenu d un élément est la concaténation de! texte! et d éléments (imbrication)! => structure arborescente! pas de chevauchement de balises! => exemple : une analyse syntagmatique

Plus en détail

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

Introduction aux concepts d ez Publish

Introduction aux concepts d ez Publish Introduction aux concepts d ez Publish Tutoriel rédigé par Bergfrid Skaara. Traduit de l Anglais par Benjamin Lemoine Mercredi 30 Janvier 2008 Sommaire Concepts d ez Publish... 3 Système de Gestion de

Plus en détail

Évaluation de G-LexAr pour la traduction automatique statistique

Évaluation de G-LexAr pour la traduction automatique statistique TALN 2011, Montpellier, 27 juin 1 er juillet 2011 Évaluation de G-LexAr pour la traduction automatique statistique Wigdan Mekki (1), Julien Gosme (1), Fathi Debili (2), Yves Lepage (3), Nadine Lucas (1)

Plus en détail

Désambiguïsation lexicale par propagation de mesures sémantiques locales par algorithmes à colonies de fourmis

Désambiguïsation lexicale par propagation de mesures sémantiques locales par algorithmes à colonies de fourmis TALN 2011, Montpellier, 27 juin 1 er juillet 2011 Désambiguïsation lexicale par propagation de mesures sémantiques locales par algorithmes à colonies de fourmis Didier Schwab, Jérôme Goulian, Nathan Guillaume

Plus en détail