Extraction automatique de terminologie à partir de libellés textuels courts

Dimension: px
Commencer à balayer dès la page:

Download "Extraction automatique de terminologie à partir de libellés textuels courts"

Transcription

1 Extraction automatique de terminologie à partir de libellés textuels courts Jean-Claude Meilland ismart Le Mercure A, 565 Rue Berthelot Aix en Provence Cedex 3 (France) Patrice Bellot Université d Avignon (LIA CNRS) Agroparc BP Avignon Cedex 9 (France) Résumé : Cet article concerne l extraction automatique de terminologie appliquée à des libellés textuels courts issus de la grande distribution. Elle s appuie sur les données du projet industriel SmartyCart. Nous montrons que certains critères d associations de termes peu utilisés dans des textes longs sont particulièrement adaptés pour des libellés courts et que la seule fréquence d apparition comme critère de sélection donne de mauvais résultats. Mots-clés : extraction terminologique, coefficients d associations, libellés commerciaux, TALN. 1. Introduction L avènement d Internet a créé un besoin accru d accès et de traitement de l information. En effet, outre la recherche d informations, on voit émerger de nombreuses problématiques de structuration et de classification d informations issues d applications fédératrices de données (e.g. les portails comme Free affichent la météo ou les programmes de télévision issus d autres sites spécialisés). Par applications fédératrices de données nous entendons les applications qui recherchent, comprennent et utilisent des informations décrites en langage naturel afin de fournir un service basé sur celles-ci ou plus simplement de les diffuser d une autre manière (structurées et/ou classées autrement). Cependant, la diversité des domaines (commercial, social, industriel, littéraire, journalistique, technique/spécialisé) et surtout les caractéristiques des textes (longs, télégraphiques) rendent le Traitement Automatique du Langage Naturel (TALN) particulièrement complexe. Depuis de nombreuses années certains travaux ont permis la constitution de bases terminologiques dans des domaines de référence. Dans le cadre de nos travaux, nous souhaitons proposer une étude et une méthode d extraction automatique de terminologie sur des textes dont la nature est très présente sur Internet : les libellés courts (dépêches journalistiques, petites annonces, descriptions de produits commerciaux, publicités, forums de discussion). Plus spécifiquement, notre étude est appliquée à des libellés courts décrivant des produits commerciaux issus de la grande distribution. Nous nous appuyons sur les données du projet industriel SmartyCart, elles-mêmes obtenues à partir des différents sites de magasins en ligne (www.ooshop.fr, Le projet SmartyCart est soutenu par la société ismart. Il concerne des applications consuméristes d aide à la consommation dans le secteur de la grande distribution. Les libellés courts ont une sémantique particulièrement riche dans laquelle il n existe que relativement peu d ambiguïtés pour un lecteur humain qui doit toutefois utiliser le contexte pour les comprendre. Dans l exemple suivant, le terme lait pris isolément est particulièrement ambigu : «Lait hydratant Bodytonic + Shampooing cuir chevelu irrité - Neutralia - + le lait nutritif Bodycocoon gratuit» et «Lait frais entier GrandLait - Candia - la bouteille de 1l». À partir d un corpus de libellés catégorisés, nous tentons de définir la terminologie de chaque catégorie afin d être, à terme, capable de classer un nouveau produit et de structurer son libellé (avec notamment la reconnaissance automatique du type d emballage, du prix, de la quantité ou du parfum pour une glace et du pourcentage de matière grasse pour un produit laitier). Pour cela nous mettons en perspective les statistiques relatives à un terme dans une catégorie avec celles de ce même terme dans les autres catégories et dans l ensemble du corpus. Nous verrons que certains critères peu utilisés dans des textes longs (coefficient d Ochiai, coefficient de proximité simple) sont particulièrement adaptés pour notre application. Contrairement à de nombreux résultats en extraction automatique de terminologie voir par exemple (Bourigault & Jacquemin 2000), nous montrons que la seule fréquence d apparition des termes comme critère de sélection donne de mauvais résultats dans les libellés courts. Nos travaux se basent principalement sur une étude des collocations (Manning & Schütze 1999) et des critères d associations (Daille 1994). Dans la section 2, nous énonçons quelques uns des principes fondamentaux de l extraction terminologique. Ensuite (section 3), nous présentons en détail l application visée par le présent travail et nous continuons (section 4) en détaillant les résultats obtenus. Le principal intérêt scientifique de cette étude est de comparer à quel point les résultats des études en extraction de terminologie couramment effectuées sur des textes «longs» se retrouvent sur des libellés courts. 1

2 2. Principes fondamentaux Nous ne discutons pas ici de la notion de terme mais retenons la définition que l on peut trouver dans (Dubois 1994) indiquant qu un terme est une unité signifiante constituée d un mot (terme simple) ou de plusieurs mots (terme complexe), qui désigne une notion de façon univoque à l intérieur d un domaine. Ainsi, le terme s oppose au(x) mot(s) par sa référence inhérente à un domaine. En ce qui concerne notre étude, la classification automatique de libellés textuels commerciaux courts, les «domaines» sont les différentes catégories de produits que l on peut acquérir dans un cybermarché. Si l adéquation terme/concept/domaine peut s avérer difficile à établir lorsque l analyse porte sur des textes classiques (articles journalistiques, monographies), elle est dans notre cas plus rapidement identifiable : les libellés sont écrits de la manière la plus concise et la moins ambiguë possible pour le lecteur (en l occurrence un acheteur potentiel) et ne contiennent aucune tournure complexe (paraphrases, anaphores). Cela ne signifie pas pour autant que le problème consistant à attribuer une étiquette à un libellé (une catégorie à un produit) soit simple, comme nous le verrons par la suite sur des exemples. Il l est tout de même suffisamment pour que nous puissions envisager l exploitation de l analyse terminologique dans un cadre commercial avec une supervision humaine restreinte. Dans de très nombreux cas, l extraction terminologique s intéresse essentiellement à l identification de syntagmes nominaux (substantifs isolés pour les termes simples, schémas de type «N de N» ou «N à N» pour les termes complexes où N désigne un nom). En ce qui nous concerne, de nombreux types de structures syntaxiques sont intéressants. L extraction du terme complexe lait écrémé (N ADJ) permet à la fois l identification d un type de produit particulier (puisque de nombreux libellés débutent par ces deux mots) mais aussi la désambiguïsation du mot lait (nous sommes en présence d un lait à boire et non pas d un lait de beauté) et donc la classification du produit. Notons qu il est en outre très difficile de déterminer des règles décrivant des structures grammaticales figées sur des libellés (cela pourrait toutefois être envisageable en distinguant chaque site de commerce électronique ciblé, chaque site ayant sa propre manière de décrire les produits) et, par extension, de ne retenir comme candidat terme que les mots correspondants à telle ou telle catégorie syntaxique. Il est d ailleurs intéressant de constater, même si c était prévisible, que les étiqueteurs syntaxiques souvent utilisés tels le TreeTagger (Schmidt 1994), sont inopérants sur les libellés. A cause de cela, il nous est difficile d utiliser des méthodes hybrides (combinant des informations linguistiques et statistiques) pour l extraction des termes caractérisant les catégories comme cela est réalisé par exemple par (Daille et al. 1994; Enguehard & Pantera 1994 ; Frantzi 1998, Maynard & Ananiadou 1999). Nous donnons dans la sous-section suivante un rapide aperçu des approches couramment employées pour l extraction terminologique. Pour une étude plus complète des méthodes et outils développés ces dernières années, le lecteur pourra se référer par exemple à (Bourigault & Jacquemin 2000) ainsi qu à (Séguéla 2001) Différentes approches pour l extraction terminologique Les méthodes automatiques d extraction terminologique utilisant principalement des informations linguistiques sont jusqu ici relativement peu nombreuses (Maynard & Ananiadou 1999). Citons toutefois celles qui sont basées sur les informations syntaxiques des termes candidats avec par exemple les outils logiciels LEXER (Bourigault 1992 ; Bourigault 1994) ou bien SEXTANT (Grefenstette 1994) ou, conjointement, sur les informations syntaxiques et morphologiques (Ananiadou 1988). L extraction de relations à partir de critères statistiques part de l hypothèse que de le sens d une unité terminologique est étroitement lié avec la distribution de son utilisation en contexte. De nombreux travaux sur l étude des co-occurrences sont venus appuyer cette hypothèse voir par exemple (Smadja 1993). Malheureusement, les méthodes essentiellement statistiques ont tendance à rapporter des relations conceptuelles de nature différente qu il est difficile de dissocier sans recours à un expert du domaine (Séguéla 2001). L extraction terminologique basée uniquement sur des critères statistiques se heurte à une difficulté supplémentaire liée aux différentes variantes terminologiques possibles pour exprimer un concept ou une notion. La faible dimension du corpus sur lequel sont calculés les critères d association et la variabilité des termes utilisés peuvent masquer certaines associations. L emploi de méthodes de reconnaissance de variations terminologiques pourrait remédier à ce problème (Jacquemin 1997) et aider à obtenir une meilleure extraction. Une autre approche, abondamment décrite dans (Séguela 2001) consiste à déterminer quelles sont les formules linguistiques prévisibles et récurrentes exprimant les relations sémantiques observables d un texte. Ces formules sont autant de marqueurs déposées dans le texte servant à extraire ensuite automatiquement d autres relations voir (Hearst 1992 ; Riloff 1996 ; Morin 1999 ; Faure & Poibault 2000) pour ne citer qu eux. 2

3 2.2. Approches statistiques et approches hybrides La plupart des modèles statistiques se résument au calcul de valeurs numériques telles que les fréquences, les critères d association ou de diversité par exemple la diversité de Shannon et l information mutuelle (Hamming 1980) et les mesures de distance voir par exemple (Oakes 1998). Parmi les critères d association, nous pouvons citer ceux que l on trouve dans (Daille 1994) tous basés sur quatre valeurs associées à un couple de mots/lemmes : le nombre d occurrences du couple, le nombre d occurrences de tous les couples où le premier élément (resp. le deuxième) du couple analysé est présent mais pas le second (resp. le premier) et le nombre d occurrences de tous les couples où ni le premier ni le second élément du couple candidat n est présent (on parle de tableau de contingence, voir section 4.2). Parmi ces critères : le coefficient de proximité simple, de Kulczinsky, d Ochiai, de Fager et de McGowan, de Yule, de Mc Connoughly, du F 2, le score d association au cube et le coefficient de vraisemblance (loglike) introduit par Dunning (1993). Pour une comparaison de ces différents critères et une étude bibliographique étendue de leur application à la linguistique de corpus, le lecteur peut se reporter à (Chung & Lee 2001). Nous renvoyons également aux travaux de B. Daille (2002). Également parmi les approches statistiques, celle de Frantzi (1998) consiste à retenir comme termes candidats ceux qui ont la plus grande C-value, valeur basée sur la fréquence d apparition du mot et sur sa longueur. Maynard et Ananiadou (1999) combinent cette valeur avec un facteur contextuel correspondant à la prise en compte de la fréquence d apparition des noms, adjectifs et verbes apparaissant dans le contexte du terme candidat (le contexte étant défini par l intermédiaire d une fenêtre autour du candidat). Parmi les éléments du contexte ceux qui sont eux-mêmes des termes candidats sont pris en compte différemment de ceux qui ne sont que de simples mots. Une distance entre les termes du contexte et le terme candidat intervient dans le calcul de la «valeur terminologique» finale du terme candidat à partir d un réseau sémantique. Les expériences décrites dans (Maynard & Ananiadou 1999) concernent le domaine médical et emploient le réseau sémantique UMLS (NLM 1997). La tendance actuelle consiste finalement à combiner des approches linguistiques avec des approches statistiques. Généralement, la partie essentielle de la méthode d extraction est statistique, la partie «linguistique» consistant à filtrer les termes en fonction de leur catégorie syntaxique. L utilisation d informations sémantiques est naturellement envisagée même si elle est souvent difficile à mettre en œuvre. Dans le cadre de la désambiguisation d un mot (par opposition à la désambiguisation d un terme), nous pouvons citer par exemple les travaux de Lesk (1986) qui utilise un dictionnaire en ligne afin de comparer la définition d un terme candidat avec les mots apparaissant dans le contexte de ce terme dans le corpus analysé. D autres approches, citées dans (Maynard & Ananiadou 1999), concernent le calcul de distances entre deux mots à partir de leurs relations dans un thésaurus (Smeaton 1996; Yarowsky 1992). E. Noleau (1998) a employé dans ses travaux en recherche documentaire des ressources sémantiques propres à un domaine pour valider (ou invalider) des termes retenus lors d une première extraction (enrichissement automatique des ressources après validation ou invalidation). Les techniques de désambiguisation d un terme (on rappelle qu un terme est souvent un composé de plusieurs mots dont le sens est dépendant d un domaine) s inspirent largement des approches que l on vient de citer. Elles permettent de distinguer différents cas d utilisation d un terme candidat. 3. Une problématique industrielle En partant d un corpus catégorisé issu des sites de grande distribution, nous souhaitons étiqueter chaque catégorie. Dans le cadre du projet SmartyCart nous avons défini manuellement la liste des catégories et avons utilisé les moteurs de recherche des sites de grande distribution en ligne afin d'obtenir les libellés des produits de chaque catégorie. Après avoir effectué un filtrage manuel, nous appliquons notre méthode d extraction automatique afin de définir un pseudo-modèle de langage de chaque catégorie. Celui-ci nous permettra par la suite de classer et de structurer les produits automatiquement. Les figures 1, 2 et 3 décrivent la méthode de collecte des données initiales. 3

4 Figure 1 - Site OOShop SmartyCart utilise les moteurs de recherche des sites de grande distribution (le site de Carrefour OOShop pour la figure 1) afin de constituer le corpus catégorisé. Un filtrage manuel supprime le bruit (sur la figure 1, le lait frais demi-écrémé n appartient pas à la catégorie «lait écrémé» est n est donc pas retenu). Figure 2 - Corpus catégorisé Une fois les produits catégorisés (figure 2) et filtrés manuellement, on utilise une méthode ad-hoc afin d extraire les termes représentatifs de chaque catégorie et si possible de les étiqueter (figure 3). Catégorie Lait écrémé Noms Lait, Silhouette Marques Candia, Lactel, Danone, Carrefour Quantités Emballages Brique, Bouteille Unités Litre Adjectifs (Qualifiants) Ecrémé, Vitaminé, Bébé Figure 3 Objectif final : étiquetage des termes représentatifs des catégories Un tel étiquetage permettra de constituer un corpus d'apprentissage pour des algorithmes de classification et de structuration de produits à grande échelle sur lesquels s appuieront des applications gratuites à forte valeur ajoutée pour les utilisateurs (un moteur de recherche par exemple). 4. La méthode d extraction de terminologie dans des libellés courts À partir d un corpus de départ catégorisé, nous souhaitons extraire les termes les plus représentatifs de chaque catégorie. Notre approche consiste à calculer la variance et certains critères d associations des termes présents dans les libellés aussi bien dans chaque catégorie que dans l ensemble du corpus (réunion de toutes les catégories). Comme cela a été dit en section 2, quatre types de mesures sont communément utilisés pour l extraction terminologique : les fréquences, les critères d association, la diversité et les mesures de distance. Dans un texte long, la fréquence d un couple constitue un bon indicateur de son caractère terminologique. Dans des libellés courts d un même domaine d application on observe le phénomène inverse. En effet la majorité des couples ont 4

5 une fréquence similaire et relativement faible. La figure 4 permet de constater qu il n apparaît pas de seuils évidents pour la catégorie «margarine» (le corpus est constitué de 718 libellés répartis en 42 catégories) : la distribution des fréquences normalisées est similaire sur les catégories et sur l ensemble du corpus Fréquence Catégorie Fréquence Corpus Figure 4 - Fréquences normalisées pour la catégorie «Margarine» (abscisses : les couples de mots ; ordonnées : fréquence normalisée) Nous avons donc centré notre étude sur les mesures de distances et les critères d associations. La liste des couples de mots candidats est constituée en se basant sur une fenêtre maximale et en prenant uniquement les mots d au moins deux caractères. Nous évaluons chaque critère dans une catégorie et dans le corpus entier. Pour cela nous utilisons une évaluation graphique sur des valeurs normalisées et triées. Ainsi nous retenons un critère si sa courbe met en évidence des seuils (fortes variations dans la pente). Un critère dont la courbe ne connaît pas de variations importantes n est pas retenu Étude des collocations (mesure de variance) Nous reprenons la définition de la variance citée dans (Manning & Schütze 1999). Pour cela on calcule la moyenne des distances séparant les deux mots d un couple de termes dans sa catégorie. La table ci-contre contient trois libellés illustrant cette définition. Cafe Regal Jacques Vabre, moulu, melange classique, paquet 250 g, 4,80 euros le kg 1.20 euros Cafe Tradition Maison du Cafe, moulu, melange classique, paquet 250 g, 4,64 euros le kg 1.16 euros Cafe melange Hediard, moulu, boite en fer 250 g, 27,44 euros le kg 6.86 euros Pour le couple (café, mélange) la distance moyenne est de 1/3(4+5+1)=3,33 mots. Ensuite la variances 2, pour un couple donné, est calculée de la manière suivante : s 2 = n  i=1 ( d i - m) 2 où n (n > 1) est le nombre de fois où le couple apparaît (dans la catégorie si l on calcule sa variance dans la catégorie et dans le corpus entier sinon), d i la distance en nombre de mots séparant les deux mots du couple dans le i-ème libellé où il apparaît et µ la distance moyenne séparant les deux mots du couple. La figure 5 correspond à l évaluation de la variance pour la catégorie «Margarine» (l'axe des ordonnées représente la variance normalisée tandis que l'axe des abscisses représente les couples de mots). Trois types de couples sont répertoriés : n -1 les couples ayant une variance élevée dans le corpus et faible dans la catégorie : 15% des couples ; les couples ayant une variance identique dans le corpus et dans la catégorie : 60% des couples ; les couples ayant une variance faible dans la corpus et élevé dans la catégorie : 15% des couples 5

6 matiere or grasse or activ or matiere fin matiere planta matiere grasse tartiner fin fruit or activ grasse cuire fin tartiner allegee cuire planta activ matiere cuire allegee allegee planta fruit steak tartine or pro tartine pro cuisson pince cadeau or steak matiere steak margarine or tartine fruit matiere cuisson margarine agriculture cuisson steak grasse pince activ steak cuisson pince fruit cadeau cuisson or demi sel allegee demi tartiner nature sel hubert grasse demi tartiner sel matiere demi matiere sel allegee hubert tartiner hubert matiere hubert µ?(couple, catégorie) µ?(couple, corpus) µ?(couple, catégorie) - µ?(couple, corpus) Figure 5 Valeurs de variance pour la catégorie «Margarine» La variance paraît être une mesure intéressante dans la catégorie Margarine car elle met en évidence plusieurs seuils. Voici un extrait des résultats obtenus si l on retient cette mesure : Couple Li,Lj Variance catégorie Variance corpus Ecart (Var.Corp - Vat.Cat) matiere hubert 0, , , grasse hubert 0, , , agriculture bio 0 0, , cuire nature 0, , , demi sel 0, , , allegee matiere fruit pince planta fin 0, , , tartiner allegee 0, , , grasse allegee 0, , , matiere grasse 0, , , grasse cuire 0, , , grasse fin 0, , , matiere cuire 0, , , On distingue des valeurs seuils de couples significatifs : les couples ayant une variance plus faible dans la catégorie que dans le corpus (agriculture bio, demi-sel) qui ne sont pas représentatifs de la catégorie; les couples ayant une variance plus grande dans la catégorie que dans le corpus (planta fin, tartiner allégée). Lorsque la variance est trop élevée il s agit généralement de bruit. Lorsque elle est nulle et qu il n y a pas d écart entre la variance de la catégorie et du corpus on ne peut pas tirer de conclusion. Ce critère a plusieurs inconvénients. En effet, il ne nous permet pas d extraire les couples significatifs dans le corpus (par exemple «matière, allégée»). Par ailleurs on constate souvent la présence de couples de mots sémantiquement opposés dans les termes retenus par exemple : (cuire, nature) et (grasse, allégée). Cette mesure ne nous permet pas d extraire les termes représentatifs d une catégorie. Il faut probablement la combiner à d autres critères. 6

7 4.2. Étude des critères d associations «D un point de vue statistique, les deux lemmes qui forment un couple sont considérés comme deux variables qualitatives dont il s agit de tester la liaison.», (Daille 1994 : 116). La matrice de contingence suivante est à la base des critères d association testés : Lj Lj avec j j Li a b Li avec i i c d a = le nombre d occurrences du couple de mots (Li, Lj), b = le nombre d occurrences des couples où Li est le premier élément d un couple et Lj n est pas le second, c = le nombre d occurrences des couples où Lj est le second élément du couple et Li n est pas le premier, d = le nombre d occurrences de couples où ni Li ni Lj n apparaissent. La somme a + b + c + d est notée N. On calcule ensuite les critères suivants : Coefficient de proximité simple SMC (Simple Matching Coefficient) a + b SMC = a + b + c + d L évaluation graphique de cette mesure (figure 6) nous donne des résultats particulièrement intéressants dans la catégorie «margarine» (l'axe des ordonnés représente le coefficient SMC des différents couples tandis que l'axe des abscisses représente les couples eux-mêmes) : SMC(Couple,Catégorie) SMC(Couple,Corpus) grasse fleurier grasse fruit grasse demi allegee sel cuire fleurier cuire or allegee fin grasse st matiere doux allegee st matiere st grasse doux tartiner doux grasse fin demi sel tartiner st tartiner fruit tartiner fin cuisson fruit matiere cuire matiere fin activ pince tartine or matiere or tartiner demi margarine fruit grasse tartiner pro tartine margarine agriculture matiere cuisson matiere planta grasse tartine allegee fruit sel hubert matiere allegee margarine allegee tournesol bio cuire fruit fruit steak allegee or fruit pince allegee matiere margarine tournesol Figure 6 - SMC catégorie Margarine Ce critère est retenu car il décrit une courbe «quasi-parfaite» (valeur seuil évidente). Voici un extrait des résultats : COUPLES Li, Lj SMC.CAT SMC.CORP st hubert 1 0 fruit or 1 0 agriculture bio 1 0 demi sel 1 0 pro activ 1 0 7

8 planta fin 1 0 tournesol bio 1 0 cuisson cadeau 1 0 cuisson steak 1 1 matiere grasse 0 0 grasse tartiner 0 0 On constate que les couples de mots extraits sont très pertinents (il s agit des marques ou des caractéristiques de produits propres à la catégorie margarine). Par ailleurs les valeurs du critère SMC sur le corpus (colonne SMC.CORP) constituent même un filtre anti-bruit («cuisson, steak»). Les couples qui ne sont pas significatifs de la catégorie («matière, grasse») et («grasse, tartiner») ne sont pas extraits. Coefficient d Ochiai : OCH = a ( a + b) a + c ( ) Figure 7 - Coefficient d'ochiai pour la catégorie "Margarine" Ce coefficient donne des résultats plus fins que le SMC (l'axe des ordonnés de la figure 7 représente les valeurs du coefficient d Ochiai tandis que l'axe des abscisses représente les couples). On observe le même comportement qu avec le coefficient SMC pour les couples très significatifs de la catégorie. Cependant l OCH est beaucoup plus fin pour les autres couples. Voici un extrait des résultats obtenus : COUPLES Li, Lj SMC.CAT OCH.CAT OCH.CORP st hubert 1 1 0, fruit or 1 1 0, agriculture bio 1 1 0, demi sel 1 1 0, pro activ 1 1 0, planta fin 1 1 0, tournesol bio 1 1 0, bio bio cuisson cadeau 1 1 0,5 cuisson pince tournesol agriculture 1 1 0,5 matiere grasse 0 0, , grasse tartiner 0 0, , matiere tartiner 0 0, , matiere allegee 0 0, , margarine allegee 0 0, ,

9 Les mesures suivantes ont également été évaluées mais n ont pas été retenues faute de résultats suffisants : coefficient de Kulzcinsky, coefficient de Fager et de McGowen, coefficient de Yule, coefficient de Mc Connoughy, coefficent du Phi 2, le score d association IM et IM au cube et enfin le coefficient de vraisemblance Loglike tels qu ils sont définis dans (Daille 1994) et dans (Daille et al. 1998). Le tableau suivant présente, pour quelques catégories, la terminologie finalement retenue : Catégorie Termes Margarine (st, hubert), (fruit, or), (agriculture, bio), (demi, sel)... Viande hachée fraiche (pur, boeuf), (pur, porc), (viande, hachée),... Eau gazeuse (citron, vert), (st, yorre), (eau, minérale),... Sel (sel, marin), (sel, iodé), (gros, sel), (sel, fin),... Chips (chips, grillé), (goût, jambon), (goût, tomate),... Produit pour feu (allume, feu), (cube cheminé), (multi, usage), Conclusions et perspectives L utilisation croissante des libellés courts sur Internet dans des domaines d applications très variés (culturel, scientifique, social) nous ont poussé à étudier les méthodes existantes d extraction automatique de terminologie sur les libellés courts. L existence d un objectif précis et fonctionnel ainsi que l obligation de résultat liée au projet industriel SmartyCart nous a déjà permis d obtenir des résultats concrets. Une première conclusion montre que la fréquence normalisée n est pas une mesure suffisamment fine pour être retenue. En effet les termes de notre corpus ont des fréquences d'apparition souvent similaires. Par contre le coefficient de proximité simple SMC et le coefficient d Ochiai donnent des résultats particulièrement satisfaisants. Cependant il nous faut maintenant valider la stabilité de ces critères à travers la totalité des catégories de l application cible et sur un corpus complet. Nous entamons actuellement une validation de ces premiers résultats sur un corpus de produits répartis dans 750 catégories. Nous souhaitons ultérieurement évaluer notre méthode sur des libellés courts issus d autres domaines d application que les produits de grande distribution. Nous avons prévu de travailler sur les petites annonces, les dépêches journalistiques et les forums de discussion. Nous tenterons d étudier la stabilité de nos résultats à travers ces différents domaines. Les résultats actuels tendent à confirmer une nouvelle fois qu il est très difficile de définir une méthode d extraction automatique de terminologie générale, sans objectif fonctionnel précis. La nature du corpus ainsi que la finalité de l'extraction sont autant de paramètres essentiels. 6. Bibliographie Ananiadou S., 1998, Towards a methodology for automatic term recognition, PhD Thesis, Université de Manchester, UK. Bourigault D., 1992, «Surface grammatical analysis for the extraction of terminological noun phrases», in Proceedings of COLING, p Bourigault D., 1994, LEXTER, un Logiciel d EXtraction de TERminologie. Application à l acquisition de connaissances à partir de textes, Thèse de doctorat, EHESS. Bourigault D., Jacquemin C., 2000, «Construction de ressources terminologiques», Ingénierie des Langues, éd. J.-M. Pierrel, Hermès Sciences, p Chung Y.M., Lee J.Y., 2001, «A Corpus-Based Approach to Comparative Evaluation of Statistical Term Association Measures», Journal of the American Society for Information Science and Technology, 52(4), p Daille B., 1994, Approche Mixte pour l'extraction Automatique de Terminologie, Thèse de Doctorat. Daille B., 2002, Découvertes linguistiques en corpus, Habilitation à diriger des recherches, Université de Nantes. Daille B., Gaussier E., Langé J.-M., 1994, «Towards automatic extraction of monolingual and bilingual terminology», in Proceedings of COLING, p Daille B., Gaussier E., Langé J.-M., 1998, «An Evaluation of Statistical Scores for Word Association», The Tbilisi Symposium on Logic, Language and Computation - Selected papers, CSLI publications, p Dubois J., Guespin L., Giacomo M., Marcellesi C., Marcellesi J.-B., Mével J.-P., 1994, Dictionnaire de linguistique et des sciences du langage. Collection Trésors du Français, Larousse, Paris. Dunning T., 1993, «Accurate Methods for the Statistics of Surprise and Coincidence», Computational Linguistics, vol. 19, n 1. 9

10 Enguehard C., Pantera L., 1994, «Automatic natural acquisition of terminology», Journal of Quantitative Linguistics, 2(1), p Faure D., Poibeault D., 2000, «Extraction d information utilisant INTEX et des connaissances sémantiques apprises par ASIUM, premières expérimentations», Actes du 12è congrès Reconnaissance des Formes et Intelligence Artificielle RFIA 2000, Paris, France, p Frantzi K.T., 1998, Automatic Recognition of Multi-Word Terms, PhD Thesis, Manchester Metropolitan University, UK. Grefenstette G., 1994, Explorations in Automatic Thesaurus Discovery, Kluwer Academic Publisher. Hamming R.W., 1980, Coding and Information Theory, Englewood Cliffs, NJ : Prentice-Hall. Hearst M., 1992, «Automatic Acquisition of Hyponyms from Large Text Corpora», Proceedings of the 13th Internation Conference on Computational Linguistics COLING 92, Nantes, France, p Lesk M., 1986, «Automatic sense disambiguation : how to tell a pine cone from an ice cream cone», in Proceedings of SIGDOC, p Jacquemin C., 1997, Variation terminologique : reconnaissance et acquisition automatique de termes et de leurs variantes en corpus, Habilitation à diriger des recherches, IRIN, Université de Nantes, France. Manning C.D., Schütze H., 1999, Foundation of Statistical Natural Language Processing, chapitre 5, p Maynard D., Ananiadou S., 1999, «Term Extraction using a Similarity-based Approach.», in Recent Advances in Computational Terminology, Ed. by D. Bourigault, C. Jacquemin, M.-C. L'Homme, John Benjamins. Morin E., 1999, Extraction de liens sémantiques entre termes à partir de corpus de textes techniques, Thèse de doctorat, Université de Nantes, France. NLM, 1997, UMLS Knowledge Sources, U.S. Dept of Health and Human Services, 8è édition. Noleau E., 1998, Apprentissage et filtrage syntaxico-sémantique de syntagmes pertinents pour la recherche documentaire, Thèse de doctorat, Université Paris-Nord, France. Oakes M., 1998, Statistics for corpus linguistics, Edinburgh University Press, U.K. Riloff E., 1996, «Automatic Generating Extraction Patterns from Untagged Text», Proceedings of the 13th National Conference on Artifical Intelligence AAAI 96, Portland, USA, p Séguéla P., 2001, Construction de modèles de connaissances par analyse linguistique de relations lexicales dans les documents techniques, Thèse de doctorat, Université de Toulouse-III, France. Smadja F., 1993, «Retrieving Collocations from Text : Xtract», Computational Linguistics, 19(1), p Smeaton A., Quigley L., «Experiments on using semantic distances between words in image caption retrieval», in Proceedings of 19th International Conference on Research and Development in Information Retrieval, Zurich, Suisse. Schmid H., 1994, «Probablistic Part-of-Speech Tagging Using Decision Trees», actes du First International Conference on New Methods in Natural Language Processing (NemLap-94), Manchester, U.K., p Yarowsky D., 1992, «Word-sense disambiguation using statistical models of Roget s categories trained on large corpora», in Proceedings of 14th International Conference on Computational Linguistics, p

Marie-Claude L Homme Université de Montréal

Marie-Claude L Homme Université de Montréal Évaluation de logiciels d extraction de terminologie : examen de quelques critères Plan Marie-Claude L Homme Université de Montréal Unités recherchées et problèmes de base Catégories de critères Critères

Plus en détail

Acquisition terminologique pour identifier les mots clés d articles scientifiques

Acquisition terminologique pour identifier les mots clés d articles scientifiques Actes du huitième défi fouille de texte, DEFT2012, Grenoble, France, 8 juin 2012. Pages 29-35. Proceedings of the Eight DEFT Workshop, DEFT2012, Grenoble, France, 8th July 2012. Pages 29-35. Acquisition

Plus en détail

Extraction de termes centrée autour de l expert

Extraction de termes centrée autour de l expert Thomas Heitz, Mathieu Roche, Yves Kodratoff Université Paris-Sud, Bât 490, 91405 Orsay Cedex France, {heitz, roche, yk}@lri.fr, http://www.lri.fr/ {heitz, roche, yk}/ Résumé. Nous développons un logiciel,

Plus en détail

revue de littérature - corpus comparables

revue de littérature - corpus comparables revue de littérature - corpus comparables Julie Roy April 23, 2015 Université de Montréal Introduction Matière première MT : corpus parallèles. Intérêt des corpus comparables : corpus parallèles et dictionnaires

Plus en détail

Présentation de la plateforme d analyse linguistique médiévale

Présentation de la plateforme d analyse linguistique médiévale Présentation de la plateforme d analyse linguistique médiévale 1. Introduction Tout au long de ce document, notre projet sera présenté à travers la méthodologie suivie pour développer la plateforme d analyse

Plus en détail

INGÉNIERIE DES CONNAISSANCES CONSTRUCTION D ONTOLOGIES À PARTIR DE TEXTES (1)

INGÉNIERIE DES CONNAISSANCES CONSTRUCTION D ONTOLOGIES À PARTIR DE TEXTES (1) 09.02.2002 INGÉNIERIE DES CONNAISSANCES CONSTRUCTION D ONTOLOGIES À PARTIR DE TEXTES (1) Outils de traitement automatique des langues pour la construction d ontologies à partir de textes Didier BOURIGAULT

Plus en détail

Construction et enrichissement automatique d ontologie à partir de ressources externes

Construction et enrichissement automatique d ontologie à partir de ressources externes Construction et enrichissement automatique d ontologie à partir de ressources externes JFO 2009 Jeudi 3 décembre 2009 E. Kergosien (LIUPPA, Pau) M. Kamel (IRIT- UPS, Toulouse) M. Sallabery (LIUPPA, Pau)

Plus en détail

Shadow Manager Simulateur de gestion globale d entreprise. Introduction

Shadow Manager Simulateur de gestion globale d entreprise. Introduction Shadow Manager Simulateur de gestion globale d entreprise Introduction Le logiciel de simulation d entreprise Shadow Manager représente le nec plus ultra des outils pédagogiques de simulation de gestion

Plus en détail

Le dictionnaire DEM dans NooJ

Le dictionnaire DEM dans NooJ 21 ème Traitement Automatique des Langues Naturelles, Marseille, 2014 Le dictionnaire DEM dans NooJ Max Silberztein ELLIADD, Université de Franche-Comté, 30 rue Mégevand, 25000 Besançon max.silberztein@univ-fcomte.fr

Plus en détail

Acquisition de la terminologie et définition des tâches à effectuer, deux principes indissociables

Acquisition de la terminologie et définition des tâches à effectuer, deux principes indissociables Acquisition de la terminologie et définition des tâches à effectuer, deux principes indissociables Mathieu Roche Équipe TAL, LIRMM, UMR 5506, Université Montpellier 2 mathieu.roche@lirmm.fr Résumé L acquisition

Plus en détail

ANALYSE DES DONNÉES TEXTUELLES

ANALYSE DES DONNÉES TEXTUELLES Université Paris Dauphine Ecole Doctorale de Gestion M. Gettler Summa, C. Pardoux ANALYSE DES DONNÉES TEXTUELLES Traitement automatique des questions ouvertes Question ouverte Souhaitez-vous ajouter des

Plus en détail

Laboratoire 4 Développement d un système intelligent

Laboratoire 4 Développement d un système intelligent DÉPARTEMENT DE GÉNIE LOGICIEL ET DES TI LOG770 - SYSTÈMES INTELLIGENTS ÉTÉ 2012 Laboratoire 4 Développement d un système intelligent 1 Introduction Ce quatrième et dernier laboratoire porte sur le développement

Plus en détail

Traduction automatique

Traduction automatique Traduction automatique M. Constant Université Paris-Est Marne-la-Vallée 5 octobre 2009 Outline Introduction Problèmes Différentes approches Traduction automatique statistique Modélisation Exemple de modèle

Plus en détail

Du linguistique au conceptuel : identification de relations conceptuelles à partir de textes

Du linguistique au conceptuel : identification de relations conceptuelles à partir de textes Acquisition et modélisation de relations sémantiques TIA 2009 Du linguistique au conceptuel : identification de relations conceptuelles à partir de textes Nathalie Aussenac-Gilles et Nathalie Hernandez

Plus en détail

Rapport : Base de données. Anthony Larcher 1

Rapport : Base de données. Anthony Larcher 1 Rapport : Base de données Anthony Larcher 1 1 : Laboratoire d Informatique d Avignon - Université d Avignon Tél : +33 (0) 4 90 84 35 55 - Fax : + 33 (0) 4 90 84 35 01 anthony.larcher@univ-avignon.fr 14

Plus en détail

Représentation géométrique d un paradigme lexical.

Représentation géométrique d un paradigme lexical. Conférence TALN 1999, Cargèse, 12-17 juillet 1999 Représentation géométrique d un paradigme lexical. Jean-Luc Manguin, Bernard Victorri Laboratoire ELSAP CNRS Université de Caen Esplanade de la Paix 14032

Plus en détail

Conventions communes aux profils UML

Conventions communes aux profils UML Conventions communes aux profils UML Auteur : Projet ACCORD (Assemblage de composants par contrats en environnement ouvert et réparti)* Référence : Livrable 2.1 Date : Juin 2002 * : Les partenaires du

Plus en détail

La Veille multilingue : outils et ressources pour les traducteurs. Jean-Paul PINTE Institut Catholique de Lille

La Veille multilingue : outils et ressources pour les traducteurs. Jean-Paul PINTE Institut Catholique de Lille La Veille multilingue : outils et ressources pour les traducteurs Jean-Paul PINTE Institut Catholique de Lille Premier Colloque International sur la veille multilingue Genève les 28 et 29 mai 2008 Nous

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

12.2.5. La Banque de données santé publique (BDSP)

12.2.5. La Banque de données santé publique (BDSP) 12. Approfondir ses connaissances autour d un sujet droit ou qu un accord avec l éditeur autorise les gestionnaires de la base à pointer vers le document original. Les bases de données bibliographiques

Plus en détail

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES Techniques symboliques de traitement automatique du langage pour l indexation thématique et l extraction d information temporelle Thèse Défense publique

Plus en détail

Le système SMART 1. Indexation

Le système SMART 1. Indexation Le système SMART Le système SMART (System for the Mechanical Analysis and Retrieval of Text) (aussi appelé Salton's Magic Automatic Retrieval Technique:-) est un système de RI expérimental. Il utilise

Plus en détail

Génération d une visualisation personnalisée

Génération d une visualisation personnalisée Génération d une visualisation personnalisée Mohamed Mouine RALI-DIRO Université de montréal mouinemo@iro.umontreal.ca Résumé. Nous présentons une méthode permettant de calculer les besoins et les préférences

Plus en détail

Activité 1 : échantillonnage

Activité 1 : échantillonnage Activité échantillonnage, intervalle de fluctuation, prise de décision (à partir d un même thème) Les trois activités qui suivent s inspirent du document «ressources pour la classe de première générale

Plus en détail

www.marquecanadabrand.agr.gc.ca www.mangezcanadien.ca

www.marquecanadabrand.agr.gc.ca www.mangezcanadien.ca La recherche antérieure a montré que la majorité des consommateurs canadiens affichent une préférence marquée pour l achat de produits alimentaires canadiens par rapport aux produits d importation. Est-ce

Plus en détail

23. Interprétation clinique des mesures de l effet traitement

23. Interprétation clinique des mesures de l effet traitement 23. Interprétation clinique des mesures de l effet traitement 23.1. Critères de jugement binaires Plusieurs mesures (indices) sont utilisables pour quantifier l effet traitement lors de l utilisation d

Plus en détail

Initiation à la fouille de données et à l apprentissage automatiq

Initiation à la fouille de données et à l apprentissage automatiq Initiation à la fouille de données et à l apprentissage automatique 1 Laboratoire d Informatique Fondamentale de Marseille Université de Provence christophe.magnan@lif.univ-mrs.fr www.lif.univ-mrs.fr/

Plus en détail

Adverbiaux temporels et expressions référentielles comme marqueurs de segmentation : emploi simultané ou exclusif?

Adverbiaux temporels et expressions référentielles comme marqueurs de segmentation : emploi simultané ou exclusif? 23 Schedae, 2006 Prépublication n 3 Fascicule n 1 Adverbiaux temporels et expressions référentielles comme marqueurs de segmentation : emploi simultané ou exclusif? Sophie Piérard & Yves Bestgen 1 Université

Plus en détail

Construction et gestion des corpus : Résumé et essai d uniformisation du processus pour la terminologie

Construction et gestion des corpus : Résumé et essai d uniformisation du processus pour la terminologie Construction et gestion des corpus : Résumé et essai d uniformisation du processus pour la terminologie Texte préparé par Elizabeth Marshman, janvier 2003 1. Procédures pour l équipe ÉCLECTIK Cette section

Plus en détail

INTRODUCTION AU DATA MINING

INTRODUCTION AU DATA MINING INTRODUCTION AU DATA MINING 6 séances de 3 heures mai-juin 2006 EPF - 4 ème année - Option Ingénierie d Affaires et de Projets Bertrand LIAUDET Phase 4 : Modélisation non-supervisée - 5 : Règles d association

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Résultats obtenus pour le questionnaire «Clientèle»

Résultats obtenus pour le questionnaire «Clientèle» Résultats obtenus pour le questionnaire «Clientèle» Introduction Suite à l envoi du questionnaire «Clientèle», nous avons reçu un total de 588 réponses. Ce résultat nous semble tout à fait satisfaisant

Plus en détail

Cartographie de mots : application à la visualisation de noms de marque

Cartographie de mots : application à la visualisation de noms de marque Université Montpellier II UFR Fac des Sciences Master 1 Informatique Université Montpellier II UFR Fac des Sciences Master 1 Informatique Cartographie de mots : application à la visualisation de noms de

Plus en détail

Validité prédictive des questionnaires Cebir. Etude 1 : validité critérielle dans le secteur du gardiennage

Validité prédictive des questionnaires Cebir. Etude 1 : validité critérielle dans le secteur du gardiennage Validité prédictive des questionnaires Cebir Introduction Dans le domaine de la sélection, il est particulièrement intéressant de déterminer la validité prédictive d un test. Malheureusement, les occasions

Plus en détail

MODIFICATIONS DES PRINCIPES DIRECTEURS CONCERNANT LA RÉDACTION DES DÉFINITIONS RELATIVES AU CLASSEMENT

MODIFICATIONS DES PRINCIPES DIRECTEURS CONCERNANT LA RÉDACTION DES DÉFINITIONS RELATIVES AU CLASSEMENT ANNEXE VI MODIFICATIONS DES PRINCIPES DIRECTEURS CONCERNANT LA RÉDACTION DES DÉFINITIONS RELATIVES AU CLASSEMENT RECOMMANDATIONS GÉNÉRALES Les utilisateurs s attendent à trouver dans les définitions des

Plus en détail

Fonctionnalités avancées de Word

Fonctionnalités avancées de Word BIBLIOTHÈQUE UNIVERSITAIRE DE LILLE 1 Thèses et littérature grise Fonctionnalités avancées de Word Bibliothèque de l université des sciences et technologies de Lille 1 Diffusion électronique des thèses

Plus en détail

Approches catégoriques et non catégoriques en linguistique des corpus spécialisés

Approches catégoriques et non catégoriques en linguistique des corpus spécialisés Approches catégoriques et non catégoriques en linguistique des corpus spécialisés Application à un système de filtrage d information Plan 1. Pour une linguistique des corpus 2. Recherche d information

Plus en détail

Chapitre E : Allégations environnementales dans la communication commerciale

Chapitre E : Allégations environnementales dans la communication commerciale Chapitre E : Allégations environnementales dans la communication commerciale Le présent chapitre doit être lu en conjonction avec les Dispositions générales sur les pratiques de publicité et de communication

Plus en détail

Lecture critique et pratique de la médecine

Lecture critique et pratique de la médecine 1-00.qxp 24/04/2006 11:23 Page 13 Lecture critique appliquée à la médecine vasculaireecture critique et pratique de la médecine Lecture critique et pratique de la médecine Introduction Si la médecine ne

Plus en détail

Génération de réponses pour un système de questions-réponses

Génération de réponses pour un système de questions-réponses Génération de réponses pour un système de questions-réponses Van-Minh Pho 1 LIMSI-CNRS, Rue John von Neumann, Université Paris-Sud, 91403 Orsay cedex, France vanminh.pho@gmail.com RÉSUMÉ. Les systèmes

Plus en détail

SUGARCRM MODULE RAPPORTS

SUGARCRM MODULE RAPPORTS SUGARCRM MODULE RAPPORTS Référence document : SYNOLIA_Support_SugarCRM_Module_Rapports_v1.0.docx Version document : 1.0 Date version : 2 octobre 2012 Etat du document : En cours de rédaction Emetteur/Rédacteur

Plus en détail

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION Sylvie Gervais Service des enseignements généraux École de technologie supérieure (sylvie.gervais@etsmtl.ca) Le laboratoire des condensateurs

Plus en détail

Business Intelligence simple et efficace

Business Intelligence simple et efficace Business Intelligence simple et efficace avec Excel et PowerPivot Jean-Philippe GOUIGOUX Table des matières 1 Chapitre 1 Présentation de PowerPivot A. L analyse de données.....................................................

Plus en détail

ADAPTER LA METHODE AUX OBJECTIFS DE L ENQUETE

ADAPTER LA METHODE AUX OBJECTIFS DE L ENQUETE Déchets : outils et exemples pour agir Fiche méthode n 1 www.optigede.ademe.fr ADAPTER LA METHODE AUX OBJECTIFS DE L ENQUETE Origine et objectif de la fiche : Les retours d expérience des collectivités

Plus en détail

Indexation conceptuelle application au domaine biomédical. Mesures de similarité dans les ontologies. [Séminaire MIAD Montpellier SupAgro]

Indexation conceptuelle application au domaine biomédical. Mesures de similarité dans les ontologies. [Séminaire MIAD Montpellier SupAgro] [] Indexation conceptuelle application au domaine biomédical Mesures de similarité dans les ontologies Sylvie Ranwez Sébastien Harispe LGI2P de l école des mines d Alès équipe KID (Knowledge and Image

Plus en détail

La détection automatique de l opinion : contraintes et enjeux

La détection automatique de l opinion : contraintes et enjeux La détection automatique de l opinion : contraintes et enjeux Frédéric Marcoul Responsable R&D de Spotter fmarcoul@spotter.com Ana Athayde Président Directeur Général de Spotter aathayde@spotter.com RÉSUMÉ

Plus en détail

Règles de rédaction médicale

Règles de rédaction médicale Règles de rédaction médicale S É M I N A I R E S D A I D E À L A R É D A C T I O N D E T H È S E S D E D O C T O R A T E N M É D E C I N E E T U D I A N T S D E 6 È M E E T 7 È M E A N N É E S Thèse de

Plus en détail

Logiciel QDA Miner. Deuxième partie Gestion du livre des codes et codage manuel

Logiciel QDA Miner. Deuxième partie Gestion du livre des codes et codage manuel PLAN DE COURS «ANALYSE DE DONNEES TEXTUELLES» Trois approches pour l analyse de textes Analyse qualitative Analyse quantitative Fouille de textes Introduction au logiciel QDA Miner Introduction et gestion

Plus en détail

Un modèle HMM pour la détection des mots composés dans un corpus textuel.

Un modèle HMM pour la détection des mots composés dans un corpus textuel. Un modèle HMM pour la détection des mots composés dans un corpus textuel. Lakhdar Remaki & Jean Guy Meunier LANCI Université du Québec à Montréal. Cp 8888, succ A Montréal. H3C 3P8 Canada remaki@livia.etsmtl.ca

Plus en détail

Analyse factorielle des correspondances de Benzécri

Analyse factorielle des correspondances de Benzécri Analyse factorielle des correspondances de Benzécri One Pager Décembre 2013 Vol. 8 Num. 011 Copyright Laréq 2013 http://www.lareq.com Analyse Factorielle des Correspondances de Benzécri Une illustration

Plus en détail

Indexation de sous-collections pour l amélioration de la haute précision

Indexation de sous-collections pour l amélioration de la haute précision Indexation de sous-collections pour l amélioration de la haute précision Joëlson Randriamparany *,** *IRIT, Institut de Recherche Informatique de Toulouse Université Paul Sabatier Toulouse III 118 Route

Plus en détail

Rapport de méthodologie:

Rapport de méthodologie: Rapport de méthodologie: "Laboratoire on chip/lab-on-chip/loc" REMARQUE : La méthode employée est en tout point similaire à celle utilisée en groupe. Contents Rapport de méthodologie:... 1 "Laboratoire

Plus en détail

Evaluer des élèves de Seconde par compétences en Sciences Physiques

Evaluer des élèves de Seconde par compétences en Sciences Physiques Evaluer des élèves de Seconde par compétences en Sciences Physiques Introduction Depuis quelques années, le terme de «compétences» s installe peu à peu dans notre quotidien ; aussi bien dans la vie de

Plus en détail

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE

Plus en détail

Introduction à la méthodologie de la recherche

Introduction à la méthodologie de la recherche MASTER DE RECHERCHE Relations Économiques Internationales 2006-2007 Introduction à la méthodologie de la recherche geraldine.kutas@sciences-po.org Les Etapes de la Recherche Les étapes de la démarche Etape

Plus en détail

Notre modèle d engagement

Notre modèle d engagement Notre modèle d engagement 1. EVALUER L évaluation des compétences que vous souhaitez améliorer implique un vrai échange entre nos deux équipes, et une étude plus approfondie des écarts et des actions préalablement

Plus en détail

MATHÉMATIQUES ET SCIENCES HUMAINES

MATHÉMATIQUES ET SCIENCES HUMAINES MATHÉMATIQUES ET SCIENCES HUMAINES B. MARCHADIER Dépendance et indépendance de deux aléas numériques images Mathématiques et sciences humaines, tome 25 (1969), p. 2534.

Plus en détail

Référencement dans des bases de données

Référencement dans des bases de données Marketing Site web du guide des ressources pour l édition de revues numériques Coordination : Ghislaine Chartron et Jean-Michel Salaun Doctorant en science de l'information La création numérique, ou la

Plus en détail

Nicolas Béchet. To cite this version: HAL Id: lirmm-00370815 http://hal-lirmm.ccsd.cnrs.fr/lirmm-00370815

Nicolas Béchet. To cite this version: HAL Id: lirmm-00370815 http://hal-lirmm.ccsd.cnrs.fr/lirmm-00370815 Description d un protocole d évaluation automatique comme alternative à l évaluation humaine. Application à la validation de relations syntaxiques induites Nicolas Béchet To cite this version: Nicolas

Plus en détail

OUTILS D'ÉVALUATION DE LOGICIELS ÉDUCATIFS

OUTILS D'ÉVALUATION DE LOGICIELS ÉDUCATIFS 131 OUTILS D' ÉDUCATIFS Philippe DESSUS, Pascal MARQUET MOTS-CLÉS Typologie des logiciels d'eao, Processus d'apprentissage, Mesure des performances didactiques. RÉSUMÉ A travers l'eao, l'informatique tente

Plus en détail

DE LA CARTOGRAPHIE DES METIERS DE L EDITION DU LIVRE. Octobre 2015

DE LA CARTOGRAPHIE DES METIERS DE L EDITION DU LIVRE. Octobre 2015 CPNE EDITION DU LIVRE CAHIER DES CHARGES POUR LA MISE A JOUR DE LA CARTOGRAPHIE DES METIERS DE L EDITION DU LIVRE Octobre 2015 OBJET DE L APPEL D OFFRE Le présent appel d offre est lancé par l Afdas pour

Plus en détail

1. Présentation générale du volet «Recherche» du projet PASS

1. Présentation générale du volet «Recherche» du projet PASS 1. Présentation générale du volet «Recherche» du projet PASS Parallèlement aux activités d échange et d organisation des rencontres et du séminaire thématique, nous avons réalisé durant les premières phases

Plus en détail

Analyse dialectométrique des parlers berbères de Kabylie

Analyse dialectométrique des parlers berbères de Kabylie Saïd GUERRAB Analyse dialectométrique des parlers berbères de Kabylie Résumé de la thèse (pour affichage) Il est difficile de parler du berbère sans parler de la variation. Il y a d abord une variation

Plus en détail

ANALYSE DE L HYDRATATION DE LA PEAU AVEC LE SPECTROPHOTOMETRE PROCHE INFRAROUGE PORTABLE LABSPEC PRO

ANALYSE DE L HYDRATATION DE LA PEAU AVEC LE SPECTROPHOTOMETRE PROCHE INFRAROUGE PORTABLE LABSPEC PRO ANALYSE DE L HYDRATATION DE LA PEAU AVEC LE SPECTROPHOTOMETRE PROCHE INFRAROUGE PORTABLE LABSPEC PRO Présentation Introduction I. Matériel et Méthode II. Résultats III. Discussion Comparaison avec d autres

Plus en détail

Analyse de la variance à deux facteurs

Analyse de la variance à deux facteurs 1 1 IRMA, Université Louis Pasteur Strasbourg, France Master 1 Psychologie du développement 06-10-2008 Contexte Nous nous proposons d analyser l influence du temps et de trois espèces ligneuses d arbre

Plus en détail

ISO/IEC TR 90006. Première édition 2013-11-01. Numéro de référence ISO/IEC TR 90006:2013(F) ISO/IEC 2013

ISO/IEC TR 90006. Première édition 2013-11-01. Numéro de référence ISO/IEC TR 90006:2013(F) ISO/IEC 2013 RAPPORT TECHNIQUE ISO/IEC TR 90006 Première édition 2013-11-01 Technologies de l information Lignes directrices pour l application de l ISO 9001:2008 pour la gestion des services IT et son intégration

Plus en détail

Les outils de veille sur Internet Panorama, évolutions, nouveautés. Myriel Brouland SCIP France -10 Mai 2006

Les outils de veille sur Internet Panorama, évolutions, nouveautés. Myriel Brouland SCIP France -10 Mai 2006 Les outils de veille sur Internet Panorama, évolutions, nouveautés Myriel Brouland SCIP France -10 Mai 2006 1 La veille en France: une situation paradoxale Une situation contrastée Une prise de conscience

Plus en détail

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3 RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3 Pour construire un graphique : On lance l assistant graphique à l aide du menu Insérer è Diagramme en ayant sélectionné au préalable une cellule vide dans

Plus en détail

Aide : publication de décisions VS

Aide : publication de décisions VS Aide : publication de décisions VS Table des Matières Introduction... 2 Recherche (Recherche dans le texte intégral)... 2 Filtres... 3 Collection d arrêts... 4 Date de la décision et date de publication...

Plus en détail

CorpuSearch : présentation d un outil d extraction spécifique

CorpuSearch : présentation d un outil d extraction spécifique CorpuSearch : présentation d un outil d extraction spécifique Jean-Philippe Demoulin, Alda Mari, Romain Vinot ENST Département INFRES CNRS URA 820 46 rue Barrault - 75013 PARIS - +33(0)145817259 {demoulin,

Plus en détail

LES BREVETS comme moyen d accès. Introduction. http://patentscope.wipo.int/

LES BREVETS comme moyen d accès. Introduction. http://patentscope.wipo.int/ LES BREVETS comme moyen d accès à la TECHNOLOGIE Introduction http://patentscope.wipo.int/ 2 Les brevets constituent une vaste source d informations couvrant chaque domaine de la technologie. Il est facile

Plus en détail

CARNET DE BORD De :. Classe de BTSA.

CARNET DE BORD De :. Classe de BTSA. 1 LEGTA Georges Desclaude BP 10549 17119 SAINTES MODULE M 22 CARNET DE BORD De :. Classe de BTSA. Dossier de suivi de la démarche de recherche documentaire (Outil d aide méthodologique) Autre membre du

Plus en détail

Vers la conception interactive d une hiérarchie sémantique de descripteurs d images

Vers la conception interactive d une hiérarchie sémantique de descripteurs d images PROPOSITION DE STAGE Année 2016 Laboratoire L3i Sujet de stage : Vers la conception interactive d une hiérarchie sémantique de descripteurs d images Résumé du travail proposé : Ce travail s intéresse à

Plus en détail

INFO-F-101 Programmation Projet 4 Page Ranking(1/4): Création de la matrice du compte des liens

INFO-F-101 Programmation Projet 4 Page Ranking(1/4): Création de la matrice du compte des liens INFO-F-101 Programmation Projet 4 Page Ranking(1/4): Création de la matrice du compte des liens Année académique 2009 2010 1 Introduction Ce projet est le premier d une série de quatre projets qui ont

Plus en détail

Le Thesaurus Linguae Graecae est un centre de recherche de l Université de la Californie, Irvine. Le projet a débuté en 1972.

Le Thesaurus Linguae Graecae est un centre de recherche de l Université de la Californie, Irvine. Le projet a débuté en 1972. Description Le Thesaurus Linguae Graecae est une base de données textuelles qui présente, dans la langue originale, les œuvres des auteurs grecs anciens dans l ensemble des disciplines. Elle est disponible

Plus en détail

Chapitre 5 LE MODELE ENTITE - ASSOCIATION

Chapitre 5 LE MODELE ENTITE - ASSOCIATION Chapitre 5 LE MODELE ENTITE - ASSOCIATION 1 Introduction Conception d une base de données Domaine d application complexe : description abstraite des concepts indépendamment de leur implémentation sous

Plus en détail

«Dire et écrire» pour réaliser une composition en travail collaboratif en géographie. Agnès Dullin, lycée J. Racine 20 rue du Rocher, 75008 Paris

«Dire et écrire» pour réaliser une composition en travail collaboratif en géographie. Agnès Dullin, lycée J. Racine 20 rue du Rocher, 75008 Paris «Dire et écrire» pour réaliser une composition en travail collaboratif en géographie Agnès Dullin, lycée J. Racine 20 rue du Rocher, 75008 Paris OBJECTIFS 1- Niveau et insertion dans la programmation 2-

Plus en détail

Contexte général de l étude

Contexte général de l étude 1 2 Contexte général de l étude Les entrepôts de données associés à des outils d analyse On Line Analytical Processing (OLAP), représentent une solution effective pour l informatique décisionnelle (Immon,

Plus en détail

Réunion des comités roulements et GPS

Réunion des comités roulements et GPS 24 Réunion des comités roulements et GPS Dès publication de la nouvelle version de la norme ISO 492, les tolérances dimensionnelles des roulements et les systèmes ISO de limites et d ajustements pourront

Plus en détail

Fondements et étapes du processus de recherche, 3 e édition

Fondements et étapes du processus de recherche, 3 e édition Fondements et étapes du processus de recherche, 3 e édition Nouveauté Méthodes quantitatives et qualitatives Prix : 81,95 $ Auteurs : Marie-Fabienne Fortin, Johanne Gagnon ISBN13 : 9782765050063 Nombre

Plus en détail

Population étudiante en médecine vétérinaire : projections

Population étudiante en médecine vétérinaire : projections Population étudiante en médecine vétérinaire : projections Assemblée Générale des étudiants de Louvain 17 juin 2015 1 Avant-propos Depuis quelques semaines, la question de la surpopulation dans les filières

Plus en détail

NORMES BIBLIOGRAPHIQUES DE L AMERICAN PSYCHOLOGICAL ASSOCIATION (APA, 6 ème édition)

NORMES BIBLIOGRAPHIQUES DE L AMERICAN PSYCHOLOGICAL ASSOCIATION (APA, 6 ème édition) NORMES BIBLIOGRAPHIQUES DE L AMERICAN PSYCHOLOGICAL ASSOCIATION (APA, 6 ème édition) PUBLICATION MANUAL OF THE AMERICAN PSYCHOLOGICAL ASSOCIATION, SIXTH EDITION. (2009). Lorsque vous tapez un texte, utilisez

Plus en détail

INFOECO77 Portail de l information économique en Seine-et-Marne

INFOECO77 Portail de l information économique en Seine-et-Marne INFOECO77 Portail de l information économique en Seine-et-Marne octobre 2008 Aujourd hui, la CCI Seine-et-Marne, fortement impliquée dans l observation des entreprises et du développement économique de

Plus en détail

La cartographie des brevets au service de la propriété industrielle

La cartographie des brevets au service de la propriété industrielle Forum technologique d Afrique de l Ouest et Centrale pour l exploitation industrielle des résultats de recherche en Afrique La cartographie des brevets au service de la propriété industrielle Une revue

Plus en détail

COMMENT DÉFINIR L ORIENTÉ OBJET

COMMENT DÉFINIR L ORIENTÉ OBJET COMMENT DÉFINIR L ORIENTÉ OBJET De manière superficielle, le terme «orienté objet», signifie que l on organise le logiciel comme une collection d objets dissociés comprenant à la fois une structure de

Plus en détail

PRINCIPES DIRECTEURS PERMETTANT DE DÉTERMINER L ENDROIT OÙ DOIVENT ÊTRE CLASSÉS LES DOCUMENTS DE BREVET DANS LA CIB

PRINCIPES DIRECTEURS PERMETTANT DE DÉTERMINER L ENDROIT OÙ DOIVENT ÊTRE CLASSÉS LES DOCUMENTS DE BREVET DANS LA CIB PRINCIPES DIRECTEURS PERMETTANT DE DÉTERMINER L ENDROIT OÙ DOIVENT ÊTRE CLASSÉS LES DOCUMENTS DE BREVET DANS LA CIB adoptés par le Comité d experts de l Union de l IPC à sa quarante-deuxième session et

Plus en détail

Leçon n 1 : définition et champ d application de la comptabilité analytique

Leçon n 1 : définition et champ d application de la comptabilité analytique AUNEGE Campus Numérique en Economie Gestion Licence 2 Comptabilité analytique Leçon 1 Leçon n 1 : définition et champ d application de la comptabilité analytique 1 RÔLES DE LA COMPTABILITÉ DE GESTION INFORMER

Plus en détail

www.lafamily.ch en 16 différences

www.lafamily.ch en 16 différences Cas d étude no 3 www.lafamily.ch en 16 différences juin 2003 Le mandat réalisé avec QuickSite de transformation du site existant de Lafamily.ch, centre globale d information pour les familles, à été de

Plus en détail

Initiation Access 2003

Initiation Access 2003 Initiation Access 2003 Sommaire Introduction...3 1. Création d une base...3 1.1. Modélisation...3 1.2. Création de la base...4 2. Les tables...5 2.1. Création d'une table en mode Création...5 2.2. Les

Plus en détail

Des traitements aux ressources linguistiques : le rôle d une architecture linguistique

Des traitements aux ressources linguistiques : le rôle d une architecture linguistique Des traitements aux ressources : le rôle d une architecture Frederik Cailliau Villetaneuse, le 9 décembre 2010 Sous la direction d Adeline Nazarenko 1. 2. 3. 4. 5. 6. 2 Sinequa Cifre à Sinequa Recherche

Plus en détail

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs!

CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE. Information importante : Ces conseils ne sont pas exhaustifs! CONSEILS POUR LA REDACTION DU RAPPORT DE RECHERCHE Information importante : Ces conseils ne sont pas exhaustifs! Conseils généraux : Entre 25 et 60 pages (hormis références, annexes, résumé) Format d un

Plus en détail

3.1 L OFFRE ET LA DEMANDE : UN MODÈLE DE MARCHÉ CONCURRENTIEL

3.1 L OFFRE ET LA DEMANDE : UN MODÈLE DE MARCHÉ CONCURRENTIEL L offre et la demande 127 Dans ce chapitre, nous exposerons les éléments du modèle de l offre et de la demande, puis nous les assemblerons avant de montrer comment ce modèle peut être utilisé pour comprendre

Plus en détail

L analyse en composantes principales en pratique

L analyse en composantes principales en pratique L analyse en composantes principales en pratique Après avoir vu sa formalisation mathématique dans le module précédent, on s intéresse ici à l utilisation pratique de l ACP. 1 Objectifs L objectif de l

Plus en détail

Etude empirique de la valeur d utilité de l immobilier des entreprises : un actif associé à la gestion du risque des sociétés

Etude empirique de la valeur d utilité de l immobilier des entreprises : un actif associé à la gestion du risque des sociétés Les nouveaux enjeux et défis du marché immobilier : comment y contribuer? Chaire Ivanhoé Cambridge ESG UQÀM Etude empirique de la valeur d utilité de l immobilier des entreprises : un actif associé à la

Plus en détail

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique.

Dans ce chapitre nous allons étudier une méthode pratique d anti-phishing, ce qui consiste à un système de classification automatique. I INTRODUCTION Les pages de phishing sont l un des problèmes majeurs de sécurité sur internet. La majorité des attaques utilisent des méthodes sophistiquées comme les fausses pages pour tromper les utilisateurs

Plus en détail

Déclassement d'actifs et stock brut de capital

Déclassement d'actifs et stock brut de capital Extrait de : La mesure du capital - Manuel de l'ocde 2009 Deuxième édition Accéder à cette publication : http://dx.doi.org/10.1787/9789264067752-fr Déclassement d'actifs et stock brut de capital Merci

Plus en détail

Traitement automatique des messages courts par des approches de Fouille de Textes

Traitement automatique des messages courts par des approches de Fouille de Textes Traitement automatique des messages courts par des approches de Fouille de Textes Mathieu ROCHE Equipe TEXTE LIRMM, CNRS, Université Montpellier 2 1 Séminaire Sud4Science 28 septembre 2011 1. Introduction

Plus en détail

STAF17 - REALISATION D'UN DISPOSITIF DE FORMATION ENTIEREMENT OU PARTIELLEMENT A DISTANCE

STAF17 - REALISATION D'UN DISPOSITIF DE FORMATION ENTIEREMENT OU PARTIELLEMENT A DISTANCE STAF 2001-2002 STAF17 - REALISATION D'UN DISPOSITIF DE FORMATION ENTIEREMENT OU PARTIELLEMENT A DISTANCE Présentation du cours Responsable : Daniel Peraya Assistante : Nathalie Deschryver TABLE DES MATIERES

Plus en détail

Rédiger un rapport technique

Rédiger un rapport technique Rédiger un rapport technique Prof. N. Fatemi Plan Introduction Présentation écrite Programmation du travail Rédaction Conseils génériques Références 2 Introduction Objectifs du cours Savoir étudier un

Plus en détail

MODELE D UN RAPPORT DE STAGE DE BAC PRO ELECTROTECHNIQUE

MODELE D UN RAPPORT DE STAGE DE BAC PRO ELECTROTECHNIQUE MODELE D UN RAPPORT DE STAGE DE BAC PRO ELECTROTECHNIQUE [Prénom Nom] Rapport sur le stage effectué du [date] au [date] Dans la Société : [NOM DE LA SOCIETE : Logo de la société] à [Ville] [Intitulé du

Plus en détail