Recherche d information et repérage de termes et de leurs variantes
|
|
- Edith Brousseau
- il y a 8 ans
- Total affichages :
Transcription
1 Recherche d information et repérage de termes et de leurs variantes Cours de Dialogue et Analyse de Texte Aurélien Max Master Recherche en Informatique Université Paris-Sud 11 Année
2 Plan du cours 1 Introduction 2 Indexation 3 Terminologie 4 Systèmes d acquisition 5 Variation terminologique 6 Repérage des variantes : Fastr
3 Recherche d information Besoins d information : disposer des bonnes informations par rapport à une question ou à un problème donné Importance accrue de la veille scientifique, technique, commerciale, culturelle, etc. L accès aux informations externes est devenu tout aussi important que l accès aux informations internes Types de recherche d information questions précises, ex : Quels sont les programmes que je peux utiliser pour installer des programmes sous Linux Debian? problèmes plus larges, ex : installation de programmes sous Linux
4 Principales difficultés de la recherche d information Les bases documentaires sont très grandes, réparties sur de nombreux supports dans des endroits différents Nos capacités de recherche et d assimilation sont très limitées ; or il faut être capable de trouver, classer et comparer de nombreux documents Comment un document remplit-il un besoin informationnel? Quel est sa pertinence? Les documents pertinents ne sont pas nécessairement dans la langue souhaitée
5 Évolution de la recherche d information Précédemment : bases documentaires structurées (essentiellement des bases de données relationnelles) et de taille relativement peu importante accès par des métadonnées décrivant les documents (pas toujours disponible en texte intégral électronique : documents physiques, bitmaps, etc.) utilisation de langages documentaires par des spécialistes Aujourd hui : les documents existent sous forme électronique et sont multimédia nombreux formats de représentation (texte brut, HTML, XML, RTF, PDF, formats propriétaires, etc.) bases de documents à accès restreint, et... le web de plus en plus de données non structurées (pour les données structurées, voir le cours de Web Sémantique) il faut pouvoir faire une recherche directement sur le contenu textuel (texte intégral) (et/ou sur les autres éléments des documents) la réponse n est pas stéréotypée ni organisée, et elle peut répondre plus ou moins bien à la question posée
6 Recherche d information et Internet Utilisation massive par des utilisateurs non experts la requête typique est constituée d au plus quelques mots clés domaine en pleine expansion économique (Altavista, Yahoo, Lycos, AskJeeves, Google, MSN, etc.) Une partie du web n est pas directement accessible (web invisible : pages à accès restreint et pages dynamiques) L information présente est fortement multilingue : les documents répondant aux requêtes peuvent être dans des langues différentes L information présente n est pas toujours fiable (le web peut être un vecteur de désinformation) La visualisation de l information est particulièrement importante : classement des résultats, présentation d extraits, extraction de segments pertinents, etc.
7 Performance de la recherche d information Classement des documents retournés par score décroissante, avec de nombreux critères pouvant intervenir (date du document, qualité/notoriété de la source, liens commerciaux, etc.) Évaluation par l utilisateur, qui dépend : de la pertinence (relevance) des documents retournés et la quantité de bruit (comment détermine-t-on si un document est pertinent? Cela dépend du point de vue de l utilisateur, de ses connaissances, etc.) du temps de réponse du système de l ergonomie du système (présentation des résultats, mode d interaction) Évaluation automatique : comparaison booléenne des documents retournés avec des réponses «idéales» (un document en fait partie ou pas) notions de précision et de rappel campagnes d évaluation de systèmes de recherche d information
8 Évaluation booléenne (1/3) Rappel = card(rp) card(p) Silence = 1 Rappel = card(p) card(rp) card(p) Précision = card(rp) card(r) Bruit = 1 Précision = card(r) card(rp) card(r)
9 Évaluation booléenne (2/3) Cas spécifiques : Pour un document dont l existence est certaine, on raisonne davantage en termes du temps nécessaire pour le trouver Sur de très grandes bases documentaires, la pertinence des premiers documents retournés importe plus que le rappel, et il faut minimiser le bruit Le rappel augmente avec le nombre de réponses, mais la précision diminue. On utilise des courbes Précision/Rappel pour caractériser les systèmes de recherche d information, ex :
10 Évaluation booléenne (3/3) On utilise également une mesure combinant la précision et le rappel, la F-mesure, qui correspond à leur moyenne harmonique : 1 F = α P 1 +(1 α) R 1 = (β 2 + 1) P R) β 2 P + R avec α = 1 β Pour donner autant d importance à la précision qu au rappel, on utilise β = 1 : F = 2 P R P + R Les valeurs β < 1 favorisent la précision, et les valeurs β > 1 le rappel
11 Prétraitement des documents (1/2) Le parcours complet de l ensemble des documents avec les termes d une requête est impossible en pratique : trop de documents (pas forcément toujours accessibles) et temps de réponse prohibitif On passe par un traitement préalable des documents contenus dans les bases : l indexation Le but de l indexation automatique est de transformer des documents en substituts capables de représenter le contenu de ces documents (Salton et McGill, 1983) Parmi les difficultés de l indexation, on trouve celles inhérentes à la langue utilisée dans les documents Les index peuvent prendre plusieurs formes : mots simples, termes complexes, syntagmes, entrées dans un thésaurus, etc. les index sont plus ou moins difficiles à extraire les index sont extraits des documents, et donc ne représentent qu une partie de ces documents
12 Prétraitement des documents (2/2) Un fichier inverse associe des index aux documents qui les contiennent, ex : abaissement de Ph d2, d85, d22, d37 abaissement de température d3, d85 abaissement de teneur d782 L indexation peut être : libre : mots, termes contrôlée : listes de termes contrôlés, listes d autorité (pour chaque concept existe un terme unique), thésaurus (ensemble de concepts structurés sémantiquement). Exemple du thésaurus UMLS (Unified Medical Language System) :
13 Architecture des systèmes de RI «[...] on voit dès lors le service que peut rendre à la RI l ingénierie linguistique, qui met en rapport la question de l utilisateur exprimée avec ses propres mots, et les textes interrogés, exprimés par leurs auteurs avec d autres mots.» (C. Fluhr)
14 Caractéristiques de la langue et RI À la différence des langages artificiels, la langue est : implicite : tout n est pas dit de façon explicite dans les textes et leur compréhension requiert de nombreuses connaissances sur le contexte et sur le monde redondante : la langue offre de nombreuses façons de formuler le même contenu (variations des mots aux textes) ambiguë : un même énoncé peut souvent être interprété de différentes façons La recherche d information est également rendue compliquée par : le fait que des mots peuvent jouer des rôles différents dans les textes le fait que les mots peuvent être composés sous forme de mots composés ou termes
15 Caractère redondant de la langue La synonymie est l équivalence de sens entre mots ou entre mots et expressions : totale : vélo et bicyclette partielle : hyperonymie (terme générique) : véhicule vélo hyponymie (terme spécifique) : VTT vélo méronymie (partie de) : cadre vélo holonymie (totalité de) : pédalier pédale abbréviations : s il-vous-plaît et SVP entre mots et expressions : périphrases : lave-vaisselle et machine à laver la vaisselle définitions : selle et petit siège, le plus souvent de cuir, d un cycle ou d un véhicule à deux roues à moteur sigles : VTC et Vélo Tout Chemin La paraphrase est l équivalence de sens entre expressions dont les termes et/ou la syntaxe diffèrent.
16 Caractère ambigü de la langue De nombreux phénomènes rendent les textes ambigüs, notamment : homographes (mots de catégories différentes mais dont une forme fléchie coïncide), ex : Les poules du couvent couvent sigles et acronymes peuvent également être homographes : (1a) Il a un PC à la maison (1b) Le candidat du PC a remporté l élection (2a) Il a fait un don à l ARC (2b) Vincent a appris à souder à l arc polysèmes (mots ayant plusieurs sens et dont toutes les formes fléchies coïncident), ex : Les cambrioleurs ont volé le tableau, Les oies sauvages ont volé toute la journée structures syntaxiques menant à des interprétations différentes, ex : Le pilote ferme la porte, Vincent a acheté un gâteau à Brigitte, Quel auteur cite ce conférencier? anaphores, ex : Kévin aide Vincent parce qu il est gentil ellipses, ex : Vincent programme en Perl et Kévin en CAML, Vincent aime son vélo, et moi aussi
17 Rôle des mots et RI L identification du rôle que jouent les mots dans les phrases peut avoir un impact sur la recherche d information, ex : Vincent a été convoqué par sa directrice de thèse. (patient) Vincent a terminé l écriture de son programme. (agent) Cette entreprise fabrique des ordinateurs. (produits industriels) L ordinateur a produit des résultats étonnants. (instrument de calcul) L ordinateur est désormais présent dans une majorité de foyer. (objet qu on possède) De nombreux rôles sont possibles : agent, patient, origine-source, but-bénéficiaire, instrument-moyen, résultat-produit, etc.
18 Chaîne d indexation
19 Mémorisation des index Représentation du contenu des documents par des matrices index x documents, ex : Les matrices étant essentiellement creuses, on utile une liste chaînée par index représentant la liste des documents qui le contiennent (insertion et recherches faciles) :
20 Normalisation linguistique Pour une indexation simple basée sur les mots : conserver la forme fléchie (i.e. celle du document) utiliser la racine morphologique, ex : algorithme de racinisation (stemming) de Porter pour l anglais automates, automatic, automation automat conventions et phases de réduction, ex : appliquer en priorité les règles qui s appliquent aux suffixes les plus longs règles, ex : sses ss, ies i, ational ate, tional tion utiliser le lemme (entrée du dictionnaire) utilisation de transducteurs ou de dictionnaires de mots fléchis
21 Construction des fichiers inverses
22 Mémorisation des index Mémorisation : les dictionnaires sont en mémoire de travail les postings sont plutôt en mémoire de stockage Compromis entre techniques de compression de l information et vitesse d exécution des requêtes Nature des formes stockées stockage de tous les caractères ou d une partie, ex : caractères accentués (resume Vs résumé) utilisation de la racinisation (stemming) : nombre de termes réduit d environ 40% nombre de pointeurs réduit de 10-20% espace total réduit d environ 30% Non conservation de certaines formes, ex : utilisation de listes de mots vides (stop lists) règle des 30 : environ 30 mots représentent environ 30% des occurrences de termes dans des textes écrits éliminer les 150 termes les plus fréquents réduit l espace d environ 25%
23 Requêtes booléennes Requêtes boolénnes (termes connectés par ET, OU et modifiables par NON) : permettent des recherches précises, ex : Brutus AND Caesar trouver les postings de «Brutus» et «Caesar» parcours simulanné des deux listes (temps linéaire sur le nombre d entrées ; nécessite que les postings soient triés) Optimisation du temps de traitement, ex : requête conjonctive Brutus AND Calpurnia AND Caesar : commencer par considérer le plus petit ensemble, et continuer à couper l espace des résultats (fréquences conservées dans le dictionnaire) : (Caesar AND Brutus) AND Calpurnia
24 Recherche par proximité et recherche flexible Recherche de segments (ex : «to be or not to be») ou de proximités (ex : moteur NEAR recherche) : mémorisationde la position (offset) des termes dans les documents, ex : be : 1 :17,19; 4 :17,191,291,430, augmentation significative de la taille de l index (*2 à *4), l index de position représente jusqu à 50% de la taille du texte indexé regroupement des positions dans les documents et recherche des segments Recherche flexible support de jockers (ex : info*) correction orthographique (erreurs de reconnaissance (OCR), de saisie) des index (utilisation de dictionnaires) ou des requêtes (utilisation des index) : correction des mots en isolation : distance d édition, éventuellement pondérée (erreurs fréquentes de saisie (ex : a q) ou de reconnaissance (ex : D O)) mots en contexte (ex : flight form Eathrow) : trouver des mots proches pour chaque mot et tester les fréquences des combinaisons ; utiliser les plus grands ensembles ou les requêtes les plus populaires correction phonétique (ex : chebyshev rightarrow tchebycheff), utilisation de l algorithme Soundex qui réduit chaque mot en une forme réduite de 4 caractères (ex : Herman H655)
25 Indexation dynamique Les documents changent avec le temps : apparition de nouveaux termes / documents apparition de nouvelles occurrences de termes disparition de termes / documents Approche simple : deux index : index principal et index auxilaire recherche dans les deux index, regroupement des résultats utilisation d un vecteur d invalidation pour les documents disparus (mais possibilité de mettre en cache) fusion périodique des deux index Mises à jour dynamiques sur l index plus compliquées à mettre en œuvre Compromis pour l accès et la mise-à-jour : stockage en mémoire de travail ou sur mémoire de masse
26 Recherche : calcul de scores Les requêtes booléennes associe ou non un document à l ensemble des résultats : type de recherche adapté pour les spécialistes, mais possibilité de nombreux résultats en général les utilisateurs ne souhaitent pas analyser finement de nombreux résultats ; de plus, la formulation d expressions booléennes n est pas forcément simple classement des résultats dans un ordre susceptible de correspondre au besoin informationnel de l utilisateur Calcul sur les expressions booléennes : vecteur de poids pour chaque élément de l expression (spécifié par l utilisateur ou déterminé automatiquement) combinaison linéaire de booléens tri par score décroissant (N meilleurs résultats) Pour les recherches en texte intégral, possibilté d exprimer une requête en langue naturelle
27 Pondération de termes : modèle «sac de mots» Intuition : plus un document contient un terme, et plus il est «à propos» de ce terme (plus il est pertinent par rapport à une requête qui contient ce terme) Modèles «sacs de mots» (bag-of-words) : nombre d occurrences d un terme dans chaque document (fréquence du terme) Problème : ces modèles ne tiennent pas compte de l ordre des mots Si cela est important, il faut alors mémoriser la position des occurrences individuelles des mots dans les index Les longs documents sont favorisés car ils sont susceptibles de contenir davantage d occurrences
28 Mesure de pondération tf.idf Prise en compte de la fréquence des termes relativement au corpus de document (uniquement possible pour les corpus statiques) pour diminuer l importance des termes très fréquents dans le corpus La mesure «tf.idf» attribue un poids à un terme dans un document en combinant à la fréquence du terme (tf) dans le document son informativité relativement à un corpus (idf) : mesure simple : inverse du nombre de documents du corpus contenant le terme (idf i = 1/df i ) mesure utilisée en pratique : log du quotient du nombre de documents dans le corpus par le nombre de documents contenant le terme : idf i = log n df i La mesure augmente avec la fréquence du terme dans un document et avec la rareté du terme dans le corpus : w i,d = tf i log n df i
29 Pondération du corpus
30 Modèle vectoriel Un document peut être considéré comme un vecteur de poids correspondant à chaque terme On définit ainsi un espace vectoriel dont les termes constituent les dimensions et dans lequel se trouvent les documents Le nombre de dimensions peut être très grand, même après normalisation linguistique Recherche de réponses à une requête : une requête peut être considérée comme un document dont on peut calculer le vecteur trouver des documents similaires à un document donné (par l exemple) postulat : des documents proches dans l espace vectoriel sont susceptibles d être à propos des mêmes thèmes
31 Mesures de similarité entre vecteurs Distance euclidienne entre vecteur : d j d k = n i=1 (d i,j d i,k ) 2 Ne normalise pas sur la taille des documents (de longs documents peuvent être trouvés similaires du fait de leur taille, pas de leur contenu commun) Une façon de normaliser est de considérer les angles entre vecteurs : une similarité entre deux vecteurs peut être mesurée par le cosinus de leur angle : dj d k sim(d j,d k ) = d j. d k = n i=1 w i,jw i,k n i=1 w i,j 2 n i=1 w i,k 2 Combinaison possible avec le modèle booléen les meilleurs documents contiennent les éléments de la requête puis éléments de la requête rapprochés enfin, mesure de score basée sur le poids des termes
32 Limitations du vocabulaire Le nombre de concepts à désigner est beaucoup plus grand que la taille du vocabulaire il faut pouvoir combiner des mots pour diminuer la polysémie des entrées du dictionnaire et pouvoir désigner de façon non ambiguë Le sens des mots composés ne se déduit pas directement du sens des mots qui les composent AN : grand-mère, beau joueur NA : carte bleue, gare routière NàN : machine à laver, pompe à vélo NdeN : traitement de texte, pomme de terre NN : homme-grenouille, science-fiction PN : sans-abris, contre-proposition VN : attrape-mouche, porte-drapeau
33 Mots composés - Critères Atomicité sémantique Le sens des mots composés ne peut être décomposé, ex : le sens de pomme de terre ne s obtient pas à partir d un sens de pomme et d un sens de terre. Institutionalisation de l usage L utilisation des mots composés relève d un choix largement partagé, ex : on parle de traitement de textes et non de *logiciel à écrire ou de *processeur de mots. Inséparabilité des composants Il n est pas possible de séparer les composants d un mot composé pour y adjoindre des modifieurs, ex : une *pomme de bonne terre n est plus liée sémantiquement à une pomme de terre.
34 Termes Les termes désignent des concepts dans des domaines techniques particuliers, ils ne remplissent pas nécessairement les critères des mots composés entretien (périodique) de la chaudière ministre (luxembourgeois) des affaires étrangères Le sens des termes peut varier d un domaine à l autre. ex : lignes aériennes trajets d avions (domaine aéronautique) lignes électrique (domaine du transport de l énergie) lignes téléphoniques (domaine des télécommunications) Économie et précision réutilisation de termes existants par juxtaposition ou composition (ex : flux de sang capillaire obtenu à partir de flux de sang) ajout de modifieurs lorsqu un terme est ambigu (ex : glande endocrine pancréatique est plus précis que glande endocrine)
35 Termes et construction de terminologie La conception classique du terme est réductrice : la connaissance est découpée a priori en domaines stables représentables par des réseaux de concepts dont les termes sont les représentants linguistiques Or, les terminologies peuvent varier en fonction de l application pour un même domaine de connaissances On peut donc voir le terme comme le résultat d une analyse terminologique (Bourigault et Jacquemin, 2000) : décision sur le statut de terme d une unité, qui débouche davantage sur la construction d une terminologie plutôt que sa découverte Cette construction doit se faire selon une double pertinence : vis-à-vis du corpus : termes à la fois spécifiques au domaine et stables dans le corpus vis-à-vis de l application visée : termes utiles et permettant une certaine efficacité
36 Ingénierie terminologique Basée sur une réflexion méthodologique sur l activité d analyse terminologique sur un corpus de référence plutôt que sur une théorie Travail mené de façon incrémentale par un analyste (terminologue) Validation par des experts qui jugent de la conformité au domaine des propositions du terminologue, et par des utilisateurs sur l application utilisant les ressources construites Nécessité d automatiser autant que possible la tâche de construction Typologie fonctionnelle des travaux en construction de terminologie : Acquisition de termes : extraction de candidats termes à partir d un corpus validés par un terminologue (approche syntaxique et/ou statistique) Structuration de termes : aide à la structuration d ensembles de termes (classification automatique ou repérage de relations) Alignement de termes : alignement de termes à partir de corpus multilingues
37 Acquisition terminologique Objectif Extraire des documents des informations linguistiques compactes et représentatives de leur contenu. Applications indexation, résumé, construction de thésaurus, etc. Extensions reconnaissance d entités nommées (ex : dates, noms propres, montants numériques, noms de lieux, d institutions, de pays, etc.)
38 Acquisition et reconnaissance terminologiques Deux domaines complémentaires : Acquisition : on cherche à découvrir des occurrences de termes dans les documents au moyen de techniques linguistiques ou statistiques Reconnaissance : un ensemble de termes contrôlés étant donné, on cherche à reconnaître les occurrences de ces termes ou de leurs variantes dans les documents sans données initiales avec données initiales sur des documents quelconques sur des documents connus indexation libre acquisition terminologique indexation contrôlée enrichissement de thésaurus
39 Termes simples ou multi-mots Les enjeux sont différents pour un système d extraction terminologique en fonction du type de termes visé : simples : généralement ambigus, requièrent une désambiguïsation utilisant le contexte d apparition du terme chaîne (de montagne? outil? séquence d éléments chimiques? etc.) multi-mots : moins ambigus mais sujets aux variations, requièrent une analyse syntaxique ou des mesures statistiques de cooccurrence chaîne des Puys chaîne de l espoir réactions en chaîne chaîne N-glycosylée scie à chaîne
40 Acquisition de terminologies à partir de corpus Au départ, extraction de termes candidats principalement sur le français et en milieu industriel types de termes plus difficiles à repérer qu en anglais par exemple (utilisation de prépositions et de déterminants Vs juxtaposition de noms et d adjectifs) besoin fort pour la traduction (ex : information retrieval recherche d information, natural language processing traitement automatique des langues) disponibilité des corpus techniques Projets pionniers Acabit (Daille, 1994) : IBM, construction de lexiques terminologiques multilingues pour la traduction ANA (Enguehard, 1995) : CEA, enrichissement de réseaux lexicaux exploités par un système de gestion de connaissances Lexter (Bourigault, 1996) : EDF, mise à jour d un thésaurus utilisé par un système d indexation automatique
41 Acabit (Daille, 1994) Acquisition terminologique par analyse superficielle et filtrage statistique : Acquisition sur un corpus pré-étiqueté et désambiguïsé Deux étapes : 1 Analyse linguistique et regroupement de variantes : analyse du corpus par des transducteurs et production de candidats termes binaires Nom Adj : connaissances informatiques Nom1 à (Det) Nom2 : aide à domicile Nom1 Prep Nom2 : vente par téléphone etc. décomposition : réseau de transit à satellite réseau de transit et réseau à satellite 2 Filtrage statistique : tri des candidats termes à partir d un corpus de référence et de termes valides. Comparaison de mesures statistiques en fonction de leur capacité à distinguer les termes des séquences ne correspondant pas à des termes, ex : information mutelle au cube I 3 (x,y) = log 2 nb(x,y) 3 nb(x).nb(y)
42 Acabit - Regroupement des variantes Des transformations syntaxiques permettent d associer une forme de base à plusieurs variantes coordination de termes assemblage et désassemblage de paquets assemblage de paquets, désassamblage de paquets surcomposition de termes réseau de transit à satellites réseau de transit, réseau à satellites modification adjectivale de termes liaisons multiples par satellites liaison par satellites
43 ANA (Enguehard, 1995) Extraction de termes candidats sans analyse linguistique : Module de familiarisation : l utilisateur fournit une liste de termes initiale (bootstrap) Module de découverte de termes : repérage incrémental de répétitions de séquences de deux mots dont au moins un est déjà un terme : 1 associations fréquentes de deux termes (ex : cœur du réacteur) 2 associations fréquentes d un mot avec un terme, dans une structure de type X du T (ex : température du réacteur, où réacteur est un terme), ou dans une structure T X (ex : structure interne, où structure est un terme) Arrêt lorsqu aucun nouveau terme n est découvert Organisation des terme en réseau qui relie les termes partageant les mêmes têtes ou les mêmes arguments
44 Lexter (Bourigault, 1996) Acquisition terminologique par analyse superficielle Acquisition sur un corpus pré-étiqueté et désambiguïsé Trois étapes : 1 Extraction de syntagmes nominaux maximaux : repérage de frontières syntaxiques (ex : verbes, conjonctions) les clapets situés sur les tubes d alimention clapets, tubes d alimentation 2 Décomposition de syntagmes nominaux : analyse récursive et extraction de têtes et d expansions, avec désambiguïsation sur corpus rejet d air froid rejet froid, air froid seul air froid est conservé après recherche sur corpus 3 Structuration en réseau : chaque terme candidat est lié à ceux dont il est tête ou expansion. Calcul d un coefficient de productivité pour mesurer la densité du réseau autour d un terme.
45 Lexter - structuration du réseau terminologique
46 Terms (Justeson et Katz, 1995) Repose sur 2 hypothèses issues de l analyse de corpus techniques et de dictionnaires spécialisés : Les termes sont répétés dans un document technique plus fréquemment que les syntagmes non terminologiques Les termes ont une structure et des variantes différentes de celles des syntagmes non terminologiques Utilisation d un filtrage par un patron de catégories morpho-syntaxiques décrit par l expression régulière (pour l anglais) : ((A N)+ (A N)* (N P) (A N)*) N
47 XTract (Smadja, 1993) Extracteur de collocations (associations lexicales préférentielles et répétées) Hypothèses : les mots dans une collocation apparaissent ensemble plus fréquemment que par hasard (cf. mesure de l information mutuelle) les mots apparaissent dans une palette limitée de positions relatives correspondant à des contraintes syntaxiques particulières Trois modules : 1 Extraction de collocations binaires : couples de mots associés à une distance fixe rencontrés plus fréquemment que par hasard (ex : rachat coûteux) 2 Expansion des collocations : itération pour construire des collocations comprenant plus de deux mots 3 Étiquetage des collocations : un analyseur linguistique étiquette les collocations selon trois familles : collocations prédicatives telles que verbe support + nom prédicatif (ex : make decision) ; syntagmes figés (ex : stock market) ; phrases à trous (ex : X increase) À la différence d Acabit, le filtrage linguistique est effectué en sortie de la sélection statistique
48 Fastr (Jacquemin, 1997) Analyseur syntaxique robuste pour la reconnaissance de termes appartenant à une liste contrôlée Détection des variantes des termes en corpus (formes linguistiques différentes) Variations capturées par des métarègles opérant à différents niveaux : morpho-syntaxique : flux de sève mesurés est une variation de mesure de flux s appuyant sur le lien morphologique entre le verbe mesurer et le nom mesure syntaxique : mesure de volume et de flux est une variante de mesure de flux obtenue par coordination syntaxico-sémantique : évaluation de flux est une variante de mesure de flux s appuyant sur le lien sémantique existant entre les noms évaluation et mesure L objectif n est pas d acquérir des termes de façon massive, mais d enrichir des terminologies existantes avec des variantes de termes connus Application à la recherche d information : indexation contrôlée
49 Exit (Roche et al., 2004) Extraction itérative de la terminologie Extraction de termes sur un corpus normalisé et étiqueté Réinjection des termes reconnus sous forme d éléments uniques 1ère itération : assistant de gestion 2ème itération : assistant-de-gestion de production Sélection de mesures statistiques sur leur capacité à reconnaître des termes Comparaison de courbes d élévation, correspondant à la variation de la précision des termes en fonction du nombre de termes proposés à l expert precision = rappel = nb candidats termes pertinents extraits nb candidats termes extraits nb candidats termes pertinents extraits nb candidats termes pertinents : incalculable
50 Acquisition terminologique - bilan Acabit Ana Lexter Terms XTract Fastr Exit étiquetage X X X X X racinisation X X patrons syntaxiques X X X X X filtrage X X X X X X statistique incrémentalité X X X
51 La variation terminologique L interprétation du contenu des textes est nécessaire pour évaluer leur pertinence relativement à une requête Des techniques de surface peuvent parfois extraire de bons indicateurs de contenu, par exemple ceux qu un humain extrait visuellement lorsqu il parcourt rapidement un texte Compromis : analyse peu profonde et non sensible au domaine des documents analyse fine requerrant des connaissances sur un domaine précis Les termes constituent de très bons candidats pour l indexation documentaire : ils peuvent être extraits par des techniques peu profondes et ils révèlent des concepts abordés dans les documents Problèmes : comment reconnaître automatiquement des termes? comment repérer les variantes de termes connus? ces variantes désignent-elles exactement les mêmes concepts?
52 Termes pour la recherche d information Un concept dénoté par un terme peut apparaître sous de nombreuses formes, ex. pour loan offer :... offer our commercial customers credit commercial loans offer a complete range of home investment and business loans offering a special jumbo mortgage loan... Mais il ne s agit pourtant pas de repérer les mots composant un terme dans une fenêtre de taille fixée :... interlibrary loan continues to offer a full range of services to our graduate students education loan center offers tutorials about references about financing scholarships... Il serait impossible pour les terminologues d énumérer a priori toutes les variantes des termes...
53 La variation terminologique Objectif : mettre en relation des segments de texte qui sont conceptuellement proches mais diffèrent dans leur construction linguistique Variation terminologique - Définition (Jacquemin, 2001) Une variation terminologique est une transformation d un terme contrôlé qui satisfait les 4 conditions suivantes : 1 les mots pleins du termes sont conservés par la transformation, ou ils sont transformés en des mots morphologiquement ou sémantiquement liés 2 les variations peuvent être morphologiques, syntaxiques, sémantiques ou une combinaison 3 les relations de dépendances dans le terme d origine doivent être conservées 4 les variantes ne doivent pas contenir le terme de départ (ou une flexion)
54 La variation terminologique Condition 1 Les mots pleins du termes sont conservés par la transformation, ou ils sont transformés en des mots morphologiquement ou sémantiquement liés Ex : recognized neural cells est une variante de cell recognition car cell est conservée et recognized et recognition sont liés morphologiquement Les mots outils (ex : prépositions, déterminants) peuvent être supprimés ou remplacés par une transformation, ex : réserve en eau est une variante de réserve d eau
55 La variation terminologique Condition 2 Les variations peuvent être morphologiques, syntaxiques, sémantiques ou une combinaison Les variantes qui ne mettent en jeu ni variation morphologique ni variation sémantique sont dites syntaxiques, ex : language comprehension et comprehension of language Les variantes mettant en jeu des mots appartenant à une même famille morphologique sont dites morphologiques, ex : determine the structure et structure determination Les variantes mettant en jeu des mots appartenant à une même famille sémantique sont dites sémantiques, ex : language comprehension et speech comprehension
56 La variation terminologique Condition 3 Les relations de dépendances dans le terme d origine doivent être conservées L ordre des mots dans les variantes peut être modifié et de nouveaux mots peuvent être insérés, mais les dépendances existant dans le terme d origine doivent être conservées Ex : pressure fluctuation et fluctuation in mean arterial blood pressure sont des variantes, car la dépendance entre pressure et fluctuation se retrouve dans les deux
57 La variation terminologique Condition 4 Les variantes ne doivent pas contenir le terme de départ (ou une flexion) Ex : mean arterial pressures n est pas une variante de arterial pressure car la suite de mots du terme controllé n est pas modifiée
58 Exemples de variations Exemples de variations sur le terme genetic disease : genetic diseases : flexion disease is genetic : syntaxique hereditary disease : sémantique genetically determined forms of the disease : morpho-syntaxique disease is familial : syntaxico-sémantique transmissible neurodegenerative diseases : syntaxico-sémantique genetic risk factors for coronary artery disease : pas une variante Distribution des variantes : par exemple, dans un corpus scientifique en anglais, 1/3 des occurrences de termes sont des variantes : 9% syntaxiques, 6.5% morpho-syntaxiques, 22% sémantiques (Jacquemin, 1999)
59 Ressources pour la reconnaissance des variantes normalisation flexionnelle : lemmatiseur normalisation morphologique : base de données lexicale avec les structures des mots normalisation syntaxique : règles de réécritures normalisation sémantique : une ressource avec des liens sémantiques
60 Fastr (Jacquemin, 1997) Formalisme pour la reconnaissance des variantes morphologiques à trois niveaux : Premier niveau : mots simples et liens morphologiques et sémantiques Deuxième niveau : termes construits sur les mots simples Troisième niveau : variations qui transforment les règles et termes en règles de variantes dimension syntagmatique : transformations structurales dimension paradigmatique : liens morphologiques et sémantiques
61 Fastr - Vue d ensemble
62 Fastr - Reconnaissance de variantes
63 Fastr - Indexation
64 Fastr - Sortie Exemple de sortie d indexation : Preliminary results from experiments conducted on parsing speech, which recognized spontaneous speech, are also reported. Doc Terme Variante Variation 148 Experimental results from experiments XX,31,AtoN results 148 Preliminary results preliminary results Speech recognition recognized spontaneous XX,20,NtoV speech 148 Spontaneous speech spontaneous speech 0
65 Fastr - Formalisme pour les deux premiers niveaux Utilisation de grammaires d unification (Shieber, 1986) Règles de termes composées : d un squelette hors-contexte (constituants) de contraintes représentées par des graphes acycliques Mots simples : Word disease : <cat> = Noun. Termes multi-mots : Rule Noun1 -> Adj2 Noun3 : <Noun1 lexicalisation> = Noun3 <Noun1 label> = <Adj2 lemma> = genetic <Noun3 lemma> = disease.
66 Fastr - Structures de traits Rule Noun1 -> Adj2 Noun3 : <Noun1 lexicalisation> = Noun3 <Noun1 label> = <Noun1 agreement> = <Noun3 agreement> <Adj2 lemma> = genetic <Noun3 lemma> = disease.
67 Fastr - Lexique enrichi de liens Addition de liens morphologiques et sémantiques aux mots simples : Word genetic : <cat> = Adj <syn> = ( familial,a) ( genetic,a) ( genetical,a)... Word geneticist : <cat> = N <root> = ( genetic,a). Word genetics : <cat> = N <root> = ( genetic,a).
68 Fastr - Exploitation de ressources existantes Divers imports : Familles morphologiques de la base lexicale CELEX, ex : genetic\a\ : genetically\adv\-ally geneticist\n\-s,ist genetics\n\-s genetic\a\- Relations sémantiques de WordNet (Miller et al., 1993), ex : 3 senses of genetic Sense 1 : familial, genetic, hereditary, inherited, transmitted, transmissible Sense 2 : genic, genetic Pertains to noun gene (sense 1) Sense 3 : genetic, genetical Pertains to noun genetics (sense 1) genetic\a\ : familial\a\genetic\a\hereditary\a\ inherited\a\transmitted\a\transmissible\a\ genic\a\genetical\a\
69 Fastr - Étiquetage par le TreeTagger Analyse par le TreeTagger (ex : Mammals inflected by scrapie...) : Mammals <lem> = mammal <cat> = N <agr num> = plu. inflected <lem> = inflect <cat> = V <ten> = pastparticiple. with <lem> = with <cat> = PREP. scrapie <lem> = scrapie <cat> = N <agr num> = sin....
70 Fastr - Consultation lexicale Enrichissement des informations lexicales :
71 Exemple : métarègle de coordination Règle de terme initiale : Rule N1 -> A2 N3 : <N1 lexicalization> = N3 <A2 lemma> = umbilical <N3 lemma> = artery <N1 agreement> = <N3 agreement>. Métarègle de coordination Metarule Coor(N1 -> A2 N3) = N1 -> A2 C4 A5 N3 :. Règle de terme transformée Rule N1 -> A2 C4 A5 N3 : <N1 lexicalization> = N3 <A2 lemma> = umbilical <N3 lemma> = artery <N1 agreement> = <N3 agreement>. Exemple de variante : umbilical or carotid artery
72 Expressions régulières dans les métarègles Métarègle de coordination : Metarule Coor(N1 -> A2 N3) = N1 -> A2 <C {A N}1-3 > N3 :. Règle de terme transformée : Rule N1 -> A2 <C {A N}1-3 > N3 : <N1 lexicalization> = N3 <A2 lemma> = umbilical <N3 lemma> = artery <N1 agreement> = <N3 agreement>. Exemple de variante : umbilical or middle cerebral artery Opérateurs : + *? X1-X2
73 Contraintes dans les métarègles Métarègle de coordination filtrante Metarule Coor(N1 -> N2 N3) = N1 -> N2 <C {A N}1-3 > N3 : <N2 agreement>!= plural. Accepte :... the damage of tumor or nontumorous hepatic cells... Rejette :... but failed to lyse tumors or cells... Métarègle avec des liens morphologiques Metarule NounToAdj(N1 -> N2 N3) = N1 -> A4 N3 : <N2 root> = <A4 root>. Reconnaît : enzymatic activity comme une variante de enzyme activity Métarègle avec des liens sémantiques Metarule SemArg(N1 -> A2 N3) = N1 -> A4 N3 : <A2 syn> = <A4 syn>. Reconnaît : hard lens comme une variante de rigid lens
74 Principaux types de variantes syntaxiques Coordination femoral and carotid arteries femoral artery Modification femoral cutaneous nerve femoral nerve Permutation comprehension of language language comprehension
75 Principaux types de variantes sémantiques Synonymie neural tissue nervous tissue Antonymie automatic control manual control Hyponymie apple juice fruit juice Méronymie security report security analysis
76 Fonctionnement des métarègles Exemple : genetic disease et disease is familial Metarule PermSemArg(X1 -> X2 N3) = X1 -> N3 Adv? Vaux? V4 Adv? X4 : <V4 lem> = be <X2 syn> = <X4 syn> <X2 cat> = <X4 cat>.
77 Fastr - Type d application des règles Deux approches pour implémenter la génération des règles transformées par les métarègles : Application à la compilation calcul des règles transformées une fois pour toutes en prétraitement ensemble important demandant de fortes capacités de stockage et des techniques d accès rapide aux données Application à l exécution les règles transformées sont calculées dynamiquement à la demande surcharge calculatoire à l exécution capacité de ne générer que dans les cas pertinents Fastr : analyse transformationnelle analyse différentielle (lien entre une variante et un terme source) analyse implicite (paraphrase sans calcul du sens) analyse partielle (restreinte aux parties pertinentes) analyse lexico-syntaxique (exploitation des termes multi-mots)
78 Exempe de métarègle Default metarules : [2] XX "METARULE X X" "language processing -> language automatic understanding or processing" Metarule Coor ( X1 -> X2 N3 ) = X1 -> X2 < {A N}1-3 PUNC? > C4 < {A N}? > N3 : <X2 num>! plu <X1 metalabel> = XX.
79 Bibliographie du cours Bourigault, D. (1996) LEXTER, a Natural Language Processing tool for terminology extraction, Proceedings of the 7th EURALEX international congress, Gotebord, Suède Bourigault, D. et C. Jacquemin (2000) Construction de ressources terminologiques, dans Ingénierie des Langues, sous la direction de J.-M. Pierrel, Hermès Daille, B. (1994) Approche mixte pour l extraction de terminologie : statistique lexicale et filtres linguistiques, Thèse en informatique fondamentale, Université Paris 7 Fluhr, C. (2000) Indexation et recherche d information textuelle, in Ingénierie des Langues, Jean-Marie Pierrel éditeur, Hermès Jacquemin, C. (1997) Variation terminologique : reconnaissance et acquisition automatiques de termes et de leurs variantes en corpus, Mémoire d habilitation à diriger des recherches en informatique fondamentale, Université de Nantes
80 Bibliographie du cours Jacquemin, C. (1999) Syntagmatic and paradigmatic representations of term variation, Actes de ACL 99, University of Maryland Jacquemin, C. (2001) Spotting and Discovering Terms through Natural Language Processing, MIT Press, Cambridge, États-Unis Jacquemin, C. (2004) Indexation et Recherche d Information, Cours de DESS II et SCHM, Université Paris-Sud 11 Lefèvre, P. (2000) La recherche d informations, Hermès Sciences, Paris Manning, C. et P. Raghavan (2004) Text retrieval and mining, CS276A, Cours, Université Stanford Roche M., T. Heitz, O. Matte-Tailliez et Y. Kodratoff (2004) EXIT : Un système itératif pour l extraction de la terminologie du domaine à partir de corpus spécialisés, dans Actes de JADT 04, Louvain-la-Neuve, Belgique
Apprentissage Automatique
Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Plus en détailRecherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA
RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE
Plus en détailIntelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com
Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines
Plus en détail1 Description générale. Résumé
Station Sensunique: une plateforme Web modulaire, collaborative et évolutive d acquisition assistée de ressources terminologiques et non terminologiques (orientée Langues Contrôlées) Izabella Thomas 1,
Plus en détailRecherche d Information(RI): Fondements et illustration avec Apache Lucene. par Majirus Fansi @majirus
1 Recherche d Information(RI): Fondements et illustration avec Apache Lucene par Majirus Fansi @majirus Résumé Fondements de la Recherche d Information (RI) Noyau de toute application de RI Éléments à
Plus en détailBases de données documentaires et distribuées Cours NFE04
Bases de données documentaires et distribuées Cours NFE04 Introduction a la recherche d information Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département
Plus en détailINDEXATION ET RECHERCHE D'INFORMATION (IRI) Cours DESS II et SCHM, Université Paris 11
INDEXATION ET RECHERCHE D'INFORMATION (IRI) Cours DESS II et SCHM, Université Paris 11 Christian Jacquemin (Université Paris 11 et LIMSI-CNRS) jacquemin@limsi.fr http://www.limsi.fr/individu/jacquemi/
Plus en détailUTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES
UTILISATION DU WEB COMME MEGA-BASE DE DONNÉES LINGUISTIQUE : APPLICATION À LA TRADUCTION DE COOCCURRENCES LEXICALES FRANÇAISES-ANGLAISES Chrystel Millon & Stéphanie Léon Equipe DELIC Université de Provence
Plus en détail! Text Encoding Initiative
Format XML: suite! le contenu d un élément est la concaténation de! texte! et d éléments (imbrication)! => structure arborescente! pas de chevauchement de balises! => exemple : une analyse syntagmatique
Plus en détailDe la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues
De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox
Plus en détailGestion collaborative de documents
Gestion collaborative de documents ANT box, le logiciel qui simplifie votre GED Les organisations (entreprises, collectivités, associations...) génèrent chaque jour des millions de documents, e-mails,
Plus en détailConstruction d ontologies à partir de textes
TALN 2003, Batz-sur-Mer, 11-14 juin 2003 Construction d ontologies à partir de textes Didier Bourigault (1) et Nathalie Aussenac-Gilles (1) ERSS CNRS & Université Toulouse le Mirail 5, allées Antonio Machado
Plus en détailLIVRE BLANC Décembre 2014
PARSING MATCHING EQUALITY SEARCH LIVRE BLANC Décembre 2014 Introduction L analyse des tendances du marché de l emploi correspond à l évidence à une nécessité, surtout en période de tension comme depuis
Plus en détailN 334 - SIMON Anne-Catherine
N 334 - SIMON Anne-Catherine RÉALISATION D UN CDROM/DVD CONTENANT DES DONNÉES DU LANGAGE ORAL ORGANISÉES EN PARCOURS DIDACTIQUES D INITIATION LINGUISTIQUE A PARTIR DES BASES DE DONNÉES VALIBEL Introduction
Plus en détailAccès instantané aux mots et aux locutions Le dictionnaire électronique offre une traduction rapide d'un mot ou d'une locution
@promt Office 8.0 Description abrégée Spécifiquement conçu pour la maison et les petites entreprises Traduction de documents, de courriers électroniques et de messages instantanés ICQ Traduction de pages
Plus en détailStructuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe
Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,
Plus en détailStéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 25/12/2006 Stéphane Tufféry - Data Mining - http://data.mining.free.fr
1 Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE 2 Plan du cours Qu est-ce que le data mining? A quoi sert le data mining? Les 2 grandes familles de techniques Le déroulement d un projet de data
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailExtraction automatique de terminologie à partir de libellés textuels courts
Extraction automatique de terminologie à partir de libellés textuels courts Jean-Claude Meilland ismart Le Mercure A, 565 Rue Berthelot 13851 Aix en Provence Cedex 3 (France) jean-claude.meilland@ismart.fr
Plus en détailRecherche bibliographique
Séminaire «Maîtrise de l information scientifique» Recherche bibliographique Dernière mise à jour : 07/01/2015 - Auteur : Frédérique Flamerie Recherche bibliographique : méthode & outils La recherche bibliographique
Plus en détailGrammaires d unification
Cours sur le traitement automatique des langues (IV) Violaine Prince Université de Montpellier 2 LIRMM-CNRS Grammaires d unification Grammaire catégorielle Grammaire syntagmatique généralisée (GPSG) Les
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailModélisation des données
Modélisation des données Le modèle Entité/Association Le MCD ou modèle Entité/Association est un modèle chargé de représenter sous forme graphique les informations manipulées par le système (l entreprise)
Plus en détailUn dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus
JEP-TALN 2004, Traitement Automatique de l Arabe, Fès, 20 avril 2004 Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus ZAAFRANI Riadh Faculté des Sciences Juridiques,
Plus en détailACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES
ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES Techniques symboliques de traitement automatique du langage pour l indexation thématique et l extraction d information temporelle Thèse Défense publique
Plus en détailSciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION
Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information
Plus en détailRessources lexicales au service de recherche et d indexation des images
RECITAL 2011, Montpellier, 27 juin - 1er juillet 2011 Ressources lexicales au service de recherche et d indexation des images Inga Gheorghita 1,2 (1) ATILF-CNRS, Nancy-Université (UMR 7118), France (2)
Plus en détailTEXT MINING Tour d Horizon
TEXT MINING Tour d Horizon Media Campus WAN IFRA "Structurer, optimiser et valoriser son contenu éditorial : les outils de text mining" 24 novembre 2009, PARIS Philippe BONNY Cabinet de Conseil et d Etudes
Plus en détailAnalyse de la vidéo. Chapitre 4.1 - La modélisation pour le suivi d objet. 10 mars 2015. Chapitre 4.1 - La modélisation d objet 1 / 57
Analyse de la vidéo Chapitre 4.1 - La modélisation pour le suivi d objet 10 mars 2015 Chapitre 4.1 - La modélisation d objet 1 / 57 La représentation d objets Plan de la présentation 1 La représentation
Plus en détailet les Systèmes Multidimensionnels
Le Data Warehouse et les Systèmes Multidimensionnels 1 1. Définition d un Datawarehouse (DW) Le Datawarehouse est une collection de données orientées sujet, intégrées, non volatiles et historisées, organisées
Plus en détailMaster d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien
Master d Informatique M1 Université Paris 7 - Denis Diderot Travail de Recherche Encadré Surf Bayesien Denis Cousineau Sous la direction de Roberto di Cosmo Juin 2005 1 Table des matières 1 Présentation
Plus en détailEXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version 1.0 30/11/05
EXCEL PERFECTIONNEMENT Version 1.0 30/11/05 SERVICE INFORMATIQUE TABLE DES MATIERES 1RAPPELS...3 1.1RACCOURCIS CLAVIER & SOURIS... 3 1.2NAVIGUER DANS UNE FEUILLE ET UN CLASSEUR... 3 1.3PERSONNALISER LA
Plus en détailLe modèle standard, SPE (1/8)
Le modèle standard, SPE (1/8) Rappel : notion de grammaire mentale modulaire Les composants de la grammaire : module phonologique, sémantique syntaxique Syntaxe première : elle orchestre la relation mentale
Plus en détailL analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :
La vision nous permet de percevoir et d interpreter le monde qui nous entoure. La vision artificielle a pour but de reproduire certaines fonctionnalités de la vision humaine au travers de l analyse d images.
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailPlan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation
Complex Event Processing Traitement de flux de données en temps réel Romain Colle R&D Project Manager Quartet FS Plan Génération et exploitation de données CEP et applications Flux de données et notifications
Plus en détailLES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN
LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailTRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie
TRAITEMENT AUTOMATIQUE DES LANGUES Licence d'informatique 2ème Année Semestre 1 Département d'informatique Université de Caen Basse-Normandie https://dias.users.greyc.fr/?op=paginas/tal.html Plan Définition
Plus en détailIFT2255 : Génie logiciel
IFT2255 : Génie logiciel Chapitre 6 - Analyse orientée objets Section 1. Introduction à UML Julie Vachon et Houari Sahraoui 6.1. Introduction à UML 1. Vers une approche orientée objet 2. Introduction ti
Plus en détailCatalogue des formations Edition 2015
Antidot - Formations Catalogue des formations Edition 2015 : catalogue_formation_2015 Révision du 06.01.2015 Sommaire!!"##$%&'( )! $*$+,(-'(."##'+.'&( /!,'.0+"1"2%'( /!!."3'( /! $(3&"3"!(-4(5(.$,$1"24'(-'!(6"&#$,%"+!(7('-%,%"+()89:(;(
Plus en détailTEXT MINING. 10.6.2003 1 von 7
TEXT MINING 10.6.2003 1 von 7 A LA RECHERCHE D'UNE AIGUILLE DANS UNE BOTTE DE FOIN Alors que le Data Mining recherche des modèles cachés dans de grandes quantités de données, le Text Mining se concentre
Plus en détailConstruction et maintenance d une ressource lexicale basées sur l usage
Construction et maintenance d une ressource lexicale basées sur l usage Laurie Planes 1, (1) Inbenta France, 164 route de Revel, 31400 TOULOUSE lplanes@inbenta.com Résumé. Notre société développe un moteur
Plus en détailEntrepôt de données 1. Introduction
Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailMODELISATION UN ATELIER DE MODELISATION «RATIONAL ROSE»
MODELISATION UN ATELIER DE MODELISATION «RATIONAL ROSE» Du cours Modélisation Semi -Formelle de Système d Information Du Professeur Jean-Pierre GIRAUDIN Décembre. 2002 1 Table de matière Partie 1...2 1.1
Plus en détailHistorique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications
L intelligence économique outil stratégique pour l entreprise Professeur Bernard DOUSSET dousset@irit.fr http://atlas.irit.fr Institut de Recherche en Informatique de Toulouse (IRIT) Equipe Systèmes d
Plus en détailSOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique
SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique DOMAINE P3.C3.D1. Pratiquer une démarche scientifique et technologique, résoudre des
Plus en détailJADT 2010-11/06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire
JADT 2010-11/06/2010 Rome Utilisation de la visualisation en nuage arboré pour l'analyse littéraire Delphine Amstutz (CELLF Université Paris-Sorbonne Paris 4 / CNRS) Philippe Gambette (LIRMM Université
Plus en détailEXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE
ème Colloque National AIP PRIMECA La Plagne - 7- avril 7 EXTRACTION DE CONNAISSANCES À PARTIR DE DONNÉES TEXTUELLES VUE D ENSEMBLE Bruno Agard Département de Mathématiques et de Génie Industriel, École
Plus en détailClassification Automatique de messages : une approche hybride
RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,
Plus en détailSélection d un moteur de recherche pour intranet : Les sept points à prendre en compte
Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte 1Les bases : vos objectifs 2 Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte
Plus en détailFormula Negator, Outil de négation de formule.
Formula Negator, Outil de négation de formule. Aymerick Savary 1,2, Mathieu Lassale 1,2, Jean-Louis Lanet 1 et Marc Frappier 2 1 Université de Limoges 2 Université de Sherbrooke Résumé. Cet article présente
Plus en détailCompte-rendu de Hamma B., La préposition en français
Compte-rendu de Hamma B., La préposition en français Badreddine Hamma To cite this version: Badreddine Hamma. Compte-rendu de Hamma B., La préposition en français. Revue française de linguistique appliquée,
Plus en détailhttp://mondomaine.com/dossier : seul le dossier dossier sera cherché, tous les sousdomaines
Principales fonctionnalités de l outil Le coeur du service suivre les variations de position d un mot-clé associé à une URL sur un moteur de recherche (Google - Bing - Yahoo) dans une locale (association
Plus en détailUnix/Linux I. 1 ere année DUT. Université marne la vallée
Unix/Linux I 1 ere année DUT Université marne la vallée 1 Introduction 2 Fonctions et spécifité d Unix Architecture 3 4 5 Fichier Unix Arborescence de fichiers Quelques commandes sur les fichiers Chemins
Plus en détail1. Cliquez sur dans le coin supérieur gauche de l'écran 2. Sélectionnez la Langue de l'interface désirée 3. Cliquez sur
NOTIFICATIONS GUIDE Le module Notifications permet de retrouver des notifications en utilisant les champs spécifiques de la base de données du Registre central des notifications (RCN). Il comporte une
Plus en détailSujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.
Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de
Plus en détailArchitecture d'entreprise : Guide Pratique de l'architecture Logique
Guides Pratiques Objecteering Architecture d'entreprise : Guide Pratique de l'architecture Logique Auteur : Version : 1.0 Copyright : Softeam Equipe Conseil Softeam Supervisée par Philippe Desfray Softeam
Plus en détailComment déterminer les définitions les plus pertinentes d un sigle donné?
Comment déterminer les définitions les plus pertinentes d un sigle donné? Application au Domaine Biomédical Mathieu Roche, Violaine Prince LIRMM, Université Montpellier 2 CNRS UMR5506, {mroche,prince}@lirmm.fr
Plus en détailLes Entrepôts de Données
Les Entrepôts de Données Grégory Bonnet Abdel-Illah Mouaddib GREYC Dépt Dépt informatique :: GREYC Dépt Dépt informatique :: Cours Cours SIR SIR Systèmes d information décisionnels Nouvelles générations
Plus en détailInformation utiles. cinzia.digiusto@gmail.com. webpage : Google+ : http://www.ibisc.univ-evry.fr/ digiusto/
Systèmes de gestion de bases de données Introduction Université d Evry Val d Essonne, IBISC utiles email : cinzia.digiusto@gmail.com webpage : http://www.ibisc.univ-evry.fr/ digiusto/ Google+ : https://plus.google.com/u/0/b/103572780965897723237/
Plus en détailMulti-catégorisation de textes juridiques et retour de pertinence
Multi-catégorisation de textes juridiques et retour de pertinence Vincent Pisetta, Hakim Hacid et Djamel A. Zighed article paru dans G. Ritschard et C. Djeraba (eds), Extraction et gestion des Connaissances
Plus en détailTHOT - Extraction de données et de schémas d un SGBD
THOT - Extraction de données et de schémas d un SGBD Pierre-Jean DOUSSET (France), Benoît ALBAREIL (France) pj@miningdb.com, benoit@miningdb.com Mots clefs : Fouille d information, base de données, système
Plus en détailTraitement bas-niveau
Plan Introduction L approche contour (frontière) Introduction Objectifs Les traitements ont pour but d extraire l information utile et pertinente contenue dans l image en regard de l application considérée.
Plus en détailRecherche d information textuelle
Recherche d information textuelle Recherche Web B. Piwowarski CNRS / LIP6 Université Paris 6 benjamin@bpiwowar.net http://www.bpiwowar.net Master IP - 2014-15 Cours et travaux pratiques basés sur les documents
Plus en détailBases de données Cours 1 : Généralités sur les bases de données
Cours 1 : Généralités sur les bases de données POLYTECH Université d Aix-Marseille odile.papini@univ-amu.fr http://odile.papini.perso.esil.univmed.fr/sources/bd.html Plan du cours 1 1 Qu est ce qu une
Plus en détailÉvaluation et implémentation des langages
Évaluation et implémentation des langages Les langages de programmation et le processus de programmation Critères de conception et d évaluation des langages de programmation Les fondations de l implémentation
Plus en détailChapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème
Chapitre IX L intégration de données Le problème De façon très générale, le problème de l intégration de données (data integration) est de permettre un accès cohérent à des données d origine, de structuration
Plus en détailIntroduction aux SGBDR
1 Introduction aux SGBDR Pour optimiser une base Oracle, il est important d avoir une idée de la manière dont elle fonctionne. La connaissance des éléments sous-jacents à son fonctionnement permet de mieux
Plus en détailProgramme. Matière : RECHERCHE D INFORMATION Crédit : 4 Cours : 1h30 TD : 1h30 Semestre : S1 du M1 Assuré par: Herzallah Abdelkarim
Matière : RECHERCHE D INFORMATION Crédit : 4 Cours : 1h30 TD : 1h30 Semestre : S1 du M1 Assuré par: Herzallah Abdelkarim Programme 1-Introduction : Objectifs de la RI, Concepts de base : information, Besoin
Plus en détailSQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)
Avant-propos 1. À qui s'adresse ce livre? 15 2. Pré-requis 15 3. Objectifs du livre 16 4. Notations 17 Introduction à la Business Intelligence 1. Du transactionnel au décisionnel 19 2. Business Intelligence
Plus en détailPrésentation du module Base de données spatio-temporelles
Présentation du module Base de données spatio-temporelles S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Partie 1 : Notion de bases de données (12,5h ) Enjeux et principes
Plus en détailbasée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML
basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML http://olivier-augereau.com Sommaire Introduction I) Les bases II) Les diagrammes
Plus en détailSystèmes d information et bases de données (niveau 1)
Systèmes d information et bases de données (niveau 1) Cours N 1 Violaine Prince Plan du cours 1. Bibliographie 2. Introduction aux bases de données 3. Les modèles 1. Hiérarchique 2. Réseau 3. Relationnel
Plus en détailVocabulaire juridique multilingue comparé. Caroline Reichling Direction générale de la Traduction Cour de justice de l Union européenne
Vocabulaire juridique multilingue comparé Caroline Reichling Direction générale de la Traduction Cour de justice de l Union européenne 22 novembre 2012 Vocabulaire juridique multilingue comparé La Cour
Plus en détailObjectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique
Objectifs Clustering On ne sait pas ce qu on veut trouver : on laisse l algorithme nous proposer un modèle. On pense qu il existe des similarités entre les exemples. Qui se ressemble s assemble p. /55
Plus en détailTYPO3 & Synomia 24.06.2013. Cédric Tempestini <ctempestini@archriss.com>
TYPO3 & Synomia Cédric Tempestini Qui suis je?! 8 années d expérience sur TYPO3! Certifié TYPO3 depuis 2009! Administrateur sur le forum typo3-fr.org! Intervenant depuis 7 ans
Plus en détailIntroduction à la B.I. Avec SQL Server 2008
Introduction à la B.I. Avec SQL Server 2008 Version 1.0 VALENTIN Pauline 2 Introduction à la B.I. avec SQL Server 2008 Sommaire 1 Présentation de la B.I. et SQL Server 2008... 3 1.1 Présentation rapide
Plus en détailGrandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test
Grandes lignes Analyseur Statique de logiciels Temps RÉel Embarqués École Polytechnique École Normale Supérieure Mercredi 18 juillet 2005 1 Présentation d 2 Cadre théorique de l interprétation abstraite
Plus en détailCours Bases de données
Informations sur le cours Cours Bases de données 9 (10) séances de 3h Polycopié (Cours + TD/TP) 3 année (MISI) Antoine Cornuéjols www.lri.fr/~antoine antoine.cornuejols@agroparistech.fr Transparents Disponibles
Plus en détailnom : Collège Ste Clotilde
UNE CONFIGURATION INFORMATIQUE Objectif : Identifier les éléments principaux d une configuration L ordinateur enregistre des données qu il traite pour produire un résultat Sifflements 20 Notice 12 attache
Plus en détailUE 8 Systèmes d information de gestion Le programme
UE 8 Systèmes d information de gestion Le programme Légende : Modifications de l arrêté du 8 mars 2010 Suppressions de l arrêté du 8 mars 2010 Partie inchangée par rapport au programme antérieur Indications
Plus en détailDES OUTILS DE RECHERCHE À VOTRE MESURE, LA SUITE JURIBISTRO MD DU CAIJ : COMMENT MIEUX EXPLOITER CES OUTILS? PLAN DE FORMATION
OBJECTIFS GÉNÉRAUX DES OUTILS DE RECHERCHE À VOTRE MESURE, LA SUITE JURIBISTRO MD DU CAIJ : COMMENT MIEUX EXPLOITER CES OUTILS? PLAN DE FORMATION Découvrir les principales fonctionnalités des outils de
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détailIntroduction à MATLAB R
Introduction à MATLAB R Romain Tavenard 10 septembre 2009 MATLAB R est un environnement de calcul numérique propriétaire orienté vers le calcul matriciel. Il se compose d un langage de programmation, d
Plus en détail4. Utilisation d un SGBD : le langage SQL. 5. Normalisation
Base de données S. Lèbre slebre@unistra.fr Université de Strasbourg, département d informatique. Présentation du module Contenu général Notion de bases de données Fondements / Conception Utilisation :
Plus en détailBig Data et Graphes : Quelques pistes de recherche
Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de
Plus en détailDifferential Synchronization
Differential Synchronization Neil Fraser Google 2009 BENA Pierrick CLEMENT Lucien DIARRA Thiemoko 2 Plan Introduction Stratégies de synchronisation Synchronisation différentielle Vue d ensemble Dual Shadow
Plus en détailINTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES
INTRODUCTION AUX METHODES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES Les contenus de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et
Plus en détailLa demande Du consommateur. Contrainte budgétaire Préférences Choix optimal
La demande Du consommateur Contrainte budgétaire Préférences Choix optimal Plan du cours Préambule : Rationalité du consommateur I II III IV V La contrainte budgétaire Les préférences Le choix optimal
Plus en détailLimitations of the Playstation 3 for High Performance Cluster Computing
Introduction Plan Limitations of the Playstation 3 for High Performance Cluster Computing July 2007 Introduction Plan Introduction Intérêts de la PS3 : rapide et puissante bon marché L utiliser pour faire
Plus en détailGKR. Geological Knowledge Representation Base de connaissances métallogéniques
GKR Geological Knowledge Representation Base de connaissances métallogéniques Objets Organiser un ensemble d informations complexes et hétérogènes pour orienter l exploration minière aux échelles tactiques
Plus en détailGROUPE DE TRAVAIL «ARTICLE 29» SUR LA PROTECTION DES DONNÉES
GROUPE DE TRAVAIL «ARTICLE 29» SUR LA PROTECTION DES DONNÉES 00727/12/FR WP 192 Avis 02/2012 sur la reconnaissance faciale dans le cadre des services en ligne et mobiles Adopté le 22 mars 2012 Le groupe
Plus en détailBusiness Intelligence
avec Excel, Power BI et Office 365 Téléchargement www.editions-eni.fr.fr Jean-Pierre GIRARDOT Table des matières 1 Avant-propos A. À qui s adresse ce livre?..................................................
Plus en détailCours 1 : La compilation
/38 Interprétation des programmes Cours 1 : La compilation Yann Régis-Gianas yrg@pps.univ-paris-diderot.fr PPS - Université Denis Diderot Paris 7 2/38 Qu est-ce que la compilation? Vous avez tous déjà
Plus en détailApprentissage statistique dans les graphes et les réseaux sociaux
Apprentissage statistique dans les graphes et les réseaux sociaux Patrick Gallinari Collaboration : L. Denoyer, S. Peters Université Pierre et Marie Curie AAFD 2010 1 Plan Motivations et Problématique
Plus en détailConception des bases de données : Modèle Entité-Association
Conception des bases de données : Modèle Entité-Association La modélisation d un problème, c est-à-dire le passage du monde réel à sa représentation informatique, se définit en plusieurs étapes pour parvenir
Plus en détailAnalyse d images. Edmond.Boyer@imag.fr. Edmond Boyer UFRIMA 1
Analyse d images Edmond.Boyer@imag.fr Edmond Boyer UFRIMA 1 1 Généralités Analyse d images (Image Analysis) : utiliser un ordinateur pour interpréter le monde extérieur au travers d images. Images Objets
Plus en détail