Thèse Spécialité Informatique

Dimension: px
Commencer à balayer dès la page:

Download "Thèse Spécialité Informatique"

Transcription

1 N d ordre 01 ISAL 0059 Année 2001 Thèse Spécialité Informatique Présentée devant L Institut National des Sciences Appliquées de Lyon Pour obtenir Le grade de docteur Formation doctorale : Documents multimedia, Images et Systèmes d'information Communicants (DISIC) École doctorale : Ecole Doctorale Informatique et Information pour la Société (EDIIS) Par Catherine Roussey (Ingénieur) Une méthode d'indexation sémantique adaptée aux corpus multilingues Soutenue le 10 décembre 2001 devant la Commission d examen Jury MM. M-F. BRUANDET Professeur à l'université Joseph Fourier Co-encadrant S. CALABRETTO Maitre de Conférences à l INSA de Lyon B. J. DORR Associate Professor à UMIACS USA G. KASSEL Professeur à l'université de Picardie Rapporteur J. LE MAITRE Professeur à l'université de Toulon et du Var Directeur J-M. PINON Professeur à l INSA de Lyon Rapporteur F. SEDES Professeur à l'université de Toulouse Cette thèse a été préparée au Laboratoire d'ingénierie des Systèmes d'information (LISI) de l'insa de Lyon.

2 Une Méthode d'indexation Sémantique adaptée aux Corpus Multilingues Résumé Ces travaux de thèse s inscrivent dans la problématique générale liée à l indexation d'un corpus de texte pour la recherche d information multilingue. Le but de l indexation est d identifier la connaissance contenue dans un texte et de la représenter par des mots clés appelés descripteurs. Or, la composante multilingue ajoute une complexité supplémentaire au processus d indexation car une étape de traduction est obligatoire pour représenter document et requête par des descripteurs appartenant au même espace d'indexation. Pour traduire correctement un terme, il est préférable de reconnaître le concept dénoté par celui-ci. Actuellement, une recherche d information pertinente représente le contenu des documents par des concepts et non plus par des termes. Cette thèse propose une méthode d'indexation sémantique pour les documents XML permettant de caractériser le contenu documentaire par des connaissances, non dépendante de la langue des documents. Ces connaissances sont déclinées en deux types : Les connaissances du domaine sont utilisées pour représenter les documents et les requêtes dans le même espace de représentation non dépendant des langues. Les connaissances terminologiques constituent plusieurs langages de présentation des connaissances du domaine. Nous avons défini notre propre modèle de représentation des connaissances intitulé les graphes sémantiques. Ce modèle est un enrichissement du modèle des graphes conceptuels de Sowa. Premièrement, notre modèle différencie les connaissances du domaine, des connaissances terminologiques. Deuxièmement, une fonction de comparaison de graphes adaptée aux besoins réels de la recherche d'information est proposée. Notre méthode d indexation se veut générique car elle peut être utilisée aussi bien dans un système de recherche d information multilingue que dans un hypertexte à base de connaissances. Pour valider notre proposition, un prototype, appelé SyDoM, a été implanté, répondant aux besoins d une bibliothèque virtuelle. Mots-Clés: Recherche Information, Recherche Documentaire, Multilingue, Indexation Sémantique, Représentation Connaissance, Graphes Conceptuels, Thésaurus, Méta données, Base Connaissance Terminologique, Document Structuré, Hypertexte, XML.

3 Semantic Indexing Method for Multilingual Corpora Abstract This thesis deals with indexing problems of a multilingual corpus in an information retrieval system. Indexing procedure identifies the knowledge related to a text and represents it by keywords called descriptors. However, multilinguality increases the complexity of the indexing procedure because some "translation" is necessary to represent documents and queries in the same indexing space. To find a good translation of a term, the concept denoted by this term should be identified. Currently, pertinent information retrieval aims at representing the document semantics by concepts instead of terms. This thesis proposes a semantic indexing method for XML-encoded documents based on knowledge describing the document content, whatever the document language is. Our method indexes documents using two types of knowledge: Domain knowledge, which composes a pivot language, used to represent documents and queries in the same indexing space not dependent on the languages. Terminological knowledge, which is organized in several vocabularies (one per language). Terminological knowledge is related to domain knowledge and constitutes some presentation languages used to visualize the domain knowledge in several languages. In order to manipulate our indices, we define our own knowledge representation model entitled the semantic graphs. This model is an enrichment of the Sowa model of conceptual graphs by differentiating domain knowledge from terminological knowledge, but also by proposing a comparison function of graphs more adapted to the purpose information retrieval. Our indexing method can be used as well in a multilingual information retrieval system as in a knowledge hypertext. That s why we claim that our indexing method is generic. To validate our proposition, a prototype, called SyDoM, was developed, dedicated for the needs of virtual library. Keywords: Information Retrieval, Multilingual, Semantic Indexing, Metadata, Thesaurus, Knowledge Base, Knowledge Representation, Conceptual Graphs, Structured Document, Web, Hypertext, XML.

4 Écoles Doctorales Chimie de Lyon Responsable : Professeur D. SINOU, UCBL (Tél. : ) Formations doctorales associées : Chimie Inorganique (Pr. J.F. QUINSON, Tél : ) Sciences et Stratégies Analytiques Sciences et Techniques du Déchet (Pr. P. MOSZKOWICZ, Tél : ) Economie, Espace et Modélisation des Comportements (E 2 MC) Responsable : Professeur A. BONNAFOUS, LYON2 (Tél. : ) Formations doctorales associées : Villes et Sociétés (Pr. M. ZIMMERMANN, Tél : ) Dimensions Cognitives et Modélisation (Pr. L. FRECON, Tél : ) Électronique, Électrotechnique, Automatique (EEA) INSAL - ECL UCB. Lyon1 Univ. de Saint-Etienne Responsable : Professeur G. GIMENEZ, INSAL (Tél : ) Formations doctorales associées : Automatique Industrielle (Pr. M. BETEMPS, Tél : ) Dispositifs de l Electronique Intégrée (Pr. D. BARBIER, Tél : ) Génie Electrique de Lyon (Pr. J.P. CHANTE, Tél : ) Images et Systèmes (Pr. I MAGNIN, Tél : ) Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon i

5 Evolution, Ecosysteme, Microbiologie, Modelisation (E2M2) Responsable : Professeur J.P. FLANDROIS, UCBL1 (Tél : ) Formations doctorales associées : Analyse et Modélisation des Systèmes Biologiques (Pr. S. GRENIER, Tél : ) Informatique et Information pour la Société (EDIIS) Responsable : Professeur J.M. JOLION, INSAL (Tél ) Formations doctorales associées : Documents Multimédia, Images et Systèmes d'information Communicants (Pr. M. FLORY, Tél : ) Extraction des Connaissances à partir des Données (Dr. J.F. BOULICAUT, Tél : ) Informatique et Systèmes Coopératifs pour l'entreprise (Pr. A. GUINET, Tél : ) Interdisciplinaire Sciences-Santé (EDISS) Responsable : Professeur A. COZZONE, UCBL1 (Tél ) Formations doctorales associées : Biochimie (Pr. M. LAGARDE, Tél : ) Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon ii/196

6 Matériaux de Lyon Responsable : Professeur J. JOSEPH, ECL (Tél. : ) Formations doctorales associées : Génie des Matériaux : Microstruture, Comportement Mécanique, Durabilité (Pr. R. FOUGERES, Tél : ) Matière Condensée Surfaces et Interfaces (Pr. G. GUILLOT, Tél : ) Matériaux Polymères et Composites (Pr. H. SAUTEREAU, Tél : ) Mathématiques et Information Fondamentale (Math IF) Responsable : Professeur M. NICOLAS, UCBL1 (Tél. : ) Formations doctorales associées : Analyse Numérique, Equations aux dérivées partielles et Calcul Scientifique (Pr. G. BAYADA, Tél : ) Matière Condensée Surfaces et Interfaces (Pr. G. GUILLOT, Tél : ) Matériaux Polymères et Composites (Pr. H. SAUTEREAU, Tél : ) Mécanique, Energétique, Génie Civil, Acoustique (MEGA) Responsable : Pr. J. BATAILLE, ECL (Tél : ) Formations doctorales associées : Acoustique (Pr. J.L. GUYADER, Tél : ) Génie Civil (Pr. M. MIRAMOND, Tél : ) Génie Mécanique (Pr. G. DALMAZ, Tél : ) Thermique et Energétique (Pr. M. LALLEMAND, Tél : ) Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon iii

7 Janvier 1998 Institut national des sciences appliquées de Lyon Directeur : A. STORCK Professeurs S. AUDISIO physico-chimie industrielle J.C. BABOUX GEMPMM* B. BALLAND physique de la matière D. BARBIER physique de la matière J.P. BASTIDE thermodynamique appliquée G. BAYADA modélisation mathématique et calcul scientifique C. BERGER physique de la matière M. BETEMPS automatique industrielle J.M. BLANCHARD LAEPSI** C. BOISSON vibrations acoustiques M. BOIVIN mécanique des solides H. BOTTA équipe développement urbain M. BOTTA-ZIMMERMANN équipe développement urbain G. BOULAYE (Prof. Émérite) informatique J. BRAU centre de thermique M. BRISSAUD génie électrique et ferroélectricité M. BRUNET mécanique des solides L. BRUNIE ingénierie des systèmes d'information J.C. BUREAU thermodynamique appliquée J.Y. CAVAILLE GEMPMM* J.P. CHANTE composants de puissance et applications B. CHOCAT unité de recherche en génie civil M. COUSIN unité de recherche en génie civil A. DOUTHEAU chimie organique R. DUFOUR mécanique des structures J.C. DUPUY physique de la matière H. EMPTOZ reconnaissance des formes et vision C. ESNOUF GEMPMM* L. EYRAUD (Prof. Émérite) génie électrique et ferroélectricité G. FANTOZZI GEMPMM* J. FAVREL groupe de recherche en productique et informatique des systèmes manufacturiers J.M. FAYARD biologie appliquée M. FAYET mécanique des solides Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon iv/196

8 G. FERRARIS-BESSO mécanique des structures L. FLAMAND mécanique des contacts P. FLEISCHMANN GEMPMM* A. FLORY ingénierie des systèmes d'information R. FOUGERES GEMPMM* F. FOUQUET GEMPMM* L. FRECON informatique J.F. GERARD matériaux macromoléculaires G. GIMENEZ CREATIS*** P. GONNARD génie électrique et ferroélectricité M. GONTRAND composants de puissance et applications R. GOUTTE (Prof. Émérite) CREATIS*** G. GRANGE génie électrique et ferroélectricité G. GUENIN GEMPMM* M. GUICHARDANT biochimie et pharmacologie G. GUILLOT physique de la matière A. GUINET groupe de recherche en productique et informatique des systèmes manufacturiers J.L. GUYADER vibrations acoustiques J.P. GUYOMAR génie électrique et ferroélectricité G. JACQUET RICHARDET mécaniques des structures J.M. JOLION reconnaissance des formes et vision J.F. JULLIEN unité de recherche en génie civil A. JUTARD automatique industrielle R. KASTNER unité de recherche en génie civil J. KOULOUMDJIAN ingénierie des systèmes d'information M. LAGARDE biochimie et pharmacologie M. LALANNE mécanique des structures A. LALLEMAND centre de thermique M. LALLEMAND centre de thermique P. LAREAL unité de recherche en génie civil A. LAUGIER physique de la matière C. LAUGIER biochimie et pharmacologie P. LEJEUNE génétique moléculaire des microorganismes A. LUBRECHT mécanique des contacts Y. MARTINEZ ingénierie des systèmes d'information H. MAZILLE physico-chimie industrielle P. MERLE GEMPMM* J. MERLIN GEMPMM* J.P. MILLET physico-chimie industrielle M. MIRAMOND unité de recherche en génie civil R. MOREL mécanique des fluides P. MOSZKOWICZ LAEPSI** P. NARDON biologie appliquée A. NAVARRO LAEPSI** Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon v

9 A. NOURI modélisation mathématique et calcul scientifique C. ODET CREATIS*** M. OTTERBEIN LAEPSI** J.P. PASCAULT matériaux macromoléculaires G. PAVIC vibrations acoustiques J.M. PELLETIER GEMPMM* J. PERA unité de recherche en génie civil G. PERRACHON thermodynamique appliquée J. PEREZ (Prof. Émérite) GEMPMM* P. PERRIAT GEMPMM* J. PERRIN équipe sciences humaines de l'insa de Lyon P. PINARD (Prof. Émérite) physique de la matière J.M. PINON ingénierie des systèmes d'information D. PLAY conception et analyse des systèmes mécaniques J. POUSIN modélisation mathématique et calcul scientifique P. PREVOT groupe de recherche en apprentissage, coopération et interfaces multimodales R. PROST CREATIS*** M. RAYNAUD centre de thermique de Lyon H. REDARCE automatique industrielle J.M. REYNOUARD unité de recherche en génie civil J.F. RIGAL conception et analyse des systèmes mécaniques E. RIEUTORD (Prof. Émérite) mécanique des fluides J. ROBERT-BAUDOUY (Prof. Émérite) génétique moléculaire des microorganismes D. ROUBY GEMPMM* J.J. ROUX centre de thermique de Lyon P. RUBEL ingénierie des systèmes d'information C. RUMELHART mécanique des solides J.F. SACADURA centre de thermique H. SAUTEREAU matériaux macromoléculaires S. SCARVARDA automatique industrielle D. THOMASSET automatique industrielle M. TROCCAZ génie électrique et ferroélectricité R. UNTERREINER CREATIS*** P. VELEX mécanique des contacts G. VIGIER GEMPMM* A. VINCENT GEMPMM* P. VUILLERMOZ physique de la matière Directeurs de recherche C.N.R.S. Y. BERTHIER mécanique des contacts N. COTTE-PATTAT génétique moléculaire des microorganismes Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon vi/196

10 P. FRANCIOSI GEMPMM* M.A.MANDRAND génétique moléculaire des microorganismes J.F. QUINSON GEMPMM* A. ROCHE matériaux macromoléculaires A. SEGUELA GEMPPM* Directeurs de recherche I.N.R.A. G. FEBVAY biologie appliquée S. GRENIER biologie appliquée Directeurs de recherche I.N.S.E.R.M. A.F. PRINGENT biochimie et pharmacologie I. MAGNIN CREATIS*** GEMPMM* : Groupe d'etude metallurgie physique et physique des matériaux LAEPSI** : Laboratoire d'analyse environnementale des procédés et systèmes industriels CREATIS*** : Centre de recherche et d'applications en traitement de l'image et du signal Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon vii

11 Le meilleur ami de "merci" est "beaucoup". Ecrivain québécois [ Michel Bouthot ] Je remercie sincèrement Jean-Marie PINON, Professeur à l INSA de Lyon, de m avoir donnée l opportunité de découvrir la recherche en m accueillant dans l équipe Documentique et Aide à la Décision (DAD) qu il dirige. Mes remerciements les plus chaleureux iront à Sylvie CALABRETTO, Maître de Conférences à l INSA de Lyon, pour son aide précieuse et sa présence constante, mais surtout pour toutes ces attentions, ces petits riens qu elle n était pas obligée de faire mais qu elle a fait Merci beaucoup Je tiens à remercier particulièrement Florence SEDES, Professeur à l Université de Toulouse, pour avoir accepté d être rapporteur de ce travail et pour ses remarques constructives qui m ont permis d améliorer mon manuscrit. Je désire également remercier Jacques LE MAITRE, pour me faire l honneur d être rapporteur de la présente thèse. Mes remerciements iront également à Marie-France BRUANDET et Gilles KASSEL qui ont accepté d être membres du jury et qui ont apporté leur caution scientifique à ce travail. Je souhaite remercier tout particulièrement Bonnie J DORR, Assistant Professor à l Université du Maryland (Washington, USA), de m avoir accueillie chaleureusement dans son laboratoire et de m avoir montrée un autre point de vue sur la recherche. La valeur d'un homme tient dans sa capacité à donner et non dans sa capacité à recevoir. Physicien américain (Nobel de physique 1921) [ Albert Einstein ] Je tiens à remercier sincèrement Robert LAURINI, Professeur à l Université Lyon I et Directeur du LISI, de m avoir accueillie au sein de son laboratoire. Merci pour tout ce que vous avez fait (et surtout lu) pour les doctorants de votre labo. Je remercie également Doug OARD, Assistant Professor à l Université du Maryland (Washington, USA) de m avoir fait bénéficier de la richesse de son expérience. Ma profonde gratitude ira particulièrement à David GENEST, Maître de Conférences à l Université d Angers, pour la pertinence de ses commentaires sur mon travail. Plus on partage, plus on possède. Voilà le miracle. Acteur américain [ Léonard Nimoy ] Je remercie chaleureusement mes collègues de travail au LISI pour leur soutien et leur aide précieuse et plus particulièrement les membres de l équipe DAD. Un merci tout particulier à Alexia et Christiane. Je remercie José CUBA, ingénieur CNAM, et Thomas Nguyen, élève ingénieur en informatique, pour leur implication dans le développement de SyDoM. Ce n'est pas tant l'aide de nos amis qui nous aide que notre confiance dans cette aide. Philosophe grec [ Epicure ] Toute ma gratitude et ma reconnaissance iront à Bruno, Etienne, François, Lobna, Myoung-Ah pour m avoir supportée depuis le début de ma thèse et surtout soutenue. Sans eux rien n aurait été pareil Mes derniers mais non moins profonds remerciements iront à ma famille qui m a toujours encouragée et soutenue dans la poursuite de mes études. Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon viii/196

12 Une méthode d indexation sémantique adaptée aux corpus multilingues SOMMAIRE SOMMAIRE...1 I INTRODUCTION...4 II INDEXATION : DÉFINITION ET USAGES Indexation dans les Systèmes de Recherche d'information L espace d indexation Les entités d indexation Les langages d'indexation Le langage libre Le langage contrôlé Indexation automatique et indexation manuelle Les types d indexation ou de représentation Indexation à plat du modèle booléen Indexation pondérée des modèles vectoriel et probabiliste Indexation structurée et le modèle logique Evaluation d un système de recherche d information Critères d une bonne indexation La cohérence L adéquation entre les représentations Conclusion Indexation dans les Systèmes de Recherche d'information Multilingue Les différentes facettes de la recherche documentaire multilingue Les problèmes de l'indexation multilingue Les ressources linguistiques utilisées Les systèmes de traduction automatique Les bases lexicales Les lexiques et Les dictionnaires de transfert Les bases de connaissances terminologiques Les corpus Les corpus parallèles Les corpus comparables L'indexation multilingue Utilisation d'un système de traduction automatique Utilisation d une base lexicale Utilisation d un corpus Conclusion Indexation basée sur les Connaissances Les modèles de représentation des connaissances Les réseaux sémantiques Les graphes conceptuels Les langages de frames Les logiques de description Les applications du web sémantique Le langage RDF et le système CWeb Les graphes conceptuels et WebKB set of tools...47 Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon 1/196

13 Sommaire Les graphes conceptuels lexicaux et Ontoseek Le langage SHOE et le robot Exposé Le langage Frame Logic et le système Ontobroker Le langage OCML et les projets PlanetOnto, ScholOnto Conclusion...52 III. MODÉLISATION DES CONNAISSANCES EN GRAPHES SÉMANTIQUES POUR UNE INDEXATION MULTILINGUE Le Modèle des Graphes Sémantiques L'extension du modèle des GC pour la recherche d'information Observations sur les langages documentaires Thésaurus sémantique La conceptualisation du domaine ou support Les relations entre types La définition formelle du thésaurus sémantique Les Graphes Sémantiques Opération de projection étendue Opération de projection partielle Fonctions de similarité Fonction de similarité entre types de concepts Fonction de similarité entre types de relations Fonction de similarité entre arcs Comparabilité entre arc Evaluation d'une projection Fonction de similarité entre graphes Conclusion Algorithmes d'exploitation des Graphes pour la Recherche d'information Algorithmes d'indexation Algorithme d'indexation pour les arcs Algorithme d'indexation pour les concepts Algorithmes de recherche Algorithme de recherche sur les arcs Algorithme de recherche sur les concepts Conclusion Une Méthode d'indexation Sémantique adaptée aux Corpus Multilingues Thésaurus sémantique Type de concepts Type de relations Terme Et le multilinguisme dans tout ça? Les annotations Description XML L'index Description XML Un langage documentaire évolutif et adaptatif Différents Usages de notre Méthode d'indexation Système de Recherche d'information Multilingue Formulation de la requête La fonction de comparaison Visualisation des documents résultats Hypertexte à base de connaissances Le thésaurus sémantique Les annotations Les index Conclusion Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon 2/196

14 Une méthode d indexation sémantique adaptée aux corpus multilingues IV... UTILISATION DES GRAPHES SÉMANTIQUES DANS UN SYSTÈME DE RECHERCHE D'INFORMATION MULTILINGUE Le Prototype SyDoM Principes Généraux Le module du thésaurus sémantique Le module d'indexation Le module de recherche Evolutions Contexte de la validation : La Bibliothèque Doc'INSA La méthode d'indexation de Doc'INSA Le système documentaire de Doc'INSA Description des besoins de Doc'INSA Solutions apportées en réponse aux besoins de Doc'INSA Tests Expérimentaux et Evaluations Construction du thésaurus sémantique Evaluation générale de SyDoM Comparaison avec le système de Doc'INSA Comparaison à l'extension du modèle des GC Réponses approchées Réponses plausibles Réponses partielles Conclusion sur SyDoM : avantages et inconvénients V CONCLUSION ET PERSPECTIVES Bilan de la Recherche Discussion BIBLIOGRAPHIE ANNEXE I : INDEX DES ABRÉVIATIONS ANNEXE II : INDEX DES CONCEPTS ANNEXE III : INDEXATION AUTOMATIQUE ET RECHERCHE D'INFORMATION MULTILINGUE ANNEXE IV : SCHÉMA DE LA BASE DE DONNÉES DE SYDOM Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon 3/196

15 Introduction I Introduction Contexte de l'étude et plan de masse Depuis l'essor de l informatique, le volume d information stockée électroniquement ne cesse de s accroître. Par conséquent, se pose le problème de retrouver de manière pertinente un ensemble d information contenu dans un document, au sein d une base documentaire, appelée corpus. Cette problématique générale appelée Recherche d'information (RI) dans les documents, aussi connue sous le nom Recherche Documentaire (RD) par le contenu, constitue le contexte de nos travaux. Il faut ajouter que l information disséminée dans un document n est pas structurée et donc difficilement accessible voire identifiable. Notre étude est principalement dédiée à la représentation de l information contenue dans un document au sein d'un système de recherche d'information, c'est à dire à l'indexation des documents. La tendance actuelle considére que l information peut avoir comme support quatre média de base : le texte, l image fixe, le son et l image animée [CHRI00]. Nos travaux se limitent au media texte. Comme nous ne traiterons que la partie textuelle des documents, toute utilisation du terme «document» fera uniquement référence à son contenu textuel. Le développement d Internet au niveau mondial a profondément transformé la gestion des documents. Cette révolution technologique a engendré de nouvelles problématiques documentaires pour la recherche d'information. Nous nous intéressons à deux aspects de la recherche sur le web (World Wide Web) : Premièrement, la technologie Internet a cassé les frontières naturelles, en facilitant les échanges de documents entre les pays. Par conséquent, les collections de documents contiennent de plus en plus de documents écrits dans différentes langues. Le web est luimême une collection de documents multilingues, car une page web peut contenir des paragraphes écrits dans des langues différentes. La recherche sur de telles collections devient alors multilingue : il faut retrouver tous les documents concernés par un besoin d information, quelle que soit leur langue. Le deuxième aspect du web qui nous intéresse est la masse d'information accessible. Etant donnée l'ampleur de la collection, l'indexation automatique semble la seule solution possible pour effectuer une recherche efficace, or l'indexation humaine n'a pas été abandonnée. En effet, les annuaires tels que yahoo sont des classifications manuelles d'un nombre restreint de pages web. L'indexation manuelle est complémentaire de l'indexation automatique des moteurs de recherche, car cette indexation permet une plus grande précision dans les structures de représentation et offre un point de vue de lecture sur le document. De nombreux travaux rassemblés sous le nom de web sémantique utilisent l'indexation manuelle pour expliciter des connaissances (des informations connues et comprises) relatives au contenu des documents. Cette approche consiste à organiser la masse d'information du web en domaine d'intérêt. Pour cause, une communauté d'internautes partageant les mêmes connaissances sur un domaine, organisent leurs pages web en fonction de ces connaissances. Ainsi l'accès aux pages web est facilité pour toute la communauté d'internautes et l'indexation humaine n'est plus l'apanage d'experts en documentation, tel que les documentalistes. L'approche web sémantique permet non seulement d'améliorer la précision des index, en manipulant des connaissances mais aussi d'ouvrir l'indexation humaine à des experts du domaine d'intérêt des documents. Bien Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon 4/196

16 Une méthode d indexation sémantique adaptée aux corpus multilingues entendu, pour s'adapter aux nouvelles technologies liées au web, nous avons considéré que tous les documents accessibles étaient au format XML. Nos travaux, centrés sur la gestion des connaissances, n abordent pas les problèmes du Traitement Automatique des Langues Naturelles (TALN), car nous souhaitons avant tout mettre en exergue la subjectivité de l interprétation humaine. De plus, notre état de l art sur l indexation multilingue signale que la qualité du traitement automatique des langues est fortement dépendante de la qualité des ressources linguistiques mises en œuvre et de l adéquation entre ces ressources et le corpus de recherche. Notre approche peut être vue comme le point de départ de la construction d une ressource linguistique adaptée au corpus. Celle-ci pourra être utilisée, dans une seconde phase, pour automatiser l indexation des documents. Notre étude se situe à la jonction des deux problématiques : la recherche multilingue et l'indexation à base de connaissances du web sémantique L'originalité de notre contribution consiste à proposer une méthode d'indexation pour le web sémantique différenciant deux types de connaissances : Les connaissances du domaine modélisent le domaine d'étude en fonction d'un point de vue partagé par une communauté d'utilisateurs. Ces connaissances du domaine constituent un langage pivot utilisé pour l'indexation. Les connaissances terminologiques sont constituées de plusieurs vocabulaires, un pour chaque langue des utilisateurs. Les connaissances terminologiques associent plusieurs termes à chaque notion du domaine. Ainsi, les utilisateurs disposeront des connaissances du domaine présentées dans leur propre langue. Cette différenciation des connaissances permet de proposer une méthode d'indexation multilingue à base d'entités d'indexation (les connaissances du domaine) ne dépendant pas d'une seule langue. Pour construire notre méthode d'indexation, nous avons tout d'abord proposé un nouveau modèle de représentation des connaissances, les graphes sémantiques, mettant en application la différenciation entre les connaissances du domaine et les connaissances terminologiques. Ce nouveau modèle est une extension du modèle des graphes conceptuels de Sowa [SOWA84]. Nous avons fait le choix de travailler sur les Graphes Conceptuels (GC) car ce formalisme nous semblait être un bon compromis entre sa puissance d'expression et sa simplicité d'utilisation pour des utilisateurs novices en Intelligence Artificielle (IA). Certains Systèmes de Recherche d'information (SRI) utilisent le formalisme des Graphes Conceptuels de Sowa pour représenter les requêtes et le contenu des documents. Dans ce contexte, la fonction de comparaison entre les index des documents et les représentations des requêtes est basée sur l'opérateur de projection introduit par Sowa. Des travaux récents sur cet emploi de l'opérateur de projection ont mis en avant plusieurs de ses inconvénients [GENE00]. L'opérateur de projection étant axé sur la précision, il génère beaucoup de silence. De plus, cet opérateur ne permet pas de comparer les résultats les uns par rapport aux autres car il ne retourne qu'une valeur booléenne. Pour palier à ces inconvénients, nous avons donc proposé une extension de cet opérateur, l'opérateur de projection étendue, ainsi qu'une fonction de similarité entre graphes, retournant une valeur réelle. Notre fonction de comparaison entre documents et requêtes ne travaille que sur la forme normale des graphes (tous les nœuds de même type sont fusionnés). Ce choix, justifié par nos observations sur la structure générale des index, nous a permis de proposer un algorithme efficace de comparaison de graphes sémantiques. Les graphes sémantiques nous permettent de définir un nouveau type de thésaurus, le thésaurus sémantique. Le thésaurus sémantique prolonge la fonction de normalisation des Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon 5/196

17 Introduction thésaurus, des termes, aux notions dénotées par ces termes. Par contre, le thésaurus sémantique n'est pas une normalisation de la terminologie d'un domaine au sens restriction du vocabulaire des thésaurus traditionnels, car le thésaurus sémantique s'adapte à l'existence de plusieurs terminologies, donc de plusieurs langues. Au contraire des autres modèles de représentation des connaissances, il n'existe pas de lien statique entre terme et notion, car l'interprétation d'un terme est dépendante d'un contexte de lecture. Entre autres, notre méthode d'indexation permet de compléter la terminologie du thésaurus sémantique pour améliorer l'adéquation entre le vocabulaire du thésaurus et celui du corpus. Ainsi le thésaurus devient une sorte de table des matières du corpus et peut prendre en compte différents contextes de lecture, celui des auteurs, des indexeurs et des lecteurs. Ce nouveau modèle de représentation des connaissances est à la base de notre méthode d'indexation. Dans le cadre des bibliothèques traditionnelles, l'indexation génère un nouveau document, appelé notice bibliographique, résumant le document à indexer. Cette approche nécessite de gérer en parallèle deux sources d'information. Au contraire, notre approche enrichit le document existant pour faciliter son utilisation ultérieure. Cet enrichissement identifie, dans le contenu du document, des connaissances issues de son interprétation. Le processus d'indexation insère de nouvelles balises sémantiques dans le document XML. Ces balises sémantiques caractérisent les deux types de connaissances définis dans le thésaurus sémantique : Les balises d'annotation des documents qui mettent en évidence les connaissances terminologiques contenues dans le document. Les balises sémantiques composant l'index du document. Ces balises sont une représentation d'un graphe sémantique constitué par des connaissances du domaine. Notre méthode d'indexation se veut générique car elle peut être utilisée aussi bien dans un Système de Recherche d'information Multilingue (SRIM) que dans un hypertexte à base de connaissances. Ces deux outils de recherche sont complémentaires, car dans un SRIM la recherche s'effectue par le biais d'une requête et dans un hypertexte à base de connaissances, la recherche se construit au fur et à mesure de la navigation. Nous verrons que notre méthode d'indexation nous permet de proposer un ensemble de fonctionnalités supplémentaires pour ces deux outils de recherche. Nous avons validé notre méthode d'indexation en concevant un SRIM, intitulé SyDoM, adapté aux besoins d'une bibliothèque virtuelle. Nous avons confronté SyDoM avec les besoins réels de la bibliothèque de l'insa : Doc'INSA. Plan de la thèse Le chapitre introductif de ce mémoire est consacré à une étude de l'indexation dans différents types de système de recherche documentaire. Cette première partie Indexation : Définition et usages se compose des chapitres 1 à 3. L'objectif de ces chapitres est non seulement de définir le processus d'indexation par rapport aux diverses fonctions que doit remplir un système de recherche d'information, mais aussi de compléter cette définition générale en fonction de deux contextes de recherche particuliers : la recherche multilingue et la recherche à base de connaissances. Le but de ce chapitre est d'amener le lecteur à comprendre que notre recherche se situe au carrefour de ces deux domaines disjoints jusqu'à maintenant. Le chapitre 1-L'indexation dans les systèmes de recherche d'information définit les principes d'un système de recherche d'information et le rôle de l'indexation dans le processus global de recherche. Une fois cette définition fonctionnelle de l'indexation établie, nous détaillerons les caractéristiques du processus d'indexation dans le cadre des documents textuels. Ce qui nous permettra de définir tour à tour les notions d'espace d'indexation, d'entité d'indexation, de langage d'indexation, de type d'indexation ou de Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon 6/196

18 Une méthode d indexation sémantique adaptée aux corpus multilingues représentation. Afin de clarifier nos définitions, nous illustrerons les différents types d'index en fonction des quatre modèles de recherche d'information (le modèle booléen, vectoriel, probabiliste et logique). Ensuite, nous nous intéresserons à la recherche d'information sur le web, en se penchant plus particulièrement sur la recherche multilingue et la représentation des connaissances dans le web sémantique. Le chapitre 2-L'indexation dans les systèmes de recherche d'information multilingue s'attachera non seulement à définir la problématique de la recherche multilingue, mais aussi à expliquer la complexité supplémentaire du processus d'indexation inhérente à la présence de plusieurs langues. Ainsi, le processus d'indexation s'accompagne d'un processus de traduction pour représenter document et requête dans la même langue. Nous détaillerons les différentes approches de la recherche multilingue pour finalement conclure qu'il existe peu de travaux se consacrant à une indexation véritablement multilingue capable de représenter les documents et les requêtes par des entités non dépendantes d'une seule langue. Une des conclusions importantes de ce chapitre se résume à l'adéquation nécessaire entre le vocabulaire de la ressource linguistique, permettant de trouver les traductions, et le vocabulaire du corpus. Le chapitre 3-L'indexation à base de connaissances se consacre plus particulièrement à la problématique du web sémantique. Face à la masse d'information accessible sur le web, une solution proposée pour faciliter l'accès aux documents web consiste à représenter les connaissances relatives aux documents. Aussi, débuterons nous ce chapitre par un aperçu des principaux formalismes de représentation des connaissances, pour clarifier les langages utilisés dans les applications du web sémantique. Une des conclusions de ce chapitre est la non prise en compte de l'aspect multilingue du web dans ces formalismes de représentation des connaissances. La seconde partie de ce mémoire Modélisation des connaissances en graphes sémantiques pour une indexation multilingue présente notre méthode d'indexation, en commençant par une description formelle du modèle des graphes sémantiques. Ce modèle s'accompagne d'un algorithme de recherche de graphe efficace. Nous proposons également différentes manières de manipuler notre structure d'indexation en fonction de deux outils de recherche. Cette partie se compose des chapitres 4 à 7. Dans le chapitre 4-Le modèle des graphes sémantiques, nous détaillons les extensions que nous proposons d'apporter au modèle des graphes conceptuels pour l'adapter aux impératifs de la recherche d'information multilingue. Ce chapitre débute par une critique du modèle des graphes conceptuels dans le cadre de la recherche documentaire aussi bien sur le plan de l'opérateur de comparaison de graphes comme fonction de comparaison d'un SRI que sur ses insuffisances à construire un langage d'indexation multilingue. Ainsi, nous justifions notre choix de différencier les connaissances du domaine des connaissances terminologiques par la prise en compte de plusieurs langues dans notre modèle d'indexation. Pour cela, nous introduisons la notion de label pour différencier le type du terme représentant le type. Consécutivement, une autre extension est apportée aux GC, la transformation du support en thésaurus sémantique, contenant les deux types de connaissances : les labels et les types. Pour améliorer les résultats de la comparaison de graphes, nous avons transformé l'opérateur de projection de Sowa (axé sur la précision et rendant une valeur booléenne), en un opérateur de projection étendue générant beaucoup moins de silence. Afin de pouvoir ordonnancer les résultats, nous avons, à partir de cet opérateur, défini une fonction de similarité entre graphes rendant une valeur réelle comprise entre 0 et 1. Le chapitre 5-Algorithmes d'exploitation des graphes pour la Recherche d'information part de la constatation que les algorithmes de traitement des graphes sont coûteux en temps de traitement. Nous nous inspirons des techniques des fichiers inverses et tables d'accélération pour proposer des algorithmes d'indexation et de recherche améliorant la Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon 7/196

19 Introduction rapidité de réponse d'un SRIM. Les graphes sémantiques étant composés d'arcs et de sommets concepts, ils constituent par conséquent les deux types d'entités d'indexation. Nous avons donc considéré que le contenu d'un document serait représenté par deux index différents : une liste d'arcs et une liste de concepts. Nos algorithmes et notre base de données se décomposent en deux parties distinctes dépendant du type d'entité d'indexation considéré. Le chapitre 6-Une méthode d'indexation sémantique adaptée aux corpus multilingues présente les bases de notre méthode d'indexation de documents multilingues. Nous proposons de décomposer l'indexation en deux étapes suivant le type de connaissances à prendre en compte. Premièrement, nous aurons une indexation à partir des connaissances terminologiques, basée sur des annotations. Une annotation identifie un terme dans son contexte comme représentant d'un graphe sémantique. Deuxièmement, une indexation à partir des connaissances du domaine raffine les graphes sémantiques issus des annotations. Cette méthode d'indexation définit aussi le rôle du thésaurus sémantique dans le cadre d'une modélisation du domaine : fixer les notions sans fixer la terminologie. Il faut obligatoirement définir les notions manipulées lors de l'indexation, mais la terminologie utilisée pour représenter ces notions dépend du contexte, du point de vue de l'utilisateur. Par conséquent, ce n'est pas un lien statique qui unit la notion au terme. Le chapitre 7-Différentes usages de notre méthode d'indexation exploite notre structure d'indexation dans deux contextes de recherche différents. Ce chapitre se consacrera à la description des fonctionnalités d'un SRIM et d'un hypertexte à base de connaissances manipulant des graphes sémantiques. La dernière partie de ce mémoire Utilisation des graphes sémantiques pour un outil de recherche présente les validations qualitatives et quantitatives que nous avons entreprises. Le chapitre 8- Le prototype SyDoM présente les fonctionnalités du prototype SyDoM (Système Documentaire Multilingue) que nous avons réalisées pour valider la faisabilité de notre méthode d'indexation. Ce prototype nous a aussi permis d'implanter une partie de nos algorithmes d'indexation et de recherche. Le chapitre 9-Contexte de la validation : la bibliothèque Doc'INSA présente la validation qualitative de SyDoM. Dans le cadre de cette validation, nous avons collaboré avec la bibliothèque Doc'INSA. Doc'INSA nous a semblé le cadre idéal pour une validation qualitative car cette bibliothèque met en place une bibliothèque virtuelle de documents électroniques et est à la recherche de solutions pour gérer une collection multilingue de documents. Notre premier travail a été d'étudier les besoins de Doc'INSA en matière d'indexation et de recherche multilingue. Ce qui nous a permis de confronter notre proposition à un cadre concret et ainsi, nous avons pu constater que SyDoM répondait aux besoins réels d'une bibliothèque. Par conséquent notre méthode d'indexation générique répond aux besoins particuliers de la bibliothèque Doc'INSA. Le chapitre 10- Tests expérimentaux et évaluations présente les tests expérimentaux que nous avons effectués pour évaluer le prototype SyDoM. Dans un premier temps, nous avons voulu comparer les résultats de SyDoM avec le système de recherche booléen de Doc'INSA. Cette première évaluation s'est portée sur un ensemble d'articles anglais dédiés à la mécanique. Par conséquent, il a fallu construire notre propre thésaurus sémantique de mécanique. Dans un second temps, nous comparons théoriquement les résultats de SyDoM avec ceux d'un autre système de recherche basé sur les graphes conceptuels. Ces tests expérimentaux ne sont qu'une première étape de l'évaluation de notre prototype. En effet, il serait souhaitable de mettre en œuvre une comparaison plus pragmatique avec un système de recherche basé sur les GC. Concernant sa mise en activité, le prototype est actuellement en cours de validation auprès de Doc INSA. Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon 8/196

20 Une méthode d indexation sémantique adaptée aux corpus multilingues La conclusion est l'occasion de présenter les perspectives d'application et de poursuite de la recherche entreprise. Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon 9/196

21 Indexation : Définition et Usages II Indexation : Définition et Usages Ce premier chapitre poursuit plusieurs objectifs. Dans la première partie, nous définissons l'indexation dans le contexte générale d'un système de recherche d'information. Ensuite, notre intérêt s'est porté sur l'indexation dans le contexte plus spécifique de la recherche d'information multilingue, puis de l'indexation dans les systèmes à base de connaissances. Nous souhaitons mettre en exergue que ces deux derniers domaines sont complémentaires et que notre étude se situe à la jonction de ces deux domaines. Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon 10/196

22 Une méthode d indexation sémantique adaptée aux corpus multilingues 1 Indexation dans les Systèmes de Recherche d'information La quantité d information stockée au format électronique ne cessant de croître, il devient de plus en plus difficile de retrouver un ensemble d information contenu dans un document 1, au sein d une base de documents, appelée corpus. De plus, l information disséminée dans un document n est pas structurée et donc difficilement accessible voire identifiable. Outre le problème d identifier l information contenue dans un document, la Recherche d Information (RI) doit également permettre à l utilisateur de formuler sa demande, son besoin d information, le plus exactement possible, sous la forme d'une requête. Ce premier chapitre est consacré à la recherche d'information dans les documents, connue aussi sous le nom recherche documentaire. Nous nous intéressons uniquement à la partie textuelle des documents. Tout d abord, nous présenterons rapidement la problématique de la recherche documentaire, ce qui nous permettra de définir l indexation comme une phase de représentation du contenu documentaire. Puis, nous énoncerons les différents types d'indexation des documents utilisés dans un système de recherche documentaire monolingue. Nous illustrerons chacun de ces types, par des exemples connus issus des modèles de Système de Recherche d Information (SRI). Avant toute chose, rappelons les tenants et les aboutissants d un système de recherche documentaire. Le but d un tel système est de présenter à l utilisateur des documents répondant à ses besoins d information formulés par une requête. La recherche documentaire se compose de deux processus de base : le premier est un processus de représentation du contenu des textes appelé indexation (les textes étant à la fois les documents et les requêtes), Le second est un processus de comparaison entre les représentations des textes, issues du premier processus. Le but du premier processus est de représenter les documents et les requêtes dans le même espace de représentation à l'aide d une structure de données. Or les documents et les requêtes peuvent avoir des caractéristiques bien différentes. Par exemple, une requête peut être constituée de deux mots reliés par un opérateur booléen tandis qu un document peut être un article de vingt pages, paru dans une revue scientifique. Donc, lorsque la différence structurelle entre les documents et les requêtes est trop importante, le processus de représentation des textes est décomposé en deux processus distincts appelés fonctions d'indexation : la fonction d'indexation traitant des requêtes formulées dans un langage d interrogation et la fonction d'indexation traitant les documents. De manière générale, l indexation peut être considérée comme un processus de représentation des textes. En effet, certains SRI acceptent comme requête un document entier. Dans certains cas, le meilleur document retrouvé par une première requête est envoyé comme requête au SRI. Cette méthode de modification de la requête par des documents préalablement jugés pertinents, fait partie de l approche de bouclage de pertinence [SALT90]. C est pourquoi nous avons fait le choix, dans la suite de ce chapitre, de 1 Nous ne considérons que la partie textuelle des documents, et plus précisément les mots et non la structure hiérarchique de certains textes. Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon 11/196

23 Indexation : Définition et Usages considérer l indexation comme le processus de traitement des textes qu ils soient documents ou requêtes. Le but général de l indexation est d identifier l information contenue dans tout texte et de la représenter au moyen d un ensemble d entités appelé index pour faciliter la comparaison entre la représentation d un document et d une requête. Plus exactement, le processus d indexation est le transfert de l information contenue dans le texte vers un autre espace de représentation traitable par un système informatique [ROUS99a]. Tout d abord, il nous faut définir l espace d indexation ou espace de représentation de l information, en choisissant : Les entités d indexation, qui définissent l unité de base de l espace d indexation. La «structure» assemblant des entités d indexation pour construire un index 2, c està-dire une représentation. Ensuite, il faut définir les techniques intellectuelles ou automatiques permettant, à partir du texte, de détecter les entités et de construire les structures d indexation. Par exemple, pour une indexation humaine, un documentaliste sélectionnera dans le document ce qui est intéressant pour les lecteurs de la bibliothèque afin de construire son index. Dans le cas d'une indexation automatique, une machine construit les index, en utilisant certaines données tirées du document, du corpus ou d'une autre source. Le processus de comparaison permet de choisir les documents répondant au besoin d information de l utilisateur en comparant la base des index du corpus à la représentation de la requête dans le même espace, à l aide d une fonction de comparaison. L indexation est une étape importante de la recherche documentaire, car elle définit l espace de représentation de l information : E, et influence donc la fonction de comparaison : C. En effet, pour pouvoir être comparés, il faut que la représentation d un document d (R d ) et la représentation d une requête q (R q ) soient exprimées dans le même espace d indexation E. C est pourquoi différents modèles de SRI ont été créés, définissant à partir d un nouvel espace d indexation, toutes ses caractéristiques. Nous présentons donc de manière plus précise les différentes notions que nous venons d énoncer. Prenons l exemple d un utilisateur possédant un besoin d information bi. Cet utilisateur doit exprimer bi dans le langage d interrogation du SRI pour former la requête q. Il est à noter que q est une représentation altérée de bi. Soit : Q : l espace des requêtes et q une requête telle que D : l espace des documents et d un document tel que E : l espace d indexation du SRI. q Q. d D. La phase d indexation se décompose en deux fonctions d'indexations I q et I d telles que : I q est une application de Q dans E, qui à tout élément q de Q associe une image dans E unique I q (q)= R q. 2 Nous reprenons la définition de l'index donnée par C. Fluhr «les documents sont lus par un documentaliste qui en déduit les thèmes principaux et les traduit en une liste de mots, dit descripteurs du documents. Cet ensemble de mots constitue l'index du document et représente la description du contenu sémantique de celui-ci» [FLUH92]. Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon 12/196

Système d'accès à des Bases de Données Hétérogènes réparties en vue d'une aide à la décision (SABaDH)

Système d'accès à des Bases de Données Hétérogènes réparties en vue d'une aide à la décision (SABaDH) N d ordre Année 1998 Thèse Système d'accès à des Bases de Données Hétérogènes réparties en vue d'une aide à la décision (SABaDH) Présentée devant L institut national des sciences appliquées de Lyon Pour

Plus en détail

Analyse et conception d'outils pour la traçabilité de produits agroalimentaires afin d'optimiser la dispersion des lots de fabrication.

Analyse et conception d'outils pour la traçabilité de produits agroalimentaires afin d'optimiser la dispersion des lots de fabrication. N d ordre : 04-ISAL-0047 Année 2004 Thèse : Analyse et conception d'outils pour la traçabilité de produits agroalimentaires afin d'optimiser la dispersion des lots de fabrication. Présentée devant L Institut

Plus en détail

N d ordre 02ISAL0087 Année 2002. Thèse. Application de classificateurs aux données d émission acoustique :

N d ordre 02ISAL0087 Année 2002. Thèse. Application de classificateurs aux données d émission acoustique : N d ordre 02ISAL0087 Année 2002 Thèse Application de classificateurs aux données d émission acoustique : identification de la signature acoustique des mécanismes d endommagement dans les composites à matrice

Plus en détail

Stages - le calendrier

Stages - le calendrier Stages - le calendrier BIOCHIMIE ET BIOTECHNOLOGIES Ingénieurs pluridisciplinaires formés en chimie, biochimie analytique et fonctionnelle, biologie cellulaire et moléculaire, microbiologie, physiologie

Plus en détail

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe Karima Dhouib, Sylvie Després Faiez Gargouri ISET - Sfax Tunisie, BP : 88A Elbustan ; Sfax karima.dhouib@isets.rnu.tn,

Plus en détail

Dans cette définition, il y a trois notions clés: documents, requête, pertinence.

Dans cette définition, il y a trois notions clés: documents, requête, pertinence. Introduction à la RI 1. Définition Un système de recherche d'information (RI) est un système qui permet de retrouver les documents pertinents à une requête d'utilisateur, à partir d'une base de documents

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

SCI6052 Information documentaire numérique École de bibliothéconomie et des sciences de l information

SCI6052 Information documentaire numérique École de bibliothéconomie et des sciences de l information SCI6052 (Automne 2014) cours 6 1/32 SCI6052 Information documentaire numérique École de bibliothéconomie et des sciences de l information Cours 6 Systèmes de gestion de bases de données (SGBD) textuels

Plus en détail

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs Journée organisée par le CRFCB Midi-Pyrénées / Languedoc-Roussillon

Plus en détail

Forthcoming Database

Forthcoming Database DISS.ETH NO. 15802 Forthcoming Database A Framework Approach for Data Visualization Applications A dissertation submitted to the SWISS FEDERAL INSTITUTE OF TECHNOLOGY ZURICH for the degree of Doctor of

Plus en détail

RAPID 3.34 - Prenez le contrôle sur vos données

RAPID 3.34 - Prenez le contrôle sur vos données RAPID 3.34 - Prenez le contrôle sur vos données Parmi les fonctions les plus demandées par nos utilisateurs, la navigation au clavier et la possibilité de disposer de champs supplémentaires arrivent aux

Plus en détail

Catalogue des formations Edition 2015

Catalogue des formations Edition 2015 Antidot - Formations Catalogue des formations Edition 2015 : catalogue_formation_2015 Révision du 06.01.2015 Sommaire!!"##$%&'( )! $*$+,(-'(."##'+.'&( /!,'.0+"1"2%'( /!!."3'( /! $(3&"3"!(-4(5(.$,$1"24'(-'!(6"&#$,%"+!(7('-%,%"+()89:(;(

Plus en détail

LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS

LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS LEXIQUE DES TERMES DOCUMENTAIRES LES PLUS COURANTS Annuaire Ouvrage publié en principe chaque année ou selon une périodicité proche de l'année, qui donne une liste de noms de personnes ou d'organismes

Plus en détail

Ingénierie et gestion des connaissances

Ingénierie et gestion des connaissances Master Web Intelligence ICM Option Informatique Ingénierie et gestion des connaissances Philippe BEAUNE Philippe.Beaune@emse.fr 18 novembre 2008 Passer en revue quelques idées fondatrices de l ingénierie

Plus en détail

PLAN DE CLASSIFICATION UNIFORME DES DOCUMENTS DU MSSS

PLAN DE CLASSIFICATION UNIFORME DES DOCUMENTS DU MSSS PLAN DE CLASSIFICATION UNIFORME DES DOCUMENTS DU MSSS Février 2011 Édition produite par : Le Service de l accès à l information et des ressources documentaires du ministère de la Santé et des Services

Plus en détail

Recherche bibliographique

Recherche bibliographique Séminaire «Maîtrise de l information scientifique» Recherche bibliographique Dernière mise à jour : 07/01/2015 - Auteur : Frédérique Flamerie Recherche bibliographique : méthode & outils La recherche bibliographique

Plus en détail

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues Maud Ehrmann Joint Research Centre Ispra, Italie. Guillaume Jacquet Xerox

Plus en détail

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar bbm@badr-benmammar.com Intelligence Artificielle et Systèmes Multi-Agents Badr Benmammar bbm@badr-benmammar.com Plan La première partie : L intelligence artificielle (IA) Définition de l intelligence artificielle (IA) Domaines

Plus en détail

Dossier justificatif des travaux de R&D déclarés au titre du CIR

Dossier justificatif des travaux de R&D déclarés au titre du CIR Dossier justificatif des travaux de R&D déclarés au titre du CIR I PRÉSENTATION DE LA SOCIETE Présenter l activité de la société en quelques lignes ou au moyen d une plaquette publicitaire et replacer

Plus en détail

Sujet de thèse CIFRE RESULIS / LGI2P

Sujet de thèse CIFRE RESULIS / LGI2P Ecole des Mines d Alès Laboratoire de Génie Informatique et d Ingénierie de Production LGI2P Nîmes Sujet de thèse CIFRE RESULIS / LGI2P Titre Domaine De l ingénierie des besoins à l ingénierie des exigences

Plus en détail

Prototype de canal caché dans le DNS

Prototype de canal caché dans le DNS Manuscrit auteur, publié dans "Colloque Francophone sur l Ingénierie des Protocoles (CFIP), Les Arcs : France (2008)" Prototype de canal caché dans le DNS Lucas Nussbaum et Olivier Richard Laboratoire

Plus en détail

Intelligence Artificielle et Robotique

Intelligence Artificielle et Robotique Intelligence Artificielle et Robotique Introduction à l intelligence artificielle David Janiszek david.janiszek@parisdescartes.fr http://www.math-info.univ-paris5.fr/~janiszek/ PRES Sorbonne Paris Cité

Plus en détail

Faculté des Sciences d ORSAY

Faculté des Sciences d ORSAY Université Paris-Sud 11 Faculté des Sciences d ORSAY Personnes ressources des disciplines représentées : Département de Biologie Vice-Président : Hervé DANIEL Secrétaire : Malika DERRAS Université Paris-Sud

Plus en détail

Ressources lexicales au service de recherche et d indexation des images

Ressources lexicales au service de recherche et d indexation des images RECITAL 2011, Montpellier, 27 juin - 1er juillet 2011 Ressources lexicales au service de recherche et d indexation des images Inga Gheorghita 1,2 (1) ATILF-CNRS, Nancy-Université (UMR 7118), France (2)

Plus en détail

Projet 2. Gestion des services enseignants CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE. G r o u p e :

Projet 2. Gestion des services enseignants CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE. G r o u p e : CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE Projet 2 Gestion des services enseignants G r o u p e : B E L G H I T Y a s m i n e S A N C H E Z - D U B R O N T Y u r i f e r M O N T A Z E R S i

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Proposition de sujet de thèse CIFRE EUROCOPTER / LGI2P

Proposition de sujet de thèse CIFRE EUROCOPTER / LGI2P EUROCOPTER SAS Groupe EADS Marignane Ecole des Mines d Alès Laboratoire de Génie Informatique et d Ingénierie de Production LGI2P Nîmes Proposition de sujet de thèse CIFRE EUROCOPTER / LGI2P Titre Domaine

Plus en détail

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par. École Doctorale d Informatique, Télécommunications et Électronique de Paris THÈSE présentée à TÉLÉCOM PARISTECH pour obtenir le grade de DOCTEUR de TÉLÉCOM PARISTECH Mention Informatique et Réseaux par

Plus en détail

Mastère spécialisé. «Ingénierie de l innovation et du produit nouveau De l idée à la mise en marché»

Mastère spécialisé. «Ingénierie de l innovation et du produit nouveau De l idée à la mise en marché» Mastère spécialisé «Ingénierie de l innovation et du produit nouveau De l idée à la mise en marché» I- Présentation détaillée du programme d enseignement Répartition par modules et crédits ECTS : Intitulé

Plus en détail

Vocabulaire juridique multilingue comparé. Caroline Reichling Direction générale de la Traduction Cour de justice de l Union européenne

Vocabulaire juridique multilingue comparé. Caroline Reichling Direction générale de la Traduction Cour de justice de l Union européenne Vocabulaire juridique multilingue comparé Caroline Reichling Direction générale de la Traduction Cour de justice de l Union européenne 22 novembre 2012 Vocabulaire juridique multilingue comparé La Cour

Plus en détail

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION THÈSE N O 2388 (2001) PRÉSENTÉE AU DÉPARTEMENT D'INFORMATIQUE ÉCOLE POLYTECHNIQUE FÉDÉRALE

Plus en détail

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES

ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES ACCÈS SÉMANTIQUE AUX BASES DE DONNÉES DOCUMENTAIRES Techniques symboliques de traitement automatique du langage pour l indexation thématique et l extraction d information temporelle Thèse Défense publique

Plus en détail

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences

Plus en détail

MASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE)

MASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE) MASTER (LMD) PARCOURS MICROORGANISMES, HÔTES, ENVIRONNEMENTS (MHE) RÉSUMÉ DE LA FORMATION Type de diplôme : Master (LMD) Domaine ministériel : Sciences, Technologies, Santé Mention : BIOLOGIE DES PLANTES

Plus en détail

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL J. TICHON(1) (2), J.-M. TOULOTTE(1), G. TREHOU (1), H. DE ROP (2) 1. INTRODUCTION Notre objectif est de réaliser des systèmes de communication

Plus en détail

Les apports de l informatique. Aux autres disciplines

Les apports de l informatique. Aux autres disciplines Les apports de l informatique Aux autres disciplines Le statut de technologie ou de sous-discipline est celui de l importation l et de la vulgarisation Le statut de science à part entière est lorsqu il

Plus en détail

Brève introduction à la recherche d!information sur le Web à base d!agents logiciels

Brève introduction à la recherche d!information sur le Web à base d!agents logiciels Plan Brève introduction à la recherche d!information sur le Web à base d!agents logiciels Bernard ESPINASSE Université d!aix-marseille 2010 Rappels sur les agents logiciels Problématique de la RI sur le

Plus en détail

Évaluation et implémentation des langages

Évaluation et implémentation des langages Évaluation et implémentation des langages Les langages de programmation et le processus de programmation Critères de conception et d évaluation des langages de programmation Les fondations de l implémentation

Plus en détail

Architecture d'entreprise : Guide Pratique de l'architecture Logique

Architecture d'entreprise : Guide Pratique de l'architecture Logique Guides Pratiques Objecteering Architecture d'entreprise : Guide Pratique de l'architecture Logique Auteur : Version : 1.0 Copyright : Softeam Equipe Conseil Softeam Supervisée par Philippe Desfray Softeam

Plus en détail

I.1 Introduction. I.2 La recherche d information. I.2.1 Définitions

I.1 Introduction. I.2 La recherche d information. I.2.1 Définitions I.1 Introduction La Recherche d Information (RI) peut être définie comme une activité dont la finalité est de localiser et de délivrer un ensemble de documents à un utilisateur en fonction de son besoin

Plus en détail

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS Quatrième colloque hypermédias et apprentissages 275 BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS Anne-Olivia LE CORNEC, Jean-Marc FARINONE,

Plus en détail

Création de Sous-Formulaires

Création de Sous-Formulaires Création de Sous-Formulaires Révision 1.01 du 02/01/04 Réalisé avec : OOo 1.1.0 Plate-forme / Os : Toutes Distribué par le projet Fr.OpenOffice.org Table des Matières 1 But de ce how-to...3 2 Pré-requis...3

Plus en détail

LE CALENDRIER DES STAGES

LE CALENDRIER DES STAGES LE CALENDRIER DES STAGES BIOSCIENCES : BIOCHIMIE ET BIOTECHNOLOGIES BIOSCIENCES : BIOINFORMATIQUE ET MODELISATION GENIE CIVIL ET URBANISME Ingénieurs pluridisciplinaires formés en chimie, biochimie analytique

Plus en détail

LECTURE CRITIQUE. Accompagner les enseignants et formateurs dans la conception d une formation en ligne

LECTURE CRITIQUE. Accompagner les enseignants et formateurs dans la conception d une formation en ligne LECTURE CRITIQUE Accompagner les enseignants et formateurs dans la conception d une formation en ligne Christian Ernst E-learning. Conception et mise en œuvre d un enseignement en ligne Guide pratique

Plus en détail

Université de Bangui. Modélisons en UML

Université de Bangui. Modélisons en UML Université de Bangui CRM Modélisons en UML Ce cours a été possible grâce à l initiative d Apollinaire MOLAYE qui m a contacté pour vous faire bénéficier de mes connaissances en nouvelles technologies et

Plus en détail

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA RÉCITAL 2005, Dourdan, 6-10 juin 2005 Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA Siham Boulaknadel (1,2), Fadoua Ataa-Allah (2) (1) LINA FRE

Plus en détail

Photoactivatable Probes for Protein Labeling

Photoactivatable Probes for Protein Labeling Photoactivatable Probes for Protein Labeling THÈSE N O 4660 (2010) PRÉSENTÉE LE 26 MARS 2010 À LA FACULTÉ SCIENCES DE BASE LABORATOIRE D'INGÉNIERIE DES PROTÉINES PROGRAMME DOCTORAL EN CHIMIE ET GÉNIE CHIMIQUE

Plus en détail

Présentation de la majeure ISN. ESILV - 18 avril 2013

Présentation de la majeure ISN. ESILV - 18 avril 2013 Présentation de la majeure ISN ESILV - 18 avril 2013 La Grande Carte des Métiers et des Emplois Sociétés de service Entreprises Administrations Grand- Public Sciences Utiliser Aider à utiliser Vendre APPLICATIONS:

Plus en détail

Qualité de la conception de tests logiciels : plate-forme de conception et processus de test

Qualité de la conception de tests logiciels : plate-forme de conception et processus de test Ecole Doctorale en Sciences de l Ingénieur de l ECP Formation doctorale en Génie Industriel Qualité de la conception de tests logiciels : plate-forme de conception et processus de test Quality of the design

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Une méthode d apprentissage pour la composition de services web

Une méthode d apprentissage pour la composition de services web Une méthode d apprentissage pour la composition de services web Soufiene Lajmi * Chirine Ghedira ** Khaled Ghedira * * Laboratoire SOIE (ENSI) University of Manouba, Manouba 2010, Tunisia Soufiene.lajmi@ensi.rnu.tn,

Plus en détail

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178 Thèse no. 7178 PROBLEMES D'OPTIMISATION DANS LES SYSTEMES DE CHAUFFAGE A DISTANCE présentée à l'ecole POLYTECHNIQUE FEDERALE DE ZURICH pour l'obtention du titre de Docteur es sciences naturelles par Alain

Plus en détail

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21 IODAA de l 1nf0rmation à la Décision par l Analyse et l Apprentissage IODAA Informations générales 2 Un monde nouveau Des données numériques partout en croissance prodigieuse Comment en extraire des connaissances

Plus en détail

Systèmes d information et bases de données (niveau 1)

Systèmes d information et bases de données (niveau 1) Systèmes d information et bases de données (niveau 1) Cours N 1 Violaine Prince Plan du cours 1. Bibliographie 2. Introduction aux bases de données 3. Les modèles 1. Hiérarchique 2. Réseau 3. Relationnel

Plus en détail

Forge. Présentation ( )

Forge. Présentation ( ) ( RetourListeFichesParThèmes ) Forge Présentation Définition Objectifs Services fournis, fonctions disponibles Services en ligne d hébergement de projets La solution des logiciels intégrés pour le déploiement

Plus en détail

Recommandations pour la réalisation pratique et la diffusion des mémoires

Recommandations pour la réalisation pratique et la diffusion des mémoires Recommandations pour la réalisation pratique et la diffusion des mémoires Sommaire 1 Décrire le contenu du mémoire : le résumé et les mots-clés...2 1.1.1 Le résumé...2 1.1.2 Les mots-clés...2 2 Bibliographie...4

Plus en détail

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU CommentWatcher plateforme Web open-source pour analyser les discussions sur des forums en ligne Marian-Andrei RIZOIU 2ème octobre 2013 BLEND 2013 Lyon, France Contexte Laboratoire ERIC Université Lumière

Plus en détail

BANQUES DE DONNÉES PÉDAGOGIQUES

BANQUES DE DONNÉES PÉDAGOGIQUES 223 Daniel BURET, Jean-Claude BLANCHARD. HISTORIQUE L'EPI a entrepris en 1989 de créer des bases d'énoncés mathématiques destinées aux enseignants pour la production de documents et accompagnées d'un outil

Plus en détail

Développement et applications de la base de données terminologiques de Matra Marconi Space

Développement et applications de la base de données terminologiques de Matra Marconi Space France Développement et applications de la base de données terminologiques de Matra Marconi Space () NDLR: Aramiihs= Action, recherche et application Matra/Irit en interface homme système. Introduction

Plus en détail

Formation continue des personnels URCA. Offre de la Bibliothèque Universitaire

Formation continue des personnels URCA. Offre de la Bibliothèque Universitaire Formation continue des personnels URCA Offre de la Bibliothèque Universitaire Année 2012-2013 Bibliothèque Universitaire Formation continue pour le personnel de l URCA Modalités o Public : personnels de

Plus en détail

Compétences documentaires et numériques (basées sur le PACIFI) à acquérir de la 6 à la terminale

Compétences documentaires et numériques (basées sur le PACIFI) à acquérir de la 6 à la terminale Compétences documentaires et numériques (basées sur le PACIFI) à acquérir de la 6 à la terminale En 6 : On attend d'un élève de 6 qu'il sache se repérer dans le CDI, trouver une fiction et un documentaire,

Plus en détail

GED: Gestion Electronique de Document (Support de cours) R. MAHMOUDI (mahmoudr@esiee.fr) www.research-ace.net/~mahmoudi 1 Gestion Electronique de Documents Plan du cours - Introduction générale - Spécificités

Plus en détail

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML http://olivier-augereau.com Sommaire Introduction I) Les bases II) Les diagrammes

Plus en détail

Base de données bibliographiques Pubmed-Medline

Base de données bibliographiques Pubmed-Medline Chapitre 1 ; Domaine 1 ; Documentation ; Champs référentiels 1.1.1, 1.1.2 et 1.1.3 Base de données bibliographiques Pubmed-Medline D r Patrick Deschamps,, 30 mai 2007 PLAN C2i métiers de la santé Introduction

Plus en détail

Master Technologies numériques appliquées à l'histoire Deuxième année

Master Technologies numériques appliquées à l'histoire Deuxième année Master Technologies numériques appliquées à l'histoire Deuxième année Octobre 2014 Octobre Novembre Décembre Semaine 1 Semaine 2 Semaine 3 Semaine 4 Semaine 5 Semaine 6 Semaine 7 Semaine 8 Semaine 9 Semaine

Plus en détail

INTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE

INTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE INTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE BUSINESS INTELLIGENCE : GOALS AND RESULTS OF A PILOT EXPERIMENT INVOLVING SEVEN SMEs FROM BOURGOGNE Ludovic DENOYELLE,

Plus en détail

Les formations en cycle ingénieur

Les formations en cycle ingénieur Les formations en cycle ingénieur Eau, environnement, aménagement Ce domaine forme des ingénieurs capables d'explorer et d'organiser l'espace (surface et sous-sol), d'exploiter durablement les ressources

Plus en détail

Lignes directrices européennes (1998)

Lignes directrices européennes (1998) Lignes directrices européennes (1998) Légende: Lignes directrices européennes, présentées en 1998, concernant l'application des normes de contrôle de l'organisation internationale des institutions supérieures

Plus en détail

THESE. Présentée devant. L Université Paul Sabatier de Toulouse. en vue de l obtention du

THESE. Présentée devant. L Université Paul Sabatier de Toulouse. en vue de l obtention du Laboratoire IRIT Pôle SIG-EVI THESE Présentée devant L Université Paul Sabatier de Toulouse en vue de l obtention du Doctorat de l Université Paul Sabatier Spécialité Informatique Par Nathalie HERNANDEZ

Plus en détail

TEXT MINING. 10.6.2003 1 von 7

TEXT MINING. 10.6.2003 1 von 7 TEXT MINING 10.6.2003 1 von 7 A LA RECHERCHE D'UNE AIGUILLE DANS UNE BOTTE DE FOIN Alors que le Data Mining recherche des modèles cachés dans de grandes quantités de données, le Text Mining se concentre

Plus en détail

Recherche et veille documentaire scientifique

Recherche et veille documentaire scientifique Recherche et veille documentaire scientifique Élodie Chattot BU Médecine Pharmacie juin 2006 Introduction Le but de cet atelier est de vous initier à la méthodologie de recherche documentaire scientifique,

Plus en détail

Référencement naturel

Référencement naturel Référencement naturel 1er novembre 2011 Pour optimiser votre positionnement dans les moteurs de recherche, renforcer votre visibilité en ligne et améliorer le contenu de votre site web pour le référencement

Plus en détail

Nom de l application

Nom de l application Ministère de l Enseignement Supérieur et de la Recherche Scientifique Direction Générale des Etudes Technologiques Institut Supérieur des Etudes Technologiques de Gafsa Département Technologies de l Informatique

Plus en détail

Mastère spécialisé MS : «Ingénierie de l innovation et du produit nouveau

Mastère spécialisé MS : «Ingénierie de l innovation et du produit nouveau Mastère spécialisé MS : «Ingénierie de l innovation et du produit nouveau De l idée à la mise en marché» 1- Présentation détaillée du programme d enseignement Répartition par modules et crédits ECTS :

Plus en détail

Baccalauréat technologique

Baccalauréat technologique Baccalauréat technologique Épreuve relative aux enseignements technologiques transversaux, épreuve de projet en enseignement spécifique à la spécialité et épreuve d'enseignement technologique en langue

Plus en détail

Classification Automatique de messages : une approche hybride

Classification Automatique de messages : une approche hybride RECIAL 2002, Nancy, 24-27 juin 2002 Classification Automatique de messages : une approche hybride O. Nouali (1) Laboratoire des Logiciels de base, CE.R.I.S., Rue des 3 frères Aïssiou, Ben Aknoun, Alger,

Plus en détail

Business Intelligence avec SQL Server 2012

Business Intelligence avec SQL Server 2012 Editions ENI Business Intelligence avec SQL Server 2012 Maîtrisez les concepts et réalisez un système décisionnel Collection Solutions Informatiques Extrait Alimenter l'entrepôt de données avec SSIS Business

Plus en détail

Gestion collaborative de documents

Gestion collaborative de documents Gestion collaborative de documents ANT box, le logiciel qui simplifie votre GED Les organisations (entreprises, collectivités, associations...) génèrent chaque jour des millions de documents, e-mails,

Plus en détail

Types de REA produites dans le cadre de la séquence pédagogique

Types de REA produites dans le cadre de la séquence pédagogique Scénario pédagogique APPRENDRE À ENSEIGNER AUTREMENT Description générale du scénario Titre Les bases de données relationnelles Résumé Dans le cadre d'un cours à distance, la visioconférence est une REA

Plus en détail

MINISTÈRE CHARGÉ DE LA RECHERCHE NOTICE

MINISTÈRE CHARGÉ DE LA RECHERCHE NOTICE cerfa N 50078#07 MINISTÈRE CHARGÉ DE LA RECHERCHE PROCEDURE D'AGREMENT, AU TITRE DU CREDIT D'IMPOT-RECHERCHE, DES ORGANISMES EXECUTANT POUR DES TIERS DES OPERATIONS DE RECHERCHE ET DE DEVELOPPEMENT NOTICE

Plus en détail

Intégration de produits mécatroniques au sein d un système PLM

Intégration de produits mécatroniques au sein d un système PLM Intégration de produits mécatroniques au sein d un système PLM HOUSSEM ABID 1, MADY GUILLEMOT 1, DIDIER NOTERMAN 1, PHILIPPE PERNELLE 2 1 Laboratoire DISP, INSA Lyon 69100, France {houssem.abid,mady.guillmot,didier.noterman}@insa-lyon.fr

Plus en détail

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus

Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus JEP-TALN 2004, Traitement Automatique de l Arabe, Fès, 20 avril 2004 Un dictionnaire électronique pour apprenant de l'arabe (langue seconde) basé sur corpus ZAAFRANI Riadh Faculté des Sciences Juridiques,

Plus en détail

Séminaire «Maîtrise de l information scientifique» Exploitation de l information : optimiser sa gestion documentaire

Séminaire «Maîtrise de l information scientifique» Exploitation de l information : optimiser sa gestion documentaire Séminaire «Maîtrise de l information scientifique» Exploitation de l information : optimiser sa gestion documentaire Dernière mise à jour : 01/09/2013 - Auteur : Frédérique Flamerie Programme Exploitation

Plus en détail

Sciences Humaines et Sociales. Informatique et applications. VIGNERON Vincent vvigne@iup.univ-evry.fr STIC Traitement du signal et des images

Sciences Humaines et Sociales. Informatique et applications. VIGNERON Vincent vvigne@iup.univ-evry.fr STIC Traitement du signal et des images Sujets de thèse Ecole Doctorale "Sciences et Ingénierie" 2012-2013 Sujet de thèse Unité de recherche Nom de l'encadrant Discipline principale Discipline secondaire Navigation topologique basée sur des

Plus en détail

Diplôme d Université Licence d Université Sciences Physiques pour l Ingénieur (SPI) Liste des modules

Diplôme d Université Licence d Université Sciences Physiques pour l Ingénieur (SPI) Liste des modules Licence d Université Sciences Physiques pour l Ingénieur (SPI) Liste des modules Électronique numérique et informatique industrielle Informatique / réseaux Mécanique des fluides/ Transferts thermiques

Plus en détail

Concevoir sa stratégie de recherche d information

Concevoir sa stratégie de recherche d information Concevoir sa stratégie de recherche d information Réalisé : mars 2007 Dernière mise à jour : mars 2011 Bibliothèque HEC Paris Contact : biblio@hec.fr 01 39 67 94 78 Cette création est mise à disposition

Plus en détail

Théories de la Business Intelligence

Théories de la Business Intelligence 25 Chapitre 2 Théories de la Business Intelligence 1. Architectures des systèmes décisionnels Théories de la Business Intelligence Depuis les premières requêtes sur les sources de données OLTP consolidées

Plus en détail

Hervé Couturier EVP, SAP Technology Development

Hervé Couturier EVP, SAP Technology Development Hervé Couturier EVP, SAP Technology Development Hervé Biausser Directeur de l Ecole Centrale Paris Bernard Liautaud Fondateur de Business Objects Questions à: Hervé Couturier Hervé Biausser Bernard Liautaud

Plus en détail

Préparer un état de l art

Préparer un état de l art Préparer un état de l art Khalil DRIRA LAAS-CNRS, Toulouse Unité de recherche ReDCAD École Nationale d ingénieurs de Sfax Étude de l état de l art? Une étude ciblée, approfondie et critique des travaux

Plus en détail

WINDOWS SHAREPOINT SERVICES 2007

WINDOWS SHAREPOINT SERVICES 2007 WINDOWS SHAREPOINT SERVICES 2007 I. TABLE DES MATIÈRES II. Présentation des «content types» (Type de contenu)... 2 III. La pratique... 4 A. Description du cas... 4 B. Création des colonnes... 6 C. Création

Plus en détail

Etape 4 : AMELIORATION - Réajustement à la situation de l'entreprise de l'information communiquée

Etape 4 : AMELIORATION - Réajustement à la situation de l'entreprise de l'information communiquée Partie V. Guide méthodologique IPAPE Etape 4 : AMELIORATION - Réajustement à la situation de l'entreprise de l'information communiquée Afin d'appliquer le concept d'amélioration continue, les partenaires

Plus en détail

Sécuristation du Cloud

Sécuristation du Cloud Schémas de recherche sur données chiffrées avancés Laboratoire de Cryptologie Thales Communications & Security 9 Avril 215 9/4/215 1 / 75 Contexte Introduction Contexte Objectif Applications Aujourd hui

Plus en détail

Stages 2014-2015 ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

Stages 2014-2015 ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr Stages 2014-2015 ISOFT : UNE SOCIETE INNOVANTE Contact : Mme Lapedra, stage@isoft.fr ISoft, éditeur de logiciels, est spécialisé dans l informatique décisionnelle et l analyse de données. Son expertise

Plus en détail

Le signalement des acquisitions numériques à l échelle nationale Le rôle du hub de métadonnées scénarios et prototype

Le signalement des acquisitions numériques à l échelle nationale Le rôle du hub de métadonnées scénarios et prototype Le signalement des acquisitions numériques à l échelle nationale Le rôle du hub de métadonnées scénarios et prototype Raymond BERARD, directeur de l ABES 0 Sommaire 1. La genèse du projet 2. Etude de faisabilité

Plus en détail

Introduction aux bases de données

Introduction aux bases de données Introduction aux bases de données Références bibliographiques Jeff Ullman,Jennifer Widom, «A First Course in Database systems», Prentice-Hall, 3rd Edition, 2008 Hector Garcia-Molina, Jeff Ullman, Jennifer

Plus en détail

Chapitre 1 : Introduction aux bases de données

Chapitre 1 : Introduction aux bases de données Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données

Plus en détail

Évolution de schémas dans les entrepôts de données mise à jour de hiérarchies de dimension pour la personnalisation des analyses

Évolution de schémas dans les entrepôts de données mise à jour de hiérarchies de dimension pour la personnalisation des analyses Évolution de schémas dans les entrepôts de données mise à jour de hiérarchies de dimension pour la personnalisation des analyses Thèse présentée par Cécile FAVRE pour obtenir le titre de Docteur en Informatique

Plus en détail

UNIV. LA ROCHELLE (IUT) Référence GALAXIE : 4099

UNIV. LA ROCHELLE (IUT) Référence GALAXIE : 4099 UNIV. LA ROCHELLE (IUT) Référence GALAXIE : 4099 Numéro dans le SI local : 0135 Référence GESUP : Corps : Professeur des universités Article : 46-1 Chaire : Non Section 1 : 27-Informatique Section 2 :

Plus en détail

Le bénéfice maximal de votre documentation

Le bénéfice maximal de votre documentation www.fluidtopics.com Le bénéfice maximal de votre documentation Manuels utilisateurs, guides techniques, notes d installation ou de maintenance, plaquettes marketing La documentation de vos produits est

Plus en détail