Thèse Spécialité Informatique

Transcription

1 N d ordre 01 ISAL 0059 Année 2001 Thèse Spécialité Informatique Présentée devant L Institut National des Sciences Appliquées de Lyon Pour obtenir Le grade de docteur Formation doctorale : Documents multimedia, Images et Systèmes d'information Communicants (DISIC) École doctorale : Ecole Doctorale Informatique et Information pour la Société (EDIIS) Par Catherine Roussey (Ingénieur) Une méthode d'indexation sémantique adaptée aux corpus multilingues Soutenue le 10 décembre 2001 devant la Commission d examen Jury MM. M-F. BRUANDET Professeur à l'université Joseph Fourier Co-encadrant S. CALABRETTO Maitre de Conférences à l INSA de Lyon B. J. DORR Associate Professor à UMIACS USA G. KASSEL Professeur à l'université de Picardie Rapporteur J. LE MAITRE Professeur à l'université de Toulon et du Var Directeur J-M. PINON Professeur à l INSA de Lyon Rapporteur F. SEDES Professeur à l'université de Toulouse Cette thèse a été préparée au Laboratoire d'ingénierie des Systèmes d'information (LISI) de l'insa de Lyon.

2 Une Méthode d'indexation Sémantique adaptée aux Corpus Multilingues Résumé Ces travaux de thèse s inscrivent dans la problématique générale liée à l indexation d'un corpus de texte pour la recherche d information multilingue. Le but de l indexation est d identifier la connaissance contenue dans un texte et de la représenter par des mots clés appelés descripteurs. Or, la composante multilingue ajoute une complexité supplémentaire au processus d indexation car une étape de traduction est obligatoire pour représenter document et requête par des descripteurs appartenant au même espace d'indexation. Pour traduire correctement un terme, il est préférable de reconnaître le concept dénoté par celui-ci. Actuellement, une recherche d information pertinente représente le contenu des documents par des concepts et non plus par des termes. Cette thèse propose une méthode d'indexation sémantique pour les documents XML permettant de caractériser le contenu documentaire par des connaissances, non dépendante de la langue des documents. Ces connaissances sont déclinées en deux types : Les connaissances du domaine sont utilisées pour représenter les documents et les requêtes dans le même espace de représentation non dépendant des langues. Les connaissances terminologiques constituent plusieurs langages de présentation des connaissances du domaine. Nous avons défini notre propre modèle de représentation des connaissances intitulé les graphes sémantiques. Ce modèle est un enrichissement du modèle des graphes conceptuels de Sowa. Premièrement, notre modèle différencie les connaissances du domaine, des connaissances terminologiques. Deuxièmement, une fonction de comparaison de graphes adaptée aux besoins réels de la recherche d'information est proposée. Notre méthode d indexation se veut générique car elle peut être utilisée aussi bien dans un système de recherche d information multilingue que dans un hypertexte à base de connaissances. Pour valider notre proposition, un prototype, appelé SyDoM, a été implanté, répondant aux besoins d une bibliothèque virtuelle. Mots-Clés: Recherche Information, Recherche Documentaire, Multilingue, Indexation Sémantique, Représentation Connaissance, Graphes Conceptuels, Thésaurus, Méta données, Base Connaissance Terminologique, Document Structuré, Hypertexte, XML.

3 Semantic Indexing Method for Multilingual Corpora Abstract This thesis deals with indexing problems of a multilingual corpus in an information retrieval system. Indexing procedure identifies the knowledge related to a text and represents it by keywords called descriptors. However, multilinguality increases the complexity of the indexing procedure because some "translation" is necessary to represent documents and queries in the same indexing space. To find a good translation of a term, the concept denoted by this term should be identified. Currently, pertinent information retrieval aims at representing the document semantics by concepts instead of terms. This thesis proposes a semantic indexing method for XML-encoded documents based on knowledge describing the document content, whatever the document language is. Our method indexes documents using two types of knowledge: Domain knowledge, which composes a pivot language, used to represent documents and queries in the same indexing space not dependent on the languages. Terminological knowledge, which is organized in several vocabularies (one per language). Terminological knowledge is related to domain knowledge and constitutes some presentation languages used to visualize the domain knowledge in several languages. In order to manipulate our indices, we define our own knowledge representation model entitled the semantic graphs. This model is an enrichment of the Sowa model of conceptual graphs by differentiating domain knowledge from terminological knowledge, but also by proposing a comparison function of graphs more adapted to the purpose information retrieval. Our indexing method can be used as well in a multilingual information retrieval system as in a knowledge hypertext. That s why we claim that our indexing method is generic. To validate our proposition, a prototype, called SyDoM, was developed, dedicated for the needs of virtual library. Keywords: Information Retrieval, Multilingual, Semantic Indexing, Metadata, Thesaurus, Knowledge Base, Knowledge Representation, Conceptual Graphs, Structured Document, Web, Hypertext, XML.

4 Écoles Doctorales Chimie de Lyon Responsable : Professeur D. SINOU, UCBL (Tél. : ) Formations doctorales associées : Chimie Inorganique (Pr. J.F. QUINSON, Tél : ) Sciences et Stratégies Analytiques Sciences et Techniques du Déchet (Pr. P. MOSZKOWICZ, Tél : ) Economie, Espace et Modélisation des Comportements (E 2 MC) Responsable : Professeur A. BONNAFOUS, LYON2 (Tél. : ) Formations doctorales associées : Villes et Sociétés (Pr. M. ZIMMERMANN, Tél : ) Dimensions Cognitives et Modélisation (Pr. L. FRECON, Tél : ) Électronique, Électrotechnique, Automatique (EEA) INSAL - ECL UCB. Lyon1 Univ. de Saint-Etienne Responsable : Professeur G. GIMENEZ, INSAL (Tél : ) Formations doctorales associées : Automatique Industrielle (Pr. M. BETEMPS, Tél : ) Dispositifs de l Electronique Intégrée (Pr. D. BARBIER, Tél : ) Génie Electrique de Lyon (Pr. J.P. CHANTE, Tél : ) Images et Systèmes (Pr. I MAGNIN, Tél : ) Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon i

5 Evolution, Ecosysteme, Microbiologie, Modelisation (E2M2) Responsable : Professeur J.P. FLANDROIS, UCBL1 (Tél : ) Formations doctorales associées : Analyse et Modélisation des Systèmes Biologiques (Pr. S. GRENIER, Tél : ) Informatique et Information pour la Société (EDIIS) Responsable : Professeur J.M. JOLION, INSAL (Tél ) Formations doctorales associées : Documents Multimédia, Images et Systèmes d'information Communicants (Pr. M. FLORY, Tél : ) Extraction des Connaissances à partir des Données (Dr. J.F. BOULICAUT, Tél : ) Informatique et Systèmes Coopératifs pour l'entreprise (Pr. A. GUINET, Tél : ) Interdisciplinaire Sciences-Santé (EDISS) Responsable : Professeur A. COZZONE, UCBL1 (Tél ) Formations doctorales associées : Biochimie (Pr. M. LAGARDE, Tél : ) Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon ii/196

6 Matériaux de Lyon Responsable : Professeur J. JOSEPH, ECL (Tél. : ) Formations doctorales associées : Génie des Matériaux : Microstruture, Comportement Mécanique, Durabilité (Pr. R. FOUGERES, Tél : ) Matière Condensée Surfaces et Interfaces (Pr. G. GUILLOT, Tél : ) Matériaux Polymères et Composites (Pr. H. SAUTEREAU, Tél : ) Mathématiques et Information Fondamentale (Math IF) Responsable : Professeur M. NICOLAS, UCBL1 (Tél. : ) Formations doctorales associées : Analyse Numérique, Equations aux dérivées partielles et Calcul Scientifique (Pr. G. BAYADA, Tél : ) Matière Condensée Surfaces et Interfaces (Pr. G. GUILLOT, Tél : ) Matériaux Polymères et Composites (Pr. H. SAUTEREAU, Tél : ) Mécanique, Energétique, Génie Civil, Acoustique (MEGA) Responsable : Pr. J. BATAILLE, ECL (Tél : ) Formations doctorales associées : Acoustique (Pr. J.L. GUYADER, Tél : ) Génie Civil (Pr. M. MIRAMOND, Tél : ) Génie Mécanique (Pr. G. DALMAZ, Tél : ) Thermique et Energétique (Pr. M. LALLEMAND, Tél : ) Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon iii

7 Janvier 1998 Institut national des sciences appliquées de Lyon Directeur : A. STORCK Professeurs S. AUDISIO physico-chimie industrielle J.C. BABOUX GEMPMM* B. BALLAND physique de la matière D. BARBIER physique de la matière J.P. BASTIDE thermodynamique appliquée G. BAYADA modélisation mathématique et calcul scientifique C. BERGER physique de la matière M. BETEMPS automatique industrielle J.M. BLANCHARD LAEPSI** C. BOISSON vibrations acoustiques M. BOIVIN mécanique des solides H. BOTTA équipe développement urbain M. BOTTA-ZIMMERMANN équipe développement urbain G. BOULAYE (Prof. Émérite) informatique J. BRAU centre de thermique M. BRISSAUD génie électrique et ferroélectricité M. BRUNET mécanique des solides L. BRUNIE ingénierie des systèmes d'information J.C. BUREAU thermodynamique appliquée J.Y. CAVAILLE GEMPMM* J.P. CHANTE composants de puissance et applications B. CHOCAT unité de recherche en génie civil M. COUSIN unité de recherche en génie civil A. DOUTHEAU chimie organique R. DUFOUR mécanique des structures J.C. DUPUY physique de la matière H. EMPTOZ reconnaissance des formes et vision C. ESNOUF GEMPMM* L. EYRAUD (Prof. Émérite) génie électrique et ferroélectricité G. FANTOZZI GEMPMM* J. FAVREL groupe de recherche en productique et informatique des systèmes manufacturiers J.M. FAYARD biologie appliquée M. FAYET mécanique des solides Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon iv/196

8 G. FERRARIS-BESSO mécanique des structures L. FLAMAND mécanique des contacts P. FLEISCHMANN GEMPMM* A. FLORY ingénierie des systèmes d'information R. FOUGERES GEMPMM* F. FOUQUET GEMPMM* L. FRECON informatique J.F. GERARD matériaux macromoléculaires G. GIMENEZ CREATIS*** P. GONNARD génie électrique et ferroélectricité M. GONTRAND composants de puissance et applications R. GOUTTE (Prof. Émérite) CREATIS*** G. GRANGE génie électrique et ferroélectricité G. GUENIN GEMPMM* M. GUICHARDANT biochimie et pharmacologie G. GUILLOT physique de la matière A. GUINET groupe de recherche en productique et informatique des systèmes manufacturiers J.L. GUYADER vibrations acoustiques J.P. GUYOMAR génie électrique et ferroélectricité G. JACQUET RICHARDET mécaniques des structures J.M. JOLION reconnaissance des formes et vision J.F. JULLIEN unité de recherche en génie civil A. JUTARD automatique industrielle R. KASTNER unité de recherche en génie civil J. KOULOUMDJIAN ingénierie des systèmes d'information M. LAGARDE biochimie et pharmacologie M. LALANNE mécanique des structures A. LALLEMAND centre de thermique M. LALLEMAND centre de thermique P. LAREAL unité de recherche en génie civil A. LAUGIER physique de la matière C. LAUGIER biochimie et pharmacologie P. LEJEUNE génétique moléculaire des microorganismes A. LUBRECHT mécanique des contacts Y. MARTINEZ ingénierie des systèmes d'information H. MAZILLE physico-chimie industrielle P. MERLE GEMPMM* J. MERLIN GEMPMM* J.P. MILLET physico-chimie industrielle M. MIRAMOND unité de recherche en génie civil R. MOREL mécanique des fluides P. MOSZKOWICZ LAEPSI** P. NARDON biologie appliquée A. NAVARRO LAEPSI** Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon v

9 A. NOURI modélisation mathématique et calcul scientifique C. ODET CREATIS*** M. OTTERBEIN LAEPSI** J.P. PASCAULT matériaux macromoléculaires G. PAVIC vibrations acoustiques J.M. PELLETIER GEMPMM* J. PERA unité de recherche en génie civil G. PERRACHON thermodynamique appliquée J. PEREZ (Prof. Émérite) GEMPMM* P. PERRIAT GEMPMM* J. PERRIN équipe sciences humaines de l'insa de Lyon P. PINARD (Prof. Émérite) physique de la matière J.M. PINON ingénierie des systèmes d'information D. PLAY conception et analyse des systèmes mécaniques J. POUSIN modélisation mathématique et calcul scientifique P. PREVOT groupe de recherche en apprentissage, coopération et interfaces multimodales R. PROST CREATIS*** M. RAYNAUD centre de thermique de Lyon H. REDARCE automatique industrielle J.M. REYNOUARD unité de recherche en génie civil J.F. RIGAL conception et analyse des systèmes mécaniques E. RIEUTORD (Prof. Émérite) mécanique des fluides J. ROBERT-BAUDOUY (Prof. Émérite) génétique moléculaire des microorganismes D. ROUBY GEMPMM* J.J. ROUX centre de thermique de Lyon P. RUBEL ingénierie des systèmes d'information C. RUMELHART mécanique des solides J.F. SACADURA centre de thermique H. SAUTEREAU matériaux macromoléculaires S. SCARVARDA automatique industrielle D. THOMASSET automatique industrielle M. TROCCAZ génie électrique et ferroélectricité R. UNTERREINER CREATIS*** P. VELEX mécanique des contacts G. VIGIER GEMPMM* A. VINCENT GEMPMM* P. VUILLERMOZ physique de la matière Directeurs de recherche C.N.R.S. Y. BERTHIER mécanique des contacts N. COTTE-PATTAT génétique moléculaire des microorganismes Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon vi/196

10 P. FRANCIOSI GEMPMM* M.A.MANDRAND génétique moléculaire des microorganismes J.F. QUINSON GEMPMM* A. ROCHE matériaux macromoléculaires A. SEGUELA GEMPPM* Directeurs de recherche I.N.R.A. G. FEBVAY biologie appliquée S. GRENIER biologie appliquée Directeurs de recherche I.N.S.E.R.M. A.F. PRINGENT biochimie et pharmacologie I. MAGNIN CREATIS*** GEMPMM* : Groupe d'etude metallurgie physique et physique des matériaux LAEPSI** : Laboratoire d'analyse environnementale des procédés et systèmes industriels CREATIS*** : Centre de recherche et d'applications en traitement de l'image et du signal Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon vii

11 Le meilleur ami de "merci" est "beaucoup". Ecrivain québécois [ Michel Bouthot ] Je remercie sincèrement Jean-Marie PINON, Professeur à l INSA de Lyon, de m avoir donnée l opportunité de découvrir la recherche en m accueillant dans l équipe Documentique et Aide à la Décision (DAD) qu il dirige. Mes remerciements les plus chaleureux iront à Sylvie CALABRETTO, Maître de Conférences à l INSA de Lyon, pour son aide précieuse et sa présence constante, mais surtout pour toutes ces attentions, ces petits riens qu elle n était pas obligée de faire mais qu elle a fait Merci beaucoup Je tiens à remercier particulièrement Florence SEDES, Professeur à l Université de Toulouse, pour avoir accepté d être rapporteur de ce travail et pour ses remarques constructives qui m ont permis d améliorer mon manuscrit. Je désire également remercier Jacques LE MAITRE, pour me faire l honneur d être rapporteur de la présente thèse. Mes remerciements iront également à Marie-France BRUANDET et Gilles KASSEL qui ont accepté d être membres du jury et qui ont apporté leur caution scientifique à ce travail. Je souhaite remercier tout particulièrement Bonnie J DORR, Assistant Professor à l Université du Maryland (Washington, USA), de m avoir accueillie chaleureusement dans son laboratoire et de m avoir montrée un autre point de vue sur la recherche. La valeur d'un homme tient dans sa capacité à donner et non dans sa capacité à recevoir. Physicien américain (Nobel de physique 1921) [ Albert Einstein ] Je tiens à remercier sincèrement Robert LAURINI, Professeur à l Université Lyon I et Directeur du LISI, de m avoir accueillie au sein de son laboratoire. Merci pour tout ce que vous avez fait (et surtout lu) pour les doctorants de votre labo. Je remercie également Doug OARD, Assistant Professor à l Université du Maryland (Washington, USA) de m avoir fait bénéficier de la richesse de son expérience. Ma profonde gratitude ira particulièrement à David GENEST, Maître de Conférences à l Université d Angers, pour la pertinence de ses commentaires sur mon travail. Plus on partage, plus on possède. Voilà le miracle. Acteur américain [ Léonard Nimoy ] Je remercie chaleureusement mes collègues de travail au LISI pour leur soutien et leur aide précieuse et plus particulièrement les membres de l équipe DAD. Un merci tout particulier à Alexia et Christiane. Je remercie José CUBA, ingénieur CNAM, et Thomas Nguyen, élève ingénieur en informatique, pour leur implication dans le développement de SyDoM. Ce n'est pas tant l'aide de nos amis qui nous aide que notre confiance dans cette aide. Philosophe grec [ Epicure ] Toute ma gratitude et ma reconnaissance iront à Bruno, Etienne, François, Lobna, Myoung-Ah pour m avoir supportée depuis le début de ma thèse et surtout soutenue. Sans eux rien n aurait été pareil Mes derniers mais non moins profonds remerciements iront à ma famille qui m a toujours encouragée et soutenue dans la poursuite de mes études. Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon viii/196

12 Une méthode d indexation sémantique adaptée aux corpus multilingues SOMMAIRE SOMMAIRE...1 I INTRODUCTION...4 II INDEXATION : DÉFINITION ET USAGES Indexation dans les Systèmes de Recherche d'information L espace d indexation Les entités d indexation Les langages d'indexation Le langage libre Le langage contrôlé Indexation automatique et indexation manuelle Les types d indexation ou de représentation Indexation à plat du modèle booléen Indexation pondérée des modèles vectoriel et probabiliste Indexation structurée et le modèle logique Evaluation d un système de recherche d information Critères d une bonne indexation La cohérence L adéquation entre les représentations Conclusion Indexation dans les Systèmes de Recherche d'information Multilingue Les différentes facettes de la recherche documentaire multilingue Les problèmes de l'indexation multilingue Les ressources linguistiques utilisées Les systèmes de traduction automatique Les bases lexicales Les lexiques et Les dictionnaires de transfert Les bases de connaissances terminologiques Les corpus Les corpus parallèles Les corpus comparables L'indexation multilingue Utilisation d'un système de traduction automatique Utilisation d une base lexicale Utilisation d un corpus Conclusion Indexation basée sur les Connaissances Les modèles de représentation des connaissances Les réseaux sémantiques Les graphes conceptuels Les langages de frames Les logiques de description Les applications du web sémantique Le langage RDF et le système CWeb Les graphes conceptuels et WebKB set of tools...47 Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon 1/196

13 Sommaire Les graphes conceptuels lexicaux et Ontoseek Le langage SHOE et le robot Exposé Le langage Frame Logic et le système Ontobroker Le langage OCML et les projets PlanetOnto, ScholOnto Conclusion...52 III. MODÉLISATION DES CONNAISSANCES EN GRAPHES SÉMANTIQUES POUR UNE INDEXATION MULTILINGUE Le Modèle des Graphes Sémantiques L'extension du modèle des GC pour la recherche d'information Observations sur les langages documentaires Thésaurus sémantique La conceptualisation du domaine ou support Les relations entre types La définition formelle du thésaurus sémantique Les Graphes Sémantiques Opération de projection étendue Opération de projection partielle Fonctions de similarité Fonction de similarité entre types de concepts Fonction de similarité entre types de relations Fonction de similarité entre arcs Comparabilité entre arc Evaluation d'une projection Fonction de similarité entre graphes Conclusion Algorithmes d'exploitation des Graphes pour la Recherche d'information Algorithmes d'indexation Algorithme d'indexation pour les arcs Algorithme d'indexation pour les concepts Algorithmes de recherche Algorithme de recherche sur les arcs Algorithme de recherche sur les concepts Conclusion Une Méthode d'indexation Sémantique adaptée aux Corpus Multilingues Thésaurus sémantique Type de concepts Type de relations Terme Et le multilinguisme dans tout ça? Les annotations Description XML L'index Description XML Un langage documentaire évolutif et adaptatif Différents Usages de notre Méthode d'indexation Système de Recherche d'information Multilingue Formulation de la requête La fonction de comparaison Visualisation des documents résultats Hypertexte à base de connaissances Le thésaurus sémantique Les annotations Les index Conclusion Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon 2/196

14 Une méthode d indexation sémantique adaptée aux corpus multilingues IV... UTILISATION DES GRAPHES SÉMANTIQUES DANS UN SYSTÈME DE RECHERCHE D'INFORMATION MULTILINGUE Le Prototype SyDoM Principes Généraux Le module du thésaurus sémantique Le module d'indexation Le module de recherche Evolutions Contexte de la validation : La Bibliothèque Doc'INSA La méthode d'indexation de Doc'INSA Le système documentaire de Doc'INSA Description des besoins de Doc'INSA Solutions apportées en réponse aux besoins de Doc'INSA Tests Expérimentaux et Evaluations Construction du thésaurus sémantique Evaluation générale de SyDoM Comparaison avec le système de Doc'INSA Comparaison à l'extension du modèle des GC Réponses approchées Réponses plausibles Réponses partielles Conclusion sur SyDoM : avantages et inconvénients V CONCLUSION ET PERSPECTIVES Bilan de la Recherche Discussion BIBLIOGRAPHIE ANNEXE I : INDEX DES ABRÉVIATIONS ANNEXE II : INDEX DES CONCEPTS ANNEXE III : INDEXATION AUTOMATIQUE ET RECHERCHE D'INFORMATION MULTILINGUE ANNEXE IV : SCHÉMA DE LA BASE DE DONNÉES DE SYDOM Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon 3/196

15 Introduction I Introduction Contexte de l'étude et plan de masse Depuis l'essor de l informatique, le volume d information stockée électroniquement ne cesse de s accroître. Par conséquent, se pose le problème de retrouver de manière pertinente un ensemble d information contenu dans un document, au sein d une base documentaire, appelée corpus. Cette problématique générale appelée Recherche d'information (RI) dans les documents, aussi connue sous le nom Recherche Documentaire (RD) par le contenu, constitue le contexte de nos travaux. Il faut ajouter que l information disséminée dans un document n est pas structurée et donc difficilement accessible voire identifiable. Notre étude est principalement dédiée à la représentation de l information contenue dans un document au sein d'un système de recherche d'information, c'est à dire à l'indexation des documents. La tendance actuelle considére que l information peut avoir comme support quatre média de base : le texte, l image fixe, le son et l image animée [CHRI00]. Nos travaux se limitent au media texte. Comme nous ne traiterons que la partie textuelle des documents, toute utilisation du terme «document» fera uniquement référence à son contenu textuel. Le développement d Internet au niveau mondial a profondément transformé la gestion des documents. Cette révolution technologique a engendré de nouvelles problématiques documentaires pour la recherche d'information. Nous nous intéressons à deux aspects de la recherche sur le web (World Wide Web) : Premièrement, la technologie Internet a cassé les frontières naturelles, en facilitant les échanges de documents entre les pays. Par conséquent, les collections de documents contiennent de plus en plus de documents écrits dans différentes langues. Le web est luimême une collection de documents multilingues, car une page web peut contenir des paragraphes écrits dans des langues différentes. La recherche sur de telles collections devient alors multilingue : il faut retrouver tous les documents concernés par un besoin d information, quelle que soit leur langue. Le deuxième aspect du web qui nous intéresse est la masse d'information accessible. Etant donnée l'ampleur de la collection, l'indexation automatique semble la seule solution possible pour effectuer une recherche efficace, or l'indexation humaine n'a pas été abandonnée. En effet, les annuaires tels que yahoo sont des classifications manuelles d'un nombre restreint de pages web. L'indexation manuelle est complémentaire de l'indexation automatique des moteurs de recherche, car cette indexation permet une plus grande précision dans les structures de représentation et offre un point de vue de lecture sur le document. De nombreux travaux rassemblés sous le nom de web sémantique utilisent l'indexation manuelle pour expliciter des connaissances (des informations connues et comprises) relatives au contenu des documents. Cette approche consiste à organiser la masse d'information du web en domaine d'intérêt. Pour cause, une communauté d'internautes partageant les mêmes connaissances sur un domaine, organisent leurs pages web en fonction de ces connaissances. Ainsi l'accès aux pages web est facilité pour toute la communauté d'internautes et l'indexation humaine n'est plus l'apanage d'experts en documentation, tel que les documentalistes. L'approche web sémantique permet non seulement d'améliorer la précision des index, en manipulant des connaissances mais aussi d'ouvrir l'indexation humaine à des experts du domaine d'intérêt des documents. Bien Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon 4/196

16 Une méthode d indexation sémantique adaptée aux corpus multilingues entendu, pour s'adapter aux nouvelles technologies liées au web, nous avons considéré que tous les documents accessibles étaient au format XML. Nos travaux, centrés sur la gestion des connaissances, n abordent pas les problèmes du Traitement Automatique des Langues Naturelles (TALN), car nous souhaitons avant tout mettre en exergue la subjectivité de l interprétation humaine. De plus, notre état de l art sur l indexation multilingue signale que la qualité du traitement automatique des langues est fortement dépendante de la qualité des ressources linguistiques mises en œuvre et de l adéquation entre ces ressources et le corpus de recherche. Notre approche peut être vue comme le point de départ de la construction d une ressource linguistique adaptée au corpus. Celle-ci pourra être utilisée, dans une seconde phase, pour automatiser l indexation des documents. Notre étude se situe à la jonction des deux problématiques : la recherche multilingue et l'indexation à base de connaissances du web sémantique L'originalité de notre contribution consiste à proposer une méthode d'indexation pour le web sémantique différenciant deux types de connaissances : Les connaissances du domaine modélisent le domaine d'étude en fonction d'un point de vue partagé par une communauté d'utilisateurs. Ces connaissances du domaine constituent un langage pivot utilisé pour l'indexation. Les connaissances terminologiques sont constituées de plusieurs vocabulaires, un pour chaque langue des utilisateurs. Les connaissances terminologiques associent plusieurs termes à chaque notion du domaine. Ainsi, les utilisateurs disposeront des connaissances du domaine présentées dans leur propre langue. Cette différenciation des connaissances permet de proposer une méthode d'indexation multilingue à base d'entités d'indexation (les connaissances du domaine) ne dépendant pas d'une seule langue. Pour construire notre méthode d'indexation, nous avons tout d'abord proposé un nouveau modèle de représentation des connaissances, les graphes sémantiques, mettant en application la différenciation entre les connaissances du domaine et les connaissances terminologiques. Ce nouveau modèle est une extension du modèle des graphes conceptuels de Sowa [SOWA84]. Nous avons fait le choix de travailler sur les Graphes Conceptuels (GC) car ce formalisme nous semblait être un bon compromis entre sa puissance d'expression et sa simplicité d'utilisation pour des utilisateurs novices en Intelligence Artificielle (IA). Certains Systèmes de Recherche d'information (SRI) utilisent le formalisme des Graphes Conceptuels de Sowa pour représenter les requêtes et le contenu des documents. Dans ce contexte, la fonction de comparaison entre les index des documents et les représentations des requêtes est basée sur l'opérateur de projection introduit par Sowa. Des travaux récents sur cet emploi de l'opérateur de projection ont mis en avant plusieurs de ses inconvénients [GENE00]. L'opérateur de projection étant axé sur la précision, il génère beaucoup de silence. De plus, cet opérateur ne permet pas de comparer les résultats les uns par rapport aux autres car il ne retourne qu'une valeur booléenne. Pour palier à ces inconvénients, nous avons donc proposé une extension de cet opérateur, l'opérateur de projection étendue, ainsi qu'une fonction de similarité entre graphes, retournant une valeur réelle. Notre fonction de comparaison entre documents et requêtes ne travaille que sur la forme normale des graphes (tous les nœuds de même type sont fusionnés). Ce choix, justifié par nos observations sur la structure générale des index, nous a permis de proposer un algorithme efficace de comparaison de graphes sémantiques. Les graphes sémantiques nous permettent de définir un nouveau type de thésaurus, le thésaurus sémantique. Le thésaurus sémantique prolonge la fonction de normalisation des Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon 5/196

17 Introduction thésaurus, des termes, aux notions dénotées par ces termes. Par contre, le thésaurus sémantique n'est pas une normalisation de la terminologie d'un domaine au sens restriction du vocabulaire des thésaurus traditionnels, car le thésaurus sémantique s'adapte à l'existence de plusieurs terminologies, donc de plusieurs langues. Au contraire des autres modèles de représentation des connaissances, il n'existe pas de lien statique entre terme et notion, car l'interprétation d'un terme est dépendante d'un contexte de lecture. Entre autres, notre méthode d'indexation permet de compléter la terminologie du thésaurus sémantique pour améliorer l'adéquation entre le vocabulaire du thésaurus et celui du corpus. Ainsi le thésaurus devient une sorte de table des matières du corpus et peut prendre en compte différents contextes de lecture, celui des auteurs, des indexeurs et des lecteurs. Ce nouveau modèle de représentation des connaissances est à la base de notre méthode d'indexation. Dans le cadre des bibliothèques traditionnelles, l'indexation génère un nouveau document, appelé notice bibliographique, résumant le document à indexer. Cette approche nécessite de gérer en parallèle deux sources d'information. Au contraire, notre approche enrichit le document existant pour faciliter son utilisation ultérieure. Cet enrichissement identifie, dans le contenu du document, des connaissances issues de son interprétation. Le processus d'indexation insère de nouvelles balises sémantiques dans le document XML. Ces balises sémantiques caractérisent les deux types de connaissances définis dans le thésaurus sémantique : Les balises d'annotation des documents qui mettent en évidence les connaissances terminologiques contenues dans le document. Les balises sémantiques composant l'index du document. Ces balises sont une représentation d'un graphe sémantique constitué par des connaissances du domaine. Notre méthode d'indexation se veut générique car elle peut être utilisée aussi bien dans un Système de Recherche d'information Multilingue (SRIM) que dans un hypertexte à base de connaissances. Ces deux outils de recherche sont complémentaires, car dans un SRIM la recherche s'effectue par le biais d'une requête et dans un hypertexte à base de connaissances, la recherche se construit au fur et à mesure de la navigation. Nous verrons que notre méthode d'indexation nous permet de proposer un ensemble de fonctionnalités supplémentaires pour ces deux outils de recherche. Nous avons validé notre méthode d'indexation en concevant un SRIM, intitulé SyDoM, adapté aux besoins d'une bibliothèque virtuelle. Nous avons confronté SyDoM avec les besoins réels de la bibliothèque de l'insa : Doc'INSA. Plan de la thèse Le chapitre introductif de ce mémoire est consacré à une étude de l'indexation dans différents types de système de recherche documentaire. Cette première partie Indexation : Définition et usages se compose des chapitres 1 à 3. L'objectif de ces chapitres est non seulement de définir le processus d'indexation par rapport aux diverses fonctions que doit remplir un système de recherche d'information, mais aussi de compléter cette définition générale en fonction de deux contextes de recherche particuliers : la recherche multilingue et la recherche à base de connaissances. Le but de ce chapitre est d'amener le lecteur à comprendre que notre recherche se situe au carrefour de ces deux domaines disjoints jusqu'à maintenant. Le chapitre 1-L'indexation dans les systèmes de recherche d'information définit les principes d'un système de recherche d'information et le rôle de l'indexation dans le processus global de recherche. Une fois cette définition fonctionnelle de l'indexation établie, nous détaillerons les caractéristiques du processus d'indexation dans le cadre des documents textuels. Ce qui nous permettra de définir tour à tour les notions d'espace d'indexation, d'entité d'indexation, de langage d'indexation, de type d'indexation ou de Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon 6/196

18 Une méthode d indexation sémantique adaptée aux corpus multilingues représentation. Afin de clarifier nos définitions, nous illustrerons les différents types d'index en fonction des quatre modèles de recherche d'information (le modèle booléen, vectoriel, probabiliste et logique). Ensuite, nous nous intéresserons à la recherche d'information sur le web, en se penchant plus particulièrement sur la recherche multilingue et la représentation des connaissances dans le web sémantique. Le chapitre 2-L'indexation dans les systèmes de recherche d'information multilingue s'attachera non seulement à définir la problématique de la recherche multilingue, mais aussi à expliquer la complexité supplémentaire du processus d'indexation inhérente à la présence de plusieurs langues. Ainsi, le processus d'indexation s'accompagne d'un processus de traduction pour représenter document et requête dans la même langue. Nous détaillerons les différentes approches de la recherche multilingue pour finalement conclure qu'il existe peu de travaux se consacrant à une indexation véritablement multilingue capable de représenter les documents et les requêtes par des entités non dépendantes d'une seule langue. Une des conclusions importantes de ce chapitre se résume à l'adéquation nécessaire entre le vocabulaire de la ressource linguistique, permettant de trouver les traductions, et le vocabulaire du corpus. Le chapitre 3-L'indexation à base de connaissances se consacre plus particulièrement à la problématique du web sémantique. Face à la masse d'information accessible sur le web, une solution proposée pour faciliter l'accès aux documents web consiste à représenter les connaissances relatives aux documents. Aussi, débuterons nous ce chapitre par un aperçu des principaux formalismes de représentation des connaissances, pour clarifier les langages utilisés dans les applications du web sémantique. Une des conclusions de ce chapitre est la non prise en compte de l'aspect multilingue du web dans ces formalismes de représentation des connaissances. La seconde partie de ce mémoire Modélisation des connaissances en graphes sémantiques pour une indexation multilingue présente notre méthode d'indexation, en commençant par une description formelle du modèle des graphes sémantiques. Ce modèle s'accompagne d'un algorithme de recherche de graphe efficace. Nous proposons également différentes manières de manipuler notre structure d'indexation en fonction de deux outils de recherche. Cette partie se compose des chapitres 4 à 7. Dans le chapitre 4-Le modèle des graphes sémantiques, nous détaillons les extensions que nous proposons d'apporter au modèle des graphes conceptuels pour l'adapter aux impératifs de la recherche d'information multilingue. Ce chapitre débute par une critique du modèle des graphes conceptuels dans le cadre de la recherche documentaire aussi bien sur le plan de l'opérateur de comparaison de graphes comme fonction de comparaison d'un SRI que sur ses insuffisances à construire un langage d'indexation multilingue. Ainsi, nous justifions notre choix de différencier les connaissances du domaine des connaissances terminologiques par la prise en compte de plusieurs langues dans notre modèle d'indexation. Pour cela, nous introduisons la notion de label pour différencier le type du terme représentant le type. Consécutivement, une autre extension est apportée aux GC, la transformation du support en thésaurus sémantique, contenant les deux types de connaissances : les labels et les types. Pour améliorer les résultats de la comparaison de graphes, nous avons transformé l'opérateur de projection de Sowa (axé sur la précision et rendant une valeur booléenne), en un opérateur de projection étendue générant beaucoup moins de silence. Afin de pouvoir ordonnancer les résultats, nous avons, à partir de cet opérateur, défini une fonction de similarité entre graphes rendant une valeur réelle comprise entre 0 et 1. Le chapitre 5-Algorithmes d'exploitation des graphes pour la Recherche d'information part de la constatation que les algorithmes de traitement des graphes sont coûteux en temps de traitement. Nous nous inspirons des techniques des fichiers inverses et tables d'accélération pour proposer des algorithmes d'indexation et de recherche améliorant la Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon 7/196

19 Introduction rapidité de réponse d'un SRIM. Les graphes sémantiques étant composés d'arcs et de sommets concepts, ils constituent par conséquent les deux types d'entités d'indexation. Nous avons donc considéré que le contenu d'un document serait représenté par deux index différents : une liste d'arcs et une liste de concepts. Nos algorithmes et notre base de données se décomposent en deux parties distinctes dépendant du type d'entité d'indexation considéré. Le chapitre 6-Une méthode d'indexation sémantique adaptée aux corpus multilingues présente les bases de notre méthode d'indexation de documents multilingues. Nous proposons de décomposer l'indexation en deux étapes suivant le type de connaissances à prendre en compte. Premièrement, nous aurons une indexation à partir des connaissances terminologiques, basée sur des annotations. Une annotation identifie un terme dans son contexte comme représentant d'un graphe sémantique. Deuxièmement, une indexation à partir des connaissances du domaine raffine les graphes sémantiques issus des annotations. Cette méthode d'indexation définit aussi le rôle du thésaurus sémantique dans le cadre d'une modélisation du domaine : fixer les notions sans fixer la terminologie. Il faut obligatoirement définir les notions manipulées lors de l'indexation, mais la terminologie utilisée pour représenter ces notions dépend du contexte, du point de vue de l'utilisateur. Par conséquent, ce n'est pas un lien statique qui unit la notion au terme. Le chapitre 7-Différentes usages de notre méthode d'indexation exploite notre structure d'indexation dans deux contextes de recherche différents. Ce chapitre se consacrera à la description des fonctionnalités d'un SRIM et d'un hypertexte à base de connaissances manipulant des graphes sémantiques. La dernière partie de ce mémoire Utilisation des graphes sémantiques pour un outil de recherche présente les validations qualitatives et quantitatives que nous avons entreprises. Le chapitre 8- Le prototype SyDoM présente les fonctionnalités du prototype SyDoM (Système Documentaire Multilingue) que nous avons réalisées pour valider la faisabilité de notre méthode d'indexation. Ce prototype nous a aussi permis d'implanter une partie de nos algorithmes d'indexation et de recherche. Le chapitre 9-Contexte de la validation : la bibliothèque Doc'INSA présente la validation qualitative de SyDoM. Dans le cadre de cette validation, nous avons collaboré avec la bibliothèque Doc'INSA. Doc'INSA nous a semblé le cadre idéal pour une validation qualitative car cette bibliothèque met en place une bibliothèque virtuelle de documents électroniques et est à la recherche de solutions pour gérer une collection multilingue de documents. Notre premier travail a été d'étudier les besoins de Doc'INSA en matière d'indexation et de recherche multilingue. Ce qui nous a permis de confronter notre proposition à un cadre concret et ainsi, nous avons pu constater que SyDoM répondait aux besoins réels d'une bibliothèque. Par conséquent notre méthode d'indexation générique répond aux besoins particuliers de la bibliothèque Doc'INSA. Le chapitre 10- Tests expérimentaux et évaluations présente les tests expérimentaux que nous avons effectués pour évaluer le prototype SyDoM. Dans un premier temps, nous avons voulu comparer les résultats de SyDoM avec le système de recherche booléen de Doc'INSA. Cette première évaluation s'est portée sur un ensemble d'articles anglais dédiés à la mécanique. Par conséquent, il a fallu construire notre propre thésaurus sémantique de mécanique. Dans un second temps, nous comparons théoriquement les résultats de SyDoM avec ceux d'un autre système de recherche basé sur les graphes conceptuels. Ces tests expérimentaux ne sont qu'une première étape de l'évaluation de notre prototype. En effet, il serait souhaitable de mettre en œuvre une comparaison plus pragmatique avec un système de recherche basé sur les GC. Concernant sa mise en activité, le prototype est actuellement en cours de validation auprès de Doc INSA. Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon 8/196

20 Une méthode d indexation sémantique adaptée aux corpus multilingues La conclusion est l'occasion de présenter les perspectives d'application et de poursuite de la recherche entreprise. Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon 9/196

21 Indexation : Définition et Usages II Indexation : Définition et Usages Ce premier chapitre poursuit plusieurs objectifs. Dans la première partie, nous définissons l'indexation dans le contexte générale d'un système de recherche d'information. Ensuite, notre intérêt s'est porté sur l'indexation dans le contexte plus spécifique de la recherche d'information multilingue, puis de l'indexation dans les systèmes à base de connaissances. Nous souhaitons mettre en exergue que ces deux derniers domaines sont complémentaires et que notre étude se situe à la jonction de ces deux domaines. Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon 10/196

22 Une méthode d indexation sémantique adaptée aux corpus multilingues 1 Indexation dans les Systèmes de Recherche d'information La quantité d information stockée au format électronique ne cessant de croître, il devient de plus en plus difficile de retrouver un ensemble d information contenu dans un document 1, au sein d une base de documents, appelée corpus. De plus, l information disséminée dans un document n est pas structurée et donc difficilement accessible voire identifiable. Outre le problème d identifier l information contenue dans un document, la Recherche d Information (RI) doit également permettre à l utilisateur de formuler sa demande, son besoin d information, le plus exactement possible, sous la forme d'une requête. Ce premier chapitre est consacré à la recherche d'information dans les documents, connue aussi sous le nom recherche documentaire. Nous nous intéressons uniquement à la partie textuelle des documents. Tout d abord, nous présenterons rapidement la problématique de la recherche documentaire, ce qui nous permettra de définir l indexation comme une phase de représentation du contenu documentaire. Puis, nous énoncerons les différents types d'indexation des documents utilisés dans un système de recherche documentaire monolingue. Nous illustrerons chacun de ces types, par des exemples connus issus des modèles de Système de Recherche d Information (SRI). Avant toute chose, rappelons les tenants et les aboutissants d un système de recherche documentaire. Le but d un tel système est de présenter à l utilisateur des documents répondant à ses besoins d information formulés par une requête. La recherche documentaire se compose de deux processus de base : le premier est un processus de représentation du contenu des textes appelé indexation (les textes étant à la fois les documents et les requêtes), Le second est un processus de comparaison entre les représentations des textes, issues du premier processus. Le but du premier processus est de représenter les documents et les requêtes dans le même espace de représentation à l'aide d une structure de données. Or les documents et les requêtes peuvent avoir des caractéristiques bien différentes. Par exemple, une requête peut être constituée de deux mots reliés par un opérateur booléen tandis qu un document peut être un article de vingt pages, paru dans une revue scientifique. Donc, lorsque la différence structurelle entre les documents et les requêtes est trop importante, le processus de représentation des textes est décomposé en deux processus distincts appelés fonctions d'indexation : la fonction d'indexation traitant des requêtes formulées dans un langage d interrogation et la fonction d'indexation traitant les documents. De manière générale, l indexation peut être considérée comme un processus de représentation des textes. En effet, certains SRI acceptent comme requête un document entier. Dans certains cas, le meilleur document retrouvé par une première requête est envoyé comme requête au SRI. Cette méthode de modification de la requête par des documents préalablement jugés pertinents, fait partie de l approche de bouclage de pertinence [SALT90]. C est pourquoi nous avons fait le choix, dans la suite de ce chapitre, de 1 Nous ne considérons que la partie textuelle des documents, et plus précisément les mots et non la structure hiérarchique de certains textes. Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon 11/196

23 Indexation : Définition et Usages considérer l indexation comme le processus de traitement des textes qu ils soient documents ou requêtes. Le but général de l indexation est d identifier l information contenue dans tout texte et de la représenter au moyen d un ensemble d entités appelé index pour faciliter la comparaison entre la représentation d un document et d une requête. Plus exactement, le processus d indexation est le transfert de l information contenue dans le texte vers un autre espace de représentation traitable par un système informatique [ROUS99a]. Tout d abord, il nous faut définir l espace d indexation ou espace de représentation de l information, en choisissant : Les entités d indexation, qui définissent l unité de base de l espace d indexation. La «structure» assemblant des entités d indexation pour construire un index 2, c està-dire une représentation. Ensuite, il faut définir les techniques intellectuelles ou automatiques permettant, à partir du texte, de détecter les entités et de construire les structures d indexation. Par exemple, pour une indexation humaine, un documentaliste sélectionnera dans le document ce qui est intéressant pour les lecteurs de la bibliothèque afin de construire son index. Dans le cas d'une indexation automatique, une machine construit les index, en utilisant certaines données tirées du document, du corpus ou d'une autre source. Le processus de comparaison permet de choisir les documents répondant au besoin d information de l utilisateur en comparant la base des index du corpus à la représentation de la requête dans le même espace, à l aide d une fonction de comparaison. L indexation est une étape importante de la recherche documentaire, car elle définit l espace de représentation de l information : E, et influence donc la fonction de comparaison : C. En effet, pour pouvoir être comparés, il faut que la représentation d un document d (R d ) et la représentation d une requête q (R q ) soient exprimées dans le même espace d indexation E. C est pourquoi différents modèles de SRI ont été créés, définissant à partir d un nouvel espace d indexation, toutes ses caractéristiques. Nous présentons donc de manière plus précise les différentes notions que nous venons d énoncer. Prenons l exemple d un utilisateur possédant un besoin d information bi. Cet utilisateur doit exprimer bi dans le langage d interrogation du SRI pour former la requête q. Il est à noter que q est une représentation altérée de bi. Soit : Q : l espace des requêtes et q une requête telle que D : l espace des documents et d un document tel que E : l espace d indexation du SRI. q Q. d D. La phase d indexation se décompose en deux fonctions d'indexations I q et I d telles que : I q est une application de Q dans E, qui à tout élément q de Q associe une image dans E unique I q (q)= R q. 2 Nous reprenons la définition de l'index donnée par C. Fluhr «les documents sont lus par un documentaliste qui en déduit les thèmes principaux et les traduit en une liste de mots, dit descripteurs du documents. Cet ensemble de mots constitue l'index du document et représente la description du contenu sémantique de celui-ci» [FLUH92]. Catherine Roussey / Thèse en informatique / 2001 / Institut national des sciences appliquées de Lyon 12/196

Montrer encore