1 Ontologies et recherche d informations Chantal Reynaud LRI (Paris XIOrsay), Paris XNanterre La recherche d informations 2 Une tâche qui nécessite très souvent un accès à des sources d informations réparties, hétérogènes, autonomes pouvant contenir des informations pertinentes complémentaires. Deux grandes approches peuvent être distinguées pour l intégration d informations provenant de différentes sources : L approche médiateur : Les données restent stockées et réparties au niveau des sources d information. Le médiateur joue le rôle d interface entre l utilisateur et les sources d information en lui donnant l impression qu il interroge un système centralisé et homogène. L approche entrepôt de données : Un entrepôt de données regroupe l ensemble des informations pertinentes accessibles.
3 Le projet PICSEL (Equipe IASI du LRI, CNET) http://www.lri.fr/~picsel/ Objectif : autoriser un accès centralisé et homogène à des sources d information en réalité multiples, hétérogènes et autonomes relatives à un même domaine d application Un médiateur joue le rôle d interface entre l utilisateur et des sources d informations réparties. Regroupement dans un cadre unificateur et homogène de la description sémantique et abstraite du domaine d application et du contenu des différentes sources d information. User query: Travel (Paris, NewYork, July 2nd) PICSEL mediator 4 Service 1 Service n Description of the domain 1 Description of the domain n Description of the content of source 1 Description of the content of source 2 Description of the content of source j Description of the content of source k Description of the content of source l Description of the content of source p Query Engine Query Plans Wrapper n 1 Wrapper n 2 Wrapper n j Wrapper n k Wrapper n l Wrapper n p 1. Structured File 2. Relational DB j. XML Repository k. OODB l. p. XML Relational DB Repository
Utilisateur 5 Service Tourisme requête Ontologie Base dedu connaissances domaine du du tourisme domaine source 1 source 2 source 3 source 4... source n Le projet Xylème (projet VERSO de l INRIA, Equipe IASI du LRI, Univ. de Mannheim) 6 Objectif : Entreprendre des recherches innovantes pour la recherche d informations sur le Web. Hypothèse : Le langage XML deviendra à terme le langage de définition et de description des données du Web. Ouvre la voie à de nouveaux services sur le Web car des langages de requêtes très riches peuvent être définis MAIS 1) des réponses à des requêtes peuvent nécessiter de combiner des données réparties sur plusieurs sites 2) hétérogénéité des DTDS définissant la structure des documents XML Solutions : Stocker physiquement les données XML en un seul endroit Fournir aux utilisateurs des outils avancés leur permettant d exprimer des requêtes de façon naturelle et d obtenir des réponses sémantiquement pertinentes.
Plan de l exposé 7 I. Les ontologies : des descriptions variées du point de vue du contenu et des formalismes de représentation 1. Définition 2. Des descriptions fortement dépendantes de leur utilisation 3. Des formalismes de représentation des connaissances variés II. Apport des ontologies en recherche d informations : illustration 1. Une nécessité pour l intégration de sources d information 2. Une communication avec le système de recherche d informations facilitée 3. Des réponses aux requêtes utilisateurs de meilleure qualité 8 I. Les ontologies : des descriptions variées du point de vue du contenu et du formalisme de représentation
Les ontologies : définition Les ontologies sont des spécifications explicites de conceptualisations [Gruber 93] souvent considérées comme des modèles réutilisables, partageables. Des natures diverses : Des ontologies génériques / Des ontologies de domaine / Des ontologies d application / Des ontologies de représentation Des ontologies terminologiques / Des ontologies d information / Des ontologies de modélisation des connaissances La conception d une ontologie : abstraire + représenter Abstraire : déterminer quelles connaissances représenter, avec quel niveau de précision, de granularité, etc. Représenter : déterminer le formalisme de représentation à adopter, représenter les connaissances dans le formalisme retenu. 9 WordNet, une ontologie linguistique qui couvre la plupart des mots anglais ordinaires 10 WordNet est composée d ensembles de synonymes (synsets), des termes regroupés en classes d équivalence sémantiques, chaque terme appartenant à une catégorie lexicale donnée (nom, verbe, adverbe, adjectif). Chaque ensemble de synonymes représente un sens particulier d un mot anglais. Un mot peut appartenir à plusieurs ensembles et plusieurs catégories lexicales. Les ensembles de synonymes sont associés par des relations sémantiques : hyperonymie hyponymie (isa), antonymie (relation entre ensembles de mots qui, par leur sens, s opposent), etc.
Les relations sémantiques représentées dans WordNet 11 Relation sémantique Catégorie lexicale Exemples Synonymie N, V, adj, adv horse knight / remember reward happy euphoric/ rapidly speedly Antonymie adj, adv wet dry / powerfull powerless Généralisation Spécialisation Composant Composé N N car motor vehicle oxygen air / car air bag Troponymie V march walk Opposition séquentielle V divorce marry www.cogsci.princeton.edu/~wn City Ensemble de synonymes (Synset) Définition 12 3 sens 1.city, metropolis, urban center (a large and densely populated urban area; may include several independant administrative districts; etc) 2. city (an incorporated administrative district established by state charter) 3. city, metropolis (people living in a large densely populated municipality) isa geographical area isa urban area isa isa municipality city town isa Genève Milan Pise... haspart city center, central city financial center medical center etc.
L ontologie du domaine du tourisme au sein du projet PICSEL Descriptions terminologiques produit := (=1 prixassocié) and (= 1 datedébutassocié) and ( 0 serviceproduitassocié) and (ALL serviceproduitassocié.service) and ( 0prestationProduitAssocié)and( ALL prestationproduitassocié.prestation). activité := produit and (=1 duréeactivitéassocié) and (= 1 natureactivitéassocié) and (ALL natureactivitéassocié.loisir) and (=1 lieuactivitéassocié) and (ALL lieuactivitéassocié.lieu). activitésportive := activité and (=1 natureactivitéassocié) and (ALL natureactivitéassocié.loisirsportif). loisirsportif loisir. Définition de concept 13 Inclusion de concepts La hiérarchie de concepts 14 produit objetalouer activité activitésportive remiseenforme combinéséjour repasrestaurant locationbateau locationvoiture logement trajet thalassocure stagelinguistique combinétrajet trajettrain vol trajetavion combinéactivité
L ontologie du domaine du tourisme au sein du projet PICSEL 15 Datalog Pour représenter des connaissances factuelles : p(a 1,, a n ) Ex : france("paris") Pour représenter des connaissances déductibles : p 1 (x 1,..., x n )... p k (y 1,..., y m ) q(z 1,..., z j ) Ex : séjour(s,l,r) nbrenuitscombinesejourassocie(s, nombredejours) inf(nombredejours, quatre) courtsejour(s) Cas particulier : la représentation de contraintes d intégrité Ex : numdepartementlieuresidence(r, N) NOT nbre(n) L ontologie utilisée au sein de Xylème 16 Des descriptions structurées de connaissances pour l ensemble des domaines couverts par les documents XML du Web Objectifs : (1) Permettre l expression aisée de requêtes «à un niveau sémantique» sans avoir à se conformer aux spécificités de structure et de syntaxe des DTDs décrivant les documents présents dans le repositoire. (2) Permettre une connexion avec la couche des données XML en s appuyant sur les DTDs. Structure : Arbres dont les nœuds sont étiquetés avec des termes. Le nœud racine est le nom d un domaine. Ex : Tourisme. Les nœuds internes sont étiquetés avec des termes représentant des concepts (flight, hotel, etc.) du domaine ou des propriétés (name, city, etc.). Sémantique des liens : relation de spécialisation entre concepts, relation de composition, expression de points de vue sur un concept ou lien entre un concept et une propriété.
Tourism Domaine du tourisme Illustration Travel Flight Airline Flight number Leaving from Going to Departure Date Time Arrival Date Time Price Hotel Name Chain City Street Address... Room Category... Price per person/night... General travel information Requête Tourism Travel Flight Airline?? Flight number?? Leaving from = Paris Going to = Barcelone Departure Date = 110900 Time?? Arrival Date?? Time?? Price?? 17 Le Problème de la connexion avec la couche des données XML 18 Une connexion qui peut s appuyer sur les DTDs associées aux documents XML Un problème d appariement entre termes Tenting / Camping Motel / Hotel Lodging / Hotel Room / Hotel Edifice / Roof Restaurant / Hotel Nb_Rooms / Number Of Rooms La construction semiautomatisée des mises en correspondance nécessite l exploitation de connaissances ontologiques. [Sirot 2000]
Des formalismes de représentation des connaissances variés Opposition langages de modélisation / langages de représentation : CML, OCML, TML / KARL, (ML)2, TFL Choix de formalismes déclaratifs associés à une sémantique claire : une aide pour décrire les connaissances Langages relationnels, formalismes orientésobjet (ou frames) ou de type réseaux sémantiques (ou graphes conceptuels) Langages fondés sur la logique très utilisés Avantages des langages formels pouvant faire l objet de traitements automatisés (vérification, services inférentiels spécifiques (ex : classification), etc.) et dont les algorithmes associés ont de bonnes propriétés (de complexité et de complétude) Un compromis expressivité / efficacité 19 20 II. Apport des ontologies en recherche d informations : illustration
1. Une nécessité pour l intégration de sources d informations Pour simuler l interrogation d un système centralisé L utilisateur n a pas accès aux données des sources. Il peut en ignorer le contenu. Il dialogue avec le système dans le vocabulaire de l ontologie. Pour combiner des données issues de multiples sources Les réponses aux requêtes des utilisateurs sont des combinaisons de réponses obtenues après interrogation de plusieurs sources d information. Les réponses retournées par le système sont exprimées à l aide du vocabulaire de l ontologie. 21 22 2. Une communication avec le système de recherche d informations facilitée A. Une aide à la formulation des requêtes B. Une aide à la saisie des requêtes grâce à une interface basée sur l ontologie du domaine
Une aide à la formulation des requêtes Illustration sur le projet PICSEL 23 Développement d un outil graphique de visualisation de l ontologie du domaine Visualisation possible des définitions de concepts sous différentes formes : en Carin, en (pseudo)français, sous forme normale ou étendue. en Carin (forme normale) Ex : departement := (lieugeographique & >=1 numerodepartementassocie& <=1 numerodepartementassocie & (FA numerodepartementassocie (nbre))) en (pseudo)français (forme normale) Ex : Un(e)departement est un(e) lieugeographique, a au moins 1 numerodepartementassocie,a au plus 1 numerodepartementassocie,tous ses numerodepartementassocies sont des nombres Classification automatique des concepts et visualisation de la hiérarchie des concepts résultante Affichage des concepts : liste des thèmes, concepts généralisant un concept sélectionné, concepts plus spécifiques, propriétés. Déplacement dans la hiérarchie par sélection de concept Une aide à la saisie des requêtes grâce à une interface basée sur l ontologie du domaine Illustration sur le projet PICSEL L objectif est de guider l utilisateur dans la construction de sa requête. Ce guidage est effectué par proposition de requêtes prédéfinies que l utilisateur peut affiner à l aide de menus déroulants. Exemple de requête prédéfinie : sejourausoleil (S,R,P) (lieuausoleil) (P), sejour(s,l,r), (situedans)(r,p). 24 L interface doit permettre la saisie de requêtes de la façon la plus naturelle possible Traduction en CARIN effectuée automatiquement par le système.
25 26
27 28
29 30
31 32 3. Des réponses aux requêtes utilisateurs de meilleure qualité A. Augmentation de la pertinence, diminution des oublis B. Elimination des absences de réponses
A. Les ontologies, moyens d obtention de résultats plus pertinents et de diminution des oublis Illustration sur le projet OntoSeek (Guarino et al, 1999) 33 OntoSeek est un système de recherche documentaire pour des documents du type pages jaunes en ligne ou catalogues de produits. Il utilise l ontologie Sensus : 50000 noeuds issus de la fusion de l ontologie linguistique WordNet et de l ontologie Penman. Choix de conception : utilisation de termes arbitraires du langage naturel pour décrire le contenu des documents, une flexibilité terminologique pour formuler les requêtes, une assistance à la formulation, la généralisation ou la spécialisation des requêtes, des résultats précis et justes, une efficacité raisonnable avec des volumes de données importants, une grande portabilité et extensibilité. Architecture fonctionnelle d OntoSeek Utilisateur 34 Internet Module de visualisation Gestionnaire de requêtes Interface utilisateur Module pour coder les sources Module de navigation dans l ontologie réponse requête codage du contenu des sources Module de mise en correspondance Classifieur Interface lexicale Gestionnaire de base de données Gestionnaire d ontologies Gestionnaire de vocabulaires Base de données Ontologie Vocabulaire
Un exemple de recherche d informations 35 Soient 5 descriptions de documents : 1. Automobile Radio and Stereo Retail Store 2. Automobile Engine Rebuilding, Repair, and Exchange Workshop 3. Car Repair and Retail Shop 4. Jeep Repair and Retail Shop 5. Motor Mending and Replacement Workshop Soient 4 techniques de recherche d information : 1. Une liste de mots 2. Une liste structurée de mots 3. Une liste de sens de mots + une ontologie linguistique (WordNet) 4. Une liste structurée de sens de mots + une ontologie linguistique (WordNet) Technique de mise en correspondance de mots utilisant une liste plate de mots 36 Requête 1. Automobile 2. Automobile Retail 3. Car repair 4. Motor repair 5. Engine repair 6. Motor exchange Descriptions trouvées 1,2 1 3 2 Résultats peu pertinents : des réponses données par erreur Oublis : des réponses pertinentes non données
Technique de mise en correspondance de mots utilisant une liste structurée de mots (1) 37 Descriptions des contenus des différents documents commerciaux 1 2 3 4 5 N Business type Activity Object Market Area Store Store Workshop Workshop Workshop Shop Shop Shop Shop Workshop Workshop Retail Retail Rebuilding Repair Exchange Retail Repair Retail Repair Replacement Mending Radio Stereo Engine Engine Engine Car Car Jeep Jeep Motor Motor Automobile Automobile Automobile Automobile Automobile Technique de mise en correspondance de mots via une liste structurée de mots (2) 38 Requête N Business Type Activity Object Market Area Descriptions trouvées 1 Automobile 2 Retail Automobile 3 Repair Car 3 4 Repair Motor 5 Repair Engine 2 6 Exchange Motor Réponses pertinentes mais des oublis
Technique utilisant une liste de sens de mots (1) 39 Description des contenus des documents commerciaux à l aide de synsets représentés dans WordNet 1. [car, auto, automobile, machine, motorcar], [Radio receiver, receiving set, radio set, radio, tuner, wireless], [stereo, stereo system, stereophonic system], [retail, sell retail], [shop, store] 2. [car, auto, automobile, machine, motorcar], [engine], [rebuilding], [repair, fix, fixing, mending, reparation], [substitution, exchange], [workshop, shop] 3. [car, auto, automobile, machine, motorcar], [repair, fix, fixing, mending, reparation], [retail, sell retail], [shop, store] 4. [jeep, landrover], [repair, fix, fixing, mending, reparation], [retail, sell retail], [shop, store] 5. [motor], [repair, fix, fixing, mending, reparation], [replacement, replacing], [workshop, shop] Technique utilisant une liste de sens de mots (2) 40 N Requête Descriptions trouvées 1 2 3 4 5 6 [car, auto, automobile, machine, motocar] [car, auto, automobile, machine, motocar], [retail, sell retail] [car, auto, automobile, machine, motocar], [repair, fix, fixing, mending, reparation] [motor], [repair, fix, fixing, mending, reparation] [locomotive, engine, locomotive engine, railway locomotive], [repair, fix, fixing, mending, reparation] [motor], [substitution, exchange] 1, 2, 3, 4 1, 3, 4 2, 3, 4 2, 5 _ 2, 5
B. Les ontologies, un moyen d éliminer les nonréponses Illustration sur le projet PICSEL (Safar Bidault RFIA 2000) 41 Requête de l utilisateur Un hôtel localisé à Madère où l on puisse faire de belles baignades Q(x) Hôtel(x) Localisé(x,y) AMadère(y) LoisirAss(x,z) BelleBaignade(z) Aucune réponse car la requête ne satisfait pas les contraintes du domaine D après c1 : NOT LoisirPraticable(y,z) D après c2 : LoisirPraticable(y,z) Conflit AuSoleil Connaissances du domaine LieuGeo LieuAvecPlage Ile LieuSansPlage Q(x) Hôtel(x) Localisé(x,y) AMadère(y) LoisirAss(x,z) BelleBaignade(z) 42 IleAvecPlage IleSansPlage EnMediterranée EnRéunion AMadère GB R16 : Localisé(x,y) LieuDeRésidence(x) R17 : Localisé (x,y) LieuGeo(y) c1: LieuSansPlage(x) LoisirPraticable(x,y) BelleBaignade(y) c2: LieuDeRésidence(x) LoisirAss(x,z) Localisé(x,y) LieuGeo(y) NOT LoisirPraticable(y,z) Hiérarchie de concepts Règles Contraintes
Une solution : proposer des réponses à une requête plus générale que Q(x) n entraînant aucun conflit 43 LieuGeo AuSoleil Ile LieuSansPlage IleSansPlage Q(x) Hôtel(x) Localisé(x,y) AMadère(y) LoisirAss(x,z) BelleBaignade(z) AMadère Q (x) Hôtel(x) Localisé(x,y) AuSoleil(y) Ile(y) LoisirAss (x,z) BelleBaignade(z) Un hôtel localisé à Madère où l on puisse faire de belles baignades Un hôtel localisé au soleil et dans une île où l on puisse faire de belles baignades Une méthode applicable lors d une requête insatisfiable du fait des sources disponibles 44 Source 1 : Des hôtels localisés en Méditerranée Q(x) : Conflit (c3) Un hôtel localisé à Madère ==> dans LieuSansPlage dans LieuAvecPlage Conflit (c4) Source 2 : des campings localisés à Madère c3 : LieuSansPlage(x) LieuAvecPlage (x) c4 : Camping(x) Hotel(x) Contraintes Q (x) : Un hôtel localisé au soleil et dans une île Q "(x) : Un lieu de résidence localisé à Madère
Conclusion 45 L utilisation d ontologies permet l intégration de multiples sources d informations Avantages : (1) Une formulation de requêtes très précise grâce à un vocabulaire riche, une description fine du contenu des documents recherchés. (2) Une amélioration des résultats lors de la recherche d informations Limites : La conception des ontologies pose de réels problèmes d ingénierie des connaissances Des problèmes de conception, de maintenance, de réutilisation, etc. Perspectives Automatisation de la construction d ontologies 46 Des ontologies vues comme des abstractions d un ensemble de documents XML Application de techniques de datamining sur les DTDs Objectif : trouver des regroupements de DTDs Combinaison de techniques de datamining et d autres techniques telles LSA ou d autres outils tels l outil d interrogation de l ontologie WordNet Objectif : représenter des similarités sémantiques entre balises de DTDs