Le Web sémantique, une infrastructure d'intégration de sources de données Chantal Reynaud Université Paris X & LRI (Université Paris-Sud & CNRS), UR INRIA Futurs
Plan de l'exposé 1. Importance du point de vue des usages 2. Méthodes, techniques et outils existants 3. Les recherches futures pour le Web sémantique
1. Importance du point de vue des usages
Intégrer des données : Dans quel but?
Donner l'impression d'utiliser un système homogène et centralisé Le Web
Intégrer des données : Pour quoi faire?
Collecter toutes les réponses pertinentes provenant de sources de données multiples et hétérogènes Recherche de papiers sur le Web sémantique Action spécifique Web sémantique Int. Semantic Web Conf. Workshop on SW and DB
Combiner des données provenant de sources hétérogènes et fournir une réponse globale la plus complète possible LP Bibliography Server Author Title Conference Reynaud Semantic Integration of XML Heterogeneous data Sources IDEAS'01 Reynaud Semantic integration in Xyleme DKE (2003) Reynaud PICSEL and Xyleme: two illustrative Information Integration Agents AgentLink 2003 Vodislav Views in large-scale Web repository VLDB (2002)... Les papiers proches d'une certaine publication selon des critères mots-clés, auteurs ou titre de session spécialisée? ww-lsr.imag.fr/ideas2001/ Présentations orales :. 14 : 00 Session 7a - Sources de données fédérées Version Propagation in federated database Systems, Schönhoff, Strässler, Dittrich Semantic Integration of XML heterogeneous data Sources, Reynaud, Sirot, Vodislav... LRI <nom> C. Reynaud </nom> <statut> Prof. Paris X </statut> <enseignement>...</enseignement> <recherche>...</recherche> <publications> <année> 2003 </année> <reference> <auteurs>...</auteurs> <titre>...</titre> <conference>...</conference> </reference> <reference>... </reference>... </publications>...
2. Méthodes, techniques et outils existants
L'approche médiateur
Requête utilisateur L'approche médiateur Mediateur PICSE Ontologie du domaine 1 Ontologie du domaine 2 Description du contenu de la source 1 Description du contenu de la source 2 Description du contenu de la source n Description du contenu de la source k Description du contenu de la source l Description du contenu de la source p Moteur de requêtes Plans de requêtes Wrapper n 1 Wrapper n 2 Wrapper n j Wrapper n k Wrapper n l Wrapper n p 1. Fichier 2. BDR 3. XML k. BDOO l. XML p. BDR
Médiateur : Architecture générale spécifique Formalisme d'un déclaratif domaine Module de description du domaine Module de description des sources Module de reformulation des requêtes Dépend Algorithme d'un formalisme générique entrée : la requête de l'utilisateur exprimée en termes du vocabulaire du domaine sortie : un ensemble de requêtes spécialisées exprimées uniquement en termes du vocabulaire décrivant les sources Adaptateur (Wrappers) : interfaces entre les sources et le médiateur Programmes qui transforment les requêtes spécialisées du médiateur en des requêtes exécutables sur les sources
Principaux problèmes étudiés Description du domaine et des sources à l'aide de formalismes déclaratifs fondés sur la logique Le contenu des sources est décrit comme un ensemble de vues sur le domaine Les vues correspondent à l'expression de requêtes spécialisées que l'on peut poser aux différentes sources Construction de plans de requêtes : Problème de réécriture de requêtes en termes de vues
L'approche entrepôt de données
lients DM DM Administrateur Méta Données Entrepôt de Données Chargeurs Sources Fichier BD Données externes
Intégration -Transformation Chargement Un entrepôt est défini comme un ensemble de données provenant de sources diverses, variables dans le temps et non volatiles qui sont utilisées dans le processus d aide à la décision. C est une grosse base de données qui organise les données opérationnelles, les intègre et les stocke pour faciliter l interrogation complexe et l analyse en donnant à l'utilisateur une vue globale des informations. Source 1 Extraction-Transformation Source 1 Source 2... Extraction-Transformation Source 2... Entrepôt de données Source n Extraction-Transformation Source n
Différents types d'intégration Intégration de schémas Intégration de données virtuelle (médiateurs) Intégration de données matérialisée Schéma 1 S1 Schéma 2 S2 Schéma n Sn Interface d'accès Schéma Schéma unifié unifié Schéma 1 Schéma n S1 Vue Schéma reconciliée S2 2 Sn de S1toutes les sources Sn S2
Travaux et résultats du Web sémantique
L'approche médiation centralisée Points forts : Points faibles dans le cadre du Web sémantique Les données restent stockées dans les sources Un schéma global (ou ontologie) 1) Vocabulaire du domaine mis à la disposition de l'utilisateur pour la formulation des requêtes 2) Connexion des sources
La construction automatisée de l ontologie (1) Ontologie OTA 115 XML- Schemas Extraction semiautomatique (OntoMedia) Génération automatique de l ontologie en CARIN Experts 436 classes 298 propriétés 600 relations Ontologie en CARIN
La construction automatisée de l ontologie (2) Documents XML TreeFinder UsedCar UsedCar Book Book Color Year ModelKm Year Model Title Cover Author Infos Title Author caractérisation UsedCar Cluster 1 caractérisation Cluster 2 Book Year Model Title Author
Travaux dans le cadre d'architectures distribuées pair-à-pair Etude et conception de langages expressifs et flexibles (PPL) Permettre d'établir des mises en correspondance entre des schémas de systèmes reliés. Permettre de définir localement des relations sémantiques entre les schémas locaux tout en permettant de répondre globalement aux requêtes utilisateurs en exploitant le réseau des systèmes reliés sémantiquement.
Travaux sur la mise en correspondance entre ontologies Le système GLUE Dérivé du système LSD d'identification de mises en correspondance entre un schéma global et le schéma (DTD) de sources d'information XML Appliqué au Web sémantique pour assister le processus de mise en correspondance entre les taxinomies de deux ontologies en utilisant des techniques d'apprentissage automatique
3. Recherches futures pour le Web sémantique
L'approche médiation décentralisée Des systèmes de gestion de données pair-à-pair connectés sémantiquement SI 1 SI 4 SI 2 SI 3 SI 5 SI n
Vers des études théoriques sur le calcul des réponses aux requêtes Concernant des classes de systèmes plus restreintes Afin de guider dans les choix de conception Exemple : Ph. Adjiman (LRI, Univ. Paris-Sud) Les schémas des sources et les mises en correspondance sont exprimés en terme d'ontologies qui sont des hiérarchies de classes. Le problème du calcul des réponses aux requêtes est décidable Une méthode pour calculer de manière anytime et incrémentale l'ensemble des réponses à une requête posée à l'un des pairs. Le calcul se fait de proche en proche en étant guidé par les mises en correspondance. Complétude démontrée.
Pouvoir intégrer des données et des connaissances distribuées sur le Web en temps réel Nécessite des solutions innovantes en rupture avec l'existant SGBDs traditionnels : gestion et interrogation efficaces de données régulières, centralisées et fiables. Données du Web : données volumineuses, peu structurées, éparpillées, hétérogènes. Besoin de techniques de structuration et d'intégration de données passant à l'échelle du web
Quelques directions de recherche dans le cadre du Web sémantique Conception d'outils de "médiation intelligents" entre les utilisateurs et des sources d'informations stockées localement ou accessibles via le Web. Contrôle des changements, surveillance du Web Extraction de connaissances de façon à donner une vision abstraite, condensée, qualitative, plus signifiante pour l'utilisateur.
Extension de la notion d'entrepôts de données dans une organisation pour inclure les rapports techniques, des présentations video, audio, etc. Vers l'intégration de connaissances Des données mais aussi : des connaissances du domaine, des ontologies, des méta données, etc. Vers l'intégration de données multimédias
Un objectif ambitieux Conclusion Le passage à l'échelle du Web pose des problèmes nouveaux Les données sont complexes, distribuées, hétérogènes, répliquées, multiformes, changeantes, elles existent parfois via l'invocation de services,... Des travaux nécessitant des compétences multiples Ex : Projet GEMO : groupe VERSO (INRIA)+ Equipe IASI (LRI, Univ. Paris-Sud) - Modélisation, représentation, traitements de connaissances complexes (Intelligence Artificielle) - Gestion de grandes bases de données, interrogation via des langages de requêtes optimisés (Bases de données) Un défi : obtenir des performances acceptables Les recherches sont en cours...