Le Web sémantique, une infrastructure d'intégration de sources de données

Documents pareils

Les ontologies pour l intégration sémantique : enjeux et défis

Intégration de données hétérogènes et réparties. Anne Doucet

Architectures d'intégration de données

Chapitre 1 : Introduction aux bases de données

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Définition d'un système générique de partage de données entre systèmes existants

UE 8 Systèmes d information de gestion Le programme

Gestion des utilisateurs et Entreprise Etendue

Initiation aux bases de données (SGBD) Walter RUDAMETKIN

Bases de données Cours 1 : Généralités sur les bases de données

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

Les nouvelles architectures des SI : Etat de l Art

BD réparties. Bases de Données Réparties. SGBD réparti. Paramètres à considérer

Concepts et définitions

Bases de données avancées Introduction

Module BDR Master d Informatique (SAR)

Journée Scientifique Onera

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Master Informatique Aix-Marseille Université

Entrepôt de données 1. Introduction

Architecture d'entreprise : Guide Pratique de l'architecture Logique

Enterprise Intégration

Les Entrepôts de Données

En synthèse. HVR pour garantir les échanges sensibles de l'entreprise

Journée Scientifique Onera

Formation Méthode MDM. Architecture et procédés de modélisation des données de référence

Chapitre 9 : Informatique décisionnelle

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Module BD et sites WEB

Problématiques de recherche. Figure Research Agenda for service-oriented computing

Solutions informatiques (SI) Semestre 1

Chapitre 10. Architectures des systèmes de gestion de bases de données

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

Guillaume Garbey (Consultant sécurité) Contributeurs: Gilles Morieux, Ismaël Cisse, Victor Joatton

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

Ebauche Rapport finale

Gestion de données réparties. Cours 1

DÉVELOPPEMENT INFONUAGIQUE - meilleures pratiques

ECTS CM TD TP. 1er semestre (S3)

Business Intelligence : Informatique Décisionnelle

Bases de Données. Plan

LES TECHNOLOGIES DU WEB APPLIQUÉES AUX DONNÉES STRUCTURÉES

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

SECTION 5 BANQUE DE PROJETS

SQL Server 2012 et SQL Server 2014

LES FICHES Domaines. Domaine D1. Travailler dans un environnement numérique

Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes

Bases de données relationnelles : Introduction

Intégration de données

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Alimenter un entrepôt de données par des données issues de services web. Une approche médiation pour le prototype DaWeS

Présentation du module Base de données spatio-temporelles

Vue Générale et Cas d Usage

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN

Résumé CONCEPTEUR, INTEGRATEUR, OPERATEUR DE SYSTEMES CRITIQUES

Bases de Données Avancées

Mercredi 15 Janvier 2014

PostgreSQL. Formations. Catalogue Calendrier... 8

Développement d'applications et intégration de bases de données hétérogènes : une approche méthodologique

D AIDE À L EXPLOITATION

Diplôme de Comptabilité et de Gestion. D é c r e t N d u 2 2 d é c e m b r e A r r ê t é d u 8 m a r s

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

Essai de typologie des Systèmes d'informations Typology of Information Systems

Un datawarehouse est un entrepôt de données (une base de données) qui se caractérise par des données :

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

Business & High Technology

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

et les Systèmes Multidimensionnels

Intégration de la dimension sémantique dans les réseaux sociaux

Technologie SDS (Software-Defined Storage) de DataCore

Business Intelligence avec SQL Server 2012

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

Addenda du Guide de l administrateur

C-JDBC. Emmanuel Cecchet INRIA, Projet Sardes.

Urbanisation des SI. Des composants technologiques disponibles. Urbanisation des Systèmes d'information Henry Boccon Gibod 1

Datawarehouse and OLAP

Introduction aux applications réparties

La GEIDE. Dans une solution GEIDE, il est possible d'associer au sein même d'un dossier:

Évolution de schémas dans les entrepôts de données mise à jour de hiérarchies de dimension pour la personnalisation des analyses

Introduction à la conception de systèmes d information

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Linked Data et description du produit automobile SemWeb Pro, Paris, 2 mai 2012

Introduction aux bases de données Cours 1 : Généralités sur les bases de données

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

Bases de Données OLAP. Chapitre 2 Architecture. La Perspective d Oiseau. Perspective Détaillée ... Hiver 2011/2012

Contenus détaillés des habiletés du Profil TIC des étudiants du collégial

Département Génie Informatique

Bases de données élémentaires Maude Manouvrier

Les Entrepôts de Données. (Data Warehouses)

Introduction aux bases de données

Programme détaillé. Administrateur de Base de Données Oracle - SQLServer - MySQL. Objectifs de la formation. Les métiers

Systèmes d informations nouvelles générations. Répartition, Parallèlisation, hétérogénéité dans les SGBD. Exemple d application d un futur proche

Semantic Web Inside Guillaume Érétéo Directeur R&D

Transcription:

Le Web sémantique, une infrastructure d'intégration de sources de données Chantal Reynaud Université Paris X & LRI (Université Paris-Sud & CNRS), UR INRIA Futurs

Plan de l'exposé 1. Importance du point de vue des usages 2. Méthodes, techniques et outils existants 3. Les recherches futures pour le Web sémantique

1. Importance du point de vue des usages

Intégrer des données : Dans quel but?

Donner l'impression d'utiliser un système homogène et centralisé Le Web

Intégrer des données : Pour quoi faire?

Collecter toutes les réponses pertinentes provenant de sources de données multiples et hétérogènes Recherche de papiers sur le Web sémantique Action spécifique Web sémantique Int. Semantic Web Conf. Workshop on SW and DB

Combiner des données provenant de sources hétérogènes et fournir une réponse globale la plus complète possible LP Bibliography Server Author Title Conference Reynaud Semantic Integration of XML Heterogeneous data Sources IDEAS'01 Reynaud Semantic integration in Xyleme DKE (2003) Reynaud PICSEL and Xyleme: two illustrative Information Integration Agents AgentLink 2003 Vodislav Views in large-scale Web repository VLDB (2002)... Les papiers proches d'une certaine publication selon des critères mots-clés, auteurs ou titre de session spécialisée? ww-lsr.imag.fr/ideas2001/ Présentations orales :. 14 : 00 Session 7a - Sources de données fédérées Version Propagation in federated database Systems, Schönhoff, Strässler, Dittrich Semantic Integration of XML heterogeneous data Sources, Reynaud, Sirot, Vodislav... LRI <nom> C. Reynaud </nom> <statut> Prof. Paris X </statut> <enseignement>...</enseignement> <recherche>...</recherche> <publications> <année> 2003 </année> <reference> <auteurs>...</auteurs> <titre>...</titre> <conference>...</conference> </reference> <reference>... </reference>... </publications>...

2. Méthodes, techniques et outils existants

L'approche médiateur

Requête utilisateur L'approche médiateur Mediateur PICSE Ontologie du domaine 1 Ontologie du domaine 2 Description du contenu de la source 1 Description du contenu de la source 2 Description du contenu de la source n Description du contenu de la source k Description du contenu de la source l Description du contenu de la source p Moteur de requêtes Plans de requêtes Wrapper n 1 Wrapper n 2 Wrapper n j Wrapper n k Wrapper n l Wrapper n p 1. Fichier 2. BDR 3. XML k. BDOO l. XML p. BDR

Médiateur : Architecture générale spécifique Formalisme d'un déclaratif domaine Module de description du domaine Module de description des sources Module de reformulation des requêtes Dépend Algorithme d'un formalisme générique entrée : la requête de l'utilisateur exprimée en termes du vocabulaire du domaine sortie : un ensemble de requêtes spécialisées exprimées uniquement en termes du vocabulaire décrivant les sources Adaptateur (Wrappers) : interfaces entre les sources et le médiateur Programmes qui transforment les requêtes spécialisées du médiateur en des requêtes exécutables sur les sources

Principaux problèmes étudiés Description du domaine et des sources à l'aide de formalismes déclaratifs fondés sur la logique Le contenu des sources est décrit comme un ensemble de vues sur le domaine Les vues correspondent à l'expression de requêtes spécialisées que l'on peut poser aux différentes sources Construction de plans de requêtes : Problème de réécriture de requêtes en termes de vues

L'approche entrepôt de données

lients DM DM Administrateur Méta Données Entrepôt de Données Chargeurs Sources Fichier BD Données externes

Intégration -Transformation Chargement Un entrepôt est défini comme un ensemble de données provenant de sources diverses, variables dans le temps et non volatiles qui sont utilisées dans le processus d aide à la décision. C est une grosse base de données qui organise les données opérationnelles, les intègre et les stocke pour faciliter l interrogation complexe et l analyse en donnant à l'utilisateur une vue globale des informations. Source 1 Extraction-Transformation Source 1 Source 2... Extraction-Transformation Source 2... Entrepôt de données Source n Extraction-Transformation Source n

Différents types d'intégration Intégration de schémas Intégration de données virtuelle (médiateurs) Intégration de données matérialisée Schéma 1 S1 Schéma 2 S2 Schéma n Sn Interface d'accès Schéma Schéma unifié unifié Schéma 1 Schéma n S1 Vue Schéma reconciliée S2 2 Sn de S1toutes les sources Sn S2

Travaux et résultats du Web sémantique

L'approche médiation centralisée Points forts : Points faibles dans le cadre du Web sémantique Les données restent stockées dans les sources Un schéma global (ou ontologie) 1) Vocabulaire du domaine mis à la disposition de l'utilisateur pour la formulation des requêtes 2) Connexion des sources

La construction automatisée de l ontologie (1) Ontologie OTA 115 XML- Schemas Extraction semiautomatique (OntoMedia) Génération automatique de l ontologie en CARIN Experts 436 classes 298 propriétés 600 relations Ontologie en CARIN

La construction automatisée de l ontologie (2) Documents XML TreeFinder UsedCar UsedCar Book Book Color Year ModelKm Year Model Title Cover Author Infos Title Author caractérisation UsedCar Cluster 1 caractérisation Cluster 2 Book Year Model Title Author

Travaux dans le cadre d'architectures distribuées pair-à-pair Etude et conception de langages expressifs et flexibles (PPL) Permettre d'établir des mises en correspondance entre des schémas de systèmes reliés. Permettre de définir localement des relations sémantiques entre les schémas locaux tout en permettant de répondre globalement aux requêtes utilisateurs en exploitant le réseau des systèmes reliés sémantiquement.

Travaux sur la mise en correspondance entre ontologies Le système GLUE Dérivé du système LSD d'identification de mises en correspondance entre un schéma global et le schéma (DTD) de sources d'information XML Appliqué au Web sémantique pour assister le processus de mise en correspondance entre les taxinomies de deux ontologies en utilisant des techniques d'apprentissage automatique

3. Recherches futures pour le Web sémantique

L'approche médiation décentralisée Des systèmes de gestion de données pair-à-pair connectés sémantiquement SI 1 SI 4 SI 2 SI 3 SI 5 SI n

Vers des études théoriques sur le calcul des réponses aux requêtes Concernant des classes de systèmes plus restreintes Afin de guider dans les choix de conception Exemple : Ph. Adjiman (LRI, Univ. Paris-Sud) Les schémas des sources et les mises en correspondance sont exprimés en terme d'ontologies qui sont des hiérarchies de classes. Le problème du calcul des réponses aux requêtes est décidable Une méthode pour calculer de manière anytime et incrémentale l'ensemble des réponses à une requête posée à l'un des pairs. Le calcul se fait de proche en proche en étant guidé par les mises en correspondance. Complétude démontrée.

Pouvoir intégrer des données et des connaissances distribuées sur le Web en temps réel Nécessite des solutions innovantes en rupture avec l'existant SGBDs traditionnels : gestion et interrogation efficaces de données régulières, centralisées et fiables. Données du Web : données volumineuses, peu structurées, éparpillées, hétérogènes. Besoin de techniques de structuration et d'intégration de données passant à l'échelle du web

Quelques directions de recherche dans le cadre du Web sémantique Conception d'outils de "médiation intelligents" entre les utilisateurs et des sources d'informations stockées localement ou accessibles via le Web. Contrôle des changements, surveillance du Web Extraction de connaissances de façon à donner une vision abstraite, condensée, qualitative, plus signifiante pour l'utilisateur.

Extension de la notion d'entrepôts de données dans une organisation pour inclure les rapports techniques, des présentations video, audio, etc. Vers l'intégration de connaissances Des données mais aussi : des connaissances du domaine, des ontologies, des méta données, etc. Vers l'intégration de données multimédias

Un objectif ambitieux Conclusion Le passage à l'échelle du Web pose des problèmes nouveaux Les données sont complexes, distribuées, hétérogènes, répliquées, multiformes, changeantes, elles existent parfois via l'invocation de services,... Des travaux nécessitant des compétences multiples Ex : Projet GEMO : groupe VERSO (INRIA)+ Equipe IASI (LRI, Univ. Paris-Sud) - Modélisation, représentation, traitements de connaissances complexes (Intelligence Artificielle) - Gestion de grandes bases de données, interrogation via des langages de requêtes optimisés (Bases de données) Un défi : obtenir des performances acceptables Les recherches sont en cours...