SemWeb : Interrogation sémantique du web avec XQuery. Les membres du projet SemWeb

Documents pareils

Information utiles. webpage : Google+ : digiusto/

Introduction aux Bases de Données

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

Cours Bases de données

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Architectures d'intégration de données

Mercredi 15 Janvier 2014

Intégration de données hétérogènes et réparties. Anne Doucet

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Bases de données avancées Introduction

UE 8 Systèmes d information de gestion Le programme

Gestion de données incertaines et de leur provenance

Les bases de données

Systèmes d information et bases de données (niveau 1)

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Problématiques de recherche. Figure Research Agenda for service-oriented computing

Bases de données Cours 1 : Généralités sur les bases de données

Catalogue des formations Edition 2015

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

et les Systèmes Multidimensionnels

Langage SQL (1) 4 septembre IUT Orléans. Introduction Le langage SQL : données Le langage SQL : requêtes

BASES DE DONNÉES. CNAM Centre associé de Clermont-Ferrand Cycle A Année J. Darmont I. INTRODUCTION II. LES SYSTÈMES HIÉRARCHIQUES

Générer du code à partir d une description de haut niveau

Bases de données relationnelles

Introduction aux bases de données

PROSOP : un système de gestion de bases de données prosopographiques

Bases de données Outils de gestion

Compte-rendu re union Campus AAR 3 mars 2015

2 Serveurs OLAP et introduction au Data Mining

CESI Bases de données

Accès à l'information XML par des requêtes XQuery au travers de son XSchema

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Bases de données relationnelles : Introduction

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Business Intelligence avec Excel, Power BI et Office 365

Les ontologies pour l intégration sémantique : enjeux et défis

Les Entrepôts de Données

SQL Parser XML Xquery : Approche de détection des injections SQL

ECTS CM TD TP. 1er semestre (S3)

Bases de données documentaires et distribuées Cours NFE04

Présentation du module Base de données spatio-temporelles

Introduction à la B.I. Avec SQL Server 2008

Table des matières. Avant-propos

données en connaissance et en actions?

THOT - Extraction de données et de schémas d un SGBD

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Big Data et Graphes : Quelques pistes de recherche

Gestion de données réparties. Cours 1

Séance 1 Introduction aux bases de données

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Parcours en deuxième année

THEME PROJET D ELABORATION D UNE BASE DE DONNEES SOUS LE SERVEUR MYSQL

Rappel sur les bases de données

Architecture N-Tier. Ces données peuvent être saisies interactivement via l interface ou lues depuis un disque. Application

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

XCube XML For Data Warehouses

XML et travail collaboratif : vers un Web sémantique

INTRODUCTION AUX BASES de DONNEES

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions

BD réparties. Bases de Données Réparties. SGBD réparti. Paramètres à considérer

Conception des bases de données : Modèle Entité-Association

Chapitre VIII. Les bases de données. Orientées Objet. Motivation

La démarche MDA. Auteur : Projet ACCORD (Assemblage de composants par contrats en environnement ouvert et réparti)*

Module BDR Master d Informatique (SAR)

Business Intelligence

Réplication E-maj Foreign Data Wrapper PostGIS PostgreSQL-f

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Intégration de données

Bases de Données relationnelles et leurs systèmes de Gestion

Initiation aux bases de données (SGBD) Walter RUDAMETKIN

Bases de Données. Plan

Bases de Données Avancées

Bases de Données. Le cas des BD relationnelles ouverture sur les BD relationnelles spatiales Séance 2 : Mise en oeuvre

Introduction aux SGBDR

Évaluation d une architecture de stockage RDF distribuée

Master I Génie Logiciel

Notes de cours : bases de données distribuées et repliquées

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Quelques patterns pour la persistance des objets avec DAO DAO. Principe de base. Utilité des DTOs. Le modèle de conception DTO (Data Transfer Object)

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Suivant les langages de programmation, modules plus avancés : modules imbriqués modules paramétrés par des modules (foncteurs)

Bases de Données Avancées

1/ Présentation de SQL Server :

Chaîne opératoire de réalisation d une base de données. ANF «Comment concevoir une base de données» (29-30/01/2015)

Entrepôt de données 1. Introduction

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1

Simplifier l intégration des systèmes RH et garantir une version unique des données de l employé. D

X2BIRT : Mettez de l interactivité dans vos archives

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

INTRODUCTION AUX TECHNOLOGIES D INGENIERIE DES DONNEES DIRIGEE PAR LES MODELES

ISC Système d Information Architecture et Administration d un SGBD Compléments SQL

Exploration des technologies web pour créer une interaction entre Mahara et les plateformes professionnelles et sociales

ANALYSTE PROGRAMMEUR DIPLÔME D ÉTABLISSEMENT

IFT3030 Base de données. Chapitre 2 Architecture d une base de données

INDUSTRIALISATION ET RATIONALISATION

Transcription:

SemWeb : Interrogation sémantique du web avec XQuery Les membres du projet SemWeb

Contexte et objectifs Le projet SemWeb s inscrit dans les efforts de recherche et de développement actuels pour construire un web sémantique. Il vise à étudier, découvrir et proposer de nouvelles méthodes, algorithmes et architectures pour interroger de grandes collections de données semistructurées, hétérogènes et distribuées avec XQuery. Il est basé sur l utilisation d architectures à base de médiation et de métadonnées pour indexer, décrire et interroger des informations.

Equipes participantes CEDRIC / CNAM, équipe VERTIGO, Paris LINA, équipe Bases de données et Recherche d information, Nantes LIP6, équipe Bases de données, Paris LIRIS, axe Données, Documents et Connaissances, Lyon PRISM, équipe Bases de données, Versailles LSIS, équipe Information et Connaissance Distribuées, Toulon

Structuration du projet Ontologies Documents multistructurés Résumés de données Médiateur XLive XQuery Application cible Services Web Métadonnées Pair à pair Performances et passage à l échelle

Médiateur XLive PRiSM

XLive Une architecture de médiation modulaire et extensible : langage pivot : XML, langage de requêtes : XQuery. Intégration de sources hétérogènes : SGBD relationnels : Oracle, MySQL SGBD XML : Xyleme, Xhive Manipulation de données homogènes au sein du médiateur : représentées sous forme de XTuples, manipulées à travers des XOpérateurs étendus du relationnel. Représentation des requêtes sous forme d hypergraphes : «Tree Graph View». Manipulation uniforme des données textuelles.

Architecture Presentation Console Benchmark Web Service Integration Query Parsing Query Query model model Query Query XLive public API Language Language Execution Execution plan plan Wrapper Information Manager Data Data Results Results Evaluation Plan Generator Metadata Manager Capabilities Manager Cost Manager Connection Wrapper View local Management Sources Source Localdatabase

Représentation des requêtes par «Tree Graph View» Marques de voitures de sport vendues à Bordeaux? vendeur voitures voitures voiture ville nom value = "Bordeaux" voiture nom nom type value = "Sport" marque vendeurs vendeur voiture

Manipulation uniforme des données textuelles for $b in collection( books /book let $score := ft:score($b/title[. ft:contains biology ]) where $score > 0.3 return XQuery Full-Text wrapper XDBMS score RDBMS Mediator ft:contains wrapper wrapper wrapper <XML> WEB Problèmes : Capacités très variables des sources vis-à-vis de le manipulation plein texte. Solution proposée : Vue XML indexées

Construction automatique d ontologies CEDRIC

Ontologies en systèmes d information Une ontologie est une conceptualisation formelle du réel, partagée par une communauté à des fins d échange. Elle doit être exploitable par un programme. Elle est composée : d une hiérarchie IS-A de concepts, d autres liens sémantique (est localisé sur, est relié à ) C est un outil indispensable au partage d information de sources de données multiples et hétérogènes : Elle permet d associer de la sémantique aux données de sources externes.

Problèmes de recherches ouverts Gestion : création, mise à jour, fusion Evolution : ex : Constantinople Istanbul, ex : ulcère à l estomac : psychosomatique bactérien. Utilisation : distance sémantique, mesure de la pertinence, Performances.

SemWeb et ontologies : GO, un outil de construction automatique d ontologies Fonctionnalités : création automatique d ontologies («from scratch», à partir d ontologies existantes), maintenance automatique d ontologies (fusion de hiérarchies, ajout de concepts et d instances, suppression de concepts, d instances ou de sous-hiérarchies, normalisation des hiérarchies), création de vues synthétiques. Techniques utilisées : contraintes sur les valeurs nulles étendues aux contextes objet et sémantique web, algorithmes d extraction, de normalisation et de translation. Implémentation : Basée sur une architecture de services webs, avec composition de services pour réaliser les différentes fonctionnalités.

Exemple : le service web «Construction d ontologies» Un ensemble de concepts décrits par des mots clés Transporte Se déplace Vole Transporte Se déplace Véhicule Flotte Transporte Se déplace Avion Bateau Service Web Construction Transporte Se déplace Avion Vole Véhicule Bateau Flotte Service Web Extraction Transporte Se déplace Vole a Se déplace Flotte a Se déplace Vole Flotte Service Web Normalisation

Résumé de données LINA

Les résumés de données Un résumé : est une version réduite d une BD relationnelle qui réalise une compression sémantique à différents niveaux d abstraction, offre une description synthétique, graduelle et symbolique des données qu il représente. REVENU Paul Jean Marc Jean Marc (âgé, moyen) (âgé, faible) (0.4/jeune, faible) moyen P a ul Je a n (âgé, {faible, moyen}) ({0.4/jeune, âgé}, faible) ({0.4/jeune, âgé}, {faible, moyen}) faible M ar c ÂG

Exploitation des résumés de données Deux modes d exploitation sont proposés : déclaratif, fondé sur un langage d interrogation ; navigationnel, fondé sur une algèbre de résumés similaire aux algèbres de cubes de données OLAP.

SemWeb et résumés de données Construction/maintenance en ligne de résumés de données semi-structurées : réduction de contenu pour l interrogation approchée. Construction/maintenance en ligne de résumés sur les pairs d un réseau pair à pair : passage à l échelle, indexation des sources de données. Application aux descriptions de services web.

Documents multistructurés LSIS, LIRIS, PRiSM

Exemple 1 : documents anciens Extrait de Ms de Cambridge, Trinity College 903, f. 158v (3 recettes médicales et magiques) structure 1 <lignes> <ligne>messas sobr'ella e pois met la en ta boca e baia cella que tu amaras</ligne> <ligne>e garda pois que la cera ni la mezolla non crem. La dieta es</ligne> </lignes> structure 2 <paragraphe> <phrase> <mot>messas</mot><mot>sobr ella</mot><mot>e</mot><mot>pois</mot><mot>met</mot> <mot>la</mot><mot>en</mot><mot>ta</mot><mot>boca</mot><mot>e</mot><mot>baia</mot> <mot>cella</mot><mot>que</mot><mot>tu</mot><mot>amaras</mot><mot>e</mot> <mot>garda</mot><mot>pois</mot><mot>que</mot><mot>la</mot><mot>cera</mot><mot>ni</mot> <mot>la</mot><mot>mezolla</mot><mot>non</mot><mot>crem</mot> </phrase> <phrase><mot>la</mot><mot>dieta</mot><mot>es</mot> </phrase> </paragraphe>

Exemple 2 : données linguistiques Un signal en entrée et sa retranscription : 2 structures, 2 analyses bon alors voilà voilà donc il s agit de d une expérience que nous ont commandité les sociologues hein structure en grille, paradigmatique bon alors voilà voilà donc il s agit de hein bon Phat alors Adv voilà Adv voilà Adv donc Conj il Clit s Refl agit V de Prep d Prep une Det expérience N que ProR nous Clit... structure morpho-syntaxique d une expérience que nous ont commandité les sociologues

Problématique Un document XML une structure hiérarchique = un point de vue Analyse d un même document selon divers points de vue Plusieurs structures hiérarchiques qui peuvent : ne pas s appuyer sur des fragments de données atomiques superposables, Se chevaucher. Comment représenter de tels documents? Quel modèle? Autant de documents que de structures? Choix d une structure principale? Maintien de la cohérence des structures? Comment manipuler simultanément ces structures? Opérateurs spécifiques.

SemWeb et documents multistructurés Modélisation de documents multistructurées Sous forme de graphe ou d arbres contrainte : le document source n est pas modifié Proposition de syntaxes arborescentes (XML) : aucune structure privilégiée dans la représentation du modèle en XML, une structure est privilégiée, positionnement des autres par rapport à celle-ci Définition d opérateurs d interrogation spécifiques pour documents multistructurés et extension par ces opérateurs de XQuery. Conception d un prototype un composant dédié aux applications utilisant des données multistructurées son implantation dans le médiateur.

Interrogation d un document multistructuré distribué Extension de XQuery pour les documents multistructurés LSIS LIRIS Adaptation à la multistructure (indexation commune aux documents structurés liés au même document non structurés) XLive XQuery LSIS LIRIS PRiSM Source 1 Source i Source n Les documents structurés (XML) S 1.xml S i.xml S n.xml LSIS LIRIS Fichiers XML Le document non structuré (texte) Document.txt

Services web PRiSM, LIP6, LIRIS

XQuery, les services web et le web sémantique Technologies standards fondées sur XML et le web : XQuery : interrogation de données XML, Services web (SW) : publication d applications et de données sur le Web, Web sémantique (WS) : découverte et intégration sémantique de ressources web. Technologies complémentaires : XQuery + SW : ActiveXML, XLive SW + WS : OWL-S, Tap XQuery + WS : interrogation RDF avec XQuery

SemWeb et services web Objectifs SemWeb : Mieux comprendre les interactions entre les trois technologies XQuery + SW + WS : applications, implantation(s), modélisation. Objectifs SemWeb + Services Web : Etudier les problèmes d intégration de données et de services : XQuery = modèle/langage pour la composition de services? Composition de services vs médiation de requêtes? XQuery + SW + WS = modèle d intégration sémantique de données distribuées?

Plan de travail Travail en cours: Etat de l art sur la composition de services Directions de recherche : Extension du moteur XLive : «traitement sémantiques» de requêtes XQuery, interrogation de services web. Description et composition sémantique de services avec XQuery Modèle, application et prototype. Objectif final : Modèle et architecture pour l intégration sémantique de données et de services distribués.

Architectures pair à Pair CEDRIC, LIP6, PRiSM

SemWeb et architecture pair à pair Motivation : architecture mieux adaptée à l interrogation du web sémantique que celle de la médiation : Autonomie des sources : participation ouverte au système constitution dynamique du réseau de sources, réplication pour assurer la robustesse. Passage à l échelle (très grand volume de données) : Objectifs distribution de l index, distribution des traitements. explorer plusieurs approches, comparer les performances pour différents types d applications.

Indexation et routage pair-à-pair Indexation structure : chemins (PRISM), balises (LIP6, CEDRIC) ; valeurs : mots (CEDRIC), valeurs numériques et intervalles (LIP6) ; variante intermédiaire : résumés de données. Architectures de distribution de l index et de routage hiérarchique (PRISM) tables de hachage distribuées : hachage aléatoire classique (CEDRIC, LIP6), hachage préservant l ordre, pour les requêtes par intervalle (LIP6).

Interrogation sémantique pair à pair Requête XQuery sémantique Réponses Pair 1 Couche sémantique Vue d intégration sémantique Mappings Rôle 2: Médiateur Interrogation sémantique des données distribuées Publication Pair 2 Wrapper (sémantique) Wrapper (données et schémas) Source locale de données Couche de données Indexation distribuée + Routage Rôle 1: Source de Données Publication de données, schémas, infos sémantiques Pair n Pair 3 Réseau pair-à-pair

Interrogation sémantique pair-à-pair Couche sémantique ensemble de mots-clé («concepts» communs) (LIP6), ontologies type entité-association (PRISM), ontologies type schéma XML étendu (CEDRIC). Mappings correspondance entre la structure locale et la couche sémantique, spécification manuelle ou semi-automatique. Langage de requête XQuery de type arbre sur la structure locale (LIP6), XQuery de type arbre sur l ontologie (PRISM), relation universelle sur les nœuds du schéma XML étendu (CEDRIC).

Conclusion et perspectives Les recherches continuent!