Intégration de données hétérogènes dans SenPeer



Documents pareils
THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Évaluation d une architecture de stockage RDF distribuée

Raisonnement distribué dans un environnement de type Pair-à-Pair

Hervé Couturier EVP, SAP Technology Development

Une méthode d apprentissage pour la composition de services web

Information utiles. webpage : Google+ : digiusto/

AGROBASE : un système de gestion de données expérimentales

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

Gestion de données incertaines et de leur provenance

Recherche d information en langue arabe : influence des paramètres linguistiques et de pondération de LSA

Business Intelligence avec Excel, Power BI et Office 365

SQL Parser XML Xquery : Approche de détection des injections SQL

Sur l utilisation de LDA en RI pair-à-pair

Entreposage de données complexes pour la médecine d anticipation personnalisée

Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Guide de recherche documentaire à l usage des doctorants. Partie 1 : Exploiter les bases de données académiques

Problématiques de recherche. Figure Research Agenda for service-oriented computing

UE 8 Systèmes d information de gestion Le programme

THOT - Extraction de données et de schémas d un SGBD

XML par la pratique Bases indispensables, concepts et cas pratiques (3ième édition)

Les ontologies pour l intégration sémantique : enjeux et défis

Cours Bases de données

MapCenter : un modèle ouvert pour la découverte, la supervision et la visualisation des environnements distribués à large échelle

Solution A La Gestion Des Objets Java Pour Des Systèmes Embarqués

Business Intelligence

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

Intégration de données hétérogènes et réparties. Anne Doucet

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE

OpenPaaS Le réseau social d'entreprise

Module BDWEB. Maîtrise d informatique Cours 9 - Xquery. Anne Doucet. anne.doucet@lip6.fr

Infrastructure de Données Spatiales

Introduction aux «Services Web»

Ndiouma Bame 1 Hubert Naacke 2, Idrissa Sarr 3, Samba Ndiaye 1

Techniques d analyse et de conception d outils pour la gestion du processus de segmentation des abonnés des entreprises de télécommunication

Prototype de canal caché dans le DNS

Les capitalistes sociaux sur Twitter : détection via des mesures de similarité

MYXTRACTION La Business Intelligence en temps réel

SQL SERVER 2008, BUSINESS INTELLIGENCE

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

CURRICULUM VITAE. Informations Personnelles

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Principe de symétrisation pour la construction d un test adaptatif

Systèmes d information et bases de données (niveau 1)

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Bases de données. Chapitre 1. Introduction

BIG Data et R: opportunités et perspectives

Quelques patterns pour la persistance des objets avec DAO DAO. Principe de base. Utilité des DTOs. Le modèle de conception DTO (Data Transfer Object)

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

Sélection d un moteur de recherche pour intranet : Les sept points à prendre en compte

Systèmes d informations nouvelles générations. Répartition, Parallèlisation, hétérogénéité dans les SGBD. Exemple d application d un futur proche

4. SERVICES WEB REST 46

Chapitre VIII. Les bases de données. Orientées Objet. Motivation

Formations Techniques : Infrastructures Janvier - Mars 2009

Langage SQL : créer et interroger une base

Programmation Web Avancée Introduction aux services Web

Introduction aux bases de données

Big Data et Graphes : Quelques pistes de recherche

Cognit Ive Cas d utilisation

Bases de données - Modèle relationnel

Parcours en deuxième année

SQL. Oracle. pour. 4 e édition. Christian Soutou Avec la participation d Olivier Teste

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Classification Automatique de messages : une approche hybride

Le Langage SQL version Oracle

RAPID Prenez le contrôle sur vos données

Types d applications pour la persistance. Outils de développement. Base de données préexistante? 3 modèles. Variantes avec passerelles

BD réparties. Bases de Données Réparties. SGBD réparti. Paramètres à considérer

Rappel sur les bases de données

DSL. Domain Specific Language. À l'aide des technologies Eclipse Modeling. Goulwen Le Fur Le 23 novembre 2012

Design and Implementation of an Efficient Data Stream Processing System

LES TECHNOLOGIES DU WEB APPLIQUÉES AUX DONNÉES STRUCTURÉES

Groupe Eyrolles, 2004 ISBN :

Introduction à la B.I. Avec SQL Server 2008

SparkInData. Place de Marché des applications Spatiales

Differential Synchronization

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Alimenter un entrepôt de données par des données issues de services web. Une approche médiation pour le prototype DaWeS

Architectures d'intégration de données

JDev Atelier Datalift

Séance 1 Introduction aux bases de données

Annexe 5. Kaspersky Security For SharePoint Servers. Consulting Team

Apprentissage Automatique

Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2014

An Ontology-Based Approach for Closed-Loop Product Lifecycle Management

Exploration des technologies web pour créer une interaction entre Mahara et les plateformes professionnelles et sociales

PROSOP : un système de gestion de bases de données prosopographiques

XML et travail collaboratif : vers un Web sémantique

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence

Le langage SQL Rappels

Module BD et sites WEB

Transcription:

Intégration de données hétérogènes dans SenPeer David Faye *-** Gilles Nachouki ** Patrick Valduriez *** * Laboratoire d Analyse Numérique et d Informatique (LANI) Université Gaston Berger de Saint-Louis BP 234 Saint-Louis (SENEGAL) David.Faye@univ-nantes.fr ** Laboratoire d Informatique de Nantes Atlantique (LINA) Université de Nantes 2 rue de la Houssinière, BP-92208, 44322 Nantes cedex 03 (FRANCE) Gilles.Nachouki@univ-nantes.fr *** Equipe ATLAS (INRIA et LINA) Patrick.Valduriez@inria.fr RÉSUMÉ. Dans cet article, nous présentons SenPeer, un nouveau système Pair-à-Pair de gestion de données distribuées permettant le partage décentralisé et flexible de données se conformant à des modèles de données différents. SenPeer est un système de type Super-Pair reposant sur une organisation des pairs en domaines sémantiques et dans lequel les pairs peuvent publier des bases de données relationnelles, objets ou des documents XML. Chaque pair exporte ses données dans un formalisme pivot commun qui a une structure de graphe enrichi sémantiquement avec des mots-clés destinés à guider la découverte des correspondances entre les éléments des schémas. Les requêtes sont échangées dans un format interne commun, routées vers les pairs pertinents grâce à une sélection basée sur la notion d expertise et enfin réecrites vers les pairs liés grâce aux correspondances sémantiques. ABSTRACT. In this article, we present SenPeer, a new Peer-to-Peer data management system allowing the sharing of data conforming to various data models in a decentralized and flexible fashion. SenPeer has a Super-peer network topology based on an organization of peers in semantic domains and in which peers can publish XML documents, relational or object databases. Each peer exports its data in a common formalism which has a graph struture semantically enriched with a set of keywords in order to guide mappings discovery. Queries are exchanged in the network by the mean of a common query exchange language, routed towards promising peers by an expertise based selection of relevant and rewrited towards those relevant peers using the semantic mappings. MOTS-CLÉS : requêtes. Médiation de données, Similarité sémantique, Réseaux Pair-à-Pair, Traitement de KEYWORDS : Data mediation, Semantic similarity, Peer-to-Peer Networks, Query processing. Volume 5 2006, pages 1 à 8

2 Volume 5 2006 1. Introduction Les systèmes Pair-à-Pair de partage de fichiers se sont illustrés par une description des nœuds par clés et une localisation des données par un routage de ces mêmes clés dans le réseau. Les systèmes Pair-à-Pair de gestion de données communément appelés PDMS (Peer Data Management System)[3] combinent quant à eux la technologie Pair-à-Pair et celle des bases de données distribuées et s appuient sur une description sémantique des sources de données pour le traitement des requêtes. PeerDB[7], Edutella[6], APPA[1] ou encore Piazza[3] constituent des implémentations actuelles de PDMS. Cependant, la plupart de ces PDMS ne permettent pas le partage de données décrites par des modèles de données différents. Nous nous interesserons à ce dernier problème. SenPeer est un système Pair-à-Pair de partage de données se conformant à différents modèles de données. Nous l illustrons dans cet article au partage de données relatives à la mise en valeur de la vallée du fleuve sénégal où les acteurs sont des experts de différents domaines de compétence localisés dans différents pays (Sénégal, Mali, Mauritanie). Sen- Peer repose sur une organisation de type Super-Pair avec un regroupement des pairs par domaines sémantiques. Chaque pair publie des données décrites par un modèle conforme aux modèles de données relationnel, objet ou XML et dispose de son propre langage d interrogation. Dans le but d une médiation flexible, les données sont exportées dans un modèle pivot qui a une structure de graphe enrichi sémantiquement avec des mots-clés issus des schémas et destinés à guider la découverte des correspondances sémantiques. Les requêtes sont échangées dans un format interne commun, routées et réecrites vers les pairs pertinents grâce aux correspondances sémantiques. Le reste de l article est organisé comme suit. La partie suivante présente l architecture de SenPeer. Les parties 3 et 4 décrivent les processus de médiation de données et de traitement des requêtes. Nous terminons par une conclusion et des travaux futurs. 2. Architecture du système SenPeer SenPeer est un système de type Super-pair avec un regroupement des pairs par domaines sémantiques correspondant à des thèmes (hydrologie, activités agricoles, etc., pour le fleuve sénégal par exemple ). Chaque pair publie des données de son domaine dans les formats suivant : données relationnelles ou objets, documents XML. Les pairs d un domaine sont gérés par un super-pair auquel est rattaché un réseau sémantique expliquant les données du domaine. Cependant ces pairs peuvent décrire leurs données avec des vocabulaires différents. Au sein du chaque super-pair un gestionnaire de correspondances permet de générer les correspondances avec les autres domaines mais aussi celles entre les pairs du domaine. Elles sont stockées dans des matrices de correspondance et réutilisées pour

SenPeer 3 Figure 1. Architecture d un super-pair la réécriture des requêtes vers les pairs ou super-pairs pertinents. La communication est assurée par la plate-forme JXTA de Sun[5]. 3. Médiation sémantique de données Pour faciliter la découverte des correspondances en présence de plusieurs modèles de données, les schémas sont représentés dans un formalisme pivot appelé sgraph (semantic Graph). Un sgraph est un graphe orienté étiqueté et acyclique dont les nœuds correspondent aux éléments figurant dans les schémas (tables, colonnes, éléments ou attributs XML, etc.) et dont les arcs sont pris dans l ensemble des relations sémantiques possibles entre éléments dans les langages des schémas : isa, partof, contains, typeof, associates, datatype, sourcetype, hasid, references. De plus à chaque nœud n i est associé un ensemble de synonymes syn(n i ) issus des schémas et destinés à guider la découverte des correspondances sémantiques. Ces correspondances sont définies grâce à des mesures de similarités permettant de comparer deux nœuds. La similarité S(n i, n j ) de deux nœuds appartenant à deux sgraph SG 1 et SG 2 dépend de leurs similarités linguistique S l (n i, n j ) et de voisinage S v (n i, n j ), soit : S(n i, n j ) = λ l.s l (n i, n j ) + λ v.s v (n i, n j ) avec λ l, λ v 0 et λ l + λ v = 1 (1) La similarité S l (n i, n j ) évalue l affinité linguistique de n i et n j en tenant compte des

4 Volume 5 2006 Figure 2. sgraph partiel sur les cultures pratiquées sur les sols du bassin du fleuve. similarités S s (n i, n j ) des ensembles de synonymes et S t (n i, n j ) de leurs types : S l (n i, n j ) = ω s.s s (n i, n j ) + ω t.s t (n i, n j ) avec ω s, ω t 0 et ω s + ω t = 1 (2) Les similarités de types sont prédéfinies dans l intervalle [0, 1]. La similarité S s (n i, n j ) se base sur la mesure de Tversky[9], mais nous faisons un appariement flou des synonymes, plutôt qu un appariement exact. Etant donné A et B deux ensembles de termes leur intersection floue A f B et leur différence floue A f B se définit comme suit : A f B = {a A/max b B SM(a, b) > ǫ acc} A f B = {a A/max b B SM(a, b) ǫ acc} (3) avec SM fonction de comparaison lexicale entre deux mots et ǫ acc seuil au dessus duquel la similarité calculée est considérée comme acceptable. La similarité S s (n i, n j ) est alors : syn(n i) f syn(n j) S s(n i, n j) = syn(n i) f syn(n j) + α syn(n i) f syn(n j) + (1 α) syn(n j) f syn(n i) (4) La similarité S v (n i, n j ) compare les nœuds dans les voisinages V (n i ) et V (n j ). Elle dépend de la taille de leurs voisinages, mais aussi de l intersection floue de ces voisinages. S v (n i, n j ) = {x V (n i)/ y V (n j ) S(x, y) > ǫ acc } V (n i ) V (n j ) (5)

SenPeer 5 Si la similarité est supérieure à un certain seuil ǫ, nous avons une correspondance notée < n i, n j, => (nous ne considérons que l équivalence =) pouvant être stockée dans deux types de matrices de correspondance : Super-pair/Pair (SP/P) et Super-pair/Super-pair (SP/SP). La figure 3 illustre le processus de médiation en présence des domaines non disjoints Agriculture et Pédologie. Par souci de lisibilité, les pairs de ce dernier domaine de sont pas représentés. Figure 3. Médiation de données des domaines Agriculture et Pédologie. ISRA(Institut Sénégalais de Recherche Agronomique), SAED(Société d Aménagement et d Exploitation du Delta). 4. Traitement des requêtes Processus d interrogation Quand un pair formule une requête avec son langage d interrogation (SQL, XQuery, etc.) celle-ci est d abord exécutée localement puis translatée dans le formalisme d échange

6 Volume 5 2006 de requêtes SQUEL(SenPeer Query Exchange Language) et enfin envoyée à son superpair. Le super-pair extrait alors le sujet de la requête en se basant sur les informations contenues dans le sgraph du pair actuel pour pouvoir le comparer aux descriptions d expertises des pairs du domaine. Le résultat est la liste des pairs pertinents accompagnée de la réécriture sémantique de la requête en accord avec la matrice de correspondance SP/P. La requête peut maintenant être routée vers ces différents pairs. En suivant le même procédé, le super-pair détecte les domaines liés pertinents pour la requête en s aidant cette fois-ci des expertises des super-pairs. La réécriture sémantique est faite dans ce cas avec la matrice de correspondance SP/SP. Modèle de représentation interne de requête SQUEL SQUEL s inspire du modèle de requête QEM[8]. Une requête SQUEL est un arbre constitué de deux sous-arbres : sous arbre-condition et sous-arbre résultat. De plus pour faciliter la sélection des pairs pertinents pour la requête nous associons à chaque nœud racine, attribut ou sous-requête les synonymes du nœud correspondant dans le sgraph du pair initiateur de la requête. Le Tableau 1 définit formellement une requête SQUEL. < QNode > : := class { name : <word> synonym : {} {<syn-set>} type : <typenode> constraint : <constraint> return : <return> operand : <operand>} <syn-set> : := <word> <word>,<synset> <typenode> : :={} root subquery operator function attribute literal <result> : := {} {< QNode >} <constraint> : :={} {< QNode >} ÊÇÅ <operand> : := {} {< QNode >} ÏÀ Ê ÙÐØÙÖ ºÒÓÑ ÓÐ ÓкÒÓÑ Æ ÒÓÑ ³Ö Þ³ Ë Ä ÌÒÓÑ ÓÐ Ø ÙÜ Ð ÙÑ Ø ÙÐØÙÖ ÓÐ Tableau 1. Définition de la classe représentant un nœud d une requête interne SQUEL. Si par exemple le pair SAED de la figure 3 exprime la requête SQL suivante : La requête enrichie exprimée en SQUEL sera alors celle représentée par la figure 4. Description d expertise de pair et sujet de requête Chaque pair informe son super-pair des données qu il partage à travers une description d expertise automatiquement extraite de son sgraph. Soit un pair P de sgraph SG, son

SenPeer 7 Figure 4. Requête SQUEL correspondant à la requête SQL du pair SAED. expertise est l ensemble de couples de nœuds de SG liés par la relation de contenance contains : Exp(P) = {(n i, n j ) SG/contains(n i, n j )} Ë٠ɽµ ß ÓÐ ÒÓѵ ÓÐ Ø ÙÜ Ðµ ÓÐ ÙÑ Ø µ ÙÐØÙÖ ÒÓÑ µ Le sujet d une ÙÐØÙÖ ÒÓÑ ÓеРrequête Q est une abstraction de la requête en termes de couples de nœuds figurant dans l arbre de la requête et référencés dans le sgraph du pair initial : Sub(Q) = {(n q, m q ) Q return(n q, m q ) } {(n q, m q ) Q o q Q (6) constraint(n q, o q ) operand(o q, m q )} Par exemple, le sujet de la requête Q1 dans la figure 4 est : Sélection des pairs pertinents L algorithme de sélection prend en entrée une requête SQUEL et retourne un ensemble de sous-requêtes, chacune avec le pair pouvant la traiter. La sélection est basée sur une fonction map vérifiant l inclusion du sujet de la requête dans l expertise du pair. map(sub(q), Exp(P)) = vrai faux sinon si (n q, m q ) Sub(Q) (n p, m p ) Exp(P) Sim(n q, n p ) ǫ acc Sim(m q, m p ) ǫ acc Les résultats de l algorithme de sélection des pairs pertinents seront utilisés pour générer les plans de requêtes distribuées. Ces plans de requêtes seront ainsi exécutés par les pairs ou super-pairs appropriés.

8 Volume 5 2006 5. Conclusion SenPeer permet le partage décentralisé de données de n importe quel domaine, en présence de plusieurs modèles de données, à conditions que ces données soient classées par thèmes. La découverte des correspondances sémantiques est facilitée en autorisant les pairs à exporter leurs connaissances sous forme de modèle pivot enrichi sémantiquement avec des mots-clés introduits à la conception des schémas. Les requêtes sont échangées dans un modèle interne commun et réécrites vers les pairs pertinents grâce aux correspondances sémantiques. La sélection de ces derniers est basée sur une comparaison entre le sujet de la requête et l expertise des pairs. Nos travaux futurs concerneront la configuration du système, la génération des plans de requêtes et la réécriture de celles-ci. 6. Bibliographie [1] AKBARINIA R., MARTINS V., PACITTI E., VALDURIEZ P. «Replication and Query Processing in the APPA Data Management System» Distributed Data & Structures 6 (WDAS) : (Lausanne, Switzerland), Waterloo : Carleton Scientific, 2004. [3] HALEVY A., IVES Z. G., MORK P., TATARINOV I., «Piazza : Data Management Infrastructure for Semantic Web Applications», In Proc. of the 12th Intl. World Wide Web Conf. (WWW2003) Budapest, 2003. [4] HEESE R., HERSCHEL S., NAUMANN F., ROTH A., «Self-Extending Peer Data Management», In GI-Fachtagung fur Datenbanksysteme in Business, Technologie und Web (BTW 2005), Karlsruhe, Germany, 2005. [5] JXTA, «http ://www.jxta.org/». [6] NEJDL W., WOLF B., QU C., DECKER S., SINTEK M., NAEVE A., NILSSON M., PALMER M., RISCH T., «Edutella : A P2P networking infrastructure based on RDF», In Proc. of the 11th Intl. World Wide Web Conf. (WWW2002), Hawaii, USA, May, 2002. [7] NG W. S., OOI B. C., TAN L., ZHOU A., «PeerDB : A P2P-based System for Distributed DataSharing», In Intl. Conf. on Data Engineering (ICDE2003) :, Bangalore, India 2003. [8] B. PANCHAPAGESAN, J.HUI, G. WIEDERHOLD., G. WIEDERHOLD, S. ERICKSON, «The INEEL Data Integration Mediation System», Proc. International ICSC Symposium on Advances in Intelligent Data Analysis (AIDA 99), Rochester, NY, June 1999. [9] TVERSKY A., EGENHOFER M., RUGG R., CONFORTI G., «Features of similarity», Psychological Review, 84, 327-352, 1977.