Les ontologies pour l intégration sémantique : enjeux et défis



Documents pareils
Architectures d'intégration de données

Problématiques de recherche. Figure Research Agenda for service-oriented computing

Intégration de données hétérogènes et réparties. Anne Doucet

UE 8 Systèmes d information de gestion Le programme

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Intégration de la dimension sémantique dans les réseaux sociaux

BD réparties. Bases de Données Réparties. SGBD réparti. Paramètres à considérer

XML et travail collaboratif : vers un Web sémantique

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Le pilotage des collaborations et l interopérabilité des systèmes d information Vers une démarche intégrée

Semarchy Convergence for MDM La Plate-Forme MDM Évolutionnaire

Définition d'un système générique de partage de données entre systèmes existants

Module BDR Master d Informatique (SAR)

Compte-rendu re union Campus AAR 3 mars 2015

Raisonnements standard et non-standard pour les systèmes décentralisés de gestion de données et de connaissances

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

Résumé CONCEPTEUR, INTEGRATEUR, OPERATEUR DE SYSTEMES CRITIQUES

Présentation générale du projet data.bnf.fr

Cours Bases de données

Hervé Couturier EVP, SAP Technology Development

Créer un référentiel client grâce à Talend MDM

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Les Entrepôts de Données

Exemple accessible via une interface Web. Bases de données et systèmes de gestion de bases de données. Généralités. Définitions

SQL Server 2012 et SQL Server 2014

Introduction aux applications réparties

Une plateforme de développement d espaces webs sémantiques communautaires dédiés au partage de ressources multimédia

Introduction aux Bases de Données

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Le Web de Données Dan VODISLAV Université de Cergy-Pontoise Master Informatique M2 Plan

Recherche bibliographique

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

Chaîne opératoire de réalisation d une base de données. ANF «Comment concevoir une base de données» (29-30/01/2015)

Utilisation des tableaux sémantiques dans les logiques de description

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Cursus Sage ERP X3 Outils & Développement. Le parcours pédagogique Sage ERP X3 Outils et Développement

Chapitre 9 : Informatique décisionnelle

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Une méthode d apprentissage pour la composition de services web

Catalogue des formations Edition 2015

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

JDev Atelier Datalift

INTRODUCTION AUX BASES de DONNEES

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

La Carte d Achat et la Carte Virtuelle

Proposition de sujet de thèse CIFRE EUROCOPTER / LGI2P

Une architecture pour la découverte et l orchestration de services Web sémantiques

Bases de données Cours 1 : Généralités sur les bases de données

SQL SERVER 2008, BUSINESS INTELLIGENCE

Chapitre VIII. Les bases de données. Orientées Objet. Motivation

Vue Générale et Cas d Usage

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

Semantic Web Inside Guillaume Érétéo Directeur R&D

D une part, elles ne peuvent faire table rase de la richesse contenue dans leur système d information.

Université Paris XI Faculté des sciences d Orsay THÈSE. présentée pour l obtention du grade de Docteur en Sciences de l Université Paris-Sud XI Orsay

Accès instantané aux mots et aux locutions Le dictionnaire électronique offre une traduction rapide d'un mot ou d'une locution

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

UFR d Informatique. FORMATION MASTER Domaine SCIENCES, TECHNOLOGIE, SANTE Mention INFORMATIQUE

Initiation aux bases de données (SGBD) Walter RUDAMETKIN

Présentation du M2 SIC : Systèmes Informatiques et Applications Marines

DESCRIPTIF DE MODULE S5 GSI

<Insert Picture Here> La GRC en temps de crise, difficile équilibre entre sentiment de sécurité et réduction des coûts

Bases de données pour la recherche : quels enjeux et quel rôle pour les patients?

GKR. Geological Knowledge Representation Base de connaissances métallogéniques

Diplôme de Comptabilité et de Gestion. D é c r e t N d u 2 2 d é c e m b r e A r r ê t é d u 8 m a r s

Information utiles. webpage : Google+ : digiusto/

Module BD et sites WEB

Une proposition d extension de GML pour un modèle générique d intégration de données spatio-temporelles hétérogènes

Perspectives pour l entreprise. Desktop Cloud. JC Devos IBM IT Architect jdevos@fr.ibm.com IBM Corporation

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1

et les Systèmes Multidimensionnels

Market Data Feed. Maîtrisez le flux.

Chapitre IX. L intégration de données. Les entrepôts de données (Data Warehouses) Motivation. Le problème

Urbanisation des SI. Des composants technologiques disponibles. Urbanisation des Systèmes d'information Henry Boccon Gibod 1

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

Alimenter un entrepôt de données par des données issues de services web. Une approche médiation pour le prototype DaWeS

BUSINESS INTELLIGENCE

Informatique Médicale & Ingénierie des Connaissances Pour la e-santé

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

AMUE : PRISME - Référentiel des données partagées. 3 décembre 2009

MYXTRACTION La Business Intelligence en temps réel

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Cursus Sage ERP X3 Outils & Développement. CURSUS Sage ERP X3 Outils & Développement ADVANCED. Outils avancés. 2 jours X3A-ADM. Développement 1 &2

4. SERVICES WEB REST 46

Intégration de données

APX et VCE, Modèle d industrialisation de l intégration et du déploiement. Olivier BERNARD, VCE

Compte Rendu d intégration d application

Bases de Données. Plan

Conception des systèmes répartis

BABEL LEXIS : UN SYSTÈME ÉVOLUTIF PERMETTANT LA CRÉATION, LE STOCKAGE ET LA CONSULTATION D OBJETS HYPERMÉDIAS

OASIS Date de publication

Évolution de schémas dans les entrepôts de données mise à jour de hiérarchies de dimension pour la personnalisation des analyses

La démarche MDA. Auteur : Projet ACCORD (Assemblage de composants par contrats en environnement ouvert et réparti)*

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB Olivier Augereau Formation UML

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Les attentes du marché

Introduction aux bases de données: application en biologie

Transcription:

Les ontologies pour l intégration sémantique : enjeux et défis Chantal REYNAUD Université Paris-Sud XI, CNRS-LRI (Equipe IASI) INRIA-Futurs (Gemo) 1

Plan 1. L intégration sémantique du point de vue des usages 2. Deux grandes approches d intégration : médiation et entrepôts de données 3. Enjeux / Défis Construction d une ontologie Mise en correspondance entre ontologies Réconciliation de données Ontologies / Passage à l échelle 2

1. L intégration sémantique du point de vue des usages et les ontologies Donner l'impression d'utiliser un système homogène et centralisé???? une recherche d information simplifiée 3

1. L intégration sémantique du point de vue des usages et les ontologies Combiner des données provenant de sources hétérogènes et fournir une réponse globale la plus complète possible http://www.lri.fr/~cr Les papiers sur l intégration sémantique? <nom> C. Reynaud </nom> <statut> Prof. Paris XI</statut> <enseignement>...</enseignement> <recherche> <thème>..</thème> <thème> Intégration sémantique de documents XML </thème> <thème>..</thème>... </recherche>... http://www.lirmm.fr/~bella/disweb06/ DISWeb 06: Int. Workshop on Data Integration and Semantic Web Topics of interest: Semantic integration Web semantic Data sharing in P2P Integrated data management for mobile applications... 4

1. L intégration sémantique du point de vue des usages et les ontologies Les ontologies comme interfaces d interrogation de serveurs d information et outil de combinaison des données de sources de données hétérogènes Un schéma global du domaine d application dont le rôle est central dans le développement des systèmes intégrant des sources hétérogènes Apports : Les ontologies fournissent un vocabulaire structuré servant de support à l expression des requêtes Aide à l interrogation Les ontologies établissent une connexion entre les différentes sources accessibles Aide à la combinaison des données de sources hétérogènes 5

1. L intégration sémantique du point de vue des usages et les ontologies Définition Les ontologies Rôles Un modèle des objets existant dans un domaine d application qui y fait référence au travers de concepts, d attributs de concepts et de relations entre concepts. Définir / fournir une sémantique d'un domaine du monde réel fondée sur un consensus et permettant de lier le contenu exploitable par la machine avec sa signification pour les humains. Définir / fournir une sémantique formelle pour l information permettant son exploitation par un ordinateur. 6

2. Deux grandes approches d intégration : médiation et entrepôts de données Différents types d'intégration Intégration de schémas Intégration de données virtuelle (médiateurs) Intégration de données matérialisée (entrepôts de données) Schéma 1 Interface d'accès S1 Schéma n Schéma Schéma unifié unifié Schéma 1 Schéma n Sn S1 Vue Schéma reconciliée S2 2 Sn de Schéma 2 S1toutes les sources Sn S2 S2 7

2. Deux grandes approches d intégration : médiation et entrepôts de données L approche de médiation Requête de l utilisateur Picsel 1 et 2 (CRE F.T. R&D) Ontologie du domaine 1 Service 1 Ontologie du domaine 2 Service n Description du contenu Source 1 Description du contenu Source 2 Description du contenu Source j Description du contenu Source K Description du contenu Source l Description du contenu Source p Moteur de requêtes Plan de requêtes Wrapper 1 Wrapper 2 Wrapper j Wrapper 1 Wrapper 2 Wrapper j Fichier B.D. Doc B.D.O.O Doc XML XML B.D. 8

2. Deux grandes approches d intégration : médiation et entrepôts de données Pdf Doc Jpeg <Html> <XML> Web L approche entrepôt de données Incomplete answers Query e.dot (projet RNTL) More accurate and more complete answer Crawling TOP MIEL++ MIEL Filtering aliment factor microoga nism Structure Extraction (XTab) Semantic Enrichment (SML) Ontology (alimentation risk) XML Warehouse <SML> Relational database Conceptual graph External DB 9

2. Deux grandes approches d intégration : médiation et entrepôts de données Approche hybride combinant médiation et entrepôt de données Picsel 3 (CRE F.T. R&D) Réponses Requête utilisateur Réponses Enrichissement de l entrepôt Ontologie Données de S3 Intégration des réponses Données de S2 Données de S1 Moteur de requêtes Entrepôt de données Description des sources Wrapper3 Wrapper2 Wrapper1 Source3 Source2 Source1 10

3. Enjeux - défis : construction d une ontologie La construction d une ontologie Un double processus 1) Modéliser : quelles connaissances spécifier? A quel besoin veut-on répondre? Quels utilisateurs? Quelle tâche? Quelles sources de connaissances interroger : expert humain, collectif de spécialistes ou futurs utilisateurs, textes techniques, documents liés à un domaine ou à une activité, etc.? Comment recueillir et rassembler ces connaissances? 2) Représenter le modèle dans un langage : quelles primitives? quel langage? Compromis puissance d expression / efficacité Des langages d ontologies du Web (recommandations du W3C) -RDF(S) - OWL (Ontology Web Language) 11

3. Enjeux - défis : construction d une ontologie Construction d une ontologie d un système médiateur Spécification déclarative Représentation d une ontologie du domaine du tourisme 1) Choix du langage de représentation Un langage imposé : CARIN (Logique de Description + Datalog) Pouvoir d expression riche (classes + règles) Bonnes propriétés algorithmiques 2) Choix des connaissances à modéliser Guidés (et contraints) par le langage et la tâche du système médiateur 3) Optimisation Picsel 1 (F.T. R&D) (activité := (produit ( 1 duréeactivitéass) ( 1 duréeactivitéass) ( duréeactivitéass nbre) ( 0 nbreheurescoursass) ( nbreheurescoursass nbre) ( 0 natureactivitéass) ( natureactivitéass loisir) ( 1 lieuactivitéass) etc. (activite := produit) 12

3. Enjeux - défis : construction d une ontologie La construction automatisée d une ontologie (1) (Thèse G. Giraldo 2005 Univ. Paris-Sud) Picsel 2 (F.T. R&D) Ontologie 115 DTDs Extraction semiautomatique (OntoMedia) Génération automatique de l ontologie en CARIN Experts du tourisme OTA (transactions e-business standardisées) 436 classes 298 propriétés 600 relations Ontologie en CARIN Contexte de systèmes médiateurs intégrant des sources XML 13

3. Enjeux - défis : construction d une ontologie La construction automatisée d une ontologie (2) (Thèse A. Termier 2004, Univ. Paris-Sud) Documents XML TreeFinder UsedCar UsedCar Book Book Color Year Model Model Km Year Title Cover Author Infos Title Author caractérisation Cluster 1 caractérisation Cluster 2 UsedCar Book Year Model Title Author 14

3. Enjeux - défis : la mise en correspondance entre ontologies La mise en correspondance entre ontologies Pour permettre une interopérabilité sémantique SI 1 SI 2 SI 4 entre des ontologies de systèmes liés SI 3 SI n SI 5 Un problème d hétérogénéité sémantique langages différents terminologies différentes modélisation différente 2 étapes 1) Trouver les correspondances (entre langages, termes, modèles) 2) Appliquer les mises en correspondance - traduire d un langage dans un autre - ajouter des axiomes faisant le lien entre les ontologies Traitement en différé / temps réel 15

3. Enjeux - défis : la mise en correspondance entre ontologies Relations d équivalence Exemples de relations Avion Aeronef (synonyme) plane (sa traduction en anglais) appareil (synonyme si contexte de l aéronautique) Court courrier Vol intérieur Moyen courrier Vol européen et Nord-Africain Long courrier Vol plus lointain et notamment trans-océanique Relations de subsomption «is-a» Mini drone (ou drone tactique, drone de moyenne altitude, drone stratégique, drone de combat) «is-a» Drone Planeur «is-a»avion léger Les avions légers sont des aéronefs destinés aux loisirs, au sport ou au tourisme aérien. Les planeurs permettent la pratique du vol à voile. Ils rentrent dans cette catégorie. Airbus A380 «is-a» Avion gros porteur L Airbus A380 dont la capacité d accueil est de 555 passagers est un avion très gros porteur (400 passagers minimum). 16

3. Enjeux - défis : la mise en correspondance entre ontologies Exemples de relations Relations de proximité sémantique «proche-de» Planeur «proche-de» ULM Ils sont tous deux destinés aux loisirs et au sport. Ils appartiennent tous deux à la catégorie des avions légers. Airbus «proche-de» Boeing Deux constructeurs concurrents. Airbus A380 «proche-de» Airbus Airbus est le constructeur de l A380. Avion d affaire «proche-de» Boeing 747 «proche-de» Président des Etats-Unis «proche-de» Air Force One Le Boeing 747 est l avion d affaire du Président des Etats-Unis connu sous le nom d Air Force One. 17

3. Enjeux - défis : la mise en correspondance entre ontologies Besoin d une panoplie de techniques Des techniques exploitant tous les éléments d une ontologie Des techniques efficaces quand tous les éléments de l ontologie ne sont pas présents : rapprochement de taxonomies voire d ensembles de termes Des techniques mettant en évidence des relations de mise en correspondance variées Accompagner les résultats d une mesure pour apprécier la distance sémantique entre les éléments rapprochés Techniques totalement automatiques / Techniques avec validation Techniques avec une grande précision / techniques plus «lâches» précision moins grande mais rappel + élevé 18

3. Enjeux - défis : la mise en correspondance entre ontologies Un alignement (A) Expression du problème un ensemble d éléments de mappings M <id, e, e, R, n> Id est l identifiant du mapping e et e sont les entités mises en relation (éléments XML, classes, etc.) R est une relation : équivalence (=), plus général ( ), disjonction ( ) n est une mesure de confiance (valeur entre 0 et 1) dépendant de 2 schémas/ontologies/taxonomies correspondant à des mises en correspondance de type 1-1, 1-*, etc. Le processus de matching A O O Ressources externes (ex : thesaurus) Processus de matching poids A 19

3. Enjeux - défis : la mise en correspondance entre ontologies Alignement de taxonomies (Thèse H. Kefi 2006 - Univ. Paris-Sud) e.dot (projet RNTL ) Contexte : permettre une interrogation unifiée sur le web de documents d un même domaine d application, les accès étant réalisés via des taxonomies de termes. Caractéristiques de l approche : générique, semi-automatique, composite (composition de techniques terminologiques, structurelles et sémantiques) Spécificités : dissymétrie dans la structure des taxonomies comparées (taxonomie d un portail web a priori plus riche que la taxonomie de documents externes isolés) Alignement d une taxonomie source (T S ) avec une taxonomie cible (T C ) : un processus orienté 20

3. Enjeux - défis : la mise en correspondance entre ontologies Alignement de taxonomies :TaxoMap (Thèse H. Kefi 2006 - Univ. Paris-Sud) e.dot (projet RNTL ) 21

3. Enjeux - défis : la mise en correspondance entre ontologies Technique exploitant la structure de T Cible Terme de T S à mettre en relation : beef adipose tissue Candidats au mapping 1. INC = {beef (Sim LINLike : 0.222)} 2.b1 = pork meat tissue (Sim LINLike : 0.444) 3.b2 = beef connective tissue (Sim LINLike : 0.434) 4.b3 = beef fat (Sim LINLike : 0.207) Mesure de la pertinence d un sous graphe DR(Anc) = pork b 1 : pork meat tissue MC * ec MCAnc dist(e c, Anc) MC Anc * ec MCAnc Sim LIN-Like (e s, e c ) f Fresh meat INC(1) : beef b 2 : beef connective tissue Low Commun Ancestor (LCA) Ancêtre partiel b 3 : beef fat 22

3. Enjeux - défis : la réconciliation de données L intégration sémantique de données La réconciliation de références est une tâche qui permet de détecter les descriptions qui se réfèrent à la même entité du monde réel. Exemple : une même personne. La réconciliation de schémas n empêche pas les variations dans les descriptions des données. Exemple : R1:PERSONNE (nom, prénom, adresse) (Dumesnil, Marie-Pierre, Orsay) (Dumesnil, M.-P., 2 av. de la République - 91400 Orsay) Hétérogénéité sémantique : même nom pour désigner des entités différentes, noms différents pour désigner la même entité, des descriptions incomplètes. Approches locales / approches globales exploitant les dépendances entre les données exprimées au niveau du schéma (ou ontologie) Exemple : Un laboratoire est dirigé par un directeur. Dépendance fonctionnelle entre laboratoire et personne le dirigeant. 23

3. Enjeux - défis : la réconciliation de données LN2R méthode Logique et Numérique pour la Réconciliation de Références (Thèse F. Saïs en cours, N. Pernelle M.-C. Rousset) Hypothèse : les données sont définies par rapport à une ontologie : RDF(S) + représentation de disjonctions et de propriétés (ou leur inverse) fonctionnelles (sous-ensemble de OWL-DL) + Règles (SWRL) générées automatiquement à partir des axiomes et pouvant traduire des dépendances entre réconciliations qui découlent de la sémantique du schéma R1: src1(x) src1(y) (X Y) Reconcile(X,Y) R5(C, D): C(X) D(Y) Reconcile (X, Y) R6.1(R): Reconcile(X, Y) R(X, Z) R(Y, W) Reconcile (Z, W) PICSEL 3 (CRE F.T. R&D) Règles générées à partir d axiomes Dépendance entre réconciliations R6.1(Located): Reconcile(X, Y) Located (X, Z) Located (Y, W) Reconcile (Z, W) Règle instanciée 24

3. Enjeux - défis : la réconciliation de données Exemple d ontologie représentée en RDF Schéma (hiérarchie de classes, hiérarchie de relations, relations entre classes et attributs) PICSEL 3 (CRE F.T. R&D) Literal Literal Date Literal CulturalPlace Contains PaintingName ArtistName YearOfBirth MuseumName Is-a Painting PaintedBy Artist MuseumAddress Museum Located City CityName Literal Literal Is-a Is-a sub-class Is-a class ContemporaryMuseum MiddleAgeMuseum dom-class attribute Data type dom-class relation range-class 25

3. Enjeux - défis : la réconciliation de données LN2R = L2R + N2R méthode Logique et Numérique pour la Réconciliation de Références (Thèse F. Saïs en cours, N. Pernelle M.-C. Rousset) a) L2R = mécanismes d inférence logique appliqués sur les règles des réconciliations et non-réconciliations sûres sous-produit : dictionnaire de synonymes Exemples : 1/oui ; apt./appartement ; bon/confortable ; Milan / Milano b) N2R = méthode numérique appliquée aux paires de références sur lesquelles le système L2R n a pu se prononcer. Mise en œuvre de mécanismes de raisonnement tenant compte des dépendances entre paires de références Convergence vers un point fixe Scores de similarité sur la base de descriptions communes PICSEL 3 (CRE F.T. R&D) Réconciliations probables des paires de références dont le score de similarité est supérieur à un certain seuil. 26

3. Enjeux - défis : Ontologies / Passage à l échelle Un déploiement sur le Web au sein d une architecture distribuée Dans le cadre des systèmes pair-à-pair de gestion de données (PDMS) : Ontologies personnalisées, simples et distribuées à l échelle du Web Exploitant des mappings entre ontologies. Des besoins nouveaux : Gestion des inconsistances (Thèse de Gia-Hien Nguyen) - Des modèles locaux consistants / Une théorie globale qui peut être inconsistante à cause des mappings - Une détection des inconsistances stockées de manière distribuée - Un raisonnement consistant en dépit de l existence d inconsistances Génération de mappings automatiques basée sur le raisonnement (Thèse de François-Elie Calvier) MediaD (CRE F.T. R&D) 27

3. Enjeux - défis : Ontologies / Passage à l échelle Gestion de l évolution des ontologies Le Web est un espace dynamique en constante évolution. Les domaines sur lesquels se fait la recherche d information évoluent. Idée : mettre à disposition des utilisateurs des ontologies dynamiques intégrant ces phénomènes d évolution Ontologie du domaine Requête initiale Enrichissement Requête enrichie Utilisateur Ontologie de l utilisateur sur le domaine Experts du domaine Web Exploitation Ensemble de documents Web Approche O3 - Thèse de Cédric Pruski co-tutelle avec Le Luxembourg 28

4. Conclusion De nombreux contextes d application. L hétérogénéité sémantique concerne des ressources très variées Les ontologies sont une solution à ce problème d hétérogénéité mais leur exploitation varie selon l objectif recherché : - Accès unifié à des sources hétérogènes - Intégration de sources hétérogènes - Intégration de données - Présentation unifiée des résultats - Echange et recherche de données sur les bureaux de PC interconnectés (semantic desktop) - Informatique diffuse et gestion d outils mobiles hétérogènes -etc. 29