Deriving Ontologies from XML schemas. Georges Gardarin* Ivan Bedini**, Benjamin Nguyen* * PRiSM, UVSQ, Versailles ** Orange Labs, Caen



Documents pareils
Dérivation automatique d'ontologie

Master Web Intelligence 2005/2006. Web Sémantique. Philippe Beaune ENSM SE. mailto : Philippe.Beaune@emse.fr. Lundi 23 janvier

Problématiques de recherche. Figure Research Agenda for service-oriented computing

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

LES TECHNOLOGIES DU WEB APPLIQUÉES AUX DONNÉES STRUCTURÉES

Les ontologies pour l intégration sémantique : enjeux et défis

Catalogue des formations Edition 2015

Diplôme d'etudes Approfondies Réseaux de télécommunications

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Compte-rendu re union Campus AAR 3 mars 2015

RDF Schema pour les ontologies légères

Le Web de Données Dan VODISLAV Université de Cergy-Pontoise Master Informatique M2 Plan

Hervé Couturier EVP, SAP Technology Development

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Architectures d'intégration de données

Cognit Ive Cas d utilisation

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

An Ontology-Based Approach for Closed-Loop Product Lifecycle Management

Bases de données. Chapitre 1. Introduction

Objectif : Passer de l analyse métier et fonctionnelle à la définition des applications qui

Chaîne opératoire de réalisation d une base de données. ANF «Comment concevoir une base de données» (29-30/01/2015)

Propriétés du Document EMA. Résumé

Accès à l'information XML par des requêtes XQuery au travers de son XSchema

Bases de Données Avancées

Introduction à la B.I. Avec SQL Server 2008

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

Introduction aux concepts d ez Publish

DSL. Domain Specific Language. À l'aide des technologies Eclipse Modeling. Goulwen Le Fur Le 23 novembre 2012

Rapport technique : Création des ontologies CIDOC, FRBRoo et SUDOC

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Les diagrammes de modélisation

Ingénierie et gestion des connaissances

Vues d ensembles de documents RDF

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

Processus 2D-Doc. Version : 1.1 Date : 16/11/2012 Pôle Convergence AGENCE NATIONALE DES TITRES SECURISÉS. Processus 2D-Doc.

SQL SERVER 2008, BUSINESS INTELLIGENCE

Parcours DIWEB : (Données, Interaction et Web)

Résumé CONCEPTEUR, INTEGRATEUR, OPERATEUR DE SYSTEMES CRITIQUES

Ecole Nationale Supérieure de Mécanique et d Aérotechnique Laboratoire d Informatique et d Automatique pour les Systèmes THESE

Intégration de données hétérogènes et réparties. Anne Doucet

Projet base de connaissances Réseau UNAF / UDAF. Cahier des charges

Apprentissage Automatique

Information utiles. webpage : Google+ : digiusto/

Meta Object Facility. Plan

Datalift. + + Architecture Modularité Déploiements. d j = 09/04/2015 Laurent BIHANIC

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB Olivier Augereau Formation UML

Les Entrepôts de Données

XML et travail collaboratif : vers un Web sémantique

LES ENTREPOTS DE DONNEES

4. SERVICES WEB REST 46

BD et XML : Exercices

Workflow/DataWarehouse/DataMining LORIA - Université d automne Informatique décisionnelle - L. Mirtain 1

XML, PMML, SOAP. Rapport. EPITA SCIA Promo janvier Julien Lemoine Alexandre Thibault Nicolas Wiest-Million

Cours Bases de données

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

MEMOIRE DE STAGE. Amélioration de l'outillage support à une méthodologie de "Cartographie Sémantique"

Semarchy Convergence for MDM La Plate-Forme MDM Évolutionnaire

Business Process Modeling (BPM)

Urbanisation des SI-NFE107

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

Web sémantique et pratiques documentaires

Utilisation des tableaux sémantiques dans les logiques de description

Entrepôt de données 1. Introduction

Cours de Génie Logiciel

Préparer un état de l art

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

DESCRIPTIF DE MODULE S5 GSI

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

UML et les Bases de Données

Systèmes d information et bases de données (niveau 1)

Introduction au datamining

Université de Bangui. Modélisons en UML

Datawarehouse and OLAP

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1

Web Sémantique. Examen

Introduction à Java. Matthieu Herrb CNRS-LAAS. Mars

Management des Systèmes d Information

Entrepôts de données. NEGRE Elsa Université Paris-Dauphine

LANGAGUE JAVA. Public Développeurs souhaitant étendre leur panel de langages de programmation

Plan. Introduction Eléments de la théorie des systèmes d'informations Les entrepôts de données (Datawarehouse) Les datamart Architecture Modélisation

2 Serveurs OLAP et introduction au Data Mining

Module BD et sites WEB

Approche de couplage de BD et d ontologie pour l aide à la décision sémantique : contribution pour la satisfaction des requêtes SQL et SPARQL.

Module BDWEB. Maîtrise d informatique Cours 9 - Xquery. Anne Doucet. anne.doucet@lip6.fr

Introduction à la conception de systèmes d information

XML : documents et outils

ANTICIPEZ ET PRENEZ LES BONNES DÉCISIONS POUR VOTRE ENTREPRISE

Paul FLYE SAINTE MARIE

Méthodologie de conceptualisation BI

Mercredi 15 Janvier 2014

Présentation générale du projet data.bnf.fr

SQL Server 2012 et SQL Server 2014

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Définition d'un système générique de partage de données entre systèmes existants

Les bases de données

Transcription:

Deriving Ontologies from XML schemas Georges Gardarin* Ivan Bedini**, Benjamin Nguyen* * PRiSM, UVSQ, Versailles ** Orange Labs, Caen 1

Plan 1. Introduction et bases 2. Ontologies pour EDA 3. Construction d ontologies 4. Janus : de xsd à owl 5. Conclusion 2

1. Introduction Contexte : Entrepôts de Données et Analyse en ligne Datawarehouse, OLAP, Datamining Les ontologies paraissent un outil fort utile À la mode avec le Web sémantique Exemples d applications : OLAP Intégration de données et services Navigation en analyse de données Data Mining Fouille de texte, de pages Web, Web sémantique et annotations 3

Ontologie : définition informelle Wikipedia In philosophy, ontology is the most fundamental branch of metaphysics. It studies being or existence and their basic categories and relationships, to determine what entities and what types of entities exist. Ontology thus has strong implications for conceptions of reality. 4

Plus formellement Un ensemble de classes (concepts) {C1, C2, Cm} Un ensemble de propriétés (facettes) Propriétés valeurs (attributs) : { Aij } Propriétés objets (relations) : { Rij } Un ensemble de relations de généralisation {ISAi}; chacune définie une hiérarchie entre classes Sémantique d inclusion; ordre partiel sur les classes Des instances de classes (objets) Des règles de déduction entre classes ou propriétés 5

Exemple: Wine ontology (Abstract Syntax) Definition of classes Class(w:Liquid partial owl:thing) Class(w:Person partial owl:thing) Class(w:Wine partial w:liquid) Class(w:Coca partial w:liquid) Class(w:Drinker partial w:person) Constraints on classes DisjointClasses(w:Coca w:wine) Definition of object properties ObjectProperty(w:Drink domain(w:person) range(w:liquid)) ObjectProperty(w:Owner Functional domain(w:wine) range(w:person) Definition of data properties DatatypeProperty(w:Name Functional domain(w:person) range(xsd:string)) DatatypeProperty(w:Status domain(w:drinker) range(xsd:string)) DatatypeProperty(w:Address Functional domain(w:person) range(xsd :string)) DatatypeProperty(w:Year domain(w:wine) range(xsd:gyear)) DatatypeProperty(w:Millage) EquivalentProperties(w:Millage w:year) 6

Instances Individual(w:Coca_3 annotation(rdfs:comment "Not very tasty!" xsd :string) type(w:coca)) Individual(w:Person_4 type(w:person) value(w:drink w:wine_1) value(w:drink w:wine_2) value(w:address "6 Wine Street Paris 75015" <xsd :string>)) value(w:name "Gardarin" <xsd :string>)) Individual(w:Wine_1 type(w:wine) value(w:wineyard "Beaujolais" <xsd :string>) value(w:year "2000" xsd :gyear>)) 7

Vue graphique 8

RDFS: décrire un modèle objet Classes rdfs:resource rdfs:class rdfs:literal rdfs:datatype rdf:xmlliteral rdf:property Class properties Subclass Subclass properties Properties rdfs:range rdfs:domain rdf:type rdfs:subclassof rdfs:subpropertyof rdfs:label rdfs:comment 9

OWL Offre un langage standard pour définir des ontologies Extension de RDFS Etend les constructions de base pour améliorer : L'interopérabilité (e.g., equivalences) Le raisonnement (e.g., description logic) Les évolutions (e.g., integration, version) Raisonnement basé sur certaine Logique de Description Concepts, Relations binaires, Constructeurs (,, ) Concepts représentent des ensembles d individus Sémantique récursive pour inférer à partir des concepts atomiques 10

OWL: les niveaux OWL Lite : Cardinalités limitées à 0 ou 1 Hiérarchies de classes Contraintes simples OWL DL : Logique de description Déduction décidable OWL Full : Complet Non décidable RDFS OWL Lite OWL DL OWL Full 11

Qq constructions OWL Lite (In)Equality: equivalentclass equivalentproperty sameas differentfrom alldifferent Property Characteristics: inverseof TransitiveProperty SymmetricProperty FunctionalProperty InverseFunctionalProperty Property Type Restrictions: allvaluesfrom somevaluesfrom Restricted Cardinality: mincardinality (only 0 or 1) maxcardinality (only 0 or 1) cardinality (only 0 or 1) Header Information: ontology imports 12

2. Intérêt des ontologies pour EDA Intégration de sources hétérogènes Requêtes distribuées: médiation Réseau P2P : ubiquité, uniformisation, description Dimensions des cubes: zooms et détails 13

Médiation de données hétérogènes Finance Ontologie Vue Mediator XQuery Problèmes de mappings : Schema <=> Ontologie XQuery/Vue <=> Ontologie Ontologie <=> Ontologie Ontologie Boursorama Mediator Schema wrapper Mediator wrapper Schema Ontologie E*Trade Boursorama E*Trade 14

Réseau P2P Ubiquitaire refridgerator, TinyOS, Perl Sensor, TinyOS, Obj-c MainFrame, UNIX, C++ Mobile, Symbian, C Problème : Langage Interfaces Approche : Ontologie de services et profils OWL-S? Mac, MacOsX, Python PC, Win2K, Java Resource provides Service ServiceProfile presents: What it does ServiceGrounding Supports: How to access it ServiceModel 15

Cube de données Ontologie Type Pays Année Mois Produit Région Catégorie Région Trimestre Produit Ville Mois Semaine Magasin Jour 16

3. Construire une ontologie Mémorisation Vue complète des concepts, propriétés et règles Identification des similarités et différences Contraintes d intégrité : e.g., cardinalités, inclusion, inverse Evolutivité Construction progressive Alignement et différentiation des nouveaux termes Compréhension dynamique d un domaine Polysémie Support de plusieurs sens pour un mot et de même sens pour des mots différents Gestion de contexte incluant propriétés et types Intégration de lexiques / thésaurus grammaticaux Automatisation Pour produire, maintenir et enrichir l ontologie Intérêt à s appuyer sur une BD 17

Méthodes Manuelles Trois syntaxes pour OWL Graphiques e.g. Protégé, Semantic Work,. Visualisation : graphes 2D, 3D, zoom, boites liées, UML Automatisées À partir de textes, dictionnaires, modèles, patterns Fouille de pages Web, moteur de recherche, Workflows de conception collaborative 18

COLLABORATIVE ONTOLOGY DESIGN (CODO) 19

Proposition: Partir de Schémas XML Décrivent les arbres de structures XML Types simples variés Propriétés valeurs (attributs ou éléments) Types complexes Propriétés objet (imbrication confuse) Il existe beaucoup de schémas par domaine B2B, Santé, Précédent la construction d ontologie Des exemples, standards documentés, processus métiers, 20

Exemple 21

XML Schéma et Ontologie Récupérer plusieurs schémas Modélisation sémantique simple Compléter la sémantique des schémas Unifier, intégrer les schémas Cas du B2B: nombreux standards UBL, ebxml core components, CXML, OAGIS, STAR, PapiNet, 22

4. Janus Outils pour la construction automatique d'ontologies à partir de fichiers XSD Applique des techniques de fouille de texte adaptation de plusieurs techniques provenant du textmining (lexique, vectorisation, distance, ) et de recherche / extraction d information à des fichiers XML 23

Janus : Objectifs Réaliser un système capable d'acquérir des connaissances et d'ajouter à la volée des nouvelles informations à partir d'un corpus source Générer et maintenir une "mémoire collective", centrée sur une base de concepts, pour faciliter la découverte de classes et propriétés similaires ou non Limiter le plus possible l'intervention humaine dans le processus de construction d'une représentation de la connaissance pour un domaine 24

Janus : Etapes proposées 1. Extraction Recherche de connaissance et normalisation du vocabulaire 2. Analyse Détermination des classes, propriétés et types de données Construction du réseau sémantique de concepts (règles, similarités) 3. Génération Production d une vue globale en intégrant les concepts similaires Transformation en format de sortie (OWL) 4. Validation Vérification de la cohérence et de la consistance de l'ontologie 5. Evolution Enrichissement de l ontologie en ajoutant des nouvelles sources 1 2 5 3 4 25

Janus : Modèle sémantique PropertyOf Properties Properties Lattice hasdatatype Structural Stems InstanceOf Source Concept Syntax N-Grams RelatedTo Semantic Abbreviations Shared Terms- Words Lattice Synonyms 26

Janus : Conceptualisation XSD Structure xs:complextype xs:complextype with declared xs:simplecontent Element with attribute "ref" to xs:complextype Named xs:element with attribute "type" Named xs:element xs:simpletype Attributes of xs:element or xs:complextype xs:extension et xs:restriction xs:minoccurs, xs:maxoccurs xs:sequence, xsd:all xs:choice Concepts Concept class Concept datatype Concept class with propertyof relationship Concept class with Is a relationship Concept class Concept datatype Concept properties Datatype property and is a relationship Respective cardinalities Concept properties Disjointness concepts 27

Janus : Architecture Met en œuvre les étapes définies précédemment : Extraction, Analyse, Génération et Evolution Etape de Validation en cours d'étude 28

Janus : Application aux vins Classes Object Properties of related classes Object Datatypes of related Properties Relationships 6 (wine_taste, wine, person, drinker, drink, address) 12 (quantity, vineyard, year, zip, status, city, coca, street, boolean, liquid, name, owner) 7 (string anyuri gyear token integer byte number) Owner IS A Person Drinker IS A Person Coca DISJOINT Wine 29

Janus : Ontologie dérivée 30

Cas d'utilisation B2B 75% des entreprises qui réalisent des échanges B2B utilisent des standards (source E-Business W@tch Report, 2007) Les organismes de normalisation B2B définissent leurs messages et leurs données par secteur d'activité Nous avons étudié 30 standards B2B (tourisme, commerce, assurance, finance, chimie, ) Chacun d'entre eux propose des normes basées sur XML, sous forme XSD and DTD (nous avons recueilli déjà ~3000 fichiers) Aucun ne fournit d'ontologie (!) 31

OAGIS Les standards STAR PapiNet ebxml 32

Janus : Vues Générées Tag Cloud View List View Ontology View Graphical View Concept Detail View 33

34

5. Conclusion Résumé Puissance et intérêt des ontologies Construction à partir de schémas : Janus Perspectives Enrichir les règles de mapping xsd à Mod. Sém. Améliorer l interactivité Améliorer les performances Ajouter un langage déclaratif de «haut niveau» 35