JDev Atelier Datalift



Documents pareils
SparkInData. Place de Marché des applications Spatiales

Datalift. + + Architecture Modularité Déploiements. d j = 09/04/2015 Laurent BIHANIC

Perspectives en matière de portails géographiques et de 3D

Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Jeudi 20 Novembre. Apports de la transformation digitale par des innovations technologiques

Urbanisation des systèmes d information

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

Le Web de Données Dan VODISLAV Université de Cergy-Pontoise Master Informatique M2 Plan

Présentation générale du projet data.bnf.fr

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

LES TECHNOLOGIES DU WEB APPLIQUÉES AUX DONNÉES STRUCTURÉES

Intégration de données complexes pour une vision 360 du client. Chloé Clavel EDF R&D Département ICAME

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Évaluation d une architecture de stockage RDF distribuée

BUSINESS INTELLIGENCE

Module BD et sites WEB

NFP111 Systèmes et Applications Réparties

DEMARREZ RAPIDEMENT VOTRE EVALUATION

Glossaire. base de données géographiques Voir géodatabase (GDB).

Catalogue des formations Edition 2015

SQL Server 2012 et SQL Server 2014

l originalité conseil en stratégies médias pour une croissance pérenne Your business technologists. Powering progress

Problématiques de recherche. Figure Research Agenda for service-oriented computing

Développement d applications Internet et réseaux avec LabVIEW. Alexandre STANURSKI National Instruments France

Cours Base de données relationnelles. M. Boughanem, IUP STRI

Fiche Technique Windows Azure

CAHIER DES CHARGES D IMPLANTATION

Gestion collaborative de documents

..seulement 5% des serveurs x86 sont virtualisés!

Introduction à. Oracle Application Express

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

ArcGIS 10.1 for Server

FileMaker Server 11. Publication Web personnalisée avec XML et XSLT

Bacula. It comes by night and sucks the vital essence from your computers. Guillaume Arcas

Guide d installation de SugarCRM Open Source version 4.5.1

Sommaire. -1-Computer en bref. Web en bref. Le web 3.0,...la mobilité. Evolution du Web web1.0, web2.0, web2.b, web3.0...

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Hébergement de sites Web

4. SERVICES WEB REST 46

Cloud Privé / Public / Hybrid. Romain QUINAT vente-privee.com

Projet Business Object

Bigdata et Web sémantique. les données + l intelligence= la solution

Magento. Pratique du e-commerce avec Magento. Christophe Le Bot avec la contribution technique de Bruno Sebarte

ArcGIS 10 Christophe Tourret Gaëtan Lavenu

Les nouveautés de FME 2014

1 Introduction et installation

Information utiles. webpage : Google+ : digiusto/

SGBDR. Systèmes de Gestion de Bases de Données (Relationnelles)

Business Intelligence

Introduction aux «Services Web»

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

INTERSYSTEMS CACHÉ COMME ALTERNATIVE AUX BASES DE DONNÉES RÉSIDENTES EN MÉMOIRE

Le cloud computing au service des applications cartographiques à haute disponibilité

Java et les bases de données

Bases de Données Avancées

Utiliser SQL Server 2008 R2 Reporting Services comme source de donne es pour Microsoft Excel

Qu est-ce que ArcGIS?

Initiation aux bases de données (SGBD) Walter RUDAMETKIN

THEME PROJET D ELABORATION D UNE BASE DE DONNEES SOUS LE SERVEUR MYSQL

Programmation Web. Madalina Croitoru IUT Montpellier

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Cycle Innovation & Connaissance 12 petit déjeuner Mardi 15 mai Cloud Computing & Green IT : nuages ou éclaircies?

Introduction à Microsoft InfoPath 2010

Cours Bases de données

1 Introduction à l infrastructure Active Directory et réseau

Cours Master Recherche RI 7 Extraction et Intégration d'information du Web «Services Web»

Chaîne opératoire de réalisation d une base de données. ANF «Comment concevoir une base de données» (29-30/01/2015)

Jean-Philippe VIOLET Solutions Architect

Exploration des technologies web pour créer une interaction entre Mahara et les plateformes professionnelles et sociales

Devenez un véritable développeur web en 3 mois!

XML par la pratique Bases indispensables, concepts et cas pratiques (3ième édition)

CIBLE DE SECURITE CSPN DU PRODUIT PASS. (Product for Advanced SSO)

BD réparties. Bases de Données Réparties. SGBD réparti. Paramètres à considérer

Formation Webase 5. Formation Webase 5. Ses secrets, de l architecture MVC à l application Web. Adrien Grand <jpountz@via.ecp.fr> Centrale Réseaux

OFFRE MDB Service & Architecture Technique. MyDataBall Saas (Software as a Service) MyDataBall On Premise

INDUSTRIALISATION ET RATIONALISATION

SUGARCRM Sugar Open Source Guide d Installation de French SugarCRM Open Source Version 4.2

Module BDR Master d Informatique (SAR)

SQL Serveur Programme de formation. France Belgique Suisse - Canada. Formez vos salariés pour optimiser la productivité de votre entreprise

ADMINISTRATION DE ADOBE LIVECYCLE MOSAIC 9.5

Thomas Loubrieu (Ifremer) Small to Big Data Novembre 2013, Ifremer, Brest

Tour d horizon des différents SSO disponibles

Glossaire. ( themanualpage.org) soumises à la licence GNU FDL.

Notes de mise à jour. 4D v11 SQL Release 3 (11.3) Notes de mise à jour

transformer en avantage compétitif en temps réel vos données Your business technologists. Powering progress

L infrastructure Sécurité de Microsoft. Active Directory RMS. Microsoft IAG

Gestion des identités Christian-Pierre Belin

Table des matières PRESENTATION DU LANGAGE DS2 ET DE SES APPLICATIONS. Introduction

Jeudi 17 février Nicolas Darcheville Vincent Goessens

GKR. Geological Knowledge Representation Base de connaissances métallogéniques

Moderniser vos postes de travail grâce à VMware

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Cursus Sage ERP X3 Outils & Développement. Le parcours pédagogique Sage ERP X3 Outils et Développement

Transcription:

JDev Atelier Datalift RDF, Linked (Open) Data & Datalift Your business JDev technologists. - 6 septembre Powering 2013 progress

Le Linked Data Publier des données structurées sur le Web en les reliant entre elles pour constituer un réseau global d'informations. En finir avec les silos de données isolés. S'appuyer sur les standards du Web. Partager l'information entre machines. http://damfoundation.org/2012/02/europeanas-introduction-to-linked-open-data/ Faciliter la navigation par les êtres humains. 2

Le Linked Data ou Web des données Tim Berners-Lee, «On the next Web», (conférence TED, février 2009) «Raw Data now!» Les 4 principes du Linked Data : v Utiliser des URI v Utiliser des URI accessibles via HTTP v Donner accès aux données en utilisant les standards RDF et SPARQL v Exprimer les URI des objets liés Source : http://www.w3.org/2009/talks/0204-ted-tbl/#%281%29

Open Data Linked Open Data (LOD) C est un nouveau monde de données pour les données ouvertes Formats propriétaires / hétérogènes RDF/ SPARQL 4

The LOD Cloud 2009 Source : http://lod-cloud.net/ 2011

RDF - Le triplet, la molécule de base RDF Toute connaissance peut être ramenée à un ensemble équivalent de triplets (sujet, prédicat, objet). Fabien Prédicat doc.html a pour auteur Fabien et a pour thème la Musique auteur doc.html doc.html a pour auteur Fabien doc.html a pour thème Musique thème Musique 6

RDF Un modèle abstrait RDF signifie : Resource Pages, images, vidéos,... (tout ce qui peut avoir une URI) Description Attributs, fonctions et relations des ressources Framework Modèle abstrait de ces descriptions

URI Une des bases de l architecture du Web URI : Universal Resource Identifier Pérenne Maîtrisable Extensible à URL : Universal Resource Locator

RDF - Qu est-ce que l élévation de données? Exemple d élévation de données dans un datacenter Les faits Les faits : Le superdome 453 qui est dans de la salle Renoir dont la température est de 16 C et la climatisation en marche, est un serveur HP dont le constructeur garantit le bon fonctionnement jusqu à 26 C. Leur réécriture Le superdome 453 est dans la salle Renoir La salle Renoir est à la température de 16 C La climatisation de la salle Renoir est en marche Le superdome 453 est un serveur HP HP garantit le bon fonctionnement des superdomes jusqu à 26 C Ce sont des phrases régulièrement formées D un sujet d un prédicat d un superdome objet Le superdome 453 est dans la salle Renoir La salle Renoir est à la température de 16 C La climatisation de la salle Renoir est en état de marche Renoir 453 16 serveur MCD Le superdome 453 est un serveur HP Les superdomes sont garantis de bien fonctionner jusqu à 26 c 26 9

RDF - Qu est-ce que l élévation de données? 10

RDF - Qu est-ce que l interconnexion? Longitude Latitude Paris Données statistiques Population Paris 48 51 24 N 2 21 07 E Paris Données géographiques Les données s enrichissent mutuellement au bénéfice du lecteur. 11 Paris : Capitale de la France Lat : 48 512 24 N Long : 2 21 07 E Population : 2.211.297 habitants 2.211.297

RDF - Qu est-ce que l interconnexion? 12 12

RDF Les triple stores Bases de données spécialisées RDF Pas de schéma de données prédéfini ou imposé Partitionnement des données en «graphes nommés» (entités administratives) Support de l inférence de données Natives Sesame, OWLIM, Virtuoso, AllegroGraph, BigData, Jena (Fuseki / TDB) Ou basées sur des bases de données relationnelles Sesame, Oracle, Jena (SQL DB) Scalables Plusieurs milliards de triplets par nœud Langage de requêtage & manipulation évolué : SPARQL

SPARQL Un langage et un protocole «SPARQL Protocol And RDF Query Language» Langage défini par le W3C SPARQL 1.0 (2008) : lecture seule SPARQL 1.1 (2013) : modification des données Points d accès (endpoints) normalisés HTTP (REST) SOAP Fédération Graph Access Protocol Extensions GeoSPARQL

SPARQL Requêtage sur graphes Soit le graphe suivant enregistré dans une base de données RDF (triple store) : SPARQL permet d extraire un sous-ensemble de ce graphe par expression de contraintes sous la forme d équations Exemple : Je cherche les ressources liées à 1 par prédicat «rouge» et les chaînes de caractères liée à ces ressources par le prédicat «bleu» : 1. Les ressources liées à 1 par le prédicat «rouge» : <1> <rouge>?resources 2. Les chaînes liées à ces ressources par le prédicat «bleu» :?resources <bleu>?string

Datalift L élévateur de données Elever la donnée = Passer de la donnée brute à la donnée sémantique interconnectée

Datalift La technologie en quelques mots Datalift est une plateforme open source. Elle intègre de nombreux modules et est conçue pour le passage à l échelle (virtualisation, cloud). L utilisateur gère des processus d élévation et les exécute. Un processus prend en entrée des jeux de données brutes et hétérogènes. Des métadonnées, ajoutées à l aide de vocabulaires, convertissent les sources. Puis les liens entre les concepts des vocabulaires sollicités permettent d enrichir les données. L exploitation des données résultantes peut prendre la forme d applications utilisant des web services d accès aux données, de production de nouveaux jeux de données interconnectées et sémantisées Applica,on Raw data DA Raw data Linked TA Raw data Visualisa'on Vocabulaire Vocabulaire Vocabulaire 17

Datalift - Cinématique L élévation et l interconnexion de jeux de données 18 Le dispositif prend en compte des données brutes de toutes provenances, formats et structures. Ces données sont dans des blocs statiques, des datasets ou jeux de données. Pour les transformer en données du web des données, il faut déterminer le vocabulaire (sélection d ontologie) qui va permettre leur expression en clair (conversion). Les données converties ont la forme de triplets (sujet, prédicat, objet), ce sont désormais des données publiables dans le web des données. Les données des blocs convertis sont ensuite interconnectées avec les données déjà publiées. Cet enrichissement est la dernière phase du processus d élévation de données. La valeur des données résultantes est augmentée et leur exploitation pourra en profiter. Externes DataS DataSet DataS DataS et DataS DataSet et DataS DataSet DataSet et et et Données exploitées DataS DataSet DataS et et DataS DataSet DataS et et Data Set Data Set Data Set Exploitation Interconnexion Publication Conversion Sélection Données brutes Internes Data Set

Objectif - Des données 5 étoiles 2010 : Lors de la «Gov 2.0 Expo», Tim Berners Lee a présenté une échelle d ouverture des données devenue célèbre et qui fait référence Mettre vos données sur le web (dans n importe quel format) et penser à expliciter la licence Mettre vos données dans un format structuré (ex. une feuille Excel plutôt qu une image scannée d un tableau) Préférer un format non-propriétaire (ex. CSV plutôt que Excel) Utiliser des URL pour identifier les choses pour que d autres personnes puissent pointer vers vos données Lier vos données avec d autres données pour mieux contextualiser vos données http://lab.linkeddata.deri.ie/2010/star-scheme-by-example/ 19

Datalift - Architecture

Datalift - Installation Serveur d applications JEE (Tomcat, JBoss...) Fichier WAR (Web ARchive) + environnement de travail Triple stores locaux ou distants Multi-utilisateur (contrôle d accès) Wrapper Script de lancement : Jetty + Datalift + Sesame (+ quelques modules) Mono-utilisateur Un environnement par utilisateur système : Windows : %APPDATA%\Datalift Mac OS X : ~/Library/Application Support/Datalift (sauf caches & logs) Linux : ~/.datalift

Datalift Environnement de travail (Wrapper) ß Configuration Datalift ß Configuration des traces ß Librairies partagées (drivers) ß Modules propres à l utilisateur ß Bases de données RDF Sesame ß Stockage fichiers interne, ß Public, et ß Fichiers sources des projets ß Applications web propres à l utilisateur (e.g. admin. Sesame)

Datalift Le consortium 23

Ateliers & cas d utilisation Kiosques de la ville de Paris : conversion, transformation et consommation Croisement de données en SPARQL Catalogues d étoiles (Datalift) Intégration de données hétérogènes (EEA) Linked Open Data INSEE : données ouvertes IGN : publication de données «semi-ouvertes»

Atelier 1 Données Open Data classiques : Kiosques de la ville de Paris Format : CSV Conversion en RDF Transformation brute («direct mapping») Transformation vers un vocabulaire standard Ontologie vcard (W3C) Enrichissement de données (démo) Données GPS (Google) Publication Consommation Requêtage SPARQL Fusion Google Maps (démo)

Atelier 1 Etape 1 : Récupération des données http://opendata.paris.fr/opendata/jsp/site/portal.jsp 2 1 3 http://datalift.si.fr.atosorigin.com/datalift/project/kiosques-reduit/source/kiosques-ouverts-a-paris-csv

Atelier 1 Etape 2 : Import des données CSV 2 1

Atelier 1 Etape 3 : Conversion directe de CSV vers RDF 2 1 3

Atelier 1 Etape 3 : Sélection de l ontologie (LOV)

Atelier 1 Etape 4 : Conversion vers l ontologie vcard 2 1 3

Atelier 1 Etape 4 : Conversion vers l ontologie vcard (suite) 4

Atelier 1 Etape 5 : Publication & Consommation 1 Démo : fusion SPARQL - Google Maps 3 2 http://datalift.si.fr.atosorigin.com/datalift/donutsapp

Atelier 2 Croisement de données Données Open Data classiques : 2 catalogues d étoiles Format : CSV Conversion en RDF Transformation brute («direct mapping») Requête SPARQL de rapprochement des données Trouver les étoiles présentes dans les 2 catalogues

Atelier 2 Croisement de données Etape 1 : Récupération des données http://vizier.u-strasbg.fr/viz-bin/vizier Catalogues : 2mass : http://datalift.si.fr.atosorigin.com/datalift/project/etoiles/source/2mass-csv usno500 : http://datalift.si.fr.atosorigin.com/datalift/project/etoiles/source/usno500-csv

Atelier 2 Croisement de données Etape 2 : Import des données CSV 1 2

Atelier 2 Croisement de données Etape 3 : Conversion directe de CSV vers RDF x2

Atelier 2 Croisement de données Etape 4 : Requêtage SPARQL

Atelier 2 Croisement de données Etape 4 : Requêtage SPARQL (détail) PREFIX xsd: <http://www.w3.org/2001/xmlschema#> PREFIX u:<http:// /project/etoiles/source/usno500-csv-rdf-1#> PREFIX m:<http:// /project/etoiles/source/2mass-csv-rdf-1#> SELECT * WHERE {?s1 u:dej2000?decl1 ; u:raj2000?ad1.?s2 m:dej2000?decl2 ; m:raj2000?ad2. BIND (abs(xsd:decimal(?ad1) - xsd:decimal(?ad2)) as?deltaad) BIND (abs(xsd:decimal(?decl1) - xsd:decimal(?decl2)) as?deltadecl) } LIMIT 20 FILTER (?deltaad < 0.00001) FILTER (?deltadecl < 0.00001)

Cas d utilisation 1 Agence Européenne de l Environnement Avant Formats propriétaires Référentiels hétérogènes

Cas d utilisation 1 Agence Européenne de l Environnement Demandes Données au seul format RDF Autres formats refusés : CSV, Excel Utilisation de vocabulaires et référentiels (libres) Mise à disposition de fichiers (HTTP) Accès par web services refusé Mise à disposition d un catalogue des jeux de données disponibles Format imposé VoID (RDF)

Cas d utilisation 1 Agence Européenne de l Environnement Mise en œuvre Mise en correspondance des référentiels des états membres Via une ontologie : http://eurostat.europa.eu/countries#uk = http://eea.europa.eu/countries.rdf#gb Utilisation d un triple store RDF supportant l inférence Prise en compte transparente des correspondances Chargement de tous les jeux de données dans ce triple store Interrogation SPARQL

Cas d utilisation 1 Agence Européenne de l Environnement Après

Cas d utilisation 1 Agence Européenne de l Environnement Exemple : Avenir des population de loutres

Cas d utilisation 2 : data.insee.fr Publication de données avec Datalift Données géographiques : données du Code officiel géographique (COG) incluant régions, départements, arrondissements, cantons et communes Codes et nomenclatures : nomenclature d'activités française (NAF), nomenclatures des professions et catégories professionnelles (PCS) et des catégories juridiques (CJ). Données de population : populations légales issues du Recensement. Bénéfices Format de publication unique : RDF Interconnexion IGN / partage de référentiel Politique d URI séparant ressource informationnelles et non informationnelles Interface unifiée pour pages HTML et web services (en cours) Représentations multiples (négociation de contenu) Données requêtables en ligne (temps d exécution contrôlé)

Cas d utilisation 2 : data.insee.fr

Cas d utilisation 3 : data.ign.fr Publication de données avec Datalift Site expérimental : DB Topo uniquement Lien avec le Géoportail (INSPIRE) en cours Bénéfices Interconnexion INSEE / partage de référentiel Représentations multiples (négociation de contenu) GML, WKT, cartes Géoportail Contrôle d accès au données Données semi-ouvertes (administrations / secteur privé) Composant Datalift S4AC (Social Semantic SPARQL Security for Access Control) Gestion dynamique des licences Calcul des termes de licence applicables aux données extraites Composant Datalift SHI3LD (en cours)

Cas d utilisation 3 : data.ign.fr S4AC (Social Semantic SPARQL Security for Access Control) Contexte utilisateur (login, localisation ) Access Control Module Politiques d accès S4AC Requête SPARQL SPARQL Endpoint Requête modifiée (filtrage des graphes) Triple Store

Cas d utilisation 3 : data.ign.fr

Thanks For more information, please contact: Laurent BIHANIC laurent.bihanic@atos.net atos.net Atos France River Ouest 80, quai Voltaire 95877 Bezons Cedex Atos, the Atos logo, Atos Consulting, Atos Worldline, Atos Sphere, Atos Cloud and Atos WorldGrid are registered trademarks of Atos SA. July 2011 2011 Atos Consulting. Confidential information owned by Atos, to be used by the recipient only. This document, or any part of it, may not be reproduced, copied, circulated and/or distributed nor quoted without prior written approval from Atos. Your business JDev technologists. - 6 septembre Powering 2013 progress