Des données brutes au Web des données liées Le projet Datalift



Documents pareils
Je catalogue, tu FRBRises, il/elle googlise. L évolution des catalogues et les bibliothécaires Vendredi 29 mars 2013 Manufacture des tabacs

Présentation générale du projet data.bnf.fr

JDev Atelier Datalift

Le Web de Données Dan VODISLAV Université de Cergy-Pontoise Master Informatique M2 Plan

Linked Open Data. Le Web de données Réseau, usages, perspectives. Eric Charton. Eric Charton

Datalift. + + Architecture Modularité Déploiements. d j = 09/04/2015 Laurent BIHANIC

Evolution des catalogues et des métiers: comment se préparer aux changements? Quelques échos de la BnF. CRFCB Université de Toulouse 29 mars 2013

LES TECHNOLOGIES DU WEB APPLIQUÉES AUX DONNÉES STRUCTURÉES

Intégration de données complexes pour une vision 360 du client. Chloé Clavel EDF R&D Département ICAME

Open Data. François Bancilhon twitter.com/fbancilhon Printemps de la recherche EDF R&D 28/9/12

Exploration des technologies web pour créer une interaction entre Mahara et les plateformes professionnelles et sociales

Linked Data et description du produit automobile SemWeb Pro, Paris, 2 mai 2012

Compte-rendu re union Campus AAR 3 mars 2015

Evolution et architecture des systèmes d'information, de l'internet. Impact sur les IDS. IDS2014, Nailloux 26-28/05/2014

L importance des choix juridiques pour la médiation dans l environnement numérique

Semantic Web Inside Guillaume Érétéo Directeur R&D

Regards Citoyens L'Open Data par et pour les citoyens

Royaume-Uni data.gov.uk, l ouverture des données publiques au Royaume-Uni

Glossaire. ( themanualpage.org) soumises à la licence GNU FDL.

De l OpenData aux citoyens : potentiel et limites des plateformes collaboratives

Rapport de TN10 : Développement D application Sémantique

Datalift day 9 avril 2015

Bibliothèque numérique de l enssib

Catalogue des formations Edition 2015

Mercredi 05/10/2011. Forges logicielles. Olivier Berger, Telecom SudParis. Introduction Avant-propos À propos de COCLICO. Panorama des forges

Stratégie Open Source et Présentation du Centre de recherche et d innovation sur le logiciel libre

Perspectives en matière de portails géographiques et de 3D

21 mars Simulations et Méthodes de Monte Carlo. DADI Charles-Abner. Objectifs et intérêt de ce T.E.R. Générer l'aléatoire.

Technologies de la Recherche et standards du Web: Quel impact sur l Innovation?

Web Sémantique. Examen

Créez votre propre Archive Darwin Core

Open Data. Enjeux et perspectives dans les télécommunications

Module BD et sites WEB

XML pour la mise en valeur des informations

La démarche MDA. Auteur : Projet ACCORD (Assemblage de composants par contrats en environnement ouvert et réparti)*

Une organisation internationale au cœur des enjeux de contenus et d accès à l information scientifique: L IFLA

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) Rencontres RNBM 3 Octobre 2007

L archivage pérenne du document numérique au CINES. CINES (O.Rouchon) JRES Novembre 2007

Interaction entre réseaux sociaux et sites web

Recherche bibliographique

PRIMAVERA P6 ENTERPRISE PROJECT PORTFOLIO MANAGEMENT WEB SERVICES

Taxonomies, ontologies et folksonomies...

Programmation Web. Introduction

Conseil de développement durable (C2D) Plénière d ouverture 17 décembre 2014

Développement d applications Internet et réseaux avec LabVIEW. Alexandre STANURSKI National Instruments France

XML et travail collaboratif : vers un Web sémantique

MODE D'EMPLOI. La gestion des versions permettra de compléter et de faire évoluer les fiches dans le temps. NOM DE LA RESSOURCE CONTACT FOURNISSEUR

Journal de l OSGeo Le journal de la Fondation Open Source Geospatial Volume 3 / Décembre 2007

Extensions, Documentation, Tutoriels, Astuces

Présentation du programme Open Law Europa

NOVA BPM. «Première solution BPM intégr. Pierre Vignéras Bull R&D

Travail collaboratif. Glossaire

Diffusion AFRISTAT. Quels droits accorder aux utilisateurs? - sur les données - sur les documents numériques

Documents et Applications : CMS nouvelle génération

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Applications des technologies sémantiques à la gestion des connaissances

Synthèse... 1 Introduction Contexte de la création multimédia et surgissement du web sémantique 6

Le portail des MSH

Un serveur d'archivage

4. SERVICES WEB REST 46

Learning Object Metadata

Maîtrisez la modernisation de votre patrimoine applicatif

NFP111 Systèmes et Applications Réparties

Indexmed : Le big data en écologie? Pas encore disent certains. Pas si sûr! Avec IndexMed. Relevons ce challenge!

Culture numérique. Histoire et structure de l'internet. Enseignement commun Université de Caen

Le projet PALETTE et les CoPs L exemple de la CoP eprep

La fédération des infrastructures cloud

PloneLabs un gestionnaire de contenu pour les laboratoires

Introduction aux «Services Web»

Pelleas : Le projet XML pour le systeme d information documentaire du polytechnicum de Marne- la Vallée

Référentiels de représentation des contenus

La géomatique en Nouvelle-Calédonie usages professionnels et potentiels économiques

INTERNET, C'EST QUOI?

Cloud computing Votre informatique à la demande

Open data : les données libérées doivent-elles être gratuites?

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Le réseau Internet.

27/11/12 Nature. SDK Python et Java pour le développement de services ACCORD Module(s)

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Dafoe Présentation de la plate-forme UIMA

Référencement de votre site Web Google et autres moteurs de recherche (4ième édition)

Réseaux sociaux de chercheurs : quels enjeux et quelle politique pour une institution publique de recherche

Master Information et communication spécialité Produits et services multimédia

Big Data: comment passer de la stratégie à la mise en œuvre? Big Data Paris Mars 2015

L Architecture d Entreprise au service de la Transformation. Ludovic Relandeau VP, Managing Director MEGA

Architectures d'intégration de données

Jean-Philippe VIOLET Solutions Architect

Le Web : d une métaphore documentaire à une architecture de données

MATRICE DES FONCTIONNALITES

Petit Déjeuner Pépinière du Logiciel Libre. 25 juin 2008

[Open] [Big] Data [as a Service] [Re]définir les services publics digitaux

Infrastructure / réseau / sécurité /support utilisateur

De la modélisation sémantique des événements vers l enrichissement et la recommandation

Adaptabilité d un MOOC aux styles d apprentissage. Hubert Kadima Directeur de Recherche LARIS/EISTI hubert.kadima@eisti.fr

OUTIL DE TRAVAIL COLLABORATIF

INITIATIVE HPC-PME Calcul haute performance pour les PME

Transcription:

Des données brutes au Web des données liées Le projet Datalift Seminaire INTech ouverture des donnees 5 Juin 2012 INRIA Grenoble Rhône-Alpes François Scharffe Francois.scharffe@lirmm.fr @lechatpito Présentation réalisée avec l'équipe du projet Datalift Et le soutien de l'agence Nationale pour la Recherche 1

Sommaire Ø Problématiques Ø Le web sémantique comme solution Ø Le projet Datalift Ø Processus de publications des données Ø Exemple avec les données de l'annuaire du service public Ø Vocabulaires, identifiants et interconnexion Ø Vers un écosystème de jeux de données de référence

Problématiques Ø Redondance des identifiants Ø Hétérogénéité des formats de données Ø Diversité des formats de métadonnées Ø Hétérogénéité des protocoles d'accès aux données

Le Web sémantique comme solution Ø Un système d'identifiants global: les URIs Ø Un format unique: RDF Ø Un langage de représentation de vocabulaires de métadonnées: RDFS+OWL, SKOS Ø Un protocole d'acccès uniforme: HTTP, SPARQL

Lier les données Lier le monde

Le nuage des données liées

Comment s'élever vers le nuage des données liées?

Datalift Plateforme logicielle pour assister la publication de données Publication de jeux de données R&D pour automatiser le processus de publication Formations, tutoriels, camps de publication de données

but de datalif De données brutes ouvertes à des données sémantques interconnectées

Bienvenue à bord!

Un ascenseur pour les données Données publiées et interconnectées sur le Web Applications Interconnexion Infrastructure de publication Conversion des données Sélection de vocabulaires Données brutes

Le processus de publication DBPedia IGN INSEE SPARQL Négociation de contenu Ontologie du service public Ontologie géographique Dé-référencement des URIs Conversion RDF RDF Conversion XML RDF

sélection Ø Qu est-ce qu un (bon) vocabulaire pour des données liées? Critères d utilisabilité Simplicité, visibilité, pérennité, intégration, cohérence Ø Différents types de vocabulaires De métadonnées, de référence, de domaine, généraliste Les piliers du Linked Data : Dublin Core, FOAF, SKOS Ø Bonnes et moins bonnes pratiques Ex : Programmes BBC vs legislation.gov.uk Vocabulary of a Friend : les vocabulaires en réseau Ø Problèmes linguistiques Les vocabulaires existants sont en anglais à 99% Approche terminologique : quels vocabulaires pour «Evénement» «Organisation»

conversion Ø Guide des bonnes pratiques pour les données liées: La ressource: http://dbpedia.org/resource/paris Le document: http://dbpedia.org/page/paris Les données: http://dbpedia.org/data/paris Ø Cas d étude: legislation.gov.uk L identifiant: http://www.legislation.gov.uk/id/ukpga/1985/67 Le document: http://www.legislation.gov.uk/ukpga/1985/67 La représentation (en XML plutôt que HTML): http://www.legislation.gov.uk/ukpga/1985/67/data.xml

publication Utliser le format RDF Utliser des URI pour nommer les choses Utliser des URI HTTP (URL) pour pouvoir leur demander des informatons Donner des informatons (HTML, RDF) quand les liens sont dé-référencés Inclure dans ces infos les URIs pointant vers d'autres données pour permettre la découverte Tim Berners Lee, http://www.w3.org/designissues/linkeddata.html

Interconnexion Dépasser l'hétérogénéité des données Comment identfier les jeux de données à lier? Comment trouver les resources équivalentes?

Élévation de données expérimentations en cours ou prévues Ø IGN, INSEE, DILA Ø Regards Citoyens (nosdeputes.fr) Ø Etalab data.gouv.fr Ø Version Française de DBPedia (INRIA, ministère de la culture) Ø Office national des transports (CETE Méditerranée) Ø Ville de Montpellier Ø EU projects LOD2, LATC, Planet-Data Ø SharePSI.eu, W3C Linked Open Government Data, CKAN Ø Vos données?

Education Dev. Durable Industrie Nuage de données.fr Annuaire Service Pub DILA Intérieur Administrations locales (villes, agglos, départements, régions) BDAdresse IGN Ref. des communes INSEE Finances DBPedia.fr Min.Culture BDTopo IGN data.bnf.fr Associations Culture Offres des services de transport CETE Recensemt INSEE Santé Médias Recherche

DATALIFT En route vers le web de données

Datalift Platform

Credits This presentation was realized thanks to the work of the Datalift team. It can be freely distributed under Creative Commons licence BY-NC-SA 3.0 23