Des données brutes au Web des données liées Le projet Datalift Seminaire INTech ouverture des donnees 5 Juin 2012 INRIA Grenoble Rhône-Alpes François Scharffe Francois.scharffe@lirmm.fr @lechatpito Présentation réalisée avec l'équipe du projet Datalift Et le soutien de l'agence Nationale pour la Recherche 1
Sommaire Ø Problématiques Ø Le web sémantique comme solution Ø Le projet Datalift Ø Processus de publications des données Ø Exemple avec les données de l'annuaire du service public Ø Vocabulaires, identifiants et interconnexion Ø Vers un écosystème de jeux de données de référence
Problématiques Ø Redondance des identifiants Ø Hétérogénéité des formats de données Ø Diversité des formats de métadonnées Ø Hétérogénéité des protocoles d'accès aux données
Le Web sémantique comme solution Ø Un système d'identifiants global: les URIs Ø Un format unique: RDF Ø Un langage de représentation de vocabulaires de métadonnées: RDFS+OWL, SKOS Ø Un protocole d'acccès uniforme: HTTP, SPARQL
Lier les données Lier le monde
Le nuage des données liées
Comment s'élever vers le nuage des données liées?
Datalift Plateforme logicielle pour assister la publication de données Publication de jeux de données R&D pour automatiser le processus de publication Formations, tutoriels, camps de publication de données
but de datalif De données brutes ouvertes à des données sémantques interconnectées
Bienvenue à bord!
Un ascenseur pour les données Données publiées et interconnectées sur le Web Applications Interconnexion Infrastructure de publication Conversion des données Sélection de vocabulaires Données brutes
Le processus de publication DBPedia IGN INSEE SPARQL Négociation de contenu Ontologie du service public Ontologie géographique Dé-référencement des URIs Conversion RDF RDF Conversion XML RDF
sélection Ø Qu est-ce qu un (bon) vocabulaire pour des données liées? Critères d utilisabilité Simplicité, visibilité, pérennité, intégration, cohérence Ø Différents types de vocabulaires De métadonnées, de référence, de domaine, généraliste Les piliers du Linked Data : Dublin Core, FOAF, SKOS Ø Bonnes et moins bonnes pratiques Ex : Programmes BBC vs legislation.gov.uk Vocabulary of a Friend : les vocabulaires en réseau Ø Problèmes linguistiques Les vocabulaires existants sont en anglais à 99% Approche terminologique : quels vocabulaires pour «Evénement» «Organisation»
conversion Ø Guide des bonnes pratiques pour les données liées: La ressource: http://dbpedia.org/resource/paris Le document: http://dbpedia.org/page/paris Les données: http://dbpedia.org/data/paris Ø Cas d étude: legislation.gov.uk L identifiant: http://www.legislation.gov.uk/id/ukpga/1985/67 Le document: http://www.legislation.gov.uk/ukpga/1985/67 La représentation (en XML plutôt que HTML): http://www.legislation.gov.uk/ukpga/1985/67/data.xml
publication Utliser le format RDF Utliser des URI pour nommer les choses Utliser des URI HTTP (URL) pour pouvoir leur demander des informatons Donner des informatons (HTML, RDF) quand les liens sont dé-référencés Inclure dans ces infos les URIs pointant vers d'autres données pour permettre la découverte Tim Berners Lee, http://www.w3.org/designissues/linkeddata.html
Interconnexion Dépasser l'hétérogénéité des données Comment identfier les jeux de données à lier? Comment trouver les resources équivalentes?
Élévation de données expérimentations en cours ou prévues Ø IGN, INSEE, DILA Ø Regards Citoyens (nosdeputes.fr) Ø Etalab data.gouv.fr Ø Version Française de DBPedia (INRIA, ministère de la culture) Ø Office national des transports (CETE Méditerranée) Ø Ville de Montpellier Ø EU projects LOD2, LATC, Planet-Data Ø SharePSI.eu, W3C Linked Open Government Data, CKAN Ø Vos données?
Education Dev. Durable Industrie Nuage de données.fr Annuaire Service Pub DILA Intérieur Administrations locales (villes, agglos, départements, régions) BDAdresse IGN Ref. des communes INSEE Finances DBPedia.fr Min.Culture BDTopo IGN data.bnf.fr Associations Culture Offres des services de transport CETE Recensemt INSEE Santé Médias Recherche
DATALIFT En route vers le web de données
Datalift Platform
Credits This presentation was realized thanks to the work of the Datalift team. It can be freely distributed under Creative Commons licence BY-NC-SA 3.0 23