Publication et intégration de données ouvertes François Scharffe LIRMM, UM2 Gazouillez #lechatpito #datalift 1
Qu est-ce qu une donnée ouverte? Une donnée accessible sur le web sous une licence ouverte. Notre contexte est plus large: Données accessibles sous condition Licences de différents types 2
Données Ouvertes Un sujet très à la mode Motion du G8 pour l ouverture et la transparence des données Directives de l UE (Open Data, Inspire) Etalab et data.gouv.fr Open Data France qui amène de nouvelles problématiques Sous quel(s) format(s) publier les données? De quelle façon y accéder? Différents niveaux d ouverture? respect de la vie privée, etc 3
Partons en voyage... 4
Problème de planning 5
Problème de planning 6
Une situation insuffisamment satisfaisante pour la valorisation de vos données Oblige les développeurs à : Ø Analyser à chaque fois la sémantique de vos données : qu'est-ce que veut dire ce champ nom? signifie-t-il la même chose que dans cet autre jeu de données? Ø Découvrir par eux-mêmes les relations entre vos données et d'autres données Ø Gérer des formats hétérogènes pour croiser des données : CSV pour tel jeu de données, XLS pour tel autre, SHP pour ce dernier Ø Gérer des méthodes d'accès hétérogènes pour accéder aux données : APIs propriétaires différentes De votre côté : Ø Temps passé à développer des APIs Ø Difficulté à faire adapter des applications existantes à vos données 7
Le Web sémantique comme solution Ø Un système d'identifiants global : les URIs chaque donnée ou métadonnée est identifiée de manière non ambigue : http://dbpedia.org/resource/paris est la ville de Paris en France ; pas de risque de confusion avec Paris au Texas ou avec les paris sportifs Ø Un format unique, RDF : un modèle de données simple pour décrire vos données, extensif à l'infini Ø La standardisation de la sémantique de vos données, à travers des propriétés et des vocabulaires réutilisables : par ex. vous n'avez pas à réinventer pas la propriété auteur qui est déjà définie ailleurs Ø Un protocole d'acccès uniforme : HTTP, SPARQL SPARQL est l'api unique, normalisée, du web sémantique (ressemble à SQL) 8
Datalif De données brutes ouvertes à des données sémantiques interconnectées 9
Datalift Plateforme logicielle pour assister la publication de données Publication de jeux de données R&D pour automatiser le processus de publication Formations, tutoriels, camps de publication de données 10
Le processus d'élévation 11
Le processus de publication DBPedia IGN INSEE Accès HTTP Interrogation en SPARQL Ontologie du service public Ontologie géographique Conversion RDF RDF Conversion XML RDF 12
sélection Ø Qu est-ce qu un (bon) vocabulaire pour des données liées? Critères d utilisabilité Simplicité, visibilité, pérennité, intégration, cohérence Ø Différents types de vocabulaires De métadonnées, de référence, de domaine, généraliste Les piliers du Linked Data : Dublin Core, FOAF, SKOS Ø Bonnes et moins bonnes pratiques Ex : Programmes BBC vs legislation.gov.uk Vocabulary of a Friend : les vocabulaires en réseau Ø Problèmes linguistiques Les vocabulaires existants sont en anglais à 99% Approche terminologique : quels vocabulaires pour «Evénement» «Organisation» 13
conversion Ø Guide des bonnes pratiques pour les données liées: La ressource: http://id.insee.fr/geo/commune/75056 Le document: http://www.insee.fr/geo/commune/75056 Les données: http://rdf.insee.fr/geo/commune/75056 14
conversion Ø Guide des bonnes pratiques pour les données liées: La ressource: http://id.insee.fr/geo/commune/75056 Le document: http://www.insee.fr/geo/commune/75056 Les données: http://rdf.insee.fr/geo/commune/75056 15
Managing licenses and access rights on published data 16
publication Utiliser le format RDF Utiliser des URI pour nommer les choses Utiliser des URI HTTP (URL) pour pouvoir leur demander des informations Donner des informations (HTML, RDF) quand les liens sont dé-référencés Inclure dans ces infos les URIs pointant vers d'autres données pour permettre la découverte Tim Berners Lee, SemWebPro 18/01/2011 17 http://www.w3.org/designissues/linkeddata.html
Interconnexion Dépasser l'hétérogénéité des données Comment identifier les jeux de données à lier? Comment trouver les resources équivalentes? SemWebPro 18/01/2011 18
Et plus... Gestion des droits d'accès aux données à échelle variable Gestion des licences, licences composites Une API web de données pour Androïd Des patrons configuration pour visualiser les données... 19
La plateforme Datalift Architecture modulaire Supporte le processus de publication Documentée : installation, utilisation, développement Sécurisée Open-source Exécutables pour Windows, OSX, Linux 20
La plateforme Datalift 21
Quelques jeux de données 22
Datalift Platform 23
24
25
26
DATALIFT En route vers le web de données 27