Open Data François Bancilhon twitter.com/fbancilhon www.data-publica.com Printemps de la recherche EDF R&D 28/9/12
Plan Open data Que faire des données de l open data? Eco-système de la données Data Publica Technologies de l open data
Open Data Big Data Data Viz Data Journal.
Schema Ouverture de Données Application Site de publication Jeu de données brut ouvrir Jeu de données brut SI Acteur Public Visualisatio n API ou téléchargement Visualisation Journalisme de données Application Développeur Grand Public Entreprises
Que faire avec toutes ces données?
Journalisme des données
Applications Internet / Mobile
Marché traditionnel des données électroniques en France 1,6 Milliard d'euros annuel Environ 60% vient des données publiques 170 acteurs 9 verticaux 2 horizontaux (veille et traitement de contenu)
Les 9 verticaux Vertical Exemple Taille (M ) Financier Reuters 300 Presse Press Index 250 Juridique Francis Lefebvre 240 Solvabilité Altarès 160 STM Meteo France 160 Image Sipa 60 Economique Société.com 55 Marketing Acxiom 55 Brevets Reuters 25
Entreprise Utilise Collecte Produit
Entreprise Utilise Collecte Produit
Entreprise Utilise Collecte Produit
Entreprise Utilise Collecte Produit
Nouvel éco-système de la donnée Fournisseur d outils plateforme open data plateforme big data plateforme BI Analyse de données Dataviz (outils ou services) Place de marché de données Editeur de données Acteurs verticaux
Data Publica : «Elevator pitch» Développement (sourcing, transformation, livraison) de jeux de données (JDD) livrés par abonnement sur mesure sur étagère Connaissance du contenu (données sources), technologie de transformation (pour la production de données) et dataviz
Data Publica : production de jeux de données Web Open Data Données Internes Crawl Scraping ETL, etc. Text Mining Formatage Enrichissement, etc. Livraison Visualisation Editeurs Réseaux Sociaux
Data Publica Expertise Open Data Web Réseaux sociaux Données privées Données internes Contenu Transformation Données Crawl Scraping ETL Data cleansing Text & Web mining Bases de données Dataviz générique DSPL Rapport Présentation
Data Publica : Annuaire des Jeux de Données
Annuaire de jeux données Le plus complet et le plus riche sur les données françaises 14 500 jeux de données Moteur de recherche plein texte Contenu et méta-données Facettes 3 000 jeux de données structurés Visualisateur générique API
Visualisation : sur mesure ou générique
Tableaux de bord des territoires Pour une unité géographique déterminée Région, commune, zone d emploi, Pour un thème défini Emploi, activité économique, santé, etc. Recueillir des données pertinentes Complètes (multitude de sources) Fraîches (mises à jour en temps réel) Les présenter de façon compréhensible Visualisation interactive Tableau de bord adapté aux données
De l artisanat à l industrie Processus manuel Web Processus industriel Extraction manuelle de données Extraction automatique et actualisée de données Mise à jour automatisée Production de rapport Génériqu e Data Publica Visualisation Votre rapport Rapport sur mesure
TBT communes INSEE Développement Durable Banque de France Eurostat Statistiques base «Marchés» (800 sources différentes) Geonames
TBT Emploi INSEE Pole emploi Banque de France Geonames
Architecture Data Publica met en œuvre un grand nombre de transformateurs de sources open data vers ses différentes bases de données liées. Ces processus sont exécutés quotidiennement, téléchargent les nouvelles versions, structurent les sources et mettent à jour des bases. Bases Data Publica Tableaux de bord Le Tableau de bord permet de visualiser le flux de données API Communes Crawl, Scraping, Extraction & Structuration Géo Info structurées Indicateurs open data Autres bases L API Data Publica consolide quotidiennement les informations des bases et constitue un flux XML synthétique Open Data Autres sources Les autres tableaux de bord mettent en œuvre d autres API similaires (indicateurs ) INSEE, Développement Durable, Banque de France, Eurostat. Statistiques base «Marchés», Geonames
Les trois étages RECUEIL DES DONNEES TRAITEMENT DES DONNEES UTILISATION DES DONNEES
Technologies Extraction ETL, crawling, scraping, text mining, data cleansing Stockage NoSQL, mise à jour, annuaires Manipulation et mise en forme Web sémantique, data cleasing, text mining, formats DSPL & SDMX Mise à disposition API spécifiques et génériques Visualisation Analyse
DSPL Data Set Publishing Language Un format ouvert défini par Google et utilisé dans son outil Google Public Data Explorer Un Zip contenant Des données CSV Un fichier XML décrivant la structure des données Bien adapté aux fichiers spatio-temporels
François Bancilhon twitter.com/fbancilhon www.data-publica.com
Nouvel éco-système Conclusion Disruption de l éco-système traditionnel Nouvelles technologies Nouveaux usages Impact majeur sur le fonctionnement des grandes organisations (publiques et privées)