PIA transition numérique de l Etat et modernisation de l action publique SYNTHESE DU PROJET Titre du projet : réutilisateurs Hub pour la simplification de l accès aux données sur l eau pour les Acronyme : HUB O Thématique(s) à laquelle (auxquelles) se rattache le projet : OpenData, Données sur l eau et plus globalement l environnement. Descriptif du projet en quelques lignes : Le Système d Information sur l Eau (SIE) est un dispositif créé par l'état (MEDDE) pour le partage et la mise à disposition des données sur l'eau du secteur public. Géré par les opérateurs publics de l eau (Onema, Agences de l Eau, EP, ) dans un contexte réglementaire défini, il a vocation depuis plus de 20 ans à organiser la production de l information sur l Eau, à la normaliser (Sandre 1 ), à constituer des bases de données fédératrices par domaine (des «banques de données» comme Ades 2, Naïades 3, Quadrige 4, Bnpe 5,..) et ouvrir des portails et services web d accès aux données produites. Pourtant, il échoue encore aujourd hui à rendre cette information utilisable par des réutilisateurs externes au SIE (non familiarisés avec les concepts, technologies et pratiques technologiques spécifiques comme des data scientists, des développeurs d applications mobile, ) et à insuffler de réelles valorisations grand public (y compris les siennes) ou professionnelles à partir des flux mis à jour en continu (data journalists, vulgarisation scientifique, ). Le projet est d apporter une réponse adaptée à cette cible de (ré) utilisateurs sans «casser» le système existant ou le dupliquer. HUB O vise à réaliser un ensemble de composants intelligents assurant un passage «transparent» des formats et standards du SIE vers le monde de l OpenData et de la réutilisation publique, comme le montre le schéma ci dessous : 1 www.sandre.eaufrance.fr 2 Banque des eaux souterraines ades.eaufrance.fr 3 Banque des eaux de surface 4 Banque des eaux littorales quadrige.eaufrance.fr 5 Banque des données sur les prélèvements bnpe.eaufrance.fr 1
Services apportés par le projet : Ce projet répond aux besoins exprimés dans le plan d'action du CNE pour l'accès aux données, vis à vis d'un public technique averti HORS sphère SIE, et aux besoins exprimés lors du hackathon Eau de juin 2014, qui étaient portés par le même type de public. Les services apportés s inscrivent donc dans une transparence renforcée de l Etat vis à vis de l information sur l eau (plus simple, ouverte à des réutilisateurs faisant de l intermédiation entre le SIE et les utilisateurs finaux de ces informations, ), concourent à une valorisation rapide et à moindre coût par les entités économiques des informations dont l accès est ainsi facilité. De plus, HUB O facilitera à terme aussi clairement la propre consommation des données du SIE par et pour le SIE, par exemple pour la composante «Données près de chez soi» du portail Eaufrance (www.eaufrance.fr) ou les besoins des services du MEDDE développement d outils métier ayant besoin de l information sur l eau. Partenaires : Le projet est déposé par le Ministère MEDDE (DGALN/DEB) en tant qu entité porteuse du projet. Il est porté (au titre de porteur opérationnel du projet 6 ) par les deux établissements publics ONEMA et BRGM dans le cadre du pôle de recherche et d'innovation en systèmes d'information appliquées au domaine de l'eau : INSIDE (http://www.pole inside.fr). L ensemble des acteurs du SIE (Agences de l eau, OIEau, Ifremer, IRSTEA, ) est concerné par le projet, à la fois en tant qu opérateurs du SIE mais aussi potentiel réutilisateurs des résultats. Potentiellement, HUB O pourrait être généralisé à d autres domaines thématiques organisés en réseau, en particulier le SINP (système d information nature et paysage, également porté par la DEB) ou la plate forme sur les risques de la DGPR. Des rapprochements pourraient étudiées dans 6 Chapitre 4.2 du cahier des charges Industrialisation de la mise à disposition de données ouvertes 2
une seconde phase de valorisation. Les partenaires technologiques sont notamment des entreprises startups ou SSII en capacité de fournir des infrastructures pour HUB O et apporter les technologies de transformation de données. Description de la solution adoptée, innovations et ruptures technologiques impliquées HUB O est une infrastructure innovante pour proposer des accès et des réutilisations des données publiques fondées sur des infrastructures organisées et distribuées, comme l est le SIE (mais aussi le SINP ou les Infrastructures de Données Spatiales INSPIRE). HUB O s appuie sur les portails actuels du SIE : data.eaufrance.fr pour les données «à plat» du SIE, les portails des banques de données disponibles sous forme de services web, les référentiels de l eau distribués par le Sandre, Développé «au dessus» de la partie actuelle du SI distribué du SIE, il répond aux enjeux de l ouverture des données publiques : Accès rapide et unifié aux données réutilisables (une seule URL pour toutes) dans des formats orientés réutilisation (JSON et GeoJSON) Structures d accès facilitant la ré utilisation (API REST) Information accessible indépendante de leurs formes de diffusion actuelles (flux WebServices, données fichiers, ) Composition de données auto compréhensibles (en intégrant par exemple à la donnée les éléments référentiels, pivots externes ou URI utiles à l'usage de cette donnée de manière autonome) Alors que les systèmes d information du SIE sont mis en œuvre dans des systèmes très organisés (SGBD relationnel, développement vertical par «banque de données thématique», services web SOAP,..), HUB O s appuiera sur des approches technologiques en rupture avec les «SI» actuels : Transformation des flux XML SIE en flux JSON «OpenData» avec des systèmes de configuration adaptable par un administrateur ; Transformation des flux standardisés OGC en flux GeoJSON pour les données spatiales ; Stratégie de cache fondée sur des stockages nosql «Documents» afin d éviter les défaillances des systèmes sources ; Infrastructure capable de «digérer» l ensemble des données sur l eau en France (400 millions de données et 40 millions supplémentaire / an) de type Hadoop ; Système de «dénormalisation» des données vis à vis des modèles, avec intégration des données pivots ; Développement agile orienté vers l ouverture rapide d API REST. Dans ce projet d amorçage, il s agit de prouver par un démonstrateur (Proof Of Concept) 3
l innovation d usages pour les données sur l eau (nouveaux usages) et de lever les verrous technologiques afférents : consommation de services web distribués, simplification des données, infrastructure de cache, API tout en restant au plus près de l architecture de services du SIE et sans «perte» de sa richesse informationnelle. Gains (économies ou recettes) apportés par le projet et en termes de qualité du service public : HUB O, en offrant un composant «au dessus» du SIE, évite le développement coûteux d outils informatiques par les autres acteurs de l environnement HORS SIE (Ministère, Opérateurs publics, ) : temps d acquisition du fonctionnement organisationnel et technique du SIE, complexité des standards, récupération manuelle des données, etc. HUB O est un vecteur de développement d applications et de services à moindre coût autour de nos données eau et environnement pour les entreprises HUB O apporte un retour enrichissant et pertinent sur l utilisation des données eau et facilitera un retour «Utilisateurs» pour l évolution du SIE. Sa généricité permettrait d envisager une réutilisation dans des contextes similaires, comme la biodiversité ou les risques. Le BRGM, en tant qu opérateur public à caractère industriel, aurait vocation à proposer ce service dans des contextes industriels pour «alimenter d informations actualisés» les SI d entreprises comme les opérateurs des services d eau potable, d assainissement ou de thermalisme. Calendrier envisagé avec modalités de test et de déploiement associées : Ce projet est un projet d amorçage qui doit rapidement démontrer des résultats probants pour aller vers un perfectionnement. Les partenaires privilégient donc un calendrier où les développements s opèrent de façon itérative. Les grandes phases sont les suivantes : Identification de quelques use cases afin de schématiser les fonctions et API de HUB O Analyse des architectures techniques et mise en œuvre des environnements techniques, en s appuyant autant que possible sur des services disponibles (de type AmazonWebServices ou équivalents,..) Premier cycle de développement et mise en expérimentation. T+6M Premiers tests et retours par un panel d utilisateurs Second cycle de développement et mise en expérimentation publique T+10M Ouverture béta et Hackathon pour feedback «réel» T+12M Troisième cycle de développement et finalisation d une version beta publique T + 16M Actions d animation et valorisation dans des projets SIE (refonte de www.eaufrance.fr) Estimation du coût du projet : Le montant du projet est estimé à environ 500K sur 18 mois dont un co financement ONEMA et 4
BRGM envisageable. Quote part de financement PIA demandé 50% sur le PIA, 50 % Pole INSIDE (soit 25 % ONEMA, 25% BRGM). 5