Date doc LIVRE BLANC. Les Big Data pour les services publics : enjeux, technologies, usages. En partenariat avec

Documents pareils

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Vision prospective et obstacles à surmonter pour les assureurs

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

Garantir une meilleure prestation de services et une expérience utilisateur optimale

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Chapitre 9 : Informatique décisionnelle

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

À PROPOS DE TALEND...

Introduction Big Data

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Tirez plus vite profit du cloud computing avec IBM

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Déjeuner EIM Enterprise Information Management. Mardi 16 novembre 2010 Restaurant l Amourette Montreuil Thomas Dechilly CTO Sollan

#BigData Dossier de presse Mai 2014

Guide de référence pour l achat de Business Analytics

HADOOP ET SON ÉCOSYSTÈME

BUSINESS INTELLIGENCE

Panorama des solutions analytiques existantes

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

ISTEX, vers des services innovants d accès à la connaissance

MESURE DE L ÉNERGIE ET DES FLUIDES

Cette première partie pose les enjeux de la BI 2.0 et son intégration dans le SI de l entreprise. De manière progressive, notre approche situera le

Présentation générale du projet data.bnf.fr

Avec Sage HR Management, transformez votre gestion du capital humain en atout stratégique

Introduction Que s est-il passé en 2014? Qu attendre de 2015?

La gestion des données de référence ou comment exploiter toutes vos informations

INDUSTRIALISATION ET RATIONALISATION

Impartition réussie du soutien d entrepôts de données

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Portail collaboratif Intranet documentaire Dématérialisation de processus

Mesurer le succès Service Desk Guide d évaluation pour les moyennes entreprises :

Ministère de la Culture et de la Communication

Big Data et l avenir du décisionnel

C ) Détail volets A, B, C, D et E. Hypothèses (facteurs externes au projet) Sources de vérification. Actions Objectifs Méthode, résultats

AXIAD Conseil pour décider en toute intelligence

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

«Identifier et définir le besoin en recrutement»

IBM Social Media Analytics

CATALOGUE DE LA GAMME EASYFOLDER OFFRE GESTION DE CONTENUS NUMERIQUES

Le terme «ERP» provient du nom de la méthode MRP (Manufacturing Ressource Planning) utilisée dans les années 70 pour la gestion et la planification

La feuille de route du Gouvernement en matière d ouverture et de partage des données publiques

ERP5. Gestion des Services Techniques des Collectivités Locales

transformer en avantage compétitif en temps réel vos données Your business technologists. Powering progress

Atteindre la flexibilité métier grâce au data center agile

Plan d actions 2011/2014

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Les technologies du Big Data

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

Maximiser la performance de vos projets immobilier de bureaux

DOSSIER SOLUTION CA ERwin Modeling. Comment gérer la complexité des données et améliorer l agilité métier?

1 Actuate Corporation de données. + d analyses. + d utilisateurs.

Position du CIGREF sur le Cloud computing

Transformez vos données en opportunités. avec Microsoft Big Data

Titre : La BI vue par l intégrateur Orange

Business & High Technology

Campagne de Communication Prévisionnelle. Web Intelligence & Réputation Internet

GÉREZ VOTRE RELATION CLIENT SANS QUITTER MICRO SOFT OUTLOOK

Systèmes et réseaux d information et de communication

Les datas = le fuel du 21ième sicècle

ABILIAN SICS-PC. Abilian SYSTÈME D INFORMATION COLLABORATIF ET SÉCURISÉ POUR LES PÔLES DE COMPÉTITIVITÉ

QU EST-CE QUE LE DECISIONNEL?

Pourquoi intégrer le Big Data à son organisa3on?

Transformation IT de l entreprise ANALYTIQUE: L ÈRE WATSON

Fonctions Informatiques et Supports Opérationnels

La fonction d audit interne garantit la correcte application des procédures en vigueur et la fiabilité des informations remontées par les filiales.

Alphonse Carlier, Intelligence Économique et Knowledge Management, AFNOR Éditions, 2012.

Analytics Platform. MicroStrategy. Business Intelligence d entreprise. Self-service analytics. Big Data analytics.

Introduction à la B.I. Avec SQL Server 2008

Surmonter les 5 défis opérationnels du Big Data

Pilot4IT Tableaux de Bord Agréger et consolider l ensemble de vos indicateurs dans un même portail.

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Programme scientifique Majeure ARCHITECTURE DES SYSTEMES D INFORMATION. Mentions Ingénierie des Systèmes d Information Business Intelligence

Jedox rafraîchit les rapports du fabricant de boissons MBG

ÉCONOMIE ET GESTION LYCÉES TECHNOLOGIQUE ET PROFESSIONNEL

Business Intelligence

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Livre Blanc. L hébergement à l heure du Cloud. Comment faire son choix?

L Edition Pilotée XL

Guide de référence pour l achat de Business Analytics

SQL Server 2012 et SQL Server 2014

Le Concept Dynamics Nav. B.I.Conseil

Plan d action SMB d une Approche Agile de la BITM Pour les PME

Sage 100. pour les PME. Faites de votre gestion un levier de performance

OpenScribe L ECM Sagem. Pour maîtriser simplement tous les flux d informations

Microsoft France. Pour en savoir plus, connectez-vous sur ou contactez notre Service Client au *

Microsoft Office system Février 2006

Livret de Stages 2014 / 2015

COMMENT AMÉLIORER LA VISIBILITÉ DE SON SITE WEB?

PLATEFORME MÉTIER DÉDIÉE À LA PERFORMANCE DES INSTALLATIONS DE PRODUCTION

Urbanisme du Système d Information et EAI

Conception d une infrastructure «Cloud» pertinente

Le nouveau marketing urbain à l heure du numérique

La dernière base de données de Teradata franchit le cap du big data grâce à sa technologie avancée

QLIKVIEW ET LE BIG DATA

Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain?

Fouillez facilement dans votre système Big Data. Olivier TAVARD

De la captation de données à la Datavisualisation

Business Intelligence avec Excel, Power BI et Office 365

APPEL À COMMUNICATIONS 2010

Transcription:

Date doc LIVRE BLANC Les Big Data pour les services publics : enjeux, technologies, usages En partenariat avec 2015 CXP Page 1/30 Livre Blanc Avril 2015

Les Big Data pour les services publics Date doc LES AUTEURS Emmanuel Lartigue Analyste Senior / Consultant BI, le CXP Mathieu Poujol Principal Consultant, Cyber Security, Infrastructures and Middleware, CXP-PAC Nikolai Janoschek Research Analyst, CXP-BARC 2015 CXP Page 2/30 Livre Blanc Avril 2015

SOMMAIRE 1. Les ambitions du Secteur Public 2. Les Big Data : apports et enjeux 3. La maîtrise des dispositions juridiques 4. Les technologies liées aux Big Data 5. Applications et usages INTRODUCTION Les systèmes d'information des services publics brassent un nombre important de flux de données concernant tant le fonctionnement de la ville et que les déclarations des citoyens. La croissance exponentielle du volume de données disponible et les corrélations entre ces données présente un véritable enjeu pour le secteur public. Les initiatives autour du Big Data y sont nombreuses et les attentes importantes : un meilleur service rendu aux usagers par une optimisation opérationnelle ou par une offre de services plus large, une réorganisation de la prestation de service grâce aux nouvelles technologies, un meilleur partage des connaissances, ou encore un renforcement du lien social par une meilleure prise en compte des applications digitales : web, blogs, réseaux sociaux, etc. Tout cela avec un enjeu sécuritaire fort : si les Français sont inquiets sur l exploitation de leurs données personnelles, ils accordent leur confiance à l Etat pour les héberger et en garantir la sécurité d accès. De nombreuses initiatives ont été engagées et plusieurs projets lancés par les organismes intéressés. Le secteur privé témoigne régulièrement de cas d usages métiers liés aux Big Data, des applications qui pourraient être reprises dans le secteur public. Nous présenterons dans ce document deux projets Big Data dans le secteur public : un lié à la recherche, un autre lié aux bibliothèques, ainsi qu un éclairage sur la coordination nationale des initiatives sur les données. Toutefois, les responsables projets butent sur l absence de ligne directrice et sur le choix des socles technologiques. Trop d incertitudes demeurent encore quant aux autres choix techniques à mettre en œuvre et sur l effort de conduite du changement à mener. La prise en compte de ces nouveaux canaux de communication exigent une nouvelle architecture technique que nous allons décrire dans les derniers chapitres. 2015 CXP Page 3/30 Livre Blanc Avril 2015

1 - LES ATTENTES DU SECTEUR PUBLIC Le CXP a interrogé les acteurs du Secteur Public dans le but de mieux comprendre les nouvelles attentes et les futurs défis à relever dans la prise en compte des Big Data et d améliorer la performance des services publics. UN MEILLEUR SERVICE FOURNI AUX USAGERS Le service public, dans le cadre de ses missions et pour rendre un meilleur service aux usagers, doit veiller au bon usage de la réutilisation des données. La gouvernance de ces données, et les questions liées à l intégrité, à la neutralité et à la qualité des données, sont un des enjeux de la modernité et de la transparence du service public. Les projets Big Data ont déjà montré leur efficacité dans la relation avec les citoyens en proposant à la population de coparticiper à la gestion de la cité, tout en recherchant de nouvelles économies et une meilleure efficacité. Les données des villes numériques, une fois analysées, permettront d imaginer des services novateurs, qui influeront sur l organisation des villes et le quotidien des individus. DES SOLUTIONS INTÉGRÉES POUR TOUT TYPE DE DONNEES Dans un contexte économique difficile où les services publics sont confrontés aux défis de la rationalisation des coûts et de la maîtrise des dépenses, les solutions informatiques recherchées doivent être optimisées et si possible centralisées. Seules les données structurées sont bien maitrisées aujourd hui (soit 20% des données). Les nouveaux systèmes d informations doivent prendre en compte des formats de données très variés, documents, vidéos, images, et proposer si possible une gestion transparente de ces nouveaux formats. Afin de pouvoir capitaliser sur les compétences déjà maîtrisées, les nouveaux outils doivent si possible être graphiques, ou générer automatiquement les scripts d exécution en SQL, C ou encore R. UN MEILLEUR PARTAGE DE L INFORMATION Les données sont aujourd hui hébergées dans des silos de données. Pour tirer pleinement partie des Big Data, il sera nécessaire de bâtir des ensembles transverses et cohérents de données. Des mécanismes d habilitation et de partage des informations devront être mis en place afin de permettre au plus grand nombre d accéder à l information sans dupliquer cette information. Ces systèmes devront se conformer au cadre fixé par La loi Informatique et Libertés, dans le cas où de nombreuses informations sont susceptibles de porter atteinte aux droits et libertés des personnes, ou à leur vie privée. 2015 CXP Page 4/30 Livre Blanc Avril 2015

2 LES BIG DATA : APPORTS ET ENJEUX POUR LE SECTEUR PUBLIC GENESE Face à l accroissement exponentiel des volumes de données liées à de nouveaux usages (réseaux sociaux, mobiles, forums, Web, blogs, e-mails...), les architectures et outils classiques pour les traiter ne sont plus adaptés. Cet «infodéluge» a ainsi fait naître de nouvelles approches décisionnelles destinées à traiter, analyser et valoriser ces énormes volumes de données de toutes natures, semi-structurées ou non structurées, que l'on peut trouver aujourd'hui dans bon nombre d'organisations, quelle que soit leur taille : c'est cet ensemble de nouvelles technologies que l'on appelle les Big Data. Les premiers utilisateurs à s'intéresser au phénomène ont été les entreprises privées orientées consommateur final, telles que la grande distribution, les télécommunications, le tourisme, le loisir, les médias ou encore le secteur financier. Ces entreprises ont vu dans les Big Data une opportunité économique et un axe de développement pour l entreprise (conquête de marchés, captation de nouveaux client ). Des Big Data, elles attendent la possibilité de mieux connaitre leurs clients, de mieux cibler leurs attentes et, de plus en plus, d anticiper leurs demandes. Le graphique ci-dessous reprend les principales motivations qui ont poussé les entreprises à s équiper de solutions Big Data. Figure 1 - Quels problèmes souhaitez-vous adresser avec les technologies Big Data? (n=431, choix multiple) Source le CXP 2015, n=431 Si ces technologies ont eu un véritable impact sur le marketing et la relation client, qui représentent les principaux revenus des grands acteurs du Web, elles se déclinent maintenant dans d'autres secteurs sur lesquels elles ont désormais un réel impact sur la productivité et l efficacité : les sciences de la vie, les transports, l énergie, les services financiers et la sécurité. 2015 CXP Page 5/30 Livre Blanc Avril 2015

Les objets vont devenir de plus en plus communicants et à terme les cartes SIM machines to machines, seront plus nombreuses que les cartes SIM des milliards d individus détenteurs de téléphones mobiles. L exploitation des données remontées par ces machines (sensors, web logs, smartmeters ) pour mieux comprendre leurs conditions d utilisation, avoir des métriques fiables, faire de la maintenance prédictive pour baisser les coûts de maintenance, améliorer le maintien en conditions opérationnelles et donc la satisfaction des clients, sont autant de domaines qui intéressent de près les services publics. Par exemple, dans le domaine des transports, Maersk a placé des capteurs sur ses conteneurs, permettant de connaitre en temps réel leur emplacement et de surveiller leur température lorsqu ils contiennent des denrées périssables. Ces solutions intéressent aussi les acteurs les acteurs du monde des transports comme la SNCF ou la RATP. Figure 3 Quels vont être vos prochains investissements pour les Big Data? Source: CXP Big Data Analytics Survey 2015, n = 222 Ces nouvelles technologies Big Data sont disruptives pour le système d'information : les précédents systèmes n avaient pas été prévus pour prendre en compte d aussi grands volumes de données dans une aussi grande variété : désormais les vidéos, les documents scannés, les flux temps réel peuvent être stockés et analysés. Afin de valider l architecture ainsi que le bien-fondé de l usage de ces technologies, les entreprises se sont lancées dans une phase d expérimentation (Proof Of Concept), puis elles ont franchi le pas pour s'équiper de solutions Big Data. 2015 CXP Page 6/30 Livre Blanc Avril 2015

Figure 2 - Votre entreprise a-t-elle initié une démarche Big Data? Si oui, où en êtes-vous? Source: CXP Big Data Analytics Survey 2015, n = 526 Les projets Big Data ont un coût technologique, mais aussi organisationnel et stratégique. Les nouvelles possibilités d analyse et de prédiction peuvent avoir une incidence sur la manière dont l entreprise sert ses clients ou réalise son activité. L analyse des grands volumes de données exige par ailleurs de nouvelles compétences à la fois en algorithmique et en statistique. Ces nouveaux profils, les Data Scientists, sont encore rares sur le marché, ce qui complique la mise en place de projets novateurs sur les Big Data. DE LA COLLECTE A LA RESTITUTION Un projet Big Data commence par une collecte des données, de formats et d'origines très variés : données issues de capteurs (compteurs de visites dans un magasin, machine-outil sous surveillance constante, sondes réseaux placés sur un réseau informatique...), données issues de vidéos numériques de surveillance ou encore de documents scannés qu il faudra interpréter, logs de sites web, contenu des mails reçus d un client... Après la collecte vient l analyse des données. Cette opération nécessite de préparer la donnée nécessaire, entre autres extraire les informations importantes des données les moins structurées. Pour des documents scannés, le video-codage ou OCR (Optical Character Recognition), couplé à des outils de sémantiques, permet par exemple de catégoriser les informations des documents. Pour l analyse des voix enregistrées, des outils de type Speach to Text existent sur le marché. Pour l analyse des fichiers binaires, des parseurs (ou analyseurs syntaxiques) se chargent de décomposer les enregistrements en entités manipulables. Les données sont ensuite stockées, organisées voire indexées pour pouvoir être exploitées. Elles doivent généralement aussi être sécurisées : des droits et des habilitations sont posés sur ces données afin d en autoriser l accès uniquement aux personnes habilitées. Enfin, des outils de Data Visualisation permettent de restituer les résultats de l analyse dans un format interprétable et compréhensible par tous et d explorer la donnée, afin de mieux comprendre les comportements. 2015 CXP Page 7/30 Livre Blanc Avril 2015

Figure 4 - Les différentes étapes du traitement des Big Data Extraire Odata, ETL, WebCrawler Data Cleaning, Data Quality Portails, Search, Collaboration Self-Service Partager Suite intégrée Stocker Hadoop, SGBDR, Cloud Restituer Analyser Datamining, R, Analytics, Data Discovery, Machine Learning Reporting Requêtes Ad-Hoc, Tableaux de bord, Data Visualization Source le CXP 2015 2015 CXP Page 8/30 Livre Blanc Avril 2015

ENJEUX POUR LE SECTEUR PUBLIC La collecte des données provient régulièrement des statistiques nationales, celles de l Insee, Institut National de la Statistique et des Études Économiques, par exemple. Ces données sont issues de recensements, d enquêtes et de toutes les sources administratives numériques disponibles. L analyse des données concerne la quasi-totalité des ministères, de nombreux organismes publics, voire des institutions de droit privé chargées de missions de service public. Les statisticiens du secteur public sont surtout présents dans les services statistiques ministériels : celui de l Agriculture, le plus important, de l Éducation, du Développement Durable, des Douanes, de la Justice, du «Travail, emploi et formation professionnelle» et de la «Santé et solidarités». La Dares (travail et emploi) et la Drees (santé et protection sociale) sont des organismes qui produisent régulièrement des statistiques sur les établissements publics et leur personnel. La gouvernance des données est certainement l un des sujets les plus difficiles à traiter pour le secteur public. La pluralité des missions et la diversité des données rendent très compliquées l harmonisation et la compatibilité des données. Les données peuvent en effet provenir à la fois de l Administration Centrale, des établissements publics, des collectivités territoriales, des Conseils Généraux et des services déconcentrés. L homogénéisation des données et le partage de référentiels qui faciliteraient la consolidation des données ne sont pas toujours systématisés. La mutualisation des données doit être encouragée pour réduire le nombre de silos de données afin de réduire les coûts et favoriser les analyses croisées. La mise en place de référentiels communs à différentes administrations, avec des classes de services en fonction de chaque contributeur et de chaque partie prenante, permettrait de fiabiliser les données et de générer de la valeur à partir de ces données. Les systèmes décisionnels complètent sans remplacer les systèmes transactionnels dont les méthodes de fonctionnement au quotidien ne changent pas. Par contre ils peuvent en améliorer les processus, en leur faisant bénéficier d une information fiable car unique (stockée une seule fois au bon endroit) mais aussi potentiellement enrichie par d autres sources de données et par le fruit de potentielles analyses croisées et avancées. Enfin, une autre difficulté est le partage des informations publiques. L échange peut être réalisé soit entre les administrations, soit entre l administration et le secteur privé et enfin entre l administration et les usagers. Il peut être intéressant de valoriser auprès de tiers les traitements Big Data qui produisent des analyses de tendances, des analyses d écarts ou encore de la prospective. Quant à la restitution de ces données aux usagers, l ouverture des données publiques (Open Data), entreprise depuis maintenant quelques années, a déjà apporté de nouveaux services aux citoyens : la diffusion des horaires de trains, la liste des vélos ou des voitures disponibles en partage, la liste des codes postaux si utiles pour valider la saisie des adresses et sécuriser les livraisons et des éléments plus spécifiques comme par exemple la liste des médicaments commercialisés en France ou encore la liste des établissements d'enseignement supérieur. Autre point crucial pour le secteur public : la sécurisation des données et la maîtrise des risques liés au respect de la vie privée (données à caractère privé ou administratif) et à la protection des libertés individuelles. L utilisation de ces données doit être scrupuleusement contrôlée car elle doit respecter les contraintes juridiques liées à l utilisation ou à la divulgation de données personnelles. Enfin, il existe une contrainte particulière associée au traitement des Big Data dans le secteur public : la maitrise des dispositions juridiques liées aux données. Un point essentiel qui mérite d'être développé. 2015 CXP Page 9/30 Livre Blanc Avril 2015

3 LA MAITRISE DES DISPOSITIONS JURIDIQUES Les technologies Big Data sont nées avec le Web et avec la mondialisation des échanges informatiques. Aussi, le défi juridique soulevé par les Big data est à la fois de portée nationale et internationale. Les usagers français connaissent déjà l existence des outils de reconnaissance faciale ou de lecture de plaques minéralogiques (comme cela se pratique à l entrée de parkings). De plus en plus sollicités par des actions de marketing direct, ils réclament de faire valoir leur droit à l oubli. Aussi attendent-ils du Service Public une exemplarité sur la protection de leurs données personnelles : ils souhaitent que leur droit soit préservé en France comme à l étranger. Ce chapitre présente les principales législations en vigueur aujourd hui ainsi que les dispositions prises dans les pays Européens. DES ORGANISMES ET DES REGLEMENTS FACE A LA MONDIALISATION La France n est pas le seul pays à subir la loi des grands acteurs du Web qui constituent des bases de plus en plus riches sur les internautes du monde entier. En avril 2015, on estime qu un internaute est déjà caractérisé en moyenne par 3 000 attributs (pays, adresse IP, type de navigateur utilisé, adresse e-mail, nom, prénom, etc.). Afin que les États n encouragent pas cette inflation, une coordination européenne a été mise en place, dont le but est de juguler la diffusion de données confidentielles. Régulièrement, des commissions et des organismes tentent de s organiser et de légiférer pour préserver la confidentialité des citoyens. Les différents pays européens ont demandé aux entreprises du privé comme et au secteur public de nommer des responsables à la protection des données. La carte ci-dessous précise la date à laquelle cette décision a été prise, l intitulé de la fonction et le caractère obligatoire ou facultatif de la mesure. Figure 7 Les pays Européens qui ont légiféré la fonction de Délégué à la Protection des Données Source = La CNIL, mars 2015 Les Etats ont intérêt à protéger leurs données. De même que les banques, au travers de mesures internationales comme Bâle 3 ou l'obligation de stress tests, doivent justifier leur robustesse, les Etats devront prouver leur capacité à protéger leurs données. 2015 CXP Page 10/30 Livre Blanc Avril 2015

LA REGLEMENTATION FRANÇAISE : LE LABEL CNIL Un projet de loi numérique français est attendu pour 2015. Afin de sensibiliser les organismes publics et privés et de leur permettre de se préparer à leurs nouvelles obligations, la CNIL a créé un nouveau label portant sur la gouvernance informatique et libertés par une délibération. Publié le 15 janvier 2015 au Journal Officiel, ce label de la CNIL permet aux entreprises de se distinguer par la qualité de leurs services. C'est un indicateur de confiance pour les utilisateurs de produits ou de services, car il leur offre la possibilité d identifier et de privilégier ceux qui garantissent un haut niveau de protection de leurs données personnelles. C est enfin la reconnaissance par la CNIL qu un produit ou une procédure est conforme aux dispositions de la loi "Informatique & libertés". Chaque label est délivré pour une durée de trois ans et se décline selon quatre référentiels : "Audit de traitements" : l objectif de ce label est de faire contrôler et de valider les projets en cours ou les solutions mises en œuvre pour anticiper tout risque de plainte. Il peut s'agir de traitements informatiques mais aussi de systèmes de vidéosurveillance et de vidéo protection devant respecter le cadre juridique encadrant leur usage ; "Coffre-fort numérique" : ce label valide la bonne mise en œuvre de l accès aux données, de la conservation des données, de l information des personnes, de la gestion des risques et des mécanismes cryptographiques ; "Gouvernance Informatique et Libertés" : ce label validation des exigences relatives à l'organisation liée à la protection des données, à la méthode de vérification de la conformité des traitements et à la gestion des réclamations et incidents (EG) ; "Formations Informatique et Libertés " : ce label certifie que le contenu pédagogique et le programme ont été validés par la CNIL. Le candidat au label CNIL doit obligatoirement disposer d un correspondant Informatique et libertés (CIL). Il peut en désigner un en interne ou faire appel à un prestataire externe qui pourra l accompagner dans ses démarches d obtention du label. Il doit aussi justifier que son CIL bénéficie d un budget annuel dédié et de moyens lui permettant d assurer ses missions. Ce label donne aux entreprises l opportunité de communiquer leur engagement sur la protection des données personnelles et de la vie privée et d en faire un avantage concurrentiel, y compris sur un plan européen, alors que se prépare l harmonisation de la réglementation sur la protection des données personnelles. Un prochain règlement européen va promouvoir le principe d «accountability». Il désigne et rend obligatoire la documentation de l ensemble des mesures internes définies et prises par un responsable de traitement ou ses sous-traitants afin d'attester de son niveau de conformité. Afin de se préparer à cette labellisation et de se conformer à ce principe européen, les entreprises et les services publics doivent dès à présent nommer un responsable de leurs données et répertorier et documenter leurs mesures de sécurité pour que celles-ci puissent être facilement auditées. 2015 CXP Page 11/30 Livre Blanc Avril 2015

4 LES TECHNOLOGIES LIEES AUX BIG DATA LA CONSOLIDATION DES DONNEES Le volume de données grandissant, il devient de plus en plus contraignant de répliquer les données. Les nouveaux systèmes, s ils doivent consolider les données réparties dans plusieurs silos d information, devront limiter la réplication de l information et éviter la prolifération des Datamarts. L objectif d une solution centralisée est de conserver dans un réservoir de données unique une seule version de la donnée, servant de multiples usages, dans le but de simplifier les architectures, limiter les désynchronisations de données et gagner en performance. En factorisant les systèmes, les coûts d infrastructures, les coûts logiciels et les coûts de supervision sont réduits d autant. L administration centralisée des règles de sécurité et des règles d accès aux données permet de réduire les coûts d administration de la plateforme. La centralisation des informations facilite aussi la mise en place des règles de confidentialité ainsi que des procédures d anonymisation des données conformes aux préconisations des législateurs. Cette concentration des fonctions d administration et des données concoure aussi à la performance globale des systèmes concernés. LA RECHERCHE DE PERFORMANCE L immense volume des Big Data a une incidence sur les performances des solutions. Plusieurs approches ont été tentées ces dernières années pour exploiter au mieux ces grands volumes de données. Voici les principes qui peuvent être retenus aujourd hui au regard des principaux retours d expérience des projets. Le premier constat, concernant l organisation des larges entrepôts de données structurées, est de privilégier les modèles logiques normalisés, comme peuvent le faire les progiciels de gestion. Plutôt que de chercher à modifier les modèles de données en schémas en étoile ou en flocons afin d accélérer les restitutions, il est préférable d utiliser, sur une plateforme SQL performante, des modèles de données conçus pour faciliter la mise à jour de la donnée, éviter toute duplication source d erreur et être capable d évoluer simplement pour accueillir de nouvelles informations. La non-duplication des données devient désormais la nouvelle règle et seules des contraintes très fortes, comme par exemple l éloignement géographique ou des besoins de site de secours, peuvent justifier la recopie d une donnée d un Datacenter Européen sur un Datacenter Australien par exemple. Lors du transport de données massif entre un système opérationnel et un système décisionnel de type Big Data, le principe de base à privilégier sera un fonctionnement de type E L T (Extraction, Loading, Transformation) plutôt qu E T L (la phase de transformation réalisée pendant le transport). Les transformations de données - mises en forme, lookups, règles de gestion - seront en priorité réalisées sur la base de données cible plutôt que sur le serveur applicatif de l outil de transfert, même si cela ne permet pas de tirer parti de toutes les fonctionnalités proposées par l ETL. Le traitement parallèle est désormais incontournable. Les traitements longs s exécutent en parallèle sur des sous-ensembles de données distribués, puis restituent un résultat consolidé. Ce traitement parallèle est aujourd hui la seule réponse trouvée pour garantir des temps de réponses acceptables face à l inflation des données. Le parallélisme doit pouvoir être réalisé de bout en bout, sur toutes les étapes d un traitement 2015 CXP Page 12/30 Livre Blanc Avril 2015

(lectures, croisements, calculs, tris ) afin d éviter tout point de contention qui pénaliserait toute la chaîne de traitement. Ce parallélisme ne doit pas être le fait de l expertise de l utilisateur mais réalisé de manière automatique et transparente par la plateforme. La stratégie d'allocation des ressources d un système Big Data est primordiale pour assurer la performance. Les outils de gestion de charge, connus sous le nom de Workload Manager ou encore de Kernel Resource Management, sont à la fois des planificateurs de la charge de travail, des gestionnaires des ressources et des moteurs de workflow. Leur rôle est d optimiser l allocation des ressources machine et de faire cohabiter des usages très différents sur la même plateforme, permettant à chaque tâche de pouvoir s exécuter dans les meilleures conditions, selon son niveau de priorité et ses caractéristiques : Des utilisateurs avancés, comme les statisticiens, les Data Scientists, les Data Miners, qui souhaitent réaliser des requêtes complexes avec beaucoup de croissements de données, Des centaines d utilisateurs concurrents qui lancent leurs éditions et génèrent leur reporting, Des traitements batchs ou temps réel qui alimentent le système en nouvelles informations. Pour gagner en réactivité, les traitements parallèles en base de données (in-database) peuvent être complétés par des traitements en mémoire (in-memory). Sans aller jusque monter en mémoire l intégralité des données, il est intéressant d y placer les données les plus importantes, les plus récentes ou les plus accédées (données dites très chaudes). L accès et le traitement de ces données est alors fortement accéléré. Les autres données pourront rester sur des supports de stockage moins couteux, le système se chargeant de monter automatiquement en mémoire les données nécessaires. Pour les outils de restitutions et d analyses il faudra aussi privilégier le traitement en mémoire (In-Memory). LE ROLE DE L'OPEN SOURCE Avant l avènement des Big Data, le coût des bases de données augmentait en fonction du volume de données à gérer. Plus le serveur de données était puissant, plus la base de données coûtait cher. Gérer les Big Data au sein d une base de données payante était alors prohibitif. Le Framework Hadoop est une réponse au problème. Il s'agit d un ensemble de programmes Java qui permettent de paralléliser un très grand nombre d opérations informatiques sur de larges clusters de serveurs accueillant des données. La distribution gratuite d Hadoop et son fonctionnement sur des serveurs d'entrée de gamme ont permis de faire baisser les coûts, permettant la gestion d un grand volume de données à des prix attractifs. Un très grand nombre d entreprises a pu se lancer dans le stockage des données Big Data et inventer de nouveaux modèles économiques. Parmi les sociétés les plus connues qui utilisent le framework Hadoop, on trouve Amazon Web Services, AOL, Facebook (un cluster de 2 000 serveurs), Linkedln pour alimenter la rubrique «Les connaissez-vous?» ou encore Twitter pour le stockage des tweets et des fichiers logs. Les limites d une solution entièrement Open source : le Framework Hadoop est distribué gratuitement par la fondation Apache. Hadoop est un système complexe à utiliser et est constitué d un ensemble de modules qui évoluent rapidement : Sqoop, Flume, Hive, Oozie, Pig, Mahout, Spark Une entreprise qui réaliserait elle-même l intégration de ces modules devrait constituer un centre de compétences dédié afin de rester à un bon niveau de performance, ce qui ne fait pas forcement partie la stratégie de l entreprise. Aussi, de nombreux acteurs proposent des installations pré-assemblées et pré-testées d Hadoop, avec des modules d administration et des fonctionnalités additionnels. Ces distributions d Hadoop - Map R, Hortonworks, Cloudera, etc ainsi que la 2015 CXP Page 13/30 Livre Blanc Avril 2015

souscription payante au support sont à privilégier car les équipes de ces éditeurs, basées dans la Silicon Valley, participent au développement des nouvelles versions des composants du Framework Hadoop. De même, Hadoop ne remplace pas un système décisionnel existant basé une base de données relationnelle mais vient le compléter. De nombreuses solutions unifiées proposent un écosystème simplifié (base de données relationnelle et stockage de données polystructurées) afin de simplifier et de rationaliser les plateformes. La meilleure approche de l Open Source : afin de bénéficier pleinement des apports de la solution Hadoop, qui est incontestablement un constituant important de la stratégie Big Data, il convient de chercher à intégrer la solution Hadoop au mieux au système d information existant. Du point de vue opérationnel, il est nécessaire de rechercher des solutions intégrées avec une administration graphique du cluster Hadoop et une console commune avec le système information existant. Il faut aussi pouvoir utiliser le langage SQL, connu des équipes et des logiciels actuels et rechercher des outils qui génèrent automatiquement des scripts MapReduce ou R pour pouvoir exploiter les données contenues dans Hadoop sans trop investir dans le conseil ou la formation. Comme tout outil informatique qui est choisi en fonction de besoins métiers, il est très important, avant de commencer un projet Big Data, de s assurer de l existence d un véritable cas d usage métier, de vérifier qu une solution en mode Cloud locatif (par exemple : suivi des campagnes marketing, analyse de la fraude, analyse e- réputation, etc ) n existe pas sur le marché pour ce besoin et que l investissement sur la plateforme et les formations donneront bien lieu à un retour sur investissement assez rapide. L AGILITE Les systèmes décisionnels historiques ont montré leur capacité à produire un reporting automatisé, désormais indispensable aux entreprises, mais leur manque d agilité leur est souvent reproché. L agilité d une solution Big Data doit être envisagée avant sa mise en œuvre. Elle s appuie sur les principes suivants : une simplification de l administration et une mise à disposition de fonctions Self-Service pour les utilisateurs. La simplification de l administration s appuie sur une plateforme commune entre l opérationnel et l analytique permettant de simplifier l infrastructure, réduire le nombre de matériels, d applications et de logiciels d administration et de supervision. Certaines solutions, disponibles sous forme d Appliance, proposent des matériels et des logiciels optimisés et préinstallés pour la gestion des Big Data. Dans ce cas, le client bénéficie d un seul interlocuteur pour l ensemble de la solution, avec lequel il peut contracter un engagement de service pour l ensemble de la solution (SLA, Service Level Agrement). L efficacité opérationnelle ainsi dégagée vient contrebalancer l achat d une plateforme intégrée. Des fonctions simplifiées pour l utilisateur. La Business Intelligence a beaucoup fait pour simplifier l accès des utilisateurs à l information structurée de l entreprise. Les utilisateurs souhaitent désormais pouvoir exploiter les données poly-structurées, des algorithmes de la théorie des graphes, de la recherche des chemins, des fonctions de classification (clustering) ou encore de Data Discovery. Une plateforme agile permettra de mettre à disposition de l utilisateur un espace de travail (du stockage, de la puissance de calcul) le temps de son travail. Ces capacités d'autoprovisionning (allocation automatique de ressources) autorisées et supervisées par l administrateur du système, offrent une grande souplesse d administration et permettent des scénarios d expérimentation et de Fail-Fast Découverte de tendances, d Insight Recherche de tentatives de fraude, hypothèses de défaillance client, recherche de corrélation Expérimentation de concepts avant remise en main aux équipes informatiques pour industrialisation. 2015 CXP Page 14/30 Livre Blanc Avril 2015

Une plateforme intégrée, proposant des fonctions Plug & Play et une administration simplifiée, permettra de couvrir économiquement les nombreux usages attendus d une plateforme moderne de Big Data. 2015 CXP Page 15/30 Livre Blanc Avril 2015

5 APPLICATIONS ET USAGES UN ENORME CAPITAL INFORMATIONNEL L État possède incontestablement un immense capital informationnel. Sans compter les ministères, de nombreux organismes disposent de bases d informations très riches : citons, entre autres, la Coface, la Bibliothèque publique d information (BPI), l Agence Française pour le développement international des entreprises (UBIFRANCE), ou encore l Institut National de la Propriété Industrielle (INPI). Les usagers souhaitent pouvoir accéder à toutes ces informations et pouvoir interroger des annuaires de données qui recensent, ordonnent, aident à comprendre les données, qu elles soient traitées et mises à disposition du public par l Etat (data.gouv.fr), par les collectivités locales (data.nantes.fr) ou par le privé (datapublica.fr). Ces données publiques représentent une opportunité pour les individus (simples citoyens, militants et journalistes), les entreprises (grandes et petites) et l Etat. DE NOMBREUSES INITIATIVES L état français a pris la mesure du sujet et a lancé un vaste programme d investissement dans le domaine du numérique. Plus de 150 millions d d aides à la recherche et au développement ont été alloués dans les domaines suivants : Le logiciel embarqué et objets connectés (l internet des objets, les capteurs), Le calcul intensif et la simulation numérique, Le cloud computing et technologies d'exploitation massive des données ("Big Data"), La sécurité des systèmes d'information. L École Polytechnique vient de créer une chaire «Data Scientist» et plusieurs écoles et Universités ont lancé leur cursus «Big Data». Enfin des formations en ligne sur ce sujet, disponibles sur le Web, des MOOC, Massive Online Open Courses, sont diffusés depuis les Etats Unis. Parmi les dernières initiatives en date, le programme VITAM (Valeurs immatérielles transmises aux archives pour mémoire), lancé le 10 mars 2015, est chargé de collecter, conserver et communiquer au public les documents numériques produits par les ministères et administrations centrales de l Etat. CAS D USAGE Le Cloud et la mobilité sont entrés dans le quotidien du citoyen. Un citoyen qui souhaite pouvoir accéder partout à des informations toujours plus nombreuses pour améliorer ses conditions de circulation, identifier le meilleur trajet, obtenir des informations sur la société. Tout en souhaitant préserver son identité, échapper aux caméras de surveillance et bénéficier d'une vraie transparence sur l accès aux informations et sur l usage qui est fait de ses données. Nous avons recueillis des témoignages dans plusieurs domaines différents : la recherche et les biblothèques nationales. Des projets Big Data qui illustrent bien les différents engagements de l État dans les projets Big Data. Enfin nous terminerons sur la coordination des différents projets et la sur la gouvernance des données. 2015 CXP Page 16/30 Livre Blanc Avril 2015

Applications et usages >>>>> 2015 CXP Page 17/30 Livre Blanc Avril 2015

INTERVIEW - Jean-Michel ALIMI, Directeur de Recherche au LUT «Les limites des simulations numériques repoussées grâce aux Big Data» Jean-Michel Alimi, Directeur de Recherche au CNRS, nous présente une partie des travaux réalisés par son équipe sur la simulation numérique en cosmologie au Laboratoire Univers et Théories, Observatoire de Meudon, des calculs qui ont nécessité plus de 150 pétaoctets de données. A l Observatoire de Paris, avec votre équipe, vous avez entrepris de modéliser l'univers du Big Bang. Pouvez-vous nous présenter les grandes étapes de ce projet? Jean-Michel Alimi. Le projet DEUS, Dark Energy Universe Simulation, dont j ai la responsabilité a débuté il y a dix ans, son objectif est de comprendre l origine de la structuration et la nature du contenu de notre univers et spécialement la nature de l énergie noire. Plus récemment, en 2012 nos efforts ont permis de réaliser la première simulation mondiale de structuration de TOUT l Univers observable du Big Bang jusqu à aujourd hui. C est la taille gigantesque des volumes manipulés qui en fait un projet Big Data remarquable, voire hors norme : alors que 150 Po de données sont générés durant les calculs, 2 Po de données ont été finalement conservés après un processus de sélection très optimisé. Pour ce faire, l équipe scientifique s est appuyée sur le supercalculateur Curie qui après 30 millions d heures sur 76 032 cœurs de calcul, plus de 300 To de mémoire et un débit disque de plus de 50Go/sec aura permis d expulser vers un système de fichiers parallèle les données produites par le calcul. Quelles sont les précautions à prendre lorsque l on se lance dans un projet Big Data de cette nature? J-M.A. Malgré la puissance de calcul et la capacité de stockage dont nous disposions, nous avons dû optimiser de façon extrême l ensemble des opérations. Toutes les facettes de la simulation haute performance ont été sollicitées : le temps de calcul, l usage de la mémoire, les schémas de communication, la gestion des entrées/sorties. Tout devait être optimisé au même instant en exploitant toutes les ressources disponibles. La sélection des données et leur analyse sont deux phases critiques qu il faut savoir préparer. Il est indispensable de retenir les données essentielles au calcul, mais aussi garder à disposition des informations qui pourraient intervenir dans la modélisation ou être corrélées avec d autres résultats. Si la plupart des données concerne le projet Dark Energy qui vise à étudier la dynamique de l'expansion de l'univers et la croissance de structure à grande échelle, de très nombreuses données sont conservées à des fins exploratoires pour de nombreuses autres questions de cosmologie. Chaque année de nouveaux calculs, de nouvelles analyses nous conduisent encore à générer près de 200 téraoctets de nouvelles données et la gestion de ce volume de données est un souci quotidien. Comme nous partageons le résultat de nos recherches avec d autres laboratoires répartis sur l ensemble de la planète, nous sommes régulièrement confrontés à la latence des réseaux transcontinentaux, qui nous limite dans la recopie et la mise à disposition de données. 2015 CXP Page 18/30 Livre Blanc Avril 2015

Comment sont partagés ces résultats? Y-a-t-il une exploitation commerciale des analyses réalisées? J-M.A. Du fait de leur complexité, les calculs scientifiques ne sont directement utilisés que par des chercheurs très spécialisés dans le monde. Aussi, pour rendre les résultats accessibles à une plus large population, nous avons réalisé par exemple des animations vidéo permettant de retracer toute l'histoire de l'univers du Big Bang jusqu'à aujourd'hui. La fabrication de ces animations n est possible que grâce aux technologies Big Data. Ces vidéos ont été par exemple diffusées aux journaux du 20h00, gracieusement offertes. Ces travaux sont rarement commercialisés car la connaissance de notre l univers n a pas de prix! Vous le savez, comme le disait Albert Einstein, «tout ce qui compte ne se compte pas et tout ce qui se compte ne compte pas!» Dans ce domaine, la philosophie qui prédomine chez les chercheurs du monde entier est un état d esprit ouvert et une tradition de partage. Nous travaillons en partenariat avec de très nombreux centres de calculs, de nombreuses équipes avec qui nous échangeons beaucoup de données : des données issues de simulations numériques mais également des données réelles issues d observation que nous confrontons à nos prévisions. Nous interagissons également avec de nombreuses équipes de recherches spécialisées dans les simulations numériques au-delà de notre discipline scientifique : avec des équipes de sismologie, de physique des particules, ou encore de mécanique des fluides. Ces données ont donc une vocation publique. La question de la sécurité porte donc plus sur la préservation des données? J-M.A. En effet, les difficultés de la gouvernance de ces données concernent davantage la mise à disposition des données et leur sauvegarde que la sécurisation de l accès. Les énormes volumes de données limitent les possibilités de recopies et exigent une grande rigueur quant à leur diffusion afin de ne pas risquer une multiplication des volumes. Nous sommes hébergés par de grands centres de données qui prennent en compte le risque d incendie et de perte des données, mais nous devons sans cesse arbitrer sur les volumes et sur les conditions de mise à disposition de ces données. 2015 CXP Page 19/30 Livre Blanc Avril 2015

INTERVIEW Emmanuelle Bermes, BnF «Le volume d informations numériques a largement dépassé la production littéraire.» Emmanuelle Bermes est adjointe pour les questions scientifiques et techniques auprès du Directeur des services et des réseaux Bibliothèque nationale de France. Elle dresse un panorama du rôle des données dans la gestion des Bibliothèques et de l apport des nouvelles technologies dans la gestion des Big Data. La gestion des grands volumes de données dans les bibliothèques nationales a-t-elle évoluée ces dernières années depuis l apparition du phénomène Big Data? Emmanuelle Bernes. Les bibliothèques nationales sont confrontées aux grands volumes de données depuis les années 90, lorsque les premiers chantiers de numérisation des ouvrages ont commencé. Nous disposons actuellement de plus de 3 millions de documents numérisés, nous avons appris à les gérer. Les bibliothécaires ont une grande tradition de normalisation, de création de métadonnées et d échange de données structurées. Un format international d échange de données documentaire existe depuis les années 1960 MARC pour MAchine- Readable Cataloging avec sa déclinaison INTERMARC pour la Bibliothèque nationale de France. Nous utilisons de nombreux référentiels internationaux pour coder nos métadonnées (code langues ISO, code pays ISO, identifiants comme l ISBN pour les livres ou l ISNI pour les auteurs, etc..) : ce formalisme nous permet d échanger des données à la fois entre bibliothèques mais aussi entre pays. Après cette première phase d acquisition et de numérisation, l avènement de Google en 2005 et de ses capacités de recherche plein texte, le travail d interprétation des documents numérisés s'est accéléré. Nous avons de plus en plus utilisé l OCR (Optical Character Recognition) pour transformer les documents numérisés en éléments interrogeables et nous nous sommes mis à l'usage d'algorithmes de recherche. Le troisième phénomène a été la production massive de documents numériques. Avec la généralisation des ordinateurs individuels et des caméras numériques, les documents, les blogs, les vidéos ont proliféré sur le Web. Les documents étaient désormais au format numérique natif, et il fallait les prendre ainsi en compte dans nos bases documentaires. Quelles ont été les conséquences de cette prolifération d informations disponibles sur le Web? E.B. Depuis 2006, le dépôt légal a été étendu aux sites internet : toute information publiée en ligne doit être conservée. C est un travail que nous partageons avec l INA, l Institut national de l'audiovisuel, qui est en charge des sites internet de la radio et de la télévision. De notre côté nous collectons chaque année 4 millions de sites internet français, dont 23 titres de presse quotidienne nationale et régionale (Ouest France, Le Républicain Lorrain, Médiapart ) qui entrent chaque jour dans nos collections de manière automatique. Le volume d information est gigantesque : plus de 567 To de données, et ce volume croît chaque jour. 2015 CXP Page 20/30 Livre Blanc Avril 2015