Philippe Lemerle Big Data Secteur public 1
Le Monde se crée une copie numérique de lui même (*) (*) The world is making a digital copy of itself Paul Sonderegger, Oracle
Approche réductioniste propriétés ACID (atomicité, cohérence, isolation et durabilité)
Approche expansioniste Approche réductioniste
CAPITAL NUMERIQUE CHANGER L ACTIVITE GERER L ACTIVITE
Quelles sont ces données? * Structurées : csv,.xls,... * Semi structurées : JSON, Logs,... * Non structurées : Video, Sons,... Où les stocker? NoSQL Hadoop
Big Data = Hadoop? Ou.the complexity of dealing with a non-acid data store in every part of our business logic would be too great, and there was simply no way our business could function without SQL queries. Google, VLDB 2013 [we] started in the Hadoop world. We are now bringing in relational to enhance that.... [we] realized that using the wrong technology for certain kinds of problems can be difficult. Ken Rudin, Facebook, TDWI 2013 https://www.linkedin.com/groups/find-out-why-google-decided-4434815.s.273792742 http://tdwi.org/articles/2013/05/06/facebooks-relational-platform.aspx 7
PAYSAGE BIG DATA Paysage du Système d Information : Des applications métier (A,B,C) qui accèdent : à des données locales à un Datawarehouse (Données métier, financières ERP) Un outil décisionel, qui établi des rapports sur les données du Datawarehouse
PAYSAGE BIG DATA Autres Applications générant de la donnée : Applications web (log) Système de production industriel (données de production) Données Marketing (campagnes) Données medicales (examens, biomarqueurs) Données locales (excel, word, pdf...) Images (videosurveillance, metadonnées) Sons (métadonnées) Données d itinerants (Taxis, objets connectés, données de vol temps réel) Données collectées par des agents (call centers)...
PAYSAGE BIG DATA Données Externes de partenariats Fichiers clients partagés Offres d emplois (recrutement) Profilage d une cible marketing Données achetées à un prestataire Fiches produits et documentation...
PAYSAGE BIG DATA Open Data Données gouvernementales, Données meteo, Données démographiques Données issues de services publiques...
PAYSAGE BIG DATA Reseaux Sociaux Blogs, sites web Tweeter, facebook, linkedin... Oracle Confidential Internal 12
PAYSAGE BIG DATA DATA RESERVOIR
BIG DATA Chalenges BIG DATA MANAGEMENT 1 Création de la plateforme 2 - Chargement des données 3 connexion des 2 mondes 4 exploration des données DATA RESERVOIR
Big Data s dirty little secret is that 90% of time spent on a project is devoted to preparing data After all the preparation work, there isn t enough time left to do sophisticated analytics on it Source: Thomas Davenport - Wall Street Journal, 2014
Big Data Definitions (Kayur Patel / Strata 2014) Privé : Une organisation data charge, traite et valorise régulièrement ses données pour créer de l efficacité, réitère l opération pour le développement de nouveaux produits, et navigue ainsi dans son paysage concurrentiel A Data organization acquires, processes and leverage data in a timely fashion to create efficiency, iterate on and develop new products, and navigate the competitive landscape Public : Les gouvernements orienté «data» collectent, traitent, valorisent et publient des données, de façon régulière et responsable, pour créer de la transparence, créer de l efficacité et développer l innovation. Data driven governments responsibly gathers, processes, leverages and releases data in a timely fashion to enable transparency, create efficiency, provide security, fodter innovation.
Big Data Cas d usage. #1 Rendre réalisable des analyses jusqu ici impossibles Dataware offload / BI enrichment / Big Data analytics #2 Augmenter le champs des corrélations R / Sas / data scientists #3 prendre des décisions en temps réel Machine learning #4 Faire des prédictions
Cas d Usage
Services au citoyen
Indépendant Créatif autorité Mobile Extérieur REAL TIME DECISION Agence Nationale de recrutement 1 2 3 4 5 Travail Manuel Login Jean Dupont 45 ans Charpentier Région PACA Diplôme école A Expérience 15 ans Spécialiste ancien Travail Equipe Administratif Gout Artistique Aime les règles Profil : Indépendant Créatif Technique Mobile Menuisier 85% 70% 35% 15% 50% Ebéniste 85% 90% 35% 10% 25% Serrurier 90% 75% 40% 95% 75% Charpentier 70% 65% 65% 60% 95% Militaire 25% 15% 95% 75% 90% Temps Réél Société Poste Ville Entreprise A Menuisier Marseille Entreprise B Menuisier Nice Société Poste Ville Entreprise A Menuisier Marseille Entreprise C Charpentier Lyon Entreprise F Ebéniste Marseille Entreprise B Menuisier Nice Entreprise C Charpentier Lyon Entreprise D Charpentier Paris Entreprise E Charpentier Paris Formation (prochaine etape) Entreprise G Serrurier (*) Marseille Entreprise H Serrurier (*) Cannes Entreprise D Charpentier Paris Entreprise E Charpentier Paris
BigData pour le traitement des données de test en vol (plusieurs To / Vol) Efficacité Opérationnelle
Ministère de l Education Nationale (Turquie) 42,000 écoles, 700K enseignants, 1000+ cours, 10.6 m Increase through tablettes, 470K Tableauxstate Blancs funding interactif analysés en temps réel pour better l'amélioration continue de la scolarité. attendance Corrélations entre les contenus dispensés, l'implication des Exalytics to increase efficiency élèves et leur résultats. in budget analysis Outil d'aide à la formation des enseignants 105% ROI in first four years; Données statistiques sur l'activité pédagogique des benefits of $4.4m étudiantstotal (exadata) through 2015 Historisation des log d'usage des activités tablette des étudiants (Big Data Appliance) Analyse temps réel (Exalytics) 22
Oracle Confidential Internal 25