Big Data et Prévisions Philippe Picard, le 24 juin 2015. Page 1
Vous dites prévisions et prédictions? Neptune Météo Marées Boson de Higgs Loto PMU Economie Sismique + Nostradamus _ Philippe Picard, le 24 juin 2015. Page 2
Contribution des BgD PREDICTIONS PREVISIONS PROJECTIONS ESTIMATION CAUSALITE DEDUCTION EXPLICATION CORRELATION EXTRACTION INDUCTION ANTICIPATION DIVINATIONS PROPHETIE THEORIE, MODELISATION FOUILLE, ALGORITHMIQUE VISION, INTUITION CREDO, SORCELLERIE Les BgD pourront enrichir des processus existants ou permettre des nouveaux domaines de prévisions. Philippe Picard, le 24 juin 2015. Page 3
BgD: les fondamentaux. Du tera au zetta echelle log10 16,00 14,00 12,00 10,00 8,00 6,00 4,00 2,00 0,00 FADETTES RELEVES EDF FEUILLES DE SOIN NOMBRE VOLUME 21 zetta 18 exa 15 peta 12 tera 09 giga 06 mega L explosion des volumes accessibles au BgD sera due au développement de l IoT Philippe Picard, le 24 juin 2015. Page 4
BgD: variété des gisements de données Les précurseurs BgD, par exemple: C.D.R («fadettes»), comptes bancaires IT (MIB SNMP) SI d entreprise (CRM, ERP) LHC Open Data, «Etalab» Santé (FSE), Transports, etc. Internet (fixe et mobile) Google, Facebook, etc. Toutes sources de géolocalisation (cellulaire, GPS) Les e-transactions Objets (M2M, IoT) Véhicules connectés, RFID, Smart Grid, domotique, etc., etc. Philippe Picard, le 24 juin 2015. Page 5
Prévisions: approche classique déductive Données Programme Simulation numérique Prévisions Théorie et/ou Modèle Exemples: Météo Economie Sondages électoraux?sismique, Volcanologie? Philippe Picard, le 24 juin 2015. Page 6
Prévisions: approche classique déductive Les limites de ces prévisions: Données insuffisantes (effet GiGo) Modèles trop simplistes par rapport à la réalité (en particulier, hors zone de stabilité des modèles) «Plafond de Verre» dû à la nature complexe des phénomènes: Chaos et effet papillon: météo P. de Facteur Humain (PFH): économétrie, conjoncture, prévisions électorales «Hasard sauvage»: volcanologie, sismique, bourse Amélioration grâce des prévisions avec les BGD? Philippe Picard, le 24 juin 2015. Page 7
Météo et BgD Croissance des volumes de données dues à l augmentation des sources de données, mais plafonnement potentiel des performances des prévisions Philippe Picard, le 24 juin 2015. Page 8
Modèles économiques Retraites (COR) Prévisions Banque de France (modèle Mascotte) Philippe Picard, le 24 juin 2015. Page 9
Prévisions BgD: approche inductive Données Big Data Acquisition Extraction adaptative apprenante Corrélations Prévisions Prédictions Modélisation inductive Philippe Picard, le 24 juin 2015. Page 10
La panoplie du «data scientist» Exemple de programme d enseignement Techno distribuée: stockage, calcul, Structures des données: structurées et numériques, textuelles/web, multimédias Apprentissage Introduction à l apprentissage statistique Apprentissage supervisé (classification/régression), algorithmes (arbres, SVM, boosting, forêts aléatoires, optimisation distribuée) Techniques avancées pour l apprentissage (ranking, on-line, renforcement, optimisation distribuée) Apprentissage non supervisé (clustering, modèles à variables latentes, détection de nouveautés/anomalies, HMM (Modèle de Markov Caché), modèles graphiques, réseaux bayésiens/markoviens Graph mining Visualisation de données massives Philippe Picard, le 24 juin 2015. Page 11
Echantillon d applications BgD identifiées PREVISION, PREDICTION FOUILLE, DETECTION PILOTAGE TEMPS REEL CRIMINALITE X X X CHURN X X X FRAUDE BANCAIRE X X PREVISION TRAFIC ROUTIER X X PARCOURS CLIENT X X GRID NETWORK X X DETECTION CAUSES DE PANNES X X SCORING X MOUVEMENTS DE FOULES X RISQUES ASSURANCES X GOOGLE FLU X MAINTENANCE ET QUALITE X FLUX DE POPULATION X SINISTRES AGRICOLES X AFFAIRE «BISMUTH» X X LHC BOSON DE HIGGS X Philippe Picard, le 24 juin 2015. Page 12
De «l espionnage pour votre bien» au Big Brother? L identification du Boson de HIGGS fut un triomphe du big data au CERN Quand Google Flu Trends éternue, le Big Data s enrhume Orange mise sur l analyse prédictive pour son scoring Uberisation Gendarmes et industriels imaginent un nouveau logiciel pour prédire le crime Philippe Picard, le 24 juin 2015. Page 13
Philippe Picard, le 24 juin 2015. Page 14
Réserve et compléments Philippe Picard, le 24 juin 2015. Page 15
Vocabulaire du BgD TECHNO SGBD CLOUD DATA WAREHOUSE HADOOP OUTILS DE PREDICTION ANALYSE FACTORIELLE TEST STATISTIQUES (Student, Fisher, ²,, etc ) DATA MINING (exploration, fouille, forage de données) EXTRACTION DE DONNEES INDUCTION STATISTIQUE MACHINE LEARNING NoSQL USAGES ANALYSE PREDICTIVE CHURN (attrition) SCORING CORRELATIONS MODELISATION EXPLICATIVE MODELISATION INDUCTIVES MODELISATION PREDICTIVE PREDICTIONS, PREVISIONS PRONOSTICS ELECTORAUX SOURCES ET COLLECTE ECHANTILLONNAGE CDR (fadettes) FSE (Feuilles de soins) OPEN DATA STI (systèmes de transport) IoT, M2M, RFID GEOLOCALISATION Philippe Picard, le 24 juin 2015. Page 16
Météo: état de l art Philippe Picard, le 24 juin 2015. Page 17
Progrès de la prévision Météo Philippe Picard, le 24 juin 2015. Page 18
Nouveau paradigme? Philippe Picard, le 24 juin 2015. Page 19
Météos: que sait-on prévoir? Quelques heures à l'avance Des orages, des lignes de grains, des rafales, des averses, des brouillards (taille caractéristique des phénomènes : environ 50 km) à l'échelle d'une commune. 1 à 5 jours à l'avance L'arrivée d'une tempête (taille caractéristique du phénomène : environ 2000 km) à l'échelle d'un département (1 jour à l'avance) ou d'une région (5 jours à l'avance). 5 à 10 jours à l'avance Un type de circulation atmosphérique, des indications sur le type de temps, une tendance pour la température (taille caractéristique des phénomènes : environ 7000 km) à l'échelle de la France. Trois semaines à l'avance Une indication sur les conditions moyennes (température, précipitations) à l'échelle de la France. Par exemple : température moyenne probablement supérieure de 2 C à la normale à l'échelle de la France. Trois mois à l'avance Éventuellement un signal qualitatif sur les conditions moyennes (température, précipitations), à l'échelle d'une zone comme l'europe de l'ouest. Philippe Picard, le 24 juin 2015. Page 20
Les applications BgD dont on parle YTD Philippe Picard, le 24 juin 2015. Page 21
Valeur apportée par le Big Data Selon Enjeux et Usages du Big Data, Lavoisier Philippe Picard, le 24 juin 2015. Page 22
BgD dans l histoire A partir des BgD représentées par les observations de Tycho Brahe, J. Kepler a essayé et progressivement «intuité» ses lois avec une méthode inductive doublée d une puissance phénoménale de calcul accélérée par la techno des logarithmes. A l inverse, LeVerrier a déduit d observations et des lois de la mécanique astronomique l existence de Neptune. Philippe Picard, le 24 juin 2015. Page 23
Big Data et Open Data Les technologies du Big Data permettent la valorisation des énormes gisements de données publiques (Open Data) Questions: Données gratuites ou payantes? Qui les vend? le propriétaire public (mais a-t-il les moyens de les exploiter?) l extracteur industriel Confidentialité et protection des données individuelles Philippe Picard, le 24 juin 2015. Page 24
Philippe Picard, le 24 juin 2015. Page 25
RESULTAT ESPERE FACTEURS D'EFFICACITE COMPLEXITE INTRINSEQUE EFFICACITE DES OUTILS PREVISION PREDICTION PROSPECTIVE ESCROQUERIE HASARD SAUVAGE CHAOS X ASTROLOGIE X X LOTO X X CAUSES DU CANCER X X X BOURSE X X X X SISMIQUE X X VULCANOLOGIE X X CONJONCTURE ECONOMIQUE X X X X X COSMOLOGIE X X X PREVISIONS METEO COURT TERME X X X PREVISIONS METEO LONG TERME X X FIABILITE SW X X X DEMOGRAPHIE X X X X OBSERVATOIRE DES RETRAITES X X X SONDAGES ELECTORAUX X X X PREVISIONS FMI OCDE X X X RECHAUFFEMENT CLIMATIQUE/GIEC X X TIERCE HIPPIQUE X X FIABILITE HW X X X L'EMPIRE ECLATE (HELENE CARRERE X X IMPACT DE LA "LOI DE MOORE" X X VOYAGE DANS LA LUNE X X DECOUVERTE NEPTUNE (LE VERRIER) X X TEMPLE DU SOLEIL (ECLIPSE) X X EQUATION DE DIRAC: POSITRON X Philippe X Picard, MODELE le 24 STANDARD: juin 2015. BOSON DE HIGGS X Page 26 PFH MODELE FAIBLE MODELE DETERMINISTE VISION INTUITIVE MODELE PREDICTIF
BgD et sondages électoraux 4,5 4 3,5 3 Taille d'échantillon Populatio n Marge d erreur 0,5 10% 5% 1% 90% 95% 99% 0 2,5 2 1,5 1 MARGE 10% 0 MARGE 1 5% 2 3 4 5 6 7 MARGE 1% Niveau de confiance 100 50 80 99 74 80 88 500 81 218 476 176 218 286 1 000 88 278 906 215 278 400 10 000 96 370 4 900 264 370 623 100 000 96 383 8 763 270 383 660 1 000 00 0+ 97 384 9 513 271 384 664 Marge d erreur et niveau de confiance des sondages ne sont pas affaire de BgD, quelle que soit la taille de la population! Philippe Picard, le 24 juin 2015. Page 27