Big Data et Prévisions. Philippe Picard, le 24 juin 2015. Page 1



Documents pareils
L'intelligence d'affaires: la statistique dans nos vies de consommateurs

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

BIG DATA en Sciences et Industries de l Environnement

Agenda de la présentation

Introduction Big Data

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

Journée Futur et Ruptures 2015

Formation continue. Ensae-Ensai Formation Continue (Cepe)

SÉRIE NOUVELLES ARCHITECTURES

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Big Data. Concept et perspectives : la réalité derrière le "buzz"

1 er Avril 2015 Data Science & Big Data Etat de l art Donner plus d intelligence aux données

Surabondance d information

Introduction au Data-Mining

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux

Pentaho Business Analytics Intégrer > Explorer > Prévoir

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

Big Data -Comment exploiter les données et les transformer en prise de décisions?

CONFERENCE TECHNOM AIDE IBM

BIG DATA : GESTION ET ANALYSE DES DONNÉES MASSIVES (BGD) Mastère Spécialisé. Appréhendez les challenges économiques et juridiques du Big Data

Open Data. Enjeux et perspectives dans les télécommunications

Spécificités, Applications et Outils

Big Data: comment passer de la stratégie à la mise en œuvre? Big Data Paris Mars 2015

Introduction au datamining

Les datas = le fuel du 21ième sicècle

Le potentiel et les défis du Big Data. Mardi 2 et Mercredi 3 Juillet 2013

données en connaissance et en actions?

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend

July 1, Stéphan Clémençon (Télécom ParisTech) Mastère Big Data July 1, / 15

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

Table des matières. I Mise à niveau 11. Préface

We make your. Data Smart. Data Smart

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

Apprentissage Automatique

Big Data et Graphes : Quelques pistes de recherche

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Vision prospective et obstacles à surmonter pour les assureurs

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Les Enjeux du Smart Water. Eau. Novembre 2013 Fabrice Renault Directeur commercial France. Schneider Electric Fabrice Renault 1

GT Big Data. Saison Bruno Prévost (Safran), Marc Demerlé (GDF SUEZ) CRiP Thématique Mise en œuvre du Big Data 16/12/14

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

L analyse de la gestion de la clientèle

Introduction. Informatique décisionnelle et data mining. Data mining (fouille de données) Cours/TP partagés. Information du cours

Enjeux mathématiques et Statistiques du Big Data

RETOUR D EXPÉRIENCE SUR L INTERNET DES OBJETS

Monitoring continu et gestion optimale des performances énergétiques des bâtiments

Anticiper et prédire les sinistres avec une approche Big Data

Filière Data Mining (Fouille de données) Pierre Morizet-Mahoudeaux

Entreprise et Big Data

Le BIG DATA????? Big Buzz? Big Bang? Big Opportunity? Big hype? Big Business? Big Challenge? Big Hacking? Gérard Peliks planche 2

Les technologies du Big Data

transformer en avantage compétitif en temps réel vos données Your business technologists. Powering progress

AXIAD Conseil pour décider en toute intelligence

Journées Big Data à l ENSAI Big Data: les challenges, les défis

QU EST-CE QUE LE DECISIONNEL?

Accès aux données Sentinelles

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

Le Web, l'entreprise et le consommateur. Françoise Soulié Fogelman

LES ENJEUX DU BIG DATA

L Internet des objets

Repères Gérer la capacité

Introduction à l Informatique Décisionnelle - Business Intelligence (7)

" # $ % % & ' ( ) * +,! '()*+ *, + ' +' + ' ' /0 / * 0 4 * 0 6! "##$ % &!

Big data : vers une nouvelle science des risques?

TRAVAUX DE RECHERCHE DANS LE

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Big Data On Line Analytics

L expertise développée par Market-IP et ses solutions télématiques vous permettront d atteindre

1 Actuate Corporation de données. + d analyses. + d utilisateurs.

Big Data et Marketing : les competences attendues

Accélérer l agilité de votre site de e-commerce. Cas client

Location Analytics. Astrid GLADYS Thierry BABELAERE Pierre TEYSSENDIER. SIG 2013 Conférence Francophone 2 & 3 Octobre Versailles Atelier Technique

Introduction Que s est-il passé en 2014? Qu attendre de 2015?

DocForum 18 Juin Réussites d un projet Big Data Les incontournables

Internet des Objets : le point de vue de Microsoft

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

Pour un citoyen mieux informé en transports

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

De l Etudiant à SBA à l Enseignant Chercheur à l ENSMA

Big Data et Graphes : Quelques pistes de recherche

Le décisionnel plus que jamais au sommet de l agenda des DSI

Recherche et Diffusion de l Information dans les Réseaux. Philippe Robert. Le 8 avril 2014

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Analyse prédictive. L essor et la valeur de l analyse prédictive dans la prise de décisions

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

Travailler avec les télécommunications

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

Internet of big data things

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Introduction au Data-Mining

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Le traitement du Big Data inclue la collecte, la curation, le stockage, l enrichissement, le croisement, la partage, l analyse et la visualisation.

Anthropologue, ethnologue, géographe, historien de l'art, ingénieur, informaticiens, mathématicien, pédagogue, sociologue, Étudiants en tourisme

Transcription:

Big Data et Prévisions Philippe Picard, le 24 juin 2015. Page 1

Vous dites prévisions et prédictions? Neptune Météo Marées Boson de Higgs Loto PMU Economie Sismique + Nostradamus _ Philippe Picard, le 24 juin 2015. Page 2

Contribution des BgD PREDICTIONS PREVISIONS PROJECTIONS ESTIMATION CAUSALITE DEDUCTION EXPLICATION CORRELATION EXTRACTION INDUCTION ANTICIPATION DIVINATIONS PROPHETIE THEORIE, MODELISATION FOUILLE, ALGORITHMIQUE VISION, INTUITION CREDO, SORCELLERIE Les BgD pourront enrichir des processus existants ou permettre des nouveaux domaines de prévisions. Philippe Picard, le 24 juin 2015. Page 3

BgD: les fondamentaux. Du tera au zetta echelle log10 16,00 14,00 12,00 10,00 8,00 6,00 4,00 2,00 0,00 FADETTES RELEVES EDF FEUILLES DE SOIN NOMBRE VOLUME 21 zetta 18 exa 15 peta 12 tera 09 giga 06 mega L explosion des volumes accessibles au BgD sera due au développement de l IoT Philippe Picard, le 24 juin 2015. Page 4

BgD: variété des gisements de données Les précurseurs BgD, par exemple: C.D.R («fadettes»), comptes bancaires IT (MIB SNMP) SI d entreprise (CRM, ERP) LHC Open Data, «Etalab» Santé (FSE), Transports, etc. Internet (fixe et mobile) Google, Facebook, etc. Toutes sources de géolocalisation (cellulaire, GPS) Les e-transactions Objets (M2M, IoT) Véhicules connectés, RFID, Smart Grid, domotique, etc., etc. Philippe Picard, le 24 juin 2015. Page 5

Prévisions: approche classique déductive Données Programme Simulation numérique Prévisions Théorie et/ou Modèle Exemples: Météo Economie Sondages électoraux?sismique, Volcanologie? Philippe Picard, le 24 juin 2015. Page 6

Prévisions: approche classique déductive Les limites de ces prévisions: Données insuffisantes (effet GiGo) Modèles trop simplistes par rapport à la réalité (en particulier, hors zone de stabilité des modèles) «Plafond de Verre» dû à la nature complexe des phénomènes: Chaos et effet papillon: météo P. de Facteur Humain (PFH): économétrie, conjoncture, prévisions électorales «Hasard sauvage»: volcanologie, sismique, bourse Amélioration grâce des prévisions avec les BGD? Philippe Picard, le 24 juin 2015. Page 7

Météo et BgD Croissance des volumes de données dues à l augmentation des sources de données, mais plafonnement potentiel des performances des prévisions Philippe Picard, le 24 juin 2015. Page 8

Modèles économiques Retraites (COR) Prévisions Banque de France (modèle Mascotte) Philippe Picard, le 24 juin 2015. Page 9

Prévisions BgD: approche inductive Données Big Data Acquisition Extraction adaptative apprenante Corrélations Prévisions Prédictions Modélisation inductive Philippe Picard, le 24 juin 2015. Page 10

La panoplie du «data scientist» Exemple de programme d enseignement Techno distribuée: stockage, calcul, Structures des données: structurées et numériques, textuelles/web, multimédias Apprentissage Introduction à l apprentissage statistique Apprentissage supervisé (classification/régression), algorithmes (arbres, SVM, boosting, forêts aléatoires, optimisation distribuée) Techniques avancées pour l apprentissage (ranking, on-line, renforcement, optimisation distribuée) Apprentissage non supervisé (clustering, modèles à variables latentes, détection de nouveautés/anomalies, HMM (Modèle de Markov Caché), modèles graphiques, réseaux bayésiens/markoviens Graph mining Visualisation de données massives Philippe Picard, le 24 juin 2015. Page 11

Echantillon d applications BgD identifiées PREVISION, PREDICTION FOUILLE, DETECTION PILOTAGE TEMPS REEL CRIMINALITE X X X CHURN X X X FRAUDE BANCAIRE X X PREVISION TRAFIC ROUTIER X X PARCOURS CLIENT X X GRID NETWORK X X DETECTION CAUSES DE PANNES X X SCORING X MOUVEMENTS DE FOULES X RISQUES ASSURANCES X GOOGLE FLU X MAINTENANCE ET QUALITE X FLUX DE POPULATION X SINISTRES AGRICOLES X AFFAIRE «BISMUTH» X X LHC BOSON DE HIGGS X Philippe Picard, le 24 juin 2015. Page 12

De «l espionnage pour votre bien» au Big Brother? L identification du Boson de HIGGS fut un triomphe du big data au CERN Quand Google Flu Trends éternue, le Big Data s enrhume Orange mise sur l analyse prédictive pour son scoring Uberisation Gendarmes et industriels imaginent un nouveau logiciel pour prédire le crime Philippe Picard, le 24 juin 2015. Page 13

Philippe Picard, le 24 juin 2015. Page 14

Réserve et compléments Philippe Picard, le 24 juin 2015. Page 15

Vocabulaire du BgD TECHNO SGBD CLOUD DATA WAREHOUSE HADOOP OUTILS DE PREDICTION ANALYSE FACTORIELLE TEST STATISTIQUES (Student, Fisher, ²,, etc ) DATA MINING (exploration, fouille, forage de données) EXTRACTION DE DONNEES INDUCTION STATISTIQUE MACHINE LEARNING NoSQL USAGES ANALYSE PREDICTIVE CHURN (attrition) SCORING CORRELATIONS MODELISATION EXPLICATIVE MODELISATION INDUCTIVES MODELISATION PREDICTIVE PREDICTIONS, PREVISIONS PRONOSTICS ELECTORAUX SOURCES ET COLLECTE ECHANTILLONNAGE CDR (fadettes) FSE (Feuilles de soins) OPEN DATA STI (systèmes de transport) IoT, M2M, RFID GEOLOCALISATION Philippe Picard, le 24 juin 2015. Page 16

Météo: état de l art Philippe Picard, le 24 juin 2015. Page 17

Progrès de la prévision Météo Philippe Picard, le 24 juin 2015. Page 18

Nouveau paradigme? Philippe Picard, le 24 juin 2015. Page 19

Météos: que sait-on prévoir? Quelques heures à l'avance Des orages, des lignes de grains, des rafales, des averses, des brouillards (taille caractéristique des phénomènes : environ 50 km) à l'échelle d'une commune. 1 à 5 jours à l'avance L'arrivée d'une tempête (taille caractéristique du phénomène : environ 2000 km) à l'échelle d'un département (1 jour à l'avance) ou d'une région (5 jours à l'avance). 5 à 10 jours à l'avance Un type de circulation atmosphérique, des indications sur le type de temps, une tendance pour la température (taille caractéristique des phénomènes : environ 7000 km) à l'échelle de la France. Trois semaines à l'avance Une indication sur les conditions moyennes (température, précipitations) à l'échelle de la France. Par exemple : température moyenne probablement supérieure de 2 C à la normale à l'échelle de la France. Trois mois à l'avance Éventuellement un signal qualitatif sur les conditions moyennes (température, précipitations), à l'échelle d'une zone comme l'europe de l'ouest. Philippe Picard, le 24 juin 2015. Page 20

Les applications BgD dont on parle YTD Philippe Picard, le 24 juin 2015. Page 21

Valeur apportée par le Big Data Selon Enjeux et Usages du Big Data, Lavoisier Philippe Picard, le 24 juin 2015. Page 22

BgD dans l histoire A partir des BgD représentées par les observations de Tycho Brahe, J. Kepler a essayé et progressivement «intuité» ses lois avec une méthode inductive doublée d une puissance phénoménale de calcul accélérée par la techno des logarithmes. A l inverse, LeVerrier a déduit d observations et des lois de la mécanique astronomique l existence de Neptune. Philippe Picard, le 24 juin 2015. Page 23

Big Data et Open Data Les technologies du Big Data permettent la valorisation des énormes gisements de données publiques (Open Data) Questions: Données gratuites ou payantes? Qui les vend? le propriétaire public (mais a-t-il les moyens de les exploiter?) l extracteur industriel Confidentialité et protection des données individuelles Philippe Picard, le 24 juin 2015. Page 24

Philippe Picard, le 24 juin 2015. Page 25

RESULTAT ESPERE FACTEURS D'EFFICACITE COMPLEXITE INTRINSEQUE EFFICACITE DES OUTILS PREVISION PREDICTION PROSPECTIVE ESCROQUERIE HASARD SAUVAGE CHAOS X ASTROLOGIE X X LOTO X X CAUSES DU CANCER X X X BOURSE X X X X SISMIQUE X X VULCANOLOGIE X X CONJONCTURE ECONOMIQUE X X X X X COSMOLOGIE X X X PREVISIONS METEO COURT TERME X X X PREVISIONS METEO LONG TERME X X FIABILITE SW X X X DEMOGRAPHIE X X X X OBSERVATOIRE DES RETRAITES X X X SONDAGES ELECTORAUX X X X PREVISIONS FMI OCDE X X X RECHAUFFEMENT CLIMATIQUE/GIEC X X TIERCE HIPPIQUE X X FIABILITE HW X X X L'EMPIRE ECLATE (HELENE CARRERE X X IMPACT DE LA "LOI DE MOORE" X X VOYAGE DANS LA LUNE X X DECOUVERTE NEPTUNE (LE VERRIER) X X TEMPLE DU SOLEIL (ECLIPSE) X X EQUATION DE DIRAC: POSITRON X Philippe X Picard, MODELE le 24 STANDARD: juin 2015. BOSON DE HIGGS X Page 26 PFH MODELE FAIBLE MODELE DETERMINISTE VISION INTUITIVE MODELE PREDICTIF

BgD et sondages électoraux 4,5 4 3,5 3 Taille d'échantillon Populatio n Marge d erreur 0,5 10% 5% 1% 90% 95% 99% 0 2,5 2 1,5 1 MARGE 10% 0 MARGE 1 5% 2 3 4 5 6 7 MARGE 1% Niveau de confiance 100 50 80 99 74 80 88 500 81 218 476 176 218 286 1 000 88 278 906 215 278 400 10 000 96 370 4 900 264 370 623 100 000 96 383 8 763 270 383 660 1 000 00 0+ 97 384 9 513 271 384 664 Marge d erreur et niveau de confiance des sondages ne sont pas affaire de BgD, quelle que soit la taille de la population! Philippe Picard, le 24 juin 2015. Page 27