Les enjeux du Big Data Innovation et opportunités de l'internet industriel
François Royer froyer@datasio.com Accompagnement des entreprises dans leurs stratégies quantitatives Valorisation de patrimoine de données industrielles Optimisation / création de services à valeur ajoutée Solutions innovantes de fouille assistée de données 2
Big Data Tout le monde en parle... 3
Le contexte Big Data 4
Le contexte Big Data 5
Le contexte Big Data Volume Variété Vélocité 6
Le phénomène Big Data Quels déclencheurs? 7
$ 700 000 Coût / GB d'un disque dur Apple en septembre 1981 $ 0.07 Coût / GB d'un disque dur 1 TB Hitachi aujourd'hui 8
Une culture quantitative grandissante dans les entreprises 9
Données métier
Données métier Autres sources de données intra-entreprise (logs web, CRM...)
Données métier Autres sources de données intra-entreprise (logs web, CRM...) Données externes
La ménagerie Big Data: Hadoop, Map/Reduce, Big table 13
Genèse 2 3 0 0 Google Filesystem 14
Genèse 3 04 0 20 20 Publication de MapReduce Google Filesystem 15
Genèse 3 04 0 20 20 6 0 20 Publication de MapReduce Google Filesystem Ouverture du code source 16
Genèse 3 04 0 20 20 Publication de MapReduce Google Filesystem 6 08 0 20 20 10000 machines @ Yahoo! Ouverture du code source 17
Genèse 3 04 0 20 20 Publication de MapReduce Google Filesystem 6 08 0 20 20 2 1 20 10000 machines Cluster 100 PB @ Yahoo! @ Facebook Ouverture du code source 18
Le web, premier utilisateur des technologies Big Data Data mining sur click stream Analyse d'image Production d'index Moteur d'enchères Conversion de 11 millions d'articles en PDF Spam screening (> 20 milliards de msg / jour) Entrepôt de données > 30 PetaOctets (2011) 19
Aux origines du Big Data: les clics de l'internaute USE CASE 20
Aux origines du Big Data: les clics de l'internaute 21
Big Data : applications industrielles Quelles opportunités?
Applications du Big Data rêves et réalités Collectivités: amélioration des services... Automobile: prédiction de pannes... Lutte contre la fraude Energie: smart meters Logistique et transports 23
Chevron : analyse de données sismiques sur Hadoop We collect large amounts of seismic data into this five-dimensional type data set, and the first thing we do is we sort it which is a great Hadoop use case [ ]. 24
FORMA FOREST MONITORING FOR ACTION 25
The Climate Corporation 26
Le Little Data, c'est fini? Non, les statistiques ont de beaux jours devant elles! 27
Promesses de l'analyse prédictive Nate Silver A prédit les résultats des élections US 2012 (50/52 états) Modèles bayésiens complexes ( MCMC ) Analytique =/= Big Data Maintenant chez ESPN (groupe Walt Disney - branche sport) 28
Quelles compétences? The sexiest job in the next 10 years will be statistician Hal Varian, Chief Economist at Google 29
Le Data Scientist métier d'avenir? 30
Le Big Data, pas pour les PMEs? Au contraire! 31
Les données, moteur d'innovation People to people Réseaux sociaux Blogs Communautés People to machine Documents Smart cards E-commerce Logs box/mobile Machine to machine Logs / capteurs GPS Code-barres Caméras 32
Acteurs du Big Data Anciens et nouveaux 33
Les usual suspects
Le contexte Big Data 130 Nouveaux acteurs Big Data depuis 2009 35
36
à suivre... 38
Cas d'étude E-commerce / medias 39
Big Data en e-commerce: analyse de texte et traitement du langage Analyse sémantique Indexation Moteurs de recherche Traitement du langage 40
Big Data en e-commerce: analyse de texte et traitement du langage Base d'apprentissage de + de 3 millions de fiches produits Un arbre de catégories de + de 4000 branches Données déstructurées Support au poste opérateur pour une équipe de 12 personnes 41
Cas d'étude Big Data industriel: les opportunités 42
Big Data Industriel 43
Big Data Industriel le mythique 1% 44 source: IBM
Big Data Industriel 45
L'internet industriel 46
Big Data Industriel Données types: séries temporelles Mais aussi rapports d'intervention, mesures intermittentes, transactions... 47
EDF Retour d'expérience présenté au Hadoop Summit 2012 Contexte: Changement climatique Pression technologique (IT, fabricants) Smart Grid Communications bidirectionnelles entre producteurs et comsommateurs Monitoring à haute résolution des usages Améliorer la résilience systémique, diminuer les couts et la dépendance énergétique Mixer Complex Event Processing + Data Mining à grande échelle CRM Prédiction de la consommation et de la prédiction Classification des courbes de charge par jour / consommateur 48
EDF Données: Courbes de charges individuelles Données contractuelles Mesures réseau 1 mesure / 10 mins / 35 millions de clients Volume annuel: 180 milliards de mesures = 120 TB Requêtes: Extraction de courbes de charge similaires à un patron cible (moyenne/médiane) Analytique: agrégation de courbes 49
EDF Volumes 10 TB compressé sur HDFS (réplication X3) Partitionnement des mesures consommateurs par jour: 25 GB journaliers, blocs de 10 MB DFS utilisé à 30 % (~30 TB) Hardware 20 noeuds sur 2 racks 7 X 1U noeuds avec 4 x 1 TB 13 X 2U noeuds avec 8 x 1 TB Total: 132 TB, 336 coeurs Performance ~ 1 minute pour calculer une courbe journalière agrégée (~ 10 GB de données) 50
info@datasio.com froyer@datasio.com TIC Valley - Bâtiment E-volution 425 rue Jean Rostand 31670 Labège