Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013



Documents pareils
Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

BIG DATA en Sciences et Industries de l Environnement

Les datas = le fuel du 21ième sicècle

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

TRAVAUX DE RECHERCHE DANS LE

Introduction à MapReduce/Hadoop et Spark

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

IBM Software Big Data. Plateforme IBM Big Data

M2 GL UE DOC «In memory analytics»

Big Data. Concept et perspectives : la réalité derrière le "buzz"

Cartographie des solutions BigData

LES ENJEUX DU BIG DATA

BIG Data et R: opportunités et perspectives

Me#re le Big Data sur la carte : défis et avenues rela6fs à l exploita6on de la localisa6on

Le potentiel et les défis du Big Data. Mardi 2 et Mercredi 3 Juillet 2013

Entreprise et Big Data

Jean-François Boulicaut & Mohand-Saïd Hacid

Masses de données et calcul : à l IRIT. 8 octobre 2013

Big Data et Graphes : Quelques pistes de recherche

Introduction Big Data

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Introduction au Data-Mining

Monétisation des données : comment identifier de nouvelles sources de revenus au sein des Big data?

Conserver les Big Data, source de valeur pour demain

Panorama des solutions analytiques existantes

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Comment valoriser votre patrimoine de données?

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

SÉRIE NOUVELLES ARCHITECTURES

Big Data et Graphes : Quelques pistes de recherche

Enjeux mathématiques et Statistiques du Big Data

IntentOS, le système d'exploitation du bâtiment

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

Big data* et marketing

Programmation parallèle et distribuée

Big Data Jean-Michel Franco

Tables Rondes Le «Big Data»

Programmation parallèle et distribuée (Master 1 Info )

Programmation parallèle et distribuée

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Anticiper et prédire les sinistres avec une approche Big Data

Données massives pour les smart-grids

L Art d être Numérique. Thierry Pierre Directeur Business Development SAP France

À PROPOS DE TALEND...

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend

Les entreprises de 2020 seront dirigées par les Data Scientists

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

HADOOP ET SON ÉCOSYSTÈME

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Big Data Concepts et mise en oeuvre de Hadoop

Filière Fouille de Données et Décisionnel FDD (Data Mining) Pierre Morizet-Mahoudeaux

Big Data -Comment exploiter les données et les transformer en prise de décisions?

GT Big Data. Saison Bruno Prévost (Safran), Marc Demerlé (GDF SUEZ) CRiP Thématique Mise en œuvre du Big Data 16/12/14

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

Quels choix de base de données pour vos projets Big Data?

Ricco Rakotomalala R.R. Université Lyon 2

Labs Hadoop Février 2013

Offre formation Big Data Analytics

Fouille de données massives avec Hadoop

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD

Bigdata et Web sémantique. les données + l intelligence= la solution

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

Big Graph Data Forum Teratec 2013

Les technologies du Big Data

Big Data et Prévisions. Philippe Picard, le 24 juin Page 1

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Big Data On Line Analytics

SAN07 IBM Social Media Analytics:

Hadoop, les clés du succès

Big$Data$:$de$quoi$s agit0il$?$

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

CONFERENCE TECHNOM AIDE IBM

Bases de données documentaires et distribuées Cours NFE04

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Change the game with smart innovation

Le BIG DATA????? Big Buzz? Big Bang? Big Opportunity? Big hype? Big Business? Big Challenge? Big Hacking? Gérard Peliks planche 2

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

BIG DATA et EDISCOVERY

Magasins et entrepôts de données (Datamart, data warehouse) Approche relationnelle pour l'analyse des données en ligne (ROLAP)

Big Data et la santé

AXIAD Conseil pour décider en toute intelligence

Extension fonctionnelle d un CRM. CRM étendu >> Conférence-débat 15 April Club Management des Systèmes d Information de l'iae de Paris Alumni

Cassandra et Spark pour gérer la musique On-line

IBM Cloudant Data Layer Local Edition

BIG DATA : comment étendre et gérer la connaissance client? François Nguyen SFR Directeur SI décisionnel & Mkt relationnel GP

Big Data. SRS Day Ali FAWAZ Etienne CAPGRAS. Membres du groupe : Coaché par :

Transcription:

Les enjeux du Big Data Innovation et opportunités de l'internet industriel

François Royer froyer@datasio.com Accompagnement des entreprises dans leurs stratégies quantitatives Valorisation de patrimoine de données industrielles Optimisation / création de services à valeur ajoutée Solutions innovantes de fouille assistée de données 2

Big Data Tout le monde en parle... 3

Le contexte Big Data 4

Le contexte Big Data 5

Le contexte Big Data Volume Variété Vélocité 6

Le phénomène Big Data Quels déclencheurs? 7

$ 700 000 Coût / GB d'un disque dur Apple en septembre 1981 $ 0.07 Coût / GB d'un disque dur 1 TB Hitachi aujourd'hui 8

Une culture quantitative grandissante dans les entreprises 9

Données métier

Données métier Autres sources de données intra-entreprise (logs web, CRM...)

Données métier Autres sources de données intra-entreprise (logs web, CRM...) Données externes

La ménagerie Big Data: Hadoop, Map/Reduce, Big table 13

Genèse 2 3 0 0 Google Filesystem 14

Genèse 3 04 0 20 20 Publication de MapReduce Google Filesystem 15

Genèse 3 04 0 20 20 6 0 20 Publication de MapReduce Google Filesystem Ouverture du code source 16

Genèse 3 04 0 20 20 Publication de MapReduce Google Filesystem 6 08 0 20 20 10000 machines @ Yahoo! Ouverture du code source 17

Genèse 3 04 0 20 20 Publication de MapReduce Google Filesystem 6 08 0 20 20 2 1 20 10000 machines Cluster 100 PB @ Yahoo! @ Facebook Ouverture du code source 18

Le web, premier utilisateur des technologies Big Data Data mining sur click stream Analyse d'image Production d'index Moteur d'enchères Conversion de 11 millions d'articles en PDF Spam screening (> 20 milliards de msg / jour) Entrepôt de données > 30 PetaOctets (2011) 19

Aux origines du Big Data: les clics de l'internaute USE CASE 20

Aux origines du Big Data: les clics de l'internaute 21

Big Data : applications industrielles Quelles opportunités?

Applications du Big Data rêves et réalités Collectivités: amélioration des services... Automobile: prédiction de pannes... Lutte contre la fraude Energie: smart meters Logistique et transports 23

Chevron : analyse de données sismiques sur Hadoop We collect large amounts of seismic data into this five-dimensional type data set, and the first thing we do is we sort it which is a great Hadoop use case [ ]. 24

FORMA FOREST MONITORING FOR ACTION 25

The Climate Corporation 26

Le Little Data, c'est fini? Non, les statistiques ont de beaux jours devant elles! 27

Promesses de l'analyse prédictive Nate Silver A prédit les résultats des élections US 2012 (50/52 états) Modèles bayésiens complexes ( MCMC ) Analytique =/= Big Data Maintenant chez ESPN (groupe Walt Disney - branche sport) 28

Quelles compétences? The sexiest job in the next 10 years will be statistician Hal Varian, Chief Economist at Google 29

Le Data Scientist métier d'avenir? 30

Le Big Data, pas pour les PMEs? Au contraire! 31

Les données, moteur d'innovation People to people Réseaux sociaux Blogs Communautés People to machine Documents Smart cards E-commerce Logs box/mobile Machine to machine Logs / capteurs GPS Code-barres Caméras 32

Acteurs du Big Data Anciens et nouveaux 33

Les usual suspects

Le contexte Big Data 130 Nouveaux acteurs Big Data depuis 2009 35

36

à suivre... 38

Cas d'étude E-commerce / medias 39

Big Data en e-commerce: analyse de texte et traitement du langage Analyse sémantique Indexation Moteurs de recherche Traitement du langage 40

Big Data en e-commerce: analyse de texte et traitement du langage Base d'apprentissage de + de 3 millions de fiches produits Un arbre de catégories de + de 4000 branches Données déstructurées Support au poste opérateur pour une équipe de 12 personnes 41

Cas d'étude Big Data industriel: les opportunités 42

Big Data Industriel 43

Big Data Industriel le mythique 1% 44 source: IBM

Big Data Industriel 45

L'internet industriel 46

Big Data Industriel Données types: séries temporelles Mais aussi rapports d'intervention, mesures intermittentes, transactions... 47

EDF Retour d'expérience présenté au Hadoop Summit 2012 Contexte: Changement climatique Pression technologique (IT, fabricants) Smart Grid Communications bidirectionnelles entre producteurs et comsommateurs Monitoring à haute résolution des usages Améliorer la résilience systémique, diminuer les couts et la dépendance énergétique Mixer Complex Event Processing + Data Mining à grande échelle CRM Prédiction de la consommation et de la prédiction Classification des courbes de charge par jour / consommateur 48

EDF Données: Courbes de charges individuelles Données contractuelles Mesures réseau 1 mesure / 10 mins / 35 millions de clients Volume annuel: 180 milliards de mesures = 120 TB Requêtes: Extraction de courbes de charge similaires à un patron cible (moyenne/médiane) Analytique: agrégation de courbes 49

EDF Volumes 10 TB compressé sur HDFS (réplication X3) Partitionnement des mesures consommateurs par jour: 25 GB journaliers, blocs de 10 MB DFS utilisé à 30 % (~30 TB) Hardware 20 noeuds sur 2 racks 7 X 1U noeuds avec 4 x 1 TB 13 X 2U noeuds avec 8 x 1 TB Total: 132 TB, 336 coeurs Performance ~ 1 minute pour calculer une courbe journalière agrégée (~ 10 GB de données) 50

info@datasio.com froyer@datasio.com TIC Valley - Bâtiment E-volution 425 rue Jean Rostand 31670 Labège