LES ENJEUX DU BIG DATA



Documents pareils
Données massives pour les smart-grids

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Introduction au Massive Data

Panorama des solutions analytiques existantes

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Hadoop, les clés du succès

Intégration de données complexes pour une vision 360 du client. Chloé Clavel EDF R&D Département ICAME

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Offre formation Big Data Analytics

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Les technologies du Big Data

HADOOP ET SON ÉCOSYSTÈME

Jean-François Boulicaut & Mohand-Saïd Hacid

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Big Data et Graphes : Quelques pistes de recherche

Labs Hadoop Février 2013

Big Data et Graphes : Quelques pistes de recherche

Comment valoriser votre patrimoine de données?

BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation

BIG DATA en Sciences et Industries de l Environnement

Le traitement du Big Data inclue la collecte, la curation, le stockage, l enrichissement, le croisement, la partage, l analyse et la visualisation.

BIGDATA AN 3 : UNE NOUVELLE ERE DE B.I.

Open Data et services de données à ERDF

AXIAD Conseil pour décider en toute intelligence

accompagner la transformation digitale grâce au Big & Fast Data Orange Business Services Confidentiel 02/10/2014

Anticiper et prédire les sinistres avec une approche Big Data

Big Data: comment passer de la stratégie à la mise en œuvre? Big Data Paris Mars 2015

L Art d être Numérique. Thierry Pierre Directeur Business Development SAP France

ERDF prend le virage technologique des Smart Grids

BI SWISS FORUM (ecom / SITB)


Cassandra et Spark pour gérer la musique On-line

Le Web, l'entreprise et le consommateur. Françoise Soulié Fogelman

Smart Grids, réseaux électriques intelligents

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

BIG Data et R: opportunités et perspectives

«L apport des réseaux électriques intelligents»

Entreprise et Big Data

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

SEMINAIRE SAS VISUAL ANALYTICS LAUSANNE, MARCH 18 : JÉRÔME BERTHIER VALERIE AMEEL

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

Les Entrepôts de Données

SÉRIE NOUVELLES ARCHITECTURES


Philippe Lemerle Big Data Secteur public. Copyright 2015, Oracle and/or its affiliates. All rights reserved.

Open Data. Enjeux et perspectives dans les télécommunications

Cartographie des solutions BigData

Big Graph Data Forum Teratec 2013

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

Plan 1/9/2013. Génération et exploitation de données. CEP et applications. Flux de données et notifications. Traitement des flux Implémentation

Accélérer l agilité de votre site de e-commerce. Cas client

transformer en avantage compétitif en temps réel vos données Your business technologists. Powering progress

IBM Software Big Data. Plateforme IBM Big Data

Introduction Big Data

Conserver les Big Data, source de valeur pour demain

Programmation parallèle et distribuée

Kick Off SCC 2015 Comment faire de votre infrastructure de stockage une source d économie? Vers de nouveaux horizons

La rencontre du Big Data et du Cloud

Les journées SQL Server 2013

AVEC LES. de votre. Pour vous. pitché. ENGIE, Hugues. Philippe. e, ORANGE, Nathalie. Fréderic GENERALE. SOCIETE. Aymeril PHILIPPE PALAT

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

TRAVAUX DE RECHERCHE DANS LE

Smartgrids: un mapping rapide

Hervé Couturier EVP, SAP Technology Development

Internet des Objets : le point de vue de Microsoft

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

ERDF et la Transition Energétique. CESE Nice le 23 avril 2014

LES SYSTEMES ELECTRIQUES INTELLIGENTS AU SERVICE DE LA VILLE NUMERIQUE ET DURABLE

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

I N S T I T U T QUELLES CONTRIBUTIONS AU SMART METERING? AFTERWORK ENERGY

Big Data -Comment exploiter les données et les transformer en prise de décisions?

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

BIG DATA et DONNéES SEO

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

LES NOUVEAUX FACTEURS DE COMPÉTITIVITÉ BASÉS SUR LA 3 ÈME PLATEFORME INFORMATIQUE. Sébastien LAMOUR IDC Research & Consulting Manager

Le nouveau visage de la Dataviz dans MicroStrategy 10

Big Data et Smart Home, le bilan d étape 2013

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

Monitoring continu et gestion optimale des performances énergétiques des bâtiments

Le BigData, aussi par et pour les PMEs

Présentation du module Base de données spatio-temporelles

Smart Metering et réseaux intelligents

SMARC La révolution des usages et des technologies : Quels impacts sur votre Stratégie Digitale. Mardi, le 21 avril 2015 SMARC G16

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

Solocal Group Solocal Group pilote ses audiences via un ensemble de tableaux de bord complètement automatisés grâce à l API AT Internet.

La dernière base de données de Teradata franchit le cap du big data grâce à sa technologie avancée

Résolvez vos problèmes d énergie dédiée à l informatique

Vision prospective et obstacles à surmonter pour les assureurs

Journée Futur et Ruptures 2015

Big Data On Line Analytics

Smartgrid: comment passer du démonstrateur au projet opérationnel?

#BigData Dossier de presse Mai 2014

Introduction au Data-Mining

Transcription:

LES ENJEUX DU BIG DATA POUR LA MISE EN PLACE DES SMART-GRIDS EDF R&D Marie-Luce Picard Projet SIGMA² 16 Janvier 2014

SMART GRIDS SMART METERS SMART DATA Partout dans le monde des projets smart-grids voient le jour, motivés par des contraintes économiques ou régulatoires, ou encore par des besoins environnementaux. Avec le développement de nouveaux usages comme le véhicule électrique, avec l augmentation des moyens de production décentralisée, de nouvelles perspectives apparaissent pour la gestion de l énergie. Un très grand nombre de compteurs communicants, et plus généralement de capteurs vont être déployés: ils vont EDF R&D - SIGMA² 2 provoquer un déluge de données auquel les compagnies énergétiques vont devoir faire face.

SMART METERING: A DATA DELUGE! En France : 35+ millions de compteurs intelligents des milliards d enregistrements Actuellement, un projet pilote a déployé 300K compteurs EDF R&D - SIGMA² 3

DONNÉES MASSIVES DANS LE DOMAINE DE L ÉNERGIE Enjeux, challenges: Plus de complexité dans le système électrique (production décentralisée, gestion de la demande.) Multiplication des acteurs Push technologique (compteurs communicants, internet des objets.) Nécessité d une bonne traçabilité des actions Le management des données et les nouvelles technologies vont être au cœurdes métiers d EDF EDF R&D - SIGMA² 4

DONNÉES MASSIVES DANS LE DOMAINE DE L ÉNERGIE Qu ya-t-il de nouveau? Digital utility : les systèmes physiques s accompagnentde systèmes numériques (transport, distribution, production), entrée de nouveaux acteurs, processus de décisions plus rapides Nouvelles sources de données Smart-* : données de comptage Linky, données de consommation détaillées, ou agrégées à des mailles fines, services, gestion de la demande, Multiplication des simulations Données issues du web (forums, blogs, tweets, mobiles ), open data Evolution des contraintes régulatoires Attentes citoyennes (transparence, services.) EDF R&D - SIGMA² 5

DONNÉES MASSIVES DANS LE DOMAINE DE L ÉNERGIE Difficultés. (facile) La technologie est là (stockage, certaines analyses ), d autant que les volumes à gérer sont importants mais pas colossaux (~100 To) Ce qui est moins facile : D un point de vue technique : Stockage et traitements complexes de SERIES TEMPORELLES Intégration des données Mise en œuvre de nombreux traitements sur des flux de données distribués (~temps réel, multi-échelle, apprentissage en ligne, scalabilité) Sécurité et privacy D un point de vue culturel : culture de la donnée, compétences et de nombreuses opportunités. De nombreuses opportunités (Energy/ BigData / Open Data) EDF R&D - SIGMA² 6

STOCKAGE ET EXPLOITATION DE COURBES DE CHARGE Objectifs: montrer la faisabilitéd un stockage massif de courbes de charges rendues disponibles pour un certain nombre de traitements (plus ou moins complexes, plus ou moins concurrents, avec une latence variable selon les besoins) Données: courbesde charge individuelles, données météo, informations contractuelles, données topologie réseau 1 mesure toutes les 10 mn pour 35 millions de clients Volume annuel : 1800 milliards de lignes, 120 TB de données brutes Operational DataWareHouse capable de : Supporter un gros volume de données Ingérer de nouvelles données (chargement, pré-traitement) Autoriser des requêtes simultanées, concurrentes : requêtes tactiques, requêtes analytiques, requêtes ad-hoc (i.e. non prévues, nouvelles) Critères d évaluation : concurrence et performances (QoS, SLA), convergence et agilité Solutions envisagées : VLDB traditionnels, Hadoop CourboGen pour générer les données en masse EDF R&D - SIGMA² 7

POC HADOOP: QUELQUES RÉSULTATS Toutes les données sont stockées sur HDFS Pour les données d une journée: volumes et temps de chargement Données brutes: 327 Go ; HDFS: 50 Go, Hive/HBase: 25-28 Go Upload: 3 heures 35M de courbes 1 semaine Les résultats sont globalement satisfaisants; pour certains types de traitements on peut presque parler de résultats compétitifs avec les approches traditionnelles Les requêtesunitaires tactiques sont gérées par HBase(3 mois de données) : faibles latences, avec un nombre important de requêtes concurrentes (~500) Les requêtes analytiques sont gérées par Hive(11 mois de données). La mise en place du système a nécessité un paramétrage important (partitionnement, taille des blocs, gestion des tâches.) EDF R&D - SIGMA² 8

STOCKAGE ET EXPLOITATION DE CDC Visualisation avec Tableau SoftWare - Projection sur une carte géographique -Calcul de synchrones par RE (~2 à 3 mn pour une synchrone quotidienne, pas 10 ) EDF R&D - SIGMA² 9

STOCKAGE ET EXPLOITATION DE CDC Validation de la faisabilité de la mise en place d un entrepôt de données opérationnel pour le stockage et la mise à disposition des données courbes de charge issues des compteurs communicants Certaines approches VLDB répondent aux critères de succès Lancement d un projet opérationnel: erdfa choisi une appliancevldb pour gérer l ensemble des données de mesure Les résultats obtenus avec Hadoopsont plus qu honorables (moins bon que les meilleurs, bien meilleurs que les moins bons), surtout sur les requêtes analytiques Hadoop peut être considéré comme une brique d un SI global (approche Total Data ) Archivage (les données demeurent actives) Transformation de la donnée (délégation de traitements lourds, tirer parti de la force brute du parallélisme) Données non structurées (texte, web) Expérimentations en cours (R&D) sur un SI agile incluant VLDB + Hadoop. EDF R&D - SIGMA² 10

ANALYSES AVANCÉES Certains besoins métier nécessitent la mise en œuvre d analyses avancées: Segmentation, scoring, prévision de consommation, détection d outliers. Exploitation des nouvelles données (courbes de charge, données non structurées.), éventuellement volumineuses Comment et où? Utilisation d algorithmes classiques de fouille ou d apprentissage, et/ou mise au point des algorithmes spécifiques Penser méthode et passage à l échelle Quand on traite de gros volumes, opter pour la mise en œuvre des méthodes in data-base Réflexion sur où placer les données et comment y accéder : VLDB, Hadoop Outils de data-miningclassiques SAS, R ou toolkits (RHadoop, Mahout, ) Compétences (SQL, SAS, R,. Hadoop/Java) : data-scientist? EDF R&D - SIGMA² 11

EXEMPLE - FROST (FIRST RELEASE OF TIME- SERIES TOOLKIT) FROST est un ensemble de fonctions utilisateurs définies sous HIVE permettant de manipuler un grand nombre de séries temporelles (passage à l échelle) FROST.JAR (First Release Of time Series Toolkit) Example : ADD JAR FROST.JAR; SELECT ID,SAX(POWER,8,3) FROM BIG.DATA GROUP BY DAY; SAX principle (Symbolic Aggregate approximation) Autres fonctions dans FROST : PAA : Piecewise Aggregate Approximation DFT : Discret Fourier Transform DWT : Discret Wavelet Transform et d autres méthodes «maison» Recherche de patterns atypiques à partir des courbes représentées en SAX EDF R&D - SIGMA² 12

EXEMPLE - RECHERCHE DE COURBES Objectif: rechercher des courbes de charge similaires parmi un grand nombre de séries Top-K ou range queries basées sur une mesure de similarité Fenêtes glissantes ou sautantes Fonctions UDF dans Hadoop. EDF R&D - SIGMA² 13

EXEMPLE - RECHERCHE DE COURBES (2) Données: 35 millions de courbes, 1 mois Top-5 (outop-500), fonctionsudafavec des fenêtres sautantes ~4 mn45s EDF R&D - SIGMA² 14

EXEMPLE : ANALYSE DE DONNÉES NON STRUCTURÉES Analyse de données structurées et non structurées avec Hadoop Motivations: digitalisation de la relation client, vision 360 du client, sentiment analysis Analyse de mails, tweets, blogs, forums. Mise en place d un environnement d analyse de textes basé sur Hadoop Ingénierie du document Analyse linguistique (simpliste pour l instant) Clustering Visualisation (graphes interactifs) Utilise Mahout, Lucene, sigma.js EDF R&D - SIGMA² 15

EXEMPLES - TRAITEMENTS DE DONNÉES A LA VOLÉE (CEP REAL-TIME ANALYTICS) Entrées Sorties Data in motion Smart Metering Data Stream http://storm-project.net/ Agrégats simples : ex. synchrone globale Agrégats ventilés : ex. synchrones par groupe tarifaire Prévisions Météo Analytics : ex. scoring par compteur Data at rest Tarifs statiques / dynamiques Données clients (par exemple tarif) Prévisions : ex. Prévisions J+1 en Wh et en CA POC réalisé avec la société OCTO Technology Modèles GAM réalisés sous R EDF R&D - SIGMA² 16

CONCLUSION La donnée, un atout pour les utilities, en particulier pour la mise en place des smart-grids Les technologies BigData permettent de répondre à de nombreux cas d usage, parfois en rupture avec les processus traditionnels Appliances VLDB pour certains besoins critiques Montée en puissance de Hadoop, brique complémentaire dans le SI permettant d exploiter et de valoriser l ensemble des données Nécessité de mettre en œuvre des analyses à grande échelle (large-scaledata analytics) Importance des séries temporelles On-line machine learning, automatisme et adaptativitédes modèles (prévision de production et de consommation, gestion de la demande) EDF R&D - SIGMA² 17

RÉFÉRENCES A proof of concept with Hadoop: storage and analytics of electrical time-series. Marie-Luce Picard, Bruno Jacquin, Hadoop Summit 2012, Californie, USA, 2012. présentation : http://www.slideshare.net/hadoop_summit/proof-of-concent-with-hadoop vidéo: http://www.youtube.com/watch?v=mjzblmbvt3q&feature=plcp Massive Smart Meter Data Storage and Processing on top of Hadoop. Leeley D. P. dos Santos, Alzennyr G. da Silva, Bruno Jacquin, Marie-Luce Picard, David Worms,Charles Bernard. Workshop Big Data 2012, Conférence VLDB (Very Large Data Bases), Istanbul, Turquie, 2012. http://www.cse.buffalo.edu/faculty/tkosar/bigdata2012/program.php Smart Metering x Hadoop x Frost: A Smart Elephant Enabling Massive Time Series Analysis. Benoît Grossin, Marie-Luce Picard, Hadoop Summit Europe 2013, Amsterdam, Mars 2013 http://hadoopsummit.org/amsterdam/ Searching time-series with Hadoop in an electric power company. Alice Bérard, Georges Hébrail, BigMine Workshop, KDD2013, Chicago, August 2013 http://bigdata-mining.org/ Simulation and forecasting electricity demand at scale Alexis Bondu, Yannig Goude, Marie-Luce Picard, Pascal Pompey, Mathieu Sinn, European Utility Week, Amsterdam, October 2013. http://www.european-utility-week.com/ EDF R&D - SIGMA² 18

REMERCIEMENTS Remerciements- Travail réaliséavec : Alice Bérard, Alexis Bondu, Charles Bernard, LeeleyDaio-Pires-Dos-Santos, AlzennyrGomes DaSilva, YannigGoude, BenoîtGrossin, Georges Hébrail, Bruno Jacquin, JiannanLiu, Vincent Nicolas, David Worms EDF R&D - SIGMA² 19