Le BIG DATA????? Big Buzz? Big Bang? Big Opportunity? Big hype? Big Business? Big Challenge? Big Hacking? Gérard Peliks planche 2



Documents pareils
FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Introduction Big Data

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Big data* et marketing

SÉRIE NOUVELLES ARCHITECTURES

Big Data. Concept et perspectives : la réalité derrière le "buzz"

Transformez vos données en opportunités. avec Microsoft Big Data

BIG DATA en Sciences et Industries de l Environnement

À PROPOS DE TALEND...

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Big Data et la santé

Les datas = le fuel du 21ième sicècle

Programmation parallèle et distribuée (Master 1 Info )

Il y a tellement de hype autour du big data que Gartner étudie un nouveau modèle ;-) Talend

Quels choix de base de données pour vos projets Big Data?

Document réalisé par Khadidjatou BAMBA

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Le potentiel et les défis du Big Data. Mardi 2 et Mercredi 3 Juillet 2013

Panorama des solutions analytiques existantes

Journées Big Data à l ENSAI Big Data: les challenges, les défis

Le BigData, aussi par et pour les PMEs

BIG Data et R: opportunités et perspectives

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting

Cartographie des solutions BigData

BIG DATA : GESTION ET ANALYSE DES DONNÉES MASSIVES (BGD) Mastère Spécialisé. Appréhendez les challenges économiques et juridiques du Big Data

Les technologies du Big Data

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

GT Big Data. Saison Bruno Prévost (Safran), Marc Demerlé (GDF SUEZ) CRiP Thématique Mise en œuvre du Big Data 16/12/14

HADOOP ET SON ÉCOSYSTÈME

Big Data : Risques et contre-mesures

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

La rencontre du Big Data et du Cloud

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Offre formation Big Data Analytics

Fouillez facilement dans votre système Big Data. Olivier TAVARD

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

Introduction à MapReduce/Hadoop et Spark

Entreprise et Big Data

Big Data? Big responsabilités! Paul-Olivier Gibert Digital Ethics


Big Graph Data Forum Teratec 2013

Fiche Pratique. Big Data : transformer les données en valeur business pour l entreprise BIG DATA

Les quatre piliers d une solution de gestion des Big Data

accompagner la transformation digitale grâce au Big & Fast Data Orange Business Services Confidentiel 02/10/2014

Big data : vers une nouvelle science des risques?

Big Data On Line Analytics

PROFILAGE : UN DEFI POUR LA PROTECTION DES DONNEES PERSONNELLES Me Alain GROSJEAN Bonn & Schmitt

Programmation parallèle et distribuée

Anticiper et prédire les sinistres avec une approche Big Data

QLIKVIEW ET LE BIG DATA

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

Programmation parallèle et distribuée

Tables Rondes Le «Big Data»

économie & entreprise SPÉCIAL «BIG DATA»

Big Data: développement, rôle des ARS?? Laurent Tréluyer, ARS Ile de France Alain Livartowski Institut Curie Paris 01/12/2014

IBM Software Big Data. Plateforme IBM Big Data

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Protection des données personnelles : Vers un Web personnel sécurisé

Surmonter les 5 défis opérationnels du Big Data

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Big Data. SRS Day Ali FAWAZ Etienne CAPGRAS. Membres du groupe : Coaché par :

L univers du Big Data. Par JF GOGLIN Conseiller national SIS Conférence de Territoire Yvelines

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Comment valoriser votre patrimoine de données?

BIGDATA AN 3 : UNE NOUVELLE ERE DE B.I.

Analytics Platform. MicroStrategy. Business Intelligence d entreprise. Self-service analytics. Big Data analytics.

Webinar EBG Nouvelles perspectives d'exploitation des données clients avec le big data

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

CONFERENCE TECHNOM AIDE IBM

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

DEMARREZ RAPIDEMENT VOTRE EVALUATION

Emergence du Big Data Exemple : Linked Open Data

Exploration des Big Data pour optimiser la Business Intelligence

Me#re le Big Data sur la carte : défis et avenues rela6fs à l exploita6on de la localisa6on

Big Data et Statistique Publique

L INTÉGRATION ENTRE BUSINESS INTELLIGENCE ET WEB ANALYTICS

Labs Hadoop Février 2013

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

UNE MINE D'INFORMATIONS POUR LES ENTREPRISES

Workshop Big Data Valère DUSSAUX (GCS-D-SISIF) Bruno PREVOST (SAFRAN) Point d avancement

Mégadonnées (Big data) et Complexité Session introductive

Introduction au Data-Mining

armez-vous La digitalisation est une guerre mondiale LIVRE BLANC Le Big Data, sans tabou ni fausse promesse Ingénieur, Docteur en STIC

AXIAD Conseil pour décider en toute intelligence

Jean-François Boulicaut & Mohand-Saïd Hacid

Fouille de données massives avec Hadoop

Emergence du Big Data Exemple : Linked Open Data

Big Data Jean-Michel Franco

Cassandra et Spark pour gérer la musique On-line

Big Data, un nouveau paradigme et de nouveaux challenges

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

Bases de données documentaires et distribuées Cours NFE04

Les RH à l ère du Big Data: faites parler vos données! Mesurez et optimisez la performance de vos programmes RH 18 septembre 2013

Les données massives de Copernicus : vers un nouveau paradigme. Hervé Jeanjean Cnes

Transcription:

Le BIG DATA????? Big Bang? Big hype? Big Challenge? Big Buzz? Big Opportunity? Big Business? Big Hacking? Gérard Peliks planche 2

Les quatre paradigmes de la science en marche Paradigme 1 : L empirisme La science basée sur l observation des phénomènes naturels. Paradigme 2 : Les sciences dures La théorisation permet l explication des phénomènes observables. Paradigme 3 : La simulation sur ordinateur Pour valider ou réfuter des théories. Paradigme 4 : Le Big Data L ordinateur fait des découvertes par lui-même, en trouvant des liens statistiques au sein de milliards de données. Gérard Peliks planche 3 Une définition du Big Data Gérard Peliks planche 4

Le Big Data ou déferlante informationnelle, le champ des nouveaux possibles Les 3 Des analogies pour comprendre Les technologies du Big Data Le marché Les compétences et pour conclure Les 3 " V " Gérard Peliks planche 5 Gérard Peliks planche 6

Le BIG DATA,un modèle tri-dimensionnel : les 3 " V " V a r i é t é V é l o c i t é V o l u m é t r i e Gérard Peliks planche 7 V comme Volumétrie Une unité pour le Big Data : le Zettaoctet Teraoctet : 1000 Gigaoctets (10 12 octets) Twitter, Facebook par jour Petaoctet : 1000 Teraoctets (10 15 octets) Facebook, Google, Exaoctet : 1000 Gigaoctets (10 18 octets) Quantité d info/jour / (5 exaoctets) Zettaoctet : 1000 Exaoctets ou 1000 milliards de Gigaoctets (10 21 octets) Yottaoctet : 1000 Zettaoctets (10 24 octets) NSA datacenter (1 Yo sur 92000 m 2 ) Le volume de la connaissance : étude de EMC-CDC 1,8 zettaoctets en 2011, 2,9 zettaoctets en 2015 (18 millions de fois le contenu de la Librairie du Congrés) 35 zettaoctets en 2020 Gérard Peliks planche 8

V comme Volumétrie La production des données réseaux sociaux Twitter génère 7 teraoctets par jour Facebook génère 10 téraoctets par jour La NSA est parvenue à aspirer plus de 180 millions de fichiers sur Google et sur Yahoo Son plus grand site (sur 6) dans l Utah pourrait stocker un yottaoctet Gérard Peliks planche 9 V comme Volumétrie La production des données, par jour 143 milliards de courriels 540 millions de SMS 400 millions de tweets 104 000 heures de vidéos ajoutées sur YouTube 0,05% des données sont analysées Gérard Peliks planche 10

V comme Volumétrie La production des données Open Data L Open Data recouvre l ouverture gratuite des données publiques et privées au grand public et aux entreprises Les 27 pays de l Union Européenne doivent, sous 18 mois, donner accès à leurs données publiques www.data.gouv.fr : 355 000 informations publiques Gérard Peliks planche 11 V comme Volumétrie La production des données Capteurs (puces RFID, caméras de surveillance, Linky, Google glass ) Internet des Objets (15 milliards d objets connectés en 2015) Web 2.0, Web 3.0 MOOC (Massive Open Online Courses) Gérard Peliks planche 12

V comme Volumétrie Le déluge, c est maintenant Aujourd hui, en 2 jours, l humanité produit bien plus de données que depuis l invention de l imprimerie jusqu en 2003. Dans 8 ans, la masse de données sera 50 fois supérieure. Dans les dernières 20 secondes, plus d informations ont traversé le net qu il n en existait sur le web il y a 20 ans 90% des données du monde ont été créées ces deux dernières années (estimation IBM) Mais le volume seul ne fait pas le BIG DATA Gérard Peliks planche 13 V comme Vélocité Nous entrons dans l'ère de l'immédiateté Vous traverseriez une rue en n ayant qu une photo prise il y a 5 minutes? La donnée bouge dans un monde qui bouge La vélocité fait référence à la vitesse à laquelle changent les données, ainsi qu à la vitesse auxquelles celles-ci doivent être utilisées pour en tirer de la valeur Google parcourt 100 petaoctets en moins d une d seconde Gérard Peliks planche 14

V comme Variété Blogs, réseaux sociaux, tweets, textes, images, photos, vidéo, musiques, transactions Plus de 1000 formats différents Evolution de la structure des données En 2000, 30% des données étaient non structurées, 70% structurées dans des BD En 2012, 70% des données sont non structurées et 30% structurées Des informations qui étaient difficilement dicernables (signaux faibles) apparaissent Ce n est n pas tant la taille des données qui est importante, que leur diversité et la multiplicité de leurs origines Gérard Peliks planche 15 Les 4 autres " V " V i s u a l i s a t i o n V é r a c i t é V a l e u r V i r t u e l Gérard Peliks planche 16

Gérard Peliks planche 17 Des analogies pour comprendre la rupture induite par le Big Data Avec le Big Data, on ne regarde plus la trajectoire des molécules on découvre la thermodynamique Ce ne sont plus les 30 rumeurs de la page 2 du Canard Enchaîné, ce sont les 200 000 documents d un coup de Wikileaks On donne du sens au déluge de données Donnée -> Information -> Culture ->Profit Celui qui contrôlera les métadonnées, contrôlera le Web Tim Berners-Lee Les données sont-elles le nouveau pactole pétrolier? Extraire, raffiner, distribuer 20eme siècle, siècle du pétrole ; 21eme siècle celui de la donnée Gérard Peliks planche 18 by calwest

Des analogies pour comprendre la rupture induite par le Big Data Au fond, on se comporte aujourd'hui face aux données du web comme un biologiste qui prétendrait tout connaître de la pensée parce qu'il dispose de belles images d'irm. Il verrait effectivement des états d'activation des neurones, des zones d'activité du cerveau, mais que saurait-il de la mémoire, de la volonté, des affects et des passions? Rien. Henri Verdier Gérard Peliks planche 19 Gérard Peliks planche 20

D où viennent les technologies du Big Data? Des solutions majoritairement open source (fondation Apache) Source : Enjeux et usages du Big Data Lavoisier Gérard Peliks planche 21 Les bases technologiques du Big Data Hadoop Framework Java, open source de la fondation Apache, créé par Yahoo!. Il permet de paralléliser les tâches et d utiliser donc un grand nombre de serveurs. Première distribution d Hadoop en janvier 2012 HDFS (Hadoop Distributed File System) Map/Reduce Popularisé par Google, c est une librairie de calculs massivement parallèles, distribués, qui porte sur des données potentiellement très volumineuses. Bases de données «NoSQL» : Hbase et Cassandra Bases de données distribuées. Interrogation de base de données NoSQL Hive, langage d interrogation, genre SQL Créateur Doug Cutting Gérard Peliks Source : Enjeux et usages du Big planche Data Lavoisier 22

MapReduce, le calcul massivement parallèle Gérard Peliks planche 23 Evolution des outils : Hadoop 2.0 La fondation Apache a livré la version 2.0 du framework Hadoop YARN : «Yet Another Resource Negociator» succède à MapReduce Gestion des ressources avec Resources Manager Monitoring et surveillance avec Node Manager Haute disponibilité du système de fichier distribué HDFS Exécution aussi sour Windows Compatibilité avec Hadoop 1.0 Gérard Peliks planche 24

Gérard Peliks planche 25 Quand le Small Data rencontre le Big Data Le Small Data va rencontrer le Big Data «Voilà ce que je désire, vous me connaissez, vous connaissez mes besoins, faitesmoi vos propositions» Avec le Small Data, le pouvoir est au demandeur Cartographie des compétences Comparaison des honoraires des médecins Hummingbird : un nouvel algorithme pour Google Search Gérard Peliks planche 26

Quand l Open Data rencontre le Big Data www.etalab.gouv.fr/ www.usine-digitale.fr/article/la-revolution-de-la-donnee-va-bouleverser-notre-vision-du-systeme-de-sante-previent-henri-verdier.n193665 Gérard Peliks planche 27 Le marché du Big Data Une augmentation de 60% par an 36 milliards de dollars en 2013 55 milliards de dollars en 2016 (Gartner) et 10 fois plus de serveurs nécessaires 4,4 millions d emplois dans le monde d ici 2015 (Gartner et IBM) Ceux qui l utilisent aujourd hui : Les offreurs de solutions : Microsoft, Oracle, IBM, SAP, HP, EMC Les utilisateurs: Google, Amazon, Facebook, Twitter, LinkedIn, NSA, Orange, SFR Principaux marchés Services financiers, santé, secteur public, 55% du marché du big data en 2012 (Transparency Market Research) Gérard Peliks planche 28

Le marché du Big Data Commerce (prix décidés par les données et les algorithmes) On peut s attendre à des services proposés en SAS Big Data as a Service Hadoop as a Service (HaaS) Analytics & Visualisation as a Service La feuille de route du gouvernement retient le Big Data au rang des technologies stratégiques, avec les objets connectés et la cybersécurité. Penser grand mais commencer petit et avancer vite (cigref) Le Big Data, c est maintenant! Gérard Peliks planche 29 Les 5 mesures du plan de soutien du gouvernement sur le Big Data avril 2013 1. Ouverture de formations de Data Scientists On estime à 300 000 le nombre de datascientists nécessaires à l'europe Fleur Pellerin 2. Mise à disposition pour les start-up d'un kit de briques technologiques nécessaires à leur croissance 3. Renforcement de la chaîne de financement de l'innovation dans le Big Data 11,5 millions d euros pour 7 projets de Big Data en particulier sur les transports ou la santé (Louis Gallois, commissaire général à l Investissement)) 4. Stimuler de l'écosystème du Big Data, en créant un réseau social en France http://www.medef.com/medef-tv/videos/detail/medeftv/fleur-pellerinstructurer-une-filiere-autour-du-big-data-et-des-objets-connectes.html Gérard Peliks planche 30

Le Big Data et la Santé En 2012, Microsoft et le Technion prédisent une épidémie de choléra à Cuba, maladie disparue depuis 50 ans. Prédiction basée sur des probabilités. L épidémie a vraiment eu lieu. Google Flu Trends http://goo.gl/suqjd Gérard Peliks planche 31 Le Big Data et la Santé Dossiers médicaux Génomique Premier séquençage ADN humain : 3 milliards de nucléotides Il a fallu 11 ans (1990-2001) et 3 milliards de dollars Aujourd hui : quelques jours et 1000 dollars Imagerie médicale A l INRIA de Rennes sont étudiées les corrélations entre les images du cerveau et le patrimoine génétique des patients Quid de l anonymisation des données? et de la ré-identification d une personne? 96% des patients sont identifiés en se basant sur leurs historiques médicaux (Bradley) Quel choix entre utilité maximale des données et confidentialité absolue? McKinsey estime le potentiel économique annuel du Big Data, pour le système de santé US, à 300 milliards de dollars, soit 1000 dollars par habitant et par an. Gérard Peliks planche 32

Le Big Data et Big Brother Programme XKeyscore de la NSA Du 10 dec 2012 au 8 janv 2013, d après Le Monde et Ed. Snowden 70,3 millions de données téléphoniques, en France, enregistrées Données wanadoo.fr et alcatel-lucent écoutées 150 sites de collecte (ambassades US) Stockage dans 700 serveurs Capacité d aspiration de la NSA La NSA est parvenue à aspirer plus de 180 millions de fichiers sur Google et sur Yahoo Son plus grand site (sur 6) dans l Utah pourrait stocker un yottaoctet ou un siècle de conversation téléphonique des US, et plusieurs années de flux internet mondiall Gérard Peliks planche 33 Source : Le Figaro Le Big Data et la cyber sécurité SIEM Techniques d anonymisation et d effacement automatique Sécurité des Clouds publics et privés Police prédictive? Minority report de Spielberg Analyse des évènements piégés dans des honeypots Corrélation de signaux, mêmes faibles, et visualisation des attaques Machine learning SOC Gérard Peliks planche 34

Gérard Peliks planche 35 Les compétences requises en Big Data Les «Data Scientists» ou experts en science de la donnée Collecter, nettoyer, corréler, analyser, visualiser l information à partir des data Interface entre la statistique, l informatique, les mathématiques et les enjeux socioéconomiques Data visualisation Sciences humaines, sémantique, linguistique, design (infovisualisation) Data Scientists vs Data Analysts Le Data Analyst ne regarde que les données issues d une seule source (ex CRM) Le Data Scientist explore et examine les données venant de sources hétérogènes, parfois peu fiables avec des informations lacunaires. Il fait parler les données et en sort des indicateurs concrets au service de la direction générale Le Data Scientist doit savoir communiquer, convaincre : il aide à la décision Analogie avec la sécurité de l Info : Data Analyst = RSSI ; Data Scientist = CSO Le CDO (Chief Data Officer) transmet au comité de direction les observations et analyses appuyées sur les données, afin d éclairer davantage la prise de décision. Gérard Peliks planche 36

Gérard Peliks planche 37 Mythes et légendes du Big Data Ivan de Lastours, Direction de l'innovation de l'institut Mines-Télécom MYTHE N 1 : Le Big Data, c'est le Cloud Computing 2.0 MYTHE N 2 : Mon entreprise utilise déjà le Big Data depuis plusieurs années MYTHE N 3 : Le Big Data marque une rupture technologique MYTHE N 4 : Le Big Data, signifie la fin des bases de données relationnelles MYTHE N 5 : Le marché du Big Data est à prendre tout de suite http://www.forumatena.org/node/358 Gérard Peliks planche 38

Le Big Data, un changement de paradigme Ce qui fait tout l'intérêt du Big Data, ce ne sont pas les données en elles-mêmes, mais leur mélange avec toutes vos données stratégiques. Plus qu un traitement statistique massif des données et leur corrélation avec d autres données, c est la science qui évolue. Gérard Peliks planche 39 Gérard Peliks planche 40