SOA - BRMS - ESB - BPM CEP BAM - High Performance Compute & Data Grid - Cloud Computing - Big Data NoSQL - Analytics Labs Hadoop Février 2013 Mathias Kluba Managing Consultant Responsable offres NoSQL et Big Data Février 2013
Qu est-ce que le BigData? (rappel) 2
Définition Big data («grosses données» ou grande quantité de données) est une expression anglophone utilisée pour désigner des ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données. Source: Wikipedia 3
Définition BIG DATA Volume Velocity Variety 4
Définition BIG DATA Volume Velocity Variety Complexity 5
Type de données Externe Fournisseurs de données B2B Réseaux sociaux Web Open Data Interne DataWarehouse ODS CRM ERP CMS Email, Chat Réseaux sociaux d Entreprise structurées non structurées 6
A quoi sert le BigData? ProblémaHque technique Réduire les coûts Augmenter la capacité des volumes à traiter Améliorer les performances ProblémaHque méher Obtenir de la valeur des données inexploitées Anticiper l avenir (analyse prédictive) 7
Maitriser les coûts liés au volume Comment maitriser les coûts? Le coût du matériel n est pas linéaire avec sa puissance Stockage cher: limites des NAS, coût des SAN Limite de l upgrade d un serveur physique Coût de migration 8
Maitriser les coûts liés au volume 001011011 011001110 101100011 Solution: Scalabilité horizontale Linéariser les coûts Distribuer les données Distribuer et co-localiser les traitements Consommation élastique (grâce au Cloud) 9
Use cases Cross Sell Une entreprise qui vent de nombreux produits. Agréger les données des ventes des différents produits. Déterminer des catégories de consommateurs, pour prédire les «patterns» de consommation, et maximiser les ventes (publicités ciblés). SNA (Social Network Analysis) / E- ReputaHon Collecte des retours des clients par différents moyens: Service après vente, Forum, Réseaux sociaux, etc. Analyse sémantique, pour déterminer la réputation d un produit / service. Objectifs: Orienter la stratégie marketing, améliorer le SAV, etc. 10
Problématique métier VALUE VALUE ++ BigData Tableau de bord BigData Analyses prédictives 11
Cycle itératif d analyse Filtre / Nettoyage Calculs / Agrégations Réagrégations Extraction (records) Insights / Analytics 5 4 3 2 1 0 12
Solutions BigData 001011011 011001110 101100011 Données d entrée Traitement Données de sortie Dashboard Reporting Navigation 13
Solutions BigData Données d entrée (DB, fichiers, flux, etc.) Mon SI 001011011 011001110 101100011 Mon architecture BigData Collecteurs Données à analyser Stockage distribué Reporting Traitements distribués Export OLAP RDBMS Données de sortie Stockage distribué Data Navigation Data Navigation / Dashboard / Reporting 14
Solutions BigData Données d entrée (DB, fichiers, flux, etc.) SpotFire, Jasper, Birt, Pentaho, Reporting Mon SI 001011011 011001110 101100011 Mon architecture BigData Collecteurs Sqoop Flume Talend Custom Données à analyser Stockage distribué Traitements distribués HDFS GlusterFS Mongo Cassandra Gigaspaces Hadoop MapReduce (+ Pig, Hive, Cascalog) ActivePivot Gridgain Gigaspaces Data Navigation OLAP SpotFire, QlikView, Pentaho Excel, ActivePivot RDBMS Export Sqoop Talend Custom Données de sortie Stockage distribué Data Navigation / Dashboard / Reporting HBase Mongo Cassandra ActivePivot QlikView, Tableau, SpotFire, Pentaho Jasper, ActivePivot Custom 15
Qu est-ce que Hadoop? 16
Eco-système Hadoop GlusterFS Zookeeper PIG 17
Ce qu on trouve dans les distribution Hadoop GlusterFS Zookeeper PIG 18
Le minimum GlusterFS Zookeeper PIG 19
Distributions InfoSphere BigInsights Serengeti 20
Comment ça marche? Hadoop MapReduce Hadoop Distributed FileSystem (HDFS) 21
Hadoop Map Reduce? MAP REDUCE 3 4 5 22
Hadoop Map Reduce? b a b b a b InputFormat Mapper InputFormat Mapper InputFormat Mapper b : 1 a : 1 b : 1 b : 1 a : 1 b : 1 Combiner Combiner Combiner b : 1 a : 1 b : 2 a : 1 b : 1 Partitioner Partitioner Suffle and Sort Partitioner a : 1 a : 1 b : 1 b : 2 b : 1 Reducer OutputFormat Reducer OutputFormat a : 2 b : 4
Hadoop HDFS? JobTracker NameNode Master Backup TaskTracker DataNode TaskTracker DataNode Slave Slave
In the end: Classical Hadoop architecture Oozie (scheduler + workflow) Hive (SQL) Sqoop PIG Cascading (Java, Cascalog, etc.) Mahout HBase Map Reduce Framework (Java / Stream (Python,.Net, etc.)) HDFS NoSQL (MongoDB, Cassandra, etc.) Export Sqoop SQL Import Flume/Sqoop
" Contactez nous " www.fastconnect.fr " blog.fastconnect.fr " sales@fastconnect.fr