HADOOP ET SON ÉCOSYSTÈME Mars 2013 2012 Affini-Tech - Diffusion restreinte 1
AFFINI-TECH Méthodes projets Outils de reporting & Data-visualisation Business & Analyses BigData Modélisation Hadoop Technos Sciences Statistiques (R) NoSQL Machine Learning Cloud Intégration, Mise en Oeuvre, Conseil et Formation Une démarche intégrée de bout en bout 2
Collecter Stocker Traiter Analyser Valoriser Présenter Organiser 2012 Affini-Tech - Diffusion restreinte 3
Collecter Stocker Traiter Analyser Valoriser Présenter Organiser BigData Data- Science Décisionnel 2012 Affini-Tech - Diffusion restreinte 3
Collecter Stocker Traiter Analyser Valoriser Présenter Organiser BigData Data- Science Décisionnel 2012 Affini-Tech - Diffusion restreinte 3
Collecter Stocker Traiter Analyser Valoriser Présenter Organiser BigData Data- Science Décisionnel Votre infrastructure 2012 Affini-Tech - Diffusion restreinte 3
Collecter Stocker Traiter Analyser Valoriser Présenter Organiser BigData Data- Science Décisionnel Votre infrastructure Notre Cloud 2012 Affini-Tech - Diffusion restreinte 3
AGENDA BigData Hadoop & Datawarehouses Evolutions Performances Cas d utilisation 4
5
6
6
LES 4 V DU BIGDATA 7
LES 4 V DU BIGDATA Volume : les technologies actuelles sont inadaptées à cette croissance effrénée. Variété : l entreprise est confrontée à des données non structurées : emails, web, réseau sociaux, son, image, video... Vélocité : L accès et le partage des données doit se faire en temps réel. Variabilité : On ne sait pas prévoir l évolution des types de données 7
Valeur unitaire Valeur des données Volume 8
Transactionnelles Valeur unitaire Valeur des données Volume 8
Transactionnelles Historisées : B.I. Valeur unitaire Valeur des données Volume 8
Transactionnelles Historisées : B.I. Valeur unitaire Valeur Big Data des données Volume 8
Transactionnelles Cout Historisées : B.I. Valeur Big Data des données Volume 8
Performance Volume 9
Performance SQL Volume 9
Performance SQL MPP Volume 9
Performance SQL MPP Volume 9
Performance SQL MPP Volume Variété 9
HDFS NameNode DataNode DataNode DataNode 10
Map / Reduce HDFS NameNode DataNode DataNode DataNode 10
Map / Reduce HBase HDFS NameNode DataNode DataNode DataNode 10
Hive HCatalog Pig Mahout Cascading Crunch Map / Reduce HBase HDFS NameNode DataNode DataNode DataNode 10
Hive Pig Cascading Flume HCatalog Mahout Crunch Sqoop Map / Reduce HBase HDFS NameNode DataNode DataNode DataNode 10
Hive Pig Cascading Flume HCatalog Mahout Crunch Sqoop Ambari Map / Reduce HBase HDFS NameNode DataNode DataNode DataNode 10
ET LES DATAWAREHOUSES 11
B.I. TRADITIONNELLE Transactionnel 12
B.I. TRADITIONNELLE Transactionnel DataWarehouse 12
B.I. TRADITIONNELLE 10% 7% 8% 35% 11% 200 29% 150 100 50 0 2007 2008 2009 2010 Transactionnel DataWarehouse BI Applications 12
B.I. TRADITIONNELLE 10% 7% 8% 35% Transactionnel DataWarehouse & DataMarts 11% 200 29% 150 100 50 0 2007 2008 2009 2010 BI Applications 12
: ETL++ 8% 7% 35% 10% Non-Structuré 200 150 11% 29% 100 50 0 Transactionnel DataWarehouse & DataMarts 2007 2008 2009 2010 BI Applications 13
: ETL & DW 10% 7% 8% 35% Non-Structuré 200 150 11% 29% 100 50 0 2007 2008 2009 2010 Transactionnel ETL & DW DataMarts BI Applications 14
: EDW Non-Structuré 200 150 100 50 10% 11% 7% 8% 29% 35% 0 2007 2008 2009 2010 Transactionnel ETL & DW & DataMarts BI Applications 15
EVOLUTIONS Différentes Workloads Map / Reduce ne suffit plus Productivité du développeur Ouverture de l écosystème Performances 16
TYPES DE WORKLOADS Batch Latence Minutes à Heures Volume To à Po Modèle Map / Reduce Utilisateurs Développeurs 17
TYPES DE WORKLOADS Batch Stream Latence Minutes à Heures Continu Volume To à Po Flux continu Modèle Map / Reduce DAG Utilisateurs Développeurs Développeurs 17
TYPES DE WORKLOADS Batch Stream Interactif Latence Minutes à Heures Continu Millisecondes à Minutes Volume To à Po Flux continu Go à Po Modèle Map / Reduce DAG Requêtes SQL Utilisateurs Développeurs Développeurs Analystes 17
HADOOP 1 : MAP / REDUCE Task Tracker Client Client Job Tracker Task Task Task Tracker Task Tracker 18
HADOOP 1 : MAP / REDUCE Task Tracker Client Client Job Tracker Task Task Task Tracker Task Tracker 18
HADOOP 1 : MAP / REDUCE Task Tracker Client Job Tracker Task Task Tracker Task Client Task Task Task Tracker Task Task 18
HADOOP 2 : YARN Node Client Ress Node Node 19
HADOOP 2 : YARN Node Client Ress Node Node 19
HADOOP 2 : YARN Node Client Master Ress Node Node 19
HADOOP 2 : YARN Node Client Master Ress Node Node 19
HADOOP 2 : YARN Node Container Client Master Ress Node Container Node 19
HADOOP 2 : YARN Node Container Client Master Ress Node Container Client Node 19
HADOOP 2 : YARN Node Container Client Master Ress Node Container Client Master Node 19
HADOOP 2 : YARN Node Container Client Master Ress Node Container Client Master Node 19
HADOOP 2 : YARN Client Node Master Container Container Ress Node Container Client Master Container Node Container Container Container 19
YARN Scalabilité (de 4K nodes à 10K+) Containers : unités de processing Utilisation optimale des ressources Compatibilité avec M/R v1 Autres modèles de programmation (MPI...) Haute-Disponibilité 20
PRODUCTIVITÉ DU DEVELOPPEUR Map/Reduce est contraignant! Alternatives masquant Map/Reduce : HIVE : SQL (+ interfaces JDBC) PIG : Séquences simples de transformation CASCADING : modèle de programmation simplifié pour tous les langages de la JVM 21
OUVERTURE DE L ÉCOSYSTEME Possibilité de substituer des parties d Hadoop par des codes extérieurs. remplace le tri natif de Hadoop pour améliorer les performances. Remplacement des connecteurs Hadoop par ceux d ETL classiques du marché 22
PERFORMANCES Hybridation Hadoop/RDBMS Impala : I/O directes & Bypass HDFS Tez : Réduction de la latence Spark : Map/Reduce in-memory 23
HADOOP + RDBMS Exporter les résultats de requêtes Hadoop vers un SGBD ou un appliance MPP Mixer un SGBD classique et un stockage Hadoop Le SGBD cache les données... Hadapt, CitusDB, PivotalHD, Microsoft Polybase 24
CLOUDERA IMPALA Projet propriétaire de Cloudera Fonctionnement proche des moteurs MPP & conserve un socle Hadoop Lecture directe des blocs sur disques Format colonne Etend les interfaces de Hive/SQL 25
APACHE TEZ & STINGER Supprimer les I/O intermédiaires Performances x45 Générique M/R 26
SPARK & SHARK Spark : Implémentation de M/R en mémoire. Structures de données distribuées. Performances sur les iterations : Machine-Learning Shark offre une compatibilité Hive/SQL Un projet de 27
CAS D UTILISATION Facebook Linkedin Comscore Voyages SNCF 28
MERCI! Vincent Heuschling Gsm : 06 61 88 76 71 Email : vhe@affini-tech.com Web : http://www.affini-tech.com Twitter : @affinitech & @vhe74 29