Hadoop, les clés du succès

Hadoop, les clés du succès Didier Kirszenberg, Responsable des architectures Massive Data, HP France Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Par où commencer? La direction demande un projet Big Data «générique» Identification des sujets HP Big Data Discovery Workshop Echanges métiers Mise en place d une stratégie Datalab Mise en place d une stratégie DataLake Mise en place d une stratégie DataViz Un métier a une demande précise Phase de qualification : SLA, Stratégie de restitution Privilégier les approches itératives «Pizza Team» L IT veut se faire la main en attendant les demandes métier Partir de besoins Big Data de l IT (Gestion des logs, Sécurité ) L IT veut monter une offre Hadoop as a service Expertise et références HP

Changement de paradigme pour les DBA Type de données On traite du structuré mais aussi du non structuré Evolution de la notion de qualité des données (Moins de synchronisation, plus d échantillons, time stamp) Recherche de performance Passage systématique à des schémas dénormalisés (réplication pour éviter les jointures) Plus d effet de seuil (mode Batch, traitement long mais pas bloqué) Peu ou pas d indexes Possibilité de définir les «formats» a postériori -> Datalake Plus de partitionnement des données (data sharding, rotation) Peu ou pas de triggers et de procédures stockées (mais modules CEP disponibles) Architecture MPP : Matériel faible cout, le volume peut améliorer la performance Possibilité de solutions spécialisés (Base en colonne, Base document, base Graphe ) Procédure d opération Pas de Backup Restore sur plusieurs Peta Multi-site restreint Sécurité spécifique 3

Intégration aux stratégies de développements Direct Hadoop Connections SQL Hadoop Data Scalable MPP SQL Database with Hadoop Connector BI Tools Hadoop integration tools Extract / format data In Hadoop (ETL) Traditional Database ie : PostgreSQL Key/Value Store Math. Language Developped with Hadoop tools 4 Storm Monde Hadoop Clojure BI traditionnel

Selectionner ses modules dans l ecosystème Hadoop Cloud Enablement Hadoop Virtualization Extensions on VMware vsphere 5 (HVE) Security Sentry, Knox, Kerberos, OpenLDAP Management & Monitoring Ambari, Cloudera Mger, Hue CMU Workflow & Scheduling Oozie Non-Relational Database HBase, Cassandra, Spark Pig Mahout Batch Processing MapReduce MES Data Processing Distributed Storage Cascading HDFS2 Hive HCatalog Resource management & Coordination YARN HP ProLiant Gen8 server with DAS Impala, Stinger, Drill Low latency Processing TEZ, Spark Zookeeper Data Integration Services Flume, Sqoop, Storm, Kafka, WebHDFS 5

Hadoop les aspects réseau Les principes de base Hadoop est sensible à la bande passante Un réseau 10Gbit Ethernet est une option, cette architecture n est pas obligatoire L usage de plusieurs ports 1Gbit Ethernet en agrégation de liens (LACP) est une architecture alternative Hadoop n était pas sensible à la latence mais cela évolue Il n est donc pas nécessaire de considérer un réseau Infiniband ou 40Gbit Ethernet Avec l introduction des requêtes interactives cet aspect va évoluer Hadoop génère un trafic inter-nœuds important (en particulier la phase Shuffle) L utilisation de commutateurs «Deep Buffer Caching» est un atout pour les performances Il faut éviter les architectures réseaux «Nord-Sud» qui remontent les flux dans un back-bone et prendre des top-of-racks qui «isolent» le cluster Hadoop n est pas «routable» (niveau 3) 6

Gestion des architectures parallèles (MPP) Nouvelles procédures et nouveaux utilitaire (HPInsight CMU) Gestion de systèmes standards L objectif est de déployer de nombreux services sur une machine Tous les peuvent être différents Les opérations sont par défaut basées sur l Hyperviseur La performance s analyse au niveau d un système unitaire -> le coût d opération est lié au nombre d Massivelly Parallel systems management L objectif est de déployer un unique service sur de nombreuses machines Tous les doivent être similaires au firmware près Pas d hyperviseur (les services utilisent 100% des systèmes) La performance s analyse au niveau global -> le coût d opération doit être lié au nombre de services Hadoop (comme Mongo DB, Couchbase, Vertica, SAS VA, Moonshot ) induit la gestion de systèmes massivement parallèles 7

HP CMU Gestion des fermes de calcul - Aide au tuning du développement - Opérer 10, 100, 1000 systèmes comme un seul - Adresse Vertica et Hadoop, SAS HPA et SAS Visual Analytics 8 8