FORMATION HADOOP Administrateur pour Hadoop (Apache) Ce document reste la propriété du Groupe Cyrès. Toute copie, diffusion, exploitation même partielle doit faire l objet d une demande écrite auprès de Cyrès.
Sommaire I. OBJECTIFS... 3 II. PUBLIC CONCERNE... 3 III. PRE-REQUIS... 3 IV. CONDITIONS GENERALES... 3 V. CONTENU DE LA FORMATION... 3 Introduction... 3 HDFS... 4 Alimenter un cluster Hadoop... 4 MapReduce... 4 Installation et configuration d un cluster... 5 Ecosystème Hadoop... 5 Sécurité - Hadoop... 5 Ordonnancement des jobs... 6 Tâches courantes... 6 Initiation à Hbase... 6 Conclusion... 6 2
I. Objectifs Encadrée par un formateur qualifié, cette formation vous permettra d exploiter et de gérer un cluster Hadoop. De l installation à la configuration en passant par l optimisation, toutes les étapes seront traitées pour que vous soyez apte à administrer Hadoop. Les thématiques abordées seront les suivantes : Le système de fichiers distribués HDFS et l algorithme MapReduce Bâtir une architecture Hadoop Déployer et configurer Hadoop, choix de l infrastructure Comment alimenter un cluster Hadoop L optimisation des configurations et les techniques d améliorations des performances Diagnostic, problèmes et résolutions Initiation à Hbase Préparation à la certification Cloudera II. Public concerné Cette formation convient aux administrateurs système qui ont déjà une expérience avec Linux. III. Pré-requis Connaissances en système d exploitation Linux. IV. Conditions Générales Formation Référence Durée Tarif Administrateur pour Hadoop (Apache) HADADM1 4 jours (32 heures) A partir de 1 500 H.T. / personne V. Contenu de la formation Introduction Tour d horizon de Hadoop, cette introduction revient sur les origines du projet et détaille les problématiques «Big Data» auxquelles les entreprises sont confrontées. A l issue de ce module le stagiaire a une vision claire des tenants et aboutissants du projet Hadoop. 3
Enjeux et limites des systèmes actuels Quels besoins? Approche «Big Data» HDFS Ce module présente le système de fichiers interne de Hadoop. A la fin de ce module, le stagiaire possède les connaissances nécessaires pour comprendre et utiliser un environnement HDFS. Fonctionnalités HDFS Ecriture/Lecture Namenode, clé de voute Sécurité Exercices : «Premiers pas» Alimenter un cluster Hadoop Comprendre les enjeux et les techniques d alimentation. Le stagiaire intégrera des données provenant de sources extérieures via Flume et depuis des SGBDR via Sqoop. Best practices Intégration au fil de l eau via Flume Intégration depuis SGBDR via Sqoop MapReduce Ce module présente le mécanisme de traitement de Hadoop. A la fin de ce module, le stagiaire possède les connaissances nécessaires pour comprendre et utiliser un environnement MapReduce. 4
Introduction Fonctionnalités MapReduce JobTracker et MapReduce v2 Exercices : «Configuration MapReduce» Installation et configuration d un cluster Ce module permet de découvrir les processus d installation et de configuration de cluster Hadoop. A la fin de ce module, le stagiaire peut installer et configurer un environnement complet. Techniques de déploiement Installation Configuration HDFS et MapReduce Exercices : «Déployer un cluster Hadoop» Ecosystème Hadoop Présentation des différents projets gravitant autour de Hadoop. Ce module se consacre sur l installation et la configuration des produits Hive, Pig et Impala Installation et configuration Exercices : Déployer des services supplémentaires» Sécurité - Hadoop Ce module présente les différents aspects pour permettre de sécuriser un environnement Hadoop au travers Kerberos. Il permet de comprendre les enjeux et les moyens disponibles pour sécuriser Hadoop. 5
Introduction Présentation Kerberos Sécurisation avec Kerberos Ordonnancement des jobs Nous verrons les différentes politiques d ordonnancement des jobs. De manière plus globale, nous verrons comment faire gérer l allocation MapReduce pour plusieurs équipes au sein d un même cluster. Politiques d ordonnancement Capacity Scheduler et Fair Scheduler Exercices : «Configurer une politique d ordonnancement» Tâches courantes Maitriser les opérations de maintenance Ce module débute avec une présentation des commandes essentielles d exploitation du cluster. La seconde partie du module sera consacrée au diagnostic et à la résolution des erreurs et problèmes que l on peut rencontrer sur un cluster. Commandes essentielles Diagnostic et résolution d anomalies Maintenance Initiation à Hbase - Architecture Globale - Système Hbase ( Master et région serveur) - Modélisation de la rowkey orientée performance Conclusion 6