FORMATION HADOOP Administrateur pour Hadoop (Apache)



Documents pareils
Big Data Concepts et mise en oeuvre de Hadoop

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

HADOOP ET SON ÉCOSYSTÈME

Offre formation Big Data Analytics

Labs Hadoop Février 2013

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

BIG DATA en Sciences et Industries de l Environnement

Les journées SQL Server 2013

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Hadoop, les clés du succès

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Programmation parallèle et distribuée (Master 1 Info )

Programmation parallèle et distribuée

Ricco Rakotomalala R.R. Université Lyon 2

Tables Rondes Le «Big Data»

Programmation parallèle et distribuée

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Anticiper et prédire les sinistres avec une approche Big Data

Panorama des solutions analytiques existantes

Cartographie des solutions BigData

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

FORMATION PostgreSQL Réplication / Haute Disponibilité

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Introduction à MapReduce/Hadoop et Spark

Les quatre piliers d une solution de gestion des Big Data

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Surmonter les 5 défis opérationnels du Big Data

Projet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Document réalisé par Khadidjatou BAMBA

MapReduce et Hadoop. Alexandre Denis Inria Bordeaux Sud-Ouest France ENSEIRB PG306

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?


VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

Maîtriser les technologies Big Data pour obtenir des résultats en quasi-temps réel


Big Data, un nouveau paradigme et de nouveaux challenges

Département Informatique 5 e année Hadoop: Optimisation et Ordonnancement

Formation Symantec Veritas Cluster Server 6.x pour Unix

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Le Big Data Vers de nouveaux usages! 18/03/2015

Les technologies du Big Data

Exploration des Big Data pour optimiser la Business Intelligence

Change the game with smart innovation

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

Avant-propos. Organisation du livre

Professeur-superviseur Alain April

Catalogue des stages Ercom 2013

QLIKVIEW ET LE BIG DATA

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

BIG DATA PLATFORM FOR RESEARCH AND INNOVATION TERALAB

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Safe Harbor Statement

Titre : La BI vue par l intégrateur Orange

Hadoop : une plate-forme d exécution de programmes Map-Reduce

IBM SPSS Analytic Server Version 1. Instructions d'installation

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

Bases de données documentaires et distribuées Cours NFE04

MARS 2015 DATA LAB. TechTrends - Publication de Xebia IT Architects. Imaginer. Matérialiser. Exploiter

Évaluer la tolérance aux fautes de systèmes MapReduce

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Machine Learning 9:HSMBKA=\WU\YX: Big Data et machine learning. Manuel du data scientist. InfoPro

Grid 5000 : Administration d une infrastructure distribuée et développement d outils de déploiement et d isolation réseau

Hadoop : une plate-forme d exécution de programmes Map-Reduce

Introduction à Hadoop & MapReduce

matenciojp@gmail.com - Portable : Adresse : (Ile de France) - Homepage :

Professeur superviseur ALAIN APRIL

Big Data Analyse et valorisation de masses de données PREAMBULE

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Importation et exportation de données dans HDFS

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan

Catalogue des Formations Techniques

Certificat Big Data - Master MAthématiques

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Introduc)on à Map- Reduce. Vincent Leroy

IBM BigInsights for Apache Hadoop

Vos experts Big Data. Le Big Data dans la pratique

Big Data Jean-Michel Franco

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Filière métier : Administrateur Virtualisation

M2 GL UE DOC «In memory analytics»

OFFRE MDB Service & Architecture Technique. MyDataBall Saas (Software as a Service) MyDataBall On Premise

LE BIG DATA. TRANSFORME LE BUSINESS Solution EMC Big Data

Comment la gestion de l identité numérique peutelle résoudre les cinq failles de sécurité d Hadoop?

Transcription:

FORMATION HADOOP Administrateur pour Hadoop (Apache) Ce document reste la propriété du Groupe Cyrès. Toute copie, diffusion, exploitation même partielle doit faire l objet d une demande écrite auprès de Cyrès.

Sommaire I. OBJECTIFS... 3 II. PUBLIC CONCERNE... 3 III. PRE-REQUIS... 3 IV. CONDITIONS GENERALES... 3 V. CONTENU DE LA FORMATION... 3 Introduction... 3 HDFS... 4 Alimenter un cluster Hadoop... 4 MapReduce... 4 Installation et configuration d un cluster... 5 Ecosystème Hadoop... 5 Sécurité - Hadoop... 5 Ordonnancement des jobs... 6 Tâches courantes... 6 Initiation à Hbase... 6 Conclusion... 6 2

I. Objectifs Encadrée par un formateur qualifié, cette formation vous permettra d exploiter et de gérer un cluster Hadoop. De l installation à la configuration en passant par l optimisation, toutes les étapes seront traitées pour que vous soyez apte à administrer Hadoop. Les thématiques abordées seront les suivantes : Le système de fichiers distribués HDFS et l algorithme MapReduce Bâtir une architecture Hadoop Déployer et configurer Hadoop, choix de l infrastructure Comment alimenter un cluster Hadoop L optimisation des configurations et les techniques d améliorations des performances Diagnostic, problèmes et résolutions Initiation à Hbase Préparation à la certification Cloudera II. Public concerné Cette formation convient aux administrateurs système qui ont déjà une expérience avec Linux. III. Pré-requis Connaissances en système d exploitation Linux. IV. Conditions Générales Formation Référence Durée Tarif Administrateur pour Hadoop (Apache) HADADM1 4 jours (32 heures) A partir de 1 500 H.T. / personne V. Contenu de la formation Introduction Tour d horizon de Hadoop, cette introduction revient sur les origines du projet et détaille les problématiques «Big Data» auxquelles les entreprises sont confrontées. A l issue de ce module le stagiaire a une vision claire des tenants et aboutissants du projet Hadoop. 3

Enjeux et limites des systèmes actuels Quels besoins? Approche «Big Data» HDFS Ce module présente le système de fichiers interne de Hadoop. A la fin de ce module, le stagiaire possède les connaissances nécessaires pour comprendre et utiliser un environnement HDFS. Fonctionnalités HDFS Ecriture/Lecture Namenode, clé de voute Sécurité Exercices : «Premiers pas» Alimenter un cluster Hadoop Comprendre les enjeux et les techniques d alimentation. Le stagiaire intégrera des données provenant de sources extérieures via Flume et depuis des SGBDR via Sqoop. Best practices Intégration au fil de l eau via Flume Intégration depuis SGBDR via Sqoop MapReduce Ce module présente le mécanisme de traitement de Hadoop. A la fin de ce module, le stagiaire possède les connaissances nécessaires pour comprendre et utiliser un environnement MapReduce. 4

Introduction Fonctionnalités MapReduce JobTracker et MapReduce v2 Exercices : «Configuration MapReduce» Installation et configuration d un cluster Ce module permet de découvrir les processus d installation et de configuration de cluster Hadoop. A la fin de ce module, le stagiaire peut installer et configurer un environnement complet. Techniques de déploiement Installation Configuration HDFS et MapReduce Exercices : «Déployer un cluster Hadoop» Ecosystème Hadoop Présentation des différents projets gravitant autour de Hadoop. Ce module se consacre sur l installation et la configuration des produits Hive, Pig et Impala Installation et configuration Exercices : Déployer des services supplémentaires» Sécurité - Hadoop Ce module présente les différents aspects pour permettre de sécuriser un environnement Hadoop au travers Kerberos. Il permet de comprendre les enjeux et les moyens disponibles pour sécuriser Hadoop. 5

Introduction Présentation Kerberos Sécurisation avec Kerberos Ordonnancement des jobs Nous verrons les différentes politiques d ordonnancement des jobs. De manière plus globale, nous verrons comment faire gérer l allocation MapReduce pour plusieurs équipes au sein d un même cluster. Politiques d ordonnancement Capacity Scheduler et Fair Scheduler Exercices : «Configurer une politique d ordonnancement» Tâches courantes Maitriser les opérations de maintenance Ce module débute avec une présentation des commandes essentielles d exploitation du cluster. La seconde partie du module sera consacrée au diagnostic et à la résolution des erreurs et problèmes que l on peut rencontrer sur un cluster. Commandes essentielles Diagnostic et résolution d anomalies Maintenance Initiation à Hbase - Architecture Globale - Système Hbase ( Master et région serveur) - Modélisation de la rowkey orientée performance Conclusion 6