FORMATION HADOOP Développeur pour Hadoop (Apache)



Documents pareils
Big Data Concepts et mise en oeuvre de Hadoop

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Offre formation Big Data Analytics

HADOOP ET SON ÉCOSYSTÈME

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Les journées SQL Server 2013

Hadoop, les clés du succès

Labs Hadoop Février 2013

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Programmation parallèle et distribuée

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Programmation parallèle et distribuée (Master 1 Info )

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

BIG DATA en Sciences et Industries de l Environnement

Programmation parallèle et distribuée

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Panorama des solutions analytiques existantes

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Anticiper et prédire les sinistres avec une approche Big Data

Document réalisé par Khadidjatou BAMBA

Introduction à MapReduce/Hadoop et Spark

Cartographie des solutions BigData

Les quatre piliers d une solution de gestion des Big Data

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Les technologies du Big Data

Tables Rondes Le «Big Data»

Ricco Rakotomalala R.R. Université Lyon 2

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

Avant-propos. Organisation du livre


QLIKVIEW ET LE BIG DATA

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

PostgreSQL. Formations. Catalogue Calendrier... 8

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

GPC Computer Science


Certificat Big Data - Master MAthématiques

SQL SERVER 2008, BUSINESS INTELLIGENCE

Exploration des Big Data pour optimiser la Business Intelligence

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

Chapitre 10 Mettre en œuvre un cluster Hadoop

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Catalogue des Formations Techniques

FORMATION PostgreSQL Réplication / Haute Disponibilité

Pentaho Business Analytics Intégrer > Explorer > Prévoir

CQP ADMINISTRATEUR DE BASES DE DONNÉES (ABD)

M2 GL UE DOC «In memory analytics»

Transformation IT de l entreprise BIG DATA, MÉTIERS ET ÉVOLUTION DES BASES DE DONNÉES

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS

CYCLE CERTIFIANT ADMINISTRATEUR BASES DE DONNÉES

Fouille de données massives avec Hadoop

Maîtriser les technologies Big Data pour obtenir des résultats en quasi-temps réel

Catalogue des stages Ercom 2013

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Benjamin Cornu Florian Joyeux. Les choses à connaître pour (essayer) de concurrencer Facebook.

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan

PostgreSQL. Formations. Calendrier... 14

Programme ASI Développeur

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Big Data, un nouveau paradigme et de nouveaux challenges

INFORMATIQUE & WEB. PARCOURS CERTIFICAT PROFESSIONNEL Programmation de sites Web. 1 an 7 MODULES. Code du diplôme : CP09

Technologies Web. Ludovic Denoyer Sylvain Lamprier Mohamed Amine Baazizi Gabriella Contardo Narcisse Nya. Université Pierre et Marie Curie

Surmonter les 5 défis opérationnels du Big Data

PostgreSQL. Formations. SQL avancé Calendrier... 18

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Formation Symantec Veritas Cluster Server 6.x pour Unix

Titre : La BI vue par l intégrateur Orange

Les bases de données relationnelles

LES JOURNÉES SQL SERVER

4 Exemples de problèmes MapReduce incrémentaux

Chapitre 2 : Abstraction et Virtualisation

Formation continue. Ensae-Ensai Formation Continue (Cepe)

Vos experts Big Data. Le Big Data dans la pratique

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

Transformez vos données en opportunités. avec Microsoft Big Data

Bases de données documentaires et distribuées Cours NFE04

Mesures DNS à l ère du Big Data : outils et défis. JCSA, 9 juillet 2015 Vincent Levigneron, Afnic

Windows Azure. Principales fonctions

Introduction aux Bases de Données Relationnelles Conclusion - 1

Importation et exportation de données dans HDFS

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Chef de projet H/F. Vous avez au minimum 3 ans d expérience en pilotage de projet de préférence dans le monde du PLM et de management d équipe.

Cassandra et Spark pour gérer la musique On-line

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Introduction Big Data

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Big Data Analyse et valorisation de masses de données PREAMBULE

Présentation du module Base de données spatio-temporelles

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

Plan de formation : Certification OCA Oracle 11g. Les administrateurs de base de données (DBA) Oracle gèrent les systèmes informatiques

DEMARREZ RAPIDEMENT VOTRE EVALUATION

Sommaire. 1 Introduction Présentation du logiciel de commerce électronique 23

Transcription:

FORMATION HADOOP Développeur pour Hadoop (Apache) Ce document reste la propriété du Groupe Cyrès. Toute copie, diffusion, exploitation même partielle doit faire l objet d une demande écrite auprès de Cyrès.

Sommaire I. OBJECTIFS... 3 II. PUBLIC CONCERNE... 3 III. PRE-REQUIS... 3 IV. CONDITIONS GENERALES... 3 V. CONTENU DE LA FORMATION... 4 Introduction... 4 Hadoop : concept et bases... 4 Développer un programme MapReduce (Java)... 4 Détail de l API Hadoop... 5 Typage des données... 5 Algorithmes et jointure des données... 6 Intégration SI... 6 Ecosystème Hadoop... 6 Conclusion... 7 2

I. Objectifs Encadrée par un formateur qualifié, cette formation va vous amener à découvrir et comprendre le fonctionnement de l écosystème Hadoop. Les thématiques traitées seront les suivantes : Le système de fichiers distribué HDFS Le traitement MapReduce et l écriture de code Les bonnes pratiques de développement et d implémentation des algorithmes courants L optimisation des configurations et les techniques d amélioration des performances Les jointures des données via MapReduce Les projets de l écosystème Hadoop : Hive, Pig, Flume, Mahout et Sqoop Préparation à la certification Cloudera II. Public concerné Cette formation convient aux ingénieurs et développeurs qui ont déjà une expérience dans la programmation et qui souhaitent acquérir les connaissances nécessaires pour développer des applications MapReduce. III. Pré-requis Connaissances minimales en système d exploitation Linux. Expériences en développement informatique Java. IV. Conditions Générales Formation Référence Durée Tarif Développeur pour Hadoop (Apache) HADDEV1 4 jours (32 heures) A partir de 1 500 H.T. / personne 3

V. Contenu de la formation Introduction Tour d horizon de Hadoop, cette introduction revient sur les origines du projet et détaille les problématiques «Big Data» auxquelles les entreprises sont confrontées. A l issue de ce module le stagiaire a une vision claire des tenants et des aboutissants du projet Hadoop. Enjeux et limites des systèmes actuels Quels besoins? Approche «Big Data» Hadoop : concept et bases Ce module présente l architecture interne de Hadoop notamment les deux composants principaux que sont HDFS et MapReduce. La fin de cette partie sera consacrée à l écosystème Hadoop et aux projets qui gravitent autour. A la fin de ce module, le stagiaire possède les connaissances nécessaires pour comprendre et utiliser un environnement Hadoop. Projet Apache Système de fichiers distribués : HDFS Traitements distribués : MapReduce Présentation de l écosystème Hadoop Exercices : «Premiers pas» Développer un programme MapReduce (Java) Point clé de la formation, le stagiaire va être amené à développer des programmes MapReduce. Le fonctionnement de l algorithme et sa mise en œuvre seront détaillés tout au long de ce module. Le stagiaire possédera les compétences nécessaires pour écrire, compiler et lancer un programme MapReduce sur un cluster Hadoop. 4

Processus MapReduce Développer des drivers, mappers et reducers en Java Développer en d autres langages BestPractices : Tests unitaires Exercices : «Ecrire un programme MapReduce» Détail de l API Hadoop Module faisant suite aux premiers développements, le stagiaire utilisera les fonctions avancées de l API Hadoop pour être plus efficace et plus performant dans la création d application. Ce module est centré sur la qualité et l optimisation des traitements pour le code MapReduce. Le stagiaire sera en mesure de poser un diagnostic et comprendre les axes d améliorations des développements MapReduce. Réduire les données intermédiaires : Combiner Améliorer le load-balancing : Partitionner Mise en cache et accès à HDFS Debugger efficacement votre code Exercices : «Optimisation des développements» Typage des données Tour d horizon des différentes techniques liées aux données. Ce module porte sur 3 axes : le typage des données, la compression et la sérialisation de ces données. A la fin de ce module, le stagiaire peut créer ses propres types de données et peut choisir la méthode de compression et de sérialisation adéquate. Fonctionnement interne Créer ses propres formats Compression et sérialisation des données Exercices : «Utiliser les types de données» 5

Algorithmes et jointure des données Découvrir les algorithmes qui sont le plus couramment utilisés pour traiter les données. Plusieurs techniques de jointure de données seront présentées. Au terme de ce module, le stagiaire a une vue globale des différentes techniques et est en mesure de choisir la plus adaptée à son besoin. Tri et recherche dans les données Indexer les données Algorithmes fréquents : TF-IDF, cooccurrence, etc. Jointure de datasets Exercices : «Implémenter TF-IDF» Intégration SI Ce module présente les différents aspects pour permettre l intégration d un environnement Hadoop au sein d un système d information existant. La première approche est centrée sur la cohabitation de SGBDR avec Hadoop, tandis que la seconde est centrée sur le flux de données «temps-réel». Concepts et enjeux SGBDR vers HDFS : Sqoop Intégration de flux en temps réel : Flume Ecosystème Hadoop Tour d horizon des différentes «briques» Hadoop permettant d aller encore plus loin avec Hadoop. Trois points sont mis en avant dans ce module : l interaction SQL avec Hadoop, l utilisation d un «langage de flux» dédié et un aperçu des techniques de datamining optimisées pour Hadoop. Approche SQL : Hive Approche flux de données : Pig Analyse avancée : Mahout Exercices : «Découverte de l écosystème Hadoop» 6

Conclusion 7