Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop



Documents pareils
Big Data Concepts et mise en oeuvre de Hadoop

HADOOP ET SON ÉCOSYSTÈME

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Les technologies du Big Data

Hadoop, les clés du succès

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

BIG DATA en Sciences et Industries de l Environnement

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Offre formation Big Data Analytics

Labs Hadoop Février 2013

Les journées SQL Server 2013

Programmation parallèle et distribuée

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Business Intelligence avec Excel, Power BI et Office 365

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

Ricco Rakotomalala R.R. Université Lyon 2

Panorama des solutions analytiques existantes

Introduction à MapReduce/Hadoop et Spark

Les quatre piliers d une solution de gestion des Big Data

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

Programme ASI Développeur

Programmation parallèle et distribuée

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Le nouveau visage de la Dataviz dans MicroStrategy 10

Cartographie des solutions BigData

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2012

Introduction Big Data

Chapitre 10 Mettre en œuvre un cluster Hadoop

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

La rencontre du Big Data et du Cloud

Thibault Denizet. Introduction à SSIS

Cassandra et Spark pour gérer la musique On-line

Programmation parallèle et distribuée (Master 1 Info )

Anticiper et prédire les sinistres avec une approche Big Data

Business Intelligence

Importation et exportation de données dans HDFS

QLIKVIEW ET LE BIG DATA

M2 GL UE DOC «In memory analytics»

Document réalisé par Khadidjatou BAMBA

Windows Azure. Principales fonctions

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

Introduction aux Bases de Données Relationnelles Conclusion - 1

CATALOGUE DE FORMATIONS BUSINESS INTELLIGENCE. Edition 2014

La dernière base de données de Teradata franchit le cap du big data grâce à sa technologie avancée

Exploration des Big Data pour optimiser la Business Intelligence

Surmonter les 5 défis opérationnels du Big Data

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

SQL Server 2012 et SQL Server 2014

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Développement de base de données Microsoft SQL Server Durée : 5 jours Référence : DPSQL12. Contenu

IBM BigInsights for Apache Hadoop

BIG DATA et DONNéES SEO

Livret de Stages 2014 / 2015

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

Analyse comparative entre différents outils de BI (Business Intelligence) :

Avant-propos. Organisation du livre

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

OpenText StreamServe Cours Customer Communication Management L essentiel

L A B U S I N E S S. d a t a g i n f o r m a t i o n g a c t i o n

Formations 2015 JASPER, REDMINE, TABLEAU, TALEND, SPAGO BI SYNALTIC 24 RUE DE L EGLISE VINCENNES


NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Introduction à ORACLE WAREHOUSE BUILDER Cédric du Mouza

Benjamin Cornu Florian Joyeux. Les choses à connaître pour (essayer) de concurrencer Facebook.

Formations 2015 JASPER, REDMINE, TABLEAU, TALEND, SPAGO BI ALTIC & SYNOTIS - TRAINING CENTER 24 RUE DE L EGLISE VINCENNES

Libérez votre intuition

Big Data, un nouveau paradigme et de nouveaux challenges

Introduction à. Oracle Application Express

Comment la gestion de l identité numérique peutelle résoudre les cinq failles de sécurité d Hadoop?

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Le BigData, aussi par et pour les PMEs

CATALOGUE FORMATIONS DOMAINE Bases de données

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Gestion collaborative de documents

TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

Quel moteur SQL choisir?

Cours Linux. Cours en ligne Administrateur Systèmes Linux. Académie Libre

Jean-François Boulicaut & Mohand-Saïd Hacid

SQL Server 2012 Implémentation d'une solution de Business Intelligence (Sql Server, Analysis Services...)

Titre : La BI vue par l intégrateur Orange

IBM Cloudant Data Layer Local Edition

SpagoBI: la seule suite décisionnelle 100% open source, complète et flexible

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS

DataStudio. Solution d intégration des données et de diffusion de l information

Transcription:

Passez au niveau supérieur en termes de connaissance grâce à la formation Data Analyst de Cloudera. Public Durée Objectifs Analystes de données, business analysts, développeurs et administrateurs qui ont de l expérience avec SQL et les commandes UNIX ou Linux basiques 4 jours Appliquer l analyse traditionnelle des données et les compétences de «business intelligence» aux Big Data Utiliser les outils permettant de manipuler et analyser des ensembles complexes de données en utilisant SQL et des langages de script familiers

Introduction Cette formation Data Analyst «hands-on» de quatre jours, axée sur Apache Pig et Hive et Cloudera Impala, vous apprendra à appliquer l analyse traditionnelle des données et les compétences de «business intelligence» aux Big Data. Xebia, partenaire privilégié de Cloudera en France, vous présentera les outils permettant aux participants de manipuler et analyser des ensembles complexes de données en utilisant SQL et des langages de script familiers. Programme Présentation Apache Hive rend accessibles les données multi-structurées pour les analystes, administrateurs de bases de données et d autres profils n ayant pas d expertise en programmation Java. Apache Pig applique les notions fondamentales des langages de script familiers au cluster Hadoop. Cloudera Impala permet une analyse interactive en temps réel des données stockées dans Hadoop via un environnement SQL natif. Au travers de discussions dirigées par le formateur et d exercices «hands-on» interactifs, les participants vont naviguer dans l écosystème Hadoop et adresser des sujets tels que : - Notions fondamentales de Apache Hadoop et de l ETL (extract, transform, load), ingestion et traitement avec les outils Hadoop; - Rassembler de multiples ensembles de données et analyser des données disparates avec Pig ; - Organiser des données dans un tableau, effectuer des transformations et simplifier les requêtes complexes avec Hive ; - Effectuer des analyses interactives en temps réel sur un ensemble important de données stockées dans HDFS ou HBase en utilisant SQL avec Impala ; - Comment choisir le meilleur outil pour une tâche donnée dans Hadoop, atteindre l interopérabilité et manager les workflows récurrents.

Introduction Au sujet de cette formation Au sujet de Xebia et Cloudera Logistique de la formation Introductions Fondamentaux d Hadoop L intérêt d Hadoop Vue globale d Hadoop HDFS MapReduce L écosystème Hadoop Explication de scenarios de laboratoire Exercices hands-on : ingestion de données avec les outils Hadoop Introduction à Pig Qu est-ce que Pig? Les caractéristiques de Pig Cas d utilisation de Pig Interagir avec Pig Analyse de données basiques avec Pig Syntaxe latine de Pig Charger des données Types de données simples Définitions des champs Data Output Voir le Schema Filtrer et trier les données Les fonctions utilisées communément Exercices Hands-On : utiliser Pig pour des process ETL

Introduction à Hive Qu est-ce qu Hive? Schema Hive et stockage de données Comparer Hive aux bases de données traditionnelles Hive vs. Pig Cas d utilisation d Hive, Interagir avec Hive Analyse de données relation avec Hive Bases de données et tableaux Hive Syntaxe HiveQL basique Types de données Assembler des ensembles de données Fonctions communes de Built-in Exercice «hands-on» : «Running Hive Queries on the Shell, Scripts and Hue» Management de données Hive Formats de données Hive Créer des bases de données et tableaux de management Hive «Altering Databases and Tables» Tableaux auto-managés, Simplifier les requêtes avec Views Stocker les résultats de requêtes Controller l accès aux données Exercice «Hands-On» : management des données avec Hive Traitement de texte avec Hive Vue d ensemble du traitement de texte Fonctions String importantes Utiliser des expressions habituelles dans Hive «Sentiment Analysis» et «N-Grams» Exercices «Hands-On» (optionnels) : se faire une idée de l analyse de sentiment. {Gaining Insight with Sentiment Analysis}

Optimisation d Hive Comprendre la performance de requête Contrôler le plan d exécution des tâches Partitionner «Bucketing» Indexer les données Etendre Hive SerDes Transformation de données avec des Scripts personnalisés Fonctions définies par l utilisateur Paramétrer les requêtes Exercices «Hands-On» : transformation de données avec Hive Introduction à Impana Qu est-ce qu Impala? En quoi Impala diffère d Hive et de Pig Comment Impala diffère des bases de données relationnelles Limitations et directions futures Utiliser le Shell Impala Analyser les données avec Impala Syntaxe basique Types de données Filtrer, trier et restreindre les résultats Assembler et grouper les données Augmenter les performances d Impala Exercices «Hands-On» : analyse interactive avec Impala Choisir le meilleur outil pour la tâche Comparer MapReduce, Pig, Hive, Impala et les bases de données relationnelles Lequel choisir?