Big Data Concepts et mise en oeuvre de Hadoop

Documents pareils
Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Labs Hadoop Février 2013

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

HADOOP ET SON ÉCOSYSTÈME

Offre formation Big Data Analytics

Introduction à MapReduce/Hadoop et Spark

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Programmation parallèle et distribuée

Chapitre 10 Mettre en œuvre un cluster Hadoop

Programmation parallèle et distribuée

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

Ricco Rakotomalala R.R. Université Lyon 2

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

Big Data, un nouveau paradigme et de nouveaux challenges

Les journées SQL Server 2013

Cartographie des solutions BigData

Hadoop, les clés du succès

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Les quatre piliers d une solution de gestion des Big Data

Introduc)on à Map- Reduce. Vincent Leroy

MapReduce et Hadoop. Alexandre Denis Inria Bordeaux Sud-Ouest France ENSEIRB PG306

Bases de données documentaires et distribuées Cours NFE04

Anticiper et prédire les sinistres avec une approche Big Data

Introduction à Hadoop & MapReduce

BIG DATA en Sciences et Industries de l Environnement

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Fouille de données massives avec Hadoop

Maîtriser les technologies Big Data pour obtenir des résultats en quasi-temps réel


Programmation parallèle et distribuée (Master 1 Info )

Tables Rondes Le «Big Data»

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS

Hadoop : une plate-forme d exécution de programmes Map-Reduce

Hadoop : une plate-forme d exécution de programmes Map-Reduce

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Panorama des solutions analytiques existantes


Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

Projet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

M2 GL UE DOC «In memory analytics»

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Les technologies du Big Data

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Tests de SlipStream sur les plateformes et : vers la. Vers la fédération du Cloud computing

Le BigData, aussi par et pour les PMEs

Notes de cours Practical BigData

Avant-propos. Organisation du livre

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Vos experts Big Data. Le Big Data dans la pratique

Certificat Big Data - Master MAthématiques

Document réalisé par Khadidjatou BAMBA

Windows Azure. Principales fonctions

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Amazon Elastic MapReduce (Amazon EMR)

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Hadoop / Big Data MBDS. Benjamin Renaut <renaut.benjamin@tokidev.fr>

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS

Professeur-superviseur Alain April

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters AVANTAGES

Le Big Data Vers de nouveaux usages! 18/03/2015

BIG DATA PLATFORM FOR RESEARCH AND INNOVATION TERALAB

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

Une distribution Hadoop pour la visualisation de données de simulation massives

Map-Reduce : un cadre de programmation parallèlle pour l analyse de grandes données. Stéphane Genaud ENSIIE

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

Évaluer la tolérance aux fautes de systèmes MapReduce

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS

Tout savoir sur Hadoop : Vulgarisation de la technologie et les stratégies de certains acteurs

Comment la gestion de l identité numérique peutelle résoudre les cinq failles de sécurité d Hadoop?

Département Informatique 5 e année Hadoop: Optimisation et Ordonnancement

Windows Azure Platform Développez, déployez et administrez pour le Cloud Microsoft

IBM BigInsights for Apache Hadoop

VMware vsphere 5 Préparation à la certification VMware Certified Professional 5 Data Center Virtualization (VCP5-DCV) - Examen VCP510

Introduction Big Data

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

Exchange Server 2013 Préparation à la certification MCSE Messaging - Examen

Culture numérique Cloud computing

IBM Cloudant Data Layer Local Edition

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan

Cloud Computing - présentation d un outil complet

Safe Harbor Statement

Hyper-V et SC Virtual Machine Manager Technologie de virtualisation sous Windows Server 2008 R2 [2ième édition]

Importation et exportation de données dans HDFS

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Addenda du Guide de l administrateur

Transcription:

Introduction 1. Objectif du chapitre 9 2. Le Big Data 10 2.1 Introduction 10 2.2 Informatique connectée, objets "intelligents" et données collectées 11 2.3 Les unités de mesure dans le monde Big Data 12 2.4 Big Data : au-delà des volumes, une rupture conceptuelle 13 3. Big Data : l'échec des approches classiques 15 4. Hadoop et Big Data 16 4.1 Introduction 16 4.2 Google File System et MapReduce 17 4.3 Hadoop 17 5. Problèmes "hadoopéables" 18 6. Pour aller plus loin 19 6.1 Niveau de performance des disques durs actuels 19 6.2 Fonctions de type "map" et fonctions de type "reduce" 20 6.3 Les distributions de Hadoop 20 Installer Hadoop sur une station de travail 1. Objectif du chapitre 23 2. Les différents modes de fonctionnement de Hadoop 23 2.1 Le mode local 23 2.2 Le mode pseudo-distribué 24 2.3 Le mode totalement distribué 24 1/8

2.4 Les clusters Hadoop virtualisés 25 3. Installer Hadoop en mode pseudo-distribué 25 3.1 Pré-requis matériels 25 3.2 Pré-requis logiciels 26 3.2.1 Système d'exploitation 26 3.2.2 Machine virtuelle 26 4. Installer Hadoop pas-à-pas sur une station de travail 26 4.1 Installation de VirtualBox 26 4.2 Installation de Hadoop (distribution CDH4) 27 Une vue globale de Hadoop 1. Objectif du chapitre 43 2. Introduction 43 3. Stocker et traiter des volumes de données très importants 45 4. Garantir la redondance des données 46 5. Faire face à la panne d un nœud 47 5.1 Réaffecter les tâches 47 5.2 Garantir la bonne fin des jobs en cours 48 5.3 Le retour à la normale 48 6. Garantir une évolution proportionnelle des performances 48 HDFS 2/8

1. Objectif du chapitre 51 2. Présentation de HDFS 51 3. Principe de fonctionnement 52 3.1 Le NameNode 53 3.2 Le SecondaryNameNode 54 3.3 Le NN comme SPOF 55 3.4 Lecture d'un fichier HDFS par un programme Hadoop 55 3.5 Création d'un fichier HDFS par un programme Hadoop 57 MapReduce 1. Objectif du chapitre 61 2. Présentation de MapReduce 61 3. Principes de fonctionnement de MapReduce 62 4. MapReduce du point de vue du développeur Java 62 4.1 Les entrées-sorties 63 4.2 La phase map (exemple 1) 65 4.3 Entre la phase map et la phase reduce (exemple 1) 66 4.4 La phase reduce (exemple 1) 67 4.5 La phase map (exemple 2) 68 4.6 Entre la phase map et la phase reduce (exemple 2) 69 4.7 La phase reduce (exemple 2) 70 4.8 Quelques remarques générales concernant les mappers et les reducers 70 5. MapReduce du point de vue de l'administrateur Hadoop 71 5.1 Le JobTracker 73 3/8

5.2 Le TaskTracker 76 Les apports de la version 2 de Hadoop 1. Objectif du chapitre 77 2. High Availability 78 3. Federation 79 4. YARN 81 5. Support de Microsoft Windows 84 6. Autres apports de la version 2 de Hadoop 85 7. Conclusion 85 Aspects matériels 1. Objectif du chapitre 87 2. Les nœuds maîtres 88 3. Les nœuds esclaves 89 4. Les aspects réseau 90 5. Déterminer la taille d'un cluster Hadoop et prévoir son évolution 92 4/8

6. Un exemple de cluster Hadoop 94 7. Pour aller plus loin 97 7.1 Règles concernant les nœuds esclaves 97 7.2 Règles concernant les nœuds maîtres 97 7.3 Règles concernant le réseau 98 7.4 Règles concernant le cluster 98 L'écosystème de Hadoop 1. Objectif du chapitre 99 2. Pig, Hive et l'api de streaming 100 2.1 Introduction 100 2.2 Hive 101 2.3 Pig 102 2.4 L'API de streaming 103 3. Outils orientés bases de données 103 3.1 Flume 103 3.2 Squoop 106 3.3 HBase 107 3.4 Impala 109 4. Outils d'exploitation 110 4.1 ZooKeeper 110 4.2 Cloudera Manager 112 4.3 Oozie 114 5. Autres outils 119 5.1 Hue 119 5.2 Mahout 120 5/8

6. Comment intégrer Hadoop dans un système d'information? 121 Développer des programmes Hadoop 1. Objectifs du chapitre 125 2. WordCount 127 2.1 Préparation des données 128 2.2 Importation des données dans HDFS 129 2.3 WordCount en Java 131 2.3.1 Le driver 131 2.3.2 Le mapper 134 2.3.3 Le reducer 136 2.3.4 Compilation et exécution du job 139 2.4 WordCount en Python 147 2.4.1 Le mapper 148 2.4.2 Le reducer 149 2.4.3 Exécution du job 150 2.5 Conclusion 153 3. JoinTables 154 3.1 Introduction 154 3.2 JoinTables en Java 155 3.3 JoinTables en Pig Latin 159 3.4 JoinTables en HiveQL 160 3.5 Conclusion 161 4. Conclusion 161 Mettre en œuvre un cluster Hadoop 6/8

1. Objectif du chapitre 163 2. Cluster dédié ou cluster dans le Cloud? 163 3. Les coûts 168 3.1 Cluster dédié installé dans les locaux de l'organisme 168 3.1.1 Les coûts de formation 168 3.1.2 Les coûts matériels 169 3.1.3 Les coûts logiciels 170 3.1.4 Le coût du support technique 171 3.1.5 Les coûts en énergie 171 3.1.6 Les coûts en personnel 171 3.2 Cluster dédié installé chez un hébergeur 173 3.2.1 Les coûts de formation 173 3.2.2 Les coûts matériels 173 3.2.3 Les coûts logiciels 173 3.2.4 Le coût du support technique 173 3.2.5 Les coûts en personnel 174 3.2.6 Les coûts en énergie 174 3.3 Cluster partagé dans le Cloud 174 3.3.1 Les coûts de formation 174 3.3.2 Les coûts matériels 175 3.3.3 Les coûts logiciels 175 3.3.4 Le coût du support technique 175 3.3.5 Les coûts en énergie 175 3.3.6 Les coûts en personnel 175 3.3.7 Les coûts en services 175 Quand utiliser Hadoop? 1. Objectif du chapitre 177 7/8

2. Exemples de problèmes "hadoopéables" 177 3. Exemples réels d'utilisation de Hadoop 178 3.1 Dans le domaine de la gestion de clientèle 178 3.2 Dans le domaine de la publicité 179 3.3 Dans le domaine de la santé 179 3.4 Dans le domaine de la lutte contre la fraude 183 3.5 Dans le domaine des villes "intelligentes" 184 3.6 Dans le domaine des moteurs de recherche ou de recommandations 185 3.7 Dans le domaine de la maintenance préventive 187 3.8 Autres usages 189 3.8.1 Identification de patterns dans des photographies 189 3.9 Principales sources d'information utilisées dans ce chapitre 190 Conclusion 1. Le futur de Hadoop 193 1.1 Les évolutions matérielles 193 1.2 Les évolutions logicielles 194 1.3 Les évolutions dans l'usage 195 2. Quand Google et Hadoop se fourvoient 196 Index 199 8/8