Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS 2014-2015



Documents pareils
Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS

Programmation parallèle et distribuée (Master 1 Info )

Annexe 10 - Procédure pour créer un Jar

Titre: Version: Dernière modification: Auteur: Statut: Licence:

Introduction à Hadoop & MapReduce

Big Data Concepts et mise en oeuvre de Hadoop

TP1. Outils Java Eléments de correction

Tuto 2 : Configuration Virtual box, Configuration et installation du serveur XiBO

Installation et prise en main

Module d anonymisation

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS

Java Licence professionnelle CISII,

DITA XML Olivier Carrère -

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Auteur LARDOUX Guillaume Contact Année 2014 DEVELOPPEMENT MOBILE AVEC CORDOVA

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS

Systeme d'exploitation

Introduction à Eclipse

Documentation utilisateur, manuel utilisateur MagicSafe Linux. Vous pouvez télécharger la dernière version de ce document à l adresse suivante :

Projet De Stijl Plate-forme pour robots mobiles

Documentation d'installation Plateforme femme actuelle

Hadoop / Big Data MBDS. Benjamin Renaut <renaut.benjamin@tokidev.fr>

Java pour le Web. Cours Java - F. Michel

TP n 2 : Installation et administration du serveur ProFTP. Partie 1 : Fonctionnement du protocole FTP (pas plus de 15min)

Serveur proxy Squid3 et SquidGuard

1 Démarrage de Marionnet

Programmation parallèle et distribuée

Tutoriel Création d une source Cydia et compilation des packages sous Linux

IFT287 Exploitation de base de données relationnelles et orientées objet. Laboratoire Mon premier programme Java en Eclipse

Créer son premier package.deb. 19 août

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

Programmation Mobile Android Master CCI

Java c est quoi? Java. Java. Java : Principe de fonctionnement 31/01/ Vue générale 2 - Mon premier programme 3 - Types de Programme Java

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Programmation parallèle et distribuée

Mise en place SSO. Mise en place SSO. 1. Installation de Tomcat sur le serveur OCR (Windows) 2. Ajout des librairies. by LegalBox

PROCEDURE D'INSTALLATION OPENREPORTS

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Traitement de données

Bac Professionnel Systèmes Electroniques Numériques

Manuel Utilisateur MISE A JOUR DU CLIENT SOFIE VERS LA VERSION 5. v0.99

Télécharger et Installer OpenOffice.org sous Windows

ECLIPSE ET PDT (Php development tools)

L'émulateur multi-système

Projet Administration Réseaux

«Astrophysique et instrumentations associées» Cours UNIX Benoît Semelin

Atelier individuel. Linux 101. Frédérick Lefebvre & Maxime Boissonneault frederick.lefebvre@calculquebec.ca U. Laval - Janv. 2014

Professeur-superviseur Alain April

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Administration de Parc Informatique TP07 : Installation de Linux Debian

Tutoriel d installation de Hibernate avec Eclipse

Pour valider les pré-requis nécessaires, avant d'aborder le TP, répondez aux questions ciaprès

Introduction à Linux (pour le HPC) «Linux 101» Présentation :

Importation et exportation de données dans HDFS

Installation du client Cisco VPN 5 (Windows)

TP 4 de familiarisation avec Unix

INSTALLER JOOMLA! POUR UN HEBERGEMENT LINUX

HADOOP ET SON ÉCOSYSTÈME

INSTALLATION NG V2.1 D OCS INVENTORY. Procédure d utilisation. Auteur : GALLEGO Cédric 23/10/2014 N version : v1

Ateliers Python+Qt : Premiers pas : S'installer pour PyQt... en quelques minutes sous Windows!

Installation du package esup-portail Version uportal-2.5.x-esup

La base de données XML exist. A. Belaïd

application Chouette -

Documentation technique OpenVPN

Installation du client Cisco VPN 5 (Windows)

Serveur Acronis Backup & Recovery 10 pour Linux. Update 5. Guide d'installation

Installation du client Cisco VPN 5 (Windows)

TUTORIEL: INSTALLATION D'UN SERVEUR LOCAL SOUS WINDOWS 7 POUR APPINVENTOR version du 06/04/2013

Initiation à JAVA et à la programmation objet.

Dossier. Développer en Java sur téléphone mobile. Benjamin Damécourt UFR SITEC Master 2 EESC 11 janvier 2012

Situation professionnelle n X

Les technologies du Big Data

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Retrospect 7.7 Addendum au Guide d'utilisation

Introduc)on à Map- Reduce. Vincent Leroy

Systèmes embarqués D.Rossier

TD/TP 1 Introduction au SDK d Android

Architecture de la plateforme SBC

contact@nqicorp.com - Web :

[ GLPI et OCS pour Gentoo 2006] ArtisanMicro. Alexandre BALMES

1 Prise en main des machines

Le logiciel Netkit Installation et utilisation

Avant-propos. Organisation du livre

FinImportExport Documentation Utilisateur Gestion d'environnement dans Fininfo Market

G.U.S.T.A.V. Gestion Unifiée des Systèmes de fichiers Transposée aux Appareillages Virtuels G U S T A V

Sauvegarder automatiquement ses documents

CONFIGURATION DE LA LIBRAIRIE WEBUTIL (10g) Oracle Forms 10g

Département Informatique 5 e année Hadoop: Optimisation et Ordonnancement

Préparer la synchronisation d'annuaires

Serveur de partage de documents. Étude et proposition d'une solution afin de mettre en place un serveur de partage de documents.

Ateliers Python+Qt : Premiers pas : Comment développez ses propres interfaces graphiques sur le RaspberryPi?

Transcription:

Hadoop / Big Data Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS 2014-2015

TP 1 Méthodologie Map/Reduce - programmation Hadoop.

1 Installer VirtualBox (https://www.virtualbox.org/). Importer la machine virtuelle.ova du TP. Il s'agit d'un système GNU/Linux Debian, amd64. Démarrer la machine virtuelle. S'identifier avec le login: mbds, mot de passe: mbds. Démarrer Hadoop avec les commandes: start-dfs.sh & start-yarn.sh & (ignorer les warnings)

2 Vérifier le bon fonctionnement de Hadoop en exécutant la commande: hdfs dfsadmin -report La commande vérifie le statut de HDFS. Elle devrait afficher: Datanodes available: 1 (1 total, 0 dead) Nous allons maintenant compiler le code d'exemple Java du cours (compteur d occurrence de mots). Objectif: vérifier que l'environnement de compilation soit fonctionnel et que Hadoop soit correctement à même d'exécuter des tâches, et se familiariser avec le processus de compilation.

3 Exécuter la commande suivante: wget http://cours.tokidev.fr/bigdata/tp/tp1_package.tgz La commande va télécharger une archive contenant: Le poème ayant servi d'exemple en cours. Le code d'exemple du cours (classes driver, map et reduce). Un script permettant la mise en place simplifiée de l'environnement de compilation.

4 Décompresser l'archive: tar -zxvf tp1_package.tgz Exécuter le script classpath:. classpath Ce script exporte la variable d'environnement CLASSPATH nécessaire à javac pour trouver les librairies Hadoop qui nous permettront de compiler le programme d'exemple. Compiler le programme Hadoop: javac WCount*java

5 La compilation a généré trois fichiers.class: un pour chacune de nos classes (driver, map et reduce). On va désormais packager le programme d'exemple au sein d'un fichier.jar. Créer l'arborescence liée au nom du package avec la commande: mkdir -p org/mbds/hadoop/wordcount Et déplacer les fichiers compilés au sein de cette arborescence: mv *.class org/mbds/hadoop/wordcount Générer le.jar: jar -cvf mbds_wcount.jar -C. org

6 En préparation de l'exécution de notre programme Hadoop, nous allons maintenant déplacer le texte du poème sur HDFS. Exécuter la commande: hadoop fs -put poeme.txt / et vérifier sa présence avec la commande: hadoop fs -ls / Enfin, exécuter notre programme Hadoop avec la commande: hadoop jar mbds_wcount.jar org.mbds.hadoop.wordcount.wcount \ /poeme.txt /results La commande devrait prendre tout au plus quelques secondes à s'exécuter.

7 Si tout s'est passé correctement, un message «mapreduce.job: map 100% reduce 100%» devrait s'afficher. Vérifier la présence des fichiers de résultats dans le répertoire /results avec la commande: hadoop fs -ls /results (un fichier _SUCCESS devrait être présent, ainsi qu'un fichier part-r-00000). Enfin, afficher les résultats finals avec la commande: hadoop fs -cat /results/part-r-00000 Le mot «qui» devrait être le plus présent au sein du poème (25 occurrences).

TP - Anagrammes 8 Vous devez maintenant réaliser votre propre programme Hadoop. OBJECTIF: on dispose d'une liste de mots courants de la langue anglaise (plus de 1000). On souhaite déterminer quels mots sont des anagrammes. On rappelle qu'un mot est un anagramme d'un autre si leurs lettres sont identiques (par exemple, «lemon» et «melon»). Télécharger le fichier des mots courants avec la commande: wget http://cours.tokidev.fr/bigdata/tp/common_words_en_subset.txt Remarque: vous pouvez utiliser Streaming (tel que vu en cours) si vous préférez développer dans un autre langage que Java. L'essentiel est de réaliser le programme Hadoop :-)

Conseils 9 Pensez bien à appliquer la méthodologie vue en cours. Les questions à se poser: quelle est la clef à utiliser? Quel est le facteur commun entre les anagrammes, c'est à dire la clef qui permettra à Hadoop de les grouper? Ne pas oublier de déplacer les données d'entrée (le fichier des mots courants) sur HDFS. Vous pouvez utiliser un IDE plus confortable (Eclipse ou autre) sur vos machines hôtes si vous le préférez pour compiler le.jar, et le transférer sur la machine virtuelle dans un second temps pour tester. Pensez simplement à créer un projet Java «classique» pour générer un.jar, et à ajouter les librairies Hadoop vues en cours au projet (les quatre.jar télécharger Hadoop pour les obtenir).