Chapitre 10 Mettre en œuvre un cluster Hadoop



Documents pareils
Big Data Concepts et mise en oeuvre de Hadoop

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

A Les différentes générations VMware

PostgreSQL. Formations. Catalogue Calendrier... 8

En savoir plus pour bâtir le Système d'information de votre Entreprise

G. Méthodes de déploiement alternatives

Cloud Computing : forces et faiblesses

Infrastructure RDS 2012

Hébergement MMI SEMESTRE 4

Service d'installation et de démarrage de la solution de stockage réseau HP StoreEasy 1000/3000

Hyper-V et SC Virtual Machine Manager sous Windows Server 2008 R2

Le stockage. 1. Architecture de stockage disponible. a. Stockage local ou centralisé. b. Différences entre les architectures

Livre Blanc. L hébergement à l heure du Cloud. Comment faire son choix?

Définition. Caractéristiques. - Du partage des ressources : espace de stockage, imprimantes, lignes de communication.

VMWare Infrastructure 3

ORTIZ Franck Groupe 4. Terminal serveur pour administrer un serveur Windows à distance, client rdp linux.

Projet d'infrastructure Cloud

tech days AMBIENT INTELLIGENCE

Concours interne d ingénieur des systèmes d information et de communication. «Session 2010» Meilleure copie "étude de cas architecture et systèmes"

Auguria_PCM Product & Combination Manager

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Optimisation des performances

Propriété intellectuelle en informatique

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Les Fiches thématiques Services et Logiciels à distance Cloud Computing, ASP, SaaS

Drive your success. «Un écosystème complexe implique une capacité de gestion temps réel des aléas»

NOTE DE SYNTHESE Virtualisation de postes utilisateurs

DREAL proposition DNS et hébergement. magazine le 14 septembre 2011 DREAL comparatif hébergement

Ricco Rakotomalala R.R. Université Lyon 2

Projet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia

CONDITIONS PARTICULIÈRES DES HÉBERGEMENTS MUTUALISES DE SITES INTERNET

La continuité de service

CA ARCserve Backup Option NAS (Network Attached Storage) NDMP (Network Data Management Protocol)

multi process 25 RUE Benoît Malon ROANNE

Veille Technologique. Cloud Computing

AUDIT MAINTENANCE CURATIVE MAINTENANCE PREVENTIVE HOTLINE

MODULES 3D TAG CLOUD. Par GENIUS AOM

Cloud Computing : Utiliser Stratos comme PaaS privé sur un cloud Eucalyptus

PRESENTATION DE OpenERP/Odoo. Progiciel de Gestion Intégré Open Source

Didacticiel de mise à jour Web

Architecture N-Tier. Ces données peuvent être saisies interactivement via l interface ou lues depuis un disque. Application

Guide d utilisation. Table des matières. Mutualisé : guide utilisation FileZilla

Formation SQL Server 2012 Administration des Instances

EMC ATMOS. Gestion des Big Data dans le cloud UN MOYEN ÉPROUVÉ D INTÉGRER LES AVANTAGES DU CLOUD DANS VOTRE ENTREPRISE FONCTIONS ATMOS

Déploiement, administration et configuration

EXIN Cloud Computing Foundation

Technologies du Web. Créer et héberger un site Web. Pierre Senellart. Page 1 / 26 Licence de droits d usage

Les clusters Linux. 4 août 2004 Benoît des Ligneris, Ph. D. benoit.des.ligneris@revolutionlinux.com. white-paper-cluster_fr.sxw, Version 74 Page 1

Faulconnier Bastien SIO2. Cahier des charges. Choix et mise en œuvre d'un datacenter pour Infrastructure Cloud. Pour la société :

INSTALLER JOOMLA! POUR UN HEBERGEMENT LINUX

LES OUTILS COLLABORATIFS

2 disques en Raid 0,5 ou 10 SAS

Armelin ASIMANE. Services RDS. de Windows Server 2012 R2. Remote Desktop Services : Installation et administration

A. Architecture du serveur Tomcat 6

Virtualisation de serveurs Solutions Open Source

Le VDI et les solutions SaaS : Des outils puissants pour les DSI au service des utilisateurs. Château de Montchat, 7 octobre 2013

Windows Server 2008 Administration et exploitation

1 JBoss Entreprise Middleware

Modèles de licence de SQL Server 2012

Conception des systèmes répartis

KASPERSKY SECURITY FOR BUSINESS

Enseignant: Lamouchi Bassem Cours : Système à large échelle et Cloud Computing

OmniTouch 8400 Unified Communications Suite

Comment formaliser une offre Cloud Computing vendable?

Des systèmes d information partagés pour des parcours de santé performants en Ile-de-France.

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Le Cloud. Généralités & Sécurité. Valentin Lecerf Salon du multimédia et de la photo Proville

HPC by OVH.COM. Le bon calcul pour l innovation OVH.COM

Sécurité du cloud computing

Module 0 : Présentation de Windows 2000

Calculs de coût. Université de Marne-la-Vallée 4/35 Laurent Wargon

1 LE L S S ERV R EURS Si 5

La virtualisation du poste de travail

QU EST-CE QUE LE SAAS?

Architectures informatiques dans les nuages

Programmation parallèle et distribuée (Master 1 Info )

NOTE D'APPLICATION CONCERNANT LA MISE EN SERVICE DE MATERIELS SUR RESEAU IP

Administration des ressources informatiques

QU EST-CE QUE LE SAAS?

Modèle de cahier des charges pour un appel d offres relatif à une solution de gestion des processus métier (BPM)

Recovery as a Service

MySQL. (Administrateur) (Dernière édition) Programme de formation. France, Belgique, Suisse, Roumanie - Canada

Création d'une nouvelle base de données

ID Concept. Informatique et Communications. 21 rue d Esbly Lésigny Tél : Fax : Mail : info@id concept.

Résultats de l Observatoire 2013 Etats des Lieux de l Open Source en France réalisé en décembre 2012

COMMENT LIRE UN DEVIS DE CREATION DE SITE WEB?

Solutions informatiques (SI) Semestre 1

Virtualisation et mutualisation Le cloud computing, un enjeu structurant et stratégique pour le secteur public. Paris, 4 mai 2011

Associer la puissance des nouvelles technologies tout en préservant l environnement

Défi Cloud Computing

Présentation du déploiement des serveurs

Cloud computing Architectures, services et risques

Des applications locales à l infonuagique: comment faire la transition?

Cloud Computing. Veille Technologique

Transcription:

Chapitre 10 Mettre en œuvre un cluster Hadoop 1. Objectif du chapitre Mettre en œuvre un cluster Hadoop L'objectif de ce chapitre est de comparer différentes options possibles pour mettre en œuvre un cluster Hadoop, ainsi que les différents coûts à prendre en compte. En effet, considérer que Hadoop, parce qu'il est un projet Open Source, ne coûte rien serait aller un peu vite en besogne : mettre en place un cluster, serait-ce en version totalement open source, entraîne au minimum des coûts matériels et humains qui ne sont pas toujours négligeables. 2. Cluster dédié ou cluster dans le Cloud? Le premier choix qui se présente à un directeur informatique qui se lance dans Hadoop est de décider s'il souhaite opter : Pour un cluster dédié, qu'il soit physiquement installé dans les locaux de l'entreprise ou chez un hébergeur. Pour un cluster dans le Cloud, dont il partagera éventuellement les ressources avec d'autres clients du prestataire de services. Le tableau ci-après essaye de résumer les principaux avantages et inconvénients de ces trois grandes options, que l'organisme concerné soit une entreprise ou un autre organisme.

164 Big Data Concepts et mise en œuvre de Hadoop Option Avantages Inconvénients 1. Cluster dédié installé dans les locaux de l'organisme Totale maîtrise du cluster (matériels, logiciels, réseaux). Grande disponibilité des ingénieurs système, qui sont présents sur place. Totale liberté au niveau des moyens et du planning pour faire fonctionner et évoluer le cluster. Seule option qui garantisse à 100% la confidentialité des données (si pas de réseau vers l'extérieur). Investissement initial en euros et en temps peut être plus important que pour les autres options. Risque de tout vouloir faire en interne (Hadoop est un outil disposant de très nombreuses possibilités de paramétrage, pas toujours faciles à maîtriser). Editions ENI - All rights reserved

Mettre en œuvre un cluster Hadoop Chapitre 10 165 Option Avantages Inconvénients 2. Cluster dédié installé chez un hébergeur Tarifs souvent compétitifs (mutualisation des ressources). Tarifs plus progressifs que dans l'option 1 (effets de seuils réduits). Équipes gérant l'hébergement normalement très professionnelles. Fiabilité et disponibilité élevées. Dans certaines offres, les principaux logiciels de l'écosystème de Hadoop sont préinstallés. Permet de concentrer les efforts sur les tâches directement productives. Configurations matérielle, logicielle et réseau pas forcément connues de manière précise. Limitations techniques (tout n'est pas autorisé). Possibilités d'optimisation du cluster plus limitées. Moins grande disponibilité des ingénieurs système (au moins pour la partie du système gérée par l'hébergeur). Pas de véritable assurance quant à la confidentialité des données. Moins de liberté de choix au niveau des logiciels de l'écosystème de Hadoop dans certains cas.

166 Big Data Concepts et mise en œuvre de Hadoop Option Avantages Inconvénients 3. Cluster partagé dans le Cloud Tarifs souvent compétitifs (pas d'investissement + mutualisation des ressources). Tarifs très progressifs (peu ou pas d'effets de seuil). Aspects techniques, en particulier concernant les réseaux, largement masqués pour le client. Équipes gérant le Cloud normalement très professionnelles. Fiabilité et disponibilité du cluster élevées. Si les données Hadoop sont déjà stockées dans le Cloud, il est logique du point de vue de Hadoop de les traiter au même endroit (cf. proximité des données). Irréversibilité du processus (surtout si les volumes de données en jeu sont importants). Configurations matérielle, logicielle et réseau pas forcément connues de manière précise. Possibilités d'optimisation du cluster réduites. Les aspects juridiques sont plus complexes car la localisation du cluster n'est pas forcément connue, ou qu'elle se situe à l'étranger. Pas de véritable assurance quant à la confidentialité des données. Moins de liberté de choix au niveau des logiciels de l'écosystème de Hadoop dans certains cas. Comme souvent, chaque option a ses avantages et ses inconvénients. Le choix entre l'une ou l'autre se fait donc au cas par cas. On peut en particulier distinguer différentes phases dans un projet Hadoop, l option retenue pour une phase pouvant être différente de celle choisie pour une autre phase. Editions ENI - All rights reserved

Mettre en œuvre un cluster Hadoop Chapitre 10 167 En première approche on peut considérer que : Opter pour un cluster partagé dans le Cloud : Est une option intéressante dans la phase de démonstration du concept (Proof of Concept) car elle est très souple et facile à mettre en œuvre, pour un coût forcément réduit (un démonstrateur requiert une fraction de la puissance du cluster opérationnel). Peut être plus problématique dans la phase d'exploitation du fait que ses performances risquent d'être pénalisées par la virtualisation, et une architecture réseau qui n'est pas forcément optimisée. Opter pour un serveur hébergé : Est une option peut-être un peu contraignante à mettre en œuvre dans la phase de démonstration. Est une option envisageable dans la phase d'exploitation, sous réserve. De s'assurer que les connexions réseau sont adaptées aux types de traitement qu'envisage l'organisme. De disposer d'une équipe d'informaticiens de haut niveau, car la résolution de problèmes affectant des systèmes distants peut s'avérer plus complexe que dans le cas d une solution purement interne. Opter pour un cluster dédié installé dans les locaux de l'entreprise : Est une option envisageable dans la phase de démonstration (le plus souvent les coûts matériels sont limités du fait du faible nombre de nœuds nécessaires). Est une option qui est aussi envisageable en exploitation, même si elle peut sembler, parfois à juste titre, plus coûteuse que les deux autres options. En résumé, on peut dire : Que n'importe laquelle des trois options peut être mise en œuvre dans la phase de démonstration, en prêtant une attention particulière aux performances réseau si l'option 2 ou l'option 3 est retenue. Que le choix de l'option dans la phase d'exploitation doit être précédée d'une analyse de type forces-faiblesses - opportunités-menaces qui tienne compte des besoins et des moyens (matériels, humains, financiers, etc.) de l'organisme. Une évaluation du TCO (Total Cost of Ownership), ou coût du cycle de vie, pourra être faite.

168 Big Data Concepts et mise en œuvre de Hadoop 3. Les coûts 3.1 Cluster dédié installé dans les locaux de l'organisme 3.1.1 Les coûts de formation La première chose à faire avant de se lancer dans l'aventure que constitue la mise en œuvre d'un cluster Hadoop, quelle que soit l'option retenue, est de se former un minimum. Dans tous les cas, les décideurs pourront suivre une formation courte présentant de manière non technique Hadoop et son écosystème. À l'issue de cette formation, ils auront une idée précise de ce qu'est Hadoop, ainsi que de la manière dont le Big Data peut offrir de nouvelles perspectives à leur organisme. Si l'organisme souhaite maîtriser l'installation et l'exploitation de son cluster Hadoop, il est indispensable : Qu'au moins un ingénieur système suive une formation d'administrateur Hadoop. Qu'au moins un développeur suive une formation de programmeur Hadoop incluant différents langages (Java, Python, HiveQL, Pig Latin, etc.). Le cas échéant, un analyste de données pourra aussi suivre une ou deux formations spécifiques. Cloudera propose, directement ou par le biais de la société Global Knowledge, une série de formations assez complète (cf. tableau ci-après). Ces formations peuvent se donner en présentiel (en inter ou en intra) ou à distance via Internet. La plupart des autres grands fournisseurs de logiciels et de services Hadoop proposent des formations similaires à celles de Cloudera, à des prix très proches. Editions ENI - All rights reserved