Hadoop, les clés du succès



Documents pareils
Introduction au Massive Data

HADOOP ET SON ÉCOSYSTÈME

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Labs Hadoop Février 2013

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Offre formation Big Data Analytics

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Big Data Concepts et mise en oeuvre de Hadoop

Anticiper et prédire les sinistres avec une approche Big Data

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Les journées SQL Server 2013

PACKS DE VIRTUALISATION HP

Cartographie des solutions BigData

Cassandra et Spark pour gérer la musique On-line

Vos experts Big Data. Le Big Data dans la pratique

Programmation parallèle et distribuée


Panorama des solutions analytiques existantes

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Gamme Serveurs HP ProLiant Rack

Ricco Rakotomalala R.R. Université Lyon 2

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Les quatre piliers d une solution de gestion des Big Data

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

Introduction à MapReduce/Hadoop et Spark

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

L UNIVERS INSTANTANÉ:

مرحبا. Bienvenue. Wel come

Atelier BNP le 28 Mars 2013 Assurances, mutuelles : Les nouveaux défis de la communication multicanal

La relation DSI Utilisateur dans un contexte d infogérance

Change the game with smart innovation

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

Fouille de données massives avec Hadoop

Le nouveau visage de la Dataviz dans MicroStrategy 10

Le BigData, aussi par et pour les PMEs

Ne cherchez plus, soyez informés! Robert van Kommer

Les technologies du Big Data

LES ENJEUX DU BIG DATA

Gouvernance et nouvelles règles d organisation

Projet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia

ADMINISTRATION EXADATA

Portefeuille de solutions HP pour la virtualisation

BIG DATA en Sciences et Industries de l Environnement


M2 GL UE DOC «In memory analytics»

Quels choix de base de données pour vos projets Big Data?

Safe Harbor Statement

Bienvenue au séminaire HP Service Anywhere Mardi 11 février 2014

EMC Enterprise Hybrid Cloud. Emmanuel Bernard Advisory vspecialist

Tables Rondes Le «Big Data»

Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an

Entreprise et Big Data

Programmation parallèle et distribuée

HP Formation Description de cours

Exploration des Big Data pour optimiser la Business Intelligence

Bases de Données NoSQL

Bases de données documentaires et distribuées Cours NFE04

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Maîtriser les technologies Big Data pour obtenir des résultats en quasi-temps réel

Les bases de données relationnelles

Expérience de la mise en place s une solution de gestion de capacité pour supporter la migration des Datacenter

BIG DATA et DONNéES SEO

Le Big Data Vers de nouveaux usages! 18/03/2015

Big Data Analyse et valorisation de masses de données PREAMBULE

Surmonter les 5 défis opérationnels du Big Data

Le traitement du Big Data inclue la collecte, la curation, le stockage, l enrichissement, le croisement, la partage, l analyse et la visualisation.

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data

Big Data On Line Analytics

Big Data, un nouveau paradigme et de nouveaux challenges

Machine Learning 9:HSMBKA=\WU\YX: Big Data et machine learning. Manuel du data scientist. InfoPro

Un peu de culture : Bases N osql L 1

Big Graph Data Forum Teratec 2013

MARS 2015 DATA LAB. TechTrends - Publication de Xebia IT Architects. Imaginer. Matérialiser. Exploiter

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

Titre : La BI vue par l intégrateur Orange

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

Comment valoriser votre patrimoine de données?

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

IBM BigInsights for Apache Hadoop

Lab Westcon-F5-Vmware. Frédéric Nakhle Directeur technique Westcon Nicolas Berthier Consultant Avant-vente F5

Tout savoir sur Hadoop : Vulgarisation de la technologie et les stratégies de certains acteurs

BI SWISS FORUM (ecom / SITB)

BIG Data et R: opportunités et perspectives

Fouillez facilement dans votre système Big Data. Olivier TAVARD

BIG DATA PLATFORM FOR RESEARCH AND INNOVATION TERALAB

QLIKVIEW ET LE BIG DATA

Big Data et Graphes : Quelques pistes de recherche

Kick Off SCC EMC l offre EXTREMIO. fmarti@fr.scc.com Philippe.rolland@emc.com. Vers de nouveaux horizons

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Transcription:

Hadoop, les clés du succès Didier Kirszenberg, Responsable des architectures Massive Data, HP France Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

Par où commencer? La direction demande un projet Big Data «générique» Identification des sujets HP Big Data Discovery Workshop Echanges métiers Mise en place d une stratégie Datalab Mise en place d une stratégie DataLake Mise en place d une stratégie DataViz Un métier a une demande précise Phase de qualification : SLA, Stratégie de restitution Privilégier les approches itératives «Pizza Team» L IT veut se faire la main en attendant les demandes métier Partir de besoins Big Data de l IT (Gestion des logs, Sécurité ) L IT veut monter une offre Hadoop as a service Expertise et références HP

Changement de paradigme pour les DBA Type de données On traite du structuré mais aussi du non structuré Evolution de la notion de qualité des données (Moins de synchronisation, plus d échantillons, time stamp) Recherche de performance Passage systématique à des schémas dénormalisés (réplication pour éviter les jointures) Plus d effet de seuil (mode Batch, traitement long mais pas bloqué) Peu ou pas d indexes Possibilité de définir les «formats» a postériori -> Datalake Plus de partitionnement des données (data sharding, rotation) Peu ou pas de triggers et de procédures stockées (mais modules CEP disponibles) Architecture MPP : Matériel faible cout, le volume peut améliorer la performance Possibilité de solutions spécialisés (Base en colonne, Base document, base Graphe ) Procédure d opération Pas de Backup Restore sur plusieurs Peta Multi-site restreint Sécurité spécifique 3

Intégration aux stratégies de développements Direct Hadoop Connections SQL Hadoop Data Scalable MPP SQL Database with Hadoop Connector BI Tools Hadoop integration tools Extract / format data In Hadoop (ETL) Traditional Database ie : PostgreSQL Key/Value Store Math. Language Developped with Hadoop tools 4 Storm Monde Hadoop Clojure BI traditionnel

Selectionner ses modules dans l ecosystème Hadoop Cloud Enablement Hadoop Virtualization Extensions on VMware vsphere 5 (HVE) Security Sentry, Knox, Kerberos, OpenLDAP Management & Monitoring Ambari, Cloudera Mger, Hue CMU Workflow & Scheduling Oozie Non-Relational Database HBase, Cassandra, Spark Pig Mahout Batch Processing MapReduce MES Data Processing Distributed Storage Cascading HDFS2 Hive HCatalog Resource management & Coordination YARN HP ProLiant Gen8 server with DAS Impala, Stinger, Drill Low latency Processing TEZ, Spark Zookeeper Data Integration Services Flume, Sqoop, Storm, Kafka, WebHDFS 5

Hadoop les aspects réseau Les principes de base Hadoop est sensible à la bande passante Un réseau 10Gbit Ethernet est une option, cette architecture n est pas obligatoire L usage de plusieurs ports 1Gbit Ethernet en agrégation de liens (LACP) est une architecture alternative Hadoop n était pas sensible à la latence mais cela évolue Il n est donc pas nécessaire de considérer un réseau Infiniband ou 40Gbit Ethernet Avec l introduction des requêtes interactives cet aspect va évoluer Hadoop génère un trafic inter-nœuds important (en particulier la phase Shuffle) L utilisation de commutateurs «Deep Buffer Caching» est un atout pour les performances Il faut éviter les architectures réseaux «Nord-Sud» qui remontent les flux dans un back-bone et prendre des top-of-racks qui «isolent» le cluster Hadoop n est pas «routable» (niveau 3) 6

Gestion des architectures parallèles (MPP) Nouvelles procédures et nouveaux utilitaire (HPInsight CMU) Gestion de systèmes standards L objectif est de déployer de nombreux services sur une machine Tous les peuvent être différents Les opérations sont par défaut basées sur l Hyperviseur La performance s analyse au niveau d un système unitaire -> le coût d opération est lié au nombre d Massivelly Parallel systems management L objectif est de déployer un unique service sur de nombreuses machines Tous les doivent être similaires au firmware près Pas d hyperviseur (les services utilisent 100% des systèmes) La performance s analyse au niveau global -> le coût d opération doit être lié au nombre de services Hadoop (comme Mongo DB, Couchbase, Vertica, SAS VA, Moonshot ) induit la gestion de systèmes massivement parallèles 7

HP CMU Gestion des fermes de calcul - Aide au tuning du développement - Opérer 10, 100, 1000 systèmes comme un seul - Adresse Vertica et Hadoop, SAS HPA et SAS Visual Analytics 8 8

Merci Didier.Kirszenberg@hp.com Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject to change without notice.

10