L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13



Documents pareils
Big Data Concepts et mise en oeuvre de Hadoop

HADOOP ET SON ÉCOSYSTÈME

Labs Hadoop Février 2013

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Hadoop, les clés du succès

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Cartographie des solutions BigData

Anticiper et prédire les sinistres avec une approche Big Data

BIG DATA en Sciences et Industries de l Environnement

Offre formation Big Data Analytics

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Les journées SQL Server 2013

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Introduction à MapReduce/Hadoop et Spark

Vos experts Big Data. Le Big Data dans la pratique

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Big Data, un nouveau paradigme et de nouveaux challenges


Tables Rondes Le «Big Data»

Panorama des solutions analytiques existantes

Programmation parallèle et distribuée

Programmation parallèle et distribuée

Ricco Rakotomalala R.R. Université Lyon 2

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Programmation parallèle et distribuée (Master 1 Info )

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

Les technologies du Big Data

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Les quatre piliers d une solution de gestion des Big Data

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

M2 GL UE DOC «In memory analytics»

Surmonter les 5 défis opérationnels du Big Data

Titre : La BI vue par l intégrateur Orange

Projet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia

Fouille de données massives avec Hadoop

Le BigData, aussi par et pour les PMEs

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

Avant-propos. Organisation du livre

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Maîtriser les technologies Big Data pour obtenir des résultats en quasi-temps réel


Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

BIG Data et R: opportunités et perspectives

Tout savoir sur Hadoop : Vulgarisation de la technologie et les stratégies de certains acteurs

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

SpagoBI: la seule suite décisionnelle 100% open source, complète et flexible

Ne cherchez plus, soyez informés! Robert van Kommer

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Cassandra et Spark pour gérer la musique On-line

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

TP2 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Machine Learning 9:HSMBKA=\WU\YX: Big Data et machine learning. Manuel du data scientist. InfoPro

Le Big Data Vers de nouveaux usages! 18/03/2015

Big Data Analyse et valorisation de masses de données PREAMBULE

Document réalisé par Khadidjatou BAMBA

BIG DATA : comment étendre et gérer la connaissance client? François Nguyen SFR Directeur SI décisionnel & Mkt relationnel GP

MapReduce et Hadoop. Alexandre Denis Inria Bordeaux Sud-Ouest France ENSEIRB PG306

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

Le cloud computing au service des applications cartographiques à haute disponibilité

hurence Big Data get its magical power CEO & CTO

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

Le nouveau visage de la Dataviz dans MicroStrategy 10

La rencontre du Big Data et du Cloud

Change the game with smart innovation

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

2 e édition. et le Big Data. Comprendre et mettre en oeuvre. NoSQL. Rudi Bruchez. Les bases de données

Introduction Big Data

Safe Harbor Statement

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

Programme ASI Développeur

MARS 2015 DATA LAB. TechTrends - Publication de Xebia IT Architects. Imaginer. Matérialiser. Exploiter

Rapport d étude sur le Big Data

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an

Big Data On Line Analytics

Le traitement du Big Data inclue la collecte, la curation, le stockage, l enrichissement, le croisement, la partage, l analyse et la visualisation.

Hadoop : une plate-forme d exécution de programmes Map-Reduce

Hadoop : une plate-forme d exécution de programmes Map-Reduce

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Pentaho Business Analytics Intégrer > Explorer > Prévoir

BIG DATA et DONNéES SEO

Introduction à la B.I. Avec SQL Server 2008

Transcription:

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com

HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks, Crédit Mutuel Arkea, Criteo,.. hugfrance.fr

Big Data use cases BI - Reporting HDFS Map Reduce, YARN HBase, Cassandra Pig, Hive Avro, RCFiles Impala, Drill Data Driven Products Mahout Spark Real Time Processing Storm, S4 Flume, Scribe

HDFS Distributed File System Based on Google s 2003 GFS paper Distributed File System Has a Namenode and multiple Datanodes The client is intelligent Coordinated via Zookeeper (a simpler version of Paxos) The filesystem is an abstraction in Hadoop and there are many alternatives such as: S3, local filesystem, FTP, MapR, IBM,..

HDFS Architecture

MAp Reduce, YARN Abstraction proposée par Google en 2004 Le développeur ne raisonne que sur deux étapes: Map: sélection ou calcul des champs d intérêt Reduce: aggrégation par clé Adapté pour une analyse complète du dataset Utilise deux rôles: JobTracker et TaskTracker Colocation des données pour réduire l IO Il existe des abstractions plus haut niveau que MR: pig, hive, scalding, cascalog.. YARN = Map Reduce v2 Offres as a Service intéressantes pour des POC: AWS Elastic Map Reduce, MS Azure HD Insight

Map Reduce

HBASE (et Cassandra) HBase est une base de données distribuée orientée colonnes (Google BigTable, 2006) Les données sont écrites et lues pour un couple (ligne, colone): accès random rapide Les colones sont regroupées en familles Nécessite beaucoup d attention dans le choix du datamodel en fonction de contraintes du système Utile pour des applications distribuées (ex: Gmail est sur Big Table), du monitoring (time series: OpenTSDB) ou de la BI Cassandra est une alternative open source (non Hadoop) très populaire

HBASE Architecture

PIG - HIVE PIG is a scripting language for map reduce queries PIG supports UDFs and is procedural Hive is SQL for Hadoop Both are targeted at analysts Both compile to Map Reduce jobs

Pig Latin

Serialization Choix du format de stockage critique pour la rapidité d exécution des requêtes Format Hadoop historique: SequenceFiles Avro format standard Hadoop (similaire à thrift et protocol buffers) Formats orientés colones: RCFile, Trevni, Parquet Permettent de limiter l IO et de mieux compresser les données

Impala: real time queries Framework de requêtes interactives hadoop Développé par Cloudera Basé sur la publication Dremel de Google (2010) Utilise un format de fichier orienté colones: Parquet Gain en temps d execution de 7 à 45x si jointure Implémentation communautaire de Ted Dunning (MapR): Drill

Columnar File Format

Mahout Collection d algorithmes de data mining en MR Classes d algorithmes dispo: Recommandation (CF, user based, item based) Clusterisation Classification Itemset mining

Spark Framework d analyse de données distribué, en mémoire Requêtes interactives grâce au cache Bien adapté au machine learning Projet de Berkeley, incubé par Apache Software Foundation

Storm Real time distributed computation Sources de données éphémères (ou rejouable via Kafka) Permet d obtenir: Analytics temps réel Un data pipeline continu ETL Online Machine Learning (Storm ML) S4: alternative Apache

Flume, Scribe Streaming et aggrégation de logs Permet de collecter de grands volumes de log de façon distribuée

Hadoop chez CaptainDash

Hadoop chez captaindash Distribution Cloudera HDFS, HBase, cluster 3 machines Application custom: Cubes Olap de faible dimensionnalité 1 an de production, 12 aines d interruptions de service Inspiré de OpenTSDB et utilisation de HBaseAsync