HADOOP ET SON ÉCOSYSTÈME



Documents pareils
BIG DATA et DONNéES SEO

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Hadoop, les clés du succès

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Cartographie des solutions BigData

Labs Hadoop Février 2013

Les journées SQL Server 2013

Big Data Concepts et mise en oeuvre de Hadoop

Offre formation Big Data Analytics

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Panorama des solutions analytiques existantes

Titre : La BI vue par l intégrateur Orange

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

BIG DATA en Sciences et Industries de l Environnement

Introduction Big Data

Le BigData, aussi par et pour les PMEs

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Les technologies du Big Data

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

Introduction à MapReduce/Hadoop et Spark

Programmation parallèle et distribuée

Tables Rondes Le «Big Data»

Big Data. Concept et perspectives : la réalité derrière le "buzz"


Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Les quatre piliers d une solution de gestion des Big Data

Anticiper et prédire les sinistres avec une approche Big Data

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

Le Big Data Vers de nouveaux usages! 18/03/2015

Programmation parallèle et distribuée (Master 1 Info )

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

M2 GL UE DOC «In memory analytics»

Programmation parallèle et distribuée

Maîtriser les technologies Big Data pour obtenir des résultats en quasi-temps réel

Fouille de données massives avec Hadoop

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

SQL SERVER 2008, BUSINESS INTELLIGENCE

Document réalisé par Khadidjatou BAMBA

Big Graph Data Forum Teratec 2013

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

BIGDATA AN 3 : UNE NOUVELLE ERE DE B.I.

Big Data, un nouveau paradigme et de nouveaux challenges

Ricco Rakotomalala R.R. Université Lyon 2

Cassandra et Spark pour gérer la musique On-line

Programme ASI Développeur

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Le traitement du Big Data inclue la collecte, la curation, le stockage, l enrichissement, le croisement, la partage, l analyse et la visualisation.

Vos experts Big Data. Le Big Data dans la pratique

Quels choix de base de données pour vos projets Big Data?

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop


Entreprise et Big Data

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Safe Harbor Statement

Big Data On Line Analytics

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

TP2_1 DE BUSINESS INTELLIGENCE ISIMA ZZ3 F3

Business Intelligence avec Excel, Power BI et Office 365

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

SAP Business Suite Powered by SAP HANA Transactionnel et Analytique réunis

Avant-propos. Organisation du livre

Change the game with smart innovation

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group


NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

IBM BigInsights for Apache Hadoop


BI Haute performance. Jean-François Vannier Responsable Infrastructures Décisionnelles, Bull

Me#re le Big Data sur la carte : défis et avenues rela6fs à l exploita6on de la localisa6on

et les Systèmes Multidimensionnels

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Big Data Jean-Michel Franco

Tout savoir sur Hadoop : Vulgarisation de la technologie et les stratégies de certains acteurs

AXIAD Conseil pour décider en toute intelligence

Chapitre 9 : Informatique décisionnelle

Le nouveau visage de la Dataviz dans MicroStrategy 10

SQL Server 2012 et SQL Server 2014

Petit Déjeuner Pépinière du Logiciel Libre. 25 juin 2008

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Business Intelligence

SpagoBI: la seule suite décisionnelle 100% open source, complète et flexible

Big Data Analyse et valorisation de masses de données PREAMBULE

BIG DATA : comment étendre et gérer la connaissance client? François Nguyen SFR Directeur SI décisionnel & Mkt relationnel GP

Comment valoriser votre patrimoine de données?

Transcription:

HADOOP ET SON ÉCOSYSTÈME Mars 2013 2012 Affini-Tech - Diffusion restreinte 1

AFFINI-TECH Méthodes projets Outils de reporting & Data-visualisation Business & Analyses BigData Modélisation Hadoop Technos Sciences Statistiques (R) NoSQL Machine Learning Cloud Intégration, Mise en Oeuvre, Conseil et Formation Une démarche intégrée de bout en bout 2

Collecter Stocker Traiter Analyser Valoriser Présenter Organiser 2012 Affini-Tech - Diffusion restreinte 3

Collecter Stocker Traiter Analyser Valoriser Présenter Organiser BigData Data- Science Décisionnel 2012 Affini-Tech - Diffusion restreinte 3

Collecter Stocker Traiter Analyser Valoriser Présenter Organiser BigData Data- Science Décisionnel 2012 Affini-Tech - Diffusion restreinte 3

Collecter Stocker Traiter Analyser Valoriser Présenter Organiser BigData Data- Science Décisionnel Votre infrastructure 2012 Affini-Tech - Diffusion restreinte 3

Collecter Stocker Traiter Analyser Valoriser Présenter Organiser BigData Data- Science Décisionnel Votre infrastructure Notre Cloud 2012 Affini-Tech - Diffusion restreinte 3

AGENDA BigData Hadoop & Datawarehouses Evolutions Performances Cas d utilisation 4

5

6

6

LES 4 V DU BIGDATA 7

LES 4 V DU BIGDATA Volume : les technologies actuelles sont inadaptées à cette croissance effrénée. Variété : l entreprise est confrontée à des données non structurées : emails, web, réseau sociaux, son, image, video... Vélocité : L accès et le partage des données doit se faire en temps réel. Variabilité : On ne sait pas prévoir l évolution des types de données 7

Valeur unitaire Valeur des données Volume 8

Transactionnelles Valeur unitaire Valeur des données Volume 8

Transactionnelles Historisées : B.I. Valeur unitaire Valeur des données Volume 8

Transactionnelles Historisées : B.I. Valeur unitaire Valeur Big Data des données Volume 8

Transactionnelles Cout Historisées : B.I. Valeur Big Data des données Volume 8

Performance Volume 9

Performance SQL Volume 9

Performance SQL MPP Volume 9

Performance SQL MPP Volume 9

Performance SQL MPP Volume Variété 9

HDFS NameNode DataNode DataNode DataNode 10

Map / Reduce HDFS NameNode DataNode DataNode DataNode 10

Map / Reduce HBase HDFS NameNode DataNode DataNode DataNode 10

Hive HCatalog Pig Mahout Cascading Crunch Map / Reduce HBase HDFS NameNode DataNode DataNode DataNode 10

Hive Pig Cascading Flume HCatalog Mahout Crunch Sqoop Map / Reduce HBase HDFS NameNode DataNode DataNode DataNode 10

Hive Pig Cascading Flume HCatalog Mahout Crunch Sqoop Ambari Map / Reduce HBase HDFS NameNode DataNode DataNode DataNode 10

ET LES DATAWAREHOUSES 11

B.I. TRADITIONNELLE Transactionnel 12

B.I. TRADITIONNELLE Transactionnel DataWarehouse 12

B.I. TRADITIONNELLE 10% 7% 8% 35% 11% 200 29% 150 100 50 0 2007 2008 2009 2010 Transactionnel DataWarehouse BI Applications 12

B.I. TRADITIONNELLE 10% 7% 8% 35% Transactionnel DataWarehouse & DataMarts 11% 200 29% 150 100 50 0 2007 2008 2009 2010 BI Applications 12

: ETL++ 8% 7% 35% 10% Non-Structuré 200 150 11% 29% 100 50 0 Transactionnel DataWarehouse & DataMarts 2007 2008 2009 2010 BI Applications 13

: ETL & DW 10% 7% 8% 35% Non-Structuré 200 150 11% 29% 100 50 0 2007 2008 2009 2010 Transactionnel ETL & DW DataMarts BI Applications 14

: EDW Non-Structuré 200 150 100 50 10% 11% 7% 8% 29% 35% 0 2007 2008 2009 2010 Transactionnel ETL & DW & DataMarts BI Applications 15

EVOLUTIONS Différentes Workloads Map / Reduce ne suffit plus Productivité du développeur Ouverture de l écosystème Performances 16

TYPES DE WORKLOADS Batch Latence Minutes à Heures Volume To à Po Modèle Map / Reduce Utilisateurs Développeurs 17

TYPES DE WORKLOADS Batch Stream Latence Minutes à Heures Continu Volume To à Po Flux continu Modèle Map / Reduce DAG Utilisateurs Développeurs Développeurs 17

TYPES DE WORKLOADS Batch Stream Interactif Latence Minutes à Heures Continu Millisecondes à Minutes Volume To à Po Flux continu Go à Po Modèle Map / Reduce DAG Requêtes SQL Utilisateurs Développeurs Développeurs Analystes 17

HADOOP 1 : MAP / REDUCE Task Tracker Client Client Job Tracker Task Task Task Tracker Task Tracker 18

HADOOP 1 : MAP / REDUCE Task Tracker Client Client Job Tracker Task Task Task Tracker Task Tracker 18

HADOOP 1 : MAP / REDUCE Task Tracker Client Job Tracker Task Task Tracker Task Client Task Task Task Tracker Task Task 18

HADOOP 2 : YARN Node Client Ress Node Node 19

HADOOP 2 : YARN Node Client Ress Node Node 19

HADOOP 2 : YARN Node Client Master Ress Node Node 19

HADOOP 2 : YARN Node Client Master Ress Node Node 19

HADOOP 2 : YARN Node Container Client Master Ress Node Container Node 19

HADOOP 2 : YARN Node Container Client Master Ress Node Container Client Node 19

HADOOP 2 : YARN Node Container Client Master Ress Node Container Client Master Node 19

HADOOP 2 : YARN Node Container Client Master Ress Node Container Client Master Node 19

HADOOP 2 : YARN Client Node Master Container Container Ress Node Container Client Master Container Node Container Container Container 19

YARN Scalabilité (de 4K nodes à 10K+) Containers : unités de processing Utilisation optimale des ressources Compatibilité avec M/R v1 Autres modèles de programmation (MPI...) Haute-Disponibilité 20

PRODUCTIVITÉ DU DEVELOPPEUR Map/Reduce est contraignant! Alternatives masquant Map/Reduce : HIVE : SQL (+ interfaces JDBC) PIG : Séquences simples de transformation CASCADING : modèle de programmation simplifié pour tous les langages de la JVM 21

OUVERTURE DE L ÉCOSYSTEME Possibilité de substituer des parties d Hadoop par des codes extérieurs. remplace le tri natif de Hadoop pour améliorer les performances. Remplacement des connecteurs Hadoop par ceux d ETL classiques du marché 22

PERFORMANCES Hybridation Hadoop/RDBMS Impala : I/O directes & Bypass HDFS Tez : Réduction de la latence Spark : Map/Reduce in-memory 23

HADOOP + RDBMS Exporter les résultats de requêtes Hadoop vers un SGBD ou un appliance MPP Mixer un SGBD classique et un stockage Hadoop Le SGBD cache les données... Hadapt, CitusDB, PivotalHD, Microsoft Polybase 24

CLOUDERA IMPALA Projet propriétaire de Cloudera Fonctionnement proche des moteurs MPP & conserve un socle Hadoop Lecture directe des blocs sur disques Format colonne Etend les interfaces de Hive/SQL 25

APACHE TEZ & STINGER Supprimer les I/O intermédiaires Performances x45 Générique M/R 26

SPARK & SHARK Spark : Implémentation de M/R en mémoire. Structures de données distribuées. Performances sur les iterations : Machine-Learning Shark offre une compatibilité Hive/SQL Un projet de 27

CAS D UTILISATION Facebook Linkedin Comscore Voyages SNCF 28

MERCI! Vincent Heuschling Gsm : 06 61 88 76 71 Email : vhe@affini-tech.com Web : http://www.affini-tech.com Twitter : @affinitech & @vhe74 29