Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Documents pareils

HADOOP ET SON ÉCOSYSTÈME

Hadoop, les clés du succès

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Anticiper et prédire les sinistres avec une approche Big Data

Cartographie des solutions BigData

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Labs Hadoop Février 2013

Panorama des solutions analytiques existantes

BIG DATA en Sciences et Industries de l Environnement

Les journées SQL Server 2013

Big Data Concepts et mise en oeuvre de Hadoop

Introduction à MapReduce/Hadoop et Spark

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

La rencontre du Big Data et du Cloud

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Les quatre piliers d une solution de gestion des Big Data

Comment valoriser votre patrimoine de données?

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Entreprise et Big Data

Ricco Rakotomalala R.R. Université Lyon 2

Offre formation Big Data Analytics

Le BigData, aussi par et pour les PMEs

Vos experts Big Data. Le Big Data dans la pratique

Programmation parallèle et distribuée (Master 1 Info )

Cassandra et Spark pour gérer la musique On-line

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Programmation parallèle et distribuée

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Surmonter les 5 défis opérationnels du Big Data

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Big Data. Concept et perspectives : la réalité derrière le "buzz"

L Art d être Numérique. Thierry Pierre Directeur Business Development SAP France

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

SAP HANA : BIEN PLUS QU UNE BASE DE DONNÉES EN MÉMOIRE. Jean-Michel JURBERT Chef de Marché SAP France

Stratégie et Vision de SAP pour le secteur Banque- Assurance: Data-Management, BI, Mobilité

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Les technologies du Big Data

ATELIER. QUASAR OBILOG BI (Décisionnel) ATELIER > PROJET BI

Programmation parallèle et distribuée

Tables Rondes Le «Big Data»

ELCA Forum 2014 BIG DATA

BIG DATA et DONNéES SEO

Le nouveau visage de la Dataviz dans MicroStrategy 10

SEMINAIRE SAS VISUAL ANALYTICS LAUSANNE, MARCH 18 : JÉRÔME BERTHIER VALERIE AMEEL

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Kick Off SCC EMC l offre EXTREMIO. fmarti@fr.scc.com Philippe.rolland@emc.com. Vers de nouveaux horizons

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

ez Publish Cloud Edition Présentation

Bases de Données Avancées

Le cloud computing au service des applications cartographiques à haute disponibilité

BIG Data et R: opportunités et perspectives

Les datas = le fuel du 21ième sicècle

<Insert Picture Here> Exadata Storage Server et DB Machine V2

M2 GL UE DOC «In memory analytics»

Le traitement du Big Data inclue la collecte, la curation, le stockage, l enrichissement, le croisement, la partage, l analyse et la visualisation.

Titre : La BI vue par l intégrateur Orange

Innovative BI with SAP Jean-Michel JURBERT D. de Marché BI, HANA, BIG DATA _ SAP France

SAP Runs SAP Reporting Opérationnel & BI avec HANA et SAP Analytics. Pierre Combe, Enterprise Analytics Juin, 2015

Didier MOUNIEN Samantha MOINEAUX

BIGDATA AN 3 : UNE NOUVELLE ERE DE B.I.

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

Gestion Mobile avec Afaria 7. Jérôme Lorido blue-infinity Mai 2013

IBM BigInsights for Apache Hadoop

Analytics Platform. MicroStrategy. Business Intelligence d entreprise. Self-service analytics. Big Data analytics.

QLIKVIEW ET LE BIG DATA

LES APPROCHES CONCRÈTES POUR LE DÉPLOIEMENT D INFRASTRUCTURES CLOUD AVEC HDS & VMWARE

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Introduction au Massive Data

Big Data: comment passer de la stratégie à la mise en œuvre? Big Data Paris Mars 2015

Exploration des Big Data pour optimiser la Business Intelligence

BI Haute performance. Jean-François Vannier Responsable Infrastructures Décisionnelles, Bull

Fouille de données massives avec Hadoop

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

BIG DATA : comment étendre et gérer la connaissance client? François Nguyen SFR Directeur SI décisionnel & Mkt relationnel GP

Big Data -Comment exploiter les données et les transformer en prise de décisions?

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

RFID: Middleware et intégration avec le système d'information Olivier Liechti

Programme TechDay Romandie

Echapper légalement à l impôt sur les données

Séminaire Partenaires Esri France 7-8 juin Paris Cloud Computing Stratégie Esri

APX et VCE, Modèle d industrialisation de l intégration et du déploiement. Olivier BERNARD, VCE

Nos Solutions PME VIPDev sont les Atouts Business de votre entreprise.

La Business Intelligence pour les Institutions Financières. Jean-Michel JURBERT Resp Marketing Produit

BIG DATA : une vraie révolution industrielle (1) Les fortes évolutions liées à la digitalisation

Me#re le Big Data sur la carte : déﬁs et avenues rela6fs à l exploita6on de la localisa6on

Transcription:

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment? Jean-Marc Spaggiari Cloudera jms@cloudera.com @jmspaggi Mai 2014 1

2 Avant qu on commence

Agenda -Qu est-ce que Hadoop et pourquoi 25 minutes - Cas d utilisation 20 minutes - Questions 15 minutes 3

4 Qu est-ce que c est et pourquoi?

Pourquoi Hadoop? Traditionnellement, les systèmes de traitement étaient limités par la capacité des processeurs: Relativement petit volume de données Beaucoup de traitements complexes. Solution initial: De plus gros ordinateurs: Processeurs plus rapides, plus de mémoire; Mais toujours pas capable de suivre le volume de croissance des données 5

Pourquoi Hadoop? Une solution encore meilleure: Plus d'ordinateurs Systèmes distribués Utilisation de plusieurs machines pour une même tache. Pousser le traitement sur la donnée et non l inverse. In pioneer days they used oxen for heavy pulling, and when one ox couldn't budge a log, they didn't try to grow a larger ox. We shouldn't be trying for bigger computers, but for more systems of computers. Grace Hopper 6

Nouvelle approche Avant Pousser les données sur le traitement Maintenant Pousser le traitement sur les données Compute Compute Data Compute Data Data Data Entreprises «process-centric» utilisent: Données structurées Données internes Données importantes Compute Compute Compute Data Entreprises Information-centric utilisent TOUTES les données: Structurées, semistructurées, non structurées, internes et externes. 7 2014 Cloudera and SAS. All rights reserved.

Qu est-ce que Hadoop? À mes enfants: Quelqu un a créé un logiciel qui aide le monde à résoudre de gros problèmes à moindre coûts. Il lui a donné le nom de la peluche de son fils. À ma femme: C est un logiciel qui permet à des centaines d ordinateurs de travailler ensemble comme s ils étaient un. Ce n est pas cher, et quand on a besoin de plus de puissance, il suffit d ajouter d autres ordinateurs. 8

Qu est-ce que Hadoop? Aux dirigeants d entreprises: Va vous aider à augmenter votre ROI et baisser vos coûts par TB. À mes amis: C est un peu comme un mélange de minority report et de skynet 9

10 Hadoop!

Ce qu ont fait Google Conçu leur propre système de stockage et de traitement: Google File System MapReduce Buts: Bon marché «Scalable» Fiable 11

Google ont fait quelque chose de différent Ça fonctionne! Supporte les services de Google depuis plusieurs années Toujours utilisé aujourd hui. 12

15

Google: Messages du futur Google à gentiment publié: 2003: Google File System (GFS) 2004: MapReduce Des technologies déjà matures. 16

Google: Messages du future Pas d adoption initiale de la communauté Les gens DB pensaient que ce n était pas une bonne idée Les Non-Google n en étaient pas là. Google n avait pas d intérêts dans ces publications Modèle d affaire sur les publicités, pas sur les infrastructures. 17

Qu est-ce que Hadoop? Hadoop Node Stockage HDFS Auto-correctif Large bande passante Stockage réparti Traitement MapReduce, Hive, Impala, Search Traitement distribué Tolérance aux pannes Logiciel Open Source Stocker, Traiter, Analyzer Grand quantité de données, stockage brut Structurées, non-structurées, semi-structurées ou une combinaison Hadoop = Schema on Read, RDBMS = Schema on Write 18

Pourquoi Hadoop? Les faits. Open source Environ 60 committers de plus de 10 compagnies: Cloudera, Yahoo!, Facebook, Apple, and more Centaines de contributeurs: Nouvelles fonctionnalités; Bug fix De très nombreux projets/applications/outils reliés. 19

Pourquoi Hadoop? Grand écosystem en croissance. Pig Zookeeper Impala 20

21 Pourquoi Hadoop? Qui l utilise.

Pourquoi Hadoop? Intégration. BI/Analytics ETL Database OS/Cloud/ System Mgmt. Hardware 22

Core Hadoop Hadoop fourni 2 principaux composants: Hadoop Distributed File System - HDFS Map Reduce 23

HBase Base de données non-sql distribué (low latency). Base de données en colonnes. 24

Hive Abstraction de base de données relationnelles utilisant un langage proche du SQL appelé HiveQL. Utilise MapReduce pour exécuter les requêtes. SELECT s.word, s.freq, k.freq FROM shakespeare JOIN ON (s.word= k.word) WHERE s.freq >= 5; 25

Impala Requêtes en temps réel. Rapide, nativement en C++ Utilise le même langage de requêtes que Hive. 26

Pig Langage de script pour exécuter (entre autre) des opérations MapReduce. Créé pour simplifier la créations/execution de taches MapReduce. Peut être étendue avec des fonctions définies par l'utilisateur (UDF) emps = LOAD 'people.txt AS (id,name,salary); rich = FILTER emps BY salary > 200000; sorted_rich = ORDER rich BY salary DESC; STORE sorted_rich INTO rich_people.txt'; 27

Sqoop Effectue des transferts de données bidirectionels entre Hadoop et la plus part des bases de données. 28

Flume Système de cueillette et d agrégation de flux pour des données massives et volumineuses comme par exemple services RPC, Log4J, Syslog, etc. Client Client Client Client Agent Agent Agent 29

Oozie Un workflow engine et un planificateur de taches construit spécialement pour orchestrer les processus à grande échelle. 30

ZooKeeper Zookeeper est un moteur de consensus distribué. Fourni des services prédéfinis pour, entre autre: Élection de leaders; Découverte de services; Verrous et exclusions mutuelles distribuées. 31

Hue Hue est une interface web utilisateur OpenSource pour les applications relative à Hadoop. Hue comprend entre autre: Explorateur de fichiers HDFS; Concepteur et visualisateur de jobs MapReduce; Éditeur de requêtes pour Hive, Impala, Pig, etc. Oozie; Et bien plus. 32

Mahout Libraire d algorithmes de machine learning pour, entre autre: Recommandations basé sur le comportement; Regroupement de documents; Classification de catégories; Recommandations d achats fréquents; Etc. 33

Etc. Spark Shark Storm 34

HDFS Block Replication Quand un fichier est ajouté, il est découpé en blocs. Taille des blocs = 128MB (défaut) Facteur de réplication = 3 File Blocks 1 2 3 4 5 HDFS 2 4 5 2 3 4 Node 1 Node 2 Node 4 1 3 4 Node 3 1 2 5 1 3 5 Node 5 35

38 Les cas d utilisation.

Deux catégories de cas d utilisation d Hadoop Business Intelligence Advanced Analytics Applications Innovation et Avantage Retirer de l information de TOUTES vos données. Traitement des données: ETL Offload Stockage des données: Ent. Data Hub La plupart des Efficacité opérationnelle compagnies commencent ici! Effectuer le même travail, mais plus vite, mieux et moins chers. 39

BI/DW Architecture Aujourd hui Source Data Marts Source Unstructured data Data Warehouse New data 40

BI/DW Architecture Aujourd hui Source Source Unstructured data Extract Transform Load ETL Tool Staging Server Archive (offline) Move Store Transform Analyze Report Move Data Warehouse Data Marts? New data 41

Hadoop plus the Data Warehouse: BI/DW Architecture of Tomorrow Source Source Unstructured data Extract Transform Load Store Move Transform Analyze Report Data Warehouse Move Data Marts New data 42

Client exemple Institution financière américaine Avant Après Mainframe Mainframe Cluster Hadoop Warehouse Défis: Réduire les coûts; Se conformer aux règlements imposant un plus gros volume de données pour les «stress tests» Consolider et simplifier le traitement des données. Bénéfices: Accès plus rapide à 6 fois plus de données; Faible cout, architecture simplifiée; Implémentation en quelques mois. 43

Client exemple: Fournisseur de services téléphoniques Canadien De 1% des données à 100% d analyse! Croissance exponentielle des données, générées par les nouveaux appareils des clients; Analytique limité à 1% des données à cause des contraintes d ETL et de stockage. Nouvelle combinaison de Hadoop + DataWarehouse pour traiter 100% des données (un demi PB par jour!) Énorme réduction des temps de traitement (de 4 jours à 53 minutes) 90% de réduction du code des ETL Telecom Services Telecom Services Filter & Split Filter & Split Avant Event Monitoring Streaming ETL Streaming ETL Après Event Monitoring Hadoop Archive Storage ETL Correlation Stage 1 DWH Alerting Complex Correlation Data Warehouse Archive Storage Alerting Data Warehouse 44

Client exemple: Agence Marketing Américaine FTP ETL Database 45

Client exemple: Agence Marketing Américaine FTP ETL Database Hadoop 46

Client exemple: Agence Marketing Américaine FTP Hadoop ETL Database 47

Client exemple: Agence Marketing Américaine FTP Hadoop ETL Database Bénéfices: 300 fois plus de données après un an; Performances accrues (30 minutes vs 6 semaines); Scalable. 48

Summary: Hadoop adoption is a progression 4 3 2 1 Multi-workload analytic platform Bring applications to data Combine different workloads on common data (i.e. SQL +Search) True BI agility Self-service Exploratory BI Simple search + BI tools Schema on read agility Reduce BI user backlog requests Data Mgmt & Transformations One source of data for all analytics Define structure and publish Significantly faster & cheaper Active Archive Full fidelity original data Indefinite time Lowest cost storage 3 4 2 EDH Servers Marts EDWs Documents Storage Search Archives 1 ERP, CRM, RDBMS, Machines Files, Images, Video, Logs, Clickstreams External Data Sources 49

SAS & Cloudera Big data analytics in Cloudera Real-Time & Streaming Interactive Batch & SQL Visual Analytics Visual Scenario Designer Visual Statistics In-Memory Statistics for Hadoop Visual Scenario Designer High-Performance Analytics Visual Data Builder SAS Event Stream Processing SAS LASR Analytic Server SAS/ACCESS to Hadoop & to Impala SAS Embedded Process HDFS 50 2014 Cloudera and SAS. All rights reserved.

Hadoopable Big Data: Indicateurs 1. Le client souhaite ajouter de nouvelles données 2. Les besoins de stockage augmentent de façon spectaculaire 3. Ressources de traitement insuffisantes pour répondre aux SLA internes de l'entreprise 4. Analyses et ETLS existants à pleine capacité 5. Pressions financières pour réduire les coûts informatiques Best Practice: Commencer avec des usescases opérationnels; Continuer avec des usescases analytiques 51

Thank You Jean-Marc Spaggiari jms@cloudera.com @jmspaggi 52