Labs Hadoop Février 2013



Documents pareils
20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

HADOOP ET SON ÉCOSYSTÈME

Cartographie des solutions BigData

Big Data Concepts et mise en oeuvre de Hadoop

Anticiper et prédire les sinistres avec une approche Big Data

Offre formation Big Data Analytics

Hadoop, les clés du succès

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Le BigData, aussi par et pour les PMEs

Les journées SQL Server 2013

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Programmation parallèle et distribuée

Les quatre piliers d une solution de gestion des Big Data

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Programmation parallèle et distribuée

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

Introduction Big Data

Panorama des solutions analytiques existantes

Programmation parallèle et distribuée (Master 1 Info )

Fouillez facilement dans votre système Big Data. Olivier TAVARD


FINI LA RÉCRÉ PASSONS AUX MÉGADONNÉES

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Big Data. Concept et perspectives : la réalité derrière le "buzz"

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

Document réalisé par Khadidjatou BAMBA

Big Data On Line Analytics

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

BIG DATA en Sciences et Industries de l Environnement

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Bases de données documentaires et distribuées Cours NFE04

Introduction à MapReduce/Hadoop et Spark

BI Open Source Octobre Alioune Dia, Consultant BI


Performances Veille. Système d Information. Semaine 25 du 18 au 24 juin Numéro 228

Hadoop : une plate-forme d exécution de programmes Map-Reduce

Maîtriser les technologies Big Data pour obtenir des résultats en quasi-temps réel

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Tables Rondes Le «Big Data»

Les technologies du Big Data

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

AXIAD Conseil pour décider en toute intelligence

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

QlikView et Google Big Query : Une réponse simple, rapide et peu coûteuse aux analyses Big Data

Big Data: comment passer de la stratégie à la mise en œuvre? Big Data Paris Mars 2015

BUSINESS INTELLIGENCE. Une vision cockpit : utilité et apport pour l'entreprise

Le nouveau visage de la Dataviz dans MicroStrategy 10

Titre : La BI vue par l intégrateur Orange

1 Actuate Corporation de données. + d analyses. + d utilisateurs.

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

Ricco Rakotomalala R.R. Université Lyon 2

L offre décisionnel IBM. Patrick COOLS Spécialiste Business Intelligence

Le Big Data Vers de nouveaux usages! 18/03/2015

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Le traitement du Big Data inclue la collecte, la curation, le stockage, l enrichissement, le croisement, la partage, l analyse et la visualisation.

Sécurité des entrepôts de données dans le Cloud Un SaaS pour le cryptage des données issues d un ETL

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

IBM BigInsights for Apache Hadoop

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Projet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia

BI = Business Intelligence Master Data-Science

Big Data Analyse et valorisation de masses de données PREAMBULE

Quels choix de base de données pour vos projets Big Data?

QLIKVIEW ET LE BIG DATA

Vos experts Big Data. Le Big Data dans la pratique

ATELIER. QUASAR OBILOG BI (Décisionnel) ATELIER > PROJET BI

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

SpagoBI: la seule suite décisionnelle 100% open source, complète et flexible

Avant-propos. Organisation du livre

Cassandra et Spark pour gérer la musique On-line

Certificat Big Data - Master MAthématiques

Professeur-superviseur Alain April

MapReduce et Hadoop. Alexandre Denis Inria Bordeaux Sud-Ouest France ENSEIRB PG306

BI SWISS FORUM (ecom / SITB)

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

DEMARREZ RAPIDEMENT VOTRE EVALUATION

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Petit Déjeuner Pépinière du Logiciel Libre. 25 juin 2008

M2 GL UE DOC «In memory analytics»

Formations 2015 JASPER, REDMINE, TABLEAU, TALEND, SPAGO BI ALTIC & SYNOTIS - TRAINING CENTER 24 RUE DE L EGLISE VINCENNES

Hadoop : une plate-forme d exécution de programmes Map-Reduce

LES ENJEUX DU BIG DATA

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Analytics Platform. MicroStrategy. Business Intelligence d entreprise. Self-service analytics. Big Data analytics.

Importation et exportation de données dans HDFS

Big Data? Big responsabilités! Paul-Olivier Gibert Digital Ethics

Le "tout fichier" Le besoin de centraliser les traitements des fichiers. Maitriser les bases de données. Historique

Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis

Transcription:

SOA - BRMS - ESB - BPM CEP BAM - High Performance Compute & Data Grid - Cloud Computing - Big Data NoSQL - Analytics Labs Hadoop Février 2013 Mathias Kluba Managing Consultant Responsable offres NoSQL et Big Data Février 2013

Qu est-ce que le BigData? (rappel) 2

Définition Big data («grosses données» ou grande quantité de données) est une expression anglophone utilisée pour désigner des ensembles de données qui deviennent tellement volumineux qu'ils en deviennent difficiles à travailler avec des outils classiques de gestion de base de données. Source: Wikipedia 3

Définition BIG DATA Volume Velocity Variety 4

Définition BIG DATA Volume Velocity Variety Complexity 5

Type de données Externe Fournisseurs de données B2B Réseaux sociaux Web Open Data Interne DataWarehouse ODS CRM ERP CMS Email, Chat Réseaux sociaux d Entreprise structurées non structurées 6

A quoi sert le BigData? ProblémaHque technique Réduire les coûts Augmenter la capacité des volumes à traiter Améliorer les performances ProblémaHque méher Obtenir de la valeur des données inexploitées Anticiper l avenir (analyse prédictive) 7

Maitriser les coûts liés au volume Comment maitriser les coûts? Le coût du matériel n est pas linéaire avec sa puissance Stockage cher: limites des NAS, coût des SAN Limite de l upgrade d un serveur physique Coût de migration 8

Maitriser les coûts liés au volume 001011011 011001110 101100011 Solution: Scalabilité horizontale Linéariser les coûts Distribuer les données Distribuer et co-localiser les traitements Consommation élastique (grâce au Cloud) 9

Use cases Cross Sell Une entreprise qui vent de nombreux produits. Agréger les données des ventes des différents produits. Déterminer des catégories de consommateurs, pour prédire les «patterns» de consommation, et maximiser les ventes (publicités ciblés). SNA (Social Network Analysis) / E- ReputaHon Collecte des retours des clients par différents moyens: Service après vente, Forum, Réseaux sociaux, etc. Analyse sémantique, pour déterminer la réputation d un produit / service. Objectifs: Orienter la stratégie marketing, améliorer le SAV, etc. 10

Problématique métier VALUE VALUE ++ BigData Tableau de bord BigData Analyses prédictives 11

Cycle itératif d analyse Filtre / Nettoyage Calculs / Agrégations Réagrégations Extraction (records) Insights / Analytics 5 4 3 2 1 0 12

Solutions BigData 001011011 011001110 101100011 Données d entrée Traitement Données de sortie Dashboard Reporting Navigation 13

Solutions BigData Données d entrée (DB, fichiers, flux, etc.) Mon SI 001011011 011001110 101100011 Mon architecture BigData Collecteurs Données à analyser Stockage distribué Reporting Traitements distribués Export OLAP RDBMS Données de sortie Stockage distribué Data Navigation Data Navigation / Dashboard / Reporting 14

Solutions BigData Données d entrée (DB, fichiers, flux, etc.) SpotFire, Jasper, Birt, Pentaho, Reporting Mon SI 001011011 011001110 101100011 Mon architecture BigData Collecteurs Sqoop Flume Talend Custom Données à analyser Stockage distribué Traitements distribués HDFS GlusterFS Mongo Cassandra Gigaspaces Hadoop MapReduce (+ Pig, Hive, Cascalog) ActivePivot Gridgain Gigaspaces Data Navigation OLAP SpotFire, QlikView, Pentaho Excel, ActivePivot RDBMS Export Sqoop Talend Custom Données de sortie Stockage distribué Data Navigation / Dashboard / Reporting HBase Mongo Cassandra ActivePivot QlikView, Tableau, SpotFire, Pentaho Jasper, ActivePivot Custom 15

Qu est-ce que Hadoop? 16

Eco-système Hadoop GlusterFS Zookeeper PIG 17

Ce qu on trouve dans les distribution Hadoop GlusterFS Zookeeper PIG 18

Le minimum GlusterFS Zookeeper PIG 19

Distributions InfoSphere BigInsights Serengeti 20

Comment ça marche? Hadoop MapReduce Hadoop Distributed FileSystem (HDFS) 21

Hadoop Map Reduce? MAP REDUCE 3 4 5 22

Hadoop Map Reduce? b a b b a b InputFormat Mapper InputFormat Mapper InputFormat Mapper b : 1 a : 1 b : 1 b : 1 a : 1 b : 1 Combiner Combiner Combiner b : 1 a : 1 b : 2 a : 1 b : 1 Partitioner Partitioner Suffle and Sort Partitioner a : 1 a : 1 b : 1 b : 2 b : 1 Reducer OutputFormat Reducer OutputFormat a : 2 b : 4

Hadoop HDFS? JobTracker NameNode Master Backup TaskTracker DataNode TaskTracker DataNode Slave Slave

In the end: Classical Hadoop architecture Oozie (scheduler + workflow) Hive (SQL) Sqoop PIG Cascading (Java, Cascalog, etc.) Mahout HBase Map Reduce Framework (Java / Stream (Python,.Net, etc.)) HDFS NoSQL (MongoDB, Cassandra, etc.) Export Sqoop SQL Import Flume/Sqoop

" Contactez nous " www.fastconnect.fr " blog.fastconnect.fr " sales@fastconnect.fr