Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1

Documents pareils
HADOOP ET SON ÉCOSYSTÈME

Cartographie des solutions BigData

Big Data Concepts et mise en oeuvre de Hadoop

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Introduction à MapReduce/Hadoop et Spark

Labs Hadoop Février 2013

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Ricco Rakotomalala R.R. Université Lyon 2

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Programmation parallèle et distribuée

BIG DATA en Sciences et Industries de l Environnement

Programmation parallèle et distribuée

MapReduce et Hadoop. Alexandre Denis Inria Bordeaux Sud-Ouest France ENSEIRB PG306

Anticiper et prédire les sinistres avec une approche Big Data

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Programmation parallèle et distribuée (Master 1 Info )

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Hadoop, les clés du succès

Maîtriser les technologies Big Data pour obtenir des résultats en quasi-temps réel

Panorama des solutions analytiques existantes

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Offre formation Big Data Analytics

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

Les quatre piliers d une solution de gestion des Big Data

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Cassandra et Spark pour gérer la musique On-line

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

Document réalisé par Khadidjatou BAMBA

Les technologies du Big Data

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS

Tables Rondes Le «Big Data»

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

Introduc)on à Map- Reduce. Vincent Leroy


Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS

M2 GL UE DOC «In memory analytics»

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Les journées SQL Server 2013

Département Informatique 5 e année Hadoop: Optimisation et Ordonnancement

Map-Reduce : un cadre de programmation parallèlle pour l analyse de grandes données. Stéphane Genaud ENSIIE

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Présentation Alfresco

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Le cloud computing au service des applications cartographiques à haute disponibilité

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

TRAVAUX DE RECHERCHE DANS LE

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

CAHIER DES CHARGES D IMPLANTATION

Hadoop : une plate-forme d exécution de programmes Map-Reduce

4 Exemples de problèmes MapReduce incrémentaux

Détection d'intrusions en environnement haute performance

Big Data Jean-Michel Franco

Hébergement PHP. Comprendre pour bien choisir son hébergement

Performances Veille. Système d Information. Semaine 25 du 18 au 24 juin Numéro 228

Architectures d implémentation de Click&DECiDE NSI

Big Data, un nouveau paradigme et de nouveaux challenges

<Insert Picture Here> Exadata Storage Server et DB Machine V2

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

QLIKVIEW ET LE BIG DATA

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS

Bases de Données NoSQL

Hibernate vs. le Cloud Computing

Notes de cours Practical BigData

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

Introduction à ElasticSearch

Fouille de données massives avec Hadoop

Benjamin Cornu Florian Joyeux. Les choses à connaître pour (essayer) de concurrencer Facebook.

Certificat Big Data - Master MAthématiques

Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Les Content Delivery Network (CDN)

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Professeur-superviseur Alain April

Le BigData, aussi par et pour les PMEs

Pentaho Business Analytics Intégrer > Explorer > Prévoir

NFA 008. Introduction à NoSQL et MongoDB 25/05/2013

Avant-propos. Organisation du livre

Introduction à Hadoop & MapReduce

Vos experts Big Data. Le Big Data dans la pratique

Mercredi 15 Janvier 2014

Projet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia

27 janvier Issam El Hachimi Ludovic Schmieder

Maarch Framework 3 - Maarch. Tests de charge. Professional Services. 11, bd du Sud Est Nanterre

Cloud Computing : Utiliser Stratos comme PaaS privé sur un cloud Eucalyptus

Exigences système BauBit pro

Transcription:

Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1

Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués Hadoop. MapReduce : framework logiciel pour le calcul distribué sur de hauts volumes de données (Merci Google). Hive : Hive est un data warehouse libre implémentant un langage de requête orienté SQL (HiveQL) dont la mise en œuvre se traduit par l exécution de jobs Map/Reduce orchestrés par Hadoop (Merci Facebook). Pig : language de haut niveau pour la création de programme MapReduce. Talend 2010 2

Big Data Architecture globale Hadoop Les projets Hadoop (partie 2) HBase : Base de données Hadoop. Utile pour des accès aléatoires, temps réels (lecture/écriture) sur des Big Data. Chukwa : framework open source pour le monitoring de plateforme Hadoop. Zookeeper : Service de coordination pour les applications distribuées (configuration, synchronization, etc). Talend 2010 3

Big Data Architecture globale Hadoop L écosystème Hadoop Talend 2010 4

Big Data Architecture globale Hadoop Les forces de Hadoop Facile à utiliser : moins de deux jours pour monter un cluster de test. Facilité d utilisation de la librairie MapReduce pour la résolution de problèmes basiques. Scalabilité : branchez un noeud, démarrez les modules et le tour est joué. Robuste : si un noeud de calcul tombe, ses tâches sont automatiquement réparties sur d autres noeud. Les blocs de données sont également répliqués. Crée spécialement pour les gros volumes. Etudes de cas : Facebook pour l analyse des logs, Google pour l analyse des requêtes, etc. Talend 2010 5

Big Data HDFS Qu est ce qu HDFS? Répartition des blocs: le moteur HDFS se charge de la répartition des blocs de données sur les racks. Vérification de la santé du cluster : les Datanodes envoient des signaux au Namenode. Ces signaux sont utilisés pour détecter des défaillances. Moteur de réplication : Le moteur HDFS répartie la charge de travail en terme d utilisation des disques et du réseau. Talend 2010 6

Big Data HDFS Talend 2010 7

Big Data MapReduce Qu est ce que MapReduce? MapReduce est un framework Java pour la création de programmes de calcul distribué. L étape du Map : le noeud père décompose un problème en plusieurs sous problèmes et les distribue aux noeuds fils. Un noeud fils peut également devenir père et rédécouper sa tâche. L étape du Reduce : les noeuds pères récupèrent les résultats des noeuds fils afin d agréger les résulats. Talend 2010 8

Big Data MapReduce L éxemple WordCount Dans cet exemple nous allons voir comment un programme MapReduce procède pour compter le nombre d occurrence de chaque mot dans un fichier d entrée Talend 2010 9

Big Data Et Talend dans tout cà? Pourquoi utiliser Talend? Entièrement en Java donc pleinement compatible avec les API Hadoop. Simplicité d utilisation : éditeur graphique vous permettant de générer du code. Richesse des connecteurs : plus de 500 connecteurs dans la solution dont une vingtaine pour Hadoop (HDFS, Hive, Pig, et beaucoup d autres très bientôt). Talend 2010 10

Big Data Et Talend dans tout cà? Utilisation de Sqoop Permet l import / export de données entre SGBD et plateforme HDFS. En partenariat avec Cloudera, à l origine du projet et spéciliste des infrastructure Hadoop. Talend 2010 11

Big Data Et Talend dans tout cà? Connecteurs HDFS / Hive Talend 2010 12

Big Data Et Talend dans tout cà? Générateur de code Pig Latin Sans Talend : Customers = load '/opt/data/customers.csv' as (FirstName, LastName, Adress, RegistrationDate, Revenue, StateCode); StateGroup = group Customers by StateCode; StateRevenue = foreach StateGroup generate group, SUM(Customers.Revenue) as sum; ValuableStates= filter StateRevenue by sum > 1000000; store ValuableStates into '/opt/data/beststates.csv'; Talend 2010 13

Big Data Et Talend dans tout cà? Générateur de code Pig Latin Avec Talend : Talend 2010 14

Big Data - Benchmarks Protocole (Partie 1) Pour chaque scénario, 3 jobs : un avec des composants java, un utilisant des composants FileScale, un utilisant les composants Hadoop / Hive. Plateforme de test (Hardware) Hadoop (1 node) MPX / Java CPU AMD Athlon 64 X2 Dual-Core (1.90Ghz) Bi Intel Xeon CPU QuadCore E5320 (1.86GHz) Mémoire 2 GB 14 GB Disque Dur 120Gb / 5400 RPM / 8MB Cache 1 TB / 7200 RPM / 32 MB Cache / RAID 0 Network 100 Mbits NC Talend 2010 15

Big Data - Benchmarks Protocole (Partie 2) Structure du fichier : id (INTEGER), first name (STRING), last_name (STRING), birthdate (DATE, DD-MM-YYYY), street (STRING), city (STRING), state (STRING) Exemple : Talend 2010 16

Big Data - Benchmarks Premier cas : Agrégation de données Scénario : Nombre de clients par ville Requête Hadoop / Hive : Talend 2010 17

Big Data - Benchmarks Premier cas : Agrégation de données Résultats Total of The Java program uses a tsortrow with the «sort on disk» and taggregatesortedrow Talend 2010 18

Big Data - Benchmarks Second cas: dédoublonnage des données Scenario : on dédoublonne les données sur les colonnes suivantes (prénom, nom, et date de naissance) Requête Hadoop / Hive : Talend 2010 19

Big Data - Benchmarks Second cas : Dédoublonnage de données Résultats The MPX job failed due to a bug (Bugtrack : 0015095) Talend 2010 20

Big Data - Benchmarks Troisième cas : filtrage de données Scenario : extraction des clients qui se prénomment Lyndon et vivent dans la ville de Trenton. Requête Hadoop / Hive : Talend 2010 21

Big Data - Benchmarks Troisième cas : filtrage de données Résultats Talend 2010 22