Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase



Documents pareils
Cartographie des solutions BigData

Big Data Concepts et mise en oeuvre de Hadoop

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Tests de SlipStream sur les plateformes et : vers la. Vers la fédération du Cloud computing

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Introduction à MapReduce/Hadoop et Spark

Labs Hadoop Février 2013

Anticiper et prédire les sinistres avec une approche Big Data

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Les technologies du Big Data

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Fouillez facilement dans votre système Big Data. Olivier TAVARD

HADOOP ET SON ÉCOSYSTÈME

Portage d applications sur le Cloud IaaS Portage d application

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Utilisation du Cloud StratusLab dans le cadre d application astroparticule à l APC

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Offre formation Big Data Analytics

Tables Rondes Le «Big Data»

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

Programmation parallèle et distribuée (Master 1 Info )

Fouille de données massives avec Hadoop


R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

Big Data, un nouveau paradigme et de nouveaux challenges

Programmation parallèle et distribuée

BIG DATA en Sciences et Industries de l Environnement

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

Panorama des solutions analytiques existantes

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Programmation parallèle et distribuée

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Hadoop, les clés du succès

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Les journées SQL Server 2013

Introduc)on à Map- Reduce. Vincent Leroy

Les quatre piliers d une solution de gestion des Big Data

Présentation du module Base de données spatio-temporelles

Jean-François Boulicaut & Mohand-Saïd Hacid

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine Slimane.bah@emi.ac.ma

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Map-Reduce : un cadre de programmation parallèlle pour l analyse de grandes données. Stéphane Genaud ENSIIE


4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Le BigData, aussi par et pour les PMEs

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Ecole des Hautes Etudes Commerciales HEC Alger. par Amina GACEM. Module Informatique 1ière Année Master Sciences Commerciales

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Ricco Rakotomalala R.R. Université Lyon 2

Cloud Computing Maîtrisez la plate-forme AWS - Amazon Web Services

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

PHP et le Cloud. All rights reserved. Zend Technologies, Inc.

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

Document réalisé par Khadidjatou BAMBA

Bases de Données. Stella MARC-ZWECKER. Maître de conférences Dpt. Informatique - UdS

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Les environnements de calcul distribué

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

Maîtriser les technologies Big Data pour obtenir des résultats en quasi-temps réel

Hadoop : une plate-forme d exécution de programmes Map-Reduce

MapReduce et Hadoop. Alexandre Denis Inria Bordeaux Sud-Ouest France ENSEIRB PG306

Introduction à Hadoop & MapReduce

Change the game with smart innovation

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Cloud Computing : Utiliser Stratos comme PaaS privé sur un cloud Eucalyptus

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan

Introduction Big Data

Big Data et Graphes : Quelques pistes de recherche

Le Cloud Open-Mind! Emilien Macchi

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

M2 GL UE DOC «In memory analytics»

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Certificat Big Data - Master MAthématiques

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

Big Data et Graphes : Quelques pistes de recherche

4 Exemples de problèmes MapReduce incrémentaux

EMC Forum EMC ViPR et ECS : présentation des services software-defined

Masses de données. 1. Introduction 2. Problématiques 3. Socle de formation (non présenté) 4. Liens avec Formation INSA

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Our experience in using Apache Giraph for computing the diameter of large graphs. Paul Bertot - Flavian Jacquot

Les bases de données relationnelles

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Le cloud computing au service des applications cartographiques à haute disponibilité

TP développement : portage d applications sur le Cloud IaaS

Cassandra et Spark pour gérer la musique On-line

Safe Harbor Statement

Importation et exportation de données dans HDFS

Hébergement MMI SEMESTRE 4

SQL Server 2012 et SQL Server 2014

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

Bases de données documentaires et distribuées Cours NFE04

Transcription:

Big Data : utilisation d un cluster cluster Cécile Cavet cecile.cavet at apc.univ-paris7.fr Centre François Arago (FACe), Laboratoire APC, Université Paris Diderot LabEx UnivEarthS 14 Janvier 2014 C. Cavet Big Data: cluster

Plan 1 2 cluster 3 cluster 4 C. Cavet Big Data : cluster

Big Data cluster Problématique : Gestion des grandes masses de données. Collecte. Stockage. Traitement. Visualisation. Analyse. C. Cavet Big Data : cluster

Goulot d étranglement : les VVVV... cluster 4V des données numériques : Volume. Vitesse d accumulation et de traitement. Variété (diversité, hétérogénéité). Véracité (bruit, précision). C. Cavet Big Data : cluster

Big Data en Astronomie cluster C. Cavet Big Data : cluster

Big Data en Astronomie cluster Figure: Projets qui génèrent/vont générer des grands volumes de données. C. Cavet Big Data : cluster

Big Data en Astronomie cluster Dans un futur très proche ( 2020) : Projets visant à étudier l énergie noire : LSST (info@e. Gangler) : 100 PB d archives finales d images. 40 10 9 objets Table de 100-200 TB. 5000 10 9 observations Table de 1-3 PB. Euclid (info@s. Colzy) : 4,4 PB d archives finales d images. 10 10 9 objets. 42000 observations. Actions en cours : R&T du CNES. PetaSky (MASTODONS) au CNRS. C. Cavet Big Data : cluster

liées au Big Data. NoSQL.. Data warehouse (entrepôts de base de données) / data smart. cluster C. Cavet Big Data : cluster

Histoire synthétique d 1 cluster Google en 2004 : solution propriétaire. GFS (Google FS) : stockage distribué. The Google File System, S. Ghemawat, H. Gobioff & S. Leung. Google : calcul distribué. MapReduce: Simplified Data Processing on Large s, J. Dean & S. Ghemawat. BigTable : SGBD (Système de Gestion de Bases de Données) basé sur GFS. BigTable: A Distributed Storage System for Structured Data. Calcul et stockage distribué, tolérant aux pannes. 1 Les base de données NoSQL, R. Bruchez, Eyrolles (2013) C. Cavet Big Data : cluster

Histoire synthétique d Apache en 2008 : solution open-source. cluster http://hadoop.apache.org/ ( Distributed FS) : stockage distribué. : calcul distribué. : SGBD NoSQL.. C. Cavet Big Data : cluster

cluster 1 Infrastructure : Machines physiques dédiées. Machines virtuelles du Cloud. 2 Distribution : MapR.. HortonWorks. C. Cavet Big Data : cluster

: cluster Peu (pas) présent dans le monde académique car technologie trop récente MPI en générale. Déjà présent sur l infrastructure de Cloud : Sur AWS EC2 et S3 Amazon Elastic MapReduce (Cloud de type PaaS). http: //aws.amazon.com/fr/elasticmapreduce/ Nécessite une infrastructure de calcul distribué spécifique (CPU, mémoire, stockage et réseau) application "challenging" pour le Cloud. C. Cavet Big Data : cluster

CDH ( s Distribution including Apache ) cluster Composants Apache : : système de fichier distribué. MapReduce : framework de traitement parallélisé. : SGBD NoSQL. Hive : Rrequêtage de type SQL. Pig : scripting et requêtage. ZooKeeper : coordination des appli. distribuées. Mahout : framework d apprentissage et de datamining pour. Composants : Oozie : workflow et planification de jobs. Sqoop : intégration de bases SQL. Flume : exploitation de fichiers (log). C. Cavet Big Data : cluster

CDH cluster Figure: Fonctionnement de la distribution. C. Cavet Big Data : cluster

cluster Système de fichiers distribué : En Java. Stocke des données structurées ou non sur un ensemble de serveurs distribués. Redondant, résilient. Découpage et distribution en blocks des données : Blocksize : taille unitaire de stockage (généralement 64 Mo ou 128 Mo). Replication factor : nombre de copies d une données devant être réparties sur les différents noeuds. C. Cavet Big Data : cluster

cluster Figure: Fonctionnement de. C. Cavet Big Data : cluster

cluster Algorithme de traitement de données : Natif : JAVA (bientôt C++). Autres possibilités (en streaming) : Python, Ruby, Perl... Fonctionnement : 1 Load input data as key/values. 2 Distribute them to computing node. 3 Map(): transform to new key/values pairs. 4 Reduce(): combine values having the same key. 5 Write to output file. C. Cavet Big Data : cluster

cluster Figure: Fonctionnement de. C. Cavet Big Data : cluster

cluster SGBD NoSQL : En Java. SGBD non relationnelles. Orientée colonne. Manipulation de grand volume de données sur des architectures distribuées. Utilisation conjointe avec. Gère les accès read/write aléatoires. C. Cavet Big Data : cluster

cluster Figure: Fonctionnement de. C. Cavet Big Data : cluster

Base de données NoSQL cluster NoSQL : Not Only SQL (2009). SGBD NoSQL permet la gestion des grands volumes de données en passant à l échelle et en fournissant des meilleurs performance d accès aux données. Large volumes of structured, semi-structured, and unstructured data Agile sprints, quick iteration, and frequent code pushes Object-oriented programming that is easy to use and flexible Efficient, scale-out architecture instead of expensive, monolithic architecture C. Cavet Big Data : cluster

Base de données NoSQL cluster C. Cavet Big Data : cluster

cluster sur le Cloud : étapes 1 Installation de. 2 Configuration de. 3 en cours... cluster C. Cavet Big Data : cluster

virtuel cluster OS : Image disque customisée CentOS 6.4. Espace disque de 24 GB. Contextualisation : StratusLab et CloudInit. : 2 MV : 1 master + 1 worker. chaque MV : 2 CPU, 4 GB de RAM, 40 GB (1TB comme objectif) de disque persistent. manager : Oracle Java JDK 1.6.0_33 cloudera-manager-* Base de données PostgreSQL. C. Cavet Big Data : cluster

de manager cluster v1.0.3 :... Entités présentes sur les noeuds : Master : NameNode, SecondaryNameNode et JobTracker. Worker : TaskTracker et DataNode. C. Cavet Big Data : cluster

de manager cluster Figure: Interface Web permettant de contrôler les différents services. C. Cavet Big Data : cluster

cluster HelloWorld de test et. Calcul : Compte le nombre d apparition d un mot. Fichiers Map et Reduce en Python streaming. Données en entrée : $ cat input.txt foo foo quux labs foo bar quux Copié sur. C. Cavet Big Data : cluster

cluster Job : $ hadoop jar /usr/lib/hadoop-0.20-mapreduce/contrib/streaming /hadoop-streaming-2.0.0-mr1-cdh4.2.0.jar -file mapper.py -mapper mapper.py -file reducer.py -reducer reducer.py -input /user/cloudera/data/input.txt -output result.txt C. Cavet Big Data : cluster

cluster Map : $ cat input.txt./mapper.py foo 1 foo 1 quux 1 labs 1 foo 1 bar 1 quux 1 association (clé, valeur). C. Cavet Big Data : cluster

cluster Traitement interne : $ cat input.txt./mapper.py sort -k1,1 bar 1 foo 1 foo 1 foo 1 labs 1 quux 1 quux 1 ordonne alphabétiquement la première colonne. C. Cavet Big Data : cluster

cluster $ cat input.txt./mapper.py sort -k1,1./reducer.py bar 1 foo 3 labs 1 quux 2 compte le nombre d apparition d un mot. C. Cavet Big Data : cluster

cluster Srirama et al., FGCS (2012). Algorithmes qui peuvent être adaptés à l exécution d un modèle de : Conjugate Gradient (CG) one iteration. Two different k-medoid clustering algorithms: Partitioning Around Medoids (PAM) one iteration. ing Large Application (CLARA) sequential execution. Factoring integers single execution, embarrassingly parallel algorithms. test et. C. Cavet Big Data : cluster

cluster C. Cavet Big Data : cluster

Bilan de cluster Avantages : Bonne montée en charge. Inconvénients : Structure des applications est très stricte. Réduire un algorithme complexe à un modèle n est pas triviale. Pas de garantie que l algorithme résultant soit effectif. Nécessité de bien choisir les applications. C. Cavet Big Data : cluster

: données SDSS Mesmoudi & Hacid, ACM (2013). Etude PetaSky test DB et Hive. Données en entrée : cluster C. Cavet Big Data : cluster

: données SDSS cluster Figure: Test de requête. C. Cavet Big Data : cluster

Bilan des bases de données NoSQL cluster Avantages : Passe à l échelle. Full-scan performant. En plein essor (gestion des index, inclusion SGDB...) Inconvénients : Jointures inefficaces (et interdites si > 2 tables). Paramétrisation difficile. Nécessité de bien choisir les applications. C. Cavet Big Data : cluster

Merci pour votre attention. cluster C. Cavet Big Data : cluster

SQL vs NoSQL Annexes SGBD Type de données C. Cavet Big Data : cluster

SQL vs NoSQL Annexes SGBD Type de données C. Cavet Big Data : cluster

Type de données Annexes SGBD Type de données Type de données Acquisi0on Stockage Traitement Visualisa0on Structurées Réplica/on Extrac/on Mise en forme Flots d évènements BD Mul/ples formats de données et de stockage transac/onnel Requêtes et traitement sur les BD (SQL/OLAP) Fédéra/on de requêtes sur des BD ou des systèmes de fichiers distribués Traitements légers Pas mal d ou/ls de visualisa/on Non structurées Transfert de fichiers Extrac/on à par/r de sources différentes Systèmes de fichier distribués Stockage des fichiers ini/aux Pré- traitement / Map- Reduce SQL difficile à définir Workflows de traitement pour produire de l informa/on Traitements lourds Besoins en post- traitements rapides et parallèles Des ou/ls de visualisa/on commencent à émerger Figure: Type de données (Deprez et al. (2012)). C. Cavet Big Data : cluster