Outils pour le cloud - Autour de Spark



Documents pareils
Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

M2 GL UE DOC «In memory analytics»

4 Exemples de problèmes MapReduce incrémentaux

Introduction à MapReduce/Hadoop et Spark

Big Data Concepts et mise en oeuvre de Hadoop

Programmation parallèle et distribuée

HADOOP ET SON ÉCOSYSTÈME

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Programmation parallèle et distribuée

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Table des matières INITIATION À SPARK AVEC JAVA 8 ET SCALA

Les technologies du Big Data

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Certificat Big Data - Master MAthématiques

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Programmation parallèle et distribuée (Master 1 Info )

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Anticiper et prédire les sinistres avec une approche Big Data

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Ricco Rakotomalala R.R. Université Lyon 2

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Panorama des solutions analytiques existantes

Map-Reduce : un cadre de programmation parallèlle pour l analyse de grandes données. Stéphane Genaud ENSIIE

BIG Data et R: opportunités et perspectives

Cartographie des solutions BigData

Big Data, un nouveau paradigme et de nouveaux challenges

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

Hadoop, les clés du succès

Hadoop : une plate-forme d exécution de programmes Map-Reduce

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Bases de données documentaires et distribuées Cours NFE04

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Labs Hadoop Février 2013

MapReduce et Hadoop. Alexandre Denis Inria Bordeaux Sud-Ouest France ENSEIRB PG306

Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an

Notes de cours Practical BigData

Le nouveau visage de la Dataviz dans MicroStrategy 10

Ne cherchez plus, soyez informés! Robert van Kommer

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Offre formation Big Data Analytics

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Exploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

Introduc)on à Map- Reduce. Vincent Leroy

Fouille de données massives avec Hadoop

BIG DATA en Sciences et Industries de l Environnement

Introduction au Massive Data

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Network Efficiency Monitoring - version 2

Cassandra et Spark pour gérer la musique On-line

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Change the game with smart innovation

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

DÉPLOIEMENT DE QLIKVIEW POUR DES ANALYSES BIG DATA CHEZ KING.COM

Tables Rondes Le «Big Data»

Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

LE BIG DATA. TRANSFORME LE BUSINESS Solution EMC Big Data


Technologie SDS (Software-Defined Storage) de DataCore

Le Big Data Vers de nouveaux usages! 18/03/2015

Importation et exportation de données dans HDFS

Our experience in using Apache Giraph for computing the diameter of large graphs. Paul Bertot - Flavian Jacquot

Maîtriser les technologies Big Data pour obtenir des résultats en quasi-temps réel

Avant-propos. Organisation du livre

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS

Données massives pour les smart-grids

Surmonter les 5 défis opérationnels du Big Data

Bases de Données Avancées

Bases de Données NoSQL

Livret de Stages 2014 / 2015

Les environnements de calcul distribué

Hadoop : une plate-forme d exécution de programmes Map-Reduce

Mise en place d'une chaîne de production raster multi-échelles

Intérêt des codes FEC pour le stockage distribué Le projet ANR FEC4Cloud et la solution RozoFS

Projet d'infrastructure de stockage mutualisée

Big Data Jean-Michel Franco


Chapitre 2 : Abstraction et Virtualisation

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

Industrialiser la gestion des fichiers multimédia. Aurélien Navarre

Utiliser un tableau de données

Tests de SlipStream sur les plateformes et : vers la. Vers la fédération du Cloud computing

Transcription:

Outils pour le cloud - Autour de Spark Olivier Schwander <olivier.schwander@lip6.fr> UPMC 1 / 15

Retour sur MapReduce Spark MapReduce Facile Programmation parallèle plus facile et plus sûre Mais... Besoin d une version MapReduce des méthodes Traitement par lots (batch processing) Souvent Besoin d un enchaînement de MapReduce Écriture sur le disque des résultats intermédiaires 2 / 15

Retour sur MapReduce Spark Retour vers le passé Chacun fait son système de parallélisme dans son coin. 3 / 15

Retour sur MapReduce Spark Retour vers le futur Généraliser MapReduce Plus de programmes Plus de styles de programmation Travailler en mémoire Éviter les écritures sur le disque Stocker tous les résultats intermédiaires dans la mémoire Spark Tout repose sur Hadoop Données sur le HDFS Bonus gratuit : interface en Python 4 / 15

Retour sur MapReduce Spark Spark Traitements Par lots Interactifs Temps réel Intégration Java, Python, Scala Haut niveau Moins besoin de se forcer à passer en MapReduce Plus de constructions 5 / 15

Opérations Description d un calcul Enchaînement de transformations Résultats intermédiaires en mémoire À la fin Évaluation de tout le bloc de calcul En parallèle Stockage permanent du résultat 6 / 15

Opérations Resilient Distributed Datasets (RDDs) Collection d éléments Stockée de façon distribuée Calculée et recalculée à la demande, en fonction des besoins Sources Données chargées depuis le HDFS Résultat intermédiaire d un calcul Propriété En mémoire Cache sur le disque possible Immutable Parallélisé 7 / 15

Opérations Transformations et actions Transformation RRD RRD Pas calculé immédiatement Action RRD résultat concret Déclenche le calcul 8 / 15

Opérations Description d un calcul Séquence d opérations Optmisation à la volée Recalcul si nécessaire 9 / 15

Opérations s de tranformations map(fonction) filter(fonction) flatmap(fonction) sample union(rrd) groupbykey reducebykey(fonction) sortbykey join(rrd) cartesian(rrd) Applique une fonction sur un RRD Filtre un RRD Applique une fonction et aplatit le résultat Échantillonage aléatoire Fusion de deux RRD Regroupe les valeurs associées à la même clé Réduction clé par clé Tri ((k, v), (k, w)) (k, (v, w)) Produit cartésien 10 / 15

Opérations s d actions reduce(fonction) collect count first take(entier) saveastextfile foreach(fonction) Réduction globale Récupère une valeur concrète Comptage Premier élément n premiers éléments Écriture Application d une fonction 11 / 15

Opérations Autres opérations Cache En mémoire, sur disque Pour réutiliser des RRD Diffusion (broadcast) Hyper-paramètres partagés sur le réseau Pas des données Bases de données Pseudo-relationnel Pseudo-SQL 12 / 15

WordCount >>> data = sc.textfile("readme.md") >>> wc = data.flatmap(lambda x: x.split( )).map(lambda x: (x, 1)).reduceByKey(lambda a, b: a + b) >>> wc Que contient wc? 13 / 15

Pas encore de calcul >>> wc PythonRDD[36] at RDD at PythonRDD.scala:43 Calcul abstrait wc est un RRD La description d un calcul Des données qu on peut transformer 14 / 15

Calcul effectif >>> result = wc.collect() 16/02/17 14:32:31 INFO SparkContext: Starting job: collect at <s 16/02/17 14:32:31 INFO DAGScheduler: Registering RDD 33 (reduceb 16/02/17 14:32:31 INFO DAGScheduler: Got job 8 (collect at <stdi 16/02/17 14:32:31 INFO DAGScheduler: Final stage: ResultStage 13... Résultat >>> result [(u, 67), (u when, 1)...] 15 / 15