Bases de données documentaires et distribuées Cours NFE04



Documents pareils
Bases de données documentaires et distribuées Cours NFE04

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

M2 GL UE DOC «In memory analytics»

Programmation parallèle et distribuée

Bases de données documentaires et distribuées Cours NFE04

4 Exemples de problèmes MapReduce incrémentaux

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04

Les technologies du Big Data

Bases de données documentaires et distribuées Cours NFE04

Programmation parallèle et distribuée

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Anticiper et prédire les sinistres avec une approche Big Data

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Programmation parallèle et distribuée (Master 1 Info )

Panorama des solutions analytiques existantes

Labs Hadoop Février 2013

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Ricco Rakotomalala R.R. Université Lyon 2

Hadoop dans l entreprise: du concept à la réalité. Pourquoi et comment?

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis


Cartographie des solutions BigData

Big Data Concepts et mise en oeuvre de Hadoop

Introduction à MapReduce/Hadoop et Spark

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Cassandra et Spark pour gérer la musique On-line

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

HADOOP ET SON ÉCOSYSTÈME

Hadoop, les clés du succès

Big Data et Graphes : Quelques pistes de recherche

Introduction Big Data

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Fouille de données massives avec Hadoop

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Map-Reduce : un cadre de programmation parallèlle pour l analyse de grandes données. Stéphane Genaud ENSIIE

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Les bases de données relationnelles

Big Graph Data Forum Teratec 2013

Big Data et Graphes : Quelques pistes de recherche

Urbanisation de système d'information. PLM 6 (Product Lifecycle Management) Collaboration et partage d'informations

La technologie Java Card TM

JDev Atelier Datalift

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Offre formation Big Data Analytics

SIMPLIFIER LA PRODUCTION DE VOS TRADUCTIONS


Introduc)on à Map- Reduce. Vincent Leroy

Procédure d'installation complète de Click&Decide sur un serveur

Les quatre piliers d une solution de gestion des Big Data

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Gestion de la Maintenance Assistée par Ordinateur

Jean-Daniel Cryans École de technologie supérieure, Montréal septembre 2009

Document réalisé par Khadidjatou BAMBA

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

BIG Data et R: opportunités et perspectives

Certificat Big Data - Master MAthématiques

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

DEMARRER UN PROJET BIGDATA EN QUELQUES MINUTES GRACE AU CLOUD

Our experience in using Apache Giraph for computing the diameter of large graphs. Paul Bertot - Flavian Jacquot

Cours No 3 : Identificateurs, Fonctions, Premières Structures de contrôle.

Gé nié Logiciél Livré Blanc

Importation et exportation de données dans HDFS

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Analyse de performance, monitoring

BIG DATA en Sciences et Industries de l Environnement

Projet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia

Document de formation pour une solution complète d automatisation Totally Integrated Automation (T I A)

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS

Notes de cours Practical BigData

Performances Veille. Système d Information. Semaine 25 du 18 au 24 juin Numéro 228

Bases de Données NoSQL

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS

Exploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services

Données Réparties. Thibault BERNARD.

Big Data On Line Analytics

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Jean-François Boulicaut & Mohand-Saïd Hacid

Introduction à MATLAB R

td3a correction session7az

TP 1. Prise en main du langage Python

Quels choix de base de données pour vos projets Big Data?

Introduction à Hadoop & MapReduce

CESI Bases de données

CH.3 SYSTÈMES D'EXPLOITATION

Données massives pour les smart-grids

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

Big Data? Big responsabilités! Paul-Olivier Gibert Digital Ethics

Transcription:

Bases de données documentaires et distribuées Cours NFE04 Introduction Ãă Spark Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire National des Arts & Métiers, Paris, France

Qu est-ce que Spark? Un moteur d exécution basé sur des opérateurs de haut niveau, comme Pig. S appuie sur Map/Reduce (Hadoop) pour l exécution distribuée. Introduit un concept de collection résidente en mémoire (RDD) qui améliore considérablement certains traitements, dont ceux basés sur des itérations. De nombreuses librairies pour la fouille de données (MLib), le traitement des graphes, le traitement de flux (streaming).

Les RDD Les Resilient Distributed Datasets (RDD) C est le concept central : Un RDD est une collection (pour en rester à notre vocabulaire) calculée à partir d une source de données (MongoDB, un flux, un autre RDD). Un RDD peut être marqué comme persistant : il est alors placé en mémoire RAM et conservé par Spark. Spark conserve l historique des opérations qui a permis de constituer un RDD, et la reprise sur panne s appuie sur cet historique afin de reconstituer le RDD en cas de panne. Un RDD est un "bloc" non modifiable. Si nécessaire il est entièrement recaculé.

Les RDD Un workflow avec RDD dans Spark Des transformations (opérateurs comme dans Pig) créent des RDD à partir d une ou deux sources de données. Les RDD persistants sont en préservés en mémoire RAM, et peuvent être réutilisés par plusieurs traitements.

Les RDD Exemple : analyse de fichiers log On veut analyser le fichier journal (*log*) d une application dont un des modules (M) est suspect. On construit un programme qui charge le *log*, ne conserve que les messsages produits par le module *M* et les analyse. On peut analyser par produit, par utilisateur, par période, etc.

Les RDD Spécification avec Spark // Chargement de la collection log = load ("app.log") as (...) // Filtrage des messages du module M logm = filter log with log.message.contains ("M") // On rend logm persistant! logm.persist(); Analyse à partir de logm // Filtrage par produit logproduit = filter logm with log.message.contains ("product P") //.. analyse du contenu de logproduit

Reprise sur panne Reprise sur panne dans Spark Un RDD est une collection partitionnée. Si une panne affecte un calcul s appuyant sur un fragment F de RDD persistant, il suffit de le relancer à partir de F. Si une panne affecte un fragment de RDD persistant, Spark ré-applique la chaîne de traitement ayant constitué le RDD.

Une session introductive Installation Très simple : récupérez la version courante à http://spark.apache.org. Décompressez dans un répertoire spark. Lancez l intepréteur../bin/spark-shell scala> C est un interpréteur Scala : apprenez le langage Scala! On va implanter le compteur de termes : récupérer un fichier texte quelconque (ou loups.txt sur le site.)

Une session introductive Commandes de base Chargement d un fichier texte dans un RDD (un document par ligne). val loupsetmoutons = sc.textfile("loups.txt") Quelques actions appliquées au RDD. loupsetmoutons.count() // Nombre de documents dans ce RDD loupsetmoutons.first() // Le premier document loupsetmoutons.collect() // Tous les documents du RDD Les transformations (presque comme Pig). val bergerie = loupsetmoutons.filter(line => line.contains("bergerie")) loupsetmoutons.filter(line => line.contains("loup")).count() // Combinaison transf./action

Une session introductive Le compteur de mots Comme promis, le compteur de mot Spark. D abord on prend tous les termes (flatmap). val termes = loupsetmoutons.flatmap(line => line.split(" ")) Initialisation du comptage : chaque terme compte pour 1 (map). val termeunit = termes.map(word => (word, 1)) Je regroupe les termes, et je compte (reduce). val compteurtermes = termeunit.reducebykey((a, b) => a + b) Et je peux rendre persistant les compteurs de termes. compteurtermes.persist()