Bases de données documentaires et distribuées Cours NFE04



Documents pareils
Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04

Programmation parallèle et distribuée

Programmation parallèle et distribuée

Programmation parallèle et distribuée (Master 1 Info )

Bases de données documentaires et distribuées Cours NFE04

Big Data Concepts et mise en oeuvre de Hadoop

Introduction à MapReduce/Hadoop et Spark

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Bases de données documentaires et distribuées Cours NFE04

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Certificat Big Data - Master MAthématiques

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Introduc)on à Map- Reduce. Vincent Leroy

MapReduce et Hadoop. Alexandre Denis Inria Bordeaux Sud-Ouest France ENSEIRB PG306

Bases de données documentaires et distribuées Cours NFE04

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Cours 8 Not Only SQL

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

4 Exemples de problèmes MapReduce incrémentaux

Labs Hadoop Février 2013

Map-Reduce : un cadre de programmation parallèlle pour l analyse de grandes données. Stéphane Genaud ENSIIE

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

M2 GL UE DOC «In memory analytics»

Le BigData, aussi par et pour les PMEs


SUGARCRM Sugar Open Source Guide d Installation de French SugarCRM Open Source Version 4.2

td3a correction session7az

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

Guide d installation de SugarCRM Open Source version 4.5.1

Ricco Rakotomalala R.R. Université Lyon 2

Importation et exportation de données dans HDFS

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Our experience in using Apache Giraph for computing the diameter of large graphs. Paul Bertot - Flavian Jacquot

Prise en main d une Cyberclasse

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ

Big Graph Data Forum Teratec 2013

Notre processus d embauche

Installation d'un TSE (Terminal Serveur Edition)

Encryptions, compression et partitionnement des données

Problème physique. CH5 Administration centralisée

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Hadoop : une plate-forme d exécution de programmes Map-Reduce

Hadoop / Big Data MBDS. Benjamin Renaut <renaut.benjamin@tokidev.fr>

Introduction. Littéralement : «Services de gestion des droits liés à l Active Directory» ADRMS Windows Serveur 2008 un nouveau rôle

Fouille de données massives avec Hadoop

Le nouveau visage de la Dataviz dans MicroStrategy 10

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Procédure et Pré-requis

7 Développement d une application de MapReduce

IN SYSTEM. Préconisations techniques pour Sage 100 Windows, MAC/OS, et pour Sage 100 pour SQL Server V16. Objectif :

Logiciel (Système d impression directe)

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS

PageScope Enterprise Suite:

Tutoriel : Utiliser Time Machine pour sauvegarder ses données

Les journées SQL Server 2013

Bases de Données NoSQL

Cartographie des solutions BigData

Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce

Diagrammes de Package, de déploiement et de composants UML

Mise en oeuvre TSM 6.1

Internet, courriels : réduire les impacts

Mise en place d un projet VDI

Les bases de données relationnelles

Structure fonctionnelle d un SGBD

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Urbanisation des systèmes d information

CH.3 SYSTÈMES D'EXPLOITATION

Internet, courriel : réduire les impacts

Fast and furious decision tree induction

Hadoop : une plate-forme d exécution de programmes Map-Reduce

Notes de cours Practical BigData

Direction des Systèmes d'information

Problématiques de stockage d un Data Center

Cisco CCVP. Architecture Cisco UCM


Big Data et Graphes : Quelques pistes de recherche

FileMaker Pro 13. Utilisation d une Connexion Bureau à distance avec FileMaker Pro 13

Guide pour l Installation des Disques Durs SATA et la Configuration RAID

Quel que soit L élève - Il est valorisé par l utilisation d un outil technologique haut de gamme - Il peut travailler seul et à son rythme.

Atelier Progress Rollbase

PACKZ System Requirements. Version: Version: Copyright 2015, PACKZ Software GmbH. 1

Catherine Chochoy. Alain Maneville. I/T Specialist, IBM Information Management on System z, Software Group

Les technologies du Big Data

Livret de Stages 2014 / 2015

agile Datacenter vert Le monde naissant des datacenters de nouvelle génération ICAR-2013

Configuration de votre compte Zimbra Desktop Client

Caméra Numérique de Microscopie Couleur USB. Guide d installation

Transcription:

Bases de données documentaires et distribuées Cours NFE04 Map Reduce Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire National des Arts & Métiers, Paris, France

Les programmes vers les données, pas l inverse! Client serveur pour traiter des TOs de données? Ne marche pas. Il faut placer les traitements au plus près des données.

Pourquoi un framework Un framework pilote un traitement, conduit selon un processus générique (notion d inversion de contrôle). L application "injecte" des fonctions dans le framework. Exemples : Applications MVC, XSLT, Couches ORM, MapReduce. Le framework applique les fonctions pendant l exécution du processus. Une fonction map() à appliquer pendant la phase de Map Une fonction reduce() à appliquer pendant la phase de Reduce. Rôle d un framework MapReduce Prendre en charge la distribution, et gérer les reprises sur panne.

Comptons les mots : la fonction de Map Phase de Map : on extrait les termes, on les compte localement, on transmet au framework. function maptf($id, $contenu) { // $id: identifiant du document // $contenu: contenu textuel du document // On boucle sur tous les termes du contenu foreach ($t in $contenu) { // Comptons le nb d occurrences de $t dans $contenu $count = nbocc ($t, $contenu); // Emission du terme et de son nombre d occurrences emit ($t, $count); } } NB : rien n indique le contexte de distribution.

Comptons les mots : la fonction de Reduce Phase de Reduce : on reçoit, pour chaque terme, tous les compteurs, et on les additionne. function reducetf($t, $compteurs) { // $t: un terme // $compteurs: les nombres d occurrences, un pour chaque doc. $total = 0; // Boucles sur les compteurs et calcul du total foreach ($c in $compteurs) { $total = $total + $c; } // Et on produit le total return $total; } Même remarque : rien n indique le contexte de distribution.

L exécution par le framework URL u 1 u 2 u 3 u 4 u 5 Document the jaguar is a new world mammal of the felidae family. for jaguar, atari was keen to use a 68k family device. mac os x jaguar is available at a price of us $199 for apple s new family pack. one such ruling family to incorporate the jaguar into their name is jaguar paw. it is a big cat.

Déroulons le processus term mammal 1 available 1 jaguar 2... count Sortie du map Entrée du shuffle

Déroulons le processus term mammal 1 available 1 jaguar 2... count Sortie du map Entrée du shuffle term count,1,1,2 mammal 1,1,1 available 1... Sortie du shuffle Entrée du reduce

Déroulons le processus term mammal 1 available 1 jaguar 2... count Sortie du map Entrée du shuffle term count,1,1,2 mammal 1,1,1 available 1... Sortie du shuffle Entrée du reduce term jaguar 5 mammal 1 family 3 available 1... count Résultat final

Exécution distribuée d un traitement MapReduce La grande vision

Exécution distribuée d un traitement MapReduce Quelques calculs Supposons une collection avec 1 million de documents ; chaque document contient 100 termes en moyenne, et sa taille est (en moyenne) de 1 KO. Le partitionnement découpe en fragments de 64 MO : chaque fragment contient 64 000 documents. Il y a à peu près M = 1,000,000/64,000 16,000 fragments. Si j ai 16 machines, chacune traitera 1 000 fragments par 1 000 tâches. Chaque tâche (Mapper) produit 6 400 000 paire (terme, compteur) Si j ai 10 machines pour la phase de Reduce : chaque Reducer R i reçoit 640 000 paires de chaque Mapper, pour tous les termes t tels que hash(t) = i (1 i 10)

Exécution distribuée d un traitement MapReduce Un tout petit exemple Quatre documents qui parlent de loups, de moutons, de bergerie.

La reprise sur panne Gestion des pannes Un traitement MapReduce peut durer des jours, sur des centaines de machines : la probabilité de panne est très grande. Ré-exécuter le traitement complètement en cas de panne on est à peu près sûr de ne jamais terminer. Dans Hadoop, le Maître (JobTracker) surveille l ensemble du processus (tâches de Map, tâches de Reduce). 1 Panne d un Reducer : on peut reprendre à partir du résultat des Mappers, stocké sur disque. 2 Panne d un Mapper : on recommence la tâche sur le même fragment (ou sur un réplica) 3 Si le Maître tombe en panne : on recommence tout, mais la probablité est très faible. Essentiel Tout repose sur une sérialisation (écriture sur disque) aux différentes étapes. Robuste mais très lent.