MapReduce. Nicolas Dugué nicolas.dugue@univ-orleans.fr. M2 MIAGE Systèmes d information répartis



Documents pareils
Introduction à MapReduce/Hadoop et Spark

Fouillez facilement dans votre système Big Data. Olivier TAVARD

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Cartographie des solutions BigData

Programmation parallèle et distribuée

Certificat Big Data - Master MAthématiques


NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Programmation parallèle et distribuée

Programmation parallèle et distribuée (Master 1 Info )

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

4 Exemples de problèmes MapReduce incrémentaux

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

HADOOP ET SON ÉCOSYSTÈME

Les technologies du Big Data

Bases de données documentaires et distribuées Cours NFE04

Ricco Rakotomalala R.R. Université Lyon 2

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Big Data Concepts et mise en oeuvre de Hadoop

MapReduce et Hadoop. Alexandre Denis Inria Bordeaux Sud-Ouest France ENSEIRB PG306

BIG DATA en Sciences et Industries de l Environnement

Map-Reduce : un cadre de programmation parallèlle pour l analyse de grandes données. Stéphane Genaud ENSIIE

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Le BigData, aussi par et pour les PMEs

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

Big Graph Data Forum Teratec 2013

Panorama des solutions analytiques existantes

Les quatre piliers d une solution de gestion des Big Data

Labs Hadoop Février 2013

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

Les bases de données relationnelles

Fouille de données massives avec Hadoop

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Implémentation parallèle de certains algorithmes de fouille de données avec le framework MapReduce

Document réalisé par Khadidjatou BAMBA

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

CONFÉRENCE WEB 2.0. UPDATE ASBL Michaël Barchy 23 janvier 2013

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

Les journées SQL Server 2013

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

CENTAI : Big Data & Big Analytics Réunion DGPN / Thales Octobre 2013

Tables Rondes Le «Big Data»

NoSQL. Etat de l art et benchmark

Introduction au Data-Mining

Bases de Données NoSQL

Cours 8 Not Only SQL

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Hadoop : une plate-forme d exécution de programmes Map-Reduce

Comment utiliser les réseaux sociaux pour les ambassadeurs? Apprenez à naviguer sur LinkedIn et Twitter

DÉBUTER AVEC LES RÉSEAUX SOCIAUX

SCOOP IT. Isabelle Vayssié Collège St Geours de Maremne. Crédit images scoop it

LES RESEAUX SOCIAUX MARDI 25 FEVRIER 2014

Big Data On Line Analytics

pas à pas prise en main du service sur le web Le Cloud

Informatique & Systèmes de Communication. Stages de 12 à 16 semaines aux Etats-Unis

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

Big Data? Big responsabilités! Paul-Olivier Gibert Digital Ethics

Construire un réseau social avec Symfony Xavier Lacot Clever Age. Symfony Live 11 et 12 juin 2009 Clever Age Xavier Lacot

Social Computing Veille concurrentielle

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

Big Data, un nouveau paradigme et de nouveaux challenges

Transformation Digitale Challenges et Opportunités

FORUM NTIC BIG DATA, OPEN DATA Big Data: les challenges, les défis


BIG Data et R: opportunités et perspectives

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

Hadoop : une plate-forme d exécution de programmes Map-Reduce

Cassandra chez Chronopost pour traiter en temps réel 1,5 milliard d événements par an

M2 GL UE DOC «In memory analytics»

Quels choix de base de données pour vos projets Big Data?

Enjeux mathématiques et Statistiques du Big Data

TRAVAUX DE RECHERCHE DANS LE

Windows Azure. Principales fonctions

NewPoint IT Consulting BIG DATA WHITE PAPER. NewPoint Information Technology Consulting

Big Data et Statistique Publique

Le BIG DATA????? Big Buzz? Big Bang? Big Opportunity? Big hype? Big Business? Big Challenge? Big Hacking? Gérard Peliks planche 2

Interaction entre réseaux sociaux et sites web

ÉCOLE DE TECHNOLOGIE SUPÉRIEURE UNIVERSITÉ DU QUÉBEC RAPPORT DE PROJET PRÉSENTÉ À L ÉCOLE DE TECHNOLOGIE SUPÉRIEURE

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Nous animons vos réseaux sociaux

DESCRIPTIF DES PROJETS 3EME ANNEE QUI SERONT PRESENTES LORS DE LA JOURNEE DE PROJET DE FIN D ETUDE LE 26/01/2012

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS

Our experience in using Apache Giraph for computing the diameter of large graphs. Paul Bertot - Flavian Jacquot

Big Data. SRS Day Ali FAWAZ Etienne CAPGRAS. Membres du groupe : Coaché par :

Rotary et réseaux sociaux. Séminaire Image Publique du Rotary oct Rotary et réseaux sociaux Jacqueline Fétis

Le stockage local de données en HTML5

Jeudi 16 octobre 2014

AWS avancé. Surveiller votre utilisation d EC2

Transcription:

MapReduce Nicolas Dugué nicolas.dugue@univ-orleans.fr M2 MIAGE Systèmes d information répartis

Plan 1 Introduction Big Data 2 MapReduce et ses implémentations 3 MapReduce pour fouiller des tweets 4 MapReduce pour la recommandation 5 Conclusion 2/29

Introduction Les données Facebook, Twitter, LinkedIn Des appels téléphoniques Des clients et leurs achats Des utilisateurs d internet Des emails Des trajets en Velib Des vidéos de surveillance Des données scientifiques 3/29

Introduction Un exemple : Twitter > 500 millions d utilisateurs recensés en 2012 Des milliards d abonnement entre utilisateurs un milliard de tweets tous les deux jours et demi Utilisation de hashtags, mentions, urls Données complexes (textes, liens entre utilisateurs, tags) + volume immense : Big Data 4/29

Introduction Un exemple : Twitter > 500 millions d utilisateurs recensés en 2012 Des milliards d abonnement entre utilisateurs un milliard de tweets tous les deux jours et demi Utilisation de hashtags, mentions, urls Données complexes (textes, liens entre utilisateurs, tags) + volume immense : Big Data Stocker ces données Usama Fayyad (Yahoo) : principale utilisation d Hadoop Appliances Teradata couteuses Apache Hadoop et son HDFS : OpenSource 4/29

Introduction Un exemple : Twitter > 500 millions d utilisateurs recensés en 2012 Des milliards d abonnement entre utilisateurs un milliard de tweets tous les deux jours et demi Utilisation de hashtags, mentions, urls Données complexes (textes, liens entre utilisateurs, tags) + volume immense : Big Data Fouiller ces données Algorithmes peu complexes Epurer les données Paralléliser le traitement des données : le modèle MapReduce 4/29

Plan 1 Introduction Big Data 2 MapReduce et ses implémentations 3 MapReduce pour fouiller des tweets 4 MapReduce pour la recommandation 5 Conclusion 5/29

MapReduce Les implémentations Octopy ou Mincemeat python Phoenix C++ pour multicoeurs Mars pour GPU MongoDB Apache Hadoop et son HDFS 6/29

MapReduce Programmation MapReduce Modèle de programmation très contraint : Map et Reduce Issu de la programmation fonctionnelle (Caml, Haskell, Lisp) Pourquoi MapReduce? Traiter de gros volumes de données! Avec Apache Hadoop : Parallélisation automatique des opération Map et Reduce Equilibrage de charge Tolérance aux pannes Scalabilité horizontale 7/29

MapReduce et le Cloud Adapté au Cloud Nombre de Mapper et de Reducer potentiellement illimités Parallélisme automatique Amazon Elastic MapReduce 8/29

Le stockage - HDFS 9/29

Le stockage - MongoDB 10/29

Le modèle MapReduce 5 étapes 1 Lecture des données 2 Map : pour chaque élément des données, appliquer une fonction qui retourne un couple (clé,valeur) 3 Trier les couples selon leurs clés 4 Reduce: agréger, résumer, filtrer ou transformer les données 5 Ecrire le résultat 11/29

Le modèle MapReduce Wordcount 12/29

MapReduce en Natif Du Javascript db.tweets_sentiment.mapreduce( function() { emit(key, VALUE); }, function (key, values) { return RESULT }, { query : { }, out : "RESULT_NAME" } ) Stockage du résultat Résultat stocké dans db.result NAME 13/29

Plan 1 Introduction Big Data 2 MapReduce et ses implémentations 3 MapReduce pour fouiller des tweets 4 MapReduce pour la recommandation 5 Conclusion 14/29

MapReduce pour fouiller des tweets Exemple : compter la taille moyenne des tweets db.tweets_sentiment.mapreduce( function() { emit(this.sentiment, this.tweet.length); }, function (key, values) { return Array.avg(values) }, { out : "avg_char_per_sentiment" } ) Stockage du résultat > db.avg_char_per_sentiment.find() { "_id" : 0, "value" : 68.82639589889486 } { "_id" : 4, "value" : 66.30062250406955 } 15/29

Exemple 2 : Fréquence des mots db.tweets_sentiment.mapreduce( function() { var tab = this.tweet.split(" "); for (var i = 0; i < tab.length; i++) { emit(tab[i], 1); } }, function (key, values) { return Array.sum(values) }, { query : { sentiment : 0 }, out : "word_frequency_0" } ) Les plus fréquents > db.word_frequency_0.find().sort({value : -1}) { "_id" : "", "value" : 8582 } 16/29

Les tweets : des sacs de mots Soit W le dictionnaire de mots au moins une fois dans un ensemble de tweets T. La représentation sac de mots d un tweet t j T est un vecteur de poids (w 1j,..., w W j ) où w ij est la fréquence d apprition du mot w i du dictionnaire dans le tweet t j 17/29

Les tweets : des sacs de mots Soit W le dictionnaire de mots au moins une fois dans un ensemble de tweets T. La représentation sac de mots d un tweet t j T est un vecteur de poids (w 1j,..., w W j ) où w ij est la fréquence d apprition du mot w i du dictionnaire dans le tweet t j Algo Data mining K plus proches voisins Naive Bayes 17/29

Plan 1 Introduction Big Data 2 MapReduce et ses implémentations 3 MapReduce pour fouiller des tweets 4 MapReduce pour la recommandation 5 Conclusion 18/29

La recommandation Objectif système de recommandation Présenter des contenus susceptibles d intéresser l utilisateur Exemples Amazon : suggestion de produits ; Last.fm : suggestion de groupes/chansons ; Facebook : suggestion d amis ; 19/29

La recommandation Construire un profil utilisateur Pages, Objets, chansons : tracer les habitudes de l utilisateur Demander à l utilisateur d évaluer Demander à l utilisateur de créer des listes de préférences Utiliser le réseau social de l utilisateur Demander des informations personnelles Utiliser des tags Systèmes de Filtrage collaboratifs utilisateurs Qu est ce qui est proche de ce que j ai aimé? Qu aiment les profils proches du mien? Qu aiment mes amis? 20/29

La recommandation Systèmes de Filtrage collaboratifs utilisateurs Trouver utilisateurs avec un profil proche de l utilisateur Calculer une liste de recommandations 21/29

La recommandation Suggérer des amis A B C D B A C D C A B D A B 22/29

La recommandation Suggérer des amis A B C D B A C D C A B D A B For map(a B C D) (A B) B C D (A C) B C D (A D) B C D 23/29

Suggérer des amis A B C D B A C D C A B D A B For map(a B C D) (A B) B C D (A C) B C D (A D) B C D La recommandation For map(b A C D) (A B) A C D (B C) A C D (B D) A C D 23/29

La recommandation Suggérer des amis A B C D B A C D C A B D A B For map(c A B) (A C) A B (B C) A B 24/29

La recommandation Suggérer des amis A B C D B A C D C A B D A B For map(c A B) (A C) A B (B C) A B For map(d A B) (A D) A B (B D) A B 24/29

La recommandation Suggérer des amis A B C D B A C D C A B D A B Tri par clé (A B) (A C D) (B C D) (A C) (A B) (B C) (A D) (A B) (B C) (B C) (A B D) (A C D) (B D) (A B C) (A C D) (C D) (A B C) (A B D) 25/29

La recommandation Suggérer des amis A B C D B A C D C A B D A B Reduce (A B) (C D) (A C) (B) (A D) (B) (B C) (A D) (B D) (A C) (C D) (A B) 26/29

Plan 1 Introduction Big Data 2 MapReduce et ses implémentations 3 MapReduce pour fouiller des tweets 4 MapReduce pour la recommandation 5 Conclusion 27/29

Big data 28/29

Big data Les terriens ont en moyenne : un sein et un testicule 28/29

Big data Récolter de gands volumes de données Stocker les données Paralléliser les traitements 29/29

Big data Récolter de gands volumes de données Stocker les données Paralléliser les traitements Interpréter les données 29/29