Cloud Computing MapReduce Année académique 2014/15

Dimension: px
Commencer à balayer dès la page:

Download "Cloud Computing MapReduce Année académique 2014/15"

Transcription

1 Cloud Computing Année académique 2014/15 Qu'est-ce que le Big Data? Source: Paul Butler (Facebook) "Visualizing Friendships", https://www.facebook.com/note.php?note_id= Marcel Graf

2 Qu'est-ce que le Big Data? Source: Weldon Cooper Center for Public Service, 3 Qu'est-ce que le Big Data? Source: walkingsf on Flickr "Locals (blue) and tourists (red), photo locations Paris", 4

3 Qu'est-ce que le Big Data? Source: Strava biking trails heatmap, 5 Qu'est-ce que le Big Data? processes 20 PB a day (2008) crawls 20B web pages a day (2012) >10 PB data, 75B DB calls per day (6/2012) 150 PB on 50k+ servers running 15k apps (6/2011) Wayback Machine: 240B web pages archived, 5 PB (1/2013) >100 PB of user data TB/day (8/2012) LHC: ~15 PB a year S3: 449B objects, peak 290k request/second (7/2011) 1T objects (6/2012) 640K ought to be enough for anybody. LSST: 6-10 PB a year (~2015) SKA: EB per year (~2020) 6

4 Qu'est-ce que le Big Data? On appelle "Big Data" des données qui sont trop larges, trop complexes et trop dynamiques pour les outils conventionnels à stocker, gérer et analyser. 7 Introduction est un modèle de programmation pour le traitement des données distribué. Sa puissance est dans sa capacité de évoluer à des centaines ou milliers de machines, qui peuvent avoir plusieurs coeurs. Quelle taille aurait une tâche de calcul? Données à l'échelle web : centaines de GB à TB ou PB Une copie du Web en 2012 (Common Crawl) a 3.8G documents et une taille de > 100TB. Google travaille en interne avec des tailles > 400TB. Les données ne peuvent pas être stockées sur le disque dur d'un seul ordinateur. Donc un système de fichiers distribué est nécessaire. 8

5 Distribution des données dans HDFS Quand on télécharge un grand fichier sur un cluster, le fichier est distribué sur les machines du cluster. Le système de fichiers s'occupe de diviser le fichier en morceaux (chunks de 64 Mo) qui sont pris en charge par différentes machines du cluster. C'est une forme de sharding. Un grand fichier Est coupé en morceaux Et les morceaux sont distribués sur les machines du cluster Noeud HDFS 1 Noeud HDFS 2 Noeud HDFS 3 Noeud HDFS 4 (En plus les chunks sont répliqués, il existe toujours trois copies dans le cluster.) 9 Traitement des données Concept principal On veut traiter un grand volume de données qui est réparti sur plusieurs machines. Approche traditionnelle : transporter les données vers le traitement Noeud 1 Noeud 2 Noeud 3 Noeud 4 Traitement Résultat Problème : Les volumes de données ne cessent de croître rapidement. Les disques durs ont une vitesse de lecture relativement faible (actuellement ~100 Mo/seconde) La lecture d'une copie du Web (> 400 To) nécessiterait plus d'un mois! 10

6 Traitement des données Concept principal Approche : transporter le traitement vers les données Chaque machine qui stocke des données exécute une partie du traitement. Les résultats partiels sont collectés et agrégés. Noeud 1 Résultat Noeud 2 Noeud 3 Noeud 4 partiel Avantages Moins de déplacement de données sur le réseau. Le traitement s'effectue en parallèle sur plusieurs machines. Résultat Effectuer un traitement sur une copie du Web en utilisant 1'000 machines : < 3 heures 11 Plateforme de calcul distribué Le concept est un modèle de traitement de données simple qui s'applique à beaucoup de problèmes : Google : calculer le PageRank qui détermine la pertinence d'une page web. Last.fm : calculer les charts des chansons les plus écoutées et recommandations (musique qui pourrait te plaire). Facebook : calculer des statistiques d'utilisation (croissance des utilisateurs, pages visitées, temps passé) et recommandations (gens que tu pourrais connaitre, applications qui pourraient te plaire). Rackspace : indexation des logs d'infrastructure pour la recherche d'erreur en cas de faille.... Pour le mettre en oeuvre il faut paralleliser les tâches de calcul équilibrer la charge optimiser les transferts disque et réseau gérer les cas où une machine tombe en panne... Il faut une plateforme de calcul distribué! 12

7 Hadoop Introduction Hadoop est un projet Open Source Apache une plateforme de calcul distribué un framework qui permet aux développeurs d'écrire des applications qui traitent un grand volume de données. Une installation Hadoop comporte principalement un cluster de machines (physiques ou virtuelles) le système de fichiers distribué HDFS (Hadoop Distributed File System) la base de données NoSQL HBase le système de calcul distribué les applications de traitement de données écrites par le développeur. Data analysis applications HBase database Hadoop Distributed File System (HDFS) A cluster of machines 13 Les fonctions Map et Reduce Origine des termes Les termes Map et Reduce viennent du langage Lisp Quand on a une liste on peut appliquer d'un coup la même fonction à chaque élément de la liste. On obtient une autre liste. P. ex. la fonction x x 2 On peut aussi appliquer d'un coup une fonction qui réduit tous les éléments d'une liste à une valeur. P. ex. la fonction de sommation Dans Hadoop, les fonctions Map et Reduce sont plus générales. liste d'entrée fonction Map liste de sortie liste d'entrée fonction Reduce valeur de sortie 36 14

8 Exemple : Traitement de données météorologiques Le National Climatic Data Center des États Unis publie des données météorologiques Captées par des dizaines de milliers de stations météorologiques Mesures : température, humidité, précipitation, vent, visibilité, pression, etc. Données historiques disponibles depuis le début des mesures météorologiques Les données sont disponibles comme fichiers texte. Exemple de fichier : FM V N CN N FM V N CN N FM V N CN N FM V N CN N FM V N CN N Exemple : Traitement de données météorologiques Chaque fichier contient les mesures d'une année. Une ligne représente un ensemble d'observations d'une station à un certain moment. Exemple de ligne commenté (réparti sur plusieurs lignes pour une meilleure lisibilité) : # USAF weather station identifier # WBAN weather station identifier # observation date 0300 # observation time # latitude (degrees x 1000) # longitude (degrees x 1000) FM # elevation (meters) V # wind direction (degrees) 1 # quality code N # sky ceiling height (meters) 1 # quality code C N # visibility distance (meters) 1 # quality code N # air temperature (degrees Celsius x 10) 1 # quality code # dew point temperature (degrees Celsius x 10) 1 # quality code # atmospheric pressure (hectopascals x 10) 1 # quality code Source: Tom White, Hadoop: The Definitive Guide 16

9 Exemple : Traitement de données météorologiques Problème posé : On veut calculer pour chaque année la température maximale observée. Approche classique Script bash / awk #!/bin/bash for year in all/* do echo - ne $(basename $year.gz)"\t" gunzip - c $year \ awk '{ temp = substr($0, 88, 5) + 0; q = substr($0, 93, 1); %./max_temperature.sh if (temp!=9999 && q ~ /[01459]/ && temp > max) max = temp } END { print max }' done Temps de calcul pour les données de 1901 à 2000 : 42 minutes Source: Tom White, Hadoop: The Definitive Guide 17 Exemple : Traitement de données météorologiques Approche Le développeur écrit deux fonctions Le Mapper qui sera responsable d'extraire l'année et la température d'une ligne. Le Reducer qui sera responsable de calculer la température maximale. Hadoop se charge de Découper les fichiers d'entrée en morceaux, Instancier le Mapper sur chaque machine du cluster et d'exécuter les instances, Collecter les résultats des instances Mapper, Instancier le Reducer sur chaque machine du cluster et d'exécuter les instances en leur donnant les donnée produites par les instances Mapper, Stocker les résultats des instances Reducer N Mapper Reducer

10 N N N N Les données météorologiques sont découpées en lignes N Mapper Mapper Mapper Mapper Mapper Le Mapper extrait l'année et la température et écrit une paire clévaleur (année, température) en sortie Réorganisation et tri Les données intermédiaires sont regroupées par clé (l'année) et triées Reducer Reducer Le Reducer lit une année et toutes les températures de cette année. Il détermine le maximum et écrit une paire clé-valeur (année, température maximale) en sortie. Temps de calcul pour les données de 1901 à 2000 avec 10 machines : 6 minutes Exemple : Traitement de données météorologiques Le Mapper en Java import java.io.ioexception; import org.apache.hadoop.io.intwritable; import org.apache.hadoop.io.longwritable; import org.apache.hadoop.io.text; import org.apache.hadoop.mapreduce.mapper; public class MaxTemperatureMapper extends Mapper<LongWritable, Text, Text, IntWritable> { 20 private static final int MISSING = public void map(longwritable key, Text value, Context context) throws IOException, InterruptedException { String line = value.tostring(); String year = line.substring(15, 19); int airtemperature; if (line.charat(87) == '+') { // parseint doesn't like leading plus signs airtemperature = Integer.parseInt(line.substring(88, 92)); } else { airtemperature = Integer.parseInt(line.substring(87, 92)); } String quality = line.substring(92, 93); if (airtemperature!= MISSING && quality.matches("[01459]")) { context.write(new Text(year), new IntWritable(airTemperature)); } } } Source: Tom White, Hadoop: The Definitive Guide entrée type clé entrée type valeur sortie type clé sortie type valeur entrée clé entrée valeur sortie écriture clé-valeur en sortie

11 Exemple : Traitement de données météorologiques Le Reducer en Java import java.io.ioexception; import org.apache.hadoop.io.intwritable; import org.apache.hadoop.io.text; import org.apache.hadoop.mapreduce.reducer; public class MaxTemperatureReducer extends Reducer<Text, IntWritable, Text, IntWritable> public void reduce(text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int maxvalue = Integer.MIN_VALUE; for (IntWritable value : values) { maxvalue = Math.max(maxValue, value.get()); } context.write(key, new IntWritable(maxValue)); } } entrée type clé entrée type valeur sortie type clé sortie type valeur entrée clé entrée valeurs sortie écriture clé-valeur en sortie Source: Tom White, Hadoop: The Definitive Guide 21 Exemple : Traitement de données météorologiques Le programme en Java import org.apache.hadoop.fs.path; import org.apache.hadoop.io.intwritable; import org.apache.hadoop.io.text; import org.apache.hadoop.mapreduce.job; import org.apache.hadoop.mapreduce.lib.input.fileinputformat; import org.apache.hadoop.mapreduce.lib.output.fileoutputformat; public class MaxTemperature { public static void main(string[] args) throws Exception { if (args.length!= 2) { System.err.println("Usage: MaxTemperature <input path> <output path>"); System.exit(- 1); } Job job = new Job(); job.setjarbyclass(maxtemperature.class); job.setjobname("max temperature"); répertoire des fichiers d'entrée répertoire des fichiers de sortie 22 FileInputFormat.addInputPath(job, new Path(args[0])); FileOutputFormat.setOutputPath(job, new Path(args[1])); job.setmapperclass(maxtemperaturemapper.class); job.setreducerclass(maxtemperaturereducer.class); job.setoutputkeyclass(text.class); job.setoutputvalueclass(intwritable.class); System.exit(job.waitForCompletion(true)? 0 : 1); } } Source: Tom White, Hadoop: The Definitive Guide

12 Exemple : Comptage de mots William Shakespeare a écrit 38 pièces de théâtre, 154 sonnets, deux poèmes narratifs et autres vers. Chaque oeuvre est disponible comme fichier texte. Problème posé : compter la fréquence des mots de l'oeuvre shakespearienne. Approche Le développeur écrit deux fonctions Le Mapper qui sera responsable d'isoler les mots. Le Reducer qui sera responsable de compter les mots. 23 Exemple : Comptage de mots To be or not to be the last, not least Mapper Mapper to 1 be 1 or 1 the 1 last 1 Les documents d'entrée sont découpés en lignes. Le Mapper identifie les mots dans une ligne et pour chaque mot écrit en sortie une paire clé-valeur avec le mot comme clé et la valeur 1. not 1 to 1 be 1 not 1 least 1 Réorganisation et tri Les données intermédiaires sont regroupées par clé (le mot) et triées. be 1 1 last 1 least 1 not 1 1 or 1 the 1 to 1 1 Reducer Reducer Reducer Reducer Reducer Reducer Reducer be 2 last 1 least 1 not 2 or 1 the 1 to 2 Le Reducer lit un mot et toutes les occurrences du mot. Il additionne les occurrences et écrit en sortie une paire clévaleur avec le mot et ses occurrences. 24

13 Exercice 1 : Estimation de Pi Problème Utilisant la simulation Monte Carlo, déterminer la valeur de Pi Lancer des fléchettes 1 Calculer le rapport entre le nombre de fléchettes dans le cercle et le nombre de fléchettes dans le carré Déterminer si une fléchette se trouve à l'intérieur du cercle est facile surface cercle = π surface carré = 4 π = 4 x surface cercle / surface carré 25 Exercice 1 : Estimation de Pi Solution 26

14 Exercice 2 : Lissage d'image Pour lisser une image utiliser un cache coulissant remplacer un pixel par la moyenne des 9 pixels dans le cache 27 Exercice 2 : Lissage d'image Solution 28

15 Flux de données détaillé 29 Source: Yahoo! Hadoop Tutorial Détails Fichiers d'entrée Les fichiers d'entrée contiennent les données pour un programme. Ils se trouvent généralement dans un système de fichiers distribué (HDFS, Amazon S3,...) Le format des fichiers d'entrée peut être arbitraire Fichiers logs en format texte Fichiers binaires Enregistrements sur plusieurs lignes... Ils peuvent être très larges, plusieurs dizaines de Go ou plus. 30

16 Détails InputFormat La manière dont les fichiers sont divisés en morceaux et lus sont définis par le InputFormat. InputFormat est une classe qui sélectionne les fichiers qui seront utilisés en entrée définit les InputSplits qui divisent un fichier fournit une factory pour des objets RecordReader qui vont lire le fichier. Hadoop vient avec un nombre de InputFormats prédéfinis InputFormat Description Clé Valeur TextInputFormat Format par défaut. Lit les lignes d'un fichier texte. L'offset en octets de la ligne dans le fichier. La ligne KeyValueInputFormat SequenceFileInputFormat 31 Analyse les lignes d'un fichier texte en paires clévaleur. Un format binaire à haute performance spécifique à Hadoop. Tout ce qui précède le premier caractère tab. Défini par l'utilisateur Le reste de la ligne Défini par l'utilisateur Détails InputSplit La classe InputSplit décrit une unité de travail qui correspond à une tâche Map dans un programme. Par défaut le InputFormat divise un fichier en splits de 64 Mo (ce qui correspond à la taille d'un chunk en HDFS). En divisant le fichier en splits, plusieurs tâches Map peuvent travailler en parallèle sur le même fichier. Si le fichier est très large, cela améliore la performance considérablement. Chaque tâche Map correspond à un seul split. 32

17 Détails RecordReader Le InputSplit définit un morceau de données à traiter mais ne spécifie pas comment y accéder. La classe RecordReader lit les données depuis leur source et les convertit en paires clé-valeur qui sont prêtes à être consommées par un Mapper. Le RecordReader est appelé à plusieurs reprises jusqu'à ce que le split entier soit consommé. Chaque invocation du RecordReader conduit à un autre appel de la fonction Map définie par le développeur. 33 Détails Mapper et Reducer Le Mapper exécute le traitement défini par l'utilisateur dans la première phase du programme. Une nouvelle instance du Mapper est créée pour chaque split. Le Reducer exécute le traitement défini par l'utilisateur dans la seconde phase du programme. Une nouvelle instance du Reducer est créée pour chaque partition. Pour chaque clé dans la partition, le Reducer est appelé une fois. 34

18 Détails Partitioner Après l'exécution des Mapper on a des résultats intermédiaires stockés sur chaque noeud du cluster, en format clé-valeur. Le framework doit maintenant préparer la prochaine phase de traitement par les Reducers. Les données doivent être transportées entre les noeuds, car les valeurs avec la même clé sont garanties d'être traitées par le même Reducer. Potentiellement on a un grand nombre de clés dans les données. On veut exécuter plusieurs Reducers en parallèle sur le cluster. Le développeur configure en avance le nombre d'instances de Reducers disponibles sur le cluster. Le framework divise l'espace des clés en partitions et attribue à chaque partition une instance Reducer. Chaque Mapper peut émettre des paires clé-valeur à n'importe quelle partition. Donc les noeuds doivent se mettre d'accord vers où envoyer les différentes pièces des données intermédiaires. La classe Partitioner détermine vers quelle partition une paire clé-valeur ira. Le Partitioner par défaut calcule une valeur de hash de la clé pour déterminer la partition. 35 Détails Tri Chaque Reducer est responsable de réduire un ensemble de paires clé-valeurs L'ensemble de paires clé-valeurs sur un noeud est automatiquement trié avant qu'il soit présenté au Reducer. Les valeurs par contre ne sont pas triées. 36

19 Détails OutputFormat La classe OutputFormat définit comment les paires clé-valeur produites par les Reducers sont écrites sur les fichiers de sortie. Il y a des OutputFormat fournis avec Hadoop qui écrivent des fichiers dans HDFS ou sur le disque local. Chaque Reducer écrit dans son propre fichier, mais dans un répertoire commun. Les OutputFormats prédéfinis fournis avec Hadoop : OutputFormat Description TextOutputFormat SequenceFileOutputFormat Format par défaut. Écrit une paire clé-valeur par ligne, les deux parties séparées par un caractère tab. Écrit des fichiers binaires qui peuvent être lus par des programmes subséquents. NullOutputFormat Ne produit pas de fichier de sortie. 37 Détails Optimisation de la phase Reduce avec le Combiner Pour certains traitements le développeur peut optimiser la phase Reduce avec le Combiner. Le Combiner est une sorte de Reducer supplémentaire écrit par le développeur. 38 Source: Yahoo! Hadoop Tutorial

20 Détails Optimisation de la phase Reduce avec le Combiner S'il est présent, le framework insère le Combiner dans la pipeline de traitement sur les noeuds qui viennent de terminer la phase Map. Le Combiner est exécuté après la phase Map, mais avant que les données intermédiaires sont envoyées vers d'autres noeuds. Le Combiner reçoit les données produites par la phase Map sur un noeud. Il reçoit seulement les données locales, pas celles des autres noeuds. Il produit des paires clé-valeur qui seront envoyées vers les Reducers. Le Combiner peut être utilisé dans les cas où on peut déjà commencer le Reduce sans avoir toutes les données. P. ex. le calcul de température maximale s'y prête très bien. Le Combiner calcule la température maximale pour les données disponibles sur le noeud local. Au lieu d'envoyer les paires (1949, 111) et (1949, 78) vers les Reducers on envoie seulement la paire (1949, 111). 39

Notes de cours Practical BigData

Notes de cours Practical BigData Notes de cours Practical BigData Nguyen-Nhut DOAN 15 janvier 2015 Introduction Ces notes personnelles traduisent la deuxième partie du cours INF553 de l Ecole Polytechnique sur les bases de données et

Plus en détail

4.5 Practice : MaxTemperature avec plusieurs langages de programmation

4.5 Practice : MaxTemperature avec plusieurs langages de programmation 4.5 Practice : MaxTemperature avec plusieurs langages de programmation 4.5.1 Java A partir de la section précédente, on peut réécrire le programme Java pour résoudre MaxTempérature comme ci-dessus. import

Plus en détail

7 Développement d une application de MapReduce

7 Développement d une application de MapReduce 7 Développement d une application de MapReduce Ecrire un programme d Hadoop demande un processus : écrire une fonction map, une fonction reduce et tester localement. Ecrire ensuite un programme pour lancer

Plus en détail

Introduc)on à Map- Reduce. Vincent Leroy

Introduc)on à Map- Reduce. Vincent Leroy Introduc)on à Map- Reduce Vincent Leroy Sources Apache Hadoop Yahoo! Developer Network Hortonworks Cloudera Prac)cal Problem Solving with Hadoop and Pig Les cours seront mis en ligne sur hhp://lig- membres.imag.fr/leroyv/

Plus en détail

MapReduce et Hadoop. Alexandre Denis Alexandre.Denis@inria.fr. Inria Bordeaux Sud-Ouest France ENSEIRB PG306

MapReduce et Hadoop. Alexandre Denis Alexandre.Denis@inria.fr. Inria Bordeaux Sud-Ouest France ENSEIRB PG306 MapReduce et Hadoop Alexandre Denis Alexandre.Denis@inria.fr Inria Bordeaux Sud-Ouest France ENSEIRB PG306 Fouille de données Recherche & indexation de gros volumes Appliquer une opération simple à beaucoup

Plus en détail

Certificat Big Data - Master MAthématiques

Certificat Big Data - Master MAthématiques 1 / 1 Certificat Big Data - Master MAthématiques Master 2 Auteur : Sylvain Lamprier UPMC Fouille de données et Medias Sociaux 2 / 1 Rich and big data: Millions d utilisateurs Millions de contenus Multimedia

Plus en détail

Introduc)on à Map- Reduce. Vincent Leroy

Introduc)on à Map- Reduce. Vincent Leroy Introduc)on à Map- Reduce Vincent Leroy Sources Apache Hadoop Yahoo! Developer Network Hortonworks Cloudera Prac)cal Problem Solving with Hadoop and Pig Les cours seront mis en ligne sur hhp://membres.liglab.fr/leroy/

Plus en détail

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture API04 Contribution Apache Hadoop: Présentation et application dans le domaine des Data Warehouses Introduction Cette publication a pour but de présenter le framework Java libre Apache Hadoop, permettant

Plus en détail

Introduction à MapReduce/Hadoop et Spark

Introduction à MapReduce/Hadoop et Spark 1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -

Plus en détail

Introduction à Hadoop & MapReduce

Introduction à Hadoop & MapReduce Introduction à Hadoop & MapReduce Cours 2 Benjamin Renaut MOOC / FUN 2014-2015 5 Hadoop: présentation Apache Hadoop 5-1 Projet Open Source fondation Apache. http://hadoop.apache.org/

Plus en détail

Map-Reduce : un cadre de programmation parallèlle pour l analyse de grandes données. Stéphane Genaud ENSIIE

Map-Reduce : un cadre de programmation parallèlle pour l analyse de grandes données. Stéphane Genaud ENSIIE Map-Reduce : un cadre de programmation parallèlle pour l analyse de grandes données Stéphane Genaud ENSIIE Traitement de données distribuées Google a introduit Map-Reduce [Dean and Ghemawat 2004] Ils s

Plus en détail

aprevotleygonie.wordpress.com >

aprevotleygonie.wordpress.com > Comment marche le big data??? A part être un sujet marketing faisant couler des flots d encre digitale, le big data, ce sont des concepts, des techniques. Le jour est venu pour appréhender en profondeur

Plus en détail

Programmation parallèle et distribuée (Master 1 Info 2015-2016)

Programmation parallèle et distribuée (Master 1 Info 2015-2016) Programmation parallèle et distribuée (Master 1 Info 2015-2016) Hadoop MapReduce et HDFS Note bibliographique : ce cours est largement inspiré par le cours de Benjamin Renaut (Tokidev SAS) Introduction

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution

Plus en détail

Hadoop / Big Data. Benjamin Renaut MBDS 2013-2014

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS 2013-2014 Hadoop / Big Data Benjamin Renaut MBDS 2013-2014 1 Introduction Programme Planning Objectifs TP/Évaluations Introduction 1-1 Benjamin Renaut Tokidev SAS - Bureau d'étude -

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2014) Marc Parizeau, Département de génie électrique et de génie informatique Plan Mégadonnées («big data») Architecture Hadoop distribution

Plus en détail

Hadoop / Big Data 2014-2015 MBDS. Benjamin Renaut

Hadoop / Big Data 2014-2015 MBDS. Benjamin Renaut <renaut.benjamin@tokidev.fr> Hadoop / Big Data Benjamin Renaut MBDS 2014-2015 1 Introduction Programme Planning Objectifs TP/Évaluations Introduction 1-1 Benjamin Renaut Tokidev SAS - Bureau d'étude -

Plus en détail

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

Hadoop : une plate-forme d exécution de programmes Map-Reduce

Hadoop : une plate-forme d exécution de programmes Map-Reduce Hadoop : une plate-forme d exécution de programmes Map-Reduce Jonathan Lejeune UPMC 8 octobre 2013 PSIA 2013 Inspiré du cours des années précédentes de Luciana Arantes J. Lejeune (UPMC) Hadoop Map-Reduce

Plus en détail

Big Data Concepts et mise en oeuvre de Hadoop

Big Data Concepts et mise en oeuvre de Hadoop Introduction 1. Objectif du chapitre 9 2. Le Big Data 10 2.1 Introduction 10 2.2 Informatique connectée, objets "intelligents" et données collectées 11 2.3 Les unités de mesure dans le monde Big Data 12

Plus en détail

Hadoop : une plate-forme d exécution de programmes Map-Reduce

Hadoop : une plate-forme d exécution de programmes Map-Reduce Hadoop : une plate-forme d exécution de programmes Map-Reduce Jonathan Lejeune École des Mines de Nantes Janvier 2015 CODEL 2014/2015 J. Lejeune (École des Mines de Nantes) Hadoop Map-Reduce Janvier 2015

Plus en détail

Hadoop : une plate-forme d exécution de programmes Map-Reduce

Hadoop : une plate-forme d exécution de programmes Map-Reduce Hadoop : une plate-forme d exécution de programmes Map-Reduce Jonathan Lejeune École des Mines de Nantes Janvier 2015 CODEL 2014/2015 J. Lejeune (École des Mines de Nantes) Hadoop Map-Reduce Janvier 2015

Plus en détail

Cartographie des solutions BigData

Cartographie des solutions BigData Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?

Plus en détail

MapReduce. Nicolas Dugué nicolas.dugue@univ-orleans.fr. M2 MIAGE Systèmes d information répartis

MapReduce. Nicolas Dugué nicolas.dugue@univ-orleans.fr. M2 MIAGE Systèmes d information répartis MapReduce Nicolas Dugué nicolas.dugue@univ-orleans.fr M2 MIAGE Systèmes d information répartis Plan 1 Introduction Big Data 2 MapReduce et ses implémentations 3 MapReduce pour fouiller des tweets 4 MapReduce

Plus en détail

Labs Hadoop Février 2013

Labs Hadoop Février 2013 SOA - BRMS - ESB - BPM CEP BAM - High Performance Compute & Data Grid - Cloud Computing - Big Data NoSQL - Analytics Labs Hadoop Février 2013 Mathias Kluba Managing Consultant Responsable offres NoSQL

Plus en détail

http://blog.khaledtannir.net

http://blog.khaledtannir.net Algorithme de parallélisations des traitements Khaled TANNIR Doctorant CIFRE LARIS/ESTI http://blog.khaledtannir.net these@khaledtannir.net 2e SéRI 2010-2011 Jeudi 17 mars 2011 Présentation Doctorant CIFRE

Plus en détail

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1 Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués

Plus en détail

MongoDB. Objectif Découvrir l'aggrégation des requêtes, l'indexation, la réplication et l'autosharding sur MongoDB

MongoDB. Objectif Découvrir l'aggrégation des requêtes, l'indexation, la réplication et l'autosharding sur MongoDB ESIPE IR3 - IG3 Cloud Computing #3 MongoDB Objectif Découvrir l'aggrégation des requêtes, l'indexation, la réplication et l'autosharding sur MongoDB Révisions Téléchargez depuis le site le fichier ex.tgz.

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Cloud et scalabilité Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire

Plus en détail

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata! R+Hadoop = Rhadoop* * Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata! 27 Janvier 2014 / Université Paul Sabatier / DTSI / David Tsang-Hin-Sun Big

Plus en détail

For Fun and Profit Datasio 2012

For Fun and Profit Datasio 2012 For Fun and Profit Datasio 2012 130 Nouveaux acteurs Big Data depuis 2009 1 2 3 Agenda Hadoop, poids lourd du Big Data Stats Web avec Hive chez Scoop.it Profession: Data Scientist Agenda 1 Hadoop, poids

Plus en détail

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop Passez au niveau supérieur en termes de connaissance grâce à la formation Data Analyst de Cloudera. Public Durée Objectifs Analystes de données, business analysts, développeurs et administrateurs qui ont

Plus en détail

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant Organiser vos données - Big Data Patrick Millart Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be

Plus en détail

KARMA Le système de Revenue Management d'air France KLM avec Hadoop

KARMA Le système de Revenue Management d'air France KLM avec Hadoop KARMA Le système de Revenue Management d'air France KLM avec Hadoop Conférence BIG DATA - Master MBDS Université de Nice Sophia Antipolis 16 Décembre 2014 Martial AYAS maayas@airfrance.fr 2 Agenda 1. Présentation

Plus en détail

ACTIVITÉ DE PROGRAMMATION

ACTIVITÉ DE PROGRAMMATION ACTIVITÉ DE PROGRAMMATION The purpose of the Implementation Process is to realize a specified system element. ISO/IEC 12207 Sébastien Adam Une introduction 2 Introduction Ø Contenu Utilité de l ordinateur,

Plus en détail

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Fouillez facilement dans votre système Big Data. Olivier TAVARD Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche

Plus en détail

BIG DATA en Sciences et Industries de l Environnement

BIG DATA en Sciences et Industries de l Environnement BIG DATA en Sciences et Industries de l Environnement François Royer www.datasio.com 21 mars 2012 FR Big Data Congress, Paris 2012 1/23 Transport terrestre Traçabilité Océanographie Transport aérien Télémétrie

Plus en détail

IFT630 Processus concurrents et parallélisme. Projet final Rapport. Présenté à Gabriel Girard

IFT630 Processus concurrents et parallélisme. Projet final Rapport. Présenté à Gabriel Girard IFT630 Processus concurrents et parallélisme Projet final Rapport Présenté à Gabriel Girard par Alexandre Tremblay (06 805 200) Pierre-François Laquerre (05 729 544) 15 avril 2008 Introduction Après plusieurs

Plus en détail

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013 Les enjeux du Big Data Innovation et opportunités de l'internet industriel François Royer froyer@datasio.com Accompagnement des entreprises dans leurs stratégies quantitatives Valorisation de patrimoine

Plus en détail

Université de Bourgogne - UFR Sciences et Technique - Programmation objet et Internet - LPSIL

Université de Bourgogne - UFR Sciences et Technique - Programmation objet et Internet - LPSIL Nom : Prénom : Contrôle continu Programmation objet Vous devez répondre dans les cadres aux questions posées. Documents de cours et notes personnelles autorisés. Téléphones portables, ordinateurs et calculatrices

Plus en détail

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2 Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 Plan de présentation 1. L écosystème Hadoop 2. Principe de programmation MapReduce 3. Programmation des fonctions

Plus en détail

INTRODUCTION A JAVA. Fichier en langage machine Exécutable

INTRODUCTION A JAVA. Fichier en langage machine Exécutable INTRODUCTION A JAVA JAVA est un langage orienté-objet pur. Il ressemble beaucoup à C++ au niveau de la syntaxe. En revanche, ces deux langages sont très différents dans leur structure (organisation du

Plus en détail

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Julien Gerlier Siman Chen Rapport de projet de fin d étude ASR 2010/2011 Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Encadrants

Plus en détail

Structure d un programme et Compilation Notions de classe et d objet Syntaxe

Structure d un programme et Compilation Notions de classe et d objet Syntaxe Cours1 Structure d un programme et Compilation Notions de classe et d objet Syntaxe POO 1 Programmation Orientée Objet Un ensemble d objet qui communiquent Pourquoi POO Conception abstraction sur les types

Plus en détail

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr Déploiement d une architecture Hadoop pour analyse de flux françois-xavier.andreu@renater.fr 1 plan Introduction Hadoop Présentation Architecture d un cluster HDFS & MapReduce L architecture déployée Les

Plus en détail

Le cloud computing au service des applications cartographiques à haute disponibilité

Le cloud computing au service des applications cartographiques à haute disponibilité Le cloud computing au service des applications cartographiques à haute disponibilité Claude Philipona Les Rencontres de SIG-la-Lettre, Mai 2010 camptocamp SA / www.camptocamp.com / info@camptocamp.com

Plus en détail

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL

AVRIL 2014. Au delà de Hadoop. Panorama des solutions NoSQL AVRIL 2014 Panorama des solutions NoSQL QUI SOMMES NOUS? Avril 2014 2 SMILE, EN QUELQUES CHIFFRES 1er INTÉGRATEUR EUROPÉEN DE SOLUTIONS OPEN SOURCE 3 4 NOS EXPERTISES ET NOS CONVICTIONS DANS NOS LIVRES

Plus en détail

Anticiper et prédire les sinistres avec une approche Big Data

Anticiper et prédire les sinistres avec une approche Big Data Anticiper et prédire les sinistres avec une approche Big Data Julien Cabot Directeur Big Data Analytics OCTO jcabot@octo.com @julien_cabot OCTO 2013 50, avenue des Champs-Elysées 75008 Paris - FRANCE Tél

Plus en détail

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase Big Data : utilisation d un cluster cluster Cécile Cavet cecile.cavet at apc.univ-paris7.fr Centre François Arago (FACe), Laboratoire APC, Université Paris Diderot LabEx UnivEarthS 14 Janvier 2014 C. Cavet

Plus en détail

Apache STORM. Version 1.0. avec des fichiers

Apache STORM. Version 1.0. avec des fichiers Apache STORM avec des fichiers Version 1.0 Rédacteur : Philippe Lacomme (placomme@isima.fr) Date : 3 septembre 2015 Liste des modifications Date : 9/09/2015 Auteur : Philippe Lacomme Modifications : ajout

Plus en détail

Flux de données Lecture/Ecriture Fichiers

Flux de données Lecture/Ecriture Fichiers Flux de données Lecture/Ecriture Fichiers 1 Un flux de données est un objet qui représente une suite d octets d un programme pour une certaine destination ou issus d une source pour un programme flux d

Plus en détail

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives Hadoop, Spark & Big Data 2.0 Exploiter une grappe de calcul pour des problème des données massives Qui suis-je? Félix-Antoine Fortin Génie info. (B. Ing, M. Sc, ~PhD) Passionné de Python, Data Analytics,

Plus en détail

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant Acquisition des données - Big Data Dario VEGA Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated

Plus en détail

Licence d'informatique 2004-2005 Examen Programmation orientée objet Juin 2005

Licence d'informatique 2004-2005 Examen Programmation orientée objet Juin 2005 Licence d'informatique 2004-2005 Examen Programmation orientée objet Juin 2005 Durée de l'épreuve : 2 heures TRÈS IMPORTANT : respectez l'ordre des questions. La lisibilité sera un critère important pour

Plus en détail

4 Exemples de problèmes MapReduce incrémentaux

4 Exemples de problèmes MapReduce incrémentaux 4 Exemples de problèmes MapReduce incrémentaux 1 / 32 Calcul des plus courtes distances à un noeud d un graphe Calcul des plus courts chemins entre toutes les paires de noeuds d un graphe Algorithme PageRank

Plus en détail

Sauvegarde collaborative en pair-à-pair

Sauvegarde collaborative en pair-à-pair Sauvegarde collaborative en pair-à-pair Fabrice Le Fessant Fabrice.Le_Fessant@inria.fr ASAP Team INRIA Saclay Île de France Octobre 2008 Fabrice Le Fessant () Backup en pair-à-pair Rennes 2008 1 / 21 Plan

Plus en détail

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan 1 Sommaire 1. Google en chiffres 2. Les raisons d être de GFS 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan 4. Les Evolutions et Alternatives

Plus en détail

sécurité et protection des objets externes Sécurité et protection des objets externes

sécurité et protection des objets externes Sécurité et protection des objets externes 1 Sécurité et protection des objets externes Service attendu 2 Service attendu sur la conservation des données Retrouver les données dans l'état Permettre d'avoir un rôle de "propriétaire" Altération due

Plus en détail

Cloud Computing Concepts de base Année académique 2014/15

Cloud Computing Concepts de base Année académique 2014/15 Concepts de base Année académique 2014/15 Qu'est que le? online 2 Qu'est que le? Cela s'est-il produit auparavant? Innovation Produit Service 3 Qu'est que le? Considérons-le comme-ça... Crée ta propre

Plus en détail

CNAM 2010-2011. Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

CNAM 2010-2011. Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010 CNAM 2010-2011 Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010 Déploiement d une application dans le cloud. 1. Cloud Computing en 2010 2. Offre EC2

Plus en détail

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur) 1/30 2/30 Anne-Cécile Caron Master MIAGE - SGBD 1er trimestre 2014-2015 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche

Plus en détail

Ligne de commande Linux avancée et scriptage bash (Linux 201)

Ligne de commande Linux avancée et scriptage bash (Linux 201) Ligne de commande Linux avancée et scriptage bash (Linux 201) laurent.duchesne@calculquebec.ca maxime.boissonneault@calculquebec.ca Université Laval - Septembre 2014 1 2 Se connecter à Colosse ssh colosse.calculquebec.ca

Plus en détail

Cours 8 Not Only SQL

Cours 8 Not Only SQL Cours 8 Not Only SQL Cours 8 - NoSQL Qu'est-ce que le NoSQL? Cours 8 - NoSQL Qu'est-ce que le NoSQL? Catégorie de SGBD s'affranchissant du modèle relationnel des SGBDR. Mouvance apparue par le biais des

Plus en détail

Our experience in using Apache Giraph for computing the diameter of large graphs. Paul Bertot - Flavian Jacquot

Our experience in using Apache Giraph for computing the diameter of large graphs. Paul Bertot - Flavian Jacquot Our experience in using Apache Giraph for computing the diameter of large graphs Paul Bertot - Flavian Jacquot Plan 1. 2. 3. 4. 5. 6. Contexte Hadoop Giraph L étude Partitionnement ifub 2 1. Contexte -

Plus en détail

Page 1 sur 5 TP3. Thèmes du TP : l la classe Object. l Vector l tutorial Interfaces. l Stack

Page 1 sur 5 TP3. Thèmes du TP : l la classe Object. l Vector<T> l tutorial Interfaces. l Stack<T> Page 1 sur 5 TP3 Lectures préalables : l Java_II l tutorial Interfaces Thèmes du TP : l la classe Object l Vector l Stack Une pile d'objects Les éléments de la classe Pile sont maintenant des instances

Plus en détail

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015 Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS Salon du Big Data 11 mars 2015 Accélération de l innovation +500 +280 Amazon EC2 Container Service +159 AWS Storage Gateway Amazon Elastic Transcoder

Plus en détail

Pour signifier qu'une classe fille hérite d'une classe mère, on utilise le mot clé extends class fille extends mère

Pour signifier qu'une classe fille hérite d'une classe mère, on utilise le mot clé extends class fille extends mère L'héritage et le polymorphisme en Java Pour signifier qu'une classe fille hérite d'une classe mère, on utilise le mot clé extends class fille extends mère En java, toutes les classes sont dérivée de la

Plus en détail

Plan du cours. Historique du langage http://www.oracle.com/technetwork/java/index.html. Nouveautés de Java 7

Plan du cours. Historique du langage http://www.oracle.com/technetwork/java/index.html. Nouveautés de Java 7 Université Lumière Lyon 2 Faculté de Sciences Economiques et Gestion KHARKIV National University of Economic Introduction au Langage Java Master Informatique 1 ère année Julien Velcin http://mediamining.univ-lyon2.fr/velcin

Plus en détail

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014 Introduction aux algorithmes MapReduce Mathieu Dumoulin (GRAAL), 14 Février 2014 Plan Introduction de la problématique Tutoriel MapReduce Design d algorithmes MapReduce Tri, somme et calcul de moyenne

Plus en détail

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur) 1/23 2/23 Anne-Cécile Caron Master MIAGE - BDA 1er trimestre 2013-2014 I : Not Only SQL, ce n est pas du relationnel, et le contexte d utilisation n est donc pas celui des SGBDR. I Origine : recherche

Plus en détail

Le BigData, aussi par et pour les PMEs

Le BigData, aussi par et pour les PMEs Parole d expert Le BigData, aussi par et pour les PMEs Stéphane MOUTON, CETIC Département Software and Services Technologies Avec le soutien de : LIEGE CREATIVE Le Big Data, aussi par et pour les PMEs

Plus en détail

Cloud Computing Infrastructure as a Service Année académique 2014/15

Cloud Computing Infrastructure as a Service Année académique 2014/15 Cloud Computing Infrastructure as a Service Année académique 2014/15 Virtualisation Introduction Virtualisation en informatique : une composante semble être présente, mais ne l'est pas physiquement Mémoire

Plus en détail

Introduction aux bases de données NoSQL

Introduction aux bases de données NoSQL Introduction aux bases de données NoSQL Khaled Tannir ets@khaledtannir.net Montréal - 23 Juillet 2015 Qui suis-je? Khaled TANNIR Big Data Architect Lead 20 ans d expérience ets@khaledtannir.net @khaled_tannir

Plus en détail

Le langage PHP. Walid Belkhir Université de Provence belkhir@cmi.univ-mrs.fr http://www.lif.univ-mrs.fr/ belkhir/

Le langage PHP. Walid Belkhir Université de Provence belkhir@cmi.univ-mrs.fr http://www.lif.univ-mrs.fr/ belkhir/ Le langage PHP Walid Belkhir Université de Provence belkhir@cmi.univ-mrs.fr http://www.lif.univ-mrs.fr/ belkhir/ 1 / 38 Plan 1 Introduction au langage PHP 2 2 / 38 Qu est ce que PHP? langage interprété

Plus en détail

Partitionner un disque dur avec Windows 8.1

Partitionner un disque dur avec Windows 8.1 Partitionner un disque dur avec Windows 8.1 Par Clément JOATHON Dernière mise à jour : 10/09/2014 Le découpage d un disque dur en plusieurs éléments (ou partition) est pratique pour organiser vos dossiers

Plus en détail

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data Historique de Big data Jusqu à l avènement d Internet et surtout du Web 2.0 il n y avait pas tant de données

Plus en détail

Hadoop / Big Data. Benjamin Renaut MBDS 2014-2015

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS 2014-2015 Hadoop / Big Data Benjamin Renaut MBDS 2014-2015 TP 1 Méthodologie Map/Reduce - programmation Hadoop. 1 Installer VirtualBox (https://www.virtualbox.org/). Importer la machine

Plus en détail

Réplication de tâches dans le framework MapReduce. Jonathan Lejeune et Madeleine Piffaretti

Réplication de tâches dans le framework MapReduce. Jonathan Lejeune et Madeleine Piffaretti Réplication de tâches dans le framework MapReduce Jonathan Lejeune et Madeleine Piffaretti Le 17 mai 2010 Table des matières 1 Cahier des charges 4 1.1 Le framework MapReduce de Hadoop.................

Plus en détail

RMI le langage Java XII-1 JMF

RMI le langage Java XII-1 JMF Remote Method Invocation (RMI) XII-1 Introduction RMI est un ensemble de classes permettant de manipuler des objets sur des machines distantes (objets distants) de manière similaire aux objets sur la machine

Plus en détail

Les journées SQL Server 2013

Les journées SQL Server 2013 Les journées SQL Server 2013 Un événement organisé par GUSS Les journées SQL Server 2013 Romain Casteres MVP SQL Server Consultant BI @PulsWeb Yazid Moussaoui Consultant Senior BI MCSA 2008/2012 Etienne

Plus en détail

Remote Method Invocation Les classes implémentant Serializable

Remote Method Invocation Les classes implémentant Serializable Parallélisme Architecture Eric Goubault Commissariat à l Energie Atomique Saclay Classe qui implémente la méthode distante (serveur): - dont les méthodes renvoient un objet serializable - ou plus généralement

Plus en détail

Package java.net. Interfaces Interface ContentHandlerFactory Interface SocketImplFactory Interface URLStreamHandlerFactory

Package java.net. Interfaces Interface ContentHandlerFactory Interface SocketImplFactory Interface URLStreamHandlerFactory Package java.net Classes class ContentHandler class DatagramPacket class DatagramSocket class InetAddress final class ServerSocket final class Socket class SocketImpl final class URL abstract class URLConnection

Plus en détail

Les bases de données relationnelles

Les bases de données relationnelles Bases de données NO SQL et SIG : d un existant restreint à un avenir prometteur CHRISTIAN CAROLIN, AXES CONSEIL CAROLIN@AXES.FR - HTTP://WWW.AXES.FR Les bases de données relationnelles constituent désormais

Plus en détail

Langage et Concepts de Programmation Objet. 1 Attributs et Méthodes d instance ou de classe. Travaux Dirigés no2

Langage et Concepts de Programmation Objet. 1 Attributs et Méthodes d instance ou de classe. Travaux Dirigés no2 Langage et Concepts de Programmation Objet Travaux Dirigés no2 Pôle Informatique École Nationale Supérieure des Mines de St-Etienne Vous trouverez plus de détails sur les concepts abordés lors de ce TD

Plus en détail

et Groupe Eyrolles, 2006, ISBN : 2-212-11747-7

et Groupe Eyrolles, 2006, ISBN : 2-212-11747-7 Tsoft et Groupe Eyrolles, 2006, ISBN : 2-212-11747-7 OEM Console Java OEM Console HTTP OEM Database Control Oracle Net Manager 6 Module 6 : Oracle Enterprise Manager Objectifs Contenu A la fin de ce module,

Plus en détail

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013. 20 ans du SIAD -Big Data par l'exemple -Julien DULOUT 20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars 2013 20 ans du SIAD -"BigData par l'exemple" -Julien DULOUT Qui a déjà entendu parler du phénomène BigData? Qui a déjà

Plus en détail

Cassandra et Spark pour gérer la musique On-line

Cassandra et Spark pour gérer la musique On-line Cassandra et Spark pour gérer la musique On-line 16 Juin 2015 @ Paris Hammed RAMDANI Architecte SI 3.0 et BigData mramdani@palo-it.com +33 6 80 22 20 70 Appelez-moi Hammed ;-) (Sidi Mo)Hammed Ramdani @smramdani

Plus en détail

Travaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation

Travaux pratiques. Compression en codage de Huffman. 1.3. Organisation d un projet de programmation Université de Savoie Module ETRS711 Travaux pratiques Compression en codage de Huffman 1. Organisation du projet 1.1. Objectifs Le but de ce projet est d'écrire un programme permettant de compresser des

Plus en détail

TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile

TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile TP n 2 Concepts de la programmation Objets Master 1 mention IL, semestre 2 Le type Abstrait Pile Dans ce TP, vous apprendrez à définir le type abstrait Pile, à le programmer en Java à l aide d une interface

Plus en détail

Les entrées/sorties Java (sérialisation, accès aux chiers et connexion réseau)

Les entrées/sorties Java (sérialisation, accès aux chiers et connexion réseau) Année 2008-2009 Les entrées/sorties Java (sérialisation, accès aux chiers et connexion réseau) Nicolas Baudru mél : nicolas.baudru@esil.univmed.fr page web : nicolas.baudru.perso.esil.univmed.fr 1 Introduction

Plus en détail

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ Laboratoire LaTICE Univ. de Tunis INRIA LYON Avalon Team Laboratoire d Informatique de Paris Nord (LIPN) BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ Heithem Abbes Heithem Abbes Rencontres

Plus en détail

Projet de programmation (IK3) : TP n 1 Correction

Projet de programmation (IK3) : TP n 1 Correction Projet de programmation (IK3) : TP n 1 Correction Semaine du 20 septembre 2010 1 Entrées/sorties, types de bases et structures de contrôle Tests et types de bases Tests et types de bases (entiers) public

Plus en détail

Partitionner un disque dur avec Windows 8.1

Partitionner un disque dur avec Windows 8.1 Partitionner un disque dur avec Windows 8.1 Le découpage d un disque dur en plusieurs éléments (ou partition) est pratique pour organiser vos dossiers et fichiers et les protéger contre d éventuelles pertes

Plus en détail

Un peu d histoire. Qu est-ce que MongoDB?

Un peu d histoire. Qu est-ce que MongoDB? Un peu d histoire Initialement développé par 10gen en 2007 10gen rebaptisé en 2013 MongoDB, Inc. Son nom vient de "humongous" (c est énorme!!) Mis en open source en 2009 Dernière version stable (3.0.2)

Plus en détail

ETL Extract - Transform - Load

ETL Extract - Transform - Load ETL Extract - Transform - Load Présentation générale de Datastage Rémy Choquet - Université Lyon 2 - Master 2 IIDEE - 2006-2007 Plan Introduction Définition de datastage Composants DataStage Terminologie

Plus en détail

HADOOP ET SON ÉCOSYSTÈME

HADOOP ET SON ÉCOSYSTÈME HADOOP ET SON ÉCOSYSTÈME Mars 2013 2012 Affini-Tech - Diffusion restreinte 1 AFFINI-TECH Méthodes projets Outils de reporting & Data-visualisation Business & Analyses BigData Modélisation Hadoop Technos

Plus en détail

Composants logiciel: Feel++, formats de fichier et visualisation

Composants logiciel: Feel++, formats de fichier et visualisation Composants logiciel: Feel++, formats de fichier et visualisation Alexandre Ancel Cemosis / Université de Strasbourg 13 Janvier 2015 1 / 20 Plan 1 Environnement logiciel & matériel 2 Formats de fichier

Plus en détail