Plan. Pourquoi Hadoop? Présentation et Architecture. Démo. Usages

Save this PDF as:
 WORD  PNG  TXT  JPG

Dimension: px
Commencer à balayer dès la page:

Download "Plan. Pourquoi Hadoop? Présentation et Architecture. Démo. Usages"

Transcription

1 1 Mehdi LOUIZI

2 Plan Pourquoi Hadoop? Présentation et Architecture Démo Usages 2

3 Pourquoi Hadoop? Limites du Big Data Les entreprises n analysent que 12% des données qu elles possèdent (Enquête Forrester 2014) Ces données sont cloisonnées à L homme ivre qui cherche ses clés la nuit 3

4 Pourquoi Hadoop? Hadoop peut aider à éclairer les données de l'entreprise en les gérant sur l'ensemble des clusters du matériel standard. Regrouper toutes les données et les rendre visibles afin de pouvoir les analyser 4

5 Pourquoi Hadoop? Une solution performante à moindre coût Un stockage sans limite Analyse des données performantes Sécurité optimale des données 5

6 Pourquoi Hadoop? Avant : Mode Batch La plus petite des opérations prenait plusieurs minutes Aujourd hui les plateformes Hadoop s ouvrent désormais aux requêtes interactives et instantanées (Yarn, Drill, Spark, Impala, Presto..) Capture et analyse au fil de l eau des données transitant dans le flux (Storm, Kenesis..) 6

7 Présentation Hadoop est un framework open source écrit en Java. Il permet le traitement distribué d ensembles de données très larges via des clusters d ordinateurs en utilisant des modèles de programmation très simples. Hadoop est conçu pour monter en puissance allant d un seul serveur jusqu à des milliers de machines chacune offrant un calcul et un stockage local. 7

8 Architecture Le framework Hadoop inclut les 4 modules suivants Hadoop Common : Librairies et utilitaires Java constituant le système de fichier et les fichiers nécessaires pour démarrer Hadoop Hadoop YARN: Framework pour l ordonnancement des tâches et le management des ressources cluster. Hadoop Distributed File System (HDFS ) : Un système de fichier distribué qui fournit un accès à haut débit aux applications Java. Hadoop Map Reduce : Un système basé sur YARN pour le traitement en parallèle d ensemble de données très larges 8

9 Architecture 9

10 Architecture Depuis 2012, le terme «Hadoop» ne fait plus référence uniquement aux 4 modules cités, mais aussi à l ensemble de packages logiciels additionnels qui peuvent être installés avec ou au dessus de Hadoop : Apache PIG Apache HIVE Apache Hbase Apache Spark 10

11 Architecture - MapReduce Hadoop MapReduce est un cadre logiciel pour les applications qui traitent de grandes quantités de données en parallèle sur de grands ensembles de clusters (en milliers de nœuds) d'une manière fiable avec une très grande tolérance aux pannes. 11

12 Architecture - MapReduce Le terme MapReduce fait référence aux 2 différentes tâches que les programmes Hadoop réalisent : The Map Task : c est la première tâche qui prend les données en entrée et les convertit en des ensembles de données où les éléments sont individuellement séparés en tuples (paires clé / valeur). The Reduce Task : cette tâche prend la sortie de la Map Task comme entrée et combine les tuples de données dans des ensembles de données plus réduits. 12

13 Architecture - MapReduce Les sorties et les entrées sont stockées dans un système de fichiers. Le framework prend soin de l ordonnancement des tâches, leur monitoring et la réexécution des tâches n ayant pas abouti. Le Framework MapReduce consiste en un seul maître «JobTracker» et un esclave TaskTracker par nœud cluster. 13

14 Architecture - MapReduce 14

15 Architecture - HDFS Le système de fichiers le plus communément utilisé par Hadoop est HDFS. HDFS est basé sur le Google File System (GFS) et consiste en système de fichiers distribué qui est conçu pour fonctionner sur de très larges clusters. HDFS utilise une architecture maître / esclave qui consiste en un seul NameNode qui gère les métadonnées du système de fichiers et un ou plusieurs DataNodes qui stockent les données actuelles. 15

16 Architecture - HDFS Un fichier dans un espace de noms HDFS est divisé en plusieurs blocs et ces blocs sont stockés dans un ensemble de DataNodes. Le NameNode définit la cartographie des blocs aux DataNodes. Les DataNodes prennent soin de l'opération de lecture et d'écriture sur le système de fichiers. Ils s occupent aussi de la création de blocs, la suppression et la réplication basée sur l'instruction donnée par le NameNode. 16

17 Architecture Comment fonctionne Hadoop Etape 1 Un utilisateur / Une application peut soumettre une tâche (job) à Hadoop en spécifiant les éléments suivants : L emplacement des fichiers en entrée et en sortie Les classes Java (fichiers.jar) contenant l implémentation des fonctions de Map Reduce. La configuration de la tâche avec les paramètres spécifiques 17

18 Architecture Comment fonctionne Hadoop Etape 2 Le Hadoop Job Client soumet la tâche (jar / exécutable) et la configuration au Job Tracker qui s occupe de la distribution aux esclaves, de l ordonnancement et du monitoring. Etape 3 Les TaskTrackers sur les différents nœuds exécutent les tâches 18

19 Demo Calcul de la valeur de PI en utilisant la méthode Monte Carlo 19

20 Demo Hue + Impala 20

21 Usages Yahoo! Yahoo a massivement investi dans le projet Hadoop. La société utilise Hadoop pour sa page d'accueil (publicités ciblées, contenus adaptés, le «top recherche» des utilisateurs ) depuis Yahoo possède à ce jour le plus grand nombre de machines Hadoop avec plus de nœuds. À titre d'exemple, Yahoo a monté un serveur Hadoop de 2000 nœuds afin de trier vingt téraoctets de données. La tâche a pris 2 heures et 30 minutes. 21

22 Usages ebay 22

23 DISCUSSION 23

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2015) Marc Parizeau, Département de génie électrique et de génie informatique Plan Données massives («big data») Architecture Hadoop distribution

Plus en détail

Big Data Concepts et mise en oeuvre de Hadoop

Big Data Concepts et mise en oeuvre de Hadoop Introduction 1. Objectif du chapitre 9 2. Le Big Data 10 2.1 Introduction 10 2.2 Informatique connectée, objets "intelligents" et données collectées 11 2.3 Les unités de mesure dans le monde Big Data 12

Plus en détail

Programmation parallèle et distribuée

Programmation parallèle et distribuée Programmation parallèle et distribuée (GIF-4104/7104) 5a - (hiver 2014) Marc Parizeau, Département de génie électrique et de génie informatique Plan Mégadonnées («big data») Architecture Hadoop distribution

Plus en détail

Programmation parallèle et distribuée (Master 1 Info 2015-2016)

Programmation parallèle et distribuée (Master 1 Info 2015-2016) Programmation parallèle et distribuée (Master 1 Info 2015-2016) Hadoop MapReduce et HDFS Note bibliographique : ce cours est largement inspiré par le cours de Benjamin Renaut (Tokidev SAS) Introduction

Plus en détail

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Fouillez facilement dans votre système Big Data. Olivier TAVARD Fouillez facilement dans votre système Big Data Olivier TAVARD A propos de moi : Cofondateur de la société France Labs Développeur (principalement Java) Formateur en technologies de moteurs de recherche

Plus en détail

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture API04 Contribution Apache Hadoop: Présentation et application dans le domaine des Data Warehouses Introduction Cette publication a pour but de présenter le framework Java libre Apache Hadoop, permettant

Plus en détail

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr Déploiement d une architecture Hadoop pour analyse de flux françois-xavier.andreu@renater.fr 1 plan Introduction Hadoop Présentation Architecture d un cluster HDFS & MapReduce L architecture déployée Les

Plus en détail

HADOOP ET SON ÉCOSYSTÈME

HADOOP ET SON ÉCOSYSTÈME HADOOP ET SON ÉCOSYSTÈME Mars 2013 2012 Affini-Tech - Diffusion restreinte 1 AFFINI-TECH Méthodes projets Outils de reporting & Data-visualisation Business & Analyses BigData Modélisation Hadoop Technos

Plus en détail

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13

L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com. Tuesday, July 2, 13 L écosystème Hadoop Nicolas Thiébaud ni.thiebaud@gmail.com HUG France 250 membres sur la mailing liste 30 présentations 9 meetups organisés, de 20 à 100 invités Présence de Cloudera, MapR, Hortonworks,

Plus en détail

FORMATION HADOOP Administrateur pour Hadoop (Apache)

FORMATION HADOOP Administrateur pour Hadoop (Apache) FORMATION HADOOP Administrateur pour Hadoop (Apache) Ce document reste la propriété du Groupe Cyrès. Toute copie, diffusion, exploitation même partielle doit faire l objet d une demande écrite auprès de

Plus en détail

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2

Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html. R.R. Université Lyon 2 Ricco Rakotomalala http://eric.univ-lyon2.fr/~ricco/cours/cours_programmation_r.html 1 Plan de présentation 1. L écosystème Hadoop 2. Principe de programmation MapReduce 3. Programmation des fonctions

Plus en détail

TME 1 - Hadoop, une plate-forme open-source de MapReduce. Installation et prise en main

TME 1 - Hadoop, une plate-forme open-source de MapReduce. Installation et prise en main CODEL : conception et développement d applications d entreprise à large échelle TME 1 - Hadoop, une plate-forme open-source de MapReduce. Installation et prise en main Jonathan Lejeune Contexte Le modèle

Plus en détail

TME 1 - Hadoop, une plate-forme open-source de MapReduce. Installation et prise en main

TME 1 - Hadoop, une plate-forme open-source de MapReduce. Installation et prise en main PSIA :Plates-formes pour les systèmes informatiques avancés TME 1 - Hadoop, une plate-forme open-source de MapReduce. Installation et prise en main Jonathan Lejeune, Julien Sopena Contexte Le modèle MapReduce

Plus en détail

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin 2011. Talend 2010 1 Big Data Cyril Amsellem Consultant avant-vente 16 juin 2011 Talend 2010 1 Big Data Architecture globale Hadoop Les projets Hadoop (partie 1) Hadoop-Core : projet principal. HDFS : système de fichiers distribués

Plus en détail

SQL-ON-HADOOP. Veille Technologique et Stratégique 2015 Guo Kai Élève de RICM 5 Kai.Guo@e.ujf-Grenoble.fr

SQL-ON-HADOOP. Veille Technologique et Stratégique 2015 Guo Kai Élève de RICM 5 Kai.Guo@e.ujf-Grenoble.fr SQL-ON-HADOOP Veille Technologique et Stratégique 2015 Guo Kai Élève de RICM 5 Kai.Guo@e.ujf-Grenoble.fr Données structurées (RDBMS) Exiger de strictement être organisé Annexer à RDBMS sans couture Consultable

Plus en détail

KARMA Le système de Revenue Management d'air France KLM avec Hadoop

KARMA Le système de Revenue Management d'air France KLM avec Hadoop KARMA Le système de Revenue Management d'air France KLM avec Hadoop Conférence BIG DATA - Master MBDS Université de Nice Sophia Antipolis 16 Décembre 2014 Martial AYAS maayas@airfrance.fr 2 Agenda 1. Présentation

Plus en détail

FORMATION HADOOP Développeur pour Hadoop (Apache)

FORMATION HADOOP Développeur pour Hadoop (Apache) FORMATION HADOOP Développeur pour Hadoop (Apache) Ce document reste la propriété du Groupe Cyrès. Toute copie, diffusion, exploitation même partielle doit faire l objet d une demande écrite auprès de Cyrès.

Plus en détail

Labs Hadoop Février 2013

Labs Hadoop Février 2013 SOA - BRMS - ESB - BPM CEP BAM - High Performance Compute & Data Grid - Cloud Computing - Big Data NoSQL - Analytics Labs Hadoop Février 2013 Mathias Kluba Managing Consultant Responsable offres NoSQL

Plus en détail

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data

avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data avec nos solutions spécialisées pour la microfinance et ses institutions coopératives Big Data Historique de Big data Jusqu à l avènement d Internet et surtout du Web 2.0 il n y avait pas tant de données

Plus en détail

Cours 10136A: Configuration, gestion et maintenance des serveurs Windows Server 2008

Cours 10136A: Configuration, gestion et maintenance des serveurs Windows Server 2008 Cours 10136A: Configuration, gestion et maintenance des serveurs Windows Server 2008 Ce cours dirigé d une durée de 30 heures reprend le contenu des formations Windows Server 2008 à destination des spécialistes

Plus en détail

Retour d expérience BigData 16/10/2013 Cyril Morcrette CTO

Retour d expérience BigData 16/10/2013 Cyril Morcrette CTO Retour d expérience BigData 16/10/2013 Cyril Morcrette CTO Mappy en Chiffre Filiale du groupe Solocal 10M de visiteurs uniques 300M visites annuelles 100 collaborateurs dont 60% technique 3,7 Md de dalles

Plus en détail

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan 1 Sommaire 1. Google en chiffres 2. Les raisons d être de GFS 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan 4. Les Evolutions et Alternatives

Plus en détail

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop

Formation Cloudera Data Analyst Utiliser Pig, Hive et Impala avec Hadoop Passez au niveau supérieur en termes de connaissance grâce à la formation Data Analyst de Cloudera. Public Durée Objectifs Analystes de données, business analysts, développeurs et administrateurs qui ont

Plus en détail

Big Data, Hadoop, MapReduce,...

Big Data, Hadoop, MapReduce,... Big Data, Hadoop, MapReduce,... J. Bigot - A. Richou 21 septembre 2017 1 Big Data 2 Hadoop 3 TP R Table des matières 1 Big Data 2 Hadoop 3 TP R Qu est-ce que le Big Data? «Le big data, littéralement «grosses

Plus en détail

ORDONNANCER ET PROGRAMMER DES JOBS AVEC SAS

ORDONNANCER ET PROGRAMMER DES JOBS AVEC SAS ORDONNANCER ET PROGRAMMER DES JOBS AVEC SAS Depuis SAS Management Console, l administrateur de la plate-forme Open Metadata Architetcure (OMA) peut créer des flux et les ordonnancer : SAS se charge de

Plus en détail

Introduction à MapReduce/Hadoop et Spark

Introduction à MapReduce/Hadoop et Spark 1 / 36 Introduction à MapReduce/Hadoop et Spark Certificat Big Data Ludovic Denoyer et Sylvain Lamprier UPMC Plan 2 / 36 Contexte 3 / 36 Contexte 4 / 36 Data driven science: le 4e paradigme (Jim Gray -

Plus en détail

Tables Rondes Le «Big Data»

Tables Rondes Le «Big Data» Tables Rondes Le «Big Data» 2012-2013 1 Plan Introduc9on 1 - Présenta9on Ingensi 2 - Le Big Data c est quoi? 3 - L histoire 4 - Le monde du libre : Hadoop 5 - Le système HDFS 6 - Les algorithmes distribués

Plus en détail

Bases de données documentaires et distribuées Cours NFE04

Bases de données documentaires et distribuées Cours NFE04 Bases de données documentaires et distribuées Cours NFE04 Cloud et scalabilité Auteurs : Raphaël Fournier-S niehotta, Philippe Rigaux, Nicolas Travers prénom.nom@cnam.fr Département d informatique Conservatoire

Plus en détail

MapReduce et Hadoop. Alexandre Denis Alexandre.Denis@inria.fr. Inria Bordeaux Sud-Ouest France ENSEIRB PG306

MapReduce et Hadoop. Alexandre Denis Alexandre.Denis@inria.fr. Inria Bordeaux Sud-Ouest France ENSEIRB PG306 MapReduce et Hadoop Alexandre Denis Alexandre.Denis@inria.fr Inria Bordeaux Sud-Ouest France ENSEIRB PG306 Fouille de données Recherche & indexation de gros volumes Appliquer une opération simple à beaucoup

Plus en détail

Clusters for Application Service Providers. T. Monteil, J.M. Garcia P. Pascal, S. Richard

Clusters for Application Service Providers. T. Monteil, J.M. Garcia P. Pascal, S. Richard Clusters for Application Service Providers (www.laas.fr/casp) T. Monteil, J.M. Garcia P. Pascal, S. Richard 1 Généralités Le monde du calcul dans un environnement ASP Les ASP : Application Service Provider

Plus en détail

Panorama des solutions analytiques existantes

Panorama des solutions analytiques existantes Arnaud LAROCHE Julien DAMON Panorama des solutions analytiques existantes SFdS Méthodes et Logiciels - 16 janvier 2014 - Données Massives Ne sont ici considérés que les solutions autour de l environnement

Plus en détail

Hadoop, les clés du succès

Hadoop, les clés du succès Hadoop, les clés du succès Didier Kirszenberg, Responsable des architectures Massive Data, HP France Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject

Plus en détail

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul Big Data Les problématiques liées au stockage des données et aux capacités de calcul Les problématiques liées au Big Data La capacité de stockage - Traitement : Ponctuel ou permanent? - Cycle de vie des

Plus en détail

Cartographie des solutions BigData

Cartographie des solutions BigData Cartographie des solutions BigData Panorama du marché et prospective 1 1 Solutions BigData Défi(s) pour les fournisseurs Quel marché Architectures Acteurs commerciaux Solutions alternatives 2 2 Quels Défis?

Plus en détail

MapReduce et Hadoop. Alexandre Denis Alexandre.Denis@inria.fr. Inria Bordeaux Sud-Ouest France ENSEIRB PG306

MapReduce et Hadoop. Alexandre Denis Alexandre.Denis@inria.fr. Inria Bordeaux Sud-Ouest France ENSEIRB PG306 MapReduce et Hadoop Alexandre Denis Alexandre.Denis@inria.fr Inria Bordeaux Sud-Ouest France ENSEIRB PG306 Fouille de données Recherche & indexation de gros volumes Appliquer une opération simple à beaucoup

Plus en détail

Présentation SERVEUR EN CLUSTER. Clinkast 4 Avenue du Général de Gaulle F 92360 Meudon (+33) 6 20 44 86 95 (+33) 1 46 30 24 13

Présentation SERVEUR EN CLUSTER. Clinkast 4 Avenue du Général de Gaulle F 92360 Meudon (+33) 6 20 44 86 95 (+33) 1 46 30 24 13 Présentation SERVEUR D APPLICATIONS EN CLUSTER Description Un cluster est un ensemble d instances de serveurs d applications combinant haute disponibilité et forte évolutivité. Contrairement à un système

Plus en détail

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Soutenance de projet ASR 27/01/2011 Julien Gerlier Siman Chen Encadrés par Bruno

Plus en détail

Implémentation et Benchmark. d une régression linéaire en RMR2

Implémentation et Benchmark. d une régression linéaire en RMR2 Add intelligence to data Anne Gayet Directrice Datamining Implémentation et Benchmark d une régression linéaire en RMR2 16 janvier 2014 Rendez-vous SFdS: : Méthodes et logiciels Données massives (big data)

Plus en détail

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Julien Gerlier Siman Chen Rapport de projet de fin d étude ASR 2010/2011 Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Encadrants

Plus en détail

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012 Livre blanc Solution Hadoop d entreprise d EMC Stockage NAS scale-out Isilon et Greenplum HD Par Julie Lockner et Terri McClure, Analystes seniors Février 2012 Ce livre blanc d ESG, qui a été commandé

Plus en détail

IFT630 Processus concurrents et parallélisme. Projet final Rapport. Présenté à Gabriel Girard

IFT630 Processus concurrents et parallélisme. Projet final Rapport. Présenté à Gabriel Girard IFT630 Processus concurrents et parallélisme Projet final Rapport Présenté à Gabriel Girard par Alexandre Tremblay (06 805 200) Pierre-François Laquerre (05 729 544) 15 avril 2008 Introduction Après plusieurs

Plus en détail

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 MapReduce Malo Jaffré, Pablo Rauzy ENS 16 avril 2010 Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril 2010 1 / 15 Qu est ce que c est? Conceptuellement Données MapReduce est un framework de calcul distribué

Plus en détail

PRESENTATION ET INSTALLATION DE SAS ITRM 3.2

PRESENTATION ET INSTALLATION DE SAS ITRM 3.2 PRESENTATION ET INSTALLATION DE SAS ITRM 3.2 A partir de SAS 9, la solution SAS IT Resource Management a changé de présentation afin d être intégrée dans les solutions Business Analytics. Cet article présente

Plus en détail

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant Acquisition des données - Big Data Dario VEGA Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be incorporated

Plus en détail

Pascal BASSET, - PMU Responsable Risques Numériques, Expériences Utilisateurs et DSI international

Pascal BASSET, - PMU Responsable Risques Numériques, Expériences Utilisateurs et DSI international Pascal BASSET, - PMU Responsable Risques Numériques, Expériences Utilisateurs et DSI international CRiP Thématique Sécurité de l informatique de demain 03/12/14 Agenda Introduction big data et lien avec

Plus en détail

Administration et sécurité des réseaux M&K ELHDHILI

Administration et sécurité des réseaux M&K ELHDHILI Administration et sécurité des réseaux 1 Plan du cours Chapitre 1: Introduction à l administration des réseaux Domaines d activités Organisation logique (criètères, types de décisions ) Architectures et

Plus en détail

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS 2014-2015

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS 2014-2015 Hadoop / Big Data Benjamin Renaut MBDS 2014-2015 TP 1 Méthodologie Map/Reduce - programmation Hadoop. 1 Installer VirtualBox (https://www.virtualbox.org/). Importer la machine

Plus en détail

LA GESTION DES SOLUTIONS TECHNIQUES D ACCÈS

LA GESTION DES SOLUTIONS TECHNIQUES D ACCÈS LA GESTION DES SOLUTIONS TECHNIQUES D ACCÈS Pour les sources voir le cours LA PROBLEMATIQUE Parc informatique hétérogène compliquant la gestion des postes ; Mise à jour longue des applications ; Existence

Plus en détail

Ingénierie de la fouille et de la visualisation de données massives (RCP216)

Ingénierie de la fouille et de la visualisation de données massives (RCP216) . Ingénierie de la fouille et de la visualisation de données massives (RCP216). Introduction du cours Michel Crucianu, Raphaël Fournier-S niehotta, Pierre Cubaud (prenom.nom@cnam.fr, fournier@cnam.fr)

Plus en détail

Formation Symantec Veritas Cluster Server 6.x pour Unix

Formation Symantec Veritas Cluster Server 6.x pour Unix La Pédagogie au service de la Technologie TECHNOLOGIE Formation Symantec Veritas Cluster Server 6.x pour Unix Objectif >> A la fin de ce cours, les stagiaires seront à même d effectuer les tâches suivantes

Plus en détail

DATA ANALYST UTILISER PIG, HIVE ET IMPALA AVEC HADOOP DE CLOUDERA

DATA ANALYST UTILISER PIG, HIVE ET IMPALA AVEC HADOOP DE CLOUDERA SI 2.0 DATA ANALYST UTILISER PIG, HIVE ET IMPALA AVEC HADOOP DE CLOUDERA REF : SICL001 DUREE : 4 JOURS TARIF : 2 695 HT Public Analystes de données, business analysts, développeurs et administrateurs.

Plus en détail

DOSSIER D'ACTIVITES SUR LE PHP N 03 Créer une base de données MySQL avec PHPMyAdmin

DOSSIER D'ACTIVITES SUR LE PHP N 03 Créer une base de données MySQL avec PHPMyAdmin DOSSIER D'ACTIVITES SUR LE PHP N 03 Créer une base de données MySQL avec PHPMyAdmin Objectifs : Apprendre à l apprenant à lancer un serveur local «Apache» Apprendre à l'apprenant à lancer un serveur MySQL

Plus en détail

Big Data EC2 S3. Stockage. Amazon Web Services. Réf. Intitulé des formations Page

Big Data EC2 S3. Stockage. Amazon Web Services. Réf. Intitulé des formations Page IAM Big Data EBS Big Data Cloud EC2 S3 Cloud Stockage Stockage Amazon Web Services Réf. Intitulé des formations Page GK4501 Notions de base Amazon Web Services 3 GK4502 Architecture sur Amazon Web Services

Plus en détail

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant Organiser vos données - Big Data Patrick Millart Senior Sales Consultant The following is intended to outline our general product direction. It is intended for information purposes only, and may not be

Plus en détail

BIG DATA en Sciences et Industries de l Environnement

BIG DATA en Sciences et Industries de l Environnement BIG DATA en Sciences et Industries de l Environnement François Royer www.datasio.com 21 mars 2012 FR Big Data Congress, Paris 2012 1/23 Transport terrestre Traçabilité Océanographie Transport aérien Télémétrie

Plus en détail

Vos experts Big Data. contact@hurence.com. Mener un projet Big Data

Vos experts Big Data. contact@hurence.com. Mener un projet Big Data Vos experts Big Data contact@hurence.com Mener un projet Big Data Expert Expert Infrastructure Data Science Spark MLLib Big Data depuis 2011 Expert Expert Hadoop / Spark NoSQL HBase Couchbase MongoDB Expert

Plus en détail

Architecture Constellio

Architecture Constellio Architecture Constellio Date : 12 novembre 2013 Version 3.0 Contact : Nicolas Bélisle nicolas.belisle@doculibre.com 5146555185 1 Table des matières Table des matières... 2 Présentation générale... 4 Couche

Plus en détail

Méthode de Test. Pour WIKIROUTE. Rapport concernant les méthodes de tests à mettre en place pour assurer la fiabilité de notre projet annuel.

Méthode de Test. Pour WIKIROUTE. Rapport concernant les méthodes de tests à mettre en place pour assurer la fiabilité de notre projet annuel. Méthode de Test Pour WIKIROUTE Rapport concernant les méthodes de tests à mettre en place pour assurer la fiabilité de notre projet annuel. [Tapez le nom de l'auteur] 10/06/2009 Sommaire I. Introduction...

Plus en détail

Les journées SQL Server 2013

Les journées SQL Server 2013 Les journées SQL Server 2013 Un événement organisé par GUSS Les journées SQL Server 2013 Romain Casteres MVP SQL Server Consultant BI @PulsWeb Yazid Moussaoui Consultant Senior BI MCSA 2008/2012 Etienne

Plus en détail

Le langage PHP permet donc de construire des sites web dynamiques, contrairement au langage HTML, qui donnera toujours la même page web.

Le langage PHP permet donc de construire des sites web dynamiques, contrairement au langage HTML, qui donnera toujours la même page web. Document 1 : client et serveur Les ordinateurs sur lesquels sont stockés les sites web sont appelés des serveurs. Ce sont des machines qui sont dédiées à cet effet : elles sont souvent sans écran et sans

Plus en détail

Les formations. Développeur Logiciel. ENI Ecole Informatique

Les formations. Développeur Logiciel. ENI Ecole Informatique page 1/5 Titre professionnel : Reconnu par l Etat de niveau III (Bac), inscrit au RNCP (arrêté du 12/10/07, J.O. n 246 du 23/10/07) (32 semaines) Unité 1 : Structurer une application 6 semaines Module

Plus en détail

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr

VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr VirtualScale L expert infrastructure de l environnement Open source HADOOP Sofiane Ammar sofiane.ammar@virtualscale.fr Avril 2014 Virtualscale 1 Sommaire Les enjeux du Big Data et d Hadoop Quels enjeux

Plus en détail

Introduc)on à Map- Reduce. Vincent Leroy

Introduc)on à Map- Reduce. Vincent Leroy Introduc)on à Map- Reduce Vincent Leroy Sources Apache Hadoop Yahoo! Developer Network Hortonworks Cloudera Prac)cal Problem Solving with Hadoop and Pig Les cours seront mis en ligne sur hhp://lig- membres.imag.fr/leroyv/

Plus en détail

Présentation du Pilotage Financier Coriolis

Présentation du Pilotage Financier Coriolis Présentation du Pilotage Financier Coriolis Un nouveau module vient compléter l offre Coriolis L'ensemble des documents produits par les outils actuels (BP, BS, CA, éditions, rapports, ) ne permet pas

Plus en détail

OpenText Content Server v10 Cours 3-0126 (ex 215)

OpenText Content Server v10 Cours 3-0126 (ex 215) v10 Cours 3-0126 (ex 215) Administration système et indexation-recherche Durée : 5 jours Ce cours de 5 jours apprendra aux administrateurs, aux architectes système et aux services support comment installer,

Plus en détail

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data. Big Data De la stratégie à la mise en oeuvre Description : La formation a pour objet de brosser sans concession le tableau du Big Data. Les participants repartiront de cette formation en ayant une vision

Plus en détail

Certificat Big Data - Master MAthématiques

Certificat Big Data - Master MAthématiques 1 / 1 Certificat Big Data - Master MAthématiques Master 2 Auteur : Sylvain Lamprier UPMC Fouille de données et Medias Sociaux 2 / 1 Rich and big data: Millions d utilisateurs Millions de contenus Multimedia

Plus en détail

Fonctionnalités de développement

Fonctionnalités de développement 163 Chapitre 5 Fonctionnalités de développement 1. Optimisation des applications ASP.NET Fonctionnalités de développement 1.1 Présentation de ASP.NET ASP.NET est un ensemble de technologies créé par Microsoft

Plus en détail

L INFORMATION GEOGRAPHIQUE

L INFORMATION GEOGRAPHIQUE Champs sur Marne ENSG/CERSIG Le 19-nove.-02 L INFORMATION GEOGRAPHIQUE Archivage Le Système d information géographique rassemble de l information afin de permettre son utilisation dans des applications

Plus en détail

Flux de communication. Invenio <-> Curator

Flux de communication. Invenio <-> Curator Projet de diplôme Infoscience Synthèse Invenio Curator Sylvain Egger 02 octobre 2007 entre Invenio et Curator 1 INDEX 1 Introduction... 3 2 Différents Flux... 4 2.1 Vue générale... 4 2.2 Spécificités

Plus en détail

Introduc)on à Map- Reduce. Vincent Leroy

Introduc)on à Map- Reduce. Vincent Leroy Introduc)on à Map- Reduce Vincent Leroy Sources Apache Hadoop Yahoo! Developer Network Hortonworks Cloudera Prac)cal Problem Solving with Hadoop and Pig Les cours seront mis en ligne sur hhp://membres.liglab.fr/leroy/

Plus en détail

Fiche Produit. Serveur de sauvegarde dédié Kiwi Pro

Fiche Produit. Serveur de sauvegarde dédié Kiwi Pro Révision d avril 2012 Fiche Produit Serveur de sauvegarde dédié Kiwi Pro La solution Kiwi Pro a été spécialement conçue pour répondre aux besoins les plus exigeants en terme de fiabilité et de performance,

Plus en détail

Annuaire : Active Directory

Annuaire : Active Directory Annuaire : Active Directory Un annuaire est une structure hiérarchique qui stocke des informations sur les objets du réseau. Un service d'annuaire, tel qu'active Directory, fournit des méthodes de stockage

Plus en détail

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS

BI dans les nuages. Olivier Bendavid, UM2 Prof. A. April, ÉTS BI dans les nuages Olivier Bendavid, UM2 Prof. A. April, ÉTS Table des matières Introduction Description du problème Les solutions Le projet Conclusions Questions? Introduction Quelles sont les défis actuels

Plus en détail

1. Présentation générale

1. Présentation générale BTS SIO PPE2 SISR OCS Inventory NG Page 1 1. Présentation générale 1.1. Principales fonctionnalités 1.1.1. Inventaire et gestion de parc Open Computers and Software Inventory Next Generation est un logiciel

Plus en détail

Le client/serveur repose sur une communication d égal à égal entre les applications.

Le client/serveur repose sur une communication d égal à égal entre les applications. Table des matières LES PRINCIPES DE BASE... 1 Présentation distribuée-revamping...2 Présentation distante...3 Traitements distribués...3 données distantes-rd...4 données distribuées-rda distribué...4 L'ARCHITECTURE

Plus en détail

Cluster de calcul, machine Beowulf, ferme de PC Principes, problématique et échanges d expérience

Cluster de calcul, machine Beowulf, ferme de PC Principes, problématique et échanges d expérience Cluster de calcul, machine Beowulf, ferme de PC Principes, problématique et échanges d expérience 29 mars 2002 Olivier BOEBION - Laboratoire de Mathématiques et de Physique Théorique - Tours 1 Principes

Plus en détail

Sujet du stage Mise en place et paramétrage d un moteur spécialisé pour la recherche de CV à travers le web

Sujet du stage Mise en place et paramétrage d un moteur spécialisé pour la recherche de CV à travers le web Sujet du stage Mise en place et paramétrage d un moteur spécialisé pour la recherche de CV à travers le web Responsable du stage : Nabil Belcaid Le Guyader Chef de projet : Ali Belcaid Déroulement du stage

Plus en détail

Semarchy Convergence for Data Integration La Plate-Forme d Intégration pour le MDM Évolutionnaire

Semarchy Convergence for Data Integration La Plate-Forme d Intégration pour le MDM Évolutionnaire FICHE PRODUIT Semarchy Convergence for Data Integration La Plate-Forme d Intégration pour le MDM Évolutionnaire BENEFICES Des projets réussis dans les délais et les budgets La bonne donnée disponible au

Plus en détail

IBM Software Demos Tivoli Provisioning Manager for OS Deployment

IBM Software Demos Tivoli Provisioning Manager for OS Deployment De nombreuses entreprises vont être amenées très bientôt à passer à Microsoft Windows Vista. Mais, même les mieux préparées appréhendent la migration vers un nouvel OS. propose une solution aisée,

Plus en détail

Hyper-V et SC Virtual Machine Manager sous Windows Server 2008 R2

Hyper-V et SC Virtual Machine Manager sous Windows Server 2008 R2 186 Hyper-V et SC Virtual Machine Manager sous Windows Server 2008 R2 L'utilisation des fonctionnalités de haute disponibilité intégrées aux applications, L'ajout de solutions tierces. 1.1 Windows Server

Plus en détail

Document réalisé par Khadidjatou BAMBA

Document réalisé par Khadidjatou BAMBA Comprendre le BIG DATA Document réalisé par Khadidjatou BAMBA 1 Sommaire Avant propos. 3 Historique du Big Data.4 Introduction.....5 Chapitre I : Présentation du Big Data... 6 I. Généralités sur le Big

Plus en détail

Le BigData, aussi par et pour les PMEs

Le BigData, aussi par et pour les PMEs Parole d expert Le BigData, aussi par et pour les PMEs Stéphane MOUTON, CETIC Département Software and Services Technologies Avec le soutien de : LIEGE CREATIVE Le Big Data, aussi par et pour les PMEs

Plus en détail

Retour d expérience utilisateur : comment rendre compatible les problématiques de visualisation distante dans un environnement très sécurisé

Retour d expérience utilisateur : comment rendre compatible les problématiques de visualisation distante dans un environnement très sécurisé Retour d expérience utilisateur : comment rendre compatible les problématiques de visualisation distante dans un environnement très sécurisé Forum TeraTec 2012 Didier NASSIET et Fabien VIVODTZEV 28 JUIN

Plus en détail

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS 2014-2015

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS 2014-2015 Hadoop / Big Data Benjamin Renaut MBDS 2014-2015 TP 1 - Correction Méthodologie Map/Reduce - programmation Hadoop. Rappel 1 La première partie du TP consistait à mettre en

Plus en détail

Windows Server 2008. Chapitre 3 : Le service d annuaire Active Directory: Concepts de base

Windows Server 2008. Chapitre 3 : Le service d annuaire Active Directory: Concepts de base Windows Server 2008 Chapitre 3 : Le service d annuaire Active Directory: Concepts de base omar.cheikhrouhou@isetsf.rnu.tn omar.cheikhrouhou@ceslab.org Objectives Comprendre les concepts de base d Active

Plus en détail

Performance de la réplication de données Avril 2008. IBM InfoSphere Change Data Capture : Réplication de données hautement performante

Performance de la réplication de données Avril 2008. IBM InfoSphere Change Data Capture : Réplication de données hautement performante Avril 2008 IBM Change Data Capture : Réplication de données hautement performante Page 2 Le saviez-vous? Plus de 500 clients utilisent IBM Change Data Capture pour résoudre de multiples problématiques

Plus en détail

objectif : plan : Java, CORBA et RMI A. Le Grand,1997 1 JAVA, CORBA et RMI

objectif : plan : Java, CORBA et RMI A. Le Grand,1997 1 JAVA, CORBA et RMI JAVA, CORBA et RMI objectif : développer des applications client/serveur incluant des objets répartis Java / CORBA : client/serveur hétérogènes Java / RMI : client/serveur homogènes plan : l architecture

Plus en détail

Maîtriser les technologies Big Data pour obtenir des résultats en quasi-temps réel

Maîtriser les technologies Big Data pour obtenir des résultats en quasi-temps réel LIVRE BLANC Processeurs Intel Xeon Unités de stockage SSD Intel Cartes réseau convergé Ethernet Intel Distribution Intel pour logiciel * Maîtriser les technologies Big Data pour obtenir des résultats en

Plus en détail

Oracle WebLogic 12c Mise en oeuvre, administration et exploitation du serveur d'applications JEE

Oracle WebLogic 12c Mise en oeuvre, administration et exploitation du serveur d'applications JEE Avant-propos 1. À qui ce livre s'adresse-t-il? 19 2. Prérequis 20 3. Objectifs 20 4. Organisation du livre 21 5. Pour aller plus loin 22 N-tiers, JEE et Oracle WebLogic Server 1. Introduction 23 1.1 Modèle

Plus en détail

IFT3912 Développement, Maintenance de Logiciels Démo7 - Etude de Cas: Points de Fonction Professeur: Yann-Gaël Guéhéneuc

IFT3912 Développement, Maintenance de Logiciels Démo7 - Etude de Cas: Points de Fonction Professeur: Yann-Gaël Guéhéneuc Université de Montréal Département d'informatique et de recherche opérationnelle IFT39 Automne 007 Novembre 007 IFT39 Développement, Maintenance de Logiciels Démo7 - Etude de Cas: Points de Fonction Professeur:

Plus en détail

SR04 ETUDE : Les réseaux dans le big data

SR04 ETUDE : Les réseaux dans le big data UNIVERSITÉ DE TECHNOLOGIE DE COMPIÈGNE SR04 ETUDE : Les réseaux dans le big data Jaafar EL ALAMY, Nabil BOUABDALLAH, Frédéric CUNI, Meddy DECOUTURE 17 décembre 2015 Jaafar EL ALAMY, Nabil BOUABDALLAH,

Plus en détail

Introduction au Massive Data

Introduction au Massive Data Introduction au Massive Data Didier Kirszenberg, Responsable des architectures Massive Data, HP France Copyright 2015 Hewlett-Packard Development Company, L.P. The information contained herein is subject

Plus en détail

Transition vers Compressor 4.1. Livre blanc Décembre 2013

Transition vers Compressor 4.1. Livre blanc Décembre 2013 Transition vers Compressor 4.1 Livre blanc Décembre 2013 2 Contenus 3 Introduction 4 Nouvelle interface Affichage actuel Vue Actif Vue Terminé 6 Processus d encodage de base 8 Destinations 11 Transcodage

Plus en détail

Fiche Produit. Plateforme de sauvegarde en marque blanche Kiwi Business

Fiche Produit. Plateforme de sauvegarde en marque blanche Kiwi Business Révision d avril 2012 Fiche Produit Plateforme de sauvegarde en marque blanche Kiwi Business La solution Kiwi Business a été spécialement conçue pour répondre aux besoins les plus exigeants en termes de

Plus en détail

Alfresco et TYPO3 Présenté par Yannick Pavard dans le cadre des rencontres WebEducation Février 2008

Alfresco et TYPO3 Présenté par Yannick Pavard dans le cadre des rencontres WebEducation Février 2008 Alfresco et TYPO3 Présenté par Yannick Pavard dans le cadre des rencontres WebEducation Février 2008 Objectifs À la fin de cette présentation, vous serez en mesure : de citer des ministères ayant fait

Plus en détail

Configuration de SQL server 2005 pour la réplication

Configuration de SQL server 2005 pour la réplication Sommaire Configuration de SQL server 2005 pour la réplication 1. Présentation du besoin... 2 2. Architecture des deux sites... 2 3. Présentation du modèle de publication de réplication... 3 4. Configuration

Plus en détail

Réplication de données de classe entreprise pour environnements distribués et reprise sur sinistre

Réplication de données de classe entreprise pour environnements distribués et reprise sur sinistre Réplication de données de classe entreprise pour environnements distribués et reprise sur sinistre La tendance actuelle vers une conception distribuée de l entreprise, avec des agences, des centres de

Plus en détail