Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

Documents pareils

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

MapReduce. Nicolas Dugué M2 MIAGE Systèmes d information répartis

Introduction à MapReduce/Hadoop et Spark

Programmation parallèle et distribuée

Programmation parallèle et distribuée

Cartographie des solutions BigData

Ricco Rakotomalala R.R. Université Lyon 2

Fouillez facilement dans votre système Big Data. Olivier TAVARD

Big Data Concepts et mise en oeuvre de Hadoop

Bases de données documentaires et distribuées Cours NFE04

HADOOP ET SON ÉCOSYSTÈME

NoSQL. Introduction 1/30. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

Certificat Big Data - Master MAthématiques

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Groupe de Discussion Big Data Aperçu des technologies et applications. Stéphane MOUTON

Labs Hadoop Février 2013

Map-Reduce : un cadre de programmation parallèlle pour l analyse de grandes données. Stéphane Genaud ENSIIE

BIG DATA en Sciences et Industries de l Environnement

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Acquisition des données - Big Data. Dario VEGA Senior Sales Consultant

De à 4 millions. Khanh Tuong

Les technologies du Big Data

Panorama des solutions analytiques existantes

Programmation parallèle et distribuée (Master 1 Info )

Technologies du Web. Ludovic DENOYER - ludovic.denoyer@lip6.fr. Février 2014 UPMC

Le NoSQL - Cassandra

Les quatre piliers d une solution de gestion des Big Data

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

AVRIL Au delà de Hadoop. Panorama des solutions NoSQL

Business Intelligence, Etat de l art et perspectives. ICAM JP Gouigoux 10/2012

Titre : La BI vue par l intégrateur Orange

MapReduce et Hadoop. Alexandre Denis Inria Bordeaux Sud-Ouest France ENSEIRB PG306

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

4 Exemples de problèmes MapReduce incrémentaux

20 ans du Master SIAD de Toulouse - BigData par l exemple - Julien DULOUT - 22 mars ans du SIAD -"Big Data par l'exemple" -Julien DULOUT

Introduction aux algorithmes MapReduce. Mathieu Dumoulin (GRAAL), 14 Février 2014

BIG Data et R: opportunités et perspectives

Les bases de données relationnelles

Notes de cours Practical BigData

Quels choix de base de données pour vos projets Big Data?

OpenPaaS Le réseau social d'entreprise

Document réalisé par Khadidjatou BAMBA

Anticiper et prédire les sinistres avec une approche Big Data

Catalogue des stages Ercom 2013

Network Efficiency Monitoring - version 2

Tables Rondes Le «Big Data»

NoSQL - Systèmes de gestion de données distribués

BIG DATA. Veille technologique. Malek Hamouda Nina Lachia Léo Valette. Commanditaire : Thomas Milon. Encadré: Philippe Vismara

Hadoop / Big Data. Benjamin Renaut <renaut.benjamin@tokidev.fr> MBDS

11/01/2014. Le Big Data Mining enjeux et approches techniques. Plan. Introduction. Introduction. Quelques exemples d applications

Professeur superviseur ALAIN APRIL

Le BigData, aussi par et pour les PMEs

R+Hadoop = Rhadoop* Des logiciels libres complémentaires, une implémentation, une réponse au nouveau paradigme du bigdata!

Importation et exportation de données dans HDFS

Hadoop : une plate-forme d exécution de programmes Map-Reduce

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Hadoop, les clés du succès

Bases de Données NoSQL

M2 GL UE DOC «In memory analytics»

Professeur-superviseur Alain April

Hadoop : une plate-forme d exécution de programmes Map-Reduce

Benjamin Cornu Florian Joyeux. Les choses à connaître pour (essayer) de concurrencer Facebook.

Offre formation Big Data Analytics

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

NoSQL. Etat de l art et benchmark

Cours 8 Not Only SQL

Introduction Big Data

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

Hibernate vs. le Cloud Computing

Introduc)on à Map- Reduce. Vincent Leroy

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Le nouveau visage de la Dataviz dans MicroStrategy 10

Introduction au Massive Data

Présentation Windows Azure Hadoop Big Data - BI

Big data et données géospatiales : Enjeux et défis pour la géomatique. Thierry Badard, PhD, ing. jr Centre de Recherche en Géomatique

Stephan Hadinger, Sr. Mgr Solutions Architecture, AWS. Salon du Big Data 11 mars 2015

Avant-propos. Organisation du livre

Sécuristation du Cloud

Differential Synchronization

La dernière base de données de Teradata franchit le cap du big data grâce à sa technologie avancée

Big Data? Big responsabilités! Paul-Olivier Gibert Digital Ethics

Les enjeux du Big Data Innovation et opportunités de l'internet industriel. Datasio 2013

Change the game with smart innovation

Bases de données documentaires et distribuées Cours NFE04

Guide de commande Commander un certificat d identité numérique PersonalSign

Paris Airports - Web API Airports Path finding

affichage en français Nom de l'employeur *: Lions Village of Greater Edmonton Society

Technologies Web. Ludovic Denoyer Sylvain Lamprier Mohamed Amine Baazizi Gabriella Contardo Narcisse Nya. Université Pierre et Marie Curie

Le Big Data Vers de nouveaux usages! 18/03/2015

Big Data et Graphes : Quelques pistes de recherche

Analytics & Big Data. Focus techniques & nouvelles perspectives pour les actuaires. Université d Eté de l Institut des Actuaires Mardi 8 juillet 2014

Transcription:

Prototypage et évaluation de performances d un service de traçabilité avec une architecture distribuée basée sur Hadoop Soutenance de projet ASR 27/01/2011 Julien Gerlier Siman Chen Encadrés par Bruno Defude Elisabeth Brunet Amin Sakka

Sommaire I. Présentation du projet II. Cassandra III. Hadoop IV. Mise en place du prototype V. Difficultés rencontrées 2

Présentation du projet Dématérialisation des gestions de documents des entreprises Nécessité de mémoriser les opérations effectuées sur les documents Système de traçabilité Objectif: distribuer le service de traçabilité Technologies envisagées : Cassandra & Hadoop 3

Cassandra Base NoSQL Base de données classique: orientée lignes Cassandra: orientée colonnes Adaptée aux évolutions horizontales Elements clés:»keyspace»column»supercolumn»columnfamily 4

Cassandra -Column Triplet: Nom, Valeur, Timestamp Exemple avec la notation de JSON: { // this is a column name: "emailaddress", value: "arin@example.com", timestamp: 123456789 5

Cassandra - SuperColumn Paire Nom/Valeur Valeur=un ensemble de columns en nombre non limité { // this is a SuperColumn name: "homeaddress", // with an infinite list of Columns value: { // note the keys is the name of the Column street: {name: "street", value: "1234 x street", timestamp: 123456789, city: {name: "city", value: "san francisco", timestamp: 123456789, zip: {name: "zip", value: "94107", timestamp: 123456789, Après simplification: homeaddress: { street: "1234 x street", city: "san francisco", zip: "94107", 6

Cassandra - ColumnFamily Contenu des columnfamilies de type standard: infinité de lignes de colomns UserProfile = { // this is a ColumnFamily phatduckk: { // this is the key to this Row inside the CF // now we have an infinite # of columns in this row username: "phatduckk", email: "phatduckk@example.com", phone: "(900) 976-6666", // end row ieure: { // this is the key to another row in the CF // now we have another infinite # of columns in this row username: "ieure", email: "ieure@example.com", phone: "(888) 555-1212" age: "66", gender: "undecided", 7

Cassandra En résumé 8

{ Cassandra Structure de LX Track "Document" (SCF) { RowKey: ApplicationReference { SCKey: OwnerReference { {name:"tuuid" value: TUUID {name: form, value: FingerPrint "Track" (SCF) { RowKey: "Declaration" { SCKey: TUUID { {name: timestamp, value: declarationcontent RowKey: "Document" { SCKey: TUUID { {name: ApplicationReference, value: OwnerReference RowKey: "Fingerprint" { SCKey: TUUID { {name: form, value: FingerPrint "Fingerprint" (SCF) { RowKey: "Document" { SCKey: FingerPrint { {name: ApplicationReference, value: OwnerReference RowKey: "Track" { SCKey: FingePrint { {name: algorithm, value: TUUID 9

Hadoop Système de fichiers distribué associé: HDFS Grande tolérance aux fautes Faibles coûts Haut débit d accès aux données Adapté pour les applications qui nécessitent de grands groupes de données Chaque fichier est divisé en bloc de 64 MB par défaut => convient mieux aux fichiers de grande taille Adapté à de grande scalabilité, aux gros clusters 10

Hadoop 11

Hadoop Gestion des données et des Jobs 12

Hadoop Gestion des données et des Jobs 13

Hadoop Map Reduce Opération Map: produit une paire clé/valeur intermédiaire pour chaque paire de clé/valeur reçue en entrée la librairie MapReduce groupe toutes les clés intermédiaires associées à la même valeur d entrée et les passe à la fonction Reduce. L'opération Reduce: fusionne les valeurs d'une même clé intermédiaire afin de renvoyer un unique couple clé intermédiaire/valeur en sortie. Exemple classique: WordCount 14

Test : insertion dans Cassandra Insertion massive de données dans Cassandra 5 machines : 1 500 000 insertions Problème de flush sur le disque 15

Mise en place de l architecture Hadoop/Cassandra Cassandra et Hadoop mis en place individuellement Objectif : interroger Cassandra via Hadoop Recherche de traces Récupération massives de méta-données Echec : problème de compatibilité? 16

Difficultés rencontrées Technologies nouvelles encore en développement Peu de documentation Encore des problèmes de compatibilité Nécessite un matériel performant Possibilité de s orienter vers Hbase : plus adapté à Hadoop 17

Conclusion Des technologies au fort potentiel Des connaissances précieuses Maitriser la configuration est primordiale Un peu de frustration : échec de la mise en place du prototype Majorité du temps passée à configurer Limités par le matériel 18