BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ



Documents pareils
Vers l'orchestration de grilles de PC par les mécanismes de publicationsouscription

PLATE-FORME DE CLOUD COMPUTING SLAPOS. Intégration d applications

Architecture de la grille

Projet Résilience. Synthèse du partenaire Paris 13. Christophe Cérin, Yanik Ngoko, Alain Takoudjou. Laboratoire d Informatique de Paris Nord

Infrastructures Parallèles de Calcul

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

Déploiement d une architecture Hadoop pour analyse de flux. françois-xavier.andreu@renater.fr

Bonjour. Yohan PARENT, Cyprien FORTINA, Maxime LEMAUX, Hyacinthe CARTIAUX

SysFera-DS : vers une solution de portail scientifique collaboratif chez EDF. Benjamin Depardon

Fiche Technique Windows Azure

Middleware et services de la grille

Cloud Computing : Utiliser Stratos comme PaaS privé sur un cloud Eucalyptus

Sauvegarde collaborative en pair-à-pair

CompatibleOne energy monitoring

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

Chapitre 2. Cluster de calcul (Torque / Maui) Grid and Cloud Computing

Chap.9: SNMP: Simple Network Management Protocol

IT SERVICES BUSINESS STORAGE DATA AUDIT PARTNERSHIP INTEGRATOR SECURITY PLANNING PRIVATE AGILITY DYNAMIC PUBLIC TECHNOLOGY SOLUTIONS MANAGEMENT

Guide d installation JMap 5.0

Déploiement de la plate-forme SlapOS dans l environnement Grid 5000

Contributions à l expérimentation sur les systèmes distribués de grande taille

Cloud Computing. Groupe : Vincent, Mohammed, Yannick, Allan Tuteur : Mr. NUSSBAUM Lucas Année : 2009/2010

Xtremweb-HEP : A best effort virtualization middleware

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

Plateforme académique de partage de documents - owncloud

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

Fiche technique RDS 2012

Services de la grille

Installation du service glite SE/DPM

Projet Xdata. Cinequant, Data Publica, EDF, ESRI, Hurence, INRIA, Institut Mines Telecom, La Poste, Orange, Veolia

La tête dans les nuages

Big Data : utilisation d un cluster Hadoop HDFS Map/Reduce HBase

du batch au temps réel Maxime Mézin Data & Photo Science Director

Fouillez facilement dans votre système Big Data. Olivier TAVARD

XtremWeb-HEP Interconnecting jobs over DG. Virtualization over DG. Oleg Lodygensky Laboratoire de l Accélérateur Linéaire

Les environnements de calcul distribué

Formation owncloud Thierry DOSTES - Octobre

Les Protocoles de sécurité dans les réseaux WiFi. Ihsane MOUTAIB & Lamia ELOFIR FM05

PRODIGUER un noeud français de distribution de données GIEC/IPCC

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

VMware vsphere 5 Préparation à la certification VMware Certified Professional 5 Data Center Virtualization (VCP5-DCV) - Examen VCP510

Anticiper et prédire les sinistres avec une approche Big Data

TAI049 Utiliser la virtualisation en assistance et en dépannage informatique TABLE DES MATIERES

FORMATION TALEND. Page 1 sur 9

Serveurs de noms Protocoles HTTP et FTP

Séminaire Partenaires Esri France 6 et 7 juin 2012 Paris. ArcGIS et le Cloud. Gaëtan LAVENU

Zeus V3.XX :: PRE-REQUIS TECHNIQUES

Programmation parallèle et distribuée (Master 1 Info )

Les journées SQL Server 2013

Principales failles de sécurité des applications Web Principes, parades et bonnes pratiques de développement

Dynamic Computing Services solution de backup. White Paper Stefan Ruckstuhl

DIRAC : cadre et composants pour créer des systèmes de calcul distribués

vcloud Director Comment créer et gérer son «Cloud» Jean-Claude DAUNOIS Senior Systems Engineer VMware

Consolidation. Grid Infrastructure avec la 11gR2

Mise en place d'un gestionnaire de données léger, pluridisciplinaire et national pour les données scientifiques

Programmation parallèle et distribuée

Présentation de la Grille EGEE

Automatisation de l administration système avec

Alcatel OmniPCX Office

La sécurité dans les grilles

Fonctionnement d Internet

Protection des données et des mobiles de l'entreprise

Les termes du cloud CUMULO NUMBIO 2015 O. COLLIN

Le serveur HTTPd WASD. Jean-François Piéronne

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

PHP et le Cloud. All rights reserved. Zend Technologies, Inc.

M1 Informatique, Réseaux Cours 9 : Réseaux pour le multimédia

Change the game with smart innovation

ADMINISTRATION EXADATA

Configurer le Serveur avec une adresse IP Statique (INTERFACE :FastEthernet) : et un masque

CAHIER DES CHARGES D IMPLANTATION

Mise en place d'un cluster

Séminaire Partenaires Esri France 7-8 juin Paris Cloud Computing Stratégie Esri

DG-ADAJ: Une plateforme Desktop Grid

Projet IGGI. Infrastructure pour Grappe, Grille et Intranet. Fabrice Dupros. CASCIMODOT - Novembre Systèmes et Technologies de l Information

Architectures informatiques dans les nuages

Ricco Rakotomalala R.R. Université Lyon 2

Installation de Premium-RH

Le cloud computing au service des applications cartographiques à haute disponibilité

e need L un des premiers intégrateurs opérateurs Cloud Computing indépendants en France

Galaxy Training days. Liste des sessions disponibles : Les formateurs :

EMC Forum EMC ViPR et ECS : présentation des services software-defined

+ = OpenStack Presentation. Raphaël Ferreira - enovance. Credits : Thanks to the OpenStack Guys 1

Qu est ce qu une offre de Cloud?

Perspectives pour l entreprise. Desktop Cloud. JC Devos IBM IT Architect jdevos@fr.ibm.com IBM Corporation

Gestion de clusters de calcul avec Rocks

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Fiche Technique. Cisco Security Agent

Service Cloud Recherche

Tests de SlipStream sur les plateformes et : vers la. Vers la fédération du Cloud computing

Présentation de l Université Numérique de Paris Île-de-France

Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009. Pôle de Calcul Intensif pour la mer, 11 Decembre 2009

Nos solutions Cloud Kain, le 27 mars 2013 Laurent Guelton, Administrateur Délégué. Copyright 2013 Orditech. Tous droits réservés. Version 2.

FileMaker Pro 13. Utilisation d une Connexion Bureau à distance avec FileMaker Pro 13

Mathieu Rivoalen. Etude d'approfondissement des réseaux RICM 5 Option Réseaux

LES ACCES ODBC AVEC LE SYSTEME SAS

Chapitre VII : Principes des réseaux. Structure des réseaux Types de réseaux La communication Les protocoles de communication

Journée Utiliateurs Nouvelles du Pôle ID (Informatique) Pierre Neyron, LIG/CNRS

Transcription:

Laboratoire LaTICE Univ. de Tunis INRIA LYON Avalon Team Laboratoire d Informatique de Paris Nord (LIPN) BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ Heithem Abbes Heithem Abbes Rencontres Vichy Juin 2014 1

PLAN BonjourGrid : version orientée calcul BonjourGrid : version orientée données Data Management as a Service MapReduce sécurisé Heithem Abbes Rencontres Vichy Juin 2014 2

BONJOURGRID : VERSION ORIENTÉE CALCUL Heithem Abbes Rencontres Vichy Juin 2014 3

BONJOURGRID : BASIC DESIGN (1/3) Coordinateur Workers Elément de Calcul (CE) = 1 Cordinateur + N Workers Heithem Abbes Rencontres Vichy Juin 2014 4

BONJOURGRID : BASIC DESIGN (2/3) Contrôler et orchestrer de multiple instances via un système de Publish/ Subscribe Heithem Abbes Rencontres Vichy Juin 2014 5

BONJOUGRID : BASIC DESIGN (3/3) User D User B User C User A Coordinator Worker Idle Heithem Abbes Rencontres Vichy Juin 2014 6

ARCHITECTURE EN COUCHES APPLICATIONS XW CONDOR BOINC Sélection des workers (RAM, CPU, Charge, Prix) Protocole Bonjour (Pub/Sub) Heithem Abbes Rencontres Vichy Juin 2014 7

BONJOURGRID : VERSION ORIENTÉE DONNÉES Heithem Abbes Rencontres Vichy Juin 2014 8

BONJOURGRID : VERSION DONNÉES Un environnement auto-configurable qui supporte différents systèmes de gestion des données Extension de BonjourGrid: Une méta-grille pour orchestrer plusieurs instances simultanées de gestionnaires de données et d intergiciels de calcul Heithem Abbes Rencontres Vichy Juin 2014 9

BONJOURGRID : VERSION DONNÉES Heithem Abbes Rencontres Vichy Juin 2014 10

Applica2on Specifica2on+ Configura2on File BonjourGrid Interface (For each user) 1. Create Coordinator(Job Scheduler, Data Cache, data URL, etc ) Remote Cache(Stork) Local Cache (Bitdew, GatorShare) 4. Distribute Data Job Scheduler (Condor, Boinc, XW) 5. Schedule Job 2. Get Input data(url) 6. Put Output data(url) 3. Computing Element External Data Servers (SRM,SRb, GridFTP,etc) Coordinator Worker Idle Heithem Abbes Rencontres Vichy Juin 2014 11

EXPÉRIMENTATIONS Heithem Abbes Rencontres Vichy Juin 2014 12

EXPÉRIMENTATIONS Heithem Abbes Rencontres Vichy Juin 2014 13

DATA MANAGEMENT AS A SERVICE Heithem Abbes Rencontres Vichy Juin 2014 14

DATA MANAGEMENT AS A SERVICE Pourquoi? Transférer les données depuis le site utilisateur vers le site d expérimentation Transférer les données résultats depuis le site d expérimentation vers le site utilisateur L utilisateur doit installer et configurer sur sa machine un service client pour transférer les données ü Solution ü Déployer un service client de gestion de données d une manière totalement transparente Heithem Abbes Rencontres Vichy Juin 2014 15

DATA MANAGEMENT AS A SERVICE Pourquoi? L utilisateur a besoin de partager ses données sur l ensemble de machines disponibles pour effectuer un éventuel traitement Pour cela, l utilisateur doit installer et configurer un environnement comportant: Un serveur de stockage partagé (un serveur NFS ou un serveur GridFTP) Un client sur chaque machine (client tools) pour télécharger les données ü Solution ü Déployer un environnement de gestion de données d une manière totalement transparente Heithem Abbes Rencontres Vichy Juin 2014 16

DATA MANAGEMENT AS A SERVICE Solution SaaS basée sur des serveurs GridFTP (Laboratoires de recherche, centre de calcul); Accès simple via une interface web UI / CLI; May 2014: > 3 Millions utilisateurs, >49 petabytes, >150 Millions fichiers transférés Heithem Abbes Rencontres Vichy Juin 2014 17

DATA MANAGEMENT AS A SERVICE ü Proposer un SaaS (Software As A Service) à base du Stork et Bitdew pour la création dynamique et à la demande d un service de gestion de données dans les cloud i. Gestion de données : Authentification, transfert, optimisation et Interopérabilité (Stork) Partage et stockage de données (Bitdew) ii. Déploiement de la plateforme iii. Accès, sécurité et monitoring Heithem Abbes Rencontres Vichy Juin 2014 18

DÉPLOIEMENT DE DMaaS SUR LE CLOUD End User: I need to manage data as a Service!! SaaS Request 1 Master Node Share 3 Transfer 2 Data Grid Storage Desktop Node SlapOS Desktop Cloud Heithem Abbes Rencontres Vichy Juin 2014 19

STORK AVEC SLAPOS Heithem Abbes Rencontres Vichy Juin 2014 20

STORK AVEC SLAPOS Heithem Abbes Rencontres Vichy Juin 2014 21

BITDEW AVEC SLAPOS Heithem Abbes Rencontres Vichy Juin 2014 22

CLOUD DE PARIS 13 https://slapos.cloud.univ-paris13.fr/ 23 Heithem Abbes Rencontres Vichy Juin 2014 23

EXPÉRIMENTATIONS Heithem Abbes Rencontres Vichy Juin 2014 24

EXPÉRIMENTATIONS Heithem Abbes Rencontres Vichy Juin 2014 25

EXPÉRIMENTATIONS Heithem Abbes Rencontres Vichy Juin 2014 26

MAPREDUCE SÉCURISÉ Heithem Abbes Rencontres Vichy Juin 2014 27

MAPREDUCE SÉCURISÉ Assurer la sécurité de la distribution des données sur les clouds en vue de les traiter dans des applications Map-Reduce Des alternatives proposent: des techniques de cryptographie (Infrastructures PKI) de contrôle d accès (MAC: Mandatory Access Control) ou de contrôle de résultats (DP: Differential Privacy) (Airavat) Solutions très couteuses: Cryptage/Décryptage/Gestion de droits.. Notre proposition: utiliser l algorithme de dispersion IDA pour sécuriser les données à traiter par les mappers. Heithem Abbes Rencontres Vichy Juin 2014 28

IDA (1/3) 1. Principe Étant donné un fichier de données, IDA en génère n morceaux dont m sont seulement suffisant pour reconstruire le fichier. (m<n) Exemple: 10 morceaux de F, 8 sont suffisants pour restituer F. 2. Objectifs Remédier aux problèmes liés à la transmission et au stockage. 3. Fonctionnement Split Combine Heithem Abbes Rencontres Vichy Juin 2014 29

IDA (2/3) Phase de Split a11 a12 a13 am a2 * = S1 S2 SN/m M1 M2 an A myfile Mn Chunks C1 = A * S1 Sk = A ¹ * Ck À envoyer Fi : Heithem Abbes Rencontres Vichy Juin 2014 30

IDA (3/3) Phase de Combine F₁ F₂ F₃ F₄ Fm a1 a2 a3 am M1 M2 M3 Mm A ¹ C1 S1 Heithem Abbes Rencontres Vichy Juin 2014 31

NOTRE APPROCHE (1/5) Distribuer les données sur les mappers Chaque mapper reçoit une partie des données non valables Un mapper doit contacter d autres mappers (amis) pour pouvoir reconstruire des données valides Si un mapper ne peut avoir accès à une des données, il échoue dans la reconstruction des données valides Comment appliquer IDA dans MapReduce pour bénéficier de l aspect de dispersion de données? Comment peut-on pouvoir se bénéficier des caractéristiques du cloud hybride? Heithem Abbes Rencontres Vichy Juin 2014 32

NOTRE APPROCHE (2/5) data Phase Split Appliquer la routine Split générer les morceaux 1 Phase Scatter Envoyer les morceaux aux mappers 2 Phase Collect contacter m-1amis 3 Heithem Abbes Rencontres Vichy Juin 2014 33

NOTRE APPROCHE (3/5) Phase Collect F₁ Mapper-1 a1 a2 Mapper-2 a2 F2 a3 am Mapper-3 a3 F3 am Mapper-m Fm Heithem Abbes Rencontres Vichy Juin 2014 34

NOTRE APPROCHE (4/5) Phase Split Appliquer la routine Split générer les morceaux Phase Combine Appliquer la routine Combine sur les éléments collectés map 1 4 Phase Distibution Envoyer les morceaux aux mappers 2 Phase Collect contacter m-1amis 3 Heithem Abbes Rencontres Vichy Juin 2014 35

NOTRE APPROCHE (5/5) a1 Mapper-1 a2 a3 am A ¹ C1 S1 Heithem Abbes Rencontres Vichy Juin 2014 36

DÉPLOIEMENT Un mapper malicieux a accès à ses données. 1 morceau est en clair (déchiffré) Un 2 ème mapper malicieux peut exposer ses données. 2 morceaux déchiffrés. Et si tous les mappers sont malicieux? m morceaux peuvent restituer la totalité des données Solution: Utiliser le cloud privé pour cacher un nombre nécessaire de morceaux. Heithem Abbes Rencontres Vichy Juin 2014 37

DÉPLOIEMENT m-1 Privé Public Public Public Heithem Abbes Rencontres Vichy Juin 2014 38

RÉALISATION CRYPT-IDA : bibliothèque des routines de IDA en Perl La séquence de IDA restituée est de taille très petite Nous avons modifié CRYPT-IDA pour manipuler une entité de données plus considérable: paquet Un paquet = un ensemble de séquences Durant la phase Collect, un mapper demande plusieurs éléments La phase combine recompose un paquet Heithem Abbes Rencontres Vichy Juin 2014 39

EXPÉRIMENTATIONS Plateforme: Grid 5000 180 Machines : Nancy(Griffon:8, Graphene:4), Lyon(Sagittaire:12) Cycle de vie: Paramètres: data_size, Taille des données (variant de 100 Mo à 1,3 Go n, nombre de morceaux m, nombre de morceaux nécessaires pour restituer une information valide pack_size, taille de packet Heithem Abbes Rencontres Vichy Juin 2014 40

ÉVALUATION: SPLIT & SCATTER (2S) Objectif Impact de data_size sur : 1. la durée de la phase Split 2. La quantité de données Paramètres Nœud: Griffon(8 cœurs) Data-size: de 100Mo à 1,3Go n=25, m=10 Overhead=150% Heithem Abbes Rencontres Vichy Juin 2014 41

ÉVALUATION: SPLIT & SCATTER (2S) Objectif Impact de n sur : 1. la durée de la phase Split Paramètres Nœud: Griffon(8 cœurs) data-size = 1,3GB 2. La durée de la phase Scatter Heithem Abbes Rencontres Vichy Juin 2014 42

ÉVALUATION: SPLIT & SCATTER (2S) Objectif Impact de m sur : 1. la durée de la phase Split 2. La quantité des données Paramètres Nœud: Griffon(8 cœurs) data-size = 1,3GB n = 25 Heithem Abbes Rencontres Vichy Juin 2014 43

ÉVALUATION : COMBINE & COLLECT (2C) Un mapper : 1. m amis 2. paquet de taille pack_size Data-size = 1,3GB n = 180, m = 68 La durée de l étape 2C en fonction de la taille du paquet Optimum pack_size=16mb. Heithem Abbes Rencontres Vichy Juin 2014 44

ÉVALUATION : COMBINE & COLLECT (2C) Impact de m sur les 2 phases Collect et Combine. data-size = 1,3GB pack_size = 16MB n = 82 Optimum durant l étape 2C, m=35: le minimum est l optimum. Durant un cycle complet, l optimum est m=40=n/2. Heithem Abbes Rencontres Vichy Juin 2014 45

MERCI DE VOTRE ATTENTION Heithem Abbes Rencontres Vichy Juin 2014 46