Systèmes de fichiers distribués et persistance des données. Cyril SÉGUIN

Documents pareils
Artica Proxy Appliance Haute disponibilite

Introduction au Massive Data

Robin Favre Fabien Touvat. Polytech Grenoble RICM 3 ème Année Vendredi 21 Novembre 2008 Etude d Approfondissement Réseau

GUIDE DE DEMARRAGE V1.02

Veeam Backup & Replication v6

Big Data. Les problématiques liées au stockage des données et aux capacités de calcul

A Les différentes générations VMware

SQL Server 2012 et SQL Server 2014

Projet d'infrastructure de stockage mutualisée

Journée Utiliateurs Nouvelles du Pôle ID (Informatique) Pierre Neyron, LIG/CNRS

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters AVANTAGES

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

Concours interne d ingénieur des systèmes d information et de communication. «Session 2010» Meilleure copie "étude de cas architecture et systèmes"

ORACLE 10g Découvrez les nouveautés. Jeudi 17 Mars Séminaire DELL/INTEL/ORACLE

VMware vsphere 5 Préparation à la certification VMware Certified Professional 5 Data Center Virtualization (VCP5-DCV) - Examen VCP510

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Les Géodatabases en 9.2

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

Sauvegarde collaborative en pair-à-pair

WD et le logo WD sont des marques déposées de Western Digital Technologies, Inc, aux États-Unis et dans d'autres pays ; absolutely WD Re, WD Se, WD

Programmation parallèle et distribuée

VMware vsphere 5 au sein du Datacenter Complément vidéo : La configuration et la sécurisation de l'esx

Pair-à-Pair: Architectures et Services

SQL Server 2008 solutions de sauvegarde et de continuité

Anatomie d'un cloud IaaS Représentation simplifiée

Arcserve unifié UNE SOLUTION UNIQUE

La Continuité d Activité

Expérience de la mise en place s une solution de gestion de capacité pour supporter la migration des Datacenter

Agenda. Introduction au projet SIMM. Réduction des volumes de sauvegarde avec RMAN

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Section I: Le Contexte du DATA CENTER Pourquoi l AGILITE est Nécessaire dans le DataCenter

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

Programmation parallèle et distribuée

Limitations of the Playstation 3 for High Performance Cluster Computing

Infrastructures Parallèles de Calcul

La plate forme VMware vsphere 4 utilise la puissance de la virtualisation pour transformer les infrastructures de Datacenters en Cloud Computing.

Perspectives pour l entreprise. Desktop Cloud. JC Devos IBM IT Architect jdevos@fr.ibm.com IBM Corporation

Infrastructure de calcul du CRRI

Le e s tocka k ge g DAS,NAS,SAN

Architecture de la grille

Solution de stockage et archivage de grands volumes de données fichiers.

Tungsten: une implémentation du futur clustering de PostgreSQL

Sécurité Informatique

mieux développer votre activité

Détection d'intrusions en environnement haute performance

Diplôme de Comptabilité et de Gestion. D é c r e t N d u 2 2 d é c e m b r e A r r ê t é d u 8 m a r s

DU RÉSEAU AU BIG DATA UNE OFFRE GLOBALE DE GESTION DE LA DONNÉE. Bruno Fleisch - Responsable Produits Tarik Hakkou Responsable du pôle «Data»

Middleware et services de la grille

Prestations de conseil en SRM (Storage Ressource Management)

DES SAUVEGARDES ET DES RESTAURATIONS DE DONNEES SANS CONTRAINTES DE LIEU NI DE TEMPS

Enseignant: Lamouchi Bassem Cours : Système à large échelle et Cloud Computing

La gestion de données dans le cadre d une application de recherche d alignement de séquence : BLAST.

CURSUS VIRTUALISATION

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

Enjeux & perspectives du Cloud en :

La tête dans les nuages

Administration Système & Réseau. Domain Name System Historique & Concepts Fonctionnalités & Hiérarchie Requêtes & Base de donnée DNS

API04 Contribution. Apache Hadoop: Présentation et application dans le domaine des Data Warehouses. Introduction. Architecture

Hébergement MMI SEMESTRE 4

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

neobe Backup Tel service de télésauvegarde informatique LE PARTENAIRE SECURITE DE VOTRE ENTREPRISE

KIWI BACKUP DOSSIER DE PRESSE

Le stockage unifié pour réduire les coûts et augmenter l'agilité

Online Workflow. Approbation factures

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

Stratégie et Vision de SAP pour le secteur Banque- Assurance: Data-Management, BI, Mobilité

IT SERVICES BUSINESS STORAGE DATA AUDIT PARTNERSHIP INTEGRATOR SECURITY PLANNING PRIVATE AGILITY DYNAMIC PUBLIC TECHNOLOGY SOLUTIONS MANAGEMENT

Backup. Solution de sauvegarde en ligne pour les professionnels LE PARTENAIRE SECURITE DE VOTRE ENTREPRISE!

EMC ENTERPRISE PRIVATE CLOUD

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

TOUJOURS UNE LONGUEUR D AVANCE.

Hébergement de base de données MySQL. Description du service (D après OGC - ITIL v3 - Service Design- Appendix F : Sample SLA and OLA)

+ = OpenStack Presentation. Raphaël Ferreira - enovance. Credits : Thanks to the OpenStack Guys 1

BCO. Sébastien LECOT Directeur de GESS PARTNERS

TD sur JMS ) Qu est-ce qu un middleware orienté message (MOM)? Quelles différences faites-vous entre un MOM et JMS?

KIWI BACKUP DOSSIER DE PRESSE

Augmenter la disponibilité des applications JEE grâce au clustering : Le projet open source JShaft

Jean-Philippe Paquette

Consolidation Stockage.

Optimisation des niveaux de service dans le cadre de déploiements de Clouds publics

Installation et utilisation de Cobian Backup 8

EVault Endpoint Protection en détails : Gestion de l entreprise, Sauvegarde, Restauration et Sécurité

Portage d applications sur le Cloud IaaS Portage d application

Xavier Masse PDG IDEP France

N e t E x p l o r e r B a c k u p. w w w. n e t e x p l o r e r. f r. c o n t a c n e t e x p l o r e r. f r

Pourquoi installer un domaine Windows Active directory? E. Basier - CNIC S. Maillet - CRPP F. Palencia - ICMCB

Labs Hadoop Février 2013

Fiche Produit. Sauvegarde en ligne Kiwi Online

NAS 254 Sauvegarde cloud

EX4C Systèmes d exploitation. Séance 14 Structure des stockages de masse

KIWI BACKUP DOSSIER DE PRESSE

Mise en oeuvre TSM 6.1

ANeXiti 33 quai Arloing lyon cedex

Fiche Produit. Plateforme de sauvegarde en marque blanche Kiwi Business

Continuité. Management de la. d activité. Assurer la pérennité de l, entreprise : planification, choix techniques et mise en œuvre 2 e édition

UE 8 Systèmes d information de gestion Le programme

IaaS à la sauce Portails Focus sur. Pierre Aubert Orange Portails OF/DMGP/Portails/DOP 1 er Juillet 2013

Tables Rondes Le «Big Data»

L écosystème Hadoop Nicolas Thiébaud Tuesday, July 2, 13

Transcription:

Systèmes de fichiers distribués et persistance des données Cyril SÉGUIN

Systèmes de fichiers distribués et persistance des données Travaux de thèse Introduire l élasticité dans les systèmes de fichiers distribués : Les systèmes de fichiers distribués répondent aux besoins des applications «data intensive» : Grands espaces de stockage Disponibilité des données Accès rapide aux données Les plates-formes de cloud computing (infrastructures en tant que service) de plus en plus utilisées par ces applications : Élasticité Paiement à l utilisation cyril.seguin@u-picardie.fr 2/20

Systèmes de fichiers distribués et persistance des données Travaux de thèse Dimensionner dynamiquement l espace de stockage en fonction de l activité de la plate-forme : Stratégies de placement des données orientées «équilibre de la charge de traitement des ressources» Popularités des données (fréquences d accès) comme critère de placement des données cyril.seguin@u-picardie.fr 3/20

Systèmes de fichiers distribués et persistance des données Travaux de thèse Étude de systèmes de fichiers distribués : Qualitative : Passage à l échelle Transparence Accès concurrents Quantitative : Performances : Méta données I/O petits/gros fichiers Tolérance aux pannes cyril.seguin@u-picardie.fr 4/20

Systèmes de fichiers distribués et persistance des données Plan Les systèmes de fichiers distribués : Définition Fonctionnalités Architecture Persistance des données : Pannes (disparition) de serveurs de données et disponibilité des données Pannes (disparition) de serveurs de méta données et accès aux données cyril.seguin@u-picardie.fr 5/20

Systèmes de fichiers distribués et persistance des données Systèmes de fichiers distribués cyril.seguin@u-picardie.fr 6/20

Les systèmes de fichiers distribués Définition Réunion de plusieurs ressources de stockage, dispersées dans un réseau, en une seule entité. cyril.seguin@u-picardie.fr 7/20

Les systèmes de fichiers distribués Définition Point de vue de l utilisateur : cyril.seguin@u-picardie.fr 8/20

Les systèmes de fichiers distribués Serveur(s) de méta données : Centralisée ou décentralisée Informations sur les fichiers Requêtes clientes Aperçu d architecture Serveurs de données : Stocker les fichiers Striping cyril.seguin@u-picardie.fr 9/20

Les systèmes de fichiers distribués Fonctionnalités Passage à l'échelle : Gestion de milliers de ressources Quantité et taille des fichiers Traitement des requêtes Accès concurrents : Lecture/Écriture Écriture/Écriture Transparence : Accès au système Accès aux fichiers (API, POSIX) Détection des pannes Tolérance aux pannes : Réplication & placement Maintien du facteur de réplication cyril.seguin@u-picardie.fr 10/20

Les systèmes de fichiers distribués Exemple de systèmes de fichiers distribués Étudiés : Ceph Gluster HDFS irods Lustre Plusieurs autres solutions intéressantes : BlobSeer The Google File System MooseFS RozoFS Panasas GPFS PvFS BeeGFS... C.Séguin, G. Le Mahec, B. Depardon, Analysis of Six Distributed File Systems, http://hal.inria.fr/hal-00789086. cyril.seguin@u-picardie.fr 11/20

Systèmes de fichiers distribués et persistance des données Persistance des données cyril.seguin@u-picardie.fr 12/20

Persistance des données Stocker des fichiers Aperçu d un serveur de données Striping : En cas de pannes : Moins de perte de blocs d une même donnée Plus de perte de blocs de données différentes cyril.seguin@u-picardie.fr 13/20

Persistance des données Pannes des serveurs de données Redondance des données (blocs de fichiers) pour maintenir leur disponibilité en cas de pannes Création de copies : les réplicas, répartis sur l ensemble des serveurs, code à effacement cyril.seguin@u-picardie.fr 14/20

Persistance des données Round robin : stockage de serveur en serveur. Exemple MooseFS. Placement des réplicas Baie de serveurs : même alimentation, même commutateur. Exemple : Ceph, HDFS. Orientée performance : ajout de serveurs supplémentaires pour gérer une forte demande. Exemple ERMS. cyril.seguin@u-picardie.fr 15/20

Persistance des données Aperçu d un serveur de méta données Point d entrée au système Gestion centralisée ou décentralisée Traiter les requêtes clientes Rôle central : Informations sur les fichiers : Identification des blocs Localisation des blocs cyril.seguin@u-picardie.fr 16/20

Persistance des données Pannes des serveurs de méta données Architecture décentralisée : Réplication des méta données Architecture centralisée : Utilisation de serveurs secondaires : Backup (sauvegarde des méta données) Failover (prendre la main en cas de pannes du serveur principal) cyril.seguin@u-picardie.fr 17/20

Systèmes de fichiers distribués et persistance des données Comparatif de différents systèmes Disponibilité des données : + Réplication (Ceph, HDFS, Gluster) - Pas de réplication par défaut (irods, Lustre) Maintien du facteur de réplication : + Ceph, HDFS - Gluster, irods, Lustre Disponibilité des méta données : + Serveurs secondaires (HDFS, Lustre, irods) + Réplication (Gluster, Ceph) Persistance Ceph +++ Gluster ++ HDFS +++ irods + Lustre + cyril.seguin@u-picardie.fr 18/20

Systèmes de fichiers distribués et persistance des données Conclusion Systèmes de fichiers distribués = solution pour la persistance des données mais : Récupération des données doit être possible : Réplication des données Sauvegarde des méta données Faire attention : Au striping À la transparence (accès aux données) cyril.seguin@u-picardie.fr 19/20

Merci Questions?