Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS



Documents pareils
Pair-à-Pair: Architectures et Services

Réplication adaptative sur les réseaux P2P

Recherche d informations à grande échelle dans des architectures Peer-to-Peer

Robin Favre Fabien Touvat. Polytech Grenoble RICM 3 ème Année Vendredi 21 Novembre 2008 Etude d Approfondissement Réseau

Programmation parallèle et distribuée

Programmation parallèle et distribuée

Ebauche Rapport finale

Proposition d une grille d analyse pour la composition de systèmes P2P adaptés aux contextes applicatifs

Sauvegarde collaborative en pair-à-pair

N d ordre : 4071 ANNÉE THÈSE / UNIVERSITÉ DE RENNES 1 sous le sceau de l Université Européenne de Bretagne. pour le grade de

Technologie de déduplication de Barracuda Backup. Livre blanc

Environnement pour le calcul pair à pair

Autorité de certification distribuée pour des réseaux pair-à-pair structurés : modèle, mise en oeuvre et exemples d applications

NOTIONS DE RESEAUX INFORMATIQUES

Les protocoles Peer-to-Peer GERET. Gabrielle Feltin LORIA

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

Sécuristation du Cloud

Architecture d un service de partage de données modifiables sur une infrastructure pair-à-pair

Notes de cours (ENS Lyon, M1) Chapitre 2 : Réseaux Pair à Pair

Revue d article : Dynamic Replica Placement for Scalable Content Delivery

Configuration des routes statiques, routes flottantes et leur distribution.

Gestion répartie de données - 1

Fiche de l'awt Le modèle peer to peer

Windows Internet Name Service (WINS)

Cours 6. Sécurisation d un SGBD. DBA - M1ASR - Université Evry 1

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

Problématiques de stockage d un Data Center

EMC Data Domain Boost for Oracle Recovery Manager (RMAN)

Cours n 12. Technologies WAN 2nd partie

Systèmes et algorithmes répartis

Système de backup distribué

Square-IT-Consulting. Présentation

WHITE PAPER. Quels avantages la déduplication offre-t-elle aux entreprises? Livre blanc Acronis

CH.3 SYSTÈMES D'EXPLOITATION

République Algérienne Démocratique et Populaire. Ministère de l Enseignement Supérieur et de la Recherche Scientifique

Évaluation d une architecture de stockage RDF distribuée

Optimisez vos environnements Virtualisez assurément

Cloud Computing Maîtrisez la plate-forme AWS - Amazon Web Services

Skype (v2.5) Protocol Data Structures (French) Author : Ouanilo MEDEGAN

Chapitre VII : Principes des réseaux. Structure des réseaux Types de réseaux La communication Les protocoles de communication

Archivage : SaaS ou hébergé sur site? Avantages de TCO et gestion des risques

Les Content Delivery Network (CDN)

Introduction aux algorithmes répartis

Protocoles réseaux. Abréviation de Binary Digit. C'est la plus petite unité d'information (0, 1).

Architectures d implémentation de Click&DECiDE NSI

Technologie SDS (Software-Defined Storage) de DataCore

L I V R E B L A N C P r o t ég e r l e s a p p l i c a t i o n s m ét i e r s c r i t i q u e s M a i n f r a m e, un b e s o i n c r u c i a l

Contributions à l expérimentation sur les systèmes distribués de grande taille

Firewall IDS Architecture. Assurer le contrôle des connexions au. Sécurité 1

Perspective : la sauvegarde croisée

Stockage décentralisé adaptatif : autonomie et mobilité des données dans les réseaux pair-à-pair

Cette option est aussi disponible sur les clients Windows 7 sous la forme d un cache réparti entre les différentes machines.

Le Network File System de Sun (NFS)

Exchange Server 2013 Préparation à la certification MCSE Messaging - Examen

Cryptographie. Master de cryptographie Architectures PKI. 23 mars Université Rennes 1

Réseaux grande distance

Dossier Solution - Virtualisation CA arcserve Unified Data Protection

Système de Stockage Sécurisé et Distribué

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters AVANTAGES

Importance de la défragmentation en environnements virtuels

Le passage à l échelle de serveur J2EE : le cas des EJB

Le e s tocka k ge g DAS,NAS,SAN

Gestion du déploiement de composants sur réseau P2P

Hypervision et pilotage temps réel des réseaux IP/MPLS

2. MAQUETTAGE DES SOLUTIONS CONSTRUCTIVES. 2.2 Architecture fonctionnelle d un système communicant.

Consolidation de stockage

Sommaire Introduction Les bases de la cryptographie Introduction aux concepts d infrastructure à clés publiques Conclusions Références

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters

NoSQL. Introduction 1/23. I NoSQL : Not Only SQL, ce n est pas du relationnel, et le contexte. I table d associations - Map - de couples (clef,valeur)

Concours interne d ingénieur des systèmes d information et de communication. «Session 2010» Meilleure copie "étude de cas architecture et systèmes"

EMC AVAMAR. Logiciel et système de sauvegarde avec déduplication

TIVOLI STORAGE MANAGER. Denis Vandaele

Cours 14. Crypto. 2004, Marc-André Léger

Windows Server 2012 R2 Administration

Routage Efficace pour les Réseaux Pair-à-Pair utilisant des Tables de Hachage Distribuées

Systèmes d Exploitation - ENSIN6U3. Aix-Marseille Université

ACCESSNET -T IP Technique système TETRA d Hytera.

PHP. Performances. Audit et optimisation LAMP. Julien Pauli. Cyril Pierre de Geyer. Guillaume Plessis. Préface d Armel Fauveau

UNIFIED. Nouvelle génération d'architecture unifiée pour la protection des données D TA. dans des environnements virtuels et physiques PROTECTION

Note d application: Les différentes topologies de réseaux de capteurs sans fil

IFT3030 Base de données. Chapitre 2 Architecture d une base de données

Le stockage. 1. Architecture de stockage disponible. a. Stockage local ou centralisé. b. Différences entre les architectures

Optimisation WAN de classe Centre de Données

Pourquoi OneSolutions a choisi SyselCloud

Administration Système & Réseau. Domain Name System Historique & Concepts Fonctionnalités & Hiérarchie Requêtes & Base de donnée DNS

Plan du Travail. 2014/2015 Cours TIC - 1ère année MI 30

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

1.Introduction - Modèle en couches - OSI TCP/IP

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

Serveurs de noms Protocoles HTTP et FTP

VMWare Infrastructure 3

Encryptions, compression et partitionnement des données

EMC DATA DOMAIN OPERATING SYSTEM

Programmation parallèle et distribuée (Master 1 Info )

Hébergement de base de données MySQL. Description du service (D après OGC - ITIL v3 - Service Design- Appendix F : Sample SLA and OLA)

CRYPTOGRAPHIE. Signature électronique. E. Bresson. SGDN/DCSSI Laboratoire de cryptographie

Chapitre 11 : Le Multicast sur IP

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

SQL Server 2008 solutions de sauvegarde et de continuité

Transcription:

Sauvegarde collaborative entre pairs 1 Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

Sauvegarde collaborative entre pairs 2 Introduction Pourquoi pair à pair? Utilisation de ressources excédentaires Exemple : les capacités de stockage augmentent plus vite que les données pour les remplir Simplicité de mise en œuvre Confiance dans un système décentralisé : résistance à la censure, garantie de l anonymat et de la vie privée Applications Partage de données (e.g. plusieurs TB de données contribués) Contribution de temps CPU Contribution en espace disque pour la sauvegarde

Sauvegarde collaborative entre pairs 3 Répartition des données entre pairs Répartition des données Localisation des données sur le réseau Fragmentation + décentralisation = CAN Algorithme de localisation de clefs dans une DHT Exemple de topologie en cercle Algorithmes de localisation non déterministes Condensé + chiffrement = CHK Codage des fichiers Application à la sauvegarde coopérative Archivage et gestion des révisions

Sauvegarde collaborative entre pairs 4 Répartition des données Approche naïve (Napster, Gnutella, etc.) - stockage de fichiers entiers - Problème : disponibilité, égale répartition difficile, migration des données problématique, aucune résistance à la censure Fragmentation, dissémination (redondance) (e.g. GNUnet, Freenet) - Fragmentation en blocs de taille fixe (e.g. 1Ko) ou pas - Dissémination lors d interactions entre pairs - Résout les problèmes évoqués ci-dessus

Sauvegarde collaborative entre pairs 5 Localisation des données sur le réseau Approche centralisée (e.g. Napster) - un serveur de désignation central (ou plusieurs) - puis échange de fichiers entiers entre pairs - Passage à l échelle, disponibilité Approche décentralisée (e.g. Gnutella, GNUnet, Freenet, etc.) - chaque nœud participe au service de désignation - pas de point central

Sauvegarde collaborative entre pairs 6 Fragmentation + décentralisation = CAN Considérer répartition et localisation des données conjointement Idée : adresser les données par leur contenu - Content Addressable Network (CAN) - Comme dans une table de hachage, calcul d un condensé (hash) - Données indexées par leur condensé Table de hachage répartie (distributed hash table, DHT) - Mêmes primitives qu une table de hachage - Chaque nœud responsable d un intervalle d index (une «zone») - Bon condensé Bonne répartition

Sauvegarde collaborative entre pairs 7 Algorithme de localisation de clefs dans une DHT Deux critères d efficacité : longueur d un chemin et latence d un saut Une topologie qui va bien : un tore de dimension d (e.g. un cercle, pour d=1) - Distance entre 2 nœuds = distance entre leurs ID - Chaque nœud garde un pointeur sur ses 2d voisins - Longueur des chemins en O(d.n 1/d ) - Possibilité d utiliser plusieurs topologies pour un même ensemble de nœuds (des «réalités») compromis entre taille de la table de routage et tolérance aux fautes Autres optimisations - Prise en compte de la latence : lors du choix des zones couvertes ou lors du routage - Deuxième «réalité» : prendre les voisins situés aux distances en puissance de 2 (cf. Chord) - Partage de zones entre plusieurs nœuds (avec ou sans redondance) - Utilisation de caches sur le chemin (e.g. CFS, Chord) Problème : peu résistant aux malveillances

Sauvegarde collaborative entre pairs 8 Exemple de topologie en cercle Utilisé dans Chord/CFS (Cooperative File System) Variante du tore à 1 dimension Chaque nœud garde la liste de log(n) successeurs ( ) plus des «pointeurs» vers les nœuds situés à des puissances de 2 par rapport à lui ( ) Le nombre de nœuds est estimé en fonction de la densité de nœuds à proximité Localisation en O(log(n)) Par contre, quantité d information de routage par nœud fonction de n

Sauvegarde collaborative entre pairs 9 Algorithmes de localisation non déterministes Motivations (GNUnet et Freenet) Résister aux malveillances et à la censure ; assurer l anonymat des participants Techniques - Chaque nœud établit des connexions (chiffrées) avec un ensemble de «voisins» - route des paquets pour les autres - «cache» ses paquets parmi ceux qu il route pour les autres - Données initialement présentes chez celui qui les publie - puis migration des données en fonction de la demande Conséquences Passage à l échelle? Le routage s améliore avec le temps Données impopulaires difficiles d accès Il est possible de ne pas trouver une donnée présente

Sauvegarde collaborative entre pairs 10 Condensé + chiffrement = CHK L idée : le chiffrement convergent (convergent encryption) - Objectif : suppression de la redondance - Utiliser une clef de chiffrement dépendant du contenu - Permet d utiliser des méthodes de chiffrement «légères» (symétriques) - Utilisé pour le partage de fichiers (GNUnet, Freenet) et l archivage (Venti) En pratique : Content-Hash Key (CHK) - Soit un bloc B, sa clef de chiffrement est K=H(B) - Le bloc chiffré est C=E K (B) - Le couple (H(C), K) suffit à désigner puis déchiffrer le bloc B

Sauvegarde collaborative entre pairs 11 Codage des fichiers méta-données, mots-clef inode inode inode data data data data data data Représentation en arbre (GNUnet, CFS, Venti) Pas de distinction entre méta-données et données Permet d utiliser des blocs de taille fixe La CHK de l inode supérieur est un point d entrée suffisant

Sauvegarde collaborative entre pairs 12 Répartition des données entre pairs Application à la sauvegarde coopérative Introduction Les différentes approches au stockage Les différentes approches (suite) Exemple d architecture : Pastiche/PeerStore Choix des partenaires S assurer de la sauvegarde de données Gérer les déconnexions de partenaires Assurer la justice des contributions Choix des données à effacer Archivage et gestion des révisions

Sauvegarde collaborative entre pairs 13 Introduction Quelques travaux Cooperative backup scheme (2002, Rice Univ.), Pastiche/Samsara (2002, MIT), PeerStore (2004, TU München), Venti-DHash (2003, MIT), ABS (2004, MIT), etc. Accent sur les incitations à la contribution et la résistance aux malveillances Également élimination des redondances, performances de la sauvegarde et récupération Des techniques issues des réseaux pair à pair Routage entre pairs et découverte décentralisée de pairs Chiffrement convergent Indexation du contenu

Sauvegarde collaborative entre pairs 14 Les différentes approches au stockage Approche simpliste - Elnikety et. al (2002) : un serveur central permet de trouver des pairs, établissement de plusieurs relations deux-à-deux, données rassemblées ( tar) et chiffrées avec une clef publique - Mécanismes pour résister aux malveillances - Sauvegarde et restauration lentes et coûteuses, n exploite pas la redondance entre versions, nécessite de stocker sa clef privée ailleurs Approche pair à pair utilisant une DHT - Efficace (stockage et temps d accès) - Très sensible aux malveillances - Difficulté d établir des contributions justes (tout le monde contribue autant)

Sauvegarde collaborative entre pairs 15 Les différentes approches (suite) Approches pair à pair «évoluées» - chiffrement convergent et algorithmes de découverte de sous-ensembles communs entre versions - Choix des pairs en fonction de la redondance et de la localité - Pastiche + Overlay network utilisé pour la découverte (avec distance latence ou distance taux de couverture) + Ensuite, établissement de liens directs entre partenaires - PeerStore + hybride : utilise une DHT pour stocker les méta-données et des relations directes entre pairs pour les données + Permet de rapidement savoir si un bloc est déjà sauvegardé dans le système

Sauvegarde collaborative entre pairs 16 Exemple d architecture : Pastiche/PeerStore Couche de stockage par bloc avec indexation par condensé (chunkstore) App App App Pastiche server filesystem Pastiche s chunkstore overlay network Chaque bloc est stocké sous la forme d un journal (séquence de versions du bloc) Méta-données également sous forme de bloc Données locales sauvegardées dans chunkstore Données distantes sauvegardées dans chunkstore Le serveur est connecté à des partenaires Le serveur émet périodiquement les blocs à ses amis

Sauvegarde collaborative entre pairs 17 Choix des partenaires Dans Pastiche : partenaires choisis en fonction des similitudes avec leurs données 1. Chaque participant calcule un résumé de ses données (un sous-ensemble des condensés des blocs de données) 2. Le nouveau nœud diffuse son résumé et obtient en réponse celui des autres 3. Le nœud peut choisir parmi ceux-là ou joindre un réseau dont la métrique est la couverture des données Seules les données qui n existent pas chez le partenaire sont sauvegardées

Sauvegarde collaborative entre pairs 18 S assurer de la sauvegarde de données L idée : lancer régulièrement un défi aux partenaires L approche simpliste : envoyer une requête de lecture d un bloc au hasard L approche «évoluée» (Pastiche, PeerStore) : 1. Le nœud envoie une valeur h 0 et une liste de n blocs à vérifier à son partenaire 2. Le partenaire renvoie un condensé h n calculé comme suit : h i+1 = H(concat(b i+1, h i )) Peu coûteux, permet de quantifier les risques

Sauvegarde collaborative entre pairs 19 Gérer les déconnexions de partenaires Problème : tolérer les déconnexions temporaires de partenaires L idée : en cas de non disponibilité d un pair, lui assurer une période de grâce (Elnikety et al.) Problème : éviter que des nœuds profitent de la période de grâce sans contrepartie Solution de base : la période de grâce est suivie d une période pendant laquelle les restaurations ne sont pas autorisées (Elnikety et al.) Solution «évoluée» (Pastiche/Samsara) - Objectif : avoir une punition progressive - Hypothèse : celui qui sauvegarde connaît le nombre de répliques dont dispose celui qui ne répond pas - Méthode : à chaque non réponse d un nœud, celui qui sauvegarde pour lui efface au hasard un bloc avec une probabilité bien choisie - Conclusion : un nœud ne perd ses données que s il n a pas répondu pendant une longue période

Sauvegarde collaborative entre pairs 20 Assurer la justice des contributions Échanges symétriques (Elnikety et al.) - Problème : ajout d une contrainte au placement des données Création d échanges symétriques (Samsara, PeerStore) - Samsara 1. Le demandeur donne la garantie qu il donne autant de ressources 2. En pratique, le créancier fait stocker des données au débiteur qui dont le contenu ne peut être deviné que par le créancier 3. La garantie peut être vérifiée régulièrement, comme les autres données 4. En cas de manque d espace, on peut faire suivre une garantie - PeerStore : un nouveau nœud diffuse une offre et reçoit des offres de ses pairs qu il peut refuser ou accepter (en fonction de leur équilibre)

Sauvegarde collaborative entre pairs 21 Choix des données à effacer Problème ouvert!

Sauvegarde collaborative entre pairs 22 Répartition des données entre pairs Application à la sauvegarde coopérative Archivage et gestion des révisions Archivage exhaustif Effacement des données

Sauvegarde collaborative entre pairs 23 Archivage exhaustif

Sauvegarde collaborative entre pairs 24 Effacement des données

Sauvegarde collaborative entre pairs 25 La Fin Questions?