Clusters de stockage : GlusterFS



Documents pareils
Stockage Réseau. Le stockage s'échappe du système pour devenir une fonction réseau

<Insert Picture Here> Solaris pour la base de donnés Oracle

Cours 13. RAID et SAN. 2004, Marc-André Léger

Agenda. Exemple : données et back à Eurecom SANs and NAS. Les bases: SANs. Back-up Partage de fichier. Disques et Raid SCSI et FCP

EX4C Systèmes d exploitation. Séance 14 Structure des stockages de masse

SAN AoE (ATA over Ethernet)

Runtime. Gestion de la réactivité des communications réseau. François Trahay Runtime, LaBRI sous la direction d'alexandre Denis Université Bordeaux I

Sommaire de la journée

Livre blanc Haute disponibilité sous Linux

Gestion répartie de données - 1

Détection d'intrusions en environnement haute performance

Le stockage. 1. Architecture de stockage disponible. a. Stockage local ou centralisé. b. Différences entre les architectures

«clustering» et «load balancing» avec Zope et ZEO

Backup , l intégration du backup sur disque

Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009. Pôle de Calcul Intensif pour la mer, 11 Decembre 2009

Windows 2000: W2K: Architecture. Introduction. W2K: amélioration du noyau. Gamme windows W2K pro: configuration.

Le Cloud Open-Mind! Emilien Macchi

Guide d'installation et de configuration de Pervasive.SQL 7 dans un environnement réseau Microsoft Windows NT

Gestion de mémoire secondaire F. Boyer, Laboratoire Sardes

Mise en oeuvre TSM 6.1

Guide pour l Installation des Disques Durs SATA et la Configuration RAID

Grid Technology. ActiveMQ pour le grand collisionneur de hadrons (LHC) Lionel Cons Grid Technology Group Information Technology Department

Le e s tocka k ge g DAS,NAS,SAN

EMC AVAMAR. Logiciel et système de sauvegarde avec déduplication

Une solution de stockage VDI unifiée, flexible et disponible pour vos utilisateurs

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ

Description de SQL SERVER. historique

Système de stockage IBM XIV Storage System Description technique

Informatique pour scientifiques hiver Plan général Systèmes d exploitation

Chapitre VII : Principes des réseaux. Structure des réseaux Types de réseaux La communication Les protocoles de communication

Le Client/Serveur avec Enterprise Miner version 4

Système de Stockage Sécurisé et Distribué

EMC AVAMAR. Logiciel et système de sauvegarde avec déduplication AVANTAGES CLÉ S INCONVÉ NIENTS DE LA SAUVEGARDE ET DE LA RESTAURATION TRADITIONNELLES

Technologie de déduplication de Barracuda Backup. Livre blanc

L offre Stockage et serveurs System x / BladeCenter F.Libier, Business Partner Technical Manager

Gestion de clusters de calcul avec Rocks

JRES 2007 Solution de stockage répartie sur les centres de recherche INRIA, à base de serveurs de fichiers de type «NAS»

Configurations maximales

Mise en place d'un cluster GFS

Concepts et systèmes de stockage

LE SAN ET LE NAS : LE RESEAU AU SERVICE DES DONNEES

Easy as NAS Supplément Entreprises. Guide des solutions

Oracle Maximum Availability Architecture

Proce dure Installation Cluster de basculement SQL Server 2005

Fiche Technique. Cisco Security Agent

Consolidation de stockage

Sauvegarde et restauration EMC Avamar en environnement VMware

Haute Disponibilité High-Availability : HA. Les enjeux

FAMILLE EMC RECOVERPOINT

Sauvegarde EMC pour solutions SAP HANA prêtes pour le datacenter. EMC Data Domain avec DD Boost

Les Content Delivery Network (CDN)

EMC AVAMAR. Logiciel et système de sauvegarde avec déduplication AVANTAGES CLÉS INCONVÉNIENTS DE LA SAUVEGARDE ET DE LA RESTAURATION TRADITIONNELLES

L état de l ART. Évolution récente des technologies. Denis Szalkowski Formateur Consultant

en version SAN ou NAS

Thomas Briet Ingenieurs 2000 Cyril Muhlenbach

Fourniture d une solution complète destinée au stockage sécurisé de données scientifiques

VMware ESX/ESXi. 1. Les composants d ESX. VMware ESX4 est le cœur de l infrastructure vsphere 4.

Livre. blanc. Solution Hadoop d entreprise d EMC. Stockage NAS scale-out Isilon et Greenplum HD. Février 2012

Consolidation. Grid Infrastructure avec la 11gR2

Stockage des machines virtuelles d un système ESXi jose.tavares@hesge.ch & gerald.litzistorf@hesge.ch

Sommaire. 3. Les grands principes de GFS L architecture L accès de fichier en lecture L accès de fichier en écriture Bilan

THÈSE. Réseaux rapides et stockage distribué dans les grappes de calculateurs : propositions pour une interaction efficace

vbladecenter S! tout-en-un en version SAN ou NAS

Le Network File System de Sun (NFS)

Systèmes de fichiers réseau

Sécurité de l Infrastructure

Solutions NAS Hitachi

Protection des données avec les solutions de stockage NETGEAR

Architectures d implémentation de Click&DECiDE NSI

Version de novembre 2012, valable jusqu en avril 2013

Internet et Programmation!

CORBA. (Common Request Broker Architecture)

PERFORMANCES EXCEPTIONNELLES ET EFFICACITÉ EMC POUR MICROSOFT SQL SERVER

Réseau longue distance et application distribuée dans les grilles de calcul : étude et propositions pour une interaction efficace

Java et les bases de données

ADMINISTRATION EXADATA

Exécutif temps réel Pierre-Yves Duval (cppm)

Systèmes répartis. Fabrice Rossi Université Paris-IX Dauphine. Systèmes répartis p.1/49

ViSaGe. Virtualisation du Stockage dans les Grilles. Informatiques. RenPar 16, 6-8 Avril 2005 Thiebolt François

SQL Server 2008 et YourSqlDba

ORACLE EXADATA DATABASE MACHINE X2-8

NOTIONS DE RESEAUX INFORMATIQUES

Technologie Netapp. Novembre 2010

Performances. Gestion des serveurs (2/2) Clustering. Grid Computing

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

Systèmes et algorithmes répartis

RAPPORT D'AUDIT - SÉCURITÉ ET PERFORMANCES DES SERVEURS

ORACLE EXADATA DATABASE MACHINE X2-2

Présentation Infrastructure DATACENTRE

<Insert Picture Here> Exadata Storage Server et DB Machine V2

Architecture des calculateurs

Vous êtes bien à la bonne présentation, c est juste que je trouvais que le titre de cette présentation étais un peu long,

VIRTUALISATION : MYTHES & RÉALITÉS

VMware vsphere 5 au sein du Datacenter Complément vidéo : La configuration et la sécurisation de l'esx

1. Introduction à la distribution des traitements et des données

Cours 6. Sécurisation d un SGBD. DBA - M1ASR - Université Evry 1

Le Raid c est quoi? Comment ca marche? Les différents modes RAID :

Symantec Backup Exec Remote Media Agent for Linux Servers

L unique SAN industriel proposant un stockage multiniveau automatisé (Automated Tiered Storage)

Transcription:

Mathrice 2007 - IHP 1 / 44 Clusters de stockage : GlusterFS David Delavennat Centre de Génétique Moléculaire Rencontres Mathrice, Octobre 2007

Mathrice 2007 - IHP 2 / 44 Plan 1 RAIN 2 Infiniband 3 Traducteurs 4 GlusterFS 5 Exemples

Mathrice 2007 - IHP 3 / 44 Plan 1 RAIN Définition Description 2 Infiniband 3 Traducteurs 4 GlusterFS 5 Exemples

Mathrice 2007 - IHP 4 / 44 Redondant Array of Inexpensive Node Définition L architecture RAIN (Reliable Redundant Random Array of Inexpensive Independant Nodes) est au départ un sujet de recherche partant d une vraie réflexion d informatique théorique pour s appliquer aux applications critiques des entreprises. Les chercheurs voulaient développer un modèle informatique distribué pour le stockage à base de composants standards. Le sujet a été étudié aux états-unis par CalTech (l Institut de Technologie de Californie), le laboratoire JPL (Jet Propulsion) de la NASA et par le DARPA (Defense Advanced Research Projects Agency, département de la défense).

Mathrice 2007 - IHP 5 / 44 Redondant Array of Inexpensive Node Description Distribution entre les noeuds assurée par des assemblages dits Maximum Distance Separable Array Codes permettant de calculer une répartition des données et d assurer le recouvrement en cas de défaillance d un élément de la chaîne. Auto-reconfiguration en cas de panne d un constituant, d un ajout ou d un retrait d un noeud du cluster. Aucune limite du nombre de noeuds.

Mathrice 2007 - IHP 6 / 44 Redondant Array of Inexpensive Node Description La couche RAIN fournit un mécanisme d équilibre de charge au sein du cluster pour les requêtes entrantes et sa philosophie de redondance permet d accepter plusieurs défaillances de plusieurs éléments de la configuration : noeud, interface ou lien réseau, switch, stockage ou noeud complet. Côté configuration, il peut être envisagé de déporter certains noeuds et de mixer des liens LAN et WAN pour rigidifier le cluster.

Mathrice 2007 - IHP 7 / 44 Redondant Array of Inexpensive Node Description Gestion de fichiers, pas de disques. Evolutivité multi-dimensionnelle : performance, capacité, redondance Donnée éclatée/répliquée/distribuée entre plusieurs entités. Redondance assurée avec une finesse importante contrairement à une approche massive type RAID, coûteuse en reconstruction, qui fonctionne au niveau volume ou lun.

Mathrice 2007 - IHP 8 / 44 Redondant Array of Inexpensive Node Description Répartition des fragments de fichiers sur plusieurs unités permettant d aggréger la bande passante, de contrôler et limiter le temps de traitement. Petit et gros fichiers ne seront pas divisé dans le même nombre de fragments. Les datas ne peuvent plus vivre avec les meta-datas comme les systèmes de fichiers de conception "ancienne" le faisaient.

Mathrice 2007 - IHP 9 / 44 Redondant Array of Inexpensive Node Schéma

Mathrice 2007 - IHP 10 / 44 Plan 1 RAIN 2 Infiniband Architecture Débits Points Techniques 3 Traducteurs 4 GlusterFS 5 Exemples

Mathrice 2007 - IHP 11 / 44 Infiniband Architecture

Mathrice 2007 - IHP 12 / 44 Infiniband Architecture

Mathrice 2007 - IHP 13 / 44 Infiniband Débits 20Go/s point à point 60Go/s commutateurs à commutateurs 120Go/s en prévision NOTE : Fiber-Channel tourne à 10Go/s maximum

Mathrice 2007 - IHP 14 / 44 Infiniband Points Techniques Infiniband n est pas concu autour des standards Ethernet/IP utilise la notion de Remote Direct Memory Access les cartes infiniband accèdent directement à la mémoire des noeuds distants accès en lecture comme en ecriture

Mathrice 2007 - IHP 15 / 44 Infiniband Pile logicielle verbs : commandes élémentaires envoyées à la carte infiniband (bibliothèque ibverbs) Direct Access Programming Library : interface de plus haut niveau. kdapl en espace noyau, udapl en espace utilisateur Socket Direct Protocol : émulation de socket sur Infiniband SCSI RDMA Protocol : accès distant par infiniband à des disques SCSI IPoIB : IP sur Infiniband

Mathrice 2007 - IHP 16 / 44 Plan 1 RAIN 2 Infiniband 3 Traducteurs Hurd Fuse 4 GlusterFS 5 Exemples

Mathrice 2007 - IHP 17 / 44 Traducteurs Genèse Développement du noyau Hurd par la FSF à partir de 1990 Paradigme objet Le Virtual File System unix offre un système de nommage déterministe au travers de sa structure arborescente. Programme associé à un noeud/fichier du VFS. Comparable à un trigger de base de donnée. Rappel : sous unix un répertoire est un fichier.

Mathrice 2007 - IHP 18 / 44 Traducteurs Les classes de traducteur Hurd TrivFS ne s attache qu a un seul noeud NetFS s attache à un noeud de type répertoire et crée une arborescence DiskFS semblable à NetFS mais spécifiquement conçu pour un usage avec une unité physique

Mathrice 2007 - IHP 19 / 44 Traducteurs Traducteur Hurd Il effectue une action en réaction à un évènement (ouverture, écriture, modification des droits...) lié au noeud auquel il est associé La pile TCP/IP, l exécution de binaire ou le système de fichier ext2 fonctionne au travers de traducteurs Mode actif : association entre le traducteur et le noeud VFS jusqu au prochain redémarrage Mode passif : démon/service

Mathrice 2007 - IHP 20 / 44 Traducteur Filesystem in Userland API simple Portable (pas besoin de patch noyau) La bibliothèque et le module noyau de FUSE communiquent au travers du fichier spécial /dev/fuse. Interface entre le paradigme unix et le paradigme hurd

Mathrice 2007 - IHP 21 / 44 Fuse Exemple

Mathrice 2007 - IHP 22 / 44 Plan 1 RAIN 2 Infiniband 3 Traducteurs 4 GlusterFS Architecture Traducteurs 5 Exemples

Mathrice 2007 - IHP 23 / 44 GlusterFS Architecture

Mathrice 2007 - IHP 24 / 44 GlusterFS Architecture

Mathrice 2007 - IHP 25 / 44 Traducteur de stockage Posix GlusterFS s appuie sur un système de fichier traditionnel (Ext3 ou XFS) Le traducteur POSIX fait le lien entre le serveur GlusterFS et le système de fichier sous-jacent 1 volume posix1 2 type storage / posix 3 o p t i o n d i r e c t o r y / home / export 4 end volume

Mathrice 2007 - IHP 26 / 44 Traducteurs d agrégat Automatic-File-Replicator réplication de fichiers en fonction d un motif la réplication est faite dans l ordre de déclaration des sous-volumes le système de fichier sous-jacent doit supporter les attributs étendus 1 volume a f r 2 type c l u s t e r / a f r 3 subvolumes b r i c k 1 b r i c k 2 b r i c k 3 b r i c k 4 4 o p t i o n r e p l i c a t e. html : 2,. db : 1, : 3 5 #. html => brick1, b r i c k 2 6 #. db => b r i c k 1 7 # l e r e s t e => brick1, brick2, b r i c k 3 8 # r i e n sur b r i c k 4 9 end volume

Mathrice 2007 - IHP 27 / 44 Traducteurs d agrégat Unify unifie plusieurs bricks en un seul volume la distribution des fichiers se fait selon l ordonnanceur choisit 1 volume u n i f y 2 type c l u s t e r / u n i f y 3 subvolumes b r i c k 1 b r i c k 2 b r i c k 3 b r i c k 4 b r i c k 5 b r i c k 6 b r i c k 7 b r i c k 8 4 # ne d o i t pas ê t r e un subvolumes 5 o p t i o n namespace b r i c k ns 6 # ordonnanceur round r o b i n 7 o p t i o n scheduler r r 8 end volume

Mathrice 2007 - IHP 28 / 44 Traducteurs d agrégat Stripe découpe les fichiers en block de taille block-size et les répartit sur les sous-volumes en fonction d un motif le système de fichier sous-jacent doit supporter les attributs étendus 1 volume s t r i p e 2 type c l u s t e r / s t r i p e 3 subvolumes b r i c k 1 b r i c k 2 b r i c k 3 b r i c k 4 4 o p t i o n block size a v i :10MB, mpg, dat :100MB 5 # a v i => decoupé en block de 10Mo, 6 # dat => decoupé en block de 100Mo 7 # mpg => découpé en block de 128Ko ( défaut ) 8 end volume

Mathrice 2007 - IHP 29 / 44 Traducteurs d ordonnancement Adaptive Least Usage C est l ordonnanceur le plus puissant disponible. Il s adapte dynamiquement aux différentes caractéritiques spécifiées. disk-usage read-usage write-usage open-files-usage disk-speed-usage peu utile, cette valeur étant constante

Mathrice 2007 - IHP 30 / 44 Traducteurs d ordonnancement Adaptive Least Usage 1 volume b r i c k s 2 type c l u s t e r / u n i f y 3 subvolumes b r i c k 1 b r i c k 2 b r i c k 3 b r i c k 4 4 o p tion scheduler alu # use the ALU scheduler 5 o p tion alu. l i m i t s. min free disk 5% 6 o p tion alu. l i m i t s. max open f i l e s 10000 7 o p tion alu. order disk usage 8 o p tion alu. disk usage. entry t h r e s h o l d 2GB 9 # 2048 60=1988 10 o ption alu. disk usage. e x i t t h r e s h o l d 60MB 11 o ption alu. s t a t r e f r e s h. i n t e r v a l 10sec 12 o ption alu. s t a t r e f r e s h. num f i l e create 10 13 end volume

Mathrice 2007 - IHP 31 / 44 Traducteurs d ordonnancement Non-Uniform Filesystem Scheduler utilisé en environnement HPC donne une priorité d accès au système de fichier local par rapport à celui des autres noeuds 1 volume posix1 # stockage l o c a l au noeud 2 type storage / posix 3 o p t i o n d i r e c t o r y / home / export 4 end volume 5 volume b r i c k s 6 type c l u s t e r / u n i f y 7 subvolumes posix1 b r i c k 2 b r i c k 3 b r i c k 4 8 o p t i o n scheduler nufa 9 o p t i o n nufa. l o c a l volume name posix1 10 o p t i o n nufa. l i m i t s. min free disk 5% 11 end volume

Mathrice 2007 - IHP 32 / 44 Traducteurs d ordonnancement Random 1 volume b r i c k s 2 type c l u s t e r / u n i f y 3 subvolumes b r i c k 1 b r i c k 2 b r i c k 3 b r i c k 4 4 o p t i o n scheduler random 5 o p t i o n random. l i m i t s. min free disk 5% 6 end volume

Mathrice 2007 - IHP 33 / 44 Traducteurs d ordonnancement Round-Robin 1 volume b r i c k s 2 type c l u s t e r / u n i f y 3 subvolumes b r i c k 1 b r i c k 2 b r i c k 3 b r i c k 4 4 o p t i o n scheduler r r 5 o p t i o n r r. l i m i t s. min free disk 5% 6 o p t i o n r r. refresh i n t e r v a l 10 7 end volume

Mathrice 2007 - IHP 34 / 44 Traducteurs d export Serveur 1 volume server 2 type p r o t o c o l / server 3 o p t i o n t r a n s p o r t type tcp / server 4 # o p t i o n t r a n s p o r t type ib sdp / server 5 # o p t i o n t r a n s p o r t type ib verbs / server 6 # o p t i o n ib verbs work request recv s i z e 1048576 7 # o p t i o n ib verbs work request recv count 16 8 # o p t i o n ib verbs work request send s i z e 1048576 9 # o p t i o n ib verbs work request send count 16 10 # o p t i o n bind address 192.168.1.10 11 # o p t i o n l i s t e n p o r t 6996 12 # o p t i o n c l i e n t volume filename / etc / c l i e n t. v o l 13 subvolumes b r i c k 1 b r i c k 2 14 o p t i o n auth. i p. b r i c k 1. allow 192.168. 15 o p t i o n auth. i p. b r i c k 2. allow 192.168. 16 end volume

Mathrice 2007 - IHP 35 / 44 Traducteurs d export Client 1 volume c l i e n t 1 2 type p r o t o c o l / c l i e n t 3 o p t i o n t r a n s p o r t type tcp / c l i e n t 4 # o p t i o n t r a n s p o r t type ib sdp / c l i e n t 5 # o p t i o n t r a n s p o r t type ib verbs / c l i e n t 6 # o p t i o n ib verbs work request recv s i z e 1048576 7 # o p t i o n ib verbs work request recv count 16 8 # o p t i o n ib verbs work request send s i z e 1048576 9 # o p t i o n ib verbs work request send count 16 10 o p t i o n remote host 192.168.1.10 11 o p t i o n remote p o r t 6996 12 o p t i o n t r a n s p o r t timeout 30 13 o p t i o n remote subvolume b r i c k 14 end volume

Mathrice 2007 - IHP 36 / 44 Traducteurs divers Posix-locks support des verrous POSIX (verrou fcntl) indépendamment du stockage sous jacent. s utilise coté serveur en surcouche du traducteur de stockage POSIX. fournit des verrous de type consultatif (advisory) et obligatoire (mandatory) 1 volume locks 2 type f e a t u r e s / posix locks 3 subvolumes b r i c k 4 end volume

Mathrice 2007 - IHP 37 / 44 Traducteurs divers Trash 1 volume t r a s h 2 type f e a t u r e s / t r a s h 3 o p t i o n trash d i r /. trashcan 4 subvolumes b r i c k 5 end volume

Mathrice 2007 - IHP 38 / 44 Traducteurs de performance Read-Ahead pré-charge une séquence de blocks selon des prédictions de besoin accélère les lectures consécutives aggrège les entrées/sorties afin de réduire la charge réseau et la charge disque NOTE : Ce traducteur marche bien avec le transport infiniband. Sans read-ahead on peut saturer des interfaces GigaEthernet. 1 volume readahead 2 type performance / read ahead 3 o p t i o n page size 128kB # 256Ko par d é f a u l t 4 o p t i o n page count 16 # 16 5 o p t i o n force atime update o f f # o f f 6 subvolumes <x> 7 end volume

Mathrice 2007 - IHP 39 / 44 Traducteurs de performance Write-Behind En général les opérations d écriture sont plus lentes que les opérations de lecture. write-behind aggrège les opérations d écriture en arrière plan de manière non bloquante. aggregate-size définie la taille de block à aggréger avant écriture. Différentes valeurs sont à tester afin de trouver la taille optimale en fonction de l environnement (mémoire, transport, charge). 1 volume writebehind 2 type performance / w r i t e behind 3 o p t i o n aggregate size 1MB # 0bytes par défaut 4 o p t i o n f l u s h behind on # o f f 5 subvolumes <x> 6 end volume

Mathrice 2007 - IHP 40 / 44 Traducteurs de performance Threaded-IO optimise l usage des ressources lors des lectures/écritures asynchrones. le CPU, la mémoire, et le réseau ne sont pas solicités lorsque le serveur est bloqué sur des opérations DMA disques. les temps de blocage pour achèvement de certaines opérations sont utilisés pour gérer de nouvelles requettes. 1 volume i o t h r e a d s 2 type performance / io threads 3 o p t i o n thread count 4 # 1 par défaut 4 o p t i o n cache size 32MB # 64MB 5 subvolumes <x> 6 end volume

Mathrice 2007 - IHP 41 / 44 Traducteurs de performance IO-Cache 1 volume io cache 2 type performance / io cache 3 o p t i o n cache size 64MB # défaut 32Mo 4 o p t i o n page size 1MB # 128Ko 5 o p t i o n p r i o r i t y. h : 3,. html : 2, : 1 # :0 6 o p t i o n force r e v a l i d a t e timeout 2 # 1 7 subvolumes <x> 8 end volume

Mathrice 2007 - IHP 42 / 44 Traducteurs de performance Stat Pre-fetch récupère les informations de tous les fichiers du répertoire en une seule opération améliore les temps de réponse des commandes interactives 1 volume s t a t performance 2 type performance / s t a t p r e f e t c h 3 o p t i o n cache seconds 1 # Timeout. 4 subvolumes <x> 5 end volume

Mathrice 2007 - IHP 43 / 44 Plan 1 RAIN 2 Infiniband 3 Traducteurs 4 GlusterFS 5 Exemples Haute Disponnibilité?

Mathrice 2007 - IHP 44 / 44 Exemples Clustered Mode deux briques configurées en mode cluster AFR chaque brique mirror l autre cf fichiers de config...