JRES 2007 Solution de stockage répartie sur les centres de recherche INRIA, à base de serveurs de fichiers de type «NAS» 1 Laurent Mirtain, Jean-Luc Szpyrka Novembre 2007 v1.3.2 Date 1
2 JRES 2007 : Solution NAS de l INRIA Genèse du projet Description de la solution NAS Plan de reprise d activité (PRA) Modes d utilisation de nos NAS Bilan et perspectives Questions 2
3 JRES 2007 : Solution NAS de l INRIA Genèse du projet Description de la solution NAS Plan de reprise d activité (PRA) Modes d utilisation de nos NAS Bilan et perspectives Questions 3
4 2004 : État des lieux Inventaire des solutions de stockage et de sauvegarde de l INRIA. Lannion Nantes LORIA Strasbourg Nancy FUTURS Orsay Saclay Cachan INRIA Rhône-Alpes Grenoble FUTURS Bordeaux Données réparties sur ~ 100 machines (serveurs et stations) Besançon Lyon Montpellier Données centralisées sur 1 serveur NAS et ~10 serveurs Metz INRIA Paris Rocquencourt IRISA Rennes Données réparties sur ~ 20 machines (serveurs et stations) FUTURS Lille Données réparties ~200 machines (serveurs et stations) Marseille Données réparties sur ~600 machines (serveurs et stations) INRIA Sophia Antipolis 4
5 Conclusions de l étude Constat : des objectifs communs Centraliser les données importantes Simplifier la sauvegarde et réduire la durée de restauration des données critiques Établir un plan de reprise d activité Propositions Trouver une solution mutualisée Utilisant la technologie de serveurs NAS Création d un groupe de travail pour valider une solution et proposer une organisation 5
6 JRES 2007 : Solution NAS de l INRIA Genèse du projet Description de la solution NAS Plan de reprise d activité (PRA) Modes d utilisation de nos NAS Bilan et perspectives Questions 6
7 La solution A base de serveurs NAS répartis sur chaque site Complétée par une librairie de bandes raccordée à un serveur NAS central, sur lequel sont répliquées les données des NAS de site Acquisition via une procédure d appel d offres Marché notifié en décembre 2005, mise en service de janvier à février 2006 Comprend la fourniture de l ensemble des matériels et les prestations de services Le prestataire de ce marché est Stordata avec du matériel NetApp et StorageTek 7
Répartition 8 FAS270 FUTURS Lille FAS3020 FAS270 FAS250 FAS940 STK L1400 Metz Lannion INRIA Paris Rocquencourt IRISA Rennes Nantes LORIA Strasbourg Nancy FUTURS Orsay Saclay Cachan Lyon FAS3020c R200 Besançon INRIA Rhône-Alpes Grenoble FAS3020 FUTURS Bordeaux Montpellier Marseille FAS3020 INRIA Sophia Antipolis 8
9 Détail des configurations Site Grenoble Lille Metz Nancy Orsay Rennes Rocquencourt Sophia Modèle, capacité brute (type de disques) - FAS 3020, 16 TB (FC) - FAS 270, 6 TB (FC) - FAS 250, 144 GB (FC) - FAS 940, 4 TB (FC) - Nearstore R200 56 TB (ATA) - Librairie de bandes StorageTek L1400 de 300 Slots avec 3 lecteurs SDLT 600 - FAS 250, 1TB (FC) - FAS 3020 cluster, 18 TB (FC) + 14 TB (SATA) - FAS 3020 20 TB (FC) - FAS 3020 17 TB (SATA) Capacité brute de 152 TB 9
Caractéristiques matérielles 10 Garantir une haute disponibilité et permettre l'évolutivité Redondance des composants matériels Technologie RAID double parité (DP) autorisant la panne simultanée de deux disques sans perte de données Possibilité de faire cohabiter dans le même filer des groupes RAID Fibre Channel et SATA Facilités d extension de la volumétrie par ajout de tiroirs de disques Possibilité de configuration en cluster 10
Caractéristiques logicielles des équipements 11 Concept d Appliance Système d exploitation spécialisé (Data ONTAP ) Administrable via des commandes en ligne et une interface Web Support natif des protocoles NFS, CIFS, NIS, Active Directory, LDAP, Kerberos, iscsi, Fibre Channel, IPSec, NTP... Mécanisme de reboot «rapide» (moins de 2 minutes) Système de fichiers journalisé «Write Anywhere File Layout» (WAFL ) couplé à une mémoire cache NVRAM (protégée par batterie) pour optimiser les I/O Possibilité de redimensionner les volumes à chaud Mécanisme de quotas Support des modes de sécurité CIFS, NFS ou mixte Mécanisme intégré de sauvegarde sur disques permettant la restauration par l utilisateur Possibilité de répliquer des volumes vers un autre filer 11
Mécanisme de sauvegarde 12 Utilise un mécanisme de copie instantanée appelé «snapshot» (logiciel Snapshot ) Duplique uniquement les blocs d inodes, pas les blocs de données Peu de place (réserver ~20% du volume) Peu d I/O : rapidité et faible perturbation Snapshots accessibles en lecture aux utilisateurs 12
13 Mécanisme de réplication Le logiciel SnapMirror permet de répliquer les volumes de filer à filer au travers du réseau LAN ou WAN. 1. initialisation par recopie complète (à la création du miroir) 2. puis, synchronisation incrémentale, par recopie de snapshots 13
14 Mécanisme de virtualisation Le logiciel MultiStore permet de «découper» un filer en plusieurs filers virtuels (appelés vfiler) avec leurs propres ressources (configuration, volumes, interfaces réseau, domaines de sécurité, exports...) 14
JRES 2007 : Solution NAS de l INRIA 15 Genèse du projet Description de la solution NAS Plan de reprise d activité (PRA) Modes d utilisation de nos NAS Bilan et perspectives Questions 15
PRA : en théorie... 16 Son objet Permettre un accès aux données sur le NAS central en cas de panne prolongée du filer de site Reconstruire les volumes du filer de site une fois que celui-ci est réparé ou en cas d erreur humaine Restituer les données à partir des sauvegardes sur bandes en cas d une corruption de données sur le filer de site et sur le NAS de réplication 16
PRA : utilisation de plusieurs ressources 17 Virtualisation Équipe d exploitation Réplication Sauvegarde sur bandes Hotline Accès distant Filer central 17
PRA : procédure de basculement sur le filer de secours Sophia @IP1 filer 18 Nancy Réplication Réplication //@nas/partage @IPv1 vfiler @nas => @IPv1 @IP1 18
PRA...tique : réplication & sauvegarde 19 Réplication Plus de 37 flux de réplication (un flux par volume répliqué) déclenchés de manière échelonnée toutes les heures Taille totale des volumes répliqués : ~13 TB Taille cumulée par réplication horaire : ~10 GB Soit un flux de transfert continu d environ 20 Mbits/sec Volume transféré par heure : ~0,07% du volume global Volume transféré par jour : ~ 1,8% du volume global Sauvegarde sur bandes Via le logiciel Networker, en mode NDMP Une sauvegarde totale par semaine 19
PRA...tique : reconstruction & accès distant 20 Reconstruction de filer Nos raccordements Renater sont à 200 Mbits/sec : soit un maximum de 2 TB par 24 heures Nos volumétries NAS sont élevées : plusieurs jours pour reconstruire en entier un NAS Accès distant Temps de réponse NFS/CIFS entre 10 et 20 fois plus lent qu en mode local (copie, parcours d une arborescence...) Les temps de latence de nos liaisons WAN (entre 8 et 28 ms) sont pénalisants pour les protocoles NFS et CIFS 20
PRA...tique : quelques déboires 21 Des incidents inattendus Deux bogues logiciels ont provoqué une interruption de service Enregistrés officiellement chez NetApp (BugID 245282 et 248621) Dans un cas, l interruption a duré 8 heures. Dans l autre, quelques minutes. Le filer étant en configuration cluster, il a suffit de basculer tous les volumes sur le deuxième filer, encore opérationnel. 21
22 PRA : le bilan Le PRA n est pas utilisable comme nous l envisagions initialement Impossibilité de travailler en accès distant Reconstruction d un filer par le réseau trop longue Par contre Il fournit une solution de reprise sur sinistre Il permet d utiliser une solution de sauvegarde centralisée Nous devons faire évoluer notre solution Utilisation, lorsque nécessaire, d une solution de réplication locale permettre une reconstruction rapide et une utilisation en mode secours Mise en place, si besoin, de NAS en configuration cluster Augmenter le niveau de disponibilité 22
JRES 2007 : Solution NAS de l INRIA 23 Genèse du projet Description de la solution NAS Plan de reprise d activité (PRA) Modes d utilisation de nos NAS Bilan et perspectives Questions 23
Service de fichiers utilisateurs 24 Un NAS est avant tout un serveur de fichiers Ce mode d utilisation concerne l essentiel des données hébergées sur nos filers : homedirs utilisateurs profils itinérants espaces partagés par les équipes de recherche ou les services de support données d archivage ou temporaires Il représente environ 60% de la volumétrie globale de nos serveurs 24
25 Service applicatif en NFS Compte-tenu du niveau de disponibilité et de performance de nos NAS, de la sauvegarde intégrée et du PRA, nous avons tout intérêt à héberger sur nos NAS, nos données applicatives importantes Construction d un cluster heartbeat avec volume partagé en NFS NAS - fichiers et données du service applicatif LAN NFS NFS fichiers de l OS fichiers de l OS Cluster de 2 Serveurs 25
26 Service applicatif en iscsi Si l application ne supporte pas l utilisation d un volume NFS, en terme de fonctionnement ou de performance, il est alors possible d utiliser nos filers en mode bloc protocole iscsi (SAN IP) ou FCP (SAN Fibre Channel) NAS - LUN serveur LAN iscsi Serveur - fichiers de l OS 26
Optimiser la configuration réseau 27 Liens GbE, agrégats, auto négociation de bout en bout, jumbo frames, isolement du trafic data sur un VLAN «stockage» dédié 27
Déploiement de services : NetApp Library 28 Les guides techniques de NetApp Library fournissent des recommandations pour mettre en œuvre et optimiser le fonctionnement du service avec un filer Côté NAS Architecture haute disponibilité Répartition des données applicatives sur les volumes Ajustement des paramètres systèmes Côté serveur applicatif Options de montage NFS Ajustement des paramètres du noyau Coté application Ajustement des paramètres de configuration Déclenchement des snapshots 28
Panorama des services déployés 29 Apache : accès NFS attention aux fichiers de lock, suivre les recommandations de apache.org Oracle Calendar (base 10g) : accès NFS RAS, suivre les recommandations de NetApp Library MySQL : accès NFS attention au moteur de stockage Sauvegarde sur disques : iscsi Utilisation des initiateurs iscsi standard de Linux ou Windows En prévision Images virtuelles de serveurs IMAP 29
30 NFSv4 Déployé sur deux sites Les plus accès sécurisé mécanisme de disponibilité des données hors connexion NFSv4 a besoin d un service d authentification Kerberos, couplé à une base utilisateurs (ici, un annuaire LDAP) Implique la mise en place d une relation d'approbation entre les domaines Kerberos Windows et Linux NetApp considère ce service comme encore expérimental 30
31 Comparaison SCSI/iSCSI/NFSv3 dd: lecture en MB/s 1100 140 1000 alter-table 120 Résultat en secondes 900 Fig. 1 big-tables 800 700 Fig. 2 connect 600 500 100 SCSI 80 ISCSI 60 NFS 40 20 create 0 400 2GB 300 4GB 8GB 16GB insert Fig. 3 200 select 100 200 0 Disque local dd: écriture en MB/s Fig. 4 NAS (NFS) 150 SCSI ISCSI 100 Networker DBO : débit en MB/s NFS NFS optimisé NFS iscsi Sauvegarde (3 en //) 40 47 58 Restauration 45 57 44 50 0 2GB 4GB 8GB 16GB 31
JRES 2007 : Solution NAS de l INRIA 32 Genèse du projet Description de la solution NAS Plan de reprise d activité (PRA) Modes d utilisation de nos NAS Bilan et perspectives Questions 32
Bilan... 33 Sur 12 mois Déploiement de 7 serveurs NAS D une solution de sauvegarde centrale Des réplications entre NAS et d une procédure de PRA Volume de données utilisé sur nos serveurs NAS multiplié par cinq Ce projet a permis de renouveler les solutions de stockage et de construire une solution mutualisée Évolutive : supporte l augmentation de volumétrie et le rajout de serveurs NAS sans casser l existant Permet de construire des services applicatifs sécurisés Mise en place d une équipe d exploitation multi localisée Gain d exploitation procuré par l accès aux snapshots par l utilisateur 33
... et perspectives 34 PRA à améliorer Accès au filer de secours Reconstruction de volumes Évolutions prévues Répondre aux besoins d extensions en filers et volumétrie Prendre en compte la haute disponibilité, avec des solutions de cluster NAS sur les sites Bilan très positif mais encore du travail 34
JRES 2007 : Solution NAS de l INRIA 35 Genèse du projet Description de la solution NAS Plan de reprise d activité (PRA) Modes d utilisation de nos NAS Bilan et perspectives Questions 35
36 Annexe (quelques transparents pour les questions) Solution NAS JRES 2007 L. Mirtain JL Szpyrka 36
Mécanisme de sauvegarde (2) 37 Ces caractéristiques nous permettent de multiplier les sauvegardes 37
38 Modes de sécurité Pour changer les permissions Unix sur un espace partagé en mode de sécurité Unix depuis un client Windows. Outil «SecureShare» fourni par NetApp (plugin), déployé sur les postes Windows Pour changer les permissions sur un espace partagé en mode de sécurité Windows depuis un client Unix. Fonctionnalités des clients Samba SecureShare 38
Mécanisme de sauvegarde (3) 39 La restauration des fichiers accessible aux utilisateurs! Windows visualiser/restaurer/copier les différentes sauvegardes d un fichier/répertoire via le menu «Propriétés > Versions Précédentes» 39
Mécanisme de sauvegarde (4) 40 Unix Accès via le répertoire.snapshot (en lecture seule) Restauration avec cp Attention : inodes identiques! pb avec commandes diff, cmp... Astuce : diff fichier <.snapshot/.../fichier 40
Base de données Oracle 10g 41 Oracle sur NFS? NetApp certifie la compatibilité de ses filers avec les principaux SGBD du marché (Oracle, Sybase, Microsoft SQL Server, MySQL Enterprise Edition...) Exemples de recommandations : Séparer sur différents volumes, les fichiers de données, les fichiers journaux Des options de montage NFS spécifiques Des procédures de sauvegardes Notre utilisation actuelle : base Oracle 10g pour le logiciel Oracle Calendar (Oracle Collaboration Suite) Notre service Oracle hébergé sur NAS fonctionne bien jusqu à ce jour 41
42 Base de données MySQL MySQL sur NFS? NetApp certifie MySQL Enterprise avec ses solutions NAS MySQL dissuade d utiliser NFS (problèmes potentiels liés aux verrous (lock) NFS des fichiers) Notre configuration : base Tests concluants avec sqlbench (robustesse et performances) Notre service Mysql hébergé sur NAS donne toute satisfaction jusqu à ce jour 1100 1000 alter-table 900 Résultat en secondes MySQL pour un serveur Web (moteur non transactionnel MyISAM) big-tables 800 700 connect 600 500 create 400 300 insert 200 select 100 0 Disque local NAS (NFS) 42
43 Sauvegarde sur disques Utilisé en iscsi pour de la sauvegarde sur disques (Networker DBO) Depuis un serveur Linux RHEL v4 Et un serveur Windows 2003 Server Sur les recommandations de Dell Pas de carte matérielle iscsi (HBA) spécifique, mais une deuxième carte dual port GbE ; Utilisation des initiateurs iscsi standard de ces OS. Les recommandations de NetApp Configuration/optimisation du driver iscsi côté client et côté NAS Pour Linux : partitionner (fdisk) le LUN en alignant sa géométrie avec celle des blocs de 4096 bytes de WAFL (performances) 43
44 ISCSI (3) Comparaison SCSI/iSCSI/NFS Ecriture (dd) 42,5 40 37,5 35 32,5 30 27,5 25 22,5 20 17,5 15 12,5 10 7,5 5 2,5 0 75 70 65 60 55 SCSI iscsi NFS Durée en sec Durée en sec Lecture (dd) 50 45 40 SCSI iscsi NFS 35 30 25 20 15 10 5 0 5 10 20 50 100 200 500 Taille en MB 700 1000 5 10 20 50 100 200 500 700 1000 Taille en MB 44
45 ISCSI (4) Comparaison SCSI/iSCSI/NFS tiobench : débit en lecture tiobench : débit en écriture 100 1800 90 1600 80 1400 70 Mbits/sec 1200 1000 SCSI iscsi 800 NFS 600 Mbits/sec 2000 60 SCSI iscsi NFS 50 40 30 400 20 200 10 0 0 5 10 20 50 100 200 500 Taille en MB 700 1000 1 5 10 20 50 100 200 500 700 1000 Taille en MB 45
46 ISCSI (5) Comparaison SCSI/iSCSI/NFS Test Postmark 182,37 file_read_par_sec 984,8 289,65 mb_read_per_sec 0,3834 1,0543 0,2365 mb_write_per_sec 4,3428 11,9427 2,6787 370,37 transaction_par_sec 2000 588,24 SCSI 2083,33 file_creation_par_sec 806,45 2081,5 file_delete_par_sec 4163 805,74 184,37 file_creation_par_sec 292,82 186 file_delete_par_sec 295,41 0 1000 iscsi NFS 4166,67 995,6 1004,4 2000 3000 4000 5000 46