Réseaux rapides et stockage distribué dans les grappes de calculateurs :



Documents pareils
THÈSE. Réseaux rapides et stockage distribué dans les grappes de calculateurs : propositions pour une interaction efficace

Détection d'intrusions en environnement haute performance

CORBA haute performance

Réseau longue distance et application distribuée dans les grilles de calcul : étude et propositions pour une interaction efficace

Communications performantes par passage de message entre machines virtuelles co-hébergées

Limitations of the Playstation 3 for High Performance Cluster Computing

1.1. Stockage HP StoreVirtual 4000

Technologie SDS (Software-Defined Storage) de DataCore

ViSaGe. Virtualisation du Stockage dans les Grilles. Informatiques. RenPar 16, 6-8 Avril 2005 Thiebolt François

WEA Un Gérant d'objets Persistants pour des environnements distribués

Symantec Backup Exec Remote Media Agent for Linux Servers

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters AVANTAGES

LES APPROCHES CONCRÈTES POUR LE DÉPLOIEMENT D INFRASTRUCTURES CLOUD AVEC HDS & VMWARE

Licences Windows Server 2012 R2 dans le cadre de la virtualisation

Concepts et systèmes de stockage

Le stockage. 1. Architecture de stockage disponible. a. Stockage local ou centralisé. b. Différences entre les architectures

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

Livre blanc Haute disponibilité sous Linux

Architecture des calculateurs

en version SAN ou NAS

Cours 13. RAID et SAN. 2004, Marc-André Léger

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters

SAN AoE (ATA over Ethernet)

vbladecenter S! tout-en-un en version SAN ou NAS

Configurations maximales

KASPERSKY SECURITY FOR BUSINESS

Hyper-V Virtualisation de serveurs avec Windows Server 2008 R2 - Préparation à l'examen MCTS

Hyper-V et SC Virtual Machine Manager sous Windows Server 2008 R2

Copyright Eurice Diffusion interdite

Le modèle client-serveur

Utilisation de matériels industriels avec des outils de virtualisation open source. Open Source dans le monde industriel

Gestion répartie de données - 1

Fiche d identité produit

INSTITUT NATIONAL POLYTECHNIQUE DE GRENOBLE THÈSE

Module : Virtualisation à l aide du rôle Hyper-V

Rapport d activité. Mathieu Souchaud Juin 2007

VMware vsphere 5 Préparation à la certification VMware Certified Professional 5 Data Center Virtualization (VCP5-DCV) - Examen VCP510

Architecture de la grille

VLAN Virtual LAN. Introduction. II) Le VLAN. 2.1) Les VLAN de niveau 1 (Port-based VLAN)

Acronis Backup & Recovery 10 Advanced Server Virtual Edition. Guide de démarrage rapide

//////////////////////////////////////////////////////////////////// Administration systèmes et réseaux

2. MAQUETTAGE DES SOLUTIONS CONSTRUCTIVES. 2.2 Architecture fonctionnelle d un système communicant.

Infrastructures Parallèles de Calcul

DIRAC : cadre et composants pour créer des systèmes de calcul distribués

Windows Azure Platform Développez, déployez et administrez pour le Cloud Microsoft

<Insert Picture Here> Solaris pour la base de donnés Oracle

mai-2008 Infogérance des serveurs conçus par SIS alp 1

SPECIFICATION ET DESCRIPTION DU MULTICAST FIABLE DANS ETOILE

INF6500 : Structures des ordinateurs. Sylvain Martel - INF6500 1

«clustering» et «load balancing» avec Zope et ZEO

Installation de Vmware serveur Windows

18 TCP Les protocoles de domaines d applications

Logiciel de gestion d'imprimantes MarkVision

Consolidation. Grid Infrastructure avec la 11gR2

Contributions à l expérimentation sur les systèmes distribués de grande taille

Solutions de stockage réseau

Service d'installation et de démarrage de la solution de stockage réseau HP StoreEasy 1000/3000

Cluster High Performance Computing. Dr. Andreas Koch, Cluster Specialist

Sage CRM. 7.2 Guide de Portail Client

Projet Viticulture - TP 3 : bases de données distantes BTS Services informatiques aux organisations

Réseau Global MIDI Note applicative

L annuaire et le Service DNS

Stockage Réseau. Le stockage s'échappe du système pour devenir une fonction réseau

Windows Server Chapitre 1: Découvrir Windows Server 2008

Présentation d HyperV

Disponibilité d une architecture virtualisée avec VMware ESX-ESXi

Protection des données avec les solutions de stockage NETGEAR

Architecture des ordinateurs

Les clusters Linux. 4 août 2004 Benoît des Ligneris, Ph. D. benoit.des.ligneris@revolutionlinux.com. white-paper-cluster_fr.sxw, Version 74 Page 1

Unitt Zero Data Loss Service (ZDLS) La meilleure arme contre la perte de données

VMWare. Vmware: machine virtuelle Un véritable pc avec : VmWare

Prototype de canal caché dans le DNS

EMC DATA DOMAIN OPERATING SYSTEM

..seulement 5% des serveurs x86 sont virtualisés!

Migration d un Cluster Fiber Channel+SAN+Lames sous Xen vers Ethernet +iscsi+serveurs sous KVM

Cloud Computing Maîtrisez la plate-forme AWS - Amazon Web Services

Prise en compte des ressources dans les composants logiciels parallèles

FreeNAS Shere. Par THOREZ Nicolas

La continuité de service

Virtual I/O Server. ESCALA Power7 REFERENCE 86 F1 42FF 07

Linux embarqué: une alternative à Windows CE?

La Continuité d Activité

Runtime. Gestion de la réactivité des communications réseau. François Trahay Runtime, LaBRI sous la direction d'alexandre Denis Université Bordeaux I

Discussion autour d un réseau local

Virtualisation et sécurité Retours d expérience

EMC DATA DOMAIN HYPERMAX

Optimisation WAN de classe Centre de Données

CA ARCserve Backup Option NAS (Network Attached Storage) NDMP (Network Data Management Protocol)

Anatomie d'un cloud IaaS Représentation simplifiée

Fiche produit FUJITSU ETERNUS DX200F Baie de stockage Flash

Gestion de clusters de calcul avec Rocks

Master d'informatique 1ère année. Réseaux et protocoles. Architecture : les bases

Table des matières Chapitre 1 Virtualisation, enjeux et concepts Chapitre 2 Ligne de produit XEN

Grid Technology. ActiveMQ pour le grand collisionneur de hadrons (LHC) Lionel Cons Grid Technology Group Information Technology Department

Nos solutions Cloud Kain, le 27 mars 2013 Laurent Guelton, Administrateur Délégué. Copyright 2013 Orditech. Tous droits réservés. Version 2.

Serveur EMC/CX Solution de stockage hautes performances dotée d'une connectivité flexible

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

INSTITUT NATIONAL POLYTECHNIQUE DE GRENOBLE

Communication et connectivité

Le e s tocka k ge g DAS,NAS,SAN

Transcription:

Brice Goglin Équipe RESO - Laboratoire de l'informatique du Parallélisme Réseaux rapides et stockage distribué dans les grappes de calculateurs : propositions pour une interaction efficace Thèse réalisée sous la direction de Olivier Glück et Pascale Vicat-Blanc Primet

De plus en plus de données Diviser pour régner! Données Temps 15 Po par an au LHC Brice Goglin 2

Anatomie des grappes de calcul Nœuds de calcul Nœud de stockage Switch de réseau rapide (Myrinet, Quadrics, IB) pour communications durant calcul (10 Gbit/s, 1 µs) Bus Ethernet (Réseau banalisé : 1 Gbit/s, 100 µs) Brice Goglin 3

Problématique Stockage conçu pour les réseaux traditionnels Forte latence (de 100 µs à 10 ms) Apport des réseaux rapides pour le stockage? Réseaux rapides conçus pour applications MPI Communications optimisées pour l'espace utilisateur Intégration des spécificités des réseaux rapides dans les systèmes de stockage distribué? Transferts de données Contrôle des communications Brice Goglin 4

Contributions de la thèse Utilisation efficace des réseaux rapides pour le stockage distribué Étude des transferts de données et du contrôle des communications Mise en évidence des lacunes dans les interfaces de programmation réseau dans les systèmes d'exploitation Proposition pour une interface de programmation réseau adaptée au stockage distribué Intégration dans Myrinet Express Brice Goglin 5

Plan de l'exposé Contexte Étude préliminaire Analyse des problèmes Propositions pour une interface noyau adaptée Conclusion et perspectives Brice Goglin 6

Évolution des réseaux 1980 1985 1990 1995 2000 2005 10G Ethernet InfiniBand Gbit Ethernet Quadrics Myrinet MPI SCI Beowulf PVM Ethernet Brice Goglin 7

Des réseaux traditionnels Solutions dans les réseaux Problèmes rapides des réseaux traditionnels Copies mémoire (~1 µs) Coût protocolaire (~10 µs) Absence de recouvrement aux réseaux rapides Zéro copie (DMA) X OS Bypass Réseau fiable Traitement dans la carte Interface asynchrone Brice Goglin 8 X X X X X X

Évolution des systèmes de fichiers NFS Coda MPI-IO GFS 1980 1985 1990 1995 2000 2005 PVFS GPFS Lustre 10G Ethernet InfiniBand Gbit Ethernet Quadrics Myrinet MPI SCI Beowulf PVM Ethernet Brice Goglin 9

Stockage performant dans les grappes Techniques de cache (NFS, Coda,...) Évite de solliciter le serveur Très utilisé, même en dehors des grappes Parallélisation (PVFS, GFS, NFSp, Lustre,...) Permet d'augmenter la charge supportée par le serveur Transferts performants (DAFS) Utilisation du réseau rapide [Sandberg,85] [Ligon,99] [Magoutis,02] Brice Goglin 10

Utilisation des réseaux rapides pour le stockage distribué Apport de Myrinet sur PVFS indéniable Mais inférieur au gain attendu PVFS2 retourne en espace utilisateur pour les accès au réseau depuis le noyau it is not clear that we will have ready access to all networking APIs from within the kernel Lustre indisponible ou peu performant sur certains réseaux rapides Utilise des copies mémoire sur Myrinet/GM [Carns,00] [Ligon,01] Brice Goglin 11

Accès au stockage local Espace utilisateur Espace noyau Matériel Application Bibliothèque standard Virtual File System Ext3 XFS Block Device Layer IDE SCSI Disques Brice Goglin 12

Accès au stockage distant en espace utilisateur Application Client Modèle classique de programmation sur réseau rapide Serveur Bibliothèque standard Virtual File System Ext3 XFS Block Device Layer IDE SCSI Disques Brice Goglin 13

Accès au stockage distant en espace noyau Application Bibliothèque std Virtual File System Ext3 XFS Client Serveur Modèle classique du stockage distribué (NFS) Virtual File System Ext3 Block Device IDE XFS SCSI Disques Brice Goglin 14

Accès au stockage distant au niveau bloc Application Bibliothèque std Virtual File System Ext3 XFS Block Device Layer IDE SCSI Client Block Device Layer Serveur IDE SCSI Disques Brice Goglin 15

Analyse des interactions mises en jeu Application Client Serveur Réseau Réseau Stockage T StoC + T RegC + T AsyncC + T Reseau + T RegS + T AsyncS + T EventS + T StoS Brice Goglin 16

Plan de l'exposé Contexte Étude préliminaire Analyse des problèmes Propositions pour une interface noyau adaptée Conclusion et perspectives Brice Goglin 17

Hypothèses et contraintes Respect de l'interface standard de programmation Accès standard aux fichiers distants depuis n'importe quelle application Modèle client serveur (PVFS, Lustre) Solution complémentaire aux stratégies classiques (cache et parallélisation) Réseaux Myrinet, pilote GM Validation expérimentale Brice Goglin 18

Démarche expérimentale Plate forme expérimentale maîtrisée Éliminer les bruits et analyser les différents coûts Étude préliminaire dans le cadre du modèle classique des réseaux rapides Localiser les optimisations à proposer Comparer les différentes méthodes d'accès aux données distantes Espace utilisateur, noyau, blocs Brice Goglin 19

Étude préliminaire en espace utilisateur : Expérimentations Application Interface standard Bibliothèque Client GM, TCP Serveur Fichiers locaux ORFA, Optimized Remote File Access Chemin le plus rapide entre application et stockage Mesure des temps d'accès aux fichiers Lecture/écriture par appels à read/write Brice Goglin 20

Étude préliminaire en espace utilisateur : Résultats expérimentaux Mesures avec 1 client et 1 serveur Importance du débit du réseau Gérer efficacement les transferts de données Avec ou sans cache Faible impact de la latence Ne pas écarter les stratégies basées sur un cache côté client Nombreuses écritures concurrentes Dégradation des performances du serveur Brice Goglin 21

Plan de l'exposé Contexte Étude préliminaire Analyse des problèmes Propositions pour une interface noyau adaptée Conclusion et perspectives Brice Goglin 22

Communications traditionnelles Espace utilisateur Données @ virtuelle Copie mémoire Noyau Traduction d'adresse Carte réseau @ physique Réseau Brice Goglin 23

Communications Zéro copie Espace utilisateur Données @ virtuelle OS-Bypass + DMA Noyau Enregistrement mémoire Carte réseau Table de traduction @ physique Réseau Brice Goglin 24

Transferts de données dans le noyau Application Interface standard Virtual File System Cache Client ORFS GM, TCP Serveur ORFS Réseau Réseau Type d'accès choisi par l'application Accès zéro copie (O_DIRECT) Accès par le cache du système d'exploitation Brice Goglin 25

Accès zéro copie depuis le noyau Enregistrement de pages utilisateur depuis le noyau Distinguer les mêmes adresses virtuelles d'espaces d'adressage différents Modification de l'interface GM et du MCP Maintenir le cache d'enregistrement à jour Modification du système d'exploitation pour signaler les zones enregistrées invalides Infrastructure VMA Spy dans le noyau Linux Performances proches de celles en espace utilisateur Brice Goglin 26

Accès par le cache du noyau Enregistrement de pages du noyau? Pages verrouillées, non mappées en mémoire virtuelle, adresse physique disponible Enregistrement inapproprié Passage des adresses physiques à la carte réseau Ajout d'une interface GM basée sur l'adresse physique Modification du MCP Très simple à utiliser Gain en latence (1 µs) Brice Goglin 27

Évaluation des performances Brice Goglin 28

Notifications d'événements Le client attend Terminaison d'une communication particulière Le serveur attend Terminaison d'une communication quelconque Les deux stratégies rarement proposées à la fois Émulation par attente active ou threads Consommation processeur et latence (quelques µs) Besoins similaires à MPI Brice Goglin 29

Trafic concentré Modèle client serveur impose des messages inattendus Risque de gaspillage du débit utile Les clients doivent attendre l'accord du serveur Protocole contrôlé par le serveur Accès mémoire à distance initiés par le serveur Charge plus importante? Nécessité d'un contrôle de flux efficace dans l'interface de programmation réseau Même besoin que MPI Brice Goglin 30

Plan de l'exposé Contexte Étude préliminaire Analyse des problèmes Propositions pour une interface noyau adaptée Conclusion et perspectives Brice Goglin 31

Le pilote Myrinet Express Matériel réseau Myrinet apparu en 1995 Pilote officiel GM limité Nombreux travaux académiques (BIP,...) Nouveau pilote officiel Myrinet Express Interface de MX calquée sur MPI Répond aux besoins en contrôle des communications Intègre fonctionnalités avancées Performances meilleures que GM Brice Goglin 32

Apport : Une interface noyau dans MX Exposition de l'interface MX dans le noyau Optimisation pour ce contexte Extension gérant le type de mémoire mise en jeu Adressage virtuel utilisateur, virtuel noyau ou physique Assistance de l'application Facile à utiliser Optimisations de la mise en œuvre en tenant compte du type de mémoire Suppression de copies mémoire Brice Goglin 33

Performances des accès aux fichiers distants sur MX Brice Goglin 34

Impact des primitives vectorielles sur les accès par le cache Accès par pages multiples Brice Goglin 35

Impact des communications pipelinées sur les accès par le cache Brice Goglin 36

Performances des Sockets zéro copie sur MX Brice Goglin 37

Plan de l'exposé Contexte Étude préliminaire Analyse des problèmes Propositions pour une interface noyau adaptée Conclusion et perspectives Brice Goglin 38

Conclusion Gain important apporté par réseaux rapides Jusqu'à 95% du débit réseau Besoins complexes en transfert de données Très différent des communications en espace utilisateur Nécessité d'adapter l'interface de programmation et le système d'exploitation Brice Goglin 39

Conclusion (2/2) Propositions pour une interface de programmation adaptée aux besoins en transfert de données Intégrée à Myrinet MX Validation de l'utilisation de MX Performances et facilité d'utilisation Différentes méthodes de stockage distribué Protocole Sockets zéro copie Brice Goglin 40

Publications Goglin, Prylli. Performance Analysis of Remote File System Access on a High Speed Local Network. CAC'04 Workshop, IEEE IPDPS Conference. Santa Fe, Avril 2004. Goglin, Prylli. Transparent Remote File Access Through a Shared Library Client. PDPTA. Las Vegas, Juin 2004. Volume 3, pages 1131 1137. Goglin, Prylli, Glück. Optimizations of Client's side communications in a Distributed File System within a Myrinet Cluster. HSLN Workshop, IEEE LCN Conference. Tampa, Novembre 2004. Pages 726 733. Goglin, Glück, Primet, Mignot. Accès optimisés aux fichiers distants dans les grappes disposant d'un réseau rapide. RENPAR'16. Le Croisic, Avril 2005. Goglin, Glück, Primet. An Efficient Network API for in Kernel Applications in Clusters. IEEE Cluster 2005. Boston, Septembre 2005. Brice Goglin 41

Perspectives Mesure de l'impact combiné de nos travaux et des stratégies habituelles (parallélisation,...) Mise en œuvre de PVFS ou Lustre sur MX Poursuite des travaux avec Myricom Primitives vectorielles de communication Accès par pages ou blocs multiples Notifications réseau par l'interface standard d'entréessorties Gestion conjointe des événements disque et réseau Brice Goglin 42

Perspectives (2/3) Support générique pour les réseaux rapides dans les systèmes d'exploitation Travaux avec Quadrics, InfiniBand et les développeurs du noyau Linux Généralisation à Ethernet 10G RDMA et TOE présentent des problèmes similaires Support générique pour ces technologies et celles des réseaux rapides Brice Goglin 43

Perspectives (3/3) Généralisation aux grilles de calcul Protocole unique optimisé en courte et longue distance Sockets zéro copie sur les grappes Transition transparente Stockage dans les grilles Bonne interaction entre réseau et stockage Brice Goglin 44