Gestion de clusters de calcul avec Rocks



Documents pareils
Guide de Tarification. Introduction Licence FD Entreprise Forfaits clé en main SaaS SaaS Dédié SaaS Partagé. Page 2 Page 3 Page 4 Page 5 Page 8

Architecture de serveurs virtualisés pour la communauté mathématique

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

Problématique. Techniques générales. Déploiement Windows. Déploiement Linux. Déploiement Mac OS X. Applications Windows. Applications Linux

Grid 5000 : Administration d une infrastructure distribuée et développement d outils de déploiement et d isolation réseau

Tour des Unités du C.I.A.M. Tour des Unités du C.I.A.M. Maurice Baudry Laboratoire Statistique & Génome, Évry.

VMWARE VSPHERE ESXI INSTALLATION

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

ParallelKnoppix. Majid Hameed. Copyright 2005 Majid Hameed. Copyright 2005 Gauthier Savart. Copyright 2005 Joëlle Cornavin

Grid5000 aujourd'hui : Architecture & utilisation

Sauvegarde des données au LAAS

SAN AoE (ATA over Ethernet)

Automatisation de l administration système avec

Plan de cette matinée

Infrastructures Parallèles de Calcul

VMware ESX/ESXi. 1. Les composants d ESX. VMware ESX4 est le cœur de l infrastructure vsphere 4.

NetCrunch 6. Superviser

Chapitre 2. Cluster de calcul (Torque / Maui) Grid and Cloud Computing

Open Source Job Scheduler. Installation(s)

Retour d expérience de la plateforme de virtualisation sous Proxmox VE à l IPHC journée SysAdmin du 04/12/2014 à l INRA de Toulouse

En ce moment (24/01/2014), Super bon plan: Micro Serveur HP Proliant G7 N54L à 159 ttc Plus d'informations sur dealabs.com

Configuration matériel. Tâche 2 : Installation proprement dite de l application sur un serveur de test virtualisé sous VmWare Workstation.

Cluster de calcul Freeware en Océanographie Opérationnelle

Mise en place d'un cluster

Sébastien Geiger IPHC Strasbourg

SIGAMM/CRIMSON COMMISSION UTILISATEUR du 05/12/2014

Conseils et astuces pour un déploiement réussi de la solution VMware Mirage

La virtualisation de serveurs avec VMWare Infrastructure - Retour d expérience. Rodérick Petetin CRI INSA Rennes

Manuel d installation serveurs

Clusters de PCs Linux

Exigences système Edition & Imprimeries de labeur

pfsense Manuel d Installation et d Utilisation du Logiciel

Déploiement de Linux en réseau avec Kickstart. Mars

Protection des données avec les solutions de stockage NETGEAR

Mise en œuvre de Rembo Toolkit

Ubuntu Linux Création, configuration et gestion d'un réseau local d'entreprise (3ième édition)

Windows 7, Configuration

Sauvegardes sous Mac OS X

Administration de Parc Informatique TP07 : Installation de Linux Debian

Commandes Linux. Gestion des fichiers et des répertoires. Gestion des droits. Gestion des imprimantes. Formation Use-IT

Installation de ndv 5

Spécifications techniques

Retour d'expérience sur Nagios 3. Christophe Sahut

VMWare Infrastructure 3

<Insert Picture Here> Exadata Storage Server et DB Machine V2

Contrat VTX Serveur dédié

Cluster High Availability. Holger Hennig, HA-Cluster Specialist

Choix d'un serveur. Choix 1 : HP ProLiant DL380 G7 Base - Xeon E GHz

Portage d applications sur le Cloud IaaS Portage d application

Migration d un Cluster Fiber Channel+SAN+Lames sous Xen vers Ethernet +iscsi+serveurs sous KVM

contexte cahier des charges critères de choix fonctionnalités configuration en pratique Bilan Conclusion Backuppc Logiciel de sauvegarde

Machine virtuelle W4M- Galaxy : Guide d'installation

Procédure d installation de la solution Central WiFI Manager CWM

Détection d'intrusions en environnement haute performance

Guide d installation

Fiche Technique. Cisco Security Agent

VMware vsphere 5 Préparation à la certification VMware Certified Professional 5 Data Center Virtualization (VCP5-DCV) - Examen VCP510

Retour d exprience sur le cluster du CDS

Amiens Métier 39 : Gestion des réseaux informatiques. Jour 2, première partie. Durée : 3 heures

Sybase High Avalaibility

wiki.ipfire.org The official documentation for IPFire - An Open Source Firewall Solution Outils

Nœud Suisse du Projet International GBIF (Global Biodiversity Information Facility)

INSTALLATION DE BACKUPPC

Solution d inventaire automatisé d un parc informatique et de télédistribution OCS INVENTORY NG. EHRHARD Eric - Gestionnaire Parc Informatique

acpro SEN TR firewall IPTABLES

Les environnements de calcul distribué

Virtualisation CITRIX, MICROSOFT, VMWARE OLIVIER D.

ANTI-VIRUS / PROTECTION DES POSTES DE TRAVAIL ET DES SERVEURS DE FICHIERS

Le stockage. 1. Architecture de stockage disponible. a. Stockage local ou centralisé. b. Différences entre les architectures

[Serveur de déploiement FOG]

Plateforme Messagerie Algérie Poste. Présenté Par : Otmani Med Naaman Sous Directeur Système et Sécurité Informatique

Webinar ORACLE LE LICENSING ORACLE Quel type de licensing choisir?

ZABBIX est distribué sous licence GNU General Public License Version 2 (GPL v.2).

LINUX - ADMINISTRATION PROGRAMME DE FORMATION

OpenMediaVault installation

Sébastien Geiger IPHC Strasbourg

Mettez Linux en boîte avec ClearOS

POSSEDEZ VOTRE SERVEUR WEB DES MAINTENANT!

Prérequis techniques pour l installation du logiciel Back-office de gestion commerciale WIN GSM en version ORACLE

Exploitation d un calculateur

Sécurisation et résilience des services DNS/DHCP Gestion de l adressage IP automatisée

Spécialiste Systèmes et Réseaux

Une nouvelle génération de serveur

Tsoft et Groupe Eyrolles, 2005, ISBN :

PROFIL EXPERIENCE ARCHITECTE LINUX, OPEN SOURCE, COORDINATEUR SÉCURITÉ EMEA

Personnes ressources Tice. Académie de Rouen

Etude d architecture de consolidation et virtualisation

DREAL proposition DNS et hébergement. magazine le 14 septembre 2011 DREAL comparatif hébergement

Documentation utilisateur, manuel utilisateur MagicSafe Linux. Vous pouvez télécharger la dernière version de ce document à l adresse suivante :

MIGRATION ANNEXE SAINT YVES. 1 : L existant. Pourquoi cette migration Schéma et adressage IP. 2 : Le projet. Schéma et adressage IP.

TAI049 Utiliser la virtualisation en assistance et en dépannage informatique TABLE DES MATIERES

Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009. Pôle de Calcul Intensif pour la mer, 11 Decembre 2009

Exigences système Edition & Imprimeries de labeur

Guide d installation JMap 5.0

vmware au CC-IN2P3 Déploiement rapide d une infrastructure destinée à de la formation et réflexions sur vsphere.

cc.region.beaujeu@wanadoo.fr Site Internet Actuellement nous trouvons ce schéma réseau :

Retour d expérience sur Prelude

Transcription:

Gestion de clusters de calcul avec Laboratoire de Chimie et Physique Quantiques / IRSAMC, Toulouse scemama@irsamc.ups-tlse.fr 26 Avril 2012 Gestion de clusters de calcul avec

Outline Contexte 1 Contexte 2 Gestion de clusters de calcul avec

Qu est-ce qu un cluster? Ensemble d ordinateurs (ou noeuds) mis en réseau local dans le but de travailler ensemble, tels qu ils peuvent être vus comme une seule machine. En général : Plusieurs nœuds de calcul Exécutent les calculs OS minimal Programmes, bibliothèques (local ou NFS) Pas d accès direct par un utilisateur Un nœud maître (ou nœud d administration) : Point d entrée du réseau (accès interactif) Gestion des comptes utilisateurs Contient localement les /home et programmes Serveur NFS pour les /home et programmes Serveur NTP, centralise les fichiers de log, etc Configure le cluster Répartit les calculs sur les nœuds de calcul Gestion de clusters de calcul avec

Qu est-ce qu un cluster? Ensemble d ordinateurs (ou noeuds) mis en réseau local dans le but de travailler ensemble, tels qu ils peuvent être vus comme une seule machine. En général : Plusieurs nœuds de calcul Exécutent les calculs OS minimal Programmes, bibliothèques (local ou NFS) Pas d accès direct par un utilisateur Un nœud maître (ou nœud d administration) : Point d entrée du réseau (accès interactif) Gestion des comptes utilisateurs Contient localement les /home et programmes Serveur NFS pour les /home et programmes Serveur NTP, centralise les fichiers de log, etc Configure le cluster Répartit les calculs sur les nœuds de calcul Gestion de clusters de calcul avec

Qu est-ce qu un cluster? Ensemble d ordinateurs (ou noeuds) mis en réseau local dans le but de travailler ensemble, tels qu ils peuvent être vus comme une seule machine. En général : Plusieurs nœuds de calcul Exécutent les calculs OS minimal Programmes, bibliothèques (local ou NFS) Pas d accès direct par un utilisateur Un nœud maître (ou nœud d administration) : Point d entrée du réseau (accès interactif) Gestion des comptes utilisateurs Contient localement les /home et programmes Serveur NFS pour les /home et programmes Serveur NTP, centralise les fichiers de log, etc Configure le cluster Répartit les calculs sur les nœuds de calcul Gestion de clusters de calcul avec

Qu est-ce qu un cluster? Ensemble d ordinateurs (ou noeuds) mis en réseau local dans le but de travailler ensemble, tels qu ils peuvent être vus comme une seule machine. En général : Plusieurs nœuds de calcul Exécutent les calculs OS minimal Programmes, bibliothèques (local ou NFS) Pas d accès direct par un utilisateur Un nœud maître (ou nœud d administration) : Point d entrée du réseau (accès interactif) Gestion des comptes utilisateurs Contient localement les /home et programmes Serveur NFS pour les /home et programmes Serveur NTP, centralise les fichiers de log, etc Configure le cluster Répartit les calculs sur les nœuds de calcul Gestion de clusters de calcul avec

Qu est-ce qu un cluster? Ensemble d ordinateurs (ou noeuds) mis en réseau local dans le but de travailler ensemble, tels qu ils peuvent être vus comme une seule machine. En général : Plusieurs nœuds de calcul Exécutent les calculs OS minimal Programmes, bibliothèques (local ou NFS) Pas d accès direct par un utilisateur Un nœud maître (ou nœud d administration) : Point d entrée du réseau (accès interactif) Gestion des comptes utilisateurs Contient localement les /home et programmes Serveur NFS pour les /home et programmes Serveur NTP, centralise les fichiers de log, etc Configure le cluster Répartit les calculs sur les nœuds de calcul Gestion de clusters de calcul avec

image prise sur http ://en.wikipedia.org/wiki/cluster_(computing) Gestion de clusters de calcul avec

Utilisation d un cluster Contexte 1 L utilisateur se connecte par SSH au nœud maître 2 Il écrit un script shell qui contient la séquence à effectuer sur le nœud de calcul 3 Il ajoute à son script une demande de réservation de ressources (temps CPU, RAM, espace disque, jetons de licences...) 4 Il soumet le script à un gestionnaire de batch 5 L utilisateur peut se déconnecter et faire autre chose 6 Le gestionnaire de batch place le script dans une queue 7 Lorsque les ressources sont disponibles, elles sont allouées au script et le calcul tourne en utilisant les ressources demandées sur un (ou plusieurs) nœud(s) de calcul 8 Le calcul se termine et les ressources sont libérées 9 L utilisateur reçoit éventuellement une alerte par email que son calcul est terminé 10 Il se connecte au nœud maître par SSH et interprète son résultat Gestion de clusters de calcul avec

Utilisation d un cluster Contexte 1 L utilisateur se connecte par SSH au nœud maître 2 Il écrit un script shell qui contient la séquence à effectuer sur le nœud de calcul 3 Il ajoute à son script une demande de réservation de ressources (temps CPU, RAM, espace disque, jetons de licences...) 4 Il soumet le script à un gestionnaire de batch 5 L utilisateur peut se déconnecter et faire autre chose 6 Le gestionnaire de batch place le script dans une queue 7 Lorsque les ressources sont disponibles, elles sont allouées au script et le calcul tourne en utilisant les ressources demandées sur un (ou plusieurs) nœud(s) de calcul 8 Le calcul se termine et les ressources sont libérées 9 L utilisateur reçoit éventuellement une alerte par email que son calcul est terminé 10 Il se connecte au nœud maître par SSH et interprète son résultat Gestion de clusters de calcul avec

Utilisation d un cluster Contexte 1 L utilisateur se connecte par SSH au nœud maître 2 Il écrit un script shell qui contient la séquence à effectuer sur le nœud de calcul 3 Il ajoute à son script une demande de réservation de ressources (temps CPU, RAM, espace disque, jetons de licences...) 4 Il soumet le script à un gestionnaire de batch 5 L utilisateur peut se déconnecter et faire autre chose 6 Le gestionnaire de batch place le script dans une queue 7 Lorsque les ressources sont disponibles, elles sont allouées au script et le calcul tourne en utilisant les ressources demandées sur un (ou plusieurs) nœud(s) de calcul 8 Le calcul se termine et les ressources sont libérées 9 L utilisateur reçoit éventuellement une alerte par email que son calcul est terminé 10 Il se connecte au nœud maître par SSH et interprète son résultat Gestion de clusters de calcul avec

Utilisation d un cluster Contexte 1 L utilisateur se connecte par SSH au nœud maître 2 Il écrit un script shell qui contient la séquence à effectuer sur le nœud de calcul 3 Il ajoute à son script une demande de réservation de ressources (temps CPU, RAM, espace disque, jetons de licences...) 4 Il soumet le script à un gestionnaire de batch 5 L utilisateur peut se déconnecter et faire autre chose 6 Le gestionnaire de batch place le script dans une queue 7 Lorsque les ressources sont disponibles, elles sont allouées au script et le calcul tourne en utilisant les ressources demandées sur un (ou plusieurs) nœud(s) de calcul 8 Le calcul se termine et les ressources sont libérées 9 L utilisateur reçoit éventuellement une alerte par email que son calcul est terminé 10 Il se connecte au nœud maître par SSH et interprète son résultat Gestion de clusters de calcul avec

Utilisation d un cluster Contexte 1 L utilisateur se connecte par SSH au nœud maître 2 Il écrit un script shell qui contient la séquence à effectuer sur le nœud de calcul 3 Il ajoute à son script une demande de réservation de ressources (temps CPU, RAM, espace disque, jetons de licences...) 4 Il soumet le script à un gestionnaire de batch 5 L utilisateur peut se déconnecter et faire autre chose 6 Le gestionnaire de batch place le script dans une queue 7 Lorsque les ressources sont disponibles, elles sont allouées au script et le calcul tourne en utilisant les ressources demandées sur un (ou plusieurs) nœud(s) de calcul 8 Le calcul se termine et les ressources sont libérées 9 L utilisateur reçoit éventuellement une alerte par email que son calcul est terminé 10 Il se connecte au nœud maître par SSH et interprète son résultat Gestion de clusters de calcul avec

Utilisation d un cluster Contexte 1 L utilisateur se connecte par SSH au nœud maître 2 Il écrit un script shell qui contient la séquence à effectuer sur le nœud de calcul 3 Il ajoute à son script une demande de réservation de ressources (temps CPU, RAM, espace disque, jetons de licences...) 4 Il soumet le script à un gestionnaire de batch 5 L utilisateur peut se déconnecter et faire autre chose 6 Le gestionnaire de batch place le script dans une queue 7 Lorsque les ressources sont disponibles, elles sont allouées au script et le calcul tourne en utilisant les ressources demandées sur un (ou plusieurs) nœud(s) de calcul 8 Le calcul se termine et les ressources sont libérées 9 L utilisateur reçoit éventuellement une alerte par email que son calcul est terminé 10 Il se connecte au nœud maître par SSH et interprète son résultat Gestion de clusters de calcul avec

Utilisation d un cluster Contexte 1 L utilisateur se connecte par SSH au nœud maître 2 Il écrit un script shell qui contient la séquence à effectuer sur le nœud de calcul 3 Il ajoute à son script une demande de réservation de ressources (temps CPU, RAM, espace disque, jetons de licences...) 4 Il soumet le script à un gestionnaire de batch 5 L utilisateur peut se déconnecter et faire autre chose 6 Le gestionnaire de batch place le script dans une queue 7 Lorsque les ressources sont disponibles, elles sont allouées au script et le calcul tourne en utilisant les ressources demandées sur un (ou plusieurs) nœud(s) de calcul 8 Le calcul se termine et les ressources sont libérées 9 L utilisateur reçoit éventuellement une alerte par email que son calcul est terminé 10 Il se connecte au nœud maître par SSH et interprète son résultat Gestion de clusters de calcul avec

Utilisation d un cluster Contexte 1 L utilisateur se connecte par SSH au nœud maître 2 Il écrit un script shell qui contient la séquence à effectuer sur le nœud de calcul 3 Il ajoute à son script une demande de réservation de ressources (temps CPU, RAM, espace disque, jetons de licences...) 4 Il soumet le script à un gestionnaire de batch 5 L utilisateur peut se déconnecter et faire autre chose 6 Le gestionnaire de batch place le script dans une queue 7 Lorsque les ressources sont disponibles, elles sont allouées au script et le calcul tourne en utilisant les ressources demandées sur un (ou plusieurs) nœud(s) de calcul 8 Le calcul se termine et les ressources sont libérées 9 L utilisateur reçoit éventuellement une alerte par email que son calcul est terminé 10 Il se connecte au nœud maître par SSH et interprète son résultat Gestion de clusters de calcul avec

Utilisation d un cluster Contexte 1 L utilisateur se connecte par SSH au nœud maître 2 Il écrit un script shell qui contient la séquence à effectuer sur le nœud de calcul 3 Il ajoute à son script une demande de réservation de ressources (temps CPU, RAM, espace disque, jetons de licences...) 4 Il soumet le script à un gestionnaire de batch 5 L utilisateur peut se déconnecter et faire autre chose 6 Le gestionnaire de batch place le script dans une queue 7 Lorsque les ressources sont disponibles, elles sont allouées au script et le calcul tourne en utilisant les ressources demandées sur un (ou plusieurs) nœud(s) de calcul 8 Le calcul se termine et les ressources sont libérées 9 L utilisateur reçoit éventuellement une alerte par email que son calcul est terminé 10 Il se connecte au nœud maître par SSH et interprète son résultat Gestion de clusters de calcul avec

Utilisation d un cluster Contexte 1 L utilisateur se connecte par SSH au nœud maître 2 Il écrit un script shell qui contient la séquence à effectuer sur le nœud de calcul 3 Il ajoute à son script une demande de réservation de ressources (temps CPU, RAM, espace disque, jetons de licences...) 4 Il soumet le script à un gestionnaire de batch 5 L utilisateur peut se déconnecter et faire autre chose 6 Le gestionnaire de batch place le script dans une queue 7 Lorsque les ressources sont disponibles, elles sont allouées au script et le calcul tourne en utilisant les ressources demandées sur un (ou plusieurs) nœud(s) de calcul 8 Le calcul se termine et les ressources sont libérées 9 L utilisateur reçoit éventuellement une alerte par email que son calcul est terminé 10 Il se connecte au nœud maître par SSH et interprète son résultat Gestion de clusters de calcul avec

Pour une bonne utilisation du cluster Les utilisateurs doivent avoir une idée de comment ça fonctionne, sinon, ils peuvent faire des erreurs. Par exemple, il vaut mieux : Connaître les ressources nécessaires pour un calcul. Moins on en demande, plus le script passe vite en queue. Connaître le hardware des nœuds de calcul : par ex, 8 cœurs physiques apparaissent comme 16 cœurs avec HyperThreading. Connaître des différents réseaux : éviter de faire du MPI sur le réseau ethernet si il y a de l Infiniband Utiliser les bibliothèques installées par les admininstrateurs. La plupart du temps, elles sont optimisées et configurées pour le hardware du cluster. Gestion de clusters de calcul avec

Pour une bonne utilisation du cluster Les utilisateurs doivent avoir une idée de comment ça fonctionne, sinon, ils peuvent faire des erreurs. Par exemple, il vaut mieux : Connaître les ressources nécessaires pour un calcul. Moins on en demande, plus le script passe vite en queue. Connaître le hardware des nœuds de calcul : par ex, 8 cœurs physiques apparaissent comme 16 cœurs avec HyperThreading. Connaître des différents réseaux : éviter de faire du MPI sur le réseau ethernet si il y a de l Infiniband Utiliser les bibliothèques installées par les admininstrateurs. La plupart du temps, elles sont optimisées et configurées pour le hardware du cluster. Gestion de clusters de calcul avec

Pour une bonne utilisation du cluster Les utilisateurs doivent avoir une idée de comment ça fonctionne, sinon, ils peuvent faire des erreurs. Par exemple, il vaut mieux : Connaître les ressources nécessaires pour un calcul. Moins on en demande, plus le script passe vite en queue. Connaître le hardware des nœuds de calcul : par ex, 8 cœurs physiques apparaissent comme 16 cœurs avec HyperThreading. Connaître des différents réseaux : éviter de faire du MPI sur le réseau ethernet si il y a de l Infiniband Utiliser les bibliothèques installées par les admininstrateurs. La plupart du temps, elles sont optimisées et configurées pour le hardware du cluster. Gestion de clusters de calcul avec

Pour une bonne utilisation du cluster Les utilisateurs doivent avoir une idée de comment ça fonctionne, sinon, ils peuvent faire des erreurs. Par exemple, il vaut mieux : Connaître les ressources nécessaires pour un calcul. Moins on en demande, plus le script passe vite en queue. Connaître le hardware des nœuds de calcul : par ex, 8 cœurs physiques apparaissent comme 16 cœurs avec HyperThreading. Connaître des différents réseaux : éviter de faire du MPI sur le réseau ethernet si il y a de l Infiniband Utiliser les bibliothèques installées par les admininstrateurs. La plupart du temps, elles sont optimisées et configurées pour le hardware du cluster. Gestion de clusters de calcul avec

Pour une bonne utilisation du cluster Avoir une idée de la fiabilité du /home : Y a-t-il un RAID-1/5/6? Y a-t-il des backups? A quelle fréquence? Savoir que les /home se remplissent très vite. Toujours récupérer ses données sur sa propre machine et faire ses propres backups NE JAMAIS : écrire les gros fichiers temporaires dans le /home : très mauvaises perfs, effondrement du serveur NFS (le nœud maître), remplissage des disques,... Faire des milliers d ouverture/fermeture de fichiers chaque seconde sur un système de fichiers Lustre : effondrement des serveurs et plantage de tout le cluster Gestion de clusters de calcul avec

Pour une bonne utilisation du cluster Avoir une idée de la fiabilité du /home : Y a-t-il un RAID-1/5/6? Y a-t-il des backups? A quelle fréquence? Savoir que les /home se remplissent très vite. Toujours récupérer ses données sur sa propre machine et faire ses propres backups NE JAMAIS : écrire les gros fichiers temporaires dans le /home : très mauvaises perfs, effondrement du serveur NFS (le nœud maître), remplissage des disques,... Faire des milliers d ouverture/fermeture de fichiers chaque seconde sur un système de fichiers Lustre : effondrement des serveurs et plantage de tout le cluster Gestion de clusters de calcul avec

Pour une bonne utilisation du cluster Avoir une idée de la fiabilité du /home : Y a-t-il un RAID-1/5/6? Y a-t-il des backups? A quelle fréquence? Savoir que les /home se remplissent très vite. Toujours récupérer ses données sur sa propre machine et faire ses propres backups NE JAMAIS : écrire les gros fichiers temporaires dans le /home : très mauvaises perfs, effondrement du serveur NFS (le nœud maître), remplissage des disques,... Faire des milliers d ouverture/fermeture de fichiers chaque seconde sur un système de fichiers Lustre : effondrement des serveurs et plantage de tout le cluster Gestion de clusters de calcul avec

Pour une bonne utilisation du cluster Avoir une idée de la fiabilité du /home : Y a-t-il un RAID-1/5/6? Y a-t-il des backups? A quelle fréquence? Savoir que les /home se remplissent très vite. Toujours récupérer ses données sur sa propre machine et faire ses propres backups NE JAMAIS : écrire les gros fichiers temporaires dans le /home : très mauvaises perfs, effondrement du serveur NFS (le nœud maître), remplissage des disques,... Faire des milliers d ouverture/fermeture de fichiers chaque seconde sur un système de fichiers Lustre : effondrement des serveurs et plantage de tout le cluster Gestion de clusters de calcul avec

Outline Contexte 1 Contexte 2 Gestion de clusters de calcul avec

Outline Contexte 1 Contexte 2 Gestion de clusters de calcul avec

(http ://www.rocksclusters.org) est une distribution open-source Linux basée sur CentOS (copie de RedHat), avec des ajouts spécifiques pour les clusters de calcul (MPI, Bibliothèques de calcul BLAS, Lapack,...). (Plus de 1300 clusters dans le monde utilisent ) Des super-paquets appelés Rolls peuvent être sélectionnés pour customiser l installation. Par ex : SGE Roll : Gestionnaire de batch Sun Grid Engine (maintenant Oracle) Ganglia Roll : Monitoring de l utilisation du cluster Lustre Roll : Utilisation de système de fichier Lustre Xen Roll : Virtualisation des nœuds Gestion de clusters de calcul avec

(http ://www.rocksclusters.org) est une distribution open-source Linux basée sur CentOS (copie de RedHat), avec des ajouts spécifiques pour les clusters de calcul (MPI, Bibliothèques de calcul BLAS, Lapack,...). (Plus de 1300 clusters dans le monde utilisent ) Des super-paquets appelés Rolls peuvent être sélectionnés pour customiser l installation. Par ex : SGE Roll : Gestionnaire de batch Sun Grid Engine (maintenant Oracle) Ganglia Roll : Monitoring de l utilisation du cluster Lustre Roll : Utilisation de système de fichier Lustre Xen Roll : Virtualisation des nœuds Gestion de clusters de calcul avec

du nœud maître Booter sur le DVD Gestion de clusters de calcul avec

du nœud maître Selectionner les Rolls Entrer le Fully-Qualified Host Name Gestion de clusters de calcul avec

du nœud maître Configuration du LAN cluster (eth0) Configuration du WAN (eth1) Configuration du DNS, passerelle etc Mot de passe root NTP Gestion de clusters de calcul avec

du nœud maître Partitionnement auto/manuel /var Utilisé pour MySQL (gestion de ) /export exports NFS. Contient les /home Gestion de clusters de calcul avec

du nœud maître Les paquets s installent... Le maître est installé! Gestion de clusters de calcul avec

d un nouveau nœud de calcul Sur le nœud maître, sous root, lancer insert-ethers Configurer le nœud de calcul sur boot PXE Gestion de clusters de calcul avec

d un nouveau nœud de calcul Attente de la requete DHCP Gestion de clusters de calcul avec

d un nouveau nœud de calcul Détection de l adresse MAC du nouveau nœud Association MAC-IP-nom dans la base de données (compute-0-0.local) Gestion de clusters de calcul avec

d un nouveau nœud de calcul Attente de réception de fichier kickstart par le nœud Gestion de clusters de calcul avec

d un nouveau nœud de calcul Nœud de calcul installé : Comptes utilisateurs synchronisés (ssh sans mot de passe) /home et /share/apps montés sur le nœud Ressources accessibles par le gestionnaire de batch Le nœud est monitoré dans Ganglia Gestion de clusters de calcul avec

Outline Contexte 1 Contexte 2 Gestion de clusters de calcul avec

Toute la config est stockée dans une base de données MySQL. (réseaux, firewall, partitions, MACs, boot, routage, etc) L accès est simplifié via la commande "rocks". Gestion de clusters de calcul avec

de programmes/bibliothèques Chaque utilisateur peut compiler un programme dans son /home dans un répertoire NFS sous /share/apps Pour installer des paquets RPM sur tous les nœuds, 2 possibilités : 1 Des fichiers XML permettent de configurer les fichiers kickstart des nœuds. Pour installer des paquets RPM sur tous les nœuds, il suffit d ajouter une ligne dans ce fichier et de ré-installer les nœuds. Par exemple : <package> gcc44-gfortran </package> 2 La commande tentakel permet d exécuter la même commande sur tous les nœuds. Par exemple, sous root tentakel yum install -y gcc44-gfortran Gestion de clusters de calcul avec

de programmes/bibliothèques Chaque utilisateur peut compiler un programme dans son /home dans un répertoire NFS sous /share/apps Pour installer des paquets RPM sur tous les nœuds, 2 possibilités : 1 Des fichiers XML permettent de configurer les fichiers kickstart des nœuds. Pour installer des paquets RPM sur tous les nœuds, il suffit d ajouter une ligne dans ce fichier et de ré-installer les nœuds. Par exemple : <package> gcc44-gfortran </package> 2 La commande tentakel permet d exécuter la même commande sur tous les nœuds. Par exemple, sous root tentakel yum install -y gcc44-gfortran Gestion de clusters de calcul avec

de programmes/bibliothèques Chaque utilisateur peut compiler un programme dans son /home dans un répertoire NFS sous /share/apps Pour installer des paquets RPM sur tous les nœuds, 2 possibilités : 1 Des fichiers XML permettent de configurer les fichiers kickstart des nœuds. Pour installer des paquets RPM sur tous les nœuds, il suffit d ajouter une ligne dans ce fichier et de ré-installer les nœuds. Par exemple : <package> gcc44-gfortran </package> 2 La commande tentakel permet d exécuter la même commande sur tous les nœuds. Par exemple, sous root tentakel yum install -y gcc44-gfortran Gestion de clusters de calcul avec

de programmes/bibliothèques Chaque utilisateur peut compiler un programme dans son /home dans un répertoire NFS sous /share/apps Pour installer des paquets RPM sur tous les nœuds, 2 possibilités : 1 Des fichiers XML permettent de configurer les fichiers kickstart des nœuds. Pour installer des paquets RPM sur tous les nœuds, il suffit d ajouter une ligne dans ce fichier et de ré-installer les nœuds. Par exemple : <package> gcc44-gfortran </package> 2 La commande tentakel permet d exécuter la même commande sur tous les nœuds. Par exemple, sous root tentakel yum install -y gcc44-gfortran Gestion de clusters de calcul avec

Outline Contexte 1 Contexte 2 Gestion de clusters de calcul avec

Cluster Standard Contexte Machines de générations différentes AMD(Opteron) 2 sockets, 2.4 GHz 4 Gb RAM 2 disques SCSI Xeon(Core) 2 sockets, quad core, 2.66 3.2 GHz 16 48 Gb de RAM 2 ou 4 disques SATA pour le scratch Réseau Gb Config SGE : Queues de machines à même fréquence pour le MPI Queues pour calculs openmp Un calcul peut avoir l exclusivité sur un disque physique Gestion de clusters de calcul avec

Cluster Standard Contexte Machines de générations différentes AMD(Opteron) 2 sockets, 2.4 GHz 4 Gb RAM 2 disques SCSI Xeon(Core) 2 sockets, quad core, 2.66 3.2 GHz 16 48 Gb de RAM 2 ou 4 disques SATA pour le scratch Réseau Gb Config SGE : Queues de machines à même fréquence pour le MPI Queues pour calculs openmp Un calcul peut avoir l exclusivité sur un disque physique Gestion de clusters de calcul avec

Cluster Standard Contexte Gestion de clusters de calcul avec

Cluster Parallèle Contexte 6 Machines AMD(Opteron 6100) 4 sockets, 12-core, 2.2 GHz 128 Gb de RAM Réseau 10Gb 2 disques SAS en RAID0 pour le scratch scratch sur baie de disques par NFS Config SGE : Réservation par multiples de 24 coeurs Réservation de machines entières Jusqu à 192 cœurs/utilisateur Gestion de clusters de calcul avec

Cluster Parallèle Contexte 6 Machines AMD(Opteron 6100) 4 sockets, 12-core, 2.2 GHz 128 Gb de RAM Réseau 10Gb 2 disques SAS en RAID0 pour le scratch scratch sur baie de disques par NFS Config SGE : Réservation par multiples de 24 coeurs Réservation de machines entières Jusqu à 192 cœurs/utilisateur Gestion de clusters de calcul avec

Cluster Parallèle Contexte Gestion de clusters de calcul avec

Cluster I/O-RAM Contexte Machines très différentes Intel (Core, Nehalem) 8 32 cœurs/nœud 48 256 Gb de RAM Réseaux Gb et Infiniband disques SATA 1Tb, SSD, SAS en RAID0, Lustre (12Tb,800Mb/s) Config SGE : Un calcul par partition de disque Le reste sur Lustre Priorités différentes des utilisateurs sur certaines machines (ANR) Gestion de clusters de calcul avec

Cluster I/O-RAM Contexte Machines très différentes Intel (Core, Nehalem) 8 32 cœurs/nœud 48 256 Gb de RAM Réseaux Gb et Infiniband disques SATA 1Tb, SSD, SAS en RAID0, Lustre (12Tb,800Mb/s) Config SGE : Un calcul par partition de disque Le reste sur Lustre Priorités différentes des utilisateurs sur certaines machines (ANR) Gestion de clusters de calcul avec

Cluster I/O-RAM Contexte Gestion de clusters de calcul avec

Conclusion Contexte Installer un cluster dans un labo peut faire peur, mais il existe des outils open-source qui facilitent les choses! : http://www.rocksclusters.org xcat : http://xcat.sourceforge.net OSCAR : http://oscar.openclustergroup.org Perceus : http://www.perceus.org Gestion de clusters de calcul avec