Chapitre 2. Cluster de calcul (Torque / Maui) Grid and Cloud Computing

Documents pareils
Les environnements de calcul distribué

Gestion de clusters de calcul avec Rocks

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

Open Source Job Scheduler. Installation(s)

Middleware et services de la grille

Sybase High Avalaibility

Grid5000 aujourd'hui : Architecture & utilisation

INFO-F-404 : Techniques avancées de systèmes d exploitation

Tests de SlipStream sur les plateformes et : vers la. Vers la fédération du Cloud computing

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

cluster de calcul parallèle linux

IBM Software Group. Migration vers Tivoli Workload Scheduler. Philippe TESSIER 2009 IBM Corporation

Cloud Computing. Groupe : Vincent, Mohammed, Yannick, Allan Tuteur : Mr. NUSSBAUM Lucas Année : 2009/2010

Architecture de la grille

BONJOURGRID : VERSION ORIENTÉE DONNÉE & MAPREDUCE SÉCURISÉ

Cluster de calcul Freeware en Océanographie Opérationnelle

Charte d'utilisation des infrastructures de la plate-forme bioinformatique Genotoul

Les termes du cloud CUMULO NUMBIO 2015 O. COLLIN

L art d ordonnancer. avec JobScheduler. François BAYART

WebSphere MQ & Haute Disponibilité

Travaux Pratiques sur GRID 5000

Infrastructures Parallèles de Calcul

DOCKER MEETUP. Christophe Labouisse

Vers l'orchestration de grilles de PC par les mécanismes de publicationsouscription

Evaluation des performances de programmes parallèles haut niveau à base de squelettes

SIGAMM/CRIMSON COMMISSION UTILISATEUR du 05/12/2014

Solution Haute Disponibilité pour Linux

Tour d'horizon des Middlewares de Grille

Cloud Computing. Introduction. ! Explosion du nombre et du volume de données

Projet IGGI. Infrastructure pour Grappe, Grille et Intranet. Fabrice Dupros. CASCIMODOT - Novembre Systèmes et Technologies de l Information

Retours d expériences et perspectives sur les aspects énergétiques

Installation de IBM SPSS Modeler Server Adapter

Ecole Mohammadia d Ingénieurs Systèmes Répartis Pr. Slimane Bah, ing. PhD G. Informatique Semaine 24

PLATE-FORME DE CLOUD COMPUTING SLAPOS. Intégration d applications

Happy birthday ZSet High performance computing dans ZSet

Un exemple de cloud au LUPM : Stratuslab

Installation de VirtualPOPC-1 sur Ubuntu Server LTS 64bits

Journée Utiliateurs Nouvelles du Pôle ID (Informatique) Pierre Neyron, LIG/CNRS

DG-ADAJ: Une plateforme Desktop Grid

Commandes Linux. Gestion des fichiers et des répertoires. Gestion des droits. Gestion des imprimantes. Formation Use-IT

Services de la grille

Iyad Alshabani SysCom - CReSTIC Université de Reims 17/02/2011 1

RESSOURCES DU MESOCENTRE

Bacula R - The Network Backup Solution

Architecture de la plateforme SBC

1 Démarrage de Marionnet

Le Cloud Computing L informatique de demain?

Atelier : Virtualisation avec Xen

Mise en place d'un cluster

Simple Database Monitoring - SDBM Guide de l'usager

Hadoop, Spark & Big Data 2.0. Exploiter une grappe de calcul pour des problème des données massives

TechSoftware Présentations

Portage d applications sur le Cloud IaaS Portage d application

Etude de l ENT de l Université de Paris 5. Mise en place d outils de suivi de la charge de l ENT (monitoring)

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

SafeKit. Sommaire. Un livre blanc de Bull Evidian


Automatisation de l administration système

Chapitre 4: Introduction au Cloud computing

Bonjour. Yohan PARENT, Cyprien FORTINA, Maxime LEMAUX, Hyacinthe CARTIAUX

Dollar Universe v5.1 Laissez-vous guider sur Motif

Hands on Openstack : Introduction

SysFera. Benjamin Depardon

DAns un système multi-utilisateurs à temps partagé, plusieurs processus

Guide de déploiement d'applications FormPublisher

CLOUD PRIVÉ GENERALI - ACCOMPAGNEMENT AU CHANGEMENT - DU «POC» À LA RÉALITÉ. Alain ROY Generali Logo Société

Bienvenue sur Lab-Windows Il n'y a de vents favorables que pour ceux qui ont un cap

UC4 effectue tout l ordonnancement batch pour Allianz en Allemagne

Les différentes méthodes pour se connecter

La virtualisation de serveurs avec VMWare Infrastructure - Retour d expérience. Rodérick Petetin CRI INSA Rennes

Installation du service glite SE/DPM

Systèmes Répartis. Pr. Slimane Bah, ing. PhD. Ecole Mohammadia d Ingénieurs. G. Informatique. Semaine Slimane.bah@emi.ac.ma

Projet ViSaGe : implémentation de l administration et du monitoring de ViSaGe (Virtualisation du Stockage appliquée aux Grilles informatiques)

GOUTEYRON ALEXIS. SIO2 N candidat: UEpreuve E4. USituation professionnelle 2. serveurs de fichiers. Uen haute disponibilité

Guide d installation des licences Solid Edge-NB RB

Bacula. It comes by night and sucks the vital essence from your computers. Guillaume Arcas

Aide-Mémoire unix. 9 février 2009

Sauvegarde de postes clients avec BackupPC

Séminaire Partenaires Esri France 6 et 7 juin 2012 Paris. ArcGIS et le Cloud. Gaëtan LAVENU

Exploitation d un calculateur

Le Cloud France Grilles : Accès et utilisation. Jérôme PANSANEL <jerome.pansanel@iphc.cnrs.fr> Directeur technique France Grilles

Sauvegarde des bases SQL Express

La tête dans les nuages


Gestion de parc Windows depuis Unix. Pascal Cabaud & Laurent Joly

SysFera-DS : vers une solution de portail scientifique collaboratif chez EDF. Benjamin Depardon

Cours Linux. Cours en ligne Administrateur Systèmes Linux. Académie Libre

Qu'est-ce que c'est??

Consolidation. Grid Infrastructure avec la 11gR2

Cloud Computing Connectivity (Windows Azure, DRMAA) with ProActive Resource Manager

Chapitre IX : Virtualisation

Les mésocentres HPC àportée de clic des utilisateurs industriels

Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009. Pôle de Calcul Intensif pour la mer, 11 Decembre 2009

Windows Server Chapitre 1: Découvrir Windows Server 2008

Exploiter les statistiques d utilisation de SQL Server 2008 R2 Reporting Services

Transcription:

Chapitre 2. Cluster de calcul (Torque / Maui) Grid and Cloud Computing

2. Cluster de calcul (Torque/Maui) Batch/Job Scheduler Gestion automatique d'une séries de jobs Interface de définition des jobs et de leurs dépendances Exécution automatique des jobs Interface de monitoring des jobs Priorités ou files d'attentes pour l'ordonnancement Exemples Mainframe IBM (1960), VAX/VMS (1980) Task scheduler sous windows, cron sous linux... PBS, Torque, Sun Grid Engine, Condor Middleware de grille Grid and Cloud Computing 2

2. Cluster de calcul (Torque/Maui) Terascale Opensource Resource and QUEue Manager Gestionnaire de ressources distribuées: Un master hébergeant le serveur torque Un ensemble de nœuds de calculs sur lesquels vont être exécutes les jobs Files d'attentes de jobs L'administrateur peut définir plusieurs files d'attentes avec des priorités différentes selon les ressources demandées Maui : ordonnanceur avancée pour torque Fair queueing, préemption, réservations... Grid and Cloud Computing 3

Torque : déroulement normal 2. Cluster de calcul (Torque/Maui) L'utilisateur se connecte sur le master (frontal) L'utilisateur définit son job (commande, ressources) L'utilisateur soumet son job avec qsub Le job est placé en file d'attente sur le master Le scheduler réserve un (ou plusieurs) nœud(s) au job Le job s'exécute sur le (ou les) nœud(s) alloué(s) Le job se termine L'utilisateur récupère l'entrée standard, la sortie standard et les résultats sur le master Grid and Cloud Computing 4

2. Cluster de calcul (Torque/Maui) Diagramme de séquence Grid and Cloud Computing 5

2. Cluster de calcul (Torque/Maui) Torque : création d'un job Script shell + paramètres TORQUE #!/bin/sh #PBS -N JOBSZZ3-1 #PBS -l walltime=1:00:00 #PBS -l nodes=2:ppn=2,pmem=2048mb cd ~/workspace echo $PBS_O_JOBID mpiexec masimu -nrep 1000 #PBS : directives interprétées à la soumission Nom du job Durée maximale du job (walltime) 2 coeurs sur 2 noeuds différends et 2G de RAM physique Grid and Cloud Computing 6

Torque : spécification des noeuds 2. Cluster de calcul (Torque/Maui) -l nodes=12 12 noeuds quelconques -l nodes=1:smp+4:bigmem 1 noeud de type 'smp' et 4 noeuds de type 'bigmem' (les tags sont définis par l'admin) -l nodes=noeud1+noeud4 2 noeuds identifiés par leur nom -l nodes=1:ppn=8 8 coeurs sur un seul noeud -l nodes=2:hexa:ppn=3 3 coeurs sur 2 noeuds de type 'hexa' Grid and Cloud Computing 7

2. Cluster de calcul (Torque/Maui) Torque : variables d'environnement Torque définit des variables d'environnement lors de l'exécution du job : PBS_JOBNAME Nom du job PBS_O_WORKDIR PBS_TASKNUM PBS_O_JOBID PBS_QUEUE PBS_NODEFILE Répertoire de soumission du job Nombre de tâches demandées ID unique du job File d'attente du job Fichier contenant la liste des noeuds alloués au job (MPI) Grid and Cloud Computing 8

Torque : soumission d'un job 2. Cluster de calcul (Torque/Maui) Commande : qsub $ qsub masimu.sh 6555.moncluster.isima.fr $ qsub masimu.sh -l walltime=1:00:00 6556.moncluster.isima.fr $ echo hostname qsub -N hostname -q short 6557.moncluster.isima.fr Les options de la ligne de commande sont prioritaires sur les directives du script (même syntaxe) La commande retourne le numéro du job Le job est ensuite placé en file d'attente et sera exécuté selon la politique du serveur Grid and Cloud Computing 9

2. Cluster de calcul (Torque/Maui) Torque : suivre un job Commande : qstat $ qstat Job id Name User Time Use S Queue ----------------- ---------------- --------------- -------- - ----- 6555.moncluster JOBSZZ3-1 mahul 12:51:52 R normal 6556.moncluster masimu.sh mahul 0 Q short 6557.moncluster STDIN mahul 0 Q short $ qstat -f 6555 Job Id: 6555.moncluster.isima.fr Job_Name = JOBSZZ3-1 Job_Owner = mahul@moncluster.isima.fr resources_used.cput = 13:12:01 resources_used.mem = 6871204kb resources_used.vmem = 14966904kb resources_used.walltime = 00:27:23 job_state = R queue = normal... Grid and Cloud Computing 10

Torque : état des files d'attentes 2. Cluster de calcul (Torque/Maui) $ qstat -q Queue Memory CPU Time Walltime Node Run Que Lm State ---------------- ------ -------- -------- ---- --- --- -- ----- smp -- -- -- -- 0 0 -- E R short -- -- 01:00:00 -- 0 2 -- E R normal -- -- 72:00:00 -- 1 0 -- E R long -- -- -- -- 0 0 -- E R $ showq [MAUI] ACTIVE JOBS-------------------- JOBNAME USERNAME STATE PROC REMAINING STARTTIME 6555 mahul Running 32 23:20:57 Mon Sep 27 16:35:39 1 Active Job 32 of 32 Processors Active (100.00%) 1 of 1 Nodes Active (100.00%) IDLE JOBS---------------------- JOBNAME USERNAME STATE PROC WCLIMIT QUEUETIME 6556 mahul Idle 20 1:00:00 Mon Sep 27 17:16:02 1 Idle Jobs Grid and Cloud Computing 11

Torque : récupérer les résultats 2. Cluster de calcul (Torque/Maui) Une fois le job terminé, il est supprimé de la file d'attente Torque Dans le répertoire de soumission, on retrouve la sortie standard et l'erreur standard dans des fichiers : $ ls -l -rw------- 1 mahul isima 50 sept 27 2010 ZZ3JOBS-1.e6555 -rw------- 1 mahul isima 7944 sept 27 2010 ZZ3JOBS-1.o6555 Pour les fichiers de résultats : Disque partagé : rien à faire Utiliser les options stageout de torque à la soumission (scp) : $ qsub -W stageout=/tmp/output.txt@master:/home/mahul/output.txt Grid and Cloud Computing 12

Torque : état des ressources 2. Cluster de calcul (Torque/Maui) $ pbsnodes -a numa state = free np = 32 properties = crri,long,normal,short ntype = cluster jobs = 10/20361.hpc1.univ-bpclermont.fr, 17/21400.hpc1.univ-bpclermont.fr, 18/21400.hpc1.univ-bpclermont.fr, 19/21400.hpc1.univ-bpclermont.fr, 20/21400.hpc1.univ-bpclermont.fr, 21/21400.hpc1.univ-bpclermont.fr, 23/22557.hpc1.univ-bpclermont.fr, 24/22557.hpc1.univ-bpclermont.fr, 25/22401.hpc1.univ-bpclermont.fr, 26/22557.hpc1.univ-bpclermont.fr, 27/22557.hpc1.univ-bpclermont.fr, 28/22557.hpc1.univ-bpclermont.fr, 31/20361.hpc1.univ-bpclermont.fr status = rectime=1317067727,varattr=,jobs=20361.hpc1.univ-bpclermont.fr 21400.hpc1.univ-bpclermont.fr 22401.hpc1.univ-bpclermont.fr 22557.hpc1.univ-bpclermont.fr,state=free,netload=7604348552240,gres=,loadave =7.87,ncpus=32,physmem=508747300kb,availmem=378680000kb,totmem=512876060kb,i dletime=2899411,nusers=2,nsessions=5,sessions=10533 14867 26046 26169 28141,uname=Linux numa.univ-bpclermont.fr 2.6.27.44-1.vSMP.MPIO #1 SMP Mon Mar 1 17:47:07 CET 2010 x86_64,opsys=linux Grid and Cloud Computing 13

2. Cluster de calcul (Torque/Maui) Torque : commandes supplémentaires # Annuler un job $ qdel 6557 # Suspendre un job $ qhold 6558 # Reprendre un job suspendu $ qrls 6558 # Modifier les paramètres d'un job déjà soumis $ qalter -l walltime=36:00:00 6558 # [MAUI] Vérifier les infos d'ordonnancement du jobs $ checkjob 6558 Grid and Cloud Computing 14