Plateforme CICLAD. http://ciclad-web.ipsl.jussieu.fr. Calcul Intensif pour le Climat, l'atmosphère et la Dynamique

Documents pareils
Chapitre 2. Cluster de calcul (Torque / Maui) Grid and Cloud Computing

Gestion de clusters de calcul avec Rocks

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

Les environnements de calcul distribué

Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009. Pôle de Calcul Intensif pour la mer, 11 Decembre 2009

Grid5000 aujourd'hui : Architecture & utilisation

INFO-F-404 : Techniques avancées de systèmes d exploitation

Détection d'intrusions en environnement haute performance

Thomas Loubrieu (Ifremer) Small to Big Data Novembre 2013, Ifremer, Brest

SIGAMM/CRIMSON COMMISSION UTILISATEUR du 05/12/2014

Bienvenue sur Lab-Windows Il n'y a de vents favorables que pour ceux qui ont un cap

Cluster de calcul Freeware en Océanographie Opérationnelle

Atelier : Virtualisation avec Xen

Commandes Linux. Gestion des fichiers et des répertoires. Gestion des droits. Gestion des imprimantes. Formation Use-IT

Charte d'utilisation des infrastructures de la plate-forme bioinformatique Genotoul

Infrastructures Parallèles de Calcul

DOCKER MEETUP. Christophe Labouisse

Acronis Backup & Recovery 10 Advanced Server Virtual Edition. Guide de démarrage rapide

Mise en place d'un cluster

Portage d applications sur le Cloud IaaS Portage d application

Documentation utilisateur, manuel utilisateur MagicSafe Linux. Vous pouvez télécharger la dernière version de ce document à l adresse suivante :

Cloud public d Ikoula Documentation de prise en main 2.0

LINUX REMPLAÇANT WINDOWS NT

2011 Hakim Benameurlaine 1

Etude d architecture de consolidation et virtualisation

Programmation C. Apprendre à développer des programmes simples dans le langage C

Chapitre 2 : Abstraction et Virtualisation

Une nouvelle génération de serveur

ésylog, direction technique Esylog_PeerBackup outil de sauvegarde individuelle mails & fichiers personnels documentation technique

Architectures d implémentation de Click&DECiDE NSI

Préconisations Techniques & Installation de Gestimum ERP

Areca Backup Première Sauvegarde - Configurez votre premier groupe et votre première cible.

Symantec Backup Exec.cloud

Serveur Acronis Backup & Recovery 10 pour Linux. Update 5. Guide d'installation

La Virtualisation Windows chez CASINO. Philippe CROUZY Responsable Infrastructure Equipes Systèmes -Stockage

Serveur virtuel infogéré

Gestion de parc Windows depuis Unix. Pascal Cabaud & Laurent Joly

Activité 1 : Création et Clonage d'une première machine virtuelle Linux OpenSuSE.

DREAL proposition DNS et hébergement. magazine le 14 septembre 2011 DREAL comparatif hébergement

Hyper-V et SC Virtual Machine Manager sous Windows Server 2008 R2

Maarch Framework 3 - Maarch. Tests de charge. Professional Services. 11, bd du Sud Est Nanterre

Travailler à l'ensimag avec son matériel personnel

Journée Utiliateurs Nouvelles du Pôle ID (Informatique) Pierre Neyron, LIG/CNRS

CAHIER DES CHARGES D IMPLANTATION

Demande d'ap informatique 2012

Introduction à NetCDF

Le Ro le Hyper V Premie re Partie Configuration et Prise en main du gestionnaire Hyper-V

VERITAS NetBackup 5.0 en 5 jours : Administration Avancée

MARCHE PUBLIC DE FOURNITURES CAHIER DES CLAUSES TECHNIQUES PARTICULIERES (CCTP)

Manuel de System Monitor

Tests de SlipStream sur les plateformes et : vers la. Vers la fédération du Cloud computing

Acronis Backup & Recovery 10 Server for Linux. Guide de démarrage rapide

SCHMITT Année 2012/2014 Cédric BTS SIO. TP Serveur Backup

VERITAS NetBackup 6.x en 5 jours : Administration Avancée

ANTI-VIRUS / PROTECTION DES POSTES DE TRAVAIL ET DES SERVEURS DE FICHIERS

Guide d'installation. Release Management pour Visual Studio 2013

<Insert Picture Here> Solaris pour la base de donnés Oracle

Administration de Parc Informatique TP07 : Installation de Linux Debian

Acronis Backup & Recovery 11.5

Ajout et Configuration d'un nouveau poste pour BackupPC

Migration d un Cluster Fiber Channel+SAN+Lames sous Xen vers Ethernet +iscsi+serveurs sous KVM

Microsoft OSQL OSQL ou l'outil de base pour gérer SQL Server

TAI049 Utiliser la virtualisation en assistance et en dépannage informatique TABLE DES MATIERES

Travailler à l'ensimag avec son matériel personnel

Utilisation du Cloud StratusLab dans le cadre d application astroparticule à l APC

Virtualisation de Windows dans Ubuntu Linux

Architecture de la plateforme SBC

Réaliser un inventaire Documentation utilisateur

Network Shutdown Module V3 Extension du Manuel Utilisateur pour architecture Virtualisée VMWare ESX Server 3, 3.5

Open Source Job Scheduler. Installation(s)

Simple Database Monitoring - SDBM Guide de l'usager

Tutoriel Création d une source Cydia et compilation des packages sous Linux

IBM SPSS Modeler Text Analytics Server for Windows. Instructions d installation

Happy birthday ZSet High performance computing dans ZSet

contexte cahier des charges critères de choix fonctionnalités configuration en pratique Bilan Conclusion Backuppc Logiciel de sauvegarde

Module : Virtualisation à l aide du rôle Hyper-V

VMWARE VSPHERE ESXI INSTALLATION

Serveur d application WebDev

La virtualisation de serveurs avec VMWare Infrastructure - Retour d expérience. Rodérick Petetin CRI INSA Rennes

EN Télécom & Réseau S Utiliser VMWARE

«Astrophysique et instrumentations associées» Cours UNIX Benoît Semelin

Projet IGGI. Infrastructure pour Grappe, Grille et Intranet. Fabrice Dupros. CASCIMODOT - Novembre Systèmes et Technologies de l Information

Network Shutdown Module V3 Extension du Manuel Utilisateur pour architecture Virtualisée VMWare ESX Server

Cloud Computing. Groupe : Vincent, Mohammed, Yannick, Allan Tuteur : Mr. NUSSBAUM Lucas Année : 2009/2010

Gestion des sauvegardes

VMWare. Vmware: machine virtuelle Un véritable pc avec : VmWare

Sauvegarde des bases SQL Express

Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»).

DEVREZ VOUS RÉAPPRENDRE À TRAVAILLER AVEC VOTRE SUITE PRIMMO?

A -Systèmes de fichiers 1 - FAT vs NTFS

Virtualisation de serveurs Solutions Open Source

HPC by OVH.COM. Le bon calcul pour l innovation OVH.COM

LOGICIEL KIPICAM : Manuel d installation et d utilisation

FreeNAS Shere. Par THOREZ Nicolas

Portage du modèle climatique de surface continentale de l'ipsl. sur une grappe de serveurs XD1

VMware ESX/ESXi. 1. Les composants d ESX. VMware ESX4 est le cœur de l infrastructure vsphere 4.

Veeam Backup and Replication

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Transcription:

Plateforme CICLAD Calcul Intensif pour le Climat, l'atmosphère et la Dynamique http://ciclad-web.ipsl.jussieu.fr Administrateur Philippe.Weill@latmos.ipsl.fr 12/12/2012

Accès et Documentations Documentation et demande de compte: http://ciclad-web.ipsl.jussieu.fr Accès: ssh user@ciclad.ipsl.jussieu.fr ssh user@ciclad1.ipsl.jussieu.fr ssh user@ciclad2.ipsl.jussieu.fr en cas de problème ou bien demande de logiciels supplémentaires: svp-ciclad@ipsl.jussieu.fr Liste de diffusion : http://courriel.ipsl.jussieu.fr/mailman/listinfo/ciclad-infos /home 20Go par utilisateur Lecture écriture de données sur /data et JAMAIS SUR /home

Accès et Documentations Documentation et demande de compte: http://ciclad-web.ipsl.jussieu.fr Accès: ssh user@ciclad.ipsl.jussieu.fr ssh user@ciclad1.ipsl.jussieu.fr ssh user@ciclad2.ipsl.jussieu.fr en cas de problème ou bien demande de logiciels supplémentaires: svp-ciclad@ipsl.jussieu.fr Liste de diffusion : http://courriel.ipsl.jussieu.fr/mailman/listinfo/ciclad-infos /home 20Go par utilisateur Lecture écriture de données JAMAIS SUR /home mais sur /data ou autres suivant vos projets

Sauvegardes L'équipe systeme ne fait aucune sauvegarde autre que les homes Pour /home, si vous effacez un fichier vous pouvez retrouver la version de la veille dans /etherfs/home_backup

CICLAD Historique Projet commencé en 2007 Maquette Février 2008 (50K ) 1 noeud d'entrée sortie 9To de disques 3 noeuds de calcul Mise en production Septembre 2008 ( 180K ) 4 serveurs de fichiers ( 70To ) 10 noeuds de calcul (80 Coeurs) Mise en production Phase II Septembre 2010 Transformation en plateforme de stockage,calcul et distribution de donnée (centre de donnée, pôle de modèlisation) Début de phase III 1er Semestre 2013 liaison dédiée haut débit vers climserv Augmentation capcité disque et calcul Changement de version de linux pour le calcul RHEL like 6.x

CICLAD c'est quoi Aujourd'hui? Un gros volume de stockage ( > 1peta octet ) Une grappe de calcul ( 352 Coeurs AMD ) 19 noeuds Une plate-forme de virtualisation pour la redistributions des données Le tout étant inter-connecté par un réseau rapide ( 20 et 40Gb/s) à faible latence ( InfiniBand )

Plateforme de stockage 15 serveurs de fichiers (interconnexion infiniband) 14 baies de disques ( plus de 700 disques durs ) 5 Systèmes de fichiers parallèles Lustre Très rapide en écriture et lecture En cas de problème sur le système de fichier les écritures ou lectures sont bloquées en attendant la réparation et les programmes repartent dans la grande majorité des cas ou ils en étaient ( pratique en batch, moins en interactif ;-) N'aime pas du tout les grands nombres de petits fichiers ( < 1Mo ) pensez y dans vos applications

Calcul 19 serveurs ( 352 Coeurs AMD 64 bit 2,3 GHz) Machines avec 8, 12, 32 ou 64 Coeurs 4go de Ram par Coeur Inter-connexion infiniband 2 machines d'accès ( ciclad1 et ciclad2 ) Merci d'utiliser qsub -VI plutôt que de lancer directement vos programmes sur ces machines Gestionnaire de batch ( torque-maui ) Compilateurs et Logiciels scientifiques nombreux

Plateforme de virtualisation Commune à tous les services de l'ipsl 5 serveurs ( 1 pour sauvegarde et contrôle, 4 pour héberger des machines virtuelles) Système de virtualisation VMWARE Hébergement de sites web, distribution de données

Configuration Logicielle Centos 5.x sur toutes les machines: http://centos.org/ système de fichier LUSTRE: http://lustre.org système de batch torque : scheduler maui http://www.clusterresources.com/pages/products/torque-resourcemanager.php Idl (6.4 et 8.0.1 (idl80)) matlab (2010b) compilateur fortran commerciaux :pgf95(portland) ifort(intel) nagfor (NAG) compilateur fortran gratuit : gfortran g77 g95 Parallelisme : openmpi Autres : ferret, gmt, netcdf, cdo, nco, ncl ( en général dans /opt )

Système de batch ( les commandes ) Soumettre un job : qsub Combien de jobs dans les queues : qstat Détruire un job : qdel État des Noeuds : pbsnodes Modifier un job : qalter check-cluster Toutes ces commandes disposent d'une aide en ligne ( man )

Les différentes queues d'exécution qstat -q pour les connaître 7 queues short std day days3 week weeks2 infini short ( default) --> 1Heure CPU std --> 6Heures CPU day --> 24Heures CPU days3 --> 72Heures CPU week --> 168Heures CPU weeks2 --> 340Heures CPU infini --> 840Heures CPU Plus la queue à un temps CPU long plus la priorité du job est faible sur la machine

Les limites utilisateur Toutes ces limites seront susceptibles d'évoluer en fonction des besoins et de l'utilisation du cluster au 01/09/2011 les limites sont : 1 utilisateur ne peut pas avoir : plus de 24 Jobs actifs Utiliser plus de 24 CPU + de 3 jobs actifs dans la queue infini + de 4 jobs actifs dans la queue weeks2 + de 8 jobs actifs dans la queue week + de 16 jobs actifs dans autres queues Par défaut la mémoire est limitée à 3go par process Pour éviter de trop charger le noeud interactif,vous pouvez très facilement faire de l'interactif avec le système de batch: qsub -VI [ -q short std h12 day days3 week weeks2 infini ]

Commande pbsnodes et check-cluster pbsnodes -l : liste les noeuds qui ne sont pas en fonctionnement pbsnodes -a : liste l'état de tous les noeuds Les autres options présentés dans le manuel sont réservé à l'administration Commande locale check-cluster ( utilise pbsnodes) [weill@ciclad1 ~]$ check-cluster NODE STATE FREE-CPU ciclad10 free 2/8 ciclad9 job-exclusive 0/8 ciclad8 free 1/8 ciclad7 free 1/8 ciclad6 job-exclusive 0/8 ciclad5 free 3/8 ciclad4 free 8/8 ciclad3 job-exclusive 0/8 ciclad2 free 4/6 29 Active Jobs 51 of 70 Processors Active (72.86%) 8 of 9 Nodes Active (88.89%) Total Jobs: 44 Active Jobs: 29 Idle Jobs: 0 Blocked Jobs: 15

Commandes qstat qstat (sans options) : liste tous les jobs qstat -q : donnes les informations sur les queues qstat -a : donnes des infos étendues qstat -n : donnes les infos des noeuds sur lesquels tournent les jobs qstat -f num_job : donne des infos très étendues sur les jobs Un utilisateur peut voir les jobs de tout le monde dans la queue

Commande qdel Qdel numero_du_job ( on récupere le numéro du job par qstat

Commande qsub (1) La premiere chose à savoir est que l'on ne peut soumettre que des shells scripts ( pas des binaires) Le shell script minimum c'est #!/bin/sh mon_binaire il doit être exécutable et au lancement par défaut vous êtes dans votre répertoire d'accueuil chmod +x mon_shell_script qsub mon_shell_script En sortie vous récupérerez deux fichiers une fois le job terminé: nom_du_script.o num_jobs : il contient la sortie standard de votre script + les informations de durée et de mémoire du jobs nom_du_script.e num_jobs : il contient la sortie erreur de votre script

Commande qsub (2) Options qsub [-a date_time] [-A account_string] [-c interval] [-C directive_prefix] [-e path] [-h] [-I] [-j join] [-k keep] [-l resource_list][-m mail_options] [-M user_list] [-N name] [-o path] [-p priority] [-qdestination] [-r c] [-S path_list] [-u user_list] [-v variable_list][-v] [-W additional_attributes] [-z] [script]

Commandes qsub (3) qsub -q«nom_de_la_queue» mon_script qsub -VI job interactif vous avez la main sur une machine ( à condition qu'il y ai un processeur libre) qsub -j eo Joindre les fichiers erreur er sortie en un seul qsub -k eo Les fichiers d'entrée et de sortie sont créés dès le début du job par contre uniquement dans la home qsub -l nodes=ciclad3 Choisit le noeud (fortement déconseillé)

Commandes qsub(4) qsub -v variable_name= variable_valeur permet de passer des variables aux scripts car les arguments d'un script ne sont pas pris en compte sur la ligne de commande dans le script on utilise $variable_name Il est possible de mettre les options de qsub directement dans le script Avec des directives : #PBS -qweek #PBS -k eo #PBS -j eo

Commandes qsub(5) qsub -j eo -k eo job.sh : cela vous permet de suivre le déroulement des sorties dans votre home job.sh.exxx Il est possible d'utiliser en batch des programmes comme : Idl Matlab ( avec l'option -nodisplay ) À condition bien sûr qu'il ne fasse pas de graphique X11

Commande qsub(6) Limite par défaut des jobs à 4 Go de mémoire virtuelle et 3 Go de memoire vive par défaut : Comment lancer des jobs utilisant plus de 4gb? Donner la taille mémoire voulu dans qsub: pmem : mémoire par process pvmem : mémoire virtuelle par process qsub -l pmem=10gb -l pvmem=12gb Mem: 32442980k total, 21798348k used, 10644632k free, 47112k buffers Swap: 67111528k total, 2499232k used, 64612296k free, 14130248k cached PID USER PR NI VIRT RES SHR S %CPU %MEM TIME+ COMMAND 12355 weill 25 0 9164m 8.1g 8.1g S 44 26.3 1:08.55 MATLAB

qsub (7) Lancer un job à une heure donnée : qsub -a heure : qsub -a 2010 # lance le job à 20H10 qsub -a $(date -d '+2min' +%H%M) # lance le job 2minutes après la date courante ) Spécifier le walltime ou le cputime : qsub -l walltime=20:00:00,cput=80:00:00 # 20H de walltime, 80H de cpu Dépendance de jobs : lancer un job après l'exécution réussi d'un ou plusieurs autres qsub -W depend=afterok:jobid[:jobid...]

soumission de jobs parallèles : qsub -l nodes=n:ppn=m Parallelisme ceci signifie : je veux n noeuds avec m processeurs par noeuds exemples: qsub -l nodes=1:ppn=8 qsub -l nodes=2:ppn=4 qsub -l nodes=4:ppn=1 Job mpi : mpirun program il est inutile de donner à mpirun le nombre de CPU ( -np ) le système de batch s'en charge Au démarrage d'un job parallèle la variable shell PBS_NODEFILE contient le nom du fichier listant les noeuds affectés : Exemples: [weill@ciclad1 ~]$ more foo.sh cat $PBS_NODEFILE

Parallelisme 2 Au démarrage d'un job parallèle la variable shell PBS_NODEFILE contient le nom du fichier listant les noeuds affectés : more foo.sh cat $PBS_NODEFILE qsub -l nodes=4:ppn:1 foo.sh cat foo.sh.o56517 [...] ciclad2.ipsl.jussieu.fr ciclad10.ipsl.jussieu.fr ciclad8.ipsl.jussieu.fr ciclad7.ipsl.jussieu.fr Epilogue Args: [...] Resource List: cput=01:00:00,neednodes=4:ppn=1,nodes=4:ppn=1 Resources Used: cput=00:00:00,mem=4948kb,vmem=260216kb,walltime=00:00:14 Queue Name: short Running Host: ciclad2.ipsl.jussieu.fr

Librairies mpi Il existes plusieurs implémentations de mpi Openmpi, lammpi et mpich ( non installé sur ciclad ) Pour openmpi préferer désormais les version 1.4.x qui utilise l'infiniband La commande mpi-selector permet à l'utilisateur de choisir son implémentation mpi-selector --query default:openmpi-1.4.3-ifort-x86_64 level:user mpi-selector --list lam-x86_64 openmpi-1.2.8-pgf-x86_64 openmpi-1.4.2-g95-x86_64 openmpi-1.4.2-gfortran-x86_64 openmpi-1.4.2-pgf-x86_64 openmpi-1.4.3-ifort-x86_64 openmpi-1.4.3-pgf-x86_64 openmpi-1.4.3-pgfgcc-x86_64

FAQ J'arrive pas à me connecter à ciclad.ipsl.jussieu.fr essayer sur ciclad2.ipsl.jussieu.fr J'ai lancé un job il reste en queue alors qu'il y a de la place? showq -b peut vous donner la raison J'ai effacé par erreur un fichier dans /data NO BACKUP J'ai un job qui se plante aléatoirement Merci de fournir à svp-ciclad@ipsl.jussieu.fr l'emplacement des fichiers de sortie du job, vérifier aussi si le plantage à toujours lieu sur le même noeud

Avenir... Limites : Pas plus de 32 noeuds Augmentation des filesystems Si les budget suivent...