SIGAMM/CRIMSON COMMISSION UTILISATEUR du 05/12/2014



Documents pareils
3 ème journée des utilisateurs de l archivage

Infrastructure de calcul du CRRI

Grid5000 aujourd'hui : Architecture & utilisation

Infrastructures Parallèles de Calcul

Gestion de clusters de calcul avec Rocks

Demande d'ap informatique 2012

Journée Utiliateurs Nouvelles du Pôle ID (Informatique) Pierre Neyron, LIG/CNRS

libérez votre innovation avec l extreme computing CEA/Philippe Stroppa

Marché Public. Serveurs et Sauvegarde 2015

Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009. Pôle de Calcul Intensif pour la mer, 11 Decembre 2009

Migration d un Cluster Fiber Channel+SAN+Lames sous Xen vers Ethernet +iscsi+serveurs sous KVM

LES DATACENTRES. ANGD MATHRICE Novembre Françoise Berthoud Violaine Louvet. Merci à Dominique Boutigny. Site web :

Architectures d implémentation de Click&DECiDE NSI


Marché à procédure adaptée (en application de l article 28 du code des Marchés Publics)

Spécifications détaillées

Mise en place d'un cluster

Les mésocentres HPC àportée de clic des utilisateurs industriels

Rapport d'activité 2014 de la plate-forme technologique CISM

HPC by OVH.COM. Le bon calcul pour l innovation OVH.COM

Charte d'utilisation des infrastructures de la plate-forme bioinformatique Genotoul

contexte cahier des charges critères de choix fonctionnalités configuration en pratique Bilan Conclusion Backuppc Logiciel de sauvegarde

Architecture des ordinateurs

Sauvegarde des données au LAAS

CONSULTATION : (MAPA) MAT_INFO_2013_03 Marché à procédure adaptée (MAPA) MAT_INFO_2013_03

Outil d aide au choix Serveurs Lot 4 Marché Groupement de Recherche

La virtualisation de serveurs avec VMWare Infrastructure - Retour d expérience. Rodérick Petetin CRI INSA Rennes

Acquisition de matériels informatiques

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

Creation de Contenus Numériques pour

APPEL D OFFRE A PROCEDURE ADAPTEE MIGRATION SERVEURS WINDOWS. Cahier des Charges

RESSOURCES DU MESOCENTRE

FOURNITURE ET INSTALLATION DE MATERIELS ET DE LOGICIELS INFORMATIQUES

MARCHE PUBLIC DE FOURNITURES CAHIER DES CLAUSES TECHNIQUES PARTICULIERES (CCTP)

NON URGENTE TEMPORAIRE DEFINITIVE. SUBJECT : PROCÉDURE DE MISE EN SERVICE DE LA VERSION F e RELEASE 6.2

CAHIER DES CLAUSES TECHNIQUES PARTICULIERES (CCTP) Valant ACCORD-CADRE. Procédure d appel d offres ouvert - N

Grid 5000 : Administration d une infrastructure distribuée et développement d outils de déploiement et d isolation réseau

Retour d expérience, portage de code Promes dans le cadre de l appel à projets CAPS-GENCI

L équipement choisit devra être nomade, il servira aux visiteurs en déplacements et sera donc sujets à des limitations de tailles et de poids.

Mise en oeuvre TSM 6.1

Module : Virtualisation à l aide du rôle Hyper-V

VIRTUALISATION : MYTHES & RÉALITÉS

Nouvelles stratégies et technologies de sauvegarde

Le supercalculateur Tera 100 Premier supercalculateur pétaflopique européen

LE STOCKAGE UNIFIÉ ASSOCIÉ À LA VIRTUALISATION D'ENTREPRISE

Chapitre 2. Cluster de calcul (Torque / Maui) Grid and Cloud Computing

Projet d'infrastructure de stockage mutualisée

Retours d expériences et perspectives sur les aspects énergétiques

Intervenant : Olivier Parcollet olivier.parcollet@semtao.fr Architecte Systèmes & Réseaux. RETOUR D EXPERIENCE Virtualisation à lasetao

EMC Data Domain Boost for Oracle Recovery Manager (RMAN)

Retour d'expérience CC-IN2P3

Les environnements de calcul distribué

Protection des données avec les solutions de stockage NETGEAR

Cahier des charges pour la mise en place de l infrastructure informatique

Le e s tocka k ge g DAS,NAS,SAN

PROJET VIRTUALISATION DES SERVEURS METIERS HAUTE DISPONIBILITE PLAN DE REPRISE D ACTIVITE

Cours 13. RAID et SAN. 2004, Marc-André Léger

Rapport 2014 et demande pour Portage de Méso-NH sur Machines Massivement Parallèles du GENCI Projet 2015 : GENCI GEN1605 & CALMIP-P0121

Fiche produit Serveur FUJITSU PRIMERGY BX900 S2 Système de serveur lame

en version SAN ou NAS

Cluster High Availability. Holger Hennig, HA-Cluster Specialist

vsphere 5 TP2 La virtualisation avec VMware CNFETP F. GANGNEUX technologie GANGNEUX F. 17/12/2012

Installation de Premium-RH

ALLIANZ MODE OPERATOIRE DE MIGRATION D UNE AGENCE WINDOWS Août Version du document : 010

Kick Off SCC Vers de nouveaux horizons

Hyper-V (version 3) et System Center Virtual Machine Manager Technologie de virtualisation sous Windows Server 2012 R2

vbladecenter S! tout-en-un en version SAN ou NAS

Bull, un catalogue de service particulier pour répondre aux environnements complexes

Spécifications Techniques Générales. Techno Pole Internet. Lycée Djignabo / Ziguinchor

Présentation Infrastructure DATACENTRE

Galaxy est une plateforme de traitements (bio)informatiques accessible depuis l'url : (en précisant votre login et mot de passe LDAP «genotoul»).

Présentation d HyperV

Migration d un serveur Windows Server 2008 vers un serveur Windows Server 2012

EMC DATA DOMAIN OPERATING SYSTEM

Colloque Calcul IN2P3

Le stockage. 1. Architecture de stockage disponible. a. Stockage local ou centralisé. b. Différences entre les architectures

L I V R E B L A N C P r o t ég e r l e s a p p l i c a t i o n s m ét i e r s c r i t i q u e s M a i n f r a m e, un b e s o i n c r u c i a l

Gamme Serveurs HP ProLiant Rack

Cluster de calcul Freeware en Océanographie Opérationnelle

NVR Fusion IV. Pour quels marchés? Caractéristiques Matériel. Logiciel

Prestations de conseil en SRM (Storage Ressource Management)

Poste de travail d enregistreur vidéo en réseau

Consultation pour la virtualisation des serveurs informatiques. Règlement de la consultation et Cahier des charges

Organiser vos données - Big Data. Patrick Millart Senior Sales Consultant

ACQUISITION DE MATERIEL INFORMATIQUE

EMC DATA DOMAIN HYPERMAX

PRÉ-REQUIS ET INSTALLATION SERVEUR

MARCHE DE FOURNITURE D EQUIPEMENTS INFORMATIQUES ET RESEAU POUR LE PROJET D APPUI A LA NAVIGABILITE DES VOIES FLUVIALES ET LACUSTRES EN R.D.

HEBERGEMENT DANS LE DATACENTER GDC2 DE VELIZY

Hyper-V v2 : une évolution majeure des services de virtualisation

I. Descriptif de l offre. L offre Sage 100 Entreprise Edition Entreprise

Projet IGGI. Infrastructure pour Grappe, Grille et Intranet. Fabrice Dupros. CASCIMODOT - Novembre Systèmes et Technologies de l Information

SAN AoE (ATA over Ethernet)

WebSphere MQ & Haute Disponibilité

Présentation Windows 7 &

Procédure d installation de la solution Central WiFI Manager CWM

Transcription:

SIGAMM/ COMMISSION UTILISATEUR du 05/12/2014 ORDRE DU JOUR : - Rôle de la commission, - Présentation de la nouvelle plateforme, - Accès Mésocentre, - Point sur les problèmes rencontrés, - Propositions de nouvelles règles de soumission, - Questions diverses, - Avenir de Sigamm et le projet Opal, - Définir la prochaine date de la commission.

Rôle de la commission Présentation de la nouvelle plateforme Accès Mésocentre Point sur les problèmes rencontrés Propositions de nouvelles règles de soumission Questions diverses Avenir de Sigamm et le projet Opal Définir la prochaine date de la commission

Rôle de la commission:

Rôle de la commission Présentation de la nouvelle plateforme Accès Mésocentre Point sur les problèmes rencontrés Propositions de nouvelles règles de soumission Questions diverses Avenir de Sigamm et le projet Opal Définir la prochaine date de la commission

Présentation de la nouvelle plateforme : SOLUTION PLURISIDCIPLINAIRE Capacité de calcul : Evolution de la plateforme précédente de 952 cores à 3024 cores Offre un environnement de calcul classique de 888 + 2040 cores Offre un environnement de calcul GPU de 64 cores Offre un environnement de calcul Grande mémoire 1To 32 cores Capacité de stockage : Evolution du scratch à 300To (GPFS) Ajout d un scratch complémentaire 40T (NFS RDMA) Sécurisation électrique: Mise en place d un groupe électrogène Rattachement total de la plateforme à l onduleur 80 Kva Sécurisation Services Réseaux : Mise en place d un PRA (ldap, svn, etc )

OCA MESOCENTRE SIGAMM/ 952 Cores 10,5 TFlop Infiniband QDR/40Gb/s 2 serveurs de login 2 serveurs d IO - GPFS Baie DDN S6620 Raid 6 275 TB Serveur Administration 72 Nœuds -lames B500 (Bull) -type X5660 -mémoire 48Go -DD 250Go -Processeur : 2 x Intel(R) Xeon(R) CPU X5660 @ 2.80GHz coeurs):12 cores 5 Chassis 8 Nœuds GPU NVIDIA M2050 -lames B505 (Bull) -type E5620 -mémoire 24Go -DD 250Go -Processeur : 2 x Intel(R) Xeon(R) CPU E5620 @ 2.40GHz (4 coeurs) ; 8 cores Acquisition 2011 (952 cores 10,5 TFlop)

Quelques dates Obtention du financement CPER Diffusion de l appel d offre Ouverture des offres /Choix candidats Livraison lot1 Solution de calcul Livraison lot2 Groupe électrogène Mise en production lot2 Mise en production Lot1 Mise en production Lot3 Rédaction de l appel d offre 3 lots Lot1 solution de calcul Lot2 sécurisation électrique Lot3 PRA Publication extension lot1 Installation Lot2 Livraison lot3 Solution PRA Installation Lot3 Installation Lot1 07/2013 11/2013 01/2014 06/2014 07/2014 05/2014 08/2014 2015 2013

OCA MESOCENTRE SIGAMM/ 1432 Cores -?TFlop Infiniband QDR/40Gb/s 2 serveurs de login 2 serveurs d IO - GPFS Baie DDN S6620 Raid 6 275 TB Serveur Administration 72 Nœuds -lames B500 (Bull) -type X5660 -mémoire 48Go -DD 250Go -Processeur : 2 x Intel(R) Xeon(R) CPU X5660 @ Infiniband FDR/56Gb/s 5 Chassis 2.80GHz coeurs):12 cores 8 Nœuds GPU NVIDIA M2050 -lames B505 (Bull) -type E5620 -mémoire 24Go -DD 250Go -Processeur : 2 x Intel(R) Xeon(R) CPU E5620 @ 2.40GHz (4 coeurs) ; 8 cores 1 Nœud grande Mémoire 2,5Ghz Bullx R4 428-E3 32 cores 1To 5 Chassis 76 Nœuds -lames B510 (Bull) -type E5-2670v2 -mémoire 64Go -DD 250Go -Processeur : 2 x Intel(R) Xeon(R) IvyBridge E5-2670v2 @ 2.50GHz (10 coeurs) ; 20 cores Acquisition 2011 (952 cores 10,5 TFlop) Extension 2014 1 (1432 cores) Solution Archivage Serveur bull R423-E3 Baie Netapp E2600 80 TB brut raid 6

Quelques dates Déménagement de FRIPP Livraison lot1 Solution de calcul Livraison lot2 Groupe électrogène Mise en production lot2 Mise en production Lot1 Mise en production Lot3 Installation extension lot1 Mise en production Fin CPER Passage de l ensemble de la plateforme sur Onduleur 80Kva Installation Lot2 Livraison lot3 Solution PRA Installation Lot3 Installation Lot1 Livraison extension Lot1 ~ 600 cores Arrêt cluster FRIPP 06/2014 07/2014 08/2014 09/2014 10/2014 11/2014 2015 2014

OCA MESOCENTRE SIGAMM/ 3024 Cores - 52 TFlop Infiniband QDR/40Gb/s 2 serveurs de login 2 serveurs d IO - GPFS Baie DDN S6620 Raid 6 275 TB Serveur Administration 5 Chassis 72 Nœuds -lames B500 (Bull) -type X5660 -mémoire 48Go -DD 250Go -Processeur : 2 x Intel(R) Xeon(R) CPU X5660 @ 2.80GHz coeurs):12 cores 8 Nœuds GPU NVIDIA M2050 -lames B505 (Bull) -type E5620 -mémoire 24Go -DD 250Go -Processeur : 2 x Intel(R) Xeon(R) CPU E5620 @ 2.40GHz (4 coeurs) ; 8 cores Infiniband FDR/56Gb/s 1 Nœud grande Mémoire 2,5Ghz Bullx R4 428-E3 32 cores 1To 5 Chassis 76 Nœuds -lames B510 (Bull) -type E5-2670v2 -mémoire 64Go -DD 250Go -Processeur : 2 x Intel(R) Xeon(R) IvyBridge E5-2670v2 @ 2.50GHz (10 coeurs) ; 20 cores Acquisition 2011 (952 cores 10,5 TFlop) Extension 2014 1 (1432 cores) 1 Chassis 26 Nœuds -lames B510 (Bull), type E5-2670v2 -mémoire 64Go, -DD 250Go -Processeur : 2 x Intel(R) Xeon(R) IvyBridge E5-2670v2 @ 2.50GHz (10 coeurs) ; 20 cores Extension 2014 2 (640 cores) Solution Archivage Serveur bull R423-E3 Baie Netapp E2600 80 TB brut raid 6

Rôle de la commission Présentation de la nouvelle plateforme Accès Mésocentre Point sur les problèmes rencontrés Propositions de nouvelles règles de soumission Questions diverses Avenir de Sigamm et le projet Opal Définir la prochaine date de la commission

Accès au Mésocentre : Accès : - notion de projet scientifique : chef de projet responsable Responsable des ouvertures/fermetures et problèmes rencontrés du code. - Pas de restriction d accès, pas d évaluation scientifique, - Les chefs de projet sont des permanents des laboratoires partenaires (UCA), - Ouverture des logins(collaborateurs, étudiants, postdoc, etc ) sous responsabilité du chef de projet - Collaborateurs extérieurs à l UCA sont permis, si ils travaillent explicitement sur le projet (coauteurs de la publication qui en résulte) sous responsabilité du chef de projet Nb de projets en cours : 45 Nb de comptes actifs : 100

Rôle de la commission Présentation de la nouvelle plateforme Accès Mésocentre Point sur les problèmes rencontrés Propositions de nouvelles règles de soumission Questions diverses Avenir de Sigamm et le projet Opal Définir la prochaine date de la commission

Points sur les problèmes rencontrés : - Electrique coupures électriques régulières (8/an ~10J-etp/coupure) => mise en œuvre groupe électrogène => protection des nœuds licallo par onduleur (les calculs ne sont plus interrompus) - I/O Perte de performance, pb de temps de réponse de la structure => De 01/14 à 05/14 constat du problème, alerte intégrateur, tuning ldap, tuning gpfs, contrôles infiniband => 05/14 à 07/14, upgrade de la plateforme, benchs OK => 08/14 à 09/14, retour des problèmes, analyse GPFS et de la baie i/o (saturation serveurs d I/O & baie) => 10/14 à 11/14, tuning de la baie, études de solutions alternatives d accueil de scratch. Mise en œuvre. => 12/14, alerte automatique détection pb de performance => CU 2014 demande de mandat de réorientation des codes sur scratch secondaire (cf point propositions de nouvelles règles de soumission)

- Mémoire Sur première plateforme licallo, jobs bloqués par saturation mémoire => La mise en œuvre de la nouvelle plateforme avec optimisation des soumissions ont corrigé ce problème - Soumission rejet à la soumission si la demande de l utilisateur amenait à une réservation de cores supérieure à la limite autorisée. => 05/2014 nouvelle version d OAR, soumission illimitée, jobs/cores/utilisateurs running simultanés limités - Trous Scripts de soumission optimisés pour licallo1 (cf 12c) créent des trous sur les nœuds licallo2 (cf 20c) => Légitimité d action pour l optimisation des scripts de soumission. (cf point propositions de nouvelles règles de soumission)

- Occupation des espaces scratch espace en constante diminution, personne ne fait le ménage. => A l heure actuelle bonne volonté (totalement inefficace) Mise en œuvre nécessaire d une procédure de purge automatique. proposition : Tous répertoires non accédés depuis plus de trois mois sont mis en «poubelle». Tous les répertoires non réclamés dans la «poubelle» au bout de 2 mois supplémentaires seront définitivement supprimés.

- Taux d occupation du cluster Le taux d occupation du cluster avoisine 55%, la normalité devrait atteindre les 80% - Manque de soumission - Proposition d augmentation du nb de cores simultanés/utilisateurs (cf point propositions de nouvelles règles de soumission) - Adéquation de la ressource réservée au code soumis

Quelques dates Livraison lot1 Solution de calcul Livraison lot2 Groupe électrogène Mise en production lot2 Mise en production Lot1 Mise en production Lot3 Modification de l architecture Initiale Déploiement d un scratch secondaire Passage de l ensemble de la plateforme sur Onduleur 80Kva Installation extension lot1 Mise en production Fin CPER Installation Lot2 Livraison lot3 Solution PRA Installation Lot3 Installation Lot1 Analyse des flux sur La nouvelle plateforme Livraison extension Lot1 ~ 600 cores 06/2014 07/2014 08/2014 09/2014 10/2014 11/2014 2015 2014

SWITCH Ethernet OCA 1G/b MASTER chusuk LOGIN01 gurney LOGIN02 tagir SWITCH Ethernet Mesocentre 1G/b SWITCH INFINIBAND QDR 40G/b IO01 56G/b SWITCH INFINIBAND FDR Baie DDN IO02 FS-CALCUL Baie netapp (82)Nœuds N (103)Nœuds P

5 Chassis OCA MESOCENTRE SIGAMM/ 3024 Cores - 52 TFlop Serveur Administration Infiniband QDR/40Gb/s 2 serveurs de login Infiniband FDR/56Gb/s serveur d IO - GPFS 72 Nœuds 6 Chassis 864 cores Baie DDN S6620 Raid 6 275 TB serveur d IO - GPFS 102 Nœuds 2040 cores 8 Nœuds GPU 64 cores Solution scratch2 Serveur nfs rdma 1 Nœud 1To 32 cores Baie Netapp E2600 80 TB brut raid 6

Rôle de la commission Présentation de la nouvelle plateforme Accès Mésocentre Point sur les problèmes rencontrés Propositions de nouvelles règles de soumission Questions diverses Avenir de Sigamm et le projet Opal Définir la prochaine date de la commission

Règles de soumission : - Scheduler OAR - Fenêtre de 24H (facilite le turnover, oblige les utilisateurs dans l usage de GENCI) - 50jobs 600cores => queue (default) souhaité crimson 50jobs 1024cores - 300jobs 300cores => queue (Q300) appartient groupe GRP Q300 si le code n a pas d impact sur le bon fonctionnement du cluster - Projet intense I/O => travail sur scratch2 (fs-calcul-scratch) - Machine 1To 32 cores => queue (bigsmp, «#oar -t bigsmp») - Priorité : - KARMA => Calculé à chaque soumission, Temps cpu consommé à travers une fenêtre glissante sur 1 mois. Départ de 0, fonction croissante. - Demande exceptionnelle : - Demande exceptionnelle au delà de 300jobs/600cores - Décision du comité utilisateur dans les 48H ouvrées - Gérée par Changement des quotas pour l utilisateur - Possibilité de sortir de la fenêtre de 24H

Règles d interventions concernant tout dysfonctionnement constaté L administration a le droit d arrêter un job qui nuirait au bon fonctionnement du cluster Exemple : job qui sollicite 100% I/O sur un scratch - Email explicatif à l usager & au responsable du projet, - Une réorientation sera proposée et discutée - En cas de non communication avec l équipe, la soumission de jobs dans ce projet peut être bloquée.

Rôle de la commission Présentation de la nouvelle plateforme Accès Mésocentre Point sur les problèmes rencontrés Propositions de nouvelles règles de soumissions Questions diverses Avenir de Sigamm et le projet Opal Définir la prochaine date de la commission

Rôle de la commission Présentation de la nouvelle plateforme Accès Mésocentre Point sur les problèmes rencontrés Propositions de nouvelles règles de soumissions Questions diverses Avenir de Sigamm et le projet Opal Définir la prochaine date de la commission

OPAL CPER 2015-2018 Laboratoires Équipes UCA Unités d'enseignement Opal est un projet d'uca. CPER 2015-2018 financement extension Mésocentres Calcul intensif Post-traitement Expérimentation Réseau rapide BIG DATA Center Autres sources : projets 2020? A travers des projets UCA ou directement? Visualisation 3D Cave d'immersion Post-traitement et interaction - Reflexion concertée sur l'extention dans OPAL Acteur sociaux économiques (Industrie, start up, high tech Pépinière entreprise) Équipes de recherche Françaises et internationales Étudiants potentiels

Rôle de la commission Présentation de la nouvelle plateforme Accès Mésocentre Point sur les problèmes rencontrés Propositions de nouvelles règles de soumissions Questions diverses Avenir de Sigamm et le projet Opal Définir la prochaine date de la commission