Nouvelle Infrastructure de calcul CTIG Remplacement de dga11 et dga12
Périmètre L appel d offre porte sur : Un nouveau cluster de calcul (remplacement dga11 et dga18) Un nouveau serveur d interactivité (remplacement dga12) Un réseau de calcul rapide en Infiniband Une baie de stockage performante pour fichiers de travail Pas de modifications pour dga14 (accès à distance, dbeaver)
Déroulement du projet 20/11/2013 : Création d un groupe de travail «Nouvelle infrastructure de calcul» composé de. D. Boichard, T. Coudert, O. Filangi, S. Nugier, B. Servin, M. Souchal Rédaction du cahier des charges par le groupe de travail «Nouvelle infrastructure de calcul» Validation du cahier des charges en CSU le 8/7/2014 Publication appel offre initial le 17/02/2015 Appel d offre déclaré infructueux car les 3 répondants n ont pas respectés toutes les spécifications du cahier des charges 17/04 bureau CU : décision de choisir une offre a 80 nœuds Procédure négociée lancée le 18/05, rencontre des 3 fournisseurs puis nouveau délai pour remise des nouvelles offres Marché notifié le 20/07/2015
Planning Ouverture aux premiers utilisateurs prévue pour fin novembre/début décembre Période de migration (avec les 2 infrastructures disponibles simultanément) de 6 mois pour les utilisateurs avec accompagnement de l équipe système Normalement les utilisateurs sont déjà au courant des changements qu ils ont à prévoir Présentation dans les centres Formation
Schéma architecture Espace de travail temporaire /travail Réseau rapide InfiniBand FDR 56 Gb/s Cluster Nœud SAS batch Indexation Recherche Nœuds Bigmem Indexation Recherche Nœuds calcul standard Indexation Recherche Lecture seulement Stockage NAS Baie Panasas actuelle Home Directory (quota : 2 Go / utilisateur) Espace équipe recherche Accès en lecture seule aux données sur le stockage NAS Réseau actuel Ethernet 1 Gb/s Classes SGE SASindex, SAS Librairies scientifiques (NAG, open MPI ) Logiciels de calcul R Clases SGE index, bigmem, unlimitq, workq, long SGE (qsub, qlogin) Station Accueil Pas de bureau Gnome Pas de Firefox, Filezilla Logiciel de calcul (asreml, QTLMap, genekit ) Editeurs (Gedit, Nedit, Emacs, VIM) compilateurs Librairie scientifique (NAG, open MPI ) R Commandes SGE Pas de batch (SGE) Pas de compilateurs Pas de debugger (DDD) Pas de logiciels de calcul sans interface graphique (asreml, QTLMap ) R-studio Serveur SAS et poste de travail Accès par xterm (terminal) et SGE SAS (DMS, Enterprise Guide) R bureau Gnome (Nautilus, lecteur PDF, accessoires ) Editeurs (Gedit, Nedit, Emacs, VIM) Firefox, Filezilla Ada SGE X2GO X-Window Utilisateur calcul Utilisateur
Configuration cluster 82 nœuds de calcul (44 sur dga11) 72 nœuds standards (128 Go de RAM) (dga11 : 20/48Go, 20/96Go, 4/256Go) 8 nœuds bigmem (256 Go de RAM) 2 Processeurs E5-2640v3 2,6 Ghz 8 cœurs 2 nœuds SMP (512 go RAM E5-2698v3-2,3 Ghz - 32 cœurs) 2 nœuds login (256 go RAM E5-2698v3-2,3 Ghz - 32 cœurs) en HA Espace travail commun a dga20 de 20 To Espaces projets en lecture seule Répertoires /home commun a dga20 de 2 Go
Configuration dga20 512 go RAM DDR4 cadencée a 2133MHz (dga12 : 512 DDR3 1066MHz) 1 processeur Intel Xeon E5-2698v3 (Haswell) 32 cœurs 40M Cache, 2.30 GHz (max 2.6GHz), 9.6 GT/s Dga12 : 2 processeur Intel Xeon X7560 (Nehalem) 16 cœurs 24M Cache, 2.26 GHz (max 3.6GHz), 6.40 GT/s Espace travail commun au cluster de 20 To Répertoires /home commun au cluster de 2 Go
Classes SGE 2 classes dédiées à l utilisation de SAS : SAS (16 slots) et SASindex (16 slots) Classe copie : 32 slots avec accès en r/w sur espaces projets Classes cluster «classiques» : longq : 2 jours de CPU, 122 slots unlimitq : pas de limites de temps, 30 slots bigmem : 8 nœuds à 256 Go de RAM + 1 nœud SMP a 512 Go soit 160 slots workq : 1000 slots
Conséquence pour les utilisateurs L environnement reste le même : Linux Red Hat 6 et SGE, donc pas de recompilation à prévoir, les commandes et scripts seront toujours fonctionnels Même version de SAS, là encore pas de réécriture à prévoir Pour les utilisateurs de dga12 en interactif : plus de compilateur/débuggeur Pour les utilisateurs de dga12 en batch : plus possible sur la nouvelle infrastructure, les batchs seront lancés sur le cluster Pour les utilisateurs en batch (dga11 et les indexeurs) : les espaces projets ne seront plus accessible en écriture depuis le cluster, il faudra utiliser /travail a la place. Exception pour la bdir depuis les nœuds SAS et pour un nœud de copie. Pour les utilisateurs de SAS en batch : il n y aura qu un nœuds SAS pour tout le monde. Il faudra donc séparer les travaux SAS dans les chaines afin de ne pas encombrer ce nœud. Utilisation de classes index pour que les indexeurs passent en priorité SAS Enterprise Guide : sur dga20 Les /home des utilisateurs seront accessibles partout. Plus de bureau sur la station d accueil du cluster Compilateurs, débuggeurs, logiciels de calcul sur les stations accueil du cluster pour faire du test/débuggage. L équipe système se réserve le droit de tuer les jobs trop longs ou trop gourmands
Suivi de la migration Un projet à été ouvert sur la forge Organisation de formation Annonces Wiki Possibilité d ouvrir des demandes d aides ou de support Présentations, documentations https://forge-dga.jouy.inra.fr/projects/migration-nouvelle-infrastructure-decalcul 3 types de formations demandées : Développement parallèle, Linux/SGE et SAS.