CC-IN2P3 Séminaire CIMENT Catherine BISCARAT (biscarat@in2p3.fr) IR au LPSC-IN2P3 Pierre GIRARD (pierre.girard@ujf-grenoble.fr) IR au DCM Chimie Théorique
Plan Préambule Un mot sur les orateurs Motivations et intentions CC-IN2P3 Infrastructure Structure Opérations Support à l utilisateur Grilles de calcul mondiales Projets EGEE (2004-2010) WLCG (2003-) Opérations de la grille Support à l utilisateur Conclusions Retours d'expériences au CC-IN2P3 01/02/2013 2
PRÉAMBULE Retours d'expériences au CC-IN2P3 01/02/2013 3
Un mot sur les orateurs Catherine Biscarat 2007-2010 : Chercheur postdoctoral au CCIN2P3 Support dédié à l expérience ATLAS LHC Physicienne Depuis IR informatique au LPSC-IN2P3 WLCG/CIMENT Pierre GIRARD 2004-2012 : IR informatique au CCIN2P3 Déploiement et gestion des services grille CCIN2P3 2004-2010: Coresponsable de l exploitation des sites français d EGEE 2010-2012: Responsable des activités LHC au CCIN2P3 Depuis IR informatique au DCM Exploitation de Ceciccluster Expert en calcul scientifique Retours d'expériences au CC-IN2P3 01/02/2013 4
Motivations : La Grille CIMENT aujourd hui Chaque communauté administre et utilise ses propres ressources de calcul pour ses propres besoins, de la façon qu elle souhaite MIRAGE: Meso Informatique Répartie pour des Application en Géophysique et Environnement SCCI: Service de Calcul Intensif de l'observatoire de Grenoble Ciment PHYNUM: Physique Numérique GrappePCS: Grappes de PCs Grid BioIMAGe: Biologie Imagerie CECIC: Centre d'expérimentation Calcul Intensif en Chimie Source: https://ciment.ujf-grenoble.fr/poles Retours d'expériences au CC-IN2P3 01/02/2013 5
Motivations : La Grille CIMENT aujourd hui Chaque communauté administre et utilise ses propres ressources de calcul pour ses propres besoins, de la façon qu elle souhaite MIRAGE: Meso Informatique Répartie pour des Application en Géophysique et Environnement SCCI: Service de Calcul Intensif de l'observatoire de Grenoble Ciment PHYNUM: Physique Numérique Le modèle «light grid» introit un partage de ressources basé sur la notion de «best effort» qui n a pas réellement d impact sur le fonctionnement de chaque communauté. GrappePCS: Grappes de PCs Grid BioIMAGe: Biologie Imagerie CECIC: Centre d'expérimentation Calcul Intensif en Chimie Source: https://ciment.ujf-grenoble.fr/poles Retours d'expériences au CC-IN2P3 01/02/2013 6
Motivations : La Grille CIMENT aujourd hui Chaque communauté administre et utilise ses propres ressources de calcul pour ses propres besoins, de la façon qu elle souhaite MIRAGE: Meso Informatique Répartie pour des Application en Géophysique et Environnement SCCI: Service de Calcul Intensif de l'observatoire de Grenoble Ciment PHYNUM: Physique Numérique Le modèle «light grid» introit un partage de ressources basé sur la notion de «best effort» qui n a pas réellement d impact sur le fonctionnement de chaque communauté. GrappePCS: Grappes de PCs Grid CECIC: Centre d'expérimentation Calcul Intensif en Chimie BioIMAGe: Biologie Imagerie Par contre, les utilisateurs de cette grille ont besoin d un certain niveau de service global qui dépend bon fonctionnement de chacun. Source: https://ciment.ujf-grenoble.fr/poles Retours d'expériences au CC-IN2P3 01/02/2013 7
Motivations : La Grille CIMENT aujourd hui Chaque communauté administre et utilise ses propres ressources de calcul pour ses propres besoins, de la façon qu elle souhaite Source: https://ciment.ujf-grenoble.fr/poles MIRAGE: Meso Informatique Répartie pour des Application en Géophysique et Environnement GrappePCS: Grappes de PCs SCCI: Service de Calcul Intensif de l'observatoire de Grenoble Ciment Grid CECIC: Centre d'expérimentation Calcul Intensif en Chimie PHYNUM: Physique Numérique BioIMAGe: Biologie Imagerie Le modèle «light grid» introit un partage de ressources basé sur la notion de «best effort» qui n a pas réellement d impact sur le fonctionnement de chaque communauté. Par contre, les utilisateurs de cette grille ont besoin d un certain niveau de service global qui dépend bon fonctionnement de chacun. Pour ce faire, certains œuvrent dans l ombre pour que ça fonctionne. Ils gèrent l exploitation de ressources partagées et distribuées. Retours d'expériences au CC-IN2P3 01/02/2013 8
Motivations: La Grille CIMENT demain Avec l arrivée de la nouvelle machine pour tous MIRAGE: Meso Informatique Répartie pour des Application en Géophysique et Environnement SCCI: Service de Calcul Intensif de l'observatoire de Grenoble Ciment PHYNUM: Physique Numérique GrappePCS: Grappes de PCs Grid 2176 cœurs CECIC: Centre d'expérimentation Calcul Intensif en Chimie BioIMAGe: Biologie Imagerie Nous allons devoir établir des règles de partage Source: https://ciment.ujf-grenoble.fr/wiki-pub/index.php/new_46tflop/s_parallel_computer_for_the_ciment_community Retours d'expériences au CC-IN2P3 01/02/2013 9
et intentions Nous venons monde «heavy» (grid) computing Il y a une séparation nette entre sites et utilisateurs La grille a amplifié la distance Mais beaucoup d efforts pour travailler ensemble Les «opérations» se veulent être le point de rencontre Ici le contexte est différent La mixité et la proximité sont des atouts Nous ne vous proposons pas de solution toute faite Mais le difficile exercice de vous faire partager une certaine expérience des opérations Retours d'expériences au CC-IN2P3 01/02/2013 10
Le TGIR CC-IN2P3/CNRS PRÉSENTATION Retours d'expériences au CC-IN2P3 01/02/2013 11
Plaquette CC-IN2P3 : http://cc.in2p3.fr/plaquette--cc-in2p3 Le TGIR CC-IN2P3/CNRS Depuis 1986 sur le domaine scientifique de la Doua - Villeurbanne IN2P3 Le Centre de Calcul de l Institut National de Physique Nucléaire et de Physique des Particules (CC-IN2P3) Unité de service et de recherche (USR 6402) CNRS. Classé parmi les Très Grandes Infrastructures Françaises de Recherche (TGIR). Fourni des moyens de calcul et de stockage de données aux chercheurs impliqués dans les expériences de physique corpusculaire. La physique des particules La physique nucléaire La physique des astroparticules Ouverture vers d'autres communautés scientifiques Bio-médical, Astrophysique, etc. Collaborations principales Convention avec l Institut de Recherche sur les lois Fondamentales de l Univers (IRFU) Commissariat à l Energie Atomique (CEA). L un des onze centres mondiaux de traitement de premier niveau des données LHC (CERN, Genève) L initiative de grille de calcul européenne (EGI) Les services principaux le stockage et le traitement de grandes masses de données, ainsi que leur transfert sur des réseaux internationaux à très haut débit. Fonctionnement 24h/24, 365 jours par an. Plus de 2500 utilisateurs réguliers Retours d'expériences au CC-IN2P3 01/02/2013 12
Missions CC-IN2P3 Pour qui : Expériences gourmandes (~70) En puissance de calcul En stockage de données Expériences géographiquement distribuées Travail collaboratif Partage des applicatifs Partage des données Pourquoi : Mutualisation des ressources informatiques des compétences informatiques Accès partagé aux ressources Comment : Mise en place d une infrastructure de proction Gestion de l exploitation Optimisation de l utilisation des machines Continuité des services Zzz Zzz MeteoSys> La météo d hier sera: Bonne Allo, le CC? Retours d'expériences au CC-IN2P3 01/02/2013 13
Le TGIR CC-IN2P3/CNRS INFRASTRUCTURE Retours d'expériences au CC-IN2P3 01/02/2013 14
L infrastructure CCIN2P3 Interconnexions Machines interactives Calcul Stockage (13 Po de disques) Batch System (OGE) dcache HPSS TSM AFS sequentials parallels NFS/GPFS WN WN WN WN WN WN WN WN XROOTD IRODS 5 To WN WN WN WN WN WN Source: http://cctools.in2p3.fr/mrtguser/info_generales.html Source: http://cc.in2p3.fr/stockage-sur-disques Retours d'expériences au CC-IN2P3 01/02/2013 15
Fonctions de calculs au CCIN2P3 Définition des queues de soumission Source: http://cctools.in2p3.fr/mrtguser/info_sge_queue.php Retours d'expériences au CC-IN2P3 01/02/2013 16
Fonctions de calculs au CCIN2P3 (Grosse) Activité de calcul Jobs mis en queue Jobs en exécution Source: http://cctools.in2p3.fr/mrtguser/mrtguser/global/sge_global_slots_rp.html Retours d'expériences au CC-IN2P3 01/02/2013 17
Fonctions de calculs au CCIN2P3 Taux de remplissage cluster Source: http://cctools.in2p3.fr/mrtguser/mrtguser/global/sge_global_slots_rm.html Retours d'expériences au CC-IN2P3 01/02/2013 18
Fonctions de calculs au CCIN2P3 Régulation de l utilisation des ressources/services utilisés par les jobs Principes: Des jobs peuvent pré-déclarer l utilisation de ressources ou de services. Des quotas (nombre de jetons) sont définis par l exploitation pour ces ressources. A l instar d un serveur de licences, s il n y a plus de jetons, ils restent en queue. Retours d'expériences au CC-IN2P3 01/02/2013 19
Le TGIR CC-IN2P3/CNRS STRUCTURE Retours d'expériences au CC-IN2P3 01/02/2013 20
Source: http://cc.in2p3.fr/organigramme/ Organigramme 21 20 15 Retours d'expériences au CC-IN2P3 01/02/2013 21
Communauté d utilisateurs CCIN2P3 Les CZAR : Certains utilisateurs disposent de privilèges d'administration pour gérer des ressources informatiques au sein de leur groupe ou laboratoire Rôles Illustration: Cabinet UNANIME Architectes - Guillaume HANOUN http://inauguration2011.in2p3.fr/ CZAR compte : validation des demandes de comptes faites pour un laboratoire ou des expériences. CZAR password : responsable des mots de passe de login. CZAR requête : Il est responsable de la formulation des demandes de ressources (CPU, Stockage) pour un groupe. CZAR Disk (ou CZAR AFS) : responsable des espaces de stockage groupe ($GROUP_DIR et $THRONG_DIR). CZAR Batch : administrateur des tâches au sein d'un groupe dans le batch system. Source: http://cc.in2p3.fr/docenligne/359 Retours d'expériences au CC-IN2P3 01/02/2013 22
Le TGIR CC-IN2P3/CNRS LES OPERATIONS Retours d'expériences au CC-IN2P3 01/02/2013 23
Retour d expérience d un ancien 2012 2004 Auteur : F. Chollet Brève de couloir : Gérer la proction au CC, c est comme manœuvrer un paquebot [R. Rumler, 2004] Retours d'expériences au CC-IN2P3 01/02/2013 24
Les opérations au sein CCIN2P3 Utilisateurs Couche opérations Support PANIC Exploitation Couche infrastructure et services Stockage Services base de données Outils collaboratifs (Web, CMS, Agenda, etc.) Système Réseau Développements Retours d'expériences au CC-IN2P3 01/02/2013 25
Les opérations au sein CCIN2P3 Utilisateurs But: travaille pour le «bien de tous» en optimisant la proction, c est-à-dire l utilisation de l infrastructure Support Coordonne les autres groupes (chef d orchestre) Définit et applique des politiques d utilisation PANIC Exploitation Quota, priorité, fair-share, etc. Met en place et applique des procéres opérationnelles Gestion d arrêt et de reprise, régulation des ressources sur événement, ou suivant les objectifs, etc. Gestionnaire des ressources en place Stockage Système Services base de données Réseau Outils collaboratifs (Web, CMS, Agenda, etc.) Développements «batch system», stockage, réseau, etc. Retours d'expériences au CC-IN2P3 01/02/2013 26
Les opérations au sein CCIN2P3 But: travaille pour le «bien de tous» en optimisant la proction, c est-à-dire l utilisation de l infrastructure Coordonne les autres groupes (chef d orchestre) Définit et applique des politiques d utilisation Quota, priorité, fair-share, etc. Met en place et applique des procéres opérationnelles Gestion d arrêt et de reprise, régulation des ressources sur événement, ou suivant les objectifs, etc. Gestionnaire des ressources en place PANIC Stockage Système Utilisateurs Support Exploitation Services base de données Réseau Outils collaboratifs (Web, CMS, Agenda, etc.) Développements But: travaille pour le «bien de chacun» en étant l intermédiaire avec l utilisateur Assistance à l utilisateur Installation/compilation de logiciel, résolution de problèmes, etc. Suivi de projets et de proction des utilisateurs Propose et met en place des solutions en accord avec l utilisateur, surveille et rend compte de l utilisation, etc. «batch system», stockage, réseau, etc. Retours d'expériences au CC-IN2P3 01/02/2013 27
La surveillance quotidienne au CCIN2P3 Horaires de bureau SALLE DE CONTRÔLE Utilisateurs Soirs et week-end SURVEILLANCE EN CONTINU Support PANIC Exploitation L opérateur surveille de chez lui le monitoring Binôme formé o d un membre support o d un membre de l exploitation Rotation hebdomadaire Suivi des incidents et de la proction Centralise et fait circuler l information L expertise est collectée par les opérations et organisée en fiches expertes et fiches de recettes Stockage Système Services base de données Réseau Experts Outils collaboratifs (Web, CMS, Agenda, etc.) Développements L opérateur applique les recettes si possible L opérateur demande l intervention d un expert Retours d'expériences au CC-IN2P3 01/02/2013 28
Accounting Monitoring Sécurité Qualité Les activités transverses au CCIN2P3 Utilisateurs Support Qualité : Basée sur ITIL, fournit un canevas, un langage commun et des améliorations à un savoirfaire préexistant, distribué et acquis au cours de décennies. PANIC Stockage Système Exploitation Services base de données Réseau Outils collaboratifs (Web, CMS, Agenda, etc.) Développements Monitoring et Accounting : Collecte d information, mise en place d alertes, croisement de données, établissement de rapports à différents type de destinataires (internes et externes). Les responsables d expériences reçoivent un rapport mensuel de l utilisation des ressources. Retours d'expériences au CC-IN2P3 01/02/2013 29
Le TGIR CC-IN2P3/CNRS LE SUPPORT A L UTILISATEUR Retours d'expériences au CC-IN2P3 01/02/2013 30
Support aux utilisateurs Des utilisateurs contents Des ressources bien utilisées En mode de croisère Accueil Formation Accompagnement Parler deux langues Vue transverse CC En présence de turbulences SAV Réactivité Canaux de communication Oganisation en équipe - 11 personnes - redondance - à l'écoute (des users) - au courant (côté CC) Retours d'expériences au CC-IN2P3 01/02/2013 31
Web et documentation Onglets page d'acceuil Onglets page utilisateurs Base de connaissance pour les services Retours d'expériences au CC-IN2P3 01/02/2013 32
Base de connaissances - exemple Retours d'expériences au CC-IN2P3 01/02/2013 33
Recueil des requêtes Shift hebdomadaire / couverture horaire de bureaux Système de ticket (pas de mail) Niveaux de support 1. Résolution par le support 2. Dispatch aux experts («files») Retours d'expériences au CC-IN2P3 01/02/2013 34
Suivi des opérations / services Elog de suivi par service (abonnement par email) Binôme en contrôle room Retours d'expériences au CC-IN2P3 01/02/2013 35
Communication / organisation Premières informations - web - cahier de service - utilisation des services Help Desk Tickets(OTRS) - plage horaires - niveaux support - analyse incidents - identifie problèmes PANIC Utilisateurs Support Exploitation Broadcast - liste de contacts - liste des utilisateurs Shift support - requêtes journalières Elogs (email) - suivi de l'exploitation - suivi des services Stockage Système Services base de données Réseau Outils collaboratifs (Web, CMS, Agenda, etc.) Développements Retours d'expériences au CC-IN2P3 01/02/2013 36
Allocations de ressources Demande (czar) Budget global Réunion des expériences Arbitrage (tutelles) Formulaire web CPU, stockage,... Bilan année écoulée Annonce budget Huit clos Objectifs scientifiques Suivi (indicateurs) Mise en place Exploitation Objectifs Retours d'expériences au CC-IN2P3 01/02/2013 37
Grilles de calcul mondiales PROJET EGEE(/EGI) Retours d'expériences au CC-IN2P3 01/02/2013 38
Source: http://accounting.egi.eu/egi.php Utilisation CPU de EGEE/EGI et WLCG Utilisée à 90% par les 4 expériences LHC Mais 1% représente 18 671 299 heures 2 131 années Le projet WLCG coordonne l utilisation de la grille EGEE/EGI par les 4 expériences LHC (ALICE, ATLAS, CMS et LHCb) : 210 sites (151 officiellement) Le projet EGEE/EGI gère l exploitation de l infrastructure de grille mondiale : 340 sites Retours d'expériences au CC-IN2P3 01/02/2013 39
Grilles de calcul mondiales PROJET WLCG Retours d'expériences au CC-IN2P3 01/02/2013 40
Allocations de ressources dans WLCG Annonce des besoins par les 4 expériences Revue des demandes par rapport à chaque modèle de calcul proposé Annonce de promesses ( pledges ) de ressources par les sites Budget + Arbitrage (tutelles) Suivi (indicateurs) Mise en place Exploitation Objectifs Retours d'expériences au CC-IN2P3 01/02/2013 41
Contrainte de disponibilité Les sites signent un accord de service (Memoranm or Understanding, MoU) avec le projet où ils s engagent à une certaine réactivité dans la résolution des incidents à mettre à disposition services et ressources promis avec une certaine qualité de service. Retours d'expériences au CC-IN2P3 01/02/2013 42
Grilles de calcul mondiales LES OPÉRATIONS Retours d'expériences au CC-IN2P3 01/02/2013 43
Les Opérations dans EGEE Référentiel des sites: https://goc.egi.eu Chaque fédération certifie ses sites Enregistrement dans un référentiel central Nom site Contacts (support, sécurité, etc.) Liste des administrateurs Type (Test ou Proction) et Statut (Candidate, Certified, etc.) Déclaration des services Déclaration des arrêts (planifiés ou non) de services Signature d un «Service Level Agreement» Formation des administrateurs site Technique et procéres opérationnelles Assistance à la mise en place effective Configuration minimale requise Activation monitoring central Reste en probation (hors proction) tant qu il n a pas atteint des objectifs précis de disponibilité et de stabilité Retours d'expériences au CC-IN2P3 01/02/2013 44
Les Opérations dans EGEE Quand un site entre en proction Une fois certifié par sa fédération Il devient visible pour les utilisateurs Il doit Répondre aux tickets d incidents Des utilisateurs Des opérateurs de la grille Publier son accounting Surveiller le monitoring Déclarer ses «downtimes» sortie automatique de proction De nombreux outils permettent d accéder au flux d information généré par les opérations La tendance actuelle est d utiliser ou d intégrer des technologies préexistantes NAGIOS ActiveMQ De fournir des solutions packagées pour que chaque fédération déploie sa solution Système de tickets: https://ggus.eu Monitoring grille Collecte les résultats des sondes service NAGIOS de sa fédération Infrastructure de publication de l accounting Retours d'expériences au CC-IN2P3 01/02/2013 45
Portail d accounting d EGEE/EGI Le manager d une communauté d utilisateurs peut voir le détail de l accounting pour sa VO L hétérogénéité de la grille de calculs est effacée en utilisant une même unité normalisée pour tous les sites. Utilisation d un benchmark (HS06/kSI2K), afin de prendre en compte la puissance des machines utilisées. Efficacité = CPU / Elapsed. Un bon indicateur pour comparer les sites/vos entre eux, ou voir des fluctuations anormales dans le temps, etc. lien: http://accounting.egi.eu/egi.php Retours d'expériences au CC-IN2P3 01/02/2013 46
Le portail des opérations Synthétise et utilise les informations de tous les outils des opérations Tableau de bord pour les sites Abonnement à des notifications de «downtime» Envoi de broadcast à des communautés Référentiel des «Virtual Organisations» Lien: http://operations-portal.egi.eu/aboutportal/map Retours d'expériences au CC-IN2P3 01/02/2013 47
Grilles de calcul mondiales LE SUPPORT A L UTILISATEUR Retours d'expériences au CC-IN2P3 01/02/2013 48
Support aux utilisateurs Des utilisateurs contents Des ressources bien utilisées Avec la grille Utilisateurs (très) distants Communautés d'utilisateurs (très) grosses (très) organisées Création de middleware dans le middleware Les sites deviennent aveugles Workflow (très) complexes Entre niveaux de sites (T1-2-3) 2900 physiciens 150 centres de calcul Retours d'expériences au CC-IN2P3 01/02/2013 49
Communication/organisation Retours d'expériences au CC-IN2P3 01/02/2013 50
Communication/organisation VO ATLAS Control room Shift centraux Shift régionaux Retours d'expériences au CC-IN2P3 01/02/2013 51
Monitoring des VOs Retours d'expériences au CC-IN2P3 01/02/2013 52
Communication/organisation Support dédié VO ATLAS Dans la grille Même type de média (Ticket GGUS, Elogs,...) Control room Shift centraux Shift régionaux Retours d'expériences au CC-IN2P3 01/02/2013 53
CONCLUSIONS Retours d'expériences au CC-IN2P3 01/02/2013 54
Conclusions Mise en place de canaux de communication Politique d allocation des ressources Structuration des communautés d utilisateurs Assistance et accompagnement de l utilisateur Monitoring et Accounting Retours d'expériences au CC-IN2P3 01/02/2013 55
BACKUP SLIDES Retours d'expériences au CC-IN2P3 01/02/2013 56
Auteur original: F. Hernandez CVMFS La grille dans l Infrastructure CCIN2P3 G G Grid Engine G : Services de la grille G G G G G G G Retours d'expériences au CC-IN2P3 01/02/2013 57
LAN Fonctions de stockage au CCIN2P3 Chaque expérience met en place un modèle de calcul qui repose sur 3 fonctions de stockage CACHE pour servir l activité calcul BUFFER pour servir l activité réseau + T1s T2s Internet LHCOPN LHCONE PERMANENT pour stocker les données CPU Tapes Disk Retours d'expériences au CC-IN2P3 01/02/2013 58
Les demandes exprimées Retours d'expériences au CC-IN2P3 01/02/2013 59
Les objectifs attribués Retours d'expériences au CC-IN2P3 01/02/2013 60
Accord de service (MoU) MOU between CERN and the institutions participating in WLCG (CERN-C-RRB-2005-1/Rev. April 2009) Retours d'expériences au CC-IN2P3 01/02/2013 61
Le découpage en activités d EGEE Les communautés d utilisateurs organisées en «Virtual Organisations» (VOs) Ces communautés ont constitué les principales forces vives projet La communauté des sites (centres de calculs) gérée en fédérations régionales «Regional Operations Centers» (ROCs) Source: http://indico.cern.ch/getfile.py/access?contribid=13&sessionid=0&resid=1&materialid=slides&confid=108791 Retours d'expériences au CC-IN2P3 01/02/2013 62
Auteur original: F. Chollet Evolution CCIN2P3 pour WLCG Retours d'expériences au CC-IN2P3 01/02/2013 63
Support aux utilisateurs Des utilisateurs contents Des ressources bien utilisées Avec la grille Utilisateurs (très) distants Communautés d'utilisateurs (très) grosses (très) organisées Création de middleware dans le middleware Les sites deviennent aveugles Workflow (très) complexes Entre niveaux de sites (T1-2-3) 2900 physiciens 150 centres de calcul Retours d'expériences au CC-IN2P3 01/02/2013 64
Modèle de calcul expérience LHC Server de tâches pilot job pilot WNs site A WNs site B pilot pilot Les pilotes : - gestion des queues - kill des jobs en erreurs Scheler Retours d'expériences au CC-IN2P3 01/02/2013 65