Retours d expériences du CC-IN2P3 Séminaire CIMENT



Documents pareils
Colloque Calcul IN2P3

Grid Technology. ActiveMQ pour le grand collisionneur de hadrons (LHC) Lionel Cons Grid Technology Group Information Technology Department

EGEE vers EGI - situation actuelle et interrogations

DIRAC : cadre et composants pour créer des systèmes de calcul distribués

parée e avec C. Germain, B. Kegl et M. Jouvin CS de l Université Paris Sud

Mise en place d'un gestionnaire de données léger, pluridisciplinaire et national pour les données scientifiques

Charte d'utilisation des infrastructures de la plate-forme bioinformatique Genotoul

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

Introduction 3. GIMI Gestion des demandes d intervention 5

Séminaire Gestion Incidents & Problèmes

Retour d'expérience CC-IN2P3

Charte d adhésion d un laboratoire au Mésocentre CIMENT

Le monitoring de flux réseaux à l'in2p3 avec EXTRA

e need L un des premiers intégrateurs opérateurs Cloud Computing indépendants en France

Hébergement MMI SEMESTRE 4

TUTOJRES 2014 Retour d'expérience Datacentre du CC IN2P3,

Centre de Calcul de l Institut National de Physique Nucléaire et de Physique des Particules. Migration Kerberos V Présentation rapide

Vers une fédération de Cloud Académique dans France Grilles J. Pansanel pour le groupe FG-Cloud (M. Airaj, C. Cavet, V. Hamar, M. Jouvin, C.

Tendances Techniques et compétences des laboratoires

Présentation de la Grille EGEE

Demande d'ap informatique 2012

Intégrer la gestion des actifs informatiques et le Service Management

Portage d applications sur le Cloud IaaS Portage d application

MSP Center Plus. Vue du Produit

Middleware et services de la grille

VOTRE OFFRE CRM 360 ALL INCLUSIVE.

AmaCRM SAAS vous permet de gérer votre relation client en toute simplicité Nous vous garantissons un niveau élevé d exploitation de vos données

OSIATISBIZ UN SERVICE DESK HORS DU COMMUN EQUANT SOLUTIONBIZ PARTAGEONS NOS SAVOIRS EXTRAIT DU Nº9

Projet IGGI. Infrastructure pour Grappe, Grille et Intranet. Fabrice Dupros. CASCIMODOT - Novembre Systèmes et Technologies de l Information

Gestion de clusters de calcul avec Rocks

Tests de SlipStream sur les plateformes et : vers la. Vers la fédération du Cloud computing

Mise à jour Apsynet DataCenter

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN

CONSEIL, INTÉGRATION, IMPLÉMENTATION, EXPLOITATION ET MAINTENANCE. TriaServices. Service IT Triamun

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

Pourquoi utiliser SharePoint?

L OFFRE JDE CLOUD 9 CHEZ REDFAIRE

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

Nous vous garantissons un niveau élevé d exploitation de vos données

Pilot4IT Tableaux de Bord Agréger et consolider l ensemble de vos indicateurs dans un même portail.

Les classes de service pour les projets scientifiques

Modèle MSP: La vente de logiciel via les services infogérés

Infrastructures Parallèles de Calcul

Interoperabilité entre Observatoire Virtuel et Grilles de calcul

VOTRE OFFRE CRM 360 ALL INCLUSIVE. crm.amabis.com

1 LE L S S ERV R EURS Si 5

«Les documents référencés ci-dessus étant protégés par les droits d auteur et soumis à la déclaration au Centre Français d exploitation du droit de

La fédération des infrastructures cloud

Astroparticules. (prospectives en informatique) Giovanni Lamanna. Université de Savoie, CNRS/IN2P3, Annecy-le-Vieux, France

Architectures d implémentation de Click&DECiDE NSI

tech days AMBIENT INTELLIGENCE

Introduction aux applications réparties

CATALOGUE DE SERVICES DE LA DIRECTION DU SYSTEME D INFORMATION DE L UNIVERSITE DE LIMOGES

ITIL, quel impact dans nos laboratoires? Pourquoi se poser cette question? Geneviève Romier, CNRS UREC

Nous vous garantissons un niveau élevé d exploitation de vos données

DOSSIER DE PARTENARIAT

Infrastructure de calcul du CRRI

Les environnements de calcul distribué

Le cloud computing au service des applications cartographiques à haute disponibilité

Systèmes et réseaux d information et de communication

Retour sur les déploiements eduroam et Fédération Éducation/Recherche

Clusters de PCs Linux

Pourquoi OneSolutions a choisi SyselCloud

PORTAIL DE GESTION DES SERVICES INFORMATIQUES

Hébergement de base de données MySQL. Description du service (D après OGC - ITIL v3 - Service Design- Appendix F : Sample SLA and OLA)

La solution pour gérer vos connaissances techniques et scientifiques

Serveur virtuel infogéré

Mise en place d un intranet de travail collaboratif. Guide utilisateur

Introduction MOSS 2007

Résumé CONCEPTEUR, INTEGRATEUR, OPERATEUR DE SYSTEMES CRITIQUES

Cursus Sage ERP X3 Outils & Développement. Le parcours pédagogique Sage ERP X3 Outils et Développement

Faulconnier Bastien SIO2. Cahier des charges. Choix et mise en œuvre d'un datacenter pour Infrastructure Cloud. Pour la société :

Grid 5000 : Administration d une infrastructure distribuée et développement d outils de déploiement et d isolation réseau

Contrôlez et Maîtrisez votre environnement de messagerie Lotus Notes Domino

Objectif. Participant. Prérequis. Pédagogie. Oracle Enterprise Manager 10g Grid Control Rel 2. 5 Jours [35 Heures]

Initiation à Internet Médiathèque de Bussy Saint-Georges. Le Cloud

Quelques liens entre. l'infiniment petit et l'infiniment grand

Architecture de serveurs virtualisés pour la communauté mathématique

ARCHEOVISION. Centre de Ressources Numériques 3D. UMR 5607 du CNRS. R. Vergnieux IR-CNRS

MediMail SLA 1/1/2014 1

Filière métier : Administrateur Virtualisation

TOPOLOGIES des RESEAUX D ADMINISTRATION

PNTS. L informatique au Service de l Assurance et de la Prévoyance

Pilot4IT Monitoring : Mesurez la qualité et la performance perçue de vos applications.

Gestion des sauvegardes

Sommaire. Présentation OXIA. Le déroulement d un projet d infogérance. L organisation du centre de service. La production dans un centre de service

BUSINESS INTELLIGENCE

PROSPECTIVES IN2P3-IRFU

Landesk Service Desk

Plan du cours. Incarnations/applications du Grid Computing. Super-calcul virtuel

Architectures informatiques dans les nuages

ACTUALITÉS LANDPARK. Nouvelle version. Landpark Helpdesk. Landpark Helpdesk. Les avantages de la nouvelle version

Iyad Alshabani SysCom - CReSTIC Université de Reims 17/02/2011 1

PCI votre Spécialiste helpdesk depuis plus de 15 ans

Le Service Central du Traitement de la Dépense. Intervenant l mentions légales.

Solutions de gestion Catalyseur de performance

Services de la grille

Lowinski Marc Mansour Chiguer Dominique N'Diaye SI7. OBJECTIF MISSION 3 : Trouver 2 ou 3 outils gratuits Définir les fonctionnalités de ces outils.

Présentation SafeNet Authentication Service (SAS) Octobre 2013

Transcription:

CC-IN2P3 Séminaire CIMENT Catherine BISCARAT (biscarat@in2p3.fr) IR au LPSC-IN2P3 Pierre GIRARD (pierre.girard@ujf-grenoble.fr) IR au DCM Chimie Théorique

Plan Préambule Un mot sur les orateurs Motivations et intentions CC-IN2P3 Infrastructure Structure Opérations Support à l utilisateur Grilles de calcul mondiales Projets EGEE (2004-2010) WLCG (2003-) Opérations de la grille Support à l utilisateur Conclusions Retours d'expériences au CC-IN2P3 01/02/2013 2

PRÉAMBULE Retours d'expériences au CC-IN2P3 01/02/2013 3

Un mot sur les orateurs Catherine Biscarat 2007-2010 : Chercheur postdoctoral au CCIN2P3 Support dédié à l expérience ATLAS LHC Physicienne Depuis IR informatique au LPSC-IN2P3 WLCG/CIMENT Pierre GIRARD 2004-2012 : IR informatique au CCIN2P3 Déploiement et gestion des services grille CCIN2P3 2004-2010: Coresponsable de l exploitation des sites français d EGEE 2010-2012: Responsable des activités LHC au CCIN2P3 Depuis IR informatique au DCM Exploitation de Ceciccluster Expert en calcul scientifique Retours d'expériences au CC-IN2P3 01/02/2013 4

Motivations : La Grille CIMENT aujourd hui Chaque communauté administre et utilise ses propres ressources de calcul pour ses propres besoins, de la façon qu elle souhaite MIRAGE: Meso Informatique Répartie pour des Application en Géophysique et Environnement SCCI: Service de Calcul Intensif de l'observatoire de Grenoble Ciment PHYNUM: Physique Numérique GrappePCS: Grappes de PCs Grid BioIMAGe: Biologie Imagerie CECIC: Centre d'expérimentation Calcul Intensif en Chimie Source: https://ciment.ujf-grenoble.fr/poles Retours d'expériences au CC-IN2P3 01/02/2013 5

Motivations : La Grille CIMENT aujourd hui Chaque communauté administre et utilise ses propres ressources de calcul pour ses propres besoins, de la façon qu elle souhaite MIRAGE: Meso Informatique Répartie pour des Application en Géophysique et Environnement SCCI: Service de Calcul Intensif de l'observatoire de Grenoble Ciment PHYNUM: Physique Numérique Le modèle «light grid» introit un partage de ressources basé sur la notion de «best effort» qui n a pas réellement d impact sur le fonctionnement de chaque communauté. GrappePCS: Grappes de PCs Grid BioIMAGe: Biologie Imagerie CECIC: Centre d'expérimentation Calcul Intensif en Chimie Source: https://ciment.ujf-grenoble.fr/poles Retours d'expériences au CC-IN2P3 01/02/2013 6

Motivations : La Grille CIMENT aujourd hui Chaque communauté administre et utilise ses propres ressources de calcul pour ses propres besoins, de la façon qu elle souhaite MIRAGE: Meso Informatique Répartie pour des Application en Géophysique et Environnement SCCI: Service de Calcul Intensif de l'observatoire de Grenoble Ciment PHYNUM: Physique Numérique Le modèle «light grid» introit un partage de ressources basé sur la notion de «best effort» qui n a pas réellement d impact sur le fonctionnement de chaque communauté. GrappePCS: Grappes de PCs Grid CECIC: Centre d'expérimentation Calcul Intensif en Chimie BioIMAGe: Biologie Imagerie Par contre, les utilisateurs de cette grille ont besoin d un certain niveau de service global qui dépend bon fonctionnement de chacun. Source: https://ciment.ujf-grenoble.fr/poles Retours d'expériences au CC-IN2P3 01/02/2013 7

Motivations : La Grille CIMENT aujourd hui Chaque communauté administre et utilise ses propres ressources de calcul pour ses propres besoins, de la façon qu elle souhaite Source: https://ciment.ujf-grenoble.fr/poles MIRAGE: Meso Informatique Répartie pour des Application en Géophysique et Environnement GrappePCS: Grappes de PCs SCCI: Service de Calcul Intensif de l'observatoire de Grenoble Ciment Grid CECIC: Centre d'expérimentation Calcul Intensif en Chimie PHYNUM: Physique Numérique BioIMAGe: Biologie Imagerie Le modèle «light grid» introit un partage de ressources basé sur la notion de «best effort» qui n a pas réellement d impact sur le fonctionnement de chaque communauté. Par contre, les utilisateurs de cette grille ont besoin d un certain niveau de service global qui dépend bon fonctionnement de chacun. Pour ce faire, certains œuvrent dans l ombre pour que ça fonctionne. Ils gèrent l exploitation de ressources partagées et distribuées. Retours d'expériences au CC-IN2P3 01/02/2013 8

Motivations: La Grille CIMENT demain Avec l arrivée de la nouvelle machine pour tous MIRAGE: Meso Informatique Répartie pour des Application en Géophysique et Environnement SCCI: Service de Calcul Intensif de l'observatoire de Grenoble Ciment PHYNUM: Physique Numérique GrappePCS: Grappes de PCs Grid 2176 cœurs CECIC: Centre d'expérimentation Calcul Intensif en Chimie BioIMAGe: Biologie Imagerie Nous allons devoir établir des règles de partage Source: https://ciment.ujf-grenoble.fr/wiki-pub/index.php/new_46tflop/s_parallel_computer_for_the_ciment_community Retours d'expériences au CC-IN2P3 01/02/2013 9

et intentions Nous venons monde «heavy» (grid) computing Il y a une séparation nette entre sites et utilisateurs La grille a amplifié la distance Mais beaucoup d efforts pour travailler ensemble Les «opérations» se veulent être le point de rencontre Ici le contexte est différent La mixité et la proximité sont des atouts Nous ne vous proposons pas de solution toute faite Mais le difficile exercice de vous faire partager une certaine expérience des opérations Retours d'expériences au CC-IN2P3 01/02/2013 10

Le TGIR CC-IN2P3/CNRS PRÉSENTATION Retours d'expériences au CC-IN2P3 01/02/2013 11

Plaquette CC-IN2P3 : http://cc.in2p3.fr/plaquette--cc-in2p3 Le TGIR CC-IN2P3/CNRS Depuis 1986 sur le domaine scientifique de la Doua - Villeurbanne IN2P3 Le Centre de Calcul de l Institut National de Physique Nucléaire et de Physique des Particules (CC-IN2P3) Unité de service et de recherche (USR 6402) CNRS. Classé parmi les Très Grandes Infrastructures Françaises de Recherche (TGIR). Fourni des moyens de calcul et de stockage de données aux chercheurs impliqués dans les expériences de physique corpusculaire. La physique des particules La physique nucléaire La physique des astroparticules Ouverture vers d'autres communautés scientifiques Bio-médical, Astrophysique, etc. Collaborations principales Convention avec l Institut de Recherche sur les lois Fondamentales de l Univers (IRFU) Commissariat à l Energie Atomique (CEA). L un des onze centres mondiaux de traitement de premier niveau des données LHC (CERN, Genève) L initiative de grille de calcul européenne (EGI) Les services principaux le stockage et le traitement de grandes masses de données, ainsi que leur transfert sur des réseaux internationaux à très haut débit. Fonctionnement 24h/24, 365 jours par an. Plus de 2500 utilisateurs réguliers Retours d'expériences au CC-IN2P3 01/02/2013 12

Missions CC-IN2P3 Pour qui : Expériences gourmandes (~70) En puissance de calcul En stockage de données Expériences géographiquement distribuées Travail collaboratif Partage des applicatifs Partage des données Pourquoi : Mutualisation des ressources informatiques des compétences informatiques Accès partagé aux ressources Comment : Mise en place d une infrastructure de proction Gestion de l exploitation Optimisation de l utilisation des machines Continuité des services Zzz Zzz MeteoSys> La météo d hier sera: Bonne Allo, le CC? Retours d'expériences au CC-IN2P3 01/02/2013 13

Le TGIR CC-IN2P3/CNRS INFRASTRUCTURE Retours d'expériences au CC-IN2P3 01/02/2013 14

L infrastructure CCIN2P3 Interconnexions Machines interactives Calcul Stockage (13 Po de disques) Batch System (OGE) dcache HPSS TSM AFS sequentials parallels NFS/GPFS WN WN WN WN WN WN WN WN XROOTD IRODS 5 To WN WN WN WN WN WN Source: http://cctools.in2p3.fr/mrtguser/info_generales.html Source: http://cc.in2p3.fr/stockage-sur-disques Retours d'expériences au CC-IN2P3 01/02/2013 15

Fonctions de calculs au CCIN2P3 Définition des queues de soumission Source: http://cctools.in2p3.fr/mrtguser/info_sge_queue.php Retours d'expériences au CC-IN2P3 01/02/2013 16

Fonctions de calculs au CCIN2P3 (Grosse) Activité de calcul Jobs mis en queue Jobs en exécution Source: http://cctools.in2p3.fr/mrtguser/mrtguser/global/sge_global_slots_rp.html Retours d'expériences au CC-IN2P3 01/02/2013 17

Fonctions de calculs au CCIN2P3 Taux de remplissage cluster Source: http://cctools.in2p3.fr/mrtguser/mrtguser/global/sge_global_slots_rm.html Retours d'expériences au CC-IN2P3 01/02/2013 18

Fonctions de calculs au CCIN2P3 Régulation de l utilisation des ressources/services utilisés par les jobs Principes: Des jobs peuvent pré-déclarer l utilisation de ressources ou de services. Des quotas (nombre de jetons) sont définis par l exploitation pour ces ressources. A l instar d un serveur de licences, s il n y a plus de jetons, ils restent en queue. Retours d'expériences au CC-IN2P3 01/02/2013 19

Le TGIR CC-IN2P3/CNRS STRUCTURE Retours d'expériences au CC-IN2P3 01/02/2013 20

Source: http://cc.in2p3.fr/organigramme/ Organigramme 21 20 15 Retours d'expériences au CC-IN2P3 01/02/2013 21

Communauté d utilisateurs CCIN2P3 Les CZAR : Certains utilisateurs disposent de privilèges d'administration pour gérer des ressources informatiques au sein de leur groupe ou laboratoire Rôles Illustration: Cabinet UNANIME Architectes - Guillaume HANOUN http://inauguration2011.in2p3.fr/ CZAR compte : validation des demandes de comptes faites pour un laboratoire ou des expériences. CZAR password : responsable des mots de passe de login. CZAR requête : Il est responsable de la formulation des demandes de ressources (CPU, Stockage) pour un groupe. CZAR Disk (ou CZAR AFS) : responsable des espaces de stockage groupe ($GROUP_DIR et $THRONG_DIR). CZAR Batch : administrateur des tâches au sein d'un groupe dans le batch system. Source: http://cc.in2p3.fr/docenligne/359 Retours d'expériences au CC-IN2P3 01/02/2013 22

Le TGIR CC-IN2P3/CNRS LES OPERATIONS Retours d'expériences au CC-IN2P3 01/02/2013 23

Retour d expérience d un ancien 2012 2004 Auteur : F. Chollet Brève de couloir : Gérer la proction au CC, c est comme manœuvrer un paquebot [R. Rumler, 2004] Retours d'expériences au CC-IN2P3 01/02/2013 24

Les opérations au sein CCIN2P3 Utilisateurs Couche opérations Support PANIC Exploitation Couche infrastructure et services Stockage Services base de données Outils collaboratifs (Web, CMS, Agenda, etc.) Système Réseau Développements Retours d'expériences au CC-IN2P3 01/02/2013 25

Les opérations au sein CCIN2P3 Utilisateurs But: travaille pour le «bien de tous» en optimisant la proction, c est-à-dire l utilisation de l infrastructure Support Coordonne les autres groupes (chef d orchestre) Définit et applique des politiques d utilisation PANIC Exploitation Quota, priorité, fair-share, etc. Met en place et applique des procéres opérationnelles Gestion d arrêt et de reprise, régulation des ressources sur événement, ou suivant les objectifs, etc. Gestionnaire des ressources en place Stockage Système Services base de données Réseau Outils collaboratifs (Web, CMS, Agenda, etc.) Développements «batch system», stockage, réseau, etc. Retours d'expériences au CC-IN2P3 01/02/2013 26

Les opérations au sein CCIN2P3 But: travaille pour le «bien de tous» en optimisant la proction, c est-à-dire l utilisation de l infrastructure Coordonne les autres groupes (chef d orchestre) Définit et applique des politiques d utilisation Quota, priorité, fair-share, etc. Met en place et applique des procéres opérationnelles Gestion d arrêt et de reprise, régulation des ressources sur événement, ou suivant les objectifs, etc. Gestionnaire des ressources en place PANIC Stockage Système Utilisateurs Support Exploitation Services base de données Réseau Outils collaboratifs (Web, CMS, Agenda, etc.) Développements But: travaille pour le «bien de chacun» en étant l intermédiaire avec l utilisateur Assistance à l utilisateur Installation/compilation de logiciel, résolution de problèmes, etc. Suivi de projets et de proction des utilisateurs Propose et met en place des solutions en accord avec l utilisateur, surveille et rend compte de l utilisation, etc. «batch system», stockage, réseau, etc. Retours d'expériences au CC-IN2P3 01/02/2013 27

La surveillance quotidienne au CCIN2P3 Horaires de bureau SALLE DE CONTRÔLE Utilisateurs Soirs et week-end SURVEILLANCE EN CONTINU Support PANIC Exploitation L opérateur surveille de chez lui le monitoring Binôme formé o d un membre support o d un membre de l exploitation Rotation hebdomadaire Suivi des incidents et de la proction Centralise et fait circuler l information L expertise est collectée par les opérations et organisée en fiches expertes et fiches de recettes Stockage Système Services base de données Réseau Experts Outils collaboratifs (Web, CMS, Agenda, etc.) Développements L opérateur applique les recettes si possible L opérateur demande l intervention d un expert Retours d'expériences au CC-IN2P3 01/02/2013 28

Accounting Monitoring Sécurité Qualité Les activités transverses au CCIN2P3 Utilisateurs Support Qualité : Basée sur ITIL, fournit un canevas, un langage commun et des améliorations à un savoirfaire préexistant, distribué et acquis au cours de décennies. PANIC Stockage Système Exploitation Services base de données Réseau Outils collaboratifs (Web, CMS, Agenda, etc.) Développements Monitoring et Accounting : Collecte d information, mise en place d alertes, croisement de données, établissement de rapports à différents type de destinataires (internes et externes). Les responsables d expériences reçoivent un rapport mensuel de l utilisation des ressources. Retours d'expériences au CC-IN2P3 01/02/2013 29

Le TGIR CC-IN2P3/CNRS LE SUPPORT A L UTILISATEUR Retours d'expériences au CC-IN2P3 01/02/2013 30

Support aux utilisateurs Des utilisateurs contents Des ressources bien utilisées En mode de croisère Accueil Formation Accompagnement Parler deux langues Vue transverse CC En présence de turbulences SAV Réactivité Canaux de communication Oganisation en équipe - 11 personnes - redondance - à l'écoute (des users) - au courant (côté CC) Retours d'expériences au CC-IN2P3 01/02/2013 31

Web et documentation Onglets page d'acceuil Onglets page utilisateurs Base de connaissance pour les services Retours d'expériences au CC-IN2P3 01/02/2013 32

Base de connaissances - exemple Retours d'expériences au CC-IN2P3 01/02/2013 33

Recueil des requêtes Shift hebdomadaire / couverture horaire de bureaux Système de ticket (pas de mail) Niveaux de support 1. Résolution par le support 2. Dispatch aux experts («files») Retours d'expériences au CC-IN2P3 01/02/2013 34

Suivi des opérations / services Elog de suivi par service (abonnement par email) Binôme en contrôle room Retours d'expériences au CC-IN2P3 01/02/2013 35

Communication / organisation Premières informations - web - cahier de service - utilisation des services Help Desk Tickets(OTRS) - plage horaires - niveaux support - analyse incidents - identifie problèmes PANIC Utilisateurs Support Exploitation Broadcast - liste de contacts - liste des utilisateurs Shift support - requêtes journalières Elogs (email) - suivi de l'exploitation - suivi des services Stockage Système Services base de données Réseau Outils collaboratifs (Web, CMS, Agenda, etc.) Développements Retours d'expériences au CC-IN2P3 01/02/2013 36

Allocations de ressources Demande (czar) Budget global Réunion des expériences Arbitrage (tutelles) Formulaire web CPU, stockage,... Bilan année écoulée Annonce budget Huit clos Objectifs scientifiques Suivi (indicateurs) Mise en place Exploitation Objectifs Retours d'expériences au CC-IN2P3 01/02/2013 37

Grilles de calcul mondiales PROJET EGEE(/EGI) Retours d'expériences au CC-IN2P3 01/02/2013 38

Source: http://accounting.egi.eu/egi.php Utilisation CPU de EGEE/EGI et WLCG Utilisée à 90% par les 4 expériences LHC Mais 1% représente 18 671 299 heures 2 131 années Le projet WLCG coordonne l utilisation de la grille EGEE/EGI par les 4 expériences LHC (ALICE, ATLAS, CMS et LHCb) : 210 sites (151 officiellement) Le projet EGEE/EGI gère l exploitation de l infrastructure de grille mondiale : 340 sites Retours d'expériences au CC-IN2P3 01/02/2013 39

Grilles de calcul mondiales PROJET WLCG Retours d'expériences au CC-IN2P3 01/02/2013 40

Allocations de ressources dans WLCG Annonce des besoins par les 4 expériences Revue des demandes par rapport à chaque modèle de calcul proposé Annonce de promesses ( pledges ) de ressources par les sites Budget + Arbitrage (tutelles) Suivi (indicateurs) Mise en place Exploitation Objectifs Retours d'expériences au CC-IN2P3 01/02/2013 41

Contrainte de disponibilité Les sites signent un accord de service (Memoranm or Understanding, MoU) avec le projet où ils s engagent à une certaine réactivité dans la résolution des incidents à mettre à disposition services et ressources promis avec une certaine qualité de service. Retours d'expériences au CC-IN2P3 01/02/2013 42

Grilles de calcul mondiales LES OPÉRATIONS Retours d'expériences au CC-IN2P3 01/02/2013 43

Les Opérations dans EGEE Référentiel des sites: https://goc.egi.eu Chaque fédération certifie ses sites Enregistrement dans un référentiel central Nom site Contacts (support, sécurité, etc.) Liste des administrateurs Type (Test ou Proction) et Statut (Candidate, Certified, etc.) Déclaration des services Déclaration des arrêts (planifiés ou non) de services Signature d un «Service Level Agreement» Formation des administrateurs site Technique et procéres opérationnelles Assistance à la mise en place effective Configuration minimale requise Activation monitoring central Reste en probation (hors proction) tant qu il n a pas atteint des objectifs précis de disponibilité et de stabilité Retours d'expériences au CC-IN2P3 01/02/2013 44

Les Opérations dans EGEE Quand un site entre en proction Une fois certifié par sa fédération Il devient visible pour les utilisateurs Il doit Répondre aux tickets d incidents Des utilisateurs Des opérateurs de la grille Publier son accounting Surveiller le monitoring Déclarer ses «downtimes» sortie automatique de proction De nombreux outils permettent d accéder au flux d information généré par les opérations La tendance actuelle est d utiliser ou d intégrer des technologies préexistantes NAGIOS ActiveMQ De fournir des solutions packagées pour que chaque fédération déploie sa solution Système de tickets: https://ggus.eu Monitoring grille Collecte les résultats des sondes service NAGIOS de sa fédération Infrastructure de publication de l accounting Retours d'expériences au CC-IN2P3 01/02/2013 45

Portail d accounting d EGEE/EGI Le manager d une communauté d utilisateurs peut voir le détail de l accounting pour sa VO L hétérogénéité de la grille de calculs est effacée en utilisant une même unité normalisée pour tous les sites. Utilisation d un benchmark (HS06/kSI2K), afin de prendre en compte la puissance des machines utilisées. Efficacité = CPU / Elapsed. Un bon indicateur pour comparer les sites/vos entre eux, ou voir des fluctuations anormales dans le temps, etc. lien: http://accounting.egi.eu/egi.php Retours d'expériences au CC-IN2P3 01/02/2013 46

Le portail des opérations Synthétise et utilise les informations de tous les outils des opérations Tableau de bord pour les sites Abonnement à des notifications de «downtime» Envoi de broadcast à des communautés Référentiel des «Virtual Organisations» Lien: http://operations-portal.egi.eu/aboutportal/map Retours d'expériences au CC-IN2P3 01/02/2013 47

Grilles de calcul mondiales LE SUPPORT A L UTILISATEUR Retours d'expériences au CC-IN2P3 01/02/2013 48

Support aux utilisateurs Des utilisateurs contents Des ressources bien utilisées Avec la grille Utilisateurs (très) distants Communautés d'utilisateurs (très) grosses (très) organisées Création de middleware dans le middleware Les sites deviennent aveugles Workflow (très) complexes Entre niveaux de sites (T1-2-3) 2900 physiciens 150 centres de calcul Retours d'expériences au CC-IN2P3 01/02/2013 49

Communication/organisation Retours d'expériences au CC-IN2P3 01/02/2013 50

Communication/organisation VO ATLAS Control room Shift centraux Shift régionaux Retours d'expériences au CC-IN2P3 01/02/2013 51

Monitoring des VOs Retours d'expériences au CC-IN2P3 01/02/2013 52

Communication/organisation Support dédié VO ATLAS Dans la grille Même type de média (Ticket GGUS, Elogs,...) Control room Shift centraux Shift régionaux Retours d'expériences au CC-IN2P3 01/02/2013 53

CONCLUSIONS Retours d'expériences au CC-IN2P3 01/02/2013 54

Conclusions Mise en place de canaux de communication Politique d allocation des ressources Structuration des communautés d utilisateurs Assistance et accompagnement de l utilisateur Monitoring et Accounting Retours d'expériences au CC-IN2P3 01/02/2013 55

BACKUP SLIDES Retours d'expériences au CC-IN2P3 01/02/2013 56

Auteur original: F. Hernandez CVMFS La grille dans l Infrastructure CCIN2P3 G G Grid Engine G : Services de la grille G G G G G G G Retours d'expériences au CC-IN2P3 01/02/2013 57

LAN Fonctions de stockage au CCIN2P3 Chaque expérience met en place un modèle de calcul qui repose sur 3 fonctions de stockage CACHE pour servir l activité calcul BUFFER pour servir l activité réseau + T1s T2s Internet LHCOPN LHCONE PERMANENT pour stocker les données CPU Tapes Disk Retours d'expériences au CC-IN2P3 01/02/2013 58

Les demandes exprimées Retours d'expériences au CC-IN2P3 01/02/2013 59

Les objectifs attribués Retours d'expériences au CC-IN2P3 01/02/2013 60

Accord de service (MoU) MOU between CERN and the institutions participating in WLCG (CERN-C-RRB-2005-1/Rev. April 2009) Retours d'expériences au CC-IN2P3 01/02/2013 61

Le découpage en activités d EGEE Les communautés d utilisateurs organisées en «Virtual Organisations» (VOs) Ces communautés ont constitué les principales forces vives projet La communauté des sites (centres de calculs) gérée en fédérations régionales «Regional Operations Centers» (ROCs) Source: http://indico.cern.ch/getfile.py/access?contribid=13&sessionid=0&resid=1&materialid=slides&confid=108791 Retours d'expériences au CC-IN2P3 01/02/2013 62

Auteur original: F. Chollet Evolution CCIN2P3 pour WLCG Retours d'expériences au CC-IN2P3 01/02/2013 63

Support aux utilisateurs Des utilisateurs contents Des ressources bien utilisées Avec la grille Utilisateurs (très) distants Communautés d'utilisateurs (très) grosses (très) organisées Création de middleware dans le middleware Les sites deviennent aveugles Workflow (très) complexes Entre niveaux de sites (T1-2-3) 2900 physiciens 150 centres de calcul Retours d'expériences au CC-IN2P3 01/02/2013 64

Modèle de calcul expérience LHC Server de tâches pilot job pilot WNs site A WNs site B pilot pilot Les pilotes : - gestion des queues - kill des jobs en erreurs Scheler Retours d'expériences au CC-IN2P3 01/02/2013 65