Contribution à la mise en service d une ferme de serveurs connectée à une grille de calcul pour la Physique des Hautes Energies



Documents pareils
Gestion de clusters de calcul avec Rocks

Rapport d activité. Mathieu Souchaud Juin 2007

Prérequis techniques pour l installation du logiciel Back-office de gestion commerciale WIN GSM en version ORACLE

«clustering» et «load balancing» avec Zope et ZEO

Spécifications Techniques Générales. Techno Pole Internet. Lycée Djignabo / Ziguinchor

Middleware et services de la grille

Les clusters Linux. 4 août 2004 Benoît des Ligneris, Ph. D. benoit.des.ligneris@revolutionlinux.com. white-paper-cluster_fr.sxw, Version 74 Page 1

Livre blanc Haute disponibilité sous Linux

Cluster High Availability. Holger Hennig, HA-Cluster Specialist

Cahier des charges pour la mise en place de l infrastructure informatique

Clusters de PCs Linux

Etude d architecture de consolidation et virtualisation

L état de l ART. Évolution récente des technologies. Denis Szalkowski Formateur Consultant

Cours 13. RAID et SAN. 2004, Marc-André Léger

NOTIONS DE RESEAUX INFORMATIQUES

3A-IIC - Parallélisme & Grid GRID : Définitions. GRID : Définitions. Stéphane Vialle. Stephane.Vialle@supelec.fr

MIGRATION ANNEXE SAINT YVES. 1 : L existant. Pourquoi cette migration Schéma et adressage IP. 2 : Le projet. Schéma et adressage IP.

Marché à procédure adaptée (en application de l article 28 du code des Marchés Publics)

MODULE I1. Plan. Introduction. Introduction. Historique. Historique avant R&T 1ère année. Sylvain MERCHEZ

Solution de stockage et archivage de grands volumes de données fichiers.

10 tâches d administration simplifiées grâce à Windows Server 2008 R2. 1. Migration des systèmes virtuels sans interruption de service

2. MAQUETTAGE DES SOLUTIONS CONSTRUCTIVES. 2.2 Architecture fonctionnelle d un système communicant.

Concours interne d ingénieur des systèmes d information et de communication. «Session 2010» Meilleure copie "étude de cas architecture et systèmes"

ETUDE ET IMPLÉMENTATION D UNE CACHE L2 POUR MOBICENTS JSLEE

Alcatel-Lucent VitalQIP Appliance Manager

Services Réseaux - Couche Application. TODARO Cédric

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

Spécialiste Systèmes et Réseaux

Configuration matérielle et logicielle requise et prérequis de formation pour le SYGADE 6

Protection des données avec les solutions de stockage NETGEAR

Competence Management System (Système de Gestion de Compétences)

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN

MARCHE DE FOURNITURE D EQUIPEMENTS INFORMATIQUES ET RESEAU POUR LE PROJET D APPUI A LA NAVIGABILITE DES VOIES FLUVIALES ET LACUSTRES EN R.D.

Dynamic Computing Services solution de backup. White Paper Stefan Ruckstuhl

Les environnements de calcul distribué

SQL Server Installation Center et SQL Server Management Studio

Grid Technology. ActiveMQ pour le grand collisionneur de hadrons (LHC) Lionel Cons Grid Technology Group Information Technology Department

Tests de performance du matériel

La surveillance réseau des Clouds privés

Ubuntu Linux Création, configuration et gestion d'un réseau local d'entreprise (3ième édition)

Sauvegarde des données au LAAS

CA ARCserve r16 devance Veeam Backup and Replication 6.5 dans le domaine de la protection virtuelle

Fiche Technique Windows Azure

en version SAN ou NAS

VMWare Infrastructure 3

Manuel de System Monitor

Demande d'ap informatique 2012

Détection d'intrusions en environnement haute performance

Plan du Travail. 2014/2015 Cours TIC - 1ère année MI 30

La sécurité dans les grilles

Sur un ordinateur portable ou un All-in-One tactile, la plupart des éléments mentionnés précédemment sont regroupés. 10) 11)

Comment reproduire les résultats de l article : POP-Java : Parallélisme et distribution orienté objet

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

Réplication de données de classe entreprise pour environnements distribués et reprise sur sinistre

Présentation du logiciel Free-EOS Server

Le Programme SYGADE SYGADE 5.2. Besoins en équipement, logiciels et formation. UNCTAD/GID/DMFAS/Misc.6/Rev.7

25/08/2013. Vue Nagios. Vue Nagios. Le réseau du lycée

ORACLE 10g Découvrez les nouveautés. Jeudi 17 Mars Séminaire DELL/INTEL/ORACLE

CAHIER DES CHARGES D IMPLANTATION

Zimbra Collaboration 8.X

IDEC. Windows Server. Installation, configuration, gestion et dépannage

Exigences système Edition & Imprimeries de labeur

Administration de systèmes

1/ Pré requis techniques pour l installation du logiciel complet de gestion commerciale Wingsm en version Hyper File :

NetCrunch 6. Superviser

vbladecenter S! tout-en-un en version SAN ou NAS

HPC by OVH.COM. Le bon calcul pour l innovation OVH.COM

UFR de Mathématiques et Informatique Année 2009/2010. Réseaux Locaux TP 04 : ICMP, ARP, IP

TP : STATION BLANI 2000 SIMULATION DU RESEAU INFORMATIQUE

TAI049 Utiliser la virtualisation en assistance et en dépannage informatique TABLE DES MATIERES

Pourquoi choisir ESET Business Solutions?

Plan du cours. Incarnations/applications du Grid Computing. Super-calcul virtuel

Nouvellement recruté au sein de l entreprise STEpuzzle, Vous êtes stagiaire administrateur réseau et système.

Chapitre VII : Principes des réseaux. Structure des réseaux Types de réseaux La communication Les protocoles de communication

PROJET ARCHI WINDOWS SERVER

Présentation du module Base de données spatio-temporelles

Petit guide des sous-réseaux IP

Les formations. Administrateur Systèmes et Réseaux. ENI Ecole Informatique

Licence professionnelle Réseaux et Sécurité Projets tutorés

SAN AoE (ATA over Ethernet)

Serveur de sauvegarde à moindre coût

CNAM Déploiement d une application avec EC2 ( Cloud Amazon ) Auteur : Thierry Kauffmann Paris, Décembre 2010

Firewall Net Integrator Vue d ensemble

La continuité de service

Étendez les capacités de vos points de vente & sécurisez vos transactions.

MANUEL D INSTALLATION D UN PROXY

Pré-requis techniques

ParallelKnoppix. Majid Hameed. Copyright 2005 Majid Hameed. Copyright 2005 Gauthier Savart. Copyright 2005 Joëlle Cornavin

Mettez Linux en boîte avec ClearOS

Version de novembre 2012, valable jusqu en avril 2013

Ingénierie des réseaux

Le e s tocka k ge g DAS,NAS,SAN

CA ARCserve r16 devance Symantec Backup Exec 2012

CAHIER DES CLAUSES TECHNIQUES

Proposition d une architecture pour ebay, en mettant l accent sur les notions de scalabilité, de résilience, et de tolérance aux pannes.

Progiciels pour TPE - PME - PMI

Transcription:

Contribution à la mise en service d une ferme de serveurs connectée à une grille de calcul pour la Physique des Hautes Energies Mémoire présenté pour l obtention du grade académique de Licencié en Informatique par Fabrice CHARLIER Université Mons-Hainaut Académie Universitaire Wallonie-Bruxelles Directeurs: Philippe HERQUET & Alain ROMEYER Rapporteurs: Chantal POIRET & Joseph HANTON Année Académique 2005-2006

Computer Science is no more about computers than astronomy is about telescopes. E. Dijkstra

Remerciements Je tiens ici à remercier les personnes sans qui ce mémoire ne serait pas ce qu il est : Monsieur le professeur Philippe Herquet pour m avoir accueilli durant cette année dans son service ; Monsieur Alain Romeyer pour l accompagnement durant toute la durée de mon travail ainsi que l aide apportée pour la rédaction de ce document ; Messieurs Joseph Hanton et Francis Lequeux pour leur disponibilité, les conseils prodigués ainsi que l aide apportée pour la rédaction de ce document ; Les autres membres du service pour l accueil chaleureux et pour l aide scientifique, informatique et logistique ; Mademoiselle Dorothée De Visscher et Monsieur Alexandre Mollet pour la relecture ce document ; Enfin je tiens à remercier toutes les personnes que j ai consultées au sein de l université dans le cadre de ce travail. 3

4

Conventions typographiques Voici les conventions typographiques utilisées dans ce document : Commandes et arguments sont en gras ; Chemins dans l arborescence en mode machine à écrire ; La première occurence d un terme repris dans le lexique est en italique ; Marques, noms déposés,... en PETITES CAPITALES ; L abréviation de octet (byte) est B tandis que l abréviation de bit est b. 5

6

Table des matières Remerciements 3 Conventions typographiques 5 1 Introduction 13 1.1 Sujet du mémoire.................................... 13 1.2 Présentation du service................................. 13 1.3 La Physique des Hautes Energies et l Informatique.................. 14 1.3.1 L expérience Large Hadron Collider..................... 14 1.3.2 L expérience "IceCube"............................ 16 1.3.3 Lien avec l Informatique............................ 16 2 Le Clustering et le Grid Computing 19 2.1 Qu est-ce qu un cluster?................................ 19 2.2 De la nécessité du Grid Computing............................ 21 2.3 La technologie du Grid Computing........................... 21 2.4 Architecture de LHC Computing Grid......................... 22 2.5 Architecture logicielle du LHC Computing Grid : le middleware LCG........ 23 2.6 Utilisation du Grid au sein du projet IceCube..................... 25 3 Conception de l architecture du cluster PPE 27 3.1 Cahier des charges................................... 27 3.2 Plan de travail...................................... 28 3.3 Vue globale de l architecture.............................. 28 3.4 Aspect matériel..................................... 29 3.4.1 Description matérielle des serveurs...................... 29 3.4.2 Description du réseau interconnectant les serveurs.............. 32 3.5 Aspect logiciel..................................... 33 3.5.1 Choix du système d exploitation........................ 33 3.5.2 Utilisation du middleware LCG........................ 34 3.5.3 Le gestionnaire de tâches : Condor....................... 35 3.5.4 Composants logiciels installés sur chaque machine.............. 35 4 Installation, administration et mise à jour automatisée du cluster PPE 41 4.1 Description de la problématique............................ 41 4.2 Automatisation du processus d installation....................... 42 4.2.1 Présentation du logiciel KickStart....................... 42 4.2.2 Configuration du système d exploitation et finalisation de l installation... 46 7

TABLE DES MATIÈRES 8 4.2.3 Portage de la solution pour la ferme IceCube................. 53 4.3 Outil d administration centralisée............................ 54 4.3.1 Description des exigences........................... 54 4.3.2 Implémentation de l outil............................ 54 4.3.3 Exemple d exécution de l outil......................... 55 4.4 Automatisation du processus de mise à jour...................... 55 4.4.1 Description de la problématique........................ 56 4.4.2 Description de la solution........................... 56 4.4.3 Cache RPM................................... 57 4.4.4 Politique de mise à jour............................ 57 5 Sécurisation du cluster PPE 59 5.1 Pourquoi sécuriser le cluster PPE?........................... 59 5.2 Sécurité informatique.................................. 60 5.3 Description des outils utilisés.............................. 60 5.3.1 Pare-feu..................................... 60 5.3.2 Système de détection d intrusions....................... 61 5.3.3 Cryptographie asymétrique........................... 62 5.3.4 Outils OpenSSH................................ 65 5.3.5 Outils de surveillance des performances.................... 65 5.3.6 Outils de surveillance des températures via le réseau............. 66 5.3.7 Monitoring des journaux............................ 70 5.3.8 Analyse anti-virus............................... 70 5.4 Description de la solution sécurisée.......................... 71 5.4.1 Composants de la sécurité communs à toutes les machines.......... 72 5.4.2 Composants de la sécurité sur PpeGrid.................... 72 5.5 Sécurité au niveau de la grille : Authentification des utilisateurs............ 74 6 Conclusion 77 Bibliographie 79 Lexique 81 A Configuration des services offerts au cluster à partir de la machine PpeCore 83 A.1 Serveur DHCP..................................... 83 A.2 Service RPC portmapper................................ 86 A.3 Serveur NIS....................................... 88 A.4 Serveur NFS....................................... 90 B Installation du gestionnaire de tâches Condor 93 C Mise en oeuvre et utilisation des scripts d installation 97 C.1 Mise en oeuvre du serveur d installation........................ 97 C.1.1 Le serveur PXE................................. 97 C.1.2 Le serveur TFTP................................ 97 C.1.3 Le serveur HTTP................................ 98 C.2 Etapes à effectuer pour installer une nouvelle machine au sein du cluster....... 98

TABLE DES MATIÈRES 9 C.2.1 Dépendances de la méthode d installation................... 99 C.2.2 Configuration du démarrage via le réseau................... 100 C.2.3 Configuration de KickStart........................... 101 C.2.4 Configuration des scripts de post-installation................. 105 D Outils d aide à l administration du serveur 109 D.1 Script d administration centralisée........................... 109 D.2 Script de surveillance des températures......................... 110 E Configuration des services sur PpeGrid 111 E.1 Gestion de l envoi des emails : ssmtp......................... 111 E.2 Moteur PHP....................................... 112 E.3 Proxy : Squid...................................... 113 E.4 Pare-feu : Shorewall................................... 114 E.5 Serveur de synchronisation de temps : NTP...................... 116 E.6 Système de détection d intrusion : Snort........................ 117 E.7 Configuration du système de monitoring........................ 119 E.7.1 Partie client................................... 119 E.7.2 Partie serveur.................................. 119 F Demande de certificat pour les utilisateurs et les noeuds de type Computing Element 121 G Utilisation de Condor 125 H Quelques mots sur le cluster de tests 129

TABLE DES MATIÈRES 10

Table des figures 1.1 Vue schématique du LHC et des quatre expériences................... 15 1.2 Vue schématique du détecteur CMS........................... 15 1.3 Vue schématique du détecteur IceCube......................... 16 2.1 Vue schématique de l architecture de la grille de calcul LHC............. 23 2.2 Vue schématique des relations entre les différents composants du middleware LCG. 25 3.1 Vue schématique des flux d informations au sein du cluster............... 29 3.2 Photo de l équipement constituant le cluster....................... 30 3.3 Vue schématique du réseau constituant le cluster.................... 32 3.4 Plan d adressage du cluster............................... 33 4.1 Capture d écran de l installateur Anaconda (version Ncurses)............. 44 4.2 Schéma représentant les différentes interactions entre client et serveur lors d une installation via KickStart................................. 47 5.1 Quelques exemples de graphiques générés à l aide de l analyseur de journaux SnortALog........................................... 63 5.2 Page d accueil de l interface Web de Lemon, permettant d accéder aux statistiques détaillées de chaque machine............................... 67 5.3 Mécanisme d authentification au sein de la grille.................... 75 F.1 Formulaire de demande de certificat........................... 122 F.2 Résumé des données entrées et confirmation de la taille de la clé............ 122 F.3 Fin de la procédure de demande de certificat...................... 123 F.4 Formulaire pour la demande d entrée dans la VO CMS................. 124 11

TABLE DES FIGURES 12

Chapitre 1 Introduction Dans ce chapitre, nous introduirons le sujet de ce mémoire. Nous présenterons ensuite le service de Physique Générale et Physique des Particules Elementaires de l université de Mons-Hainaut au sein duquel il a été réalisé. Nous terminerons par la présentation des domaines de recherche qui y sont abordés et leurs liaisons avec l informatique. Dans le chapitre deux, nous présenterons deux techniques utilisées dans ce travail : le Clustering et le Grid Computing. Dans le chapitre trois, nous présenterons l environnement matériel et logiciel dans lequel ce travail a été réalisé. Dans les chapitre quatre et cinq, nous présenterons les réflexions et développement effectués dans les domaines de l installation automatisée, la sécurisation et l aide à la gestion d une ferme de calcul. Dans le chapitre six, nous présenterons les conclusions de notre travail. 1.1 Sujet du mémoire Le sujet de ce mémoire consiste en la mise en oeuvre d une ferme de calcul (encore appelée cluster) de serveurs qui sera utilisée dans un cadre de recherche en physique des hautes énergies. Cette ferme de calcul est constituée de vingt machines bi-processeurs. Afin de faciliter leur administration, nous développerons une solution automatisée d installation et de mise à jour des différents noeuds qui la composent. Nous aurons également à développer des outils destinés à la gestion et à la surveillance du cluster après l installation de celui-ci. Les différentes solutions apportées devront être performantes et sécurisées. Notons que Messieurs Joseph Hanton, Francis Lequeux et Alain Romeyer, membres du service de physique des particules élémentaires, avaient déjà effectué une première installation du cluster. Leurs différentes expérimentations et résultats ont donc servi de base à mon travail. Dans la suite du document, nous appellerons "cluster PPE" (PPE pour Physique des Particules Elémentaires), la ferme de calcul dont il est ici question. 1.2 Présentation du service Le service de Physique Générale et de Physique des Particules Elémentaires, au sein duquel j ai effectué mon mémoire, est dirigé par monsieur le professeur Philippe Herquet. Les deux principales activités de ce service sont l enseignement au sein de la faculté des sciences et la recherche dans le domaine de la physique des hautes énergies. 13

1.3. La Physique des Hautes Energies et l Informatique 14 Les axes de recherche sont structurés autour de deux grandes thématiques de la physique des hautes énergies : La physique des particules proprement dites avec le "Large Hadron Collider" (abréviation : LHC) et plus particulièrement l expérience "Compact Muon Solenoïd" (abréviation : CMS) ; Les astroparticules avec l expérience "IceCube". En plus des scientifiques, le personnel du service de physique des particules élémentaires compte deux informaticiens. Ceux-ci ont pour mission la gestion des stations de travail et portables de type PC du service, la gestion du cluster PPE, du serveur Web du service et de la base de données utilisée dans le cadre de la coopération autour du projet IceCube. De plus, leur expertise dans le domaine informatique est sollicitée par les scientifiques. Après avoir présenté de manière générale le service de Physique Générale et de Physique des Particules Elémentaires, présentons maintenant plus précisément les deux axes de recherche mentionnés précédemment et le lien fort qu implique ces activités avec le monde de l informatique. 1.3 La Physique des Hautes Energies et l Informatique La physique des particules étudie les plus petits objets qui constituent notre monde. Paradoxalement, cette étude s effectue en utilisant un appareillage gigantesque. Nous présenterons ci-après les expériences LHC et IceCube ainsi que leurs liens avec l informatique. 1.3.1 L expérience Large Hadron Collider Le "Large Hadron Collider" alias LHC est le grand défi de la Physique des Hautes Energies en ce début de 21e siècle. Le LHC, est un accélérateur de particules situé à Genève au sein du "Centre Européen pour la Recherche Nucléaire" mieux connu sous l acronyme CERN. Cet accélérateur est pour l instant en construction et devrait être opérationnel dès mi-2007. Il est composé d un tunnel circulaire de 27 kilomètres de circonférence dans lequel circule des faisceaux de protons de hautes énergies guidés par des aimants. Le but de cette expérience : faire se percuter deux protons accélérés à 99.999999% de la vitesse de la lumière 1 afin de recréer les conditions telles qu elles étaient quelques fractions de secondes après le Big-Bang! Sur la circonférence du LHC sont réparties quatre expériences : Alice, Atlas, CMS et LHC-B (voir fig 1.1). Celle dans laquelle la Belgique est impliquée, CMS, a entre autres pour but de mettre en évidence l existence d une particule appelée "Boson de Higgs". Pour ce faire, le détecteur CMS (voir fig 1.2) est équipé de plusieurs types de capteurs afin de pouvoir détecter et identifier les particules issues de la désintégration du boson de Higgs. Le boson de Higgs est particulièrement important pour les physiciens car, d après les modèles théoriques il permettrait d expliquer l origine de la masse des particules par interaction avec celui-ci. Derrière le projet LHC, il n y a pas que le personnel du CERN. Cinq mille physiciens répartis sur tout le globe travaillent sur ce projet et sur la construction des quatres expériences. Pour l instant, même si l accélérateur ne fonctionne pas encore, ils travaillent sur des données obtenues par simulation pour se préparer à la chasse au Higgs. Nous verrons ce qu implique du point de vue de la gestion des données, cette répartition des scientifiques au niveau mondial. 1 Vitesse de la lumière : 299 792 458 m/s

1.3. La Physique des Hautes Energies et l Informatique 15 FIG. 1.1 Vue schématique du LHC et des quatre expériences. FIG. 1.2 Vue schématique du détecteur CMS.

1.3. La Physique des Hautes Energies et l Informatique 16 1.3.2 L expérience "IceCube" FIG. 1.3 Vue schématique du détecteur IceCube. L expérience IceCube consiste en la construction d un télescope noyé dans la glace du Pôle Sud (voir fig 1.3). Celui-ci a pour mission de détecter les particules appelées neutrinos provenant de phénomèmes extra-terrestres comme l explosion d une étoile ou encore de phénomènes cataclysmiques impliquant des trous noirs. Le télescope est composé de capteurs optiques répartis dans un volume de glace de 1 km 3. Ces capteurs sont disposés sur des câbles, à raison de 60 capteurs par câble. Au total, pas moins de 80 câbles de ce type seront noyés dans la glace du Pôle Sud. Ces câbles sont ensuite descendus à une profondeur telle que les capteurs soient situés entre 1400 et 2400 mètres dans un puits creusé à même la glace. Les capteurs ont pour but de détecter la lumière créée par le passage d un muon au sein du détecteur (ce muon ayant lui-même été produit par l interaction d un neutrino avec la matière). Les informations sont alors transmises à la surface via le câble sur lequel ils sont fixés. Elles sont ensuite pré-traitées par un complexe informatique situé au pôle et envoyées par satellite vers le continent américain. Pour l instant, seuls une dizaine de câbles porteurs sont immergés dans la glace. Le planning de déploiement prévoit que l ensemble des câbles seront posés pour 2011. Après avoir décrit l instrumentation utilisée au sein des expériences, présentons maintenant leurs relations avec l informatique. 1.3.3 Lien avec l Informatique L acquisition des données expérimentales se réalise via des procédés électroniques. Cette première étape étant réalisée, il est nécessaire de les analyser par des moyens informatiques. Comme nous l avons vu, les deux expériences, auxquelles participe le service de PPE, sont constituées de nombreux capteurs fournissant un important volume d informations qui doivent ensuite être

1.3. La Physique des Hautes Energies et l Informatique 17 stockées et analysées. Ainsi, lorsque l expérience CMS débutera, le détecteur produira plusieurs centaines de mégaoctet de données par seconde! Vu, non seulement la quantité, mais aussi la complexité des données, il n est pas concevable d effectuer leur analyse manuellement. C est à partir de ce point qu intervient l informatique. Des bases de données ou des fichiers seront ainsi utilisés afin de stocker les données acquises avant leur analyse via des algorithmes s exécutant sur un ou plusieurs ordinateurs pour en accélérer le traitement. Le cluster sur lequel j ai eu l occasion de travailler cette année est l instrument de travail indispensable aux chercheurs du service. L informatique et la physique des hautes énergies sont des sciences fortement liées et ceci depuis de nombreuses années. Citons par exemple, le fait que la première ébauche du "World Wide Web" en 1990, est l oeuvre d un physicien travaillant au CERN, Tim Berners-Lee. Son but étant de faciliter la communication au sein de la collaboration européenne. Citons aussi les différents records de vitesse de transfert de données établis entre le CERN et l Institut Californien des Technologies (plus communément appellé Caltech) dans le cadre du projet Internet2. Le dernier en date est de 6,57 Gb/s 2. Nous verrons dans le chapitre deux, que la physique des hautes énergies est en passe d amorcer une autre révolution de l informatique : le Grid Computing. 2 Une telle vitesse permet le transfert d un CD audio en moins d une seconde ou encore le transfert d un DVD vidéo en 7s. Pour plus d information : http://sravot.home.cern.ch/sravot/networking/10gbe/lsr_041504.htm

1.3. La Physique des Hautes Energies et l Informatique 18

Chapitre 2 Le Clustering et le Grid Computing Après avoir présenté l environnement de la Physique des Particules et brièvement introduit l importance des moyens informatiques nécessaires à l analyse des données, nous présenterons dans ce chapitre le concept de Clustering et de Grid Computing. Nous verrons ensuite comment ce concept a été appliqué dans le cadre de l expérience LHC. 2.1 Qu est-ce qu un cluster? Avant toute chose, commençons par définir le concept de cluster en prenant la définition proposée par l agence wallonne des télécommunications 1 : Grappe de machines interconnectées et vues comme un même ensemble de traitement, apportant des fonctions de disponibilité, de répartition de charge et de partage des données. L interconnexion des machines se réalise via un réseau informatique à haut débit (En utilisant du matériel répondant à la norme FastEthernet, par exemple). Les machines que nous trouverons dans ce genre de cluster sont souvent de type PC c est-à-dire qu elles possèdent une architecture processeur de type x86. Nous distinguerons plusieurs types de cluster : Les clusters de haute disponibilité (ou High-Availability Clusters) : leur but est d offrir un temps de disponibilité maximum pour un service. Pour ce faire, chaque machine du cluster exécute ce même service. Si la machine offrant actuellement le service tombe en panne, immédiatement une autre machine du cluster prend sa relève. Cette technique est intéressante, par exemple, dans le cas du partage d une ressource qui doit être accessible 24 heures sur 24 et 7 jours sur 7 ; Les clusters de répartition de charge (ou Load Balancing Clusters) : leur but est d offrir une qualité de service maximal pour un service. Un cluster de ce type est configuré de manière à ce que toutes les machines exécutent ce service. Une machine centralise toutes les requêtes au service et les redistribue équitablement entre toutes les machines du cluster. Cette technique est intéressante, par exemple, dans le cas où il faut maintenir un accès rapide à un site Web ayant beaucoup de visiteurs ; Les clusters de calcul (ou High Performance Clusters) : leur but est d offrir une puissance de calcul à disposition des utilisateurs afin de résoudre des problèmes complexes ou d effectuer 1 Site officiel de l agence wallonne des télécommunications : http://www.awt.be 19

2.1. Qu est-ce qu un cluster? 20 des simulations. Ce type de cluster, est intéressant, par exemple, dans le cadre de recherches scientifiques. Souvent les deux premiers types de clusters (High-Availability et Load Balancing cluster) présentés ci-dessus sont associés afin de fournir un service de qualité sans interruption. Nous pouvons dégager deux types de clusters de calcul existant : Les clusters de calcul parallèle : une même tâche de calcul est divisée en plusieurs sous-tâches. Chacune de ces sous-tâches s exécute sur un noeud différent du cluster. Ce type de cluster nécessite que le programme de calcul soit développé à l aide d une bibliothèque permettant l exécution de tâches en parallèle telle que MPI ; Les clusters de calcul par ordonnancement : dans un tel type de cluster, un des noeuds joue le rôle de gestionnaire de tâches (ou ordonnanceur) entre les différents noeuds. Lorsqu un utilisateur désire soumettre une tâche au cluster, il est nécessaire de contacter le gestionnaire de tâches, qui va attribuer celle-ci à un des noeuds en fonction de paramètres tels que le nombre de tâches déjà attribuées à ce noeud, la quantité de mémoire disponible, etc... Ce type d architecture ne nécessite pas de modification au niveau de l implémentation du programme. Le cluster PPE est un cluster de calcul par ordonnancement. Ce choix est imposé par le fait que les programmes de calcul utilisés par les scientifiques sont implémentés via des librairies provenant du CERN ou de la collaboration IceCube ne supportant pas forcément le calcul parallèle. Dans les années 1980, lorsqu un centre de recherche ou une entreprise souhaitait disposer d une puissance de calcul importante, il était nécessaire d acquérir un supercalculateur comme par exemple une machine vectorielle fabriquée par la firme Cray. Mais ce type de machine coûtait excessivement cher et donc n était pas à la portée de tout un chacun. Dans les années 1990, deux phénomènes ont vu le jour : La démocratisation du prix du matériel informatique de type PC, couplée à l augmentation constante des performances de ce matériel ; La naissance d un système d exploitation de type UNIX gratuit et open-source ainsi qu une communauté suivant ce modèle : GNU/Linux 2. Le premier organisme intéressé par l utilisation de ces deux technologies fut l Agence Américaine chargée de l Aéronautique et de l Espace, alias NASA, qui parallèlement à des réductions budgétaires, dûes à la fin de la course à l espace, voulait se doter d une puissance de calcul suffisante afin de continuer ses recherches. La solution fut l association du matériel PC bon marché et du système d exploitation performant et fiable Linux. Ce projet portait le nom de Beowulf et a donné son nom au Beowulf Cluster qui désigne ce type de machine. Actuellement, dans le classement des 500 plus puissantes machines dans le monde 3, 70% sont des clusters Beowulf. 2 Les informaticiens utilise souvent la dénomination LINUX à la place de la dénomination correcte : GNU/LINUX. LINUX est le noyau du système d exploitation et non le système d exploitation complet! Le préfixe GNU provient du fait qu une grande partie des programmes de base nécessaires au fonctionnement du système d exploitation sont l oeuvre du projet du même nom. Néanmoins dans le reste du document, j utiliserai la dénomination courte par facilité d écriture. 3 Site officiel du classement des 500 machines les plus puissantes : http://www.top500.org

2.3. La technologie du Grid Computing 21 2.2 De la nécessité du Grid Computing... A partir de 2007, le LHC produira annuellement 15 pétaoctets de données 4 soit 21,3 millions de CD-ROM ou 3,2 millions de DVD-ROM 5. Les cinq mille scientifiques participant à ce projet devront pouvoir y accéder et les analyser. Les concepteurs du LHC ont donc été confrontés aux problèmes suivants : Comment mettre à disposition un tel volume de données à l ensemble des scientifiques travaillant sur le projet LHC? Comment disposer de la puissance de calcul nécessaire afin d analyser ces données? Comment gérer un si grand parc de machines tout en offrant une qualité de service élevée? L approche traditionnelle voudrait que les installations informatiques chargées de traiter les données soient proches du lieu de l expérience. Afin de répondre aux exigences du projet LHC, une toute autre approche a été utilisée : l utilisation du Grid Computing. Outre le fait de permettre le stockage et l analyse de grands volumes de données de manière distribuée, l utilisation du Grid Computing au sein d un projet tel que LHC a deux autres avantages : Le financement des ressources informatiques n est plus centralisé par une seule institution mais distribué entre chaque institution membre de la collaboration. Il en est de même pour la gestion technique du parc informatique ; Dans un système distribué, il n y a pas de point de faiblesse unique qui peut causer une panne totale du système. Comme nous le verrons ci-après, l utilisation d une grille permet la réplication des données entre plusieurs points géographiquement distants, tout en y accédant de manière transparente. Autre exemple, même si un noeud de calcul de la grille n est plus en état d assurer sa mission, il en existe d autres qui pourront prendre le relais. 2.3 La technologie du Grid Computing Après avoir démontré la nécessité de l utilisation du Grid Computing, présentons maintenant cette technologie plus en détails. Commençons par définir ce qu est le Grid Computing en utilisant la définition proposée par le projet Globus 6 : Partage coordonné de ressources dans un environnement flexible et sécurisé par une collection dynamique d individus et d institutions. De manière conceptuelle, la grille LHC peut être vue comme un réseau virtuel sécurisé prenant place au-dessus du réseau physique constituant Internet. Ce réseau virtuel interconnecte différentes ressources informatiques. Ces ressources sont très souvent des clusters offrant : du temps processeur pour l analyse des données ; de l espace de stockage pour entreposer les données provenant de l accélerateur ou de programmes de simulation ; l accès à des données stockées et archivées (sur disque ou bande magnétique) provenant de simulation ou d une expérience LHC. 4 1 pétaoctect = 10 15 octects 5 Nous avons ici considéré des CD-ROMS et des DVD-ROMS ayant une capacité de stockage de, respectivement, 700MB et 4,7GB 6 Site officiel du projet Globus : http://www.globus.org

2.4. Architecture de LHC Computing Grid 22 Soulignons dès maintenant le fait qu une telle architecture doit être sécurisée. En effet, une personne ayant réussi à se connecter sur la grille LHC sans autorisation aurait à sa disposition une puissance de calcul qu il pourrait utiliser à des fins moins nobles que la recherche scientifique. De plus, même si dans le cadre du LHC les données transitant sur la grille ne sont pas "sensibles", d autres domaines d application tels que le secteur financier ont besoin d une protection forte de leurs données. Nous verrons dans le chapitre cinq comment la sécurisation de la grille LHC appelée LHC Computing Grid est implémentée, mais commençons par sa présentation. 2.4 Architecture de LHC Computing Grid Du fait des spécificités des expériences LHC, la topologie de cette grille est différente de ce qu il est commun de rencontrer. En effet, tous les noeuds connectés à la grille n ont pas le même rôle (Les informations fournies ici proviennent essentiellement de [1, 2]). Cette architecture est présentée graphiquement à la figure 2.1. Le flux brut de données provenant d une expérience est d abord traité dans le centre informatique dédié à celle-ci ( online system ). Le but de cette opération est d effectuer un premier filtrage des données afin de ne conserver que celles qui sont intéressantes pour une analyse future. Les flux de données provenant des différentes expériences seront enregistrés au centre de traitement dénommé "Tier-0" et situé au CERN. Une première reconstruction des données aura lieu dans ce centre. Les données brutes et reconstruites sont ensuite transmises pour archivage aux centres dénommés "Tier-1" correspondant à l expérience ayant produit les données. Les centres de type "Tier-1" ont pour mission de stocker les données brutes et déjà analysées et de fournir la puissance de calcul nécessaire afin de travailler sur de grand volume de données. Dans l état actuel des choses, il y a onze "Tier-1" chacun servant plusieurs expériences. Les centres de type "Tier-2" ont pour mission de fournir la puissance de calcul et l espace de stockage pour permettre la simulation d événements via la méthode de Monte Carlo et d autres types d analyses effectuées par les chercheurs. Un peu plus de cent "Tier-2" sont présents dans l architecure LCG chacun étant lié à une et une seule expérience. Enfin, les centres de type "Tier-3", sont les ressources utilisées dans les institutions afin d effectuer des analyses de données au niveau local. Ces ressources ne sont pas partagées sur la grille i.e. seules les personnes appartenant à l institution pourront exécuter des tâches sur ces ressources. Cependant, il est nécessaire que celles-ci aient accès aux données et ressources de traitement mis à disposition sur la grille. Typiquement, le cluster du service de physique des particules élementaires est un "Tier-3". L ensemble des utilisateurs de la grille et des ressources mises à disposition sont répartis en groupe appelé Virtual Organisation alias VO. Ces VO regroupent des objets présentant des caractérisques similaires. Dans le cadre de la grille LHC, chaque VO contient les scientifiques et le matériel assigné à une des quatre expériences. La Belgique étant un acteur de l expérience CMS via les universités de Bruxelles (ULB et VUB), Louvain-La-Neuve (UCL), Anvers (UIA) et Mons (UMH), un centre de type "Tier-2" est en cours d installation entre Louvain-la-Neuve et Bruxelles. Notre cluster devra donc être en mesure de communiquer avec ce centre à travers la grille. La grille LCG n est pas un projet solitaire. Au niveau européen, il interagit avec le projet "Enabling Grids for E-SciencE", alias EGEE, lui-même composé de projets à échelle nationale comme "INFN Grid" en Italie, "DutchGrid" aux Pays-Bas "GridPP", au Royaume-Unis et "BEGrid" en Bel-