HIGH PERFORMANCE GUIDE TECHNOLOGIQUE

Documents pareils

Performance Computing 2012/13 GUIDE TECHNOLOGIQUE

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters AVANTAGES

en version SAN ou NAS

CA ARCserve Backup. Avantages. Vue d'ensemble. Pourquoi choisir CA

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters

vbladecenter S! tout-en-un en version SAN ou NAS

ORACLE 10g Découvrez les nouveautés. Jeudi 17 Mars Séminaire DELL/INTEL/ORACLE

Garantir une meilleure prestation de services et une expérience utilisateur optimale

IBM Business Process Manager

VMWare Infrastructure 3

Outil d aide au choix Serveurs Lot 4 Marché Groupement de Recherche

7 avantages à la virtualisation des applications stratégiques de votre entreprise

LES SOLUTIONS OPEN SOURCE RED HAT

Tirez plus vite profit du cloud computing avec IBM

IBM CloudBurst. Créer rapidement et gérer un environnement de Cloud privé

Playbook du programme pour fournisseurs de services 2e semestre 2014

Livre blanc. La sécurité de nouvelle génération pour les datacenters virtualisés

Ne laissez pas le stockage cloud pénaliser votre retour sur investissement

La reconquête de vos marges de manœuvre

IBM Tivoli Monitoring, version 6.1

Protection des données avec les solutions de stockage NETGEAR

Plate-forme Cloud CA AppLogic pour les applications d entreprise

Réplication de données de classe entreprise pour environnements distribués et reprise sur sinistre

Bénéficiez d'un large choix d'applications novatrices et éprouvées basées sur les systèmes d'exploitation i5/os, Linux, AIX 5L et Microsoft Windows.

CA ARCserve Backup r12

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

Les environnements de calcul distribué

TBR. Postes de travail virtualisés : IBM simplifie la gestion de l infrastructure avec ses serveurs System x Août 2013

IBM Maximo Asset Management for IT

Famille IBM WebSphere Application Server

agility made possible

Fiche technique: Sécurité des terminaux Symantec Endpoint Protection La nouvelle technologie antivirus de Symantec

Symantec Backup Exec 11d

la solution vidéo numérique qui offre une surveillance simple et puissante t: +44 (0) e: w:

EMC DATA DOMAIN OPERATING SYSTEM

Communications performantes par passage de message entre machines virtuelles co-hébergées

10 tâches d administration simplifiées grâce à Windows Server 2008 R2. 1. Migration des systèmes virtuels sans interruption de service

Conception d une infrastructure «Cloud» pertinente

stockage, pour des économies en termes de temps et de coûts. Avantages principaux

Symantec Protection Suite Enterprise Edition Protection éprouvée pour les terminaux, la messagerie et les environnements Web

Cisco Unified Computing Migration and Transition Service (Migration et transition)

UC4 effectue tout l ordonnancement batch pour Allianz en Allemagne

Valeur métier. Réduction des coûts opérationnels : Les coûts opérationnels ont été réduits de 37 %. Les systèmes intégrés comme IBM

Cluster High Availability. Holger Hennig, HA-Cluster Specialist

Etude d Exchange, Google Apps, Office 365 et Zimbra

IBM Tivoli Compliance Insight Manager

Résolvez vos problèmes d énergie dédiée à l informatique

UPSTREAM for Linux on System z

Comment gérer toutes mes tâches logicielles d automatisation dans un seul environnement?

Tivoli Endpoint Manager Introduction IBM Corporation

Conseils et astuces pour un déploiement réussi de la solution VMware Mirage

Consolidation de stockage

Le Ro le Hyper V Troisie me Partie Haute disponibilite des machines virtuelles

IBM INNOVATION CENTER PARIS ADOPTEZ LES TECHNOLOGIES IBM ET ACCELEREZ VOTRE BUSINESS

L I V R E B L A N C P r o t ég e r l e s a p p l i c a t i o n s m ét i e r s c r i t i q u e s M a i n f r a m e, un b e s o i n c r u c i a l

Planifier la migration des applications d entreprise dans le nuage

Symantec Backup Exec 2012

Logiciel de gestion des équipements de test MET/TEAM. NOUVEAU logiciel convivial de gestion des ressources d étalonnage par navigateur

votre partenaire informatique pour un développement durable Les réalités de la virtualisation des postes de travail

Adopter une approche unifiée en matière d`accès aux applications

Symantec Endpoint Protection

WHITE PAPER. Quels avantages la déduplication offre-t-elle aux entreprises? Livre blanc Acronis

EMC DATA DOMAIN HYPERMAX

Brochure Datacenter. Novell Cloud Manager. Création et gestion d un cloud privé. (Faire du cloud une réalité)

1 JBoss Entreprise Middleware

Linux embarqué: une alternative à Windows CE?

Détection d'intrusions en environnement haute performance

TAI049 Utiliser la virtualisation en assistance et en dépannage informatique TABLE DES MATIERES

L entreprise prête pour l informatique en nuage Élaborer un plan et relever les principaux défis

CLOUD PUBLIC, PRIVÉ OU HYBRIDE : LEQUEL EST LE PLUS ADAPTÉ À VOS APPLICATIONS?

CA Automation Suite for Data Centers

Exigences système Edition & Imprimeries de labeur

Automatiser le Software-Defined Data Center avec vcloud Automation Center

Microsoft Office system Février 2006

RED HAT ENTERPRISE LINUX

Logiciel MAXPRO NVR SOLUTION D ENREGISTREMENT VIDÉO RÉSEAU

Les plates-formes informatiques intégrées, des builds d infrastructure pour les datacenters de demain

ManageEngine IT360 : Gestion de l'informatique de l'entreprise

Transformation vers le Cloud. Premier partenaire Cloud Builder certifié IBM, HP et VMware

CA Workload Automation Agent pour implémentation mainframe Systèmes d exploitation, ERP, bases de données, services applicatifs et services Web

UNIFIED. Nouvelle génération d'architecture unifiée pour la protection des données D TA. dans des environnements virtuels et physiques PROTECTION

Atteindre la flexibilité métier grâce au data center agile

Symantec Backup Exec 11d pour serveurs Windows Options/Agents

Pourquoi OneSolutions a choisi SyselCloud

OmniVista 2700 Application complémentaires pour l OmniVista 2500 Network Management

Technologie de déduplication de Barracuda Backup. Livre blanc

UNIFIED D TA. architecture nouvelle génération pour une restauration garantie (assured recovery ) que les données soient sur site ou dans le cloud

Optimisez vos environnements Virtualisez assurément

HPC by OVH.COM. Le bon calcul pour l innovation OVH.COM

Cluster High Performance Computing. Dr. Andreas Koch, Cluster Specialist

Fiche technique: Sauvegarde et restauration Symantec Backup Exec 12.5 for Windows Servers La référence en matière de protection des données Windows

Bénéfices pour votre organisation : une solution pouvant supporter vos besoins d affaires

Une présentation de HP et de MicroAge. 21 septembre 2010

Fiche Technique. Cisco Security Agent

PUISSANCE ET SIMPLICITE. Business Suite

Comment optimiser l utilisation des ressources Cloud et de virtualisation, aujourd hui et demain?

Module : Virtualisation à l aide du rôle Hyper-V

Description du produit

Virtualisation des Serveurs et du Poste de Travail

fourniture de ressources à tous les terminaux en tant que services

Transcription:

HIGH PERFORMANCE COMPUTING 2010 GUIDE TECHNOLOGIQUE

GUIDE TECHNOLOGIQUE TABLE DES MATIÈRES ET INTRODUCTION HIGH PERFORMANCE COMPUTING Quand la performance devient productivité LA GESTION DE CLUSTERS EN TOUTE SIMPLICITÉ Moab Cluster Suite Moab Grid Suite Moab Adaptive HPC Suite PAGE 4 Page 6 PAGE 10 Page 12 Page 16 Page 20 INTEL CLUSTER READY Standard de qualité pour clusters HPC Intel Cluster Ready donne de l élan au HPC transtec Benchmarking Center PAGE 22 Page 24 Page 28 Page 32 WINDOWS HPC SERVER 2008 R2 Composantes de la solution HPC Microsoft Déploiement, gestion de système et suivi Planification de tâches Architecture orientée service Réseau et MPI Compatibilité Microsoft Office Excel PAGE 34 Page 36 Page 38 Page 40 Page 42 Page 44 Page 46 NFS PARALLÈLE Le nouveau standard de stockage HPC Le stockage HPC Panasas PAGE 50 Page 52 Page 56 COMPUTING GPU AVEC NVIDIA L architecture CUDA Nom de code «Fermi» NVIDIA Parallel Nsight se présente PAGE 60 Page 62 Page 66 Page 72 GLOSSAIRE PAGE 74 2

30 ANS D EXPÉRIENCE EN INFORMATIQUE SCIENTIFIQUE 1980 a marqué le début d une décennie qui a vu la création de nombreuses startups dont certaines sont devenues plus tard des grands noms du marché informatique. Des innovations technologiques ont entraîné des changements radicaux sur le marché naissant des ordinateurs. Et, à Tübingen, près de l une des meilleures et des plus anciennes universités du pays, transtec voit le jour. Les premiers temps, transtec se concentrait sur la revente d ordinateurs et périphériques DEC et de postes de travail haute-performance aux instituts universitaires et centres de recherche. En 1987, les solutions SUN/Sparc et stockage sont venues enrichir la gamme proposée, complétée en 1991 par les produits IBM/RS 6000. Ces postes de travail et systèmes de serveurs étaient alors typiques en informatique haute performance et utilisés par la majorité des chercheurs dans le monde entier. À la fin des années 90, transtec fût l une des premières entreprises à proposer des solutions HPC très personnalisées et basées sur des serveurs à architecture Intel standard et dont certaines sont entrées dans le TOP 500 des systèmes informatiques les plus rapides au monde. À la lumière de ce passé, on peut dire sans mentir que transtec a plus de 30 ans d expérience en informatique scientifique avec près de 400 installations de clusters HPC. Forts de cette expérience, nous connaissons parfaitement les exigences du client et savons comment y répondre. Haute performance et gestion simple : c est ce qu exige le client aujourd hui. Comme leur nom l indique, les systèmes HPC doivent fonctionner à haut niveau, mais cela ne suffit pas : ils doivent aussi être simples à gérer. Les concepts inextricables et la complexité opérationnelle sont à éviter ou du moins à rendre invisibles pour les administrateurs et surtout pour les utilisateurs HPC. Les solutions HPC transtec sont synonymes de simplicité de gestion qu il s agisse d environnements Linux ou Windows, même quand ces deux mondes cohabitent. Avec Moab Adaptive HPC Suite, transtec propose une solution «Linux + Windows» flexible et dynamique pour les environnements HPC partout où c est nécessaire. Les systèmes HPC transtec utilisent la technologie la plus récente et la plus innovante. Leurs performances supérieures vont de pair avec une grande efficience énergétique, comme on l attend de toute solution informatique de pointe. Nous tenons à ces qualités fondamentales. Cette brochure met l accent sur ce que les solutions HPC transtec font de mieux. Par exemple : certification Intel Cluster Ready, standard indépendant garant de la qualité de nos systèmes, systèmes de stockage HPC Panasas pour les performances les plus hautes et l excellente évolutivité exigée pour le stockage HPC. Avec ces solutions, nous répondons aux questions centrales que sont l utilisabilité et la simplicité de gestion. NVIDIA Tesla Preferred Provider, transtec propose à ces clients des solutions de computing GPU Tesla bien conçues et très puissantes. Enfin, se décider pour une solution HPC transtec, c est choisir un suivi client et un service HPC des plus complets. Nos experts seront heureux de partager leur savoir et de vous assister à toutes les étapes, de la conception HPC aux tâches cluster quotidiennes. Bonne lecture avec le HPC Guide Technologique 2010! 3

HIGH PERFORMANCE COMPUTING QUAND LA PERFORMANCE DE- VIENT PRODUCTIVITÉ 4

L informatique haute performance (HPC) s est présentée à nous dès le début de l ère informatique. Des ordinateurs haute performance ont été conçus pour résoudre les nombreux problèmes dont les ordinateurs «humains» ne pouvaient venir à bout. Simplement, cela ne s appelait pas encore HPC. Plus importants que le nom, certains principes des premiers temps ont été radicalement transformés. Les premiers systèmes HPC étaient bien différents de ceux d aujourd hui. D une part, on trouvait d énormes mainframes de grands constructeurs incluant systèmes d exploitation propriétaires et gestion des tâches. D autre part, les stations de travail faisaient quelques incursions dans les universités et centres de recherches et les scientifiques faisaient leurs calculs sur des stations de travail Unix ou VMS dédiées. Dans les deux cas, si vous aviez besoin de plus de capacité de calcul, soit vous augmentiez le potentiel, soit vous achetiez une machine plus grosse. De nos jours, le terme Informatique Haute Performance a pris une signification radicalement nouvelle. Aujourd hui, le HPC est perçu comme un moyen de faire face aux problèmes mathématiques, scientifiques ou d ingénierie complexes. L intégration de matériel serveur commercial standard aux clusters HPC facilite la construction de réseaux d ordinateurs d une puissance telle qu un système seul ne pourrait jamais atteindre. Le nouveau paradigme de la parallèlisation est en pleine expansion. 5

HIGH PERFORMANCE COMPUTING QUAND LA PERFORMANCE DEVIENT PRODUCTIVITÉ La simulation informatique de process réels (également appelée IAO, ingénierie assistée par ordinateur) s est établie comme troisième pilier de la science et de la recherche aux côtés de la théorie et de l expérimentation. À ce jour, on peut plus concevoir qu un constructeur d avions ou une équipe de Formule 1 travaille sans logiciel de simulation. À l avenir, le calcul scientifique en astrophysique, médecine, pharmaceutique ou encore bioinformatique sera dépendant des superordinateurs. Les développeurs de logiciel ont découvert, il y a déjà longtemps, les bénéfices des ordinateurs haute performance basés sur de puissants serveurs standard et leur ont donc confié leurs programmes. «Les solutions HPC transtec offrent performance de pointe et efficience énergétique. En outre, se décider pour une solution HPC transtec, c est choisir un suivi client des plus complets et le meilleur service imaginable.» Un des avantages principaux des superordinateurs scale-out, c est justement ça : leur évolutivité est infinie, du moins en théorie. En effet, lorsque la capacité de calcul ne suffit plus, il est facile d augmenter la puissance d un superordinateur en ajoutant simplement de nouveaux nœuds du même type puisqu il repose sur des composants matériels standard. Il est possible d éviter un lourd changement de technologie dans la plupart des cas. L idée première des clusters HPC est de pouvoir s étendre et améliorer la capacité de calcul autant que nécessaire. Pour atteindre cet objectif et rentabiliser l investissement, il faut nourrir constamment le cluster HPC de problèmes de calcul. Dr Oliver Tennert, directeur Marketing & HPC Solutions La seconde raison pour la conception de superordinateurs scale-out est de maximiser l exploitation du système. 6

OpenMPI, MPICH2, MVAPICH2, Intel MPI ou encore MS-MPI pour les clusters Windows. Lorsqu un process particulier exige une communication intensive, le temps de réponse du réseau (latence) devient déterminant. En règle générale, la latence d un réseau Gigabit Ethernet ou 10GE se situe autour de 10 µs. Les interconnexions haut-débit comme InfiniBand divisent la latence par 10 jusqu à 1 µs. Les interconnexions haut-débit peuvent donc accélérer l ensemble du traitement. VARIATIONS SUR THÈME : MPP ET SMP Il existe aujourd hui deux variantes importantes en matière de computing parallèle. Les applications qui opèrent en parallèle sur plusieurs nœuds sont souvent appelées «applications MPP» (Massively Parallel Processing). MPP signifie que les différents process utilisent chacun des zones de mémoire exclusives. Cela veut dire également dire que ces tâches sont prédestinées à être traitées en parallèle et distribuées parmi les nœuds dans un cluster. Les process peuvent donc chacun utiliser des unités séparées du nœud respectif, en particulier la RAM, la puissance CPU et les I/O disques. La communication entre les différents process est assurée de façon standardisée par l interface logicielle MPI (Message Passing Interface) qui fait abstraction pour les process des connexions réseau sous-jacentes entre les nœuds. Néanmoins, le standard MPI (actuellement 2.0) ne requiert qu une compatibilité de codes sources et non pas une compatibilité binaire si bien que les applications commerciales exigent en général des versions précises de librairies MPI pour fonctionner. Parmi les implémentations MPI, on trouve par exemple L autre variante fréquemment utilisée, ce sont les applications SMP. Dans le contexte HPC, SMP signifie Shared Memory Pro- cessing. Cela inclut l utilisation de zones mémoires partagées dont l implémentation spécifique dépend du système d exploitation choisi en arrière-plan. En conséquence, les tâches SMP sont en général conduites sur un seul nœud où elles peuvent être traitées en multi-thread et donc en parallèle sur le nombre de CPU par nœud. Il est possible de choisir MPP ou SMP pour de nombreuses applications HPC. Beaucoup d applications ne sont pas, par elles-mêmes, adaptées à une exécution parallèle. Dans de tels cas, il n y a aucune communication entre les nœuds de calcul individuels et donc pas besoin d un réseau haut-débit entre eux. Néanmoins, les tâches de calcul multiples peuvent être traitées simultanément et en séquence sur chaque nœud individuel en fonction du nombre de CPU. Pour garantir une performance de calcul optimale pour ces applications, il convient d examiner combien de CPU et de cœurs sont nécessaires pour un résultat optimum. On trouve ces applications de type séquentiel typiquement dans les domaines de l analyse de données ou des simulations de Monte-Carlo. 7

HIGH PERFORMANCE COMPUTING QUAND LA PERFORMANCE DEVIENT PRODUCTIVITÉ HAUTE PERFORMANCE RENCONTRE EFFICIENCE Au premier abord, les systèmes massivement parallèles sont un vrai défi pour les administrateurs et les utilisateurs. Ce sont des monstres de complexité. Toute personne mettant en place des clusters HPC doit apprivoiser le monstre, maîtriser la complexité et présenter aux utilisateurs un environnement simple à utiliser et à gérer. Conseil avant-projet individuel Benchmarking de systèmes variés Amélioration continue Maintenance, assistance et services externalisés Calibrage spécifique de la solution HPC (application, client, site) Formation client Tests burn-in des systèmes Intégration à l'environnement client FIGURE 1 SERVICE ET ASSISTANCE CLIENT DE A À Z Conseil avant-projet individuel Benchmarking de systèmes variés Amélioration continue Maintenance, assistance et services externalisés Calibrage spécifique de la solution HPC (application, client, site) Formation client Tests burn-in des systèmes Intégration à l'environnement client Installation logiciels et SE Installation des applications Montage matériel sur site Installation logiciels et SE Installation des applications Montage matériel sur site Les fournisseurs leaders de solutions HPC tels que transtec remplissent cet objectif. Ils cachent la complexité du HPC sous le capot et unissent haute performance, efficience et simplicité d utilisation pour les utilisateurs comme pour les administrateurs. Le «P» de HPC prend alors une double signification : performance et productivité. Les logiciels de gestion de clusters comme Moab Cluster Suite, Moab Grid Suite et Moab Adaptive HPC Suite permettent de maîtriser et de dissimuler la complexité inhérente des systèmes HPC. Pour les administrateurs et les utilisateurs, les clusters HPC se présentent comme une grosse machine unique avec de nombreux paramètres de configuration. Le logiciel autorise également une vue unifiée des clusters existants dans les cas où le client exige une gestion unifiée même après l installation initiale. Ainsi, il est facile de traiter à l aide d outils graphiques ou web les tâches de routine quotidiennes telles que la gestion de tâches ou d utilisateurs ou encore la partition et la gestion de files d attente sans grande connaissance d encodage ou expertise technique de la part de l administrateur ou de l utilisateur. 8

de qualité et à celles de nos clients. Par défaut, un cluster HPC transtec dispose déjà d une installation et d une configuration complètes : matériel, système d exploitation, composants middleware importants tels que gestionnaire de clusters, outils de développement et même les applications productives du client. HPC CHEZ TRANSTEC : SERVICE ET ASSISTANCE CLIENT DE A À Z transtec AG a 30 ans d expérience en matière d informatique scientifique et fût l un des premiers constructeurs de clusters HPC. Depuis près de 10 ans, transtec livre des clusters hauteperformance hautement personnalisés à base de composants standard à ses clients des secteurs scientifiques et industriels à travers toute l Europe. transtec est connu pour son niveau élevé de qualité et sa philosophie centrée sur les besoins du client. Une solution HPC transtec, c est bien plus qu une étagère de matériel informatique bien remplie : c est une solution complète qui répond parfaitement aux besoins de l utilisateur, du propriétaire et de l opérateur. Dès les premiers stades de chaque projet HPC, les experts transtec conseillent leurs clients de façon intensive et détaillée et leur font pleinement profiter de leur expertise et de leur expérience. Cette activité de conseil est suivie par une évaluation comparative de diffé- rents systèmes basée soit sur des codes créés par le client soit sur des routines de benchmarking d utilisation généralisée pour aider le client à définir la taille et la configuration HPC précise optimale. Aucune pièce de matériel ne quitte notre usine sans avoir subi une procédure de burn-in de 24 heures, voire plus si nécessaire. Nous mettons tout en œuvre pour que les pièces expédiées correspondent à nos propres exigences Livraison sur site signifie intégration sur site à l environnement de production du client, qu il s agisse de connecter le système au réseau de l entreprise ou d installer les logiciels et réaliser les configurations. Les clusters HPC transtec sont des systèmes prêts-à-fonctionner : on livre, vous tournez la clé et le système haute performance fonctionne. Tout projet HPC comprend un transfert au productif : les proces- sus d opérations informatiques et les règlements s appliquent au nouveau système HPC. En clair, nous formons le personnel informatique de façon pratique et leur présentons les composants matériels et logiciels et tous les aspects opérationnels de la gestion de configuration. Les services transtec ne prennent pas fin avec l implémentation du projet. Nous restons présents à vos côtés au delà de la mise en service. transtec offre toute une série d options d assistance et de service taillées sur mesure pour les besoins du client. Si vous avez besoin d une nouvelle installation, d une importante reconfiguration ou d une mise à jour de votre solution, transtec vient en aide à votre personnel et assure la maintenance de votre solution HPC si les ressources vous font défaut. Services professionnels, services externalisés pour les tâches quotidiennes ou niveaux de service exigés : transtec sera votre fournisseur de solutions et services HPC complets. Le haut niveau de performance et de fiabilité de transtec sont garants de votre productivité et de votre satisfaction totale. 9

LA GESTION DE CLUSTERS EN TOUTE SIMPLICITÉ 10

Si l administration et le travail investis dans une structure informatique étaient proportionnels au nombre de systèmes, personne ne songerait à acquérir un cluster HPC. Des débuts des clusters Beowulf à nos jours, un grand nombre de solutions de gestion de clusters a été développé pour rendre les clusters HPC gérables même pour les entreprises ne disposant que d un seul administrateur d expérience moyenne. 11

LA GESTION DE CLUSTERS EN TOUTE SIMPLICITÉ MOAB CLUSTER SUITE FIGURE 1 AUTOMATISATION DES TÂCHES, RÈGLEMENTS ET RAPPORTS MOAB CLUSTER SUITE Moab Cluster Suite est un middleware intelligent qui autorise une gestion basée web simple, une administration graphique des clusters et des outils de gestion des rapports. Les organisations profiteront de la capacité de fournir des niveaux de services garantis aux utilisateurs et aux organisations, de taux d exploitation des ressources plus élevés et de la possibilité de traiter plus de tâches avec les même ressources et donc d obtenir un meilleur retour sur investissement. FIGURE 2 CONTRÔLE DU PARTAGE ENTRE GROUPES DE CONFIANCE En utilisant Moab, les sites peuvent adapter de façon dynamique et à la demande les pools de ressources dans les centres HPC et de données en fonction des charges de travail données. Moab propose des règles de gestion souples pour garantir que les besoins de chaque utilisateur, groupe et charge de travail soient remplis. Moab fait appliquer les garanties Quality of Service et les conventions de niveaux de service et s assure que les objectifs élevés de l entreprise sont atteints. Test 1% Administration 14% Partagé 12% Recherche 16% Ingénierie 57% FIGURE 3 AMÉLIORATION DE LA PERFORMANCE PAR UNE EXPLOITATION À 90-99 % Moab Cluster Suite comprend les applications leaders du marché suivantes proposées par Adaptive Computing : Moab Workload Manager Un moteur de gestion et de planification de charges de travail, basé sur règlement Moab Cluster Manager Une puissante interface graphique d administration de clusters, de suivi et de rapports Moab Access Portal Portail web de gestion et de soumission des tâches pour les utilisateurs finaux AVANTAGES POUR L ENTREPRISE Intégration/unification de la gestion de plusieurs ressources et environnements dans un cluster Contrôle/partage de l utilisation des ressources entre les 12

utilisateurs, les groupes et les projets Simplification de l utilisation, de l accès et du contrôle pour les utilisateurs et les administrateurs Suivi, diagnostics et rapports sur la charge de travail du cluster et son statut Automatisation des tâches et process pour optimiser le retour des travaux et réduire la charge administrative L architecture évolutive est compatible avec la grille et extensible. COMPATIBILITÉ SYSTÈME Prise en charge SE Linux (tous), UNIX (AIX, IRIX, HP-UX, FreeBSD, OSF/Tru-64, Solaris etc.), Mac OS X & prise en charge Windows limitée Prise en charge des gestionnaires ressources LSF, TORQUE, PBSPro, SGE, SLURM, LoadLeveler, OpenPBS et gestionnaires ressources customisés PRINCIPALES FONCTIONNALITÉS Amélioration de la performance par une exploitation à 90-99 % Temps de réponse plus rapide grâce à un placement optimal des tâches en fonction de la charge de travail en temps réel et des règlements Exploitation plus élevée et cohérente des ressources par une planification intelligente, un contrôle précis des règlements et une haute disponibilité des services Garantie du traitement des tâches à un moment précis grâce à la réservation préalable Assurance que les tâches les plus importantes sont traitées avec la plus haute priorité et la meilleure qualité de service Maîtrise grâce aux tâches automatisées, règlements et rapports Automatisation des tâches administratives et des réponses à l aide de tâches customisées et de déclencheurs (nœud ou système complet) pour des évènements ou des critères donnés Gestion des règlements selon les événements, les conditions ou le temps dans un moteur de règles flexible afin de garantir un usage conforme aux niveaux et aux priorités Identification des problèmes et évaluation simple de l exploitation et des RSI avec des rapports individualisés offrant des aperçus d état centralisés et visuels sur les tâches en cours et passées Rapports de consommation des ressources permettant la répartition efficace des coûts de maintenance des clusters ou pour inciter les utilisateurs, les groupes et les organisations à l autogestion Clôture plus rapide des travaux grâce à l interface de tâches, aux modèles de tâches réutilisables et aux opérations de groupe pour simplifier les changements entre les groupes d utilisateurs et les ressources Contrôle du partage entre groupes de confiance multiples Partage juste des ressources par des règles garantissant la disponibilité des niveaux de service convenus pour les groupes et les utilisateurs en fonction du temps, de la capacité, des priorités ou d autres paramètres Gain de confiance des propriétaires des ressources à l aide de rapports graphiques sur l exploitation des ressources acquises individuellement ou partagées et respect des garanties de ressources par le biais de niveaux de service Assurance qu aucun utilisateur ne dépasse l usage prévu grâce des limites plus ou moins souples Incitation des groupes et utilisateurs à gérer eux-mêmes l exploitation des ressources à l aide de fonctions d intendance intégrées surveillant les avoirs, le temps et les coûts vis-à-vis des plafonds fixés Simplification de l administration des droits d accès à l aide de niveaux d autorisation à base de rôles et de cartes graphiques des utilisateurs, des groupes, des relations QoS et des configurations 13

LA GESTION DE CLUSTERS EN TOUTE SIMPLICITÉ MOAB CLUSTER SUITE FIGURE 4 GAIN DE PRODUCTIVITÉ DES UTILISATEURS Gain de productivité des utilisateurs Gain de productivité grâce à un portail permettant aux utilisateurs finaux de soumettre des tâches depuis n importe quel endroit Réduction des besoins en formation des utilisateurs sur la gestion des tâches grâce à une interface web conviviale et des fonctions d aide telles que l estimation de l heure de lancement et des outils de réservation visuels Simplification et accélération de la soumission des tâches à l aide de formulaires basiques ou détaillés, de modèles de tâches réutilisables et partagés et d une fonction de recherche de fichiers locaux ou sur serveur Possibilité pour les utilisateurs de gérer eux-mêmes l exploitation par le biais d avoirs restants ou de rapports d utilisateurs intégrés FIGURE 5 GESTION UNIFIÉE ENTRE LES CLUSTERS Stockage données ID utilisateurs/ groupes Systèmes d'exploitation Réseaux Administrateur Matériel Gestionnaires ressources Licences Gestion unifiée entre les clusters Unification de la gestion des travaux entre les gestionnaires ressources existants, les réseaux et le matériel ; connexion aux bases de données pour l approvisionnement des systèmes, portails, gestionnaires d allocation et autres applications pour une gestion et une intégration complètes Élimination du travail d administration manuel redondant entre les nombreux clusters et libération du personnel pour d autres projets hautement prioritaires Adaptation à la grille avec la prise en charge out-of-the-box de la grille locale et de grilles longue distance (clusters avec espaces utilisateur et données non partagés) avec Moab Grid Suite Possibilité de croissance future et évolutivité de dizaines de milliers de nœuds de clusters différents 14

Les solutions transtec de clusters HPC sont conçues pour un maximum de flexibilité et de simplicité de gestion. Nous proposons à nos clients non seulement la solution de gestion de clusters la plus puissante et la plus souple du marché mais également des configurations personnalisées et l installation sur site individuelle. Que le client ait besoin d une solution dual-boot Linux/Windows dynamique, d une gestion unifiée de différents clusters sur différents sites, d un affinement de son planificateur Moab pour l implémentation d une configuration de règlements à granularité fine, transtec ne se contente pas de lui revendre le premier système disponible, mais il l aide à l adapter à ses besoins spécifiques. Cela va sans dire, transtec est aussi présent pour fournir à ces clients, aux administrateurs et utilisateurs des formations sur mesure quand ils en ont besoin. 15

LA GESTION DE CLUSTERS EN TOUTE SIMPLICITÉ MOAB GRID SUITE FIGURE 6 PLUS DE TRAVAIL EN MOINS DE TEMPS POUR UN RSI MAXIMISÉ MOAB GRID SUITE Moab Grid Suite est une puissante solution de gestion de charge de travail sur grille comprenant planification, gestion des règles poussée et outils de contrôle pour les composants des grilles complexes modernes. Contrairement aux autres solutions «grille», Moab Grid Suite permet réellement de connecter des clusters disparates dans un ensemble logique donnant aux administrateurs et aux règlements de grille la maîtrise de tous les systèmes tout en préservant la souveraineté et le contrôle de chaque cluster. Moab Grid Suite comprend des applications puissantes permettant aux organisations d intégrer les rapports, la réunion d informations et la gestion des charges de travail, des ressources et des données. Moab Grid Suite offre ces services de façon presque invisible : les utilisateurs ne remarquent pas qu ils utilisent des ressources sur grille. Tout ce qu ils voient, c est que leur travail est plus facile et rapide que jamais. FIGURE 7 AUTOMATISATION DES TÂCHE, DES RÈGLEMENTS ET DES RAPPORTS Moab Grid Suite comprend les applications leaders du marché proposées par Adaptive Computing suivantes : Moab Workload Manager Gestion régulée de charge de travail et moteur de planification Moab Grid Manager Puissante interface graphique d administration de clusters, de suivi et outil de rapport Moab Access Portal Portail web de gestion et de soumission des tâches pour les utilisateurs finaux 16

AVANTAGES POUR L ENTREPRISE Passage rapide du cluster à la grille optimisée par une gestion unifiée de clusters hétérogènes Planification intelligente garantissant le lancement et le traitement des tâches le plus rapidement possible par la sélection des ressources optimales Moteur de règles et d événements adaptant les charges de travail à la fois aux niveaux grille et cluster Interface couvrant toute la grille et outils de rapports pour visualiser les ressources grille, tableaux de statut/exploitation et tendances sur la durée pour la planification des capacités, le diagnostic et l intendance Autorisation et contrôle de différents groupes pour l accès à ou la consultation de ressources grille quelles que soient les limites physiques ou organisationnelles ou restreinte de l accès aux ressources à certaines entités. COMPATIBILITÉ SYSTÈME Prise en charge Linux (tous), UNIX (AIX, IRIX, HP-UX, FreeBSD, OSF/Tru-64, Solaris, etc.), Mac OS X & prise en charge Windows limitée Prise en charge des gestionnaires ressources LSF, TORQUE, PBSPro, SGE, SLURM, LoadLeveler, OpenPBS, BProc, et gestionnaires ressources customisés PRINCIPALES FONCTIONNALITÉS Plus de travail en moins de temps pour un RSI maximisé Exploitation supérieure et cohérente des ressources et capacités grâce à une planification intelligente distribuant les demandes de tâches aux ressources les mieux appropriées Stockage des données optimisé garantissant une meilleure coordination de la disponibilité des données délocalisées et des ressources pour un blocage minimum Meilleure performance grâce à l apprentissage automatique optimisant les choix de planification en fonction des charges de travail passées Optimisation de la plupart des charges de travail sur grille au niveau des clusters locaux Accès plus large aux ressources grâce au transfert automatique des tâches pour un traitement plus efficace sur plus de clusters de destination Contrôle de la grille à l aide de tâches, règlements et rapports automatisés Priorisation garantie des travaux les plus importants par des règlements de grille flexibles respectant les règles locales des clusters et compatibles avec les accords de niveaux de service de la grille Garantie de disponibilité des ressources-clés à des moments donnés grâce à la réservation préalable Établissement du règlement avant le roll-out grâce à la simulation (niveaux cluster et grille) Aperçu global de toutes les opérations de grille pour les autodiagnostics, la planification, les rapports et l intendance grille et cluster pour toutes les ressources, les tâches et les clusters Création de clusters privés virtuels afin de permettre aux utilisateurs de voir les ressources et les tâches auxquelles ils ont accès sans la complexité ou la tentation d un aperçu des autres ressources 17

LA GESTION DE CLUSTERS EN TOUTE SIMPLICITÉ MOAB GRID SUITE FIGURE 8 SOUVERAINETÉ DE CLUSTER ET PARTAGE EN CONFIANCE L'administrateur local peut appliquer des règles pour gérer : 1. l'accès des utilisateurs locaux aux ressources cluster locales 2. l'accès des utilisateurs locaux aux ressources grille 3. l'accès des utilisateurs grille externes aux ressources cluster locales (règlements généraux ou spéciaux) Administrateur local Souveraineté : localisation contre centralisation des règlements de gestion 2 3 Ressources grille allouées 4 L'organe d'administration grille peut appliquer des règles pour gérer : 4. les règlements généraux de grille (partage, priorités, limites, etc.) Chaque administrateur peut gérer son propre cluster Contrôle de souveraineté de cluster et partage en confiance Garantie de répartition juste des ressources partagées avec des règlements généraux respectant la configuration et les besoins des clusters locaux Gain de confiance entre les propriétaires de ressources grâce aux contrôles d exploitation intégrés et aux rapports graphiques d intendance et d exploitation pour toutes les ressources partagées Maintien de la souveraineté des clusters par un contrôle granulaire de l origine et du lieu de traitement des tâches Détermination de propriété de ressources et d accès prioritaires à ces ressources sur demande (priorisation par propriétaire, préemption et garanties d accès). 1 Soumission : Ressources locales II à un cluster local cluster A II à un ou plusieurs clusters donnés sur la grille II à la grille en général Utilisateurs Utilisateurs locaux grille externes FIGURE 9 GAIN DE PRODUCTIVITÉ DES UTILISATEURS Gain de productivité des utilisateurs Réduction des besoins en formation des utilisateurs finaux et en gestion des tâches grâce à des interfaces graphiques conviviales automatisant la migration des données et exploitant la gestion unifiée des droits Soumission et gestion simplifiées par les utilisateurs finaux de leurs propres tâches via un navigateur web pour minimiser les coûts de gestion d un nombre croissant d utilisateurs exigeants Collaboration plus efficace grâce à une co-allocation multicluster des ressources permettant de réserver les ressources de calcul, de réseau et de données pour les projets-clés Effet de levier des modèles de tâches permettant aux utilisateurs de soumettre rapidement plusieurs tâches avec des changements minimum Adaptive Computing, Cluster Resources, Moab, Moab Viewpoint, Moab Workload Manager, Moab Cluster Manager, Moab Cluster Suite, Moab Grid Scheduler, Moab Grid Suite, Moab Access Portal et les autres produits Adaptive Computing sont soit des marques déposées soit des marques appartenant à Adaptive Computing Enterprises, Inc. Les logos Adaptive Computing logo et Cluster Resources sont des marques appartenant à Adaptive Computing Enterprises, Inc. 18

Gestion unifiée de différents clusters indépendants Gestion unifiée entre les clusters internes, externes ou partenaires et leurs différents gestionnaires de ressources, bases de données, systèmes d exploitation et matériels Prise en charge out-of-the-box des grilles locales et longue distance et évolutivité jusqu à 100 clusters et des dizaines de milliers de nœuds Accès sécurisés aux ressources par l établissement simple de droits ou l intégration parfaite des outils de sécurité avancée Globus Exploitation à effet de levier des technologies de migration de données telles que SCP, GASS ou GridFTP FIGURE 10 GESTION UNIFIÉE AVEC MOAB GRID SUITE Moab Cluster Manager : interface graphique et rapports Moab Access Portal Administrateur II Application des niveaux de service II Diagnostics charges de travail II Règlement travaux détaillés II Partage licences, stockage et réseau Management II Rapports d'organisation II Capacité accrue II Outils de gestion des process et priorités politiques/opérationnels Utilisateurs finaux II Portail de soumission des tâches II Écrans d'applications individualisés II Prévision des délais de réponse II Self-service/gestion Moab Grid Suite : planificateur, gestionnaire de règlement, moteur événements, plateforme d'intégration Gestionnaire de charge grille Moab Grid Suite : planificateur, gestionnaire de règlement, moteur événements, plateforme d'intégration Gestionnaire de charge cluster Gestionnaires d'identité Gestionnaires d'approvisionnement Gestionnaires d'allocation Autres gestionnaires de service Autres gestionnaires de service Stockage Réseaux Licences Bases de données Autres gestionnaires de ressources Load Leveler TORQUE Open PBS PBS Pro LSF SLURM Autres Gestionnaires ressources calcul Charge de travail en lots Parallèle Série Transaction Type de travaux et transmission messages MPI MPICH PVM LAM SUSE Linux RedHat Linux Autres Linux Scyld BProc AIX HP-UX Solaris SGiARIX ProPac Autres UNIX Mac OS X UNICOS Windows Système d'exploitation Matériel/CPU (cluster ou SMP) Processeur IBM Power Intel Xeon EM64T Intel Xeon 32 Intel Itanium Intel Pentium AMD Athlon, Opteron HO Alpha SPARC Cray MIPS 10000-16000 19

LA GESTION DE CLUSTERS EN TOUTE SIMPLICITÉ MOAB ADAPTIVE HPC SUITE MOAB ADAPTIVE HPC SUITE Moab Adaptive HPC Suite change le système d exploitation du nœud spontanément en fonction des besoins de la charge de travail. Méta-planificateur intelligent, Moab détermine à quel moment le SE doit être changé pour une efficacité optimale en fonction des règles définies, des niveaux de service et des travaux en cours ou planifiés. Lorsque les conditions sont remplies, Moab lance automatiquement le changement de SE en utilisant la technologie de changement de SE choisie par le site, par exemple dual-boot, diskfull ou stateless (diskfree). FIGURE 11 DÉPLOIEMENT DYNAMIQUE AVEC MOAB ADAPTIVE HPC SUITE Gestionnaire Rapports unifiés Admins Contrôle central et assistance Gestionnaire Soumission de tâches unifiée Travaux Windows Moab Moteur règlement - Méta-planificateur Moteur événements Windows Linux Approvisionnement SE Dual boot - Virtualisation image Linux «Avec les solutions Moab, nous pouvons faire face aux exigences élevées de nos clients en matière de gestion unifiée d environnements de clusters hétérogènes, de solutions dualboot Windows/Linux, de configuration à la fois flexible et puissante et d options de rapport tout en proposant une interface de gestion unifiée simple à utiliser. Nos clients l apprécient grandement.» Thomas Gebert, HPC Solution Engineer Moab Adaptive HPC Suite permet une exploitation maximale des ressources et un RSI accru pour les clusters nouveaux ou déjà en place. Le modèle de cluster à SE hybride unifie la gestion et centralise la soumission des tâches entre les SE. Les administrateurs peuvent gérer de façon simple les règlements et les travaux pour des environnements SE multiples en se servant de la console unifiée Moab. Moab peut aussi dissimuler le caractère multi-se du cluster aux utilisateurs finaux et déterminer lui-même l application et les informations de travaux afin de garantir que la tâche soit traitée sur le SE adéquat sans sélection par l utilisateur. Moab peut accroître ou réduire les ressources allouées pour se conformer aux niveaux de service. 20

AVANTAGES Exploitation plus efficace de votre infrastructure grâce à une gestion unifiée et libérée du compartimentage restrictif et onéreux des ressources Simplification de l utilisation et de la gestion des environnements de clusters hétérogènes par une interface unique et une application automatique des niveaux de service Équilibre de l utilisation des ressources entre les environnements SE et réponse adaptée aux pointes de charge de travail et défaillance de ressources avec adaptation dynamique des combinaisons de SE Planification de réallocations automatiques en fonction des besoins de charge de travail et des règlements en place Automatisation complète des process incluant à la fois des applications Windows et Linux Paramétrage et réservation de combinaisons SE futures en fonction des activités prévues et des historiques d exploitation Fonctionnalités Windows Linux Moab Avantages Adaptation des combinaisons SE en fonction des charges de travail Prise en charge des process mutli-se Soumission unifiée des tâches Gestion des travaux et rapports unifiés Adaptation de l environnement SO en fonction des charges de travail et des objectifs de l organisation. Adaptation des combinaisons SE en cas de défaillance de ressources, de pointe de charge, en fonction des garanties de niveaux de service, des réservations de ressources et de l équilibrage Plus de process automatisés grâce à des procédures automatiques à événements déclencheurs sur plusieurs SE Ex. : traitement de données sur Linux et visualisation des résultats sur Windows dans un process Moab intégré Soumission des tâches via une interface web unique et traitement dans l environnement SE adéquat choisi par Moab Gestion des travaux sur cluster et fonction d aide uniques pour les deux SE et rapports unifiés Gestionnaire de ressources HPC Windows HPC Server 2008 R2 inclut un gestionnaire de ressources ; Adaptive Computing fournit TORQUE pour Linux Outils de suivi système Les deux SE et TORQUE offrent un suivi haut-de-gamme du matériel Passage de messages Les deux SE comprennent des outils de passage de messages Système d exploitation Windows et Linux; n importe quel SE peut être utilisé 21

INTEL CLUSTER READY STANDARD DE QUALITÉ POUR CLUSTERS HPC 22

Intel Cluster Ready est conçu pour permettre de faire des pronostics pour les utilisateurs et des fournisseurs de clusters HPC et s adresse en particulier aux clients des secteurs commercial et industriel. Il ne s agit pas de clusters test-bed expérimentaux pour la science et la recherche en ingénierie informatique ni de clusters aux capacités haut-de-gamme ciblant étroitement les exigences informatiques spécifiques de la physique poussée des laboratoires nationaux ou d autres organisations de recherche spécialisées. Intel Cluster a pour but de pousser les clusters HPC utilisés comme ressources de calcul dans les environnements productifs en offrant aux propriétaires la certitude que les clusters qu ils déploient prendront en charge les applications sur lesquelles leurs scientifiques et ingénieurs comptent pour remplir leurs missions. Pour ce faire, il propose aux fournisseurs de matériel cluster, logiciel et systèmes une base bien définie pour leurs produits afin de répondre aux exigences de production cluster de leurs clients. 23

INTEL CLUSTER READY STANDARD DE QUALITÉ POUR CLUSTERS HPC QUELS SONT LES OBJECTIFS D ICR? L objectif primaire d Intel Cluster Ready est de faciliter la sélection, l achat et le déploiement des clusters et le développement des applications qu ils reçoivent. Une des fonctions-clés d ICR, c est le concept de «mobilité d application», c est à dire la possibilité pour les applications certifiées Intel Cluster Ready (plus exactement, le même binaire) de fonctionner sans problème sur tous les clusters Intel Cluster Ready. En effet, la mobilité est importante pour les utilisateurs, les fournisseurs de logiciels et les constructeurs de matériel et de systèmes. «Intel Cluster Checker nous permet de garantir que les clusters HPC transtec sont conformes à un standard de qualité indépendant élevé. Nos clients peuvent être sûrs que les applications fonctionnent comme ils l exigent.» Thomas Gebert, HPC Solution Engineer Les utilisateurs veulent être certains que les clusters qu ils choisissent seront en mesure de prendre en charge de façon fiable les applications sur lesquelles ils comptent aujourd hui et compteront demain Les fournisseurs d application veulent répondre aux besoins de leurs clients en proposant des applications qui tournent sans problème sur leur matériel cluster et leurs piles de clusters. Les fournisseurs de piles de clusters veulent répondre aux besoins de leurs clients en proposant des piles qui prennent en charge leurs applications et leur matériel cluster Les constructeurs de matériel veulent répondre aux besoins de leurs clients en proposant des composants qui prennent en charge les applications et les piles de clusters de leurs clients Les fournisseurs de systèmes veulent répondre aux besoins de leurs clients en proposant des implémentations cluster complètes qui prennent en charge leurs applications de façon fiable Sans mobilité d application, les groupes se voient dans l obligation de tenter de prendre en charge toutes les combinaisons (alors qu ils n en ont ni le temps ni les moyens) ou de se décider pour une «combinaison gagnante» correspondant à leurs besoins et risquer de faire un mauvais choix. 24

La définition Intel Cluster Ready de la portabilité d application remplit toutes ces attentes en allant au-delà de la simple portabilité (recompiler et relier un binaire unique pour chaque plateforme) vers la mobilité d application binaire (fonctionnement d un même binaire sur de multiples plateformes) en définissant plus précisément le système de destination. Un autre aspect de la mobilité d application est l assurance que les applications certifiées Intel Cluster Ready n ont besoin d aucune programmation spéciale ou de binaires alternatifs pour les différentes matrices de messages. Intel Cluster Ready y parvient en fournissant une implémentation MPI prenant en charge plusieurs matrices sur runtime. De cette façon, les applications certifiées Intel Cluster Ready applications se conforment à la propriété d indépendance des couches de messages. En bref, le concept d unification d Intel Cluster Ready, c est «un vers tous» : II une application fonctionne sur plusieurs clusters II un cluster prend en charge plusieurs applications «Un vers tous», ça marche comment? Observez la figure 1, vous verrez les composants de pile Intel Cluster Ready abstraits que l on trouve dans tous les clusters, à savoir une ou plusieurs applications, une pile logicielle de cluster, une ou plusieurs matrices et finalement, en arrière-plan, le matériel cluster. Le reste du schéma (à droite) indique les composants plus en détail. Au sommet de la pile, les applications se reposent sur les différentes API, les outils et la structure du système fichiers présentés par la pile logicielle sous-jacente. Les applications certifiées Intel Cluster Ready sont toujours compatibles aves les API, les outils et les structures de systèmes fichiers indiqués par la spécification Intel Cluster Ready. Si une application a besoin de logiciel extérieur à cet ensemble, Intel Cluster Ready exige de l application qu elle fournisse ce logiciel comme composante de son installation. Afin de garantir que ces logiciels ne causent pas de conflits avec la pile de cluster ou les autres applications, Intel Cluster Ready exige de plus que ces logiciels supplémentaires soient installés dans des arborescences privées de l application. Ainsi l application sait où trouver le logiciel sans interférer avec les autres applications. Certes, cela peut entraîner des doublons de logiciels, cependant la fiabilité offerte par cette duplication dédommage largement des coûts dus aux fichiers doubles. Un excellent exemple en ce sens est le danger de la suppression d un fichier commun (librairie, outil ou autre) en ignorant que d autres applications en ont également besoin. Ce genre d erreur peut s avérer difficile à réparer même s il cause une défaillance complète de l application. Au pied de la pile, les plateformes cluster fournissent les API, outils et structure de système fichiers dont les applications certifiées ont besoin. Les plateformes certifiées Intel Cluster Ready garantissent que ces API, outils et structures sont conformes aux spécifications Intel Cluster Ready. En outre, les clusters certifiés peuvent décider entre plusieurs méthodes de mise à FIGURE 1 PILE ICR Applications certifiées Plateforme à solution unique Matrices Plateformes cluster certifiées Pile de logiciels Matrice Système CFD Crash Climate QCD Intel MPI Library (run-time) Intel MKL Cluster Edition (run-time) Gigabit Ethernet Outils cluster Linux (Intel Selected) InfiniBand (OFED) Bio Plateforme à processeur Intel Xeon... 10Gbit Ethernet Intel OEM1 OEM2 PI1 PI2... En option Outils de développement (C++, Intel Trace Analyzer et Collector, MKL, etc.) Intégrateur de plateforme individuel pour plus de valeur ajoutée 25

INTEL CLUSTER READY STANDARD DE QUALITÉ POUR CLUSTERS HPC disposition en fonction des besoins. Grâce aux responsabilités clairement définies garantissant la disponibilité de tous les logiciels requis par les applications certifiées, les fournisseurs de systèmes peuvent être sûrs que les clusters certifiés qu ils développent seront en mesure d accueillir les applications certifiées dont leurs clients ont besoin. Au-delà de la conformité aux critères Intel Cluster Ready, les clusters offrent leur propre valeur ajoutée, ou plus exactement des fonctionnalités qui accroissent la valeur de leurs produits. COMMENT INTEL CLUSTER READY ATTEINT-IL SON OBJECTIF? D une part, Intel Cluster Ready est une définition de cluster en tant que plateforme pour applications parallèles. D autre part, il s agit d un outil de certification de cluster par rapport à cette définition. Observons ces deux aspects plus en détail pour comprendre leurs raisons d être et leurs avantages. Définition de cluster en tant que plateforme pour applications parallèles La spécification Intel Cluster Ready est moins un standard d implémentation qu un ensemble d exigences pour toute plateforme sur laquelle des applications parallèles (en particulier MPI) vont être installées et exploitées. Peu importe donc pour la spécification que le cluster soit diskful ou diskless, en distribution intégrale ou SSI (single system image), basé sur des distributions d entreprise ou communautaires, en open source intégrale ou non. Peut-être plus important encore : la norme ne spécifie aucun mode particulier de construction. À une exception près : les nœuds de calcul doivent être développés avec des outils automatisées afin que les nouveaux nœuds à intégrer (ou à réintégrer après réparation) soient identiques aux nœuds en place sans intervention manuelle autre que le lancement de l intégration. 26

La spécification inclut les points suivants : Capacité à exploiter des applications 32 et 64-bit, y compris les applications MPI et XCLIENT sur n importe lequel des nœuds Uniformité des configurations, des capacités et de la performance entre les nœuds Accès identique aux librairies et outils pour l ensemble du cluster Accès identique pour tous les nœuds au stockage permanent ou temporaire et aux données d utilisateurs Accès identique à tous les nœuds de calcul à partir du nœud principal Indépendance de matrice fournie par l implémentation MPI Prise en charge par tous les nœuds du démarrage réseau et console accessible à distance La spécification exige également l installation sur chaque cluster certifié de runtimes pour certains logiciels Intel. Intel Math Kernel Library Intel MPI Library Runtime Environment Intel Threading Building Blocks Cette revendication a un effet double. D une part, les distributions Linux classique ne fournissent pas nécessairement une pile logicielle suffisante pour construire un cluster une telle spécialisation est au-delà de leur mission. D autre part, cette exigence garantit que les programmes développés avec ce logiciel fonctionneront toujours sur les clusters certifiés et jouiront d une installation simplifiée. Cela n entraîne aucun coût supplémentaire pour les clusters certifiés puisque les runtimes sont directement disponibles sur le web. Il est également très important de noter que cela n oblige pas les applications certifiées à utiliser ces librairies, ni exclut la présence de librairies alternatives, par ex. d autres implémentations MPI, sur les clusters certifiés. En clair, une application requérant, par exemple, une MPI alternative doit fournir les runtimes pour cette MPI dans son installation. Outil de certification de cluster conforme à la définition Intel Cluster Checker (compris dans toutes les implémentations certifiées Intel Cluster Ready) est utilisé en quatre modes dans la vie d un cluster : pour certifier que le cluster prototype d un fournisseur système est une application valide de la spécification pour confirmer au propriétaire que le cluster qui vient d être livré est une «vraie copie» du prototype certifié pour garantir que le cluster fonctionne parfaitement et réduire les demandes de service ne concernant pas les applications ou le matériel pour permettre aux fournisseurs de logiciel et de systèmes de diagnostiquer et corriger les problèmes de leurs codes ou de leur matériel Bien que capitales, ces fonctionnalités sont loin de refléter toutes les capacités d Intel Cluster Checker. Cet outil ne se FIGURE 2 INTEL CLUSTER CHECKER Définition cluster & configuration fichier XML Config Moteur Cluster Checker Sortie Module test Ops parallèle Nœud Nœud Nœud Nœud Résultat Check Config STDOUT + Logfile Résultats pass/fail et diagnostics Sortie Module test Ops parallèle Nœud Nœud Nœud Nœud Résultat Check API 27

INTEL CLUSTER READY INTEL CLUSTER READY DONNE DE L ÉLAN AU HPC contente pas de vérifier le bon fonctionnement du cluster. Pour ce faire, des tests statiques et dynamiques du matériel et des logiciels sont réalisés pour chaque nœud et pour le cluster. Les contrôles statiques garantissent que les systèmes sont configurés de façon cohérente et adéquate. Par exemple, l outil s assure que les systèmes ont les mêmes versions BIOS et des configurations identiques des paramètres BIOS importants. Ce genre d erreurs versions et paramètres BIOS divergents peuvent être à l origine de problèmes subtils tels que des configurations de mémoires différentes se manifestant par des largeurs de bandes dissemblables et interprétées comme une performance générale inférieure aux attentes au niveau des applications. Comme on le sait, la performance d un programme parallèle est déterminée par la performance de ses composants les plus lents, pas celle des plus rapides. Un autre test statique permet à Intel Cluster Checker de vérifier que les outils, librairies et fichiers requis sont présents sur chaque nœud et y sont localisés et implémentés de façon identique. Ainsi, on est sûr que chaque nœud est doté de la pile logicielle minimale requise par la spécification et que cette pile est identique pour tous les nœuds. Un test dynamique typique est le contrôle de la cohérence de la performance du système, par ex. à l aide du benchmark STREAM. Ce test s assure que la performance mémoire et processeur est uniforme entre les nœuds car cela peut être source d un ralentissement général des applications comme dans l exemple des configurations BIOS. Un test supplémentaire peut être réalisé avec STREAM si l utilisateur détermine un objectif de performance pour le benchmark ; il contrôlera alors non seulement si la performance est uniforme dans tout le cluster mais aussi si elle répond aux attentes. Au-delà de la performance 28