Direction de la communication Service Information-médias Visite de presse Le supercalculateur Tera - 10 CEA 31-33, rue de la Fédération 75752 Paris cedex 15 - Tél. 01 40 56 10 00
Sommaire - Introduction - Le programme Simulation et le calcul numérique haute performance - Le projet simulation numérique - Introduction à la visite du complexe de calcul Tera - 10 Dossier de presse CEA «Le supercalculateur TERA 10» www.cea.fr 2
Introduction La Direction des applications militaires (DAM) du CEA, dans le cadre de son programme Simulation, vient de réceptionner le supercalculateur Tera-10. L objectif du programme Simulation est de garantir, sans essais nucléaires, la sûreté et la fiabilité des armes de la dissuasion. Tera-10 est de loin la plus puissante machine d Europe avec plus de 50 Téraflops, soit une capacité de calcul de 50 000 milliards d opérations par seconde. Elle replace la France dans le peloton mondial de tête en matière de simulation numérique haute performance. Plusieurs premières mondiales sont d ailleurs réalisées par cette machine conçue, fabriquée et installée par Bull : c est le plus grand supercalculateur utilisant Linux comme système d exploitation, marquant l engagement du CEA et de Bull pour les systèmes «ouverts», avec 1 Pétaoctet (1 million de milliards d octets) de données directement accessible, soit 30 fois l équivalent des informations contenues dans la Très Grande Bibliothèque, c est aussi la machine la plus performante pour la gestion des données, c est enfin une machine basée sur des «composants sur étagère» (Cots = Component Off the Shelf) : le dernier né des processeurs d Intel : l Itanium à double cœur Montecito dont le CEA est le premier au monde à disposer à ce jour. Tera-10 est une machine française conçue en interconnectant, par un réseau à très haute performance de la société anglo-italienne Quadrics, 544 nœuds de calcul Novascale de 16 processeurs chacun, qui sont des produits standards proposés par Bull pour les besoins en informatique scientifique ou de gestion. Tera-10 marque le retour de l industrie européenne sur le marché de l informatique de grande puissance au côté des USA et du Japon La machine Tera-10 est installée sur le Centre DAM/île de France à Bruyères-le- Châtel au sein du Complexe de calcul scientifique du CEA. Ce Complexe de calcul scientifique constitue le noyau de Teratec *, l un des éléments essentiels du pôle de compétitivité Systematic **. * Teratec : Pôle européen de compétence en simulation numérique hautes performances en Île de France association créée en août 2005. ** Systematic : Pôle de compétitivité à vocation mondiale «Logiciels et systèmes complexes» labellisé par l Etat en septembre 2005. Dossier de presse CEA «Le supercalculateur TERA 10» www.cea.fr 3
Le programme Simulation et le calcul numérique haute performance La capacité de dissuasion nucléaire de la France repose aujourd hui sur le programme Simulation de la Direction des applications militaires du CEA. En 1996, lorsque le Président de la République a décidé l arrêt définitif des essais nucléaires, le CEA/DAM a été chargé de mettre en place un programme destiné à garantir la sûreté et la fiabilité des armes de la dissuasion, fondé sur le calcul. Financé par la Défense, ce programme s étend sur une période de 15 ans qui court jusqu en 2010. Le programme Simulation permet de répondre à deux impératifs : être capable de remplacer les systèmes d armes actuels, lorsqu ils arriveront à la fin de leur durée de vie ; conserver une capacité scientifique au meilleur niveau pour garantir la fiabilité et la sûreté des systèmes actuels et de ceux qui les remplaceront. Ce programme s articule autour de trois volets : la modélisation des phénomènes physiques, la simulation numérique et la validation des calculs par des expériences de laboratoire (menées par exemple sur Airix *** ou le LMJ) et par la restitution des essais passés. La première étape a consisté à lister l ensemble des phénomènes physiques impliqués dans le fonctionnement d une arme nucléaire, à étudier la façon dont ils s enchaînent et se couplent et à dresser l inventaire des équations mathématiques susceptibles de les représenter. Ces équations sont celles régissant la mécanique des fluides (équations de Navier - Stokes), le transport des neutrons (équations de Boltzmann) ou encore l évolution de la population des photons ou d ions (équations de diffusion et de transport). Une fois le système d équations établi, trois difficultés doivent être surmontées : déterminer les bonnes «lois de comportement» de la matière (équations d état, sections efficaces neutroniques, coefficients de transport ) dans les domaines pertinents vis-à-vis du fonctionnement des armes ; résoudre le système d équations ; valider ces modèles à l aide des résultats des essais nucléaires passés et d expériences nouvelles pour constituer un standard de calcul (ou le simulateur des armes). La «mise en équations» des phénomènes physico-chimiques conduit à devoir résoudre de très grands systèmes d équations couplées et non linéaires. Personne ne sait expliciter la solution de tels systèmes, si bien qu on a recours à l analyse numérique pour en déduire une suite de très grands systèmes linéaires que l on pourra résoudre avec des supercalculateurs. *** Les deux outils expérimentaux majeurs du programme Simulation sont : la machine radiographique Airix - Accélérateur à induction de radiographie pour imagerie X et le LMJ laser mégajoule. Dossier de presse CEA «Le supercalculateur TERA 10» www.cea.fr 4
Le principe consiste à découper l ensemble du domaine de calcul, en un très grand nombre de petites zones, les «mailles». Sur chacune de ces mailles, les numériciens remplacent les équations que l on ne sait pas résoudre par des équations approchées, «digestes» pour les ordinateurs. Toute la puissance de l analyse numérique réside dans la capacité à prouver que la solution approchée, ainsi obtenue grâce à l ordinateur, «converge», c est-à-dire se rapproche suffisamment de la solution exacte du problème réel. Et l on s en approche d autant mieux que l on utilise un plus grand nombre de mailles. A titre d exemple, simuler l état d un système nécessite de mettre en œuvre des dizaines, voire des centaines de millions de mailles et les systèmes associés peuvent intégrer alors des milliards d inconnues. Cette approche exige de très grandes puissances de calcul qui ont conduit à la mise en place du projet Tera dont l objectif est de fournir, à l issue du programme en 2010, une puissance de 100 téraflops utiles, soit 10 000 fois celle dont le CEA/DAM disposait en 1996. La simulation est devenue un outil fondamental pour les ingénieurs et les chercheurs. Dans tous les secteurs de l industrie et de la recherche, elle est aujourd hui le moyen de conception par excellence pour les premiers et le moyen d investiguer et de maîtriser ce que l on ne peut pas ou l on ne peut plus expérimenter pour les autres. Dossier de presse CEA «Le supercalculateur TERA 10» www.cea.fr 5
Le projet Simulation Numérique Le projet Simulation Numérique est, à côté du projet Airix et du projet Laser Mégajoule, l élément central du programme Simulation dont l objectif est de garantir sans essai la sûreté et la fiabilité des armes de la dissuasion. Il s articule en trois parties : Réaliser un simulateur du fonctionnement des armes ; Mettre en place les moyens informatiques nécessaires au simulateur ; Assurer la crédibilité de la démarche simulation numérique et gérer le risque de ne pouvoir disposer des moyens informatiques nécessaires. Ce dernier point est l un des objectifs de Teratec. Réaliser un simulateur des armes Cela consiste à développer des codes de calcul à partir de modèles, mis au point par les équipes de physiciens, et de données physiques de base. La spécificité du simulateur est de rassembler des physiques différentes : hydrodynamique, neutronique, transfert radiatif chaque modèle physique implique un traitement mathématique spécifique pouvant imposer des représentations différentes de l objet à traiter. Le résultat est une très grande complexité du système. Le développement du simulateur nécessite en conséquence une très grande rigueur en architecture logicielle et surtout un environnement logiciel unique : interface homme-machine, base de données, stockage des résultats et visualisation. Une centaine d ingénieurs, spécialistes en analyse numérique, architecture logicielle, développement du code et de son environnement (interface homme-machine, visualisation, base de données), travaillent sur le simulateur depuis près de 10 ans. Ils écrivent des millions de lignes de codes, à partir des «modèles» établis par autant de physiciens. Les résultats sortis du simulateur sont en permanence comparés aux résultats des expériences passées et des expériences partielles en cours (sur Airix ou le LMJ) par les physiciens concepteurs en charge de la validation. Ce travail se poursuit en permanence par l introduction de modèles de plus en plus sophistiqués. Une telle approche nécessite des moyens informatiques considérables : D abord une puissance de calcul, dimensionnée pour autoriser un retour d expérience virtuelle en quelques semaines, qui a été évaluée, en fonction des besoins spécifiques de la DAM entre 1998 et 2010, à 1 téraflops utile en 2002, 10 en 2006 et 100 en 2010. Ensuite des moyens de stockage considérables : chaque simulation sur Tera- 10 produit une quantité de données équivalente à l ensemble des données stockées dans la Très Grande Bibliothèque (30 Téra-caractères). Le système de stockage a donc été dimensionné, pour son premier niveau accessible à tout instant, à plus de 5 Pétaoctets (5 000 Tera). Cela correspond environ à un an de production de la machine. Un deuxième niveau dit d archivage Dossier de presse CEA «Le supercalculateur TERA 10» www.cea.fr 6
permet de conserver les données pendant tout le cycle de vie d une arme (quelques dizaines d années). Enfin les moyens de visualisation permettant aux équipes de concepteurs d analyser et visualiser cette énorme quantité de données. L élément essentiel en est un mur d image. Le mur, associé à Tera-10 avec sa définition de plus de 14 millions de pixels, et de sa visualisation en relief, permet une représentation optimale de l objet. Sa taille, 5m x 3m, et sa technologie, la rétro- projection autorise le travail en groupe en plein jour. La mise en place de ces moyens en trois phases est l objet du projet Tera. Nous sommes actuellement en cours de réalisation de la deuxième phase : Tera-10 L architecture des machines Tera est un cluster de SMP (Symetric Multi Processing) L objectif est de mettre en place en 2001, 2005, 2009 une puissance de 1, 10, 100 téraflops utiles soit 100, 1 000, 10 000 fois la puissance dont nous disposions en 1998, avec le supercalculateur Cray T90 à 24 processeurs. Pour chacune de ces étapes, la loi de Moore (doublement de la puissance tous les 18 mois à coût constant) prévoit une augmentation d un facteur 6, 40, 250. Notre exigence est donc 16, 25, 40 fois supérieure impliquant l utilisation au minimum de 400, 600, 1 000 processeurs. La seule solution technique possible est l utilisation du parallélisme. Mais cela pose trois problèmes : Un problème technique : l utilisation de N processeurs ne permet pas de récupérer N fois la puissance d un processeur mais une puissance inférieure. Qui plus est, plus le nombre N de processeurs augmente plus ce phénomène s accentue. C est ce qu on appelle la «scalabilité». Ce problème peut être résolu par l utilisation de réseau d interconnexion non seulement à très haut débit mais surtout à très faible latence (le temps qu il faut à un processeur pour communiquer avec le plus éloigné). Le problème a été résolu dès 2001 par la société anglo-italienne Quadrics qui équipe une grande partie des ordinateurs du Top10 *. Un problème économique : même en supposant la «scalabilité» excellente, il n est pas envisageable de mettre en parallèle plusieurs machines Cray T90 (le plus puissant ordinateur du monde dont nous disposions en 1998) en raison du coût déjà très élevé de ces machines. Cette nécessité d abaisser très fortement le coût du processeur élémentaire conduit à l abandon des processeurs spécifiques et spécialisés, comme le Cray vectoriel, pour des processeurs standards (les Cots, «Component Off The Shelf» composants sur étagère), peut-être moins performants, mais près de 100 fois moins chers parce que fabriqués en très grande série pour le marché. * Tous les 6 mois depuis 1993, les performances des ordinateurs hautes performances sont comparées au moyen d un logiciel de référence permettant leur classement dans un Top 500 des supercalculateurs. La 26 ème liste du Top 500 a été publiée lors de la conférence internationale 2005 (SC2005), à Seattle. Dossier de presse CEA «Le supercalculateur TERA 10» www.cea.fr 7
Un problème conceptuel : la maîtrise de la complexité d une machine comportant des milliers de processeurs interconnectés. Cela impose d une part une fiabilité très importante des matériels mais aussi le développement de logiciels d exploitation permettant de tenir compte de la probabilité de panne, même très faible, des éléments de base de la machine. Cette maîtrise est obtenue en mettant en parallèle, non plus des milliers de processeurs élémentaires, mais un nombre raisonnable d ordinateurs multiprocesseurs (quelques centaines). Cette approche à deux niveaux permet non seulement de réduire fortement la complexité du système vu par l exploitant mais aussi de mutualiser les coûts de développement de ces ordinateurs multiprocesseurs avec ceux des serveurs développés pour les besoins du traitement de données ou de la gestion. La solution de ces problèmes a conduit dès 1998 au choix d une architecture de machine parallèle à deux niveaux basée sur des processeurs standards du commerce et un réseau à très hautes performances. Cette architecture baptisée Cluster de SMP a de plus l avantage d être adaptée au traitement d une large variété de problèmes, en particulier ceux, pas forcément parallèles, qui nécessitent un accès à une mémoire très importante. Le CEA/DAM a fait ce choix en 1998. Il a impliqué une réécriture complète des codes car il impose une architecture logicielle nouvelle. L architecture Cluster de SMP est la spécification première de tous nos appels d offre. La machine Tera-10 Tera-10, deuxième étape du projet Tera est le résultat d un appel d offre fixant la puissance utile à 10 téraflops, prenant en compte les choix précédents : architecture Cluster de SMP et tirant la leçon du retour d expérience de Tera-1. Cette dernière directive visait spécifiquement le système d entrée/sortie et a été prise en compte par la maîtrise d œuvre sous la forme de critères techniques environ 30 fois supérieurs à ceux imposés pour Tera-1. La plupart des grands constructeurs d ordinateurs ont répondu et quatre d entre eux ont été jusqu au bout de la procédure complexe d appel d offre sur performance. Le marché a été attribué à Bull qui a fait la meilleure offre avec les meilleures performances globales. Tera-10 est une première réponse aux besoins exprimés par l ensemble de la communauté scientifique en matière de calcul haute performance. Le calcul haute performance est une approche incontournable pour l ensemble des disciplines scientifiques. Mais Tera-10 est aussi un élément d une opération plus vaste du CEA ayant pour objectif de partager avec la communauté scientifique et l industrie les retombées du programme Simulation : Teratec. Teratec est un pôle européen de compétence en simulation numérique hautes performances en Ile-de-France. Cette association créée en août 2005 regroupe autour du complexe de calcul scientifique du CEA de Dossier de presse CEA «Le supercalculateur TERA 10» www.cea.fr 8
grands industriels comme EDF, Snecma, Dassault, Bull et bien d autres à côté de grands laboratoires comme ceux de l Ecole Normale Supérieure, de l école Centrale et de l université de Versailles, et va se doter en 2006 d une puissance équivalente à celle de Tera-10. Le CEA profite ainsi au maximum des synergies Recherche, Industrie, Défense pour placer la France au plus haut niveau en matière de calcul haute performance et d informatique de puissance. Dossier de presse CEA «Le supercalculateur TERA 10» www.cea.fr 9
Introduction à la visite du complexe de calcul Outil exceptionnel au service des concepteurs, physiciens et chercheurs du CEA/DAM, un supercalculateur tel que Tera-10 produit une énorme quantité de résultats qu'il faut stocker, transporter et permettre aux utilisateurs d'explorer et d'analyser sous forme graphique. Ainsi, le centre de calcul comprend, outre Tera-10, un système de stockage de données installé par la société Bull, des réseaux informatiques à très haut débit et un ensemble d'équipements de visualisation incluant des dispositifs de calcul d'images connectés à des dispositifs de visualisation situés à proximité des utilisateurs. L'ensemble de ces équipements sont installés dans un bâtiment souterrain comprenant à la fois les salles machines et les infrastructures permettant d'alimenter et de refroidir ceux-ci. Les simulations effectuées sur Tera-10 sont essentiellement des simulations de phénomènes instationnaires, c'est à dire de phénomènes qui évoluent dans le temps. Ainsi, pendant une simulation qui peut durer plusieurs milliers d'heures et utiliser simultanément plusieurs milliers de processeurs, ce sont plusieurs milliers de "photographies" de la simulation qui sont enregistrées en vue d'analyse. Ces "photographies" enregistrent non seulement la position et la géométrie des objets simulés (comme dans une "vraie" photographie") mais des centaines de paramètres pour chaque élément de simulation. Outre ces données, les logiciels de simulation produisent régulièrement des sauvegardes de leur état afin de pouvoir relancer le calcul en cas d'incident, sans avoir besoin de le reprendre depuis le début. On estime que Tera-10 devrait produire entre 10 et 30 To * de données par jour. Fonctionnement du centre de calcul * 1 To = 1.000 Go Dossier de presse CEA «Le supercalculateur TERA 10» www.cea.fr 10
Les principaux équipements informatiques installés dans le centre de calcul autour de Tera-10 Ces données sont conservées temporairement sur l'espace disque d'une capacité de 1 Pétaoctets * de Tera-10. Cet espace disque a été dimensionné pour permettre de disposer directement sur Tera-10 de toutes les données nécessaires aux études en cours. Les données qui ne sont pas utiles à un moment donné sont transférées automatiquement vers le premier niveau du système de stockage de données. Ce niveau composé de près de 10 000 disques, proches de ceux utilisés dans les PC domestiques, offre une capacité de plus de 4 Pétaoctets et permet de stocker un volume de données équivalent à 6 mois de production de Tera-10. Un système automatique de déplacement de données permet ainsi de conserver sur disque les données produites ou utilisées depuis moins de 6 mois. Les données de plus de 6 mois sont envoyées par ce système sur des robots contenant des bandes magnétiques de grande capacité où les données sont conservées tant qu'elles sont utiles. Au même titre que sur Tera-10, le parallélisme, c'est à dire l'utilisation simultanée de processeurs, permet d'obtenir une puissance de calcul multipliée par rapport à celle possible sur un seul processeur, les disques, tant sur Tera-10 que sur le système de stockage, sont organisés en groupes de disques. Ainsi, en lisant ou en écrivant simultanément sur plusieurs disques on obtient un débit bien supérieur à celui possible sur un seul disque. Par exemple, un logiciel de simulation peut lire ou écrire des données à une vitesse pouvant atteindre 100 Go par seconde sur Tera-10 alors qu'un disque ne dépasse par 40 Mo par seconde. En outre, l'utilisation de disques redondants permet de rendre l'espace disque tolérant aux pannes. Caractéristiques des principaux équipements du centre de calcul Les utilisateurs lancent les simulations sur Tera-10 à partir de leurs bureaux, et grâce à des postes de travail équipés de cartes graphiques haut de gamme peuvent également y travailler à l'exploration et l'analyse de résultats de simulations courantes. Ces moyens sont insuffisants quand il s'agit de travailler sur de très * 1 Po = 1.000 To = 1.000.000 Go Dossier de presse CEA «Le supercalculateur TERA 10» www.cea.fr 11
grands volumes de données et/ou quand il s'agit de travailler en groupe pour confronter les avis sur une ou plusieurs simulations. Pour répondre à ces besoins, deux types d'équipements sont mis en place. D'une part un supercalculateur graphique capable d'utiliser en parallèle la puissance de cartes graphiques haut de gamme pour calculer des images qui peuvent ensuite être affichées sur un poste de travail, d'autre part des systèmes de visualisation de grande taille (dont un mur d'image) permettant de travailler en équipe sur des images haute résolution produites par un supercalculateur graphique. Enfin, tous les équipements installés dans le centre de calcul sont reliés par un réseau à haut débit utilisant la technologie InfiniBand qui autorise, sur des fibres optiques, un débit de 8 Gbits/seconde par lien. L'utilisation simultanée de plusieurs liens InfiniBand permet d'obtenir les débits nécessaires. Le bâtiment et les infrastructures Tera Les très grands ordinateurs tels que Tera-10 et les équipements informatiques associés nécessitent des salles machines de très grande taille spécialement conçues pour les accueillir et des infrastructures (alimentation électrique, refroidissement) adaptées. Le bâtiment et les infrastructures Tera Dans le cas de Tera-10, la surface totale des salles machines dépasse 2 000 m2. Ces salles machines ont été conçues pour recevoir des systèmes pouvant consommer jusqu'à 5 MW afin de pouvoir installer en 2009 le successeur de Tera- 10. Pour cela, l'architecture des salles machines a été prévue pour pouvoir installer 5 MW de meubles de climatisation, un faux plancher de 1,2 m permet d'assurer à la fois la distribution de l'air froid et l'installation des câbles informatiques et d'alimentation (90 km pour Tera-10). L'alimentation électrique de Tera-10 (1,8 MW) est sécurisée par des onduleurs permettant de disposer d'une autonomie de 10 mn en cas de coupure de courant EDF. L'intérêt de ce dispositif est de ne pas avoir d'arrêt brutal des équipements informatiques dans le cas, le plus fréquent, de coupures ne dépassant pas quelques minutes. En effet, un arrêt brutal, outre son effet préjudiciable sur la fiabilité des Dossier de presse CEA «Le supercalculateur TERA 10» www.cea.fr 12
équipements informatiques, peut provoquer une perte de production de quelques heures, durée nécessaire à un redémarrage complet après un arrêt brutal. On peut signaler que la consommation totale du centre de calcul qui dépasse 3 MW a nécessité un renforcement des alimentations EDF du centre. En ce qui concerne le refroidissement, une centrale de production d'eau froide d'une capacité de 5 MW alimente une double boucle d'eau qui dessert l'ensemble des meubles de climatisation du centre de calcul. Ces meubles de climatisation contiennent des échangeurs eau-air et produisent de l'air froid qui est envoyé par des ventilateurs dans les salles machines. Afin de maintenir le refroidissement des équipements en cas de coupure EDF, deux réservoirs sont en permanences remplis d'eau froide, leur capacité permet de refroidir les équipements informatiques pendant les 10 mn d'autonomie des onduleurs, les groupes froids consommant trop pour pouvoir être alimentés par onduleur. Batteries permettant d'assurer une protection contre les pannes de courant Groupe froid de 2 MW Tour aéroréfrigérante associée au nouveau groupe froid Dossier de presse CEA «Le supercalculateur TERA 10» www.cea.fr 13
Le centre DAM Île de France Le centre DAM Île de France est implanté sur deux sites, en Essonne sur les communes de Bruyères-le-Châtel et d'ollainville, et dans la Marne à Moronvilliers près de Reims. C est l un des quatre centres de la Direction des applications militaires du CEA. Trois grandes missions mobilisent ses 2000 ingénieurs, chercheurs et techniciens : - La conception et la garantie des armes nucléaires, en s appuyant sur le programme Simulation. L enjeu consiste à reproduire par le calcul les différentes phases du fonctionnement d une arme nucléaire, en faisant appel à la physique de base, à la modélisation numérique et à d importants moyens en informatique scientifique. Les logiciels ainsi développés sont validés par des résultats expérimentaux, obtenus essentiellement grâce à la machine radiographique Airix, aux lasers de puissance et aux accélérateurs de particules ; - La lutte contre la prolifération et le terrorisme. Le centre DAM Île de France contribue au programme de garantie du Traité de non prolifération (TNP), notamment avec des laboratoires d analyses accrédités, des moyens de mesures mobiles et des experts internationaux. Il assure l expertise technique française pour la mise en œuvre du Traité d interdiction complète des essais nucléaires (Tice). - L expertise dans deux grands domaines : la maîtrise d œuvre et l assistance à maîtrise d ouvrage pour la construction et le démantèlement d ouvrages complexes ; la surveillance de l environnement et les sciences de la Terre. Le centre a notamment une mission d alerte des autorités civiles en cas de fort séisme. Leader dans le domaine de la simulation et du calcul intensif, le CEA DAM Île de France a créé Teratec, un pôle européen de compétence en Simulation numérique haute performance. Teratec permet de rapprocher tous les acteurs de la simulation : la recherche, l industrie et les entreprises informatiques. Il leur offre un ensemble complet de compétences et de moyens, et notamment l accès à un complexe de calcul d une puissance inégalée. La synergie créée au sein de Teratec contribuera au développement et à l essor de la Simulation numérique haute performance, outil essentiel de la compétitivité des entreprises. Teratec fait partie intégrante du pôle de compétitivité de la région Île-de-France, System@tic, consacré aux logiciels et systèmes complexes. Par son implication dans ces projets d envergure européenne et mondiale, le CEA DAM Île de France participe au développement de l activité économique régionale, en particulier du bassin de l Arpajonnais, et contribue au rayonnement mondial de la France dans le domaine du calcul intensif. Dossier de presse CEA «Le supercalculateur TERA 10» www.cea.fr 14