Parallélisme S. Vialle Panorama des Architectures parallèles

Dimension: px
Commencer à balayer dès la page:

Download "Parallélisme S. Vialle Panorama des Architectures parallèles"

Transcription

1 Parallélisme S. Vialle Panorama des Architectures parallèles 1 Vue d ensemble 2 Architectures DataFlow et Systolique 3 Architectures Vectorielles 4 Architectures SIMD 5 Architectures MIMD 6 Clusters - Grappes 7 Systèmes d archivage 8 Sources d information permanente 9 Bilan matériel du Top L ordinateur quantique?! Panorama des Architectures parallèles 1 - Vue d ensemble Divers types d Divers besoins des applications Evolution des critères de classification Architectures parallèles Divers types d DataFlow Systolique SIMD Vectoriel MIMD Cluster 1992/93 ShM DiM MIMD PC Shm DiM DSM Grilles Machines dédiées / Cartes filles Fujitsu Nec Cray? HP, SUN, IBM, SGI HP SUN IBM SGI?? HP, Fujitsu Asmbl. 1

2 Architectures parallèles Divers besoins des applications (Flexibilité des configurations - SGI) Mécanique des Fluides CPU Supercalculateur traditionnel Traitement signal Serveurs Web Serveur de stockage Stockage I/O Media streaming Architectures parallèles Evolution des critères de classification Classification de FLYN : simpliste, mais claire 4 classes d architectures Flot d instructions : Simple Multiple Machines séquentielles Flot de données : Simple Multiple SISD SIMD MISD MIMD Machines parallèles actuelles Architectures parallèles Evolution des critères de classification 1988 Taxonomie de Skilicorn : Plus précise que celle de Flyn Basée sur l architecture : Nbr de mémoires de données Nbr de mémoires d instructions Nbr de processeurs de données Nbr de décodeurs d instructions Liens entre ces entités Machine séquentielle (Von neuman) 2

3 Architectures parallèles Evolution des critères de classification 1988 Taxonomie de Skilicorn : Machine MIMD faiblement couplée (mémoire distribuée) Machine MIMD fortement couplée (mémoire partagée) Architectures parallèles Evolution des critères de classification 1988 Taxonomie de Skilicorn : 28 taxons différents Architectures parallèles Evolution des critères de classification 1990 Classificaton de Dasgupta : encore basée sur l architecture, et au delà de Skilicorn im : interleaved memory sm : simple memory C : cache si : simple instruction preparation unit pi : pipelined instruction preparation unit sx : simple processor px : pipelined processor 3

4 Architectures parallèles Evolution des critères de classification 1990 Classificaton de Dasgupta : On peut adopter une représentation inspirée de la chimie! CM2 Connection Machine 2 : (im.c.pi )(sm.sx) 64k Architectures parallèles Evolution des critères de classification 1990 Classification de Duncan : basée sur des concepts d architecture moins détaillés différentes de celle de Flyn : Synchrone MIMD SIMD Architectures parallèles Evolution des critères de classification 1991 Classification Object Based : Basée sur des concepts d OS, supportés par l architecture. On s intéresse aux fonctionnalités supportées. 4

5 Architectures parallèles Evolution des critères de classification 1994 Classification de Kuhunen (EPFL) : Basée sur les fonctionnalités offertes au programmeur. Exécution sérielle ou parallèle : SE / PE? Programmation sérielle ou parallèle : SI / PI? Espace d adressage simple ou multiple : SA / MA? Machine MIMD à mémoire partagée Machine MIMD à mémoire distribuée Machine séquentielle Architectures parallèles Evolution des critères de classification Point de vue du concepteur Point de vue de l utilisateur 1972 : architecture (Flyn) 1988 : architecture, détaillée, suit Flyn (Skilicorn) 1990 : architecture, très détaillée, suit Flyn (Dasgupta) 1990 : architecture, moins détaillée, s éloigne de Flyn 1991 : fonctionnalités d OS supportées (Duncan) 1994 : Fonctionnalités offertes au programmeur (Kuhunen) «Les machines gagnantes seront celles que l on saura programmer!» (Daniel Etiemble) «Est-ce que cette machine supporte MPI? OpenMP?» (2000) Architectures parallèles Evolution des critères de classification Classification du Cray-T3D??? : Mémoire distribuée RAM Proc. RAM Proc. RAM Proc. Mémoire partagée NUMA RAM Proc. RAM Proc. RAM Proc. Partage de mémoire Envoi de messages Programmation par accès mémoire distants (shmem) Programmation par envoi de messages (MPI) Quelle classification adopter? on prend le point de vue de l utilisateur : machine MPI et Shmem!! 5

6 Panorama des Architectures parallèles 2 - Architectures DataFlow et Systolique Tendance des architectures systoliques Exemples d architectures spécialisées Architectures parallèles Tendance des architectures systoliques Architectures dédiées à des algorithmes Tendance actuelle : faire des cartes filles (ou machines filles) interfacées à des machines standards ex : projet SAMBA de l IRISA ( ) Architectures parallèles Tendance des architectures systoliques Concevoir et réaliser une architecture. peut être long!! perf Début de conception t Perf archis concurrentes!!! Perf archi systolique Fin de réalisation années Automatiser la conception de l architecture à partir de l algorithme Réduire les temps de conception et de réalisation (diminuer t) 6

7 Architectures parallèles Exemples d architectures spécialisées GeneMatcher2 System A Supercomputer for Sequence Similarity Analysis A fully configured GeneMatcher2 contains more than 27,000 procs. A longer pipeline means greater throughput University of California at Santa Cruz Kestrel Parallel Processor PE The 512-processor single-board system accelerates computational biology, computational chemistry, and other algorithms by factors of 20 to PE Architectures parallèles Exemples d architectures spécialisées Panorama des 3 - Architectures Vectorielles Ancienne gamme CRAY Nouvelle gamme CRAY Ancienne gamme Fujitsu Nouvelle gamme Fujitsu Tendance générales Earth Simulation Supercomputer 7

8 Anciens Cray vectoriels Cray-1, Mflops Cray-2, gigaflops Cray-YMP, 1988 Cray-T90, 60 gigaflops Cray-J90 Cray-C90, gigaflops Nouveaux Cray vectoriels Cray-SGI NEC (SX) Cray-T90, 60 gigaflops Cray-SV1 1 teraflop Vector MPP Cray-Tera Cray-Tera Cray-X Tflops Cray-SV2 (à venir) Cray-SX-6 Le Cray-T90 : la fin d une lignée Une gamme évolutive, tout en technologie ECL. : Référence exacte Nombre de processeurs Mode de refroidissement T94 4 Air ou liquide T916 T Liquide Liquide Configuration maximale : T processeurs, 60 gigaflops crête, Machine : 5.2m 3, refroidisseur : 2.4m 3 1 M$ / processeur (+/- 20%) 8

9 Le Cray-T90 : la fin d une lignée Chaque carte CPU : 22 couches 8 couches d alims. 22 couches Une horloge routée optiquement entre les cartes élec optique Mémoire : deux modules de secours : dépannage sans démontage! tout en SRAM (rapide et cher)! mémoire totalement partagée (SMP) IO rapides par GigaRing (Cray) : 1200 Mo/s crête élec Puissant, mais : trop cher, trop gros, trop consommateur!!! Le Cray-SV1 : fortes innovations Technologie CMOS , Cray-SGI Mémoire DRAM et mémoire cache avant les pipelines vectoriels CMOS-vectoriel Cache DRAM Cluster de machines Vectorielles-SMP : 32 nœuds max Un nœud : 32 processeurs max Sh. RAM Sh. RAM Cluster communication network Sh. RAM Le Cray-SV1 : fortes innovations Deux types de processeurs : vectoriels classiques : calculs légers, IO, OS MSP : ensemble de 4 procs vectoriels : calculs lourds 1 nœud = 32 PE max : 6 MSP + 8 std 4 MSP + 16 std 0 MSP + 32 std Hardware reconfigurable! SV1 : 1024 procs max 1 teraflops crête perf/prix(sv1) = 8 x perf/prix(t90) Mais : cluster de SMP : mémoire non uniforme 9

10 Evolution du rapport perf/prix des machines Cray vectorielles rapport Perf / Prix ,6 0 J90 T90 SV1 Le passage de l ECL au CMOS améliore considérablement le rapport Perf/Prix Le Cray-X1 Scalable Vector MPP Armoires Noeuds Processeurs GFlops 52.4TFlops Clock Speed : 800MHz (seulement!) R DRAM Cache Coherence : DSM Forte innovation sur la RAM : - Rapide (Bw proc-ram) - DSM sur processeurs vectoriels - Accès rapide depuis tous les procs Nouveaux processeurs très performants (Gflops) Objectifs : Nouvelle lignée Péta-Flop en 2010 A suivre Nouveaux objectifs de Cray 10

11 La gamme VPP de Fujitsu Une gamme née en 1996, autour du même processeur vectoriel: VX VPP300 VPP700 Vector MPP Modèle VX VPP300 VPP700 Processeurs 1~4 1~16 8~256 Mémoire (Go) 2~8 2~32 16~512 Puissance crête (Gflops) 2.4~ ~ ~614.4 La gamme VPP de Fujitsu Détails du VPP700 : 256 procs gigaflops crête Processeur : en technologie CMOS, depuis PE : 1 unité vectorielle + 1 unité scalaire Mémoire : SDRAM distribuée (RAM sur chaque carte mère) PE interconnectés par réseau très rapide : mémoire globale virtuelle IO : depuis certains PE, ex : 24 PE d IO sur les 256 d un VPP700 La série VPP5000 de Fujitsu Super-calculateur Vectoriel et Parallèle VPP5000 (1999) : Modèle VPP5000 VPP5000/U Processeurs 2 à Mémoire (Go) 8 à à 16 Puissance crête (Gflops) 19,2 à ,6 Nouveau proc. Nouvelle carte mère Passe le teraflops avec 128 processeurs processeurs les plus puissants? (10 gigaflops/proc) Grandes puissances vectorielle et scalaire 11

12 Tendances des machines vectorielles Des machines au delà du teraflop en puissance crête et config maximale Des machines au delà du teraoctet de RAM Des machines en CMOS et DRAM ou SDRAM Lignées japonaises : équilibrées en capacités scalaires et vectorielles processeurs les plus puissants des gammes suivies Lignées américaines : plus originales plus de capacités vectorielles que scalaires cluster de SMP Cray SGI Tera partenariat avec NEC CRAY Earth Simulation Supercomputer Machine Vectorielle NEC : replace le vectoriel en tête du Top nœuds de 8 processeurs : 5120 processeurs 40 Tflops crête, a atteint les 35 Tflops en juin 2002 Vector MPP Earth Simulation Supercomputer Architecture : 640 nœuds de 8 processeurs (ShM) connectés par réseau rapide Cluster de ShM vectorielles 5120 processeurs vectoriels, 40 Tflops crête Total Main memory: 10 Tera bytes Processeurs : Module RAM : Fabricant : NEC Utilisateur : Japon Exploitation : Construit pour UNE application précise (simulation) 35 Tflops atteint : 87.5 % de la puissance crête atteinte! 12

13 Earth Simulation Supercomputer Développée en 5 ans, devrait rester numéro 1 pendant (?) ans. Le Earth Simulator inquiète les USA Panorama des 4 - Architectures SIMD Principes des architectures SIMD Problème des architectures MIMD Connection machines et Maspar 13

14 Principes des architectures SIMD Principes : Un décodeur d instruction Des milliers de processeurs sans décodeurs d instructions : sorte d UAL avec une mémoire mocale Un solide réseau d interconnexion Un processeur fait la même chose que les autres ou rien. Décodeur d instruction Frontal données Réseau de PEs Problème des architectures SIMD Très efficace pour certains pb à grain fin (ex : certains traitements d images) Demande des processeurs spécifiques : PAS ceux du marché dépassés par l évolution constante des PE du marché et par les machines parallèles MIMD qui les utilisent Perf MIMD SIMD Pour le même prix : mieux vaut investir dans une machine MIMD Connection Machines Thinking Machines Corporation W. Daniel Hillis CM-2 General Specifications Processors (64K) Memory 512 MB Memory Bw 300Gbits/Sec Connection-Machine I/O Channels 8 Capacity per Channel 40 MB/Sec Max. Transfer Rate 320 MB/Sec DataVault Specifications Storage Capacity 5 or 10 GB I/O Interfaces 2 Transfer Rate, Burst 40 MB/Sec Max. Aggregate Rate 320 MB/Sec 14

15 3 MASPAR MasPar was formed in 1988 by a DEC Vice-President, and the company retains an association with DEC MP1 MP2 fin! (1994) : Fin des archis SIMD généralistes processeurs (16 Kprocs) maxi Array Control Unit Data Parallel Unit MasPar front-end Panorama des 5 - Architectures MIMD Types d MIMD Quelques grandes étapes Panorama des offres actuelles MIMD Architectures parallèles Divers types d architectures MIMD Shared-memory MIMD machines : Un principe Plusieurs techniques Overview of Recent Supercomputers Aad J. van der Steen Jack J. Dongarra 15

16 Architectures parallèles Divers types d architectures MIMD Distributed-memory MIMD machines : Mem Mem Mem Hypercubes proc proc proc network Fat trees Un principe Plusieurs techniques Autres Architectures parallèles Divers types d architectures MIMD Hybrid architectures : Un principe Plusieurs techniques S-COMA (théoriques) ou ccnuma (commercialisées) Overview of Recent Supercomputers Aad J. van der Steen Jack J. Dongarra Panorama des 5 - Architectures MIMD Types d MIMD Quelques grandes étapes Panorama des offres actuelles MIMD 16

17 Architectures parallèles : Cosmic-Cube Première machine parallèle MIMD à mémoire distribuée Construite spécialement pour le calcul parallèle Cadre du projet : Origine : Collaboration informaticiens-physiciens But final : Une application de calcul intensif TRES régulière Conçue et réalisée à CALTECH ( ), avec l aide d INTEL Hardware : Processeurs : 64 x ( ) 3 Mflops crête Mémoire : 128 Ko/Proc Réseau de communication Hypercubique (2 6 nœuds dimension 6) Liens à 2 Mbits/s Dim 1 Dim 2 Dim 3 Dim 4 Architectures parallèles : Cosmic-Cube Interface frontale 8 blocs de 8 carte mères (64 processeurs) Ventilateurs Architectures parallèles : Cosmic-Cube Communications : Routage automatique des messages jusqu au processeur destinataire (routage logiciel) Routage implanté : Store & Forward, à chemin statique Étape 1 : Une copie Étape 2 : Une copie intermédiaire finale complète : complète : t s +Q/B w t s +Q/B w Temps total à distance d : d.(t s +Q/B w ) Autre routage étudié : Wormhole, à chemin dynamique Étape 1 Étape 2 Étape 3 Étape 4 Étape 5 Temps total à distance d : d.t s + Q/B w 17

18 Architectures parallèles : Cosmic-Cube Programmation : Multiprocessus possible sur chaque PE Envois de messages Send et Recv non bloquant (!) L envoi de msgs apparaît plus difficile que le partage de mémoire Coût du prototype : 80000$ (64 x en ) Performances sur calculs localisés et réguliers : Efficacité moyenne : 85% Meilleure efficacité : 97% Mise en évidence de l influence des temps de communications Architectures parallèles : Cosmic-Cube Bilan du projet Comic-Cube : Première machine MIMD à mémoire distribuée Premiers algorithmes de parallélisation en hyper-cube Succès pour les calculs localisés et réguliers Mise en évidence de la difficulté de l envoi de messages Mise en évidence du besoin de routages rapides Suites commerciales : Intel-iPSC : x Mbit/s par lien 512 Ko/proc Intel-iPSC/860 : x i Mbit/s par lien 128 proc 2.6 Gflops obtenus 5.1 Gflops crêtes 1 téraflop crête en 1991!!! : CM5 Une tentative de passage du SIMD au MIMD : Milliers de processeur RISC & Vectoriels, Réseau en Fat-Tree Thinking-Machine : : CM1 & CM2, SIMD : CM5, MIMD & vectoriel CM5 : RISC : sparc PE unités vectorielles Mémoire distribuée : 32Mo/PE Réseaux arborescents Multi-user & multi-appli 18

19 : CM5 Architecture d un PE de la CM5 : 1 processeur RISC et 4 unités vectorielles Accès à deux réseaux de communication Data net Control net RISC (sparc) Unité vectorielle Unité vectorielle Unité vectorielle Unité vectorielle Data net interface Control net interface RAM 32 Mo Bus 64 bit : CM5 3 réseaux de communications arborescents Réseau de données : Destiné aux communications point à point Fat-Tree : les branches les plus hautes ont plus de capacités de com, évite les engorgements des arbres classiques 20 Mo/s crête par lien : permutation aléatoire : 4 Mo/s / PE communication très locales : 15 Mo/s / PE Réseau de contrôle : Destiné au synchronisations et communications multi-points Broadcast possible depuis 1 PE à la fois Arbre binaire Réseau de diagnostic : Destiné à la détection parallèle et à l isolement des pannes Arbre binaire : CM5 - Fat Trees Fat-Tree (MIT ) : Principe : P â fl Nb liens â et (Nb liens / PE) â Crossbar : capacité de com maximale, mais trop difficile à réaliser Hyper-Cube : compromis, mais capacité de com. sous-exploité Binary Fat-Tree : autre compromis, moins de capacité - plus simple à réaliser Protocole de communication de la CM5 : Pour un nœud : entrées > sorties pertes de messages! Pertes de messages & ack. Ré-émission au cycle suivant si perte 19

20 : CM5 - Fat Trees Binary Fat-Tree d ordre 4 de la CM5 : : CM5 Programmation de la CM5 : Langages de programmation Data-Parallel Envois de messages Mélange original. Bilan : Machine très innovante Mais performances décevantes Capacités de communications insuffisantes Binary Fat-Tree ne s est pas révélé un bon choix. Modèle de programmation inadapté à l architecture? Modèle de programmation maîtrisable? Fin de la société Thinking Machine!!! Passage SIMD MIMD raté, technologies très différentes : Cray-T3D Cray-T3E En 1993 : le Cray-T3D est la première machine MIMD à mémoire distribuée avec un réseau d interconnexion réellement performant Cray-T3D : Processeurs : 1024 Alpha Réseau de comm. : tore 3D 600Mo/s lien crête Mo/s réel Mémoire : distribuée et partageable mais NUMA : <n proc,ptr loc> Cray-T3D 20

21 : Cray-T3D Cray-T3E Démarche commerciale : Cray sort le T3D précipitamment en 1993 pour occuper le marché Il faut un Cray YMP en frontal d un T3D!!! Le cache L2 des processeurs Alpha a du être invalidé!!! Cray propose des formations au T3D où l on apprend à bien utiliser le petit cache L1!!! Les compilateurs et optimiseurs de code sont buggés Mais ça marche : très bonnes performances! les communications ne se voient pas! et le T3E résout ces problèmes un peu plus tard : Cray-T3D Cray-T3E Performances : Cray-T3E-1200, 2048 Alphas 2.5 téraflops crête mais introduit : Stream Buffers (cache) et E-registers (sync. et com.) Optimisations spécifiques Programmation T3D et T3E : 2 paradigmes possibles Envoi de messages : PVM, MPI - send & recv Accès RAM distante : Shmem (Cray lib) - shmget() OU shmput() Bibliothèque Latence Bande passante Shmem 1µs 350Mo/s PVM 11µs 150Mo/s MPI 14µs 260Mo/s Programmation en Shmem : originale, mais efficace et élégante : Cray-T3D Cray-T3E Bilan Cray T3D et T3E : Très puissants Mémoire partagée NUMA Nouveautés technologiques : Stream Buffers er E-registers (T3E) Plusieurs paradigmes de parallélisations supportés Réseau de comm. à la hauteur de la puissance des processeurs Très chers Optimisations sérielles supplémentaires et nécessaires 21

22 SGI-Origin2000 Première architecture DSM commercialisée : Offre une mémoire partagée et plusieurs centaines de processeurs SGI-Origin2000 : Processeurs : 4 à 512 Mips-R12000 (RISC) Réseau hyper-cubique Mémoire hybride : distribuée et partagée Algorithme MRSW Implantation Hardware : «CC-NUMA» Architecture plus extensible que les SMP (limitées en 1996 à 20 procs.) SGI-Origin DSM Deux contraintes antagonistes : Diminuer t latence en distribuant les données Préserver la cohérence des données et limiter t cohérence Distribution t latence vs vs Cohérence t cohérence Stratégies possibles : Migration des données Duplication des donnés Migration des données en RAM et duplication des données en cache RAM cache PE DSM = Modèle de cohérence + Algorithme + Implantation SGI-Origin DSM Et ça marche! Ex : SGI-O2K : Cohérence forte MRSW ccnuma Plus efficace qu une SMP Plus extensible qu une SMP NAS Parallel Benchmark Kernel FT SMP - SGI-PowerChallenge DSM - SGI-Origin2000 S(P) = P Accélération Nombre de processeurs 22

23 SGI-Origin2000 Programmation : Envoi de messages : PVM, MPI Accès mémoire distant : Shmem Partage de mémoire & processus Partage de mémoire & threads explicites : P-Threads, Irix-Threads Partage de mémoire & threads implicite : OpenMP Paradigmes variés ET performances variées Envoi de msg Recopies mémoires : plus rapide que de vrais msgs plus lent que de vrais partages Temps d'exécution Bubble-sort parallèle Bubble-sort - MPI Bubble-sort Threads Nombre de processeurs SGI-Origin2000 Bilan : Machine performante Programmation aisée : médium de communication confortable Architecture extensible : Nombre maximum de processeur Evolution de la taille des SGI- Origin Sensible au false sharing comme les SMP Fluctuation des performances en multi-user Evolution exponentielle de la taille maximale des SGI-Origin2000 Panorama des 5 - Architectures MIMD Types d MIMD Quelques grandes étapes Panorama des offres actuelles MIMD 23

24 HP : moyennes machines parallèles HP multiprocessor servers are based on different processors: HP Integrity servers Up to 64 Itanium-2 cc-numa HP 9000 Superdome Up to 64 PA-RISC cc-numa HP AlphaServer Up to 32 Alpha Planned to scale HP Proliant servers Small servers HP NonStop servers Non-stop computing Mainly OS & Soft HP Telco and carrier-grade servers For telecom and service provider HP : moyennes machines parallèles HP superdome & HP Integrity : Hardware and software partitioning Multi-OS support: Windows, Linux, HP Unix Support Itanium processors Up to 64 processors Support OpenMP DSM cc-numa Top500 doc : A shared memory parallel model is supported. HP is a partner in the OpenMP organisation. SUN : moyennes+ machines parallèles SUN propose des servers équipés de 1 à 106 processeurs: Small server examples Sun Fire B1600 Up to 16 UltraSparcIIi Up to 16 Intel-Xeon Sun Fire V65x Up to 2 Intel-Xeon Middle class server example Sun Fire 6800 Server Up to 24 UltraSPARC III Cu Processors 4 Dynamic System Domains Dynamic Reconfiguration 24

25 SUN : moyennes+ machines parallèles SUN propose des servers équipés de 1 à 106 processeurs: Large server examples Sun Fire[tm] 15K Server Up to 106 UltraSPARC III SMP architecture (shared memory) Up to 18 Dynamic System Domains 4-5 Million Euros NO cc-numa highlighted!! SMP with 106 processors! Strange! IBM : machines parallèles IBM propose des servers mainframes, Intel processor based, Unix servers, Mainframe servers: IBM zseries 990 proprietary processor: CMOS z990 Up to 16 processors with SMP architecture Up to 32 processors with 2 OS images IBM : machines parallèles Intel processor based servers: xseries 445 Up to 16 Intel-Xeon (cluster/smp?) Physical partitioning (?) Support Windows and Linux AMD processor based servers: eserver 325 Up to 2 AMD Opteron processors 25

26 IBM : grandes machines parallèles Powerful Unix server pseries 690 Unix/Linux supported IBM POWER4+ microprocessors Up to 32 processors SMP (shared memory) Up to 32 dynamic partitions IBM SP3 Up to 16 processors POWER3 SMP (shared memory) IBM : grandes machines parallèles IDRIS : IBM RS/6000 SP Power noeuds utilisateurs de 16 processeurs Power3 chacun cadencés à 375 Mhz. 24 Goctets de mémoire partagée par noeud. 2 noeuds d'i/o avec 8 processeurs chacun et 16 Goctets de mémorie par noeud. 250 Goctets d'espace HOME. 250 Goctets d'espace /usr/local. 1,4 Toctets d'espace commun WORKDIR et TMPDIR SGI : petites - moyennes - grandes machines parallèles SGI Origin3000 : une gamme modulaire SGI Origin3900 De 2 à 512 processeurs MIPS (Risc) Machines assemblées à partir des mêmes briques de base Une gamme entièrement modulaire (très rare) cc-numa jusqu à 512 processeurs ccnuma 26

27 SGI : petites - moyennes - grandes machines parallèles Constitution modulaire des SGI-Origin3000 à partir de bricks : C-brick : CPU Module I-brick : I/O Module P-brick : PCI Expansion X-brick: XIO Expansion R-brick : Router Interconnect D-brick : Disk Storage G-brick : Graphics Expansion SGI : petites - moyennes - grandes machines parallèles Japan - Institute for Chemical Research: Advanced Genomic Volvo Cars : Crash Simulations SGI Origin 3900 Processors: MIPS (Risc) cc-numa up to 512 processors Dynamic partitioning: cluster of 2 to 32 cc-numa machines Unix (Irix) Panorama des 6 - Clusters - Grappes - Grilles (Grid) Exemples de cluster de grosses/moyennes machines Exemples de cluster de PC Bilan des Cluster et Grappes Exemple de grappes de PC Exemple de besoin de grille de calcul 27

28 IBM : cluster de super-calculateurs IBM e-server Cluster 1350 Cluster of Intel processor based servers Support Linux OS Several Interconnexion networks are available Considered for High-Performance computing Cluster size Processor speed System memory Internal storage Cluster interconnect Entry 8 nodes 2.4GHz 512MB 18GB 10/100Mbps Ethernet Mid-range 32 nodes 2.8GHz 1GB 18GB 10/100Mbps Ethernet High-end 128 nodes 3.06GHz 1GB 36GB Gigabit Ethernet High-perf. 64 nodes 3.06GHz 1GB 36GB Myrinet-2000 IBM : cluster de super-calculateurs High performance computing Large-scale database applications Up to 128 nodes Node == (ex) pseries 690, 32 procs cluster hardware building blocks cluster software building blocks (cluster management software and parallel computing tools) HP : Cluster de PC Linux and hp clusters help Boeing R&D reduce costs Intensive simulations for designing aircraft Running a Cray can be faster but it costs a lot of money. We've had a 600 percent increase in performance and reduced our costs by 50 percent. HP Builds Supercomputer from Off-the-Shelf Parts Linux-powered cluster of 225 PCs 385th-fastest supercomputer in the world (Grenoble - France). In 2003: Cluster does not appear in the main pages of HP web 28

29 architectures parallèle Beowulf : cheap PC cluster History: In 1994, T. Sterling and D. Becker, CESDIS (for NASA project) built a cluster computer consisting in : - 16 DX4 processors - connected by channel bonded Ethernet. They called their machine «Beowulf». It has been an immediate success! Definition: Beowulf cluster is a cluster built with standard machines and communication network, just tuned to run together (in cluster mode) Ex: monoprocessor PCs wired on a Fast-Ethernet network Fujitsu: PC cluster with specific net Fujitsu has built a supercomputer by linking Intel servers with the new Infiniband interconnect The first Linux-based supercomputer cluster using the open standard InfiniBand interconnect processor PCs & InfiniBand interconnect Maximum data transfer rate of 2.5Gbit/s. More efficient and more expensive than a Beowulf cluster Not so frequent than a standard Ethernet network Needs more than tuning. Bilan des Clusters (ou «Grappes») Evolution rapide domaine en pleine évolution! 29

30 Bilan des Clusters et Grappes Clusters (ou «grappes») : Cluster de super-calculateurs / Cluster de PC Clusters de PCs : Début des annonces de clusters de PC sur les web des grands constructeurs : IBM (2003) Plusieurs configurations sont connues : - Beowulf (économique), - à réseaux rapides (Gigabit Ethernet, Myrinet, InfiniBand, ) Question classique à prix constant: plus de nœuds? plus de processeurs par nœuds? meilleur réseau d interconnexion? Pour l instant pas de système vainqueur, pas de standard! Ex de Grappes de PC expérimentale Grappe de 100, puis 225 PC à Grenoble. Configuration d intranet standard dans une entreprise. Développement : Algorithmique parallèle, Couche et configuration système de reboot complet et rapide,. Ex de Grappes de PC expérimentale Grid explorer : an instrument for understanding GRID and P2P systems A set of sensors A set of tools for analysis An experimental Conditions data base A Hardware platform : Emulation Simulation Validation on real life testbed 30

31 Coût réel des clusters? Panorama des Architectures parallèles 7 - Systèmes d archivage Classes de serveurs de stockage Exemple des systèmes d archivage d IBM Exemple des systèmes d archivage de SUN Systèmes d archivage & IO parallèles Classes de serveurs de stockage «NAS» : Network-Attached Storage (100GB 10TB) Une (ou deux) baie disques 1 CPU + IDE ou SCSI Redondance de connectivité En général : Pas de fonctionnalités spéciales 5 à 20 KEuro «SAN» : Storage Area Network (jusqu à 200TB ou +) Réseau de baies disques Réseau de CPU + Fibre-channel Redondance connectivité et CPU > 50 KEuro Fonctionnalités : FlashCopy : sauvegarde en cas de panne de courant Remote Mirroring : sauvegarde en cas de panne disque Dynamic Volume Expansion : extension de partition à la volée 31

32 Exemple de système d archivage : IBM IBM 2104 Expandable Storage Plus A faible coût Pour stations de travail et petits serveurs Ultra3 SCSI MB/sec 509 GB to 7 TB to one or two servers RAID 0, 1, 1E, 5 and 5E NAS IBM TotalStorage FAStT700 Storage Server Storage Area Network (SAN) full-fibre Channel - 2 Gbps 36 GB to 16 TB FlashCopy and Remote Mirroring Dynamic Volume Expansion RAID 0,1,3,5, and 10 SAN Exemple de système d archivage : IBM IBM 7133 Serial Disk System Advanced Models Up to 7 TB (several hosts) For UNIX, Windows NT, and Novell NetWare servers Redundant data paths, redundant cooling units, and two power supplies Remote mirroring-up to 10 km (with the Advanced SSA Optical Extender) + CPUs + IBM TotalStorage SAN Controller 160 High-function Serial Disk Controller Provides Fibre Channel connectivity for servers IBM - Storage Area Network (SAN) Exemple de système d archivage : SUN Sun StorEdge A1000 and D1000 arrays 436 GB : 1 store unit 3.92 TB : 9 store units Sun StorEdge T3 array 5.2 TB : une unité Redondance : d alim, de refroidisseur, d interconnexions NAS Sun StorEdge N8600 4TB to 10TB 8 UltraSPARC II processors NAS!! Pas de redondances d alim? NAS NAS!! 32

33 Exemple de système d archivage : SUN Sun StorEdge T3 Array Enterprise Jusqu à 169 TB Beaucoup de redondances Multiport Fibre Channel (FC) Switch SAN Systèmes d archivage & IO parallèles Possibilités : NAS et SAN Serveurs rapides, sécurisés, IO parallèles possibles (depuis une même appli) Quelles stratégies de transfert de données? Controlleurs et CPUs???? RAM Réseau d interconnexion PE PE PE Depuis 1 tâche : par stripping, parallélisme implicite Depuis P tâches : parallélisme explicite d IO équilibrage d attaques des disques optimum stripping/multi-attaques? Voir algorithmique parallèle! Panorama des Architectures parallèles 8 - Sources d information permanente Top500.org Spec.org Cluster.Top500.org 33

34 Le Top 500 des supercalculateurs To provide a better basis for statistics on high-performance computers, we list the sites that have the 500 most powerful computer systems installed. The best Linpack benchmark performance achieved is used as a performance measure in ranking the computers. The TOP500 list has been updated twice a year since June Rank Manufacturer Computer/Procs June 2003 R max R peak Installation Site Country/Year 1 NEC Earth-Simulator/ Hewlett-Packard ASCI Q - AlphaServer SC ES45/1.25 GHz/ Linux Networx MCR Linux Cluster Xeon 2.4 GHz - Quadrics/ IBM ASCI White, SP Power3 375 MHz/ IBM SP Power3 375 MHz 16 way/ Earth Simulator Center Japan/2002 Los Alamos National Laboratory NSA/2002 Lawrence Livermore National Lab USA/2002 Lawrence Livermore National Lab USA/2000 NERSC/LBNL USA/2002 Le Top 500 des supercalculateurs Novembre 2001 : Juin 2002 : R Computer max Installation Site Proc. (GFlops) R peak (GFlops) Nmax Nhalf Earth Simulator 1 NEC Earth-Simulator Center Japan 2002 Research Lawrence Livermore USA 2000 Research Energy National Laboratory Pittsburgh Supercomputing USA 2001 Academic Center Commissariat a l'energie Atomique France 2001 Research (CEA) NERSC/LBNL USA 2001 Research Juin 2002 : ASCI White, SP 2 IBM Power3 375 MHz Hewlett- AlphaServer SC Packard ES45/1 GHz Hewlett- AlphaServer SC Packard ES45/1 GHz SP Power IBM MHz 16 way Manufacturer Top 500 des supercalculateurs R Computer max Installation Site Proc. (GFlops) R peak (GFlops) Nmax Nhalf Earth Simulator 1 NEC Earth-Simulator Center Japan 2002 Research ASCI White, SP 2 IBM Power3 375 MHz Hewlett- AlphaServer SC Packard ES45/1 GHz Hewlett- AlphaServer SC Packard ES45/1 GHz SP Power IBM MHz 16 way Manufacturer Juin 2003 : Rank Manufacturer Computer/Procs Lawrence Livermore USA 2000 Research Energy National Laboratory Pittsburgh Supercomputing USA 2001 Academic Center Commissariat a l'energie Atomique France 2001 Research (CEA) NERSC/LBNL USA 2001 Research R max Installation Site Country/Year R peak 1 NEC Earth-Simulator/ Hewlett-Packard ASCI Q - AlphaServer SC ES45/1.25 GHz/ Linux Networx MCR Linux Cluster Xeon 2.4 GHz - Quadrics/ IBM ASCI White, SP Power3 375 MHz/ IBM SP Power3 375 MHz 16 way/ Earth Simulator Center Japan/2002 Los Alamos National Laboratory NSA/2002 Lawrence Livermore National Lab USA/2002 Lawrence Livermore National Lab USA/2000 NERSC/LBNL USA/

35 Le site officiel des mesures de perf Différents type de tests sont effectués : SPECapc - SPECviewperf - SPEC HPC96 - SPEC OMP2001 SPEC CPU SPEC JBB SPEC JVM98 - SPEC MAIL2001 SPEC SFS97_R1 - SPEC WEB99 Ex : SPEC CPU2000 Results IBM Corporation RS/ P-270 (450MHz, 8MBL2) Text HTML PDF PS Config IBM Corporation RS/ P-270 (450MHz,8MBL2) Text HTML PDF PS Config SGI SGI X 350MHz R12k Text HTML PDF PS Config SGI SGI X 400MHz R12k Text HTML PDF PS Config Le site officiel des mesures de perf Le Top 500 des Clusters Beaucoup plus récent que le top500 manque encore un peu de maturité 35

36 Panorama des Architectures parallèles 9 Bilan matériel du Top-500 Répartitions des types d architectures Répartitions des technologies et familles de processeurs Répartition des constructeurs Bilan matériel du Top-500 Répartition des types d architectures dans le Top-500 : Bilan matériel du Top-500 Répartition des technologies de processeur dans le Top-500 : Trop cher disparu! Market processors! 36

37 Bilan matériel du Top-500 Répartition des familles de processeurs dans le Top-500 : INTEL encore peu présent : manquait de 64 bits! Bilan matériel du Top-500 Répartition des constructeurs dans le Top-500 : Chute de Cray, et marché ouvert Bilan matériel du Top-500 Répartition des constructeurs dans le Top: Peu d écart entre la part du nombre de machines et la part de performance 37

38 3.10 L ordinateur quantique.?! Les possibilités quantiques A court/moyen terme : Utilisation de techniques quantiques pour réaliser des modules d une architecture classique? RAM bit : un tore, un transistor, une capacité un spin? A plus long terme : Petits systèmes quantiques pour modéliser et simuler de gros systèmes quantiques? (th. de méca-q) Architectures quantiques dédiées pour applications précises Les possibilités quantiques A beaucoup plus long terme : Un ordinateur généraliste avec une architecture quantique? Pb : comment observer la solution sans la détruire?!!! Actuellement : Des recherches depuis plus de 10 ans De plus en plus de recherches Surtout pour améliorer des modules d architectures classiques (plus petits, plus rapide) 38

39 FIN 39