Architecture des ordinateurs

Documents pareils

Architecture des calculateurs

Initiation au HPC - Généralités

Infrastructure de calcul du CRRI

Eléments d architecture des machines parallèles et distribuées

Limitations of the Playstation 3 for High Performance Cluster Computing

Hiérarchie matériel dans le monde informatique. Architecture d ordinateur : introduction. Hiérarchie matériel dans le monde informatique

Quantification d incertitude et Tendances en HPC

Architecture des Ordinateurs. Partie II:

Introduction à l architecture des ordinateurs. Adrien Lebre Décembre 2007

Infrastructures Parallèles de Calcul

Choix d'un serveur. Choix 1 : HP ProLiant DL380 G7 Base - Xeon E GHz

Tout savoir sur le matériel informatique

Rapport 2014 et demande pour Portage de Méso-NH sur Machines Massivement Parallèles du GENCI Projet 2015 : GENCI GEN1605 & CALMIP-P0121

Le supercalculateur Tera 100 Premier supercalculateur pétaflopique européen

Structure de base d un ordinateur

Outil d aide au choix Serveurs Lot 4 Marché Groupement de Recherche

Journée Utiliateurs Nouvelles du Pôle ID (Informatique) Pierre Neyron, LIG/CNRS

Exécution des instructions machine

Architecture matérielle des systèmes informatiques

Systèmes et traitement parallèles

Architecture des ordinateurs

INF6500 : Structures des ordinateurs. Sylvain Martel - INF6500 1

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

Introduction à l Informatique licence 1 ère année Notes de Cours

HP 600PD TWR i G 4.0G 39 PC

Cours Informatique 1. Monsieur SADOUNI Salheddine

Présentation du système informatique utilisé et éléments d architecture des ordinateurs

SIGAMM/CRIMSON COMMISSION UTILISATEUR du 05/12/2014

Segmentation d'images à l'aide d'agents sociaux : applications GPU

Fonctionnement et performance des processeurs

THÈSE. Pour obtenir le grade de. Spécialité : Informatique. Arrêté ministériel : 7 août Présentée et soutenue publiquement par.

ORACLE EXADATA DATABASE MACHINE X2-2

Partie 1. Professeur : Haouati Abdelali. CPGE Lycée Omar Ibn Lkhattab - Meknès haouaticpge@gmail.com

Parallélisme et Répartition

Initiation à l informatique. Module 1 : Le Matériel

Les environnements de calcul distribué

en version SAN ou NAS

Retour d expérience, portage de code Promes dans le cadre de l appel à projets CAPS-GENCI

LOT N 1 : ORDINATEURS BORDEREAU DE PRIX IDENTIFICATION DU FOURNISSEUR. Code DESIGNATION QTE PU HT EN EURO MONTANT TOTAL HT EN EURO MONTANT TTC EN EURO

HPC by OVH.COM. Le bon calcul pour l innovation OVH.COM

AMBASSADE DE FRANCE EN ALLEMAGNE SERVICE POUR LA SCIENCE ET LA TECHNOLOGIE

ORACLE EXADATA DATABASE MACHINE X2-8

THEME 1 : L ORDINATEUR ET SON ENVIRONNEMENT. Objectifs

Informatique Générale

T. Gasc 1,2,3, F. De Vuyst 1, R. Motte 3, M. Peybernes 4, R. Poncet 5

Leçon 1 : Les principaux composants d un ordinateur

Contributions à l expérimentation sur les systèmes distribués de grande taille

Tests de performance du matériel

On distingue deux grandes catégories de mémoires : mémoire centrale (appelée également mémoire interne)

LOT 1 - ACQUISITION DE SERVEURS INFORMATIQUES LOT 2 - ACQUISITION DE 5 POSTES INFORMATIQUES

Spécifications détaillées

Vers du matériel libre

1 Architecture du cœur ARM Cortex M3. Le cœur ARM Cortex M3 sera présenté en classe à partir des éléments suivants :

Contribution à la conception à base de composants logiciels d applications scientifiques parallèles.

Contrôle Non Destructif : Implantation d'algorithmes sur GPU et multi-coeurs. Gilles Rougeron CEA/LIST Département Imagerie Simulation et Contrôle

Architecture des ordinateurs Introduction à l informatique

Découverte de l ordinateur. Partie matérielle

vbladecenter S! tout-en-un en version SAN ou NAS

Matériel & Logiciels (Hardware & Software)

Pré-requis techniques

Dell Vostro 3350/3450/3550/3750

Exigences système Edition & Imprimeries de labeur

CQP 112 Introduc/on à la programma/on. Thème 2 : Architecture d un système informa/que. Département d informa/que

libérez votre innovation avec l extreme computing CEA/Philippe Stroppa

SERVEUR LYNX CALLEO DATACENTER 2460

Séminaire RGE REIMS 17 février 2011

ERP Service Negoce. Pré-requis CEGID Business version sur Plate-forme Windows. Mise à jour Novembre 2009

Informatique Industrielle Année Architecture des ordinateurs Note de cours T.Dumartin

Exigences système Edition & Imprimeries de labeur

INITIATIVE HPC-PME Calcul haute performance pour les PME

Système de stockage IBM XIV Storage System Description technique

Chapitre V : La gestion de la mémoire. Hiérarchie de mémoires Objectifs Méthodes d'allocation Simulation de mémoire virtuelle Le mapping

TO4T Technologie des ordinateurs. Séance 1 Introduction aux technologies des ordinateurs

Gestion de clusters de calcul avec Rocks

Ordinateur Logiciel Mémoire. Entrées/sorties Périphériques. Suite d'instructions permettant de réaliser une ou plusieurs tâche(s), de résoudre un

L informatique en solo

Hubert & Bruno Lundi 12 octobre 2009 SAINT-QUENTIN (02)

Fiche technique CPU 315SN/PN (315-4PN33)

Projet IGGI. Infrastructure pour Grappe, Grille et Intranet. Fabrice Dupros. CASCIMODOT - Novembre Systèmes et Technologies de l Information

Chapitre 4 : Les mémoires

Architectures d implémentation de Click&DECiDE NSI

Pré-requis techniques. Yourcegid Secteur Public On Demand Channel

Serveur Lynx CALLEO Application 2240S Fiches Technique

Visite de presse. Le supercalculateur Tera - 10

Éléments d'architecture des ordinateurs

Serveur Lynx CALLEO Application 2240 Fiches Technique

Protection des données avec les solutions de stockage NETGEAR

Ordinateur portable Latitude E5410

Evolution des technologies et émergence du cloud computing Drissa HOUATRA, Orange Labs Issy

Base de l'informatique. Généralité et Architecture Le système d'exploitation Les logiciels Le réseau et l'extérieur (WEB)

Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009. Pôle de Calcul Intensif pour la mer, 11 Decembre 2009

TAI049 Utiliser la virtualisation en assistance et en dépannage informatique TABLE DES MATIERES

MODULE I1. Plan. Introduction. Introduction. Historique. Historique avant R&T 1ère année. Sylvain MERCHEZ

Sur un ordinateur portable ou un All-in-One tactile, la plupart des éléments mentionnés précédemment sont regroupés. 10) 11)

SERVEUR CALLEO APPLICATION R269M

Programmation C. Apprendre à développer des programmes simples dans le langage C

Info0804. Cours 6. Optimisation combinatoire : Applications et compléments

L offre Stockage et serveurs System x / BladeCenter F.Libier, Business Partner Technical Manager

Transcription:

Décoder la relation entre l architecture et les applications Violaine Louvet, Institut Camille Jordan CNRS & Université Lyon 1 Ecole «Découverte du Calcul» 2013 1 / 61

Simulation numérique... Physique Chimie... Algorithme Informatique Programmation Mathématiques appliquées Calculateur 2 / 61

Simulation numérique... Complexification des modèles, augmentation de la taille et de la précision des domaines de calcul, nouvelles disciplines... les besoins en simulation numérique et en calculs ne font qu augmenter : Climat Médecine Sismologie Fusion nucléaire... 3 / 61

et puissance de calcul... Parallèlement, la puissance de calcul poursuit sa croissance 4 / 61

Importance des aspects matériels La connaissance des infrastructures et architectures de calcul permet de : Choisir son architecture de calcul en fonction de ses besoins Adapter les méthodes numériques, les algorithmes et la programmation Comprendre le comportement d un programme Optimiser les codes de calcul en fonction de l architecture IBM Blue Gene/Q Intel Sandy-Bridge Intel Xeon Phi Nvidia Kepler N 5 / 61

Sommaire 1 Architectures de calcul actuelles 2 Architecture d un serveur Processeur Mémoire Réseaux, stockage 3 Evolutions technologiques et problématiques associées GPU Many-cœurs 4 Moyens de calcul disponibles Micro éclairage sur le HPC mondial Pyramide des moyens de calcul : paysages européen et français Les grilles de calcul 5 Conclusions 6 / 61

Architectures de calcul actuelles Sommaire 1 Architectures de calcul actuelles 2 Architecture d un serveur Processeur Mémoire Réseaux, stockage 3 Evolutions technologiques et problématiques associées GPU Many-cœurs 4 Moyens de calcul disponibles Micro éclairage sur le HPC mondial Pyramide des moyens de calcul : paysages européen et français Les grilles de calcul 5 Conclusions 7 / 61

Architectures de calcul actuelles Architectures actuelles Majoritairement des clusters : regroupement de serveurs connectés par un réseau Nombre et type des unités de calcul (processeurs, cœurs, GPU...) Taille de la mémoire Type du réseau (infiniband, ethernet...) 8 / 61

Architectures de calcul actuelles Hiérarchie des architectures... RESEAU... node mem core mem core mem core mem core Processeur Mémoire 9 / 61

Architecture d un serveur Sommaire 1 Architectures de calcul actuelles 2 Architecture d un serveur Processeur Mémoire Réseaux, stockage 3 Evolutions technologiques et problématiques associées GPU Many-cœurs 4 Moyens de calcul disponibles Micro éclairage sur le HPC mondial Pyramide des moyens de calcul : paysages européen et français Les grilles de calcul 5 Conclusions 10 / 61

Architecture d un serveur Bits, octets & co bit (b) : binary digit, plus petite unité d information d un composant en informatique. Vaut 0 ou 1 1 bit permet donc d avoir 2 états (0 ou 1), 2 bits permettent d en avoir 4 (2 2 ) (00,01,10,11),..., n bits permettent ainsi d en avoir 2 n octet (o) ou byte (B) = composé de 8 bits Usage Processeurs et mémoires opèrent sur des octets Débits des réseaux et des bus exprimés en bits par seconde 11 / 61

Architecture d un serveur Sommaire 1 Architectures de calcul actuelles 2 Architecture d un serveur Processeur Mémoire Réseaux, stockage 3 Evolutions technologiques et problématiques associées GPU Many-cœurs 4 Moyens de calcul disponibles Micro éclairage sur le HPC mondial Pyramide des moyens de calcul : paysages européen et français Les grilles de calcul 5 Conclusions 12 / 61

Architecture d un serveur Caractéristiques d un processeur Fréquence d horloge (MHz) : vitesse de fonctionnement du processeur = nombre de millions de cycles que le processeur est capable d effectuer par seconde Cycle = plus petite unité de temps au niveau du processeur. Chaque opération/instruction nécessite au minimum un cycle, et plus souvent plusieurs 1GHz = 10 9 Hz = 10 9 cycle/s Largeur (32 ou 64 bits) : notamment du bus de données et des registres internes. Bon indicateur de la quantité d information que celui-ci peut gérer en un temps donné Jeu d instructions : ensemble des opérations qu un processeur peut exécuter, plus ou moins complexes Adressage mémoire Les processeurs 32 bits ne peuvent pas adresser plus de 4 gibioctets (2 32 ) de mémoire centrale, tandis que les processeurs 64 bits peuvent adresser 16 exbioctets (2 64 ) de mémoire. 13 / 61

Architecture d un serveur Cœurs, sockets On évite de parler de CPUs : il faut distinguer le support (socket) de l unité de calcul elle-même (cœur). Le socket ou slot est le connecteur qui interfère entre la carte mère d un ordinateur et le processeur lui-même. Serveur Socket Socket Cœur Cœur Cœur Cœur Cœur Cœur Cœur Cœur Serveur bi-sockets quadri-cœurs 14 / 61

Architecture d un serveur Composition d un processeur Plusieurs Unité Arithmétique et Logique (UAL), qui prennent en charge notamment les calculs arithmétiques élémentaires ce qui permet de traiter plusieurs instructions en même temps Registres : mémoires de petite taille (quelques octets) rapides Unité de calcul en virgule flottante (en anglais Floating Point Unit - FPU), qui permet d accélérer les calculs sur des nombres flottants Mémoires caches, qui diminuent les temps d accès à la mémoire 15 / 61

Architecture d un serveur Fonctionnement Le processeur est rythmé par une horloge défini par sa fréquence (GHz) Pour schématiser, on peut dire que le traitement d une instruction passe par 5 étapes fondamentales dont la durée est d au minimum un cycle d horloge : lecture de l instruction (IF, Instruction Fetch) décodage de l instruction (ID, Instruction Decode) exécution de l instruction (EX, Execute) écriture ou chargement depuis la mémoire en fonction du type de l instruction (MEM, Memory) stockage du résultat dans un registre (WB, Write Back) Plus la fréquence est élevée et plus le processeur peut traiter les instructions rapidement IF ID EX MEM WB 5 cycles au minimum sont nécessaires pour accomplir une instruction 16 / 61

Architecture d un serveur Pipeline IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB IF ID EX MEM WB Chaque «travailleur» effectue le même travail sur des objets différents Si il y a 5 étapes dans la chaîne, 5 objets peuvent être traités simultanément Et si ces étapes prennent le même temps, la chaîne est continuellement occupée 17 / 61

Architecture d un serveur Jeux d instructions (ISA, Instructions Set Architecture) Ensemble des opérations élémentaires qu un processeur peut accomplir Plusieurs familles de processeurs possédant chacune un jeu d instructions propre : 80x86 : le «x» représente la famille. On parle ainsi de 386, 486, 586, 686, etc. ARM IA-64 PowerPC... Attention Un programme réalisé pour un type de processeur ne peut pas fonctionner directement sur un système possédant un autre type de processeur. 18 / 61

Architecture d un serveur Parallélisation de données SIMD (Single Instruction Multiple Data) : appliquer la même instruction simultanément à plusieurs données Jeux d instructions : SSE (Streaming SIMD Extensions) chez Intel AVX (Advanced Vector Extensions) chez Intel et AMD (prise en charge de registres vectoriels plus grands) Capacités vectorielles des processeurs : possibilité d exécuter une opération arithmétique sur un registre vectoriel (contenant deux DP ou quatre SP en général). 19 / 61

Architecture d un serveur Parallélisation de données Exemple SSE Algorithme : f o r i = 1, n x [ i ] = s q r t ( x [ i ] ) Travail du processeur : f o r i = 1, n l o a d x [ i ] to t h e f l o a t i n g p o i n t r e g i s t e r c a l c u l a t e t h e s q u a r e r o o t w r i t e t h e r e s u l t from t h e r e g i s t e r to memory Avec SSE : f o r { i 1, i 2, i 3, i 4 } i n { 1 : n} l o a d x [ i 1 ], x [ i 2 ], x [ i 3 ], x [ i 4 ] to t h e SSE r e g i s t e r c a l c u l a t e 4 s q u a r e r o o t s i n one o p e r a t i o n w r i t e t h e r e s u l t from t h e r e g i s t e r to memory 20 / 61

Architecture d un serveur Flops et performance du processeur Opérations (additions ou multiplications) à virgule flottante par seconde = FLoating point Operations Per Second Puissance crête (point de vue théorique) : mesure les performance des unités de calcul en virgule flottante (FPU) contenues dans le cœur. Processeur Intel Sandy Bridge six core, 3.2 GHz : 4 opérations flottantes possibles par cycle en DP soit 8 en SP, 6 cœurs par nœud : 8 6 3.2 = 153.6GFlops. Processeur PowerPC A2 (Blue Gene/Q), 1.6 GHz : 4 opérations flottantes possibles par cycle en DP, soit 8 en SP, 16 cœurs par nœud : 8 16 1.6 = 204.8GFlops. D un point de vue pratique, la puissance d une machine dépend de l ensemble de ses composants : fréquence du processeur, accès mémoire, vitesse des bus, complexité de l architecture... mais aussi charge de la machine, système d exploitation... On est souvent loin de la puissance théorique... 21 / 61

Architecture d un serveur Performances théoriques et réelles Exemple : résolution du système linéaire dense n n de type Ax = b par élimination de Gauss. La complexité de l algorithme est de l ordre de 1 3 n3 opérations flottantes. Pour un calculateur de 48 GFlops = 48 10 9 Flops : n Nombre d opérations Temps 1000 3.3 10 8 0.0068 s 10 000 3.3 10 11 6.875 s 100 000 3.3 10 14 6875 s = 1h 44 mn 35 s 1 000 000 3.3 10 17 79j Mais... L architecture intrinsèque du processeur peut impacter négativement la performance : Partage de certaines ressources Gestion des dépendances entre instructions Prédiction de branchement... 22 / 61

Architecture d un serveur Sommaire 1 Architectures de calcul actuelles 2 Architecture d un serveur Processeur Mémoire Réseaux, stockage 3 Evolutions technologiques et problématiques associées GPU Many-cœurs 4 Moyens de calcul disponibles Micro éclairage sur le HPC mondial Pyramide des moyens de calcul : paysages européen et français Les grilles de calcul 5 Conclusions 23 / 61

Architecture d un serveur Quelques définitions Bande passante = débit d informations ; d un périphérique : mémoire, disque dur... ou d un médium de communication : réseau, bus... Mesurée généralement en octets (byte) par seconde (o/s, ou B/s) ou en bits par seconde (bit/s ou bps) Exemple : USB 2.0 480 Mbits par seconde. Le transfert d une vidéo de 900 Mo mettra donc 15 secondes (900Mo = 8 900Mbits = 7200Mbits ; 7200/480 = 15s). Latence = temps minimum d établissement de la connexion : indépendant de la quantité de données à transporter Latence de l ADSL : 30 ms, latence de l infiniband QDR : 100 ns 24 / 61

Architecture d un serveur Hiérarchie Mémoire Registres Caches Bande passante Vitesse Proximité du cœur RAM : Mémoire locale Disques : Mémoire secondaire Latence Taille CD, Bandes... : Mémoire tertiaire 25 / 61

Architecture d un serveur «Memory Wall» Problématique Vitesse CPU Vitesse Memory 10 6 Relative performance 10 3 Processor Memory 1 1980 1990 2000 2010 26 / 61

Architecture d un serveur Accès mémoire : problématique Quels facteurs influencent les performances des accès mémoire? Localisation : cache, RAM, disque? Manière dont elles sont accédées : au travers d un chipset (jeu de composants électroniques qui permet le contrôle des échanges d information : Northbridge par exemple) directement par le processeur via le processeur voisin... Plus une donnée est proche du processeur, plus elle est accédée rapidement. Caches Mémoire centrale L3 L2 L1 CPU 27 / 61

Architecture d un serveur Principes de localité Localité Localité spatiale : lorsqu un programme accède à une donnée ou à une instruction, il est probable qu il accédera ensuite aux données ou instructions voisines Localité temporelle : lorsqu un programme accède à une donnée ou à une instruction, il est probable qu il y accédera à nouveau dans un futur proche s u b r o u t i n e sumvec ( vec, n ) i n t e g e r : : n i n t e g e r : : vec ( n ) i n t e g e r : : i, sum=0 do i = 1, n sum = sum + vec ( i ) end do end s u b r o u t i n e Bonne localité spatiale des données du tableau vec : accès en séquence Bonne localité temporelle de la donnée sum : accès fréquent 28 / 61

Architecture d un serveur UMA/NUMA Modèle SMP : relie plusieurs processeurs à une seule mémoire centralisée. Architecture UMA (Uniform Memory Access) : le temps nécessaire pour accéder à un emplacement quelconque en mémoire est le même pour tous les processeurs. Modèle NUMA (Non Uniform Memory Access) : les processeurs sont capables d accéder à la totalité de la mémoire du système mais les temps d accès mémoire sont non uniformes en fonction de la distance mémoire/cœur. Architecture SMP Architecture NUMA RAM RAM RAM 29 / 61

Architecture d un serveur Fonctionnement des caches Le cache est divisé en lignes (ou blocs) de mots 2 niveaux de granularité : le CPU travaille sur des mots (par ex 32 ou 64 bits) les transferts mémoire se font par ligne (ou bloc, par ex 256 octets) Les lignes de caches sont organisées en ensembles à l intérieur du cache, la taille de ces ensembles est constante et appelée le degré d associativité. Exploitation de la localité spatiale : le cache contient des copies des mots par lignes de cache Exploitation de la localité temporelle : choix judicieux des lignes de cache à retirer lorsqu il faut rajouter une ligne à un cache déjà plein Lorsque le processeur tente d accéder à une information (instruction ou donnée) Si l information se trouve dans le cache (hit), le processeur y accède sans état d attente, sinon (miss) le cache est chargé avec un bloc d informations de la mémoire 30 / 61

Architecture d un serveur Sommaire 1 Architectures de calcul actuelles 2 Architecture d un serveur Processeur Mémoire Réseaux, stockage 3 Evolutions technologiques et problématiques associées GPU Many-cœurs 4 Moyens de calcul disponibles Micro éclairage sur le HPC mondial Pyramide des moyens de calcul : paysages européen et français Les grilles de calcul 5 Conclusions 31 / 61

Architecture d un serveur Caractéristiques des réseaux La bande passante (bandwidth) est le débit maximal. La bande passante effective est généralement inférieure à la bande passante physique (souvent à cause de l overhead du protocole) Ce qui intéresse l utilisateur est la bande passante MPI Les performances bas niveaux sont intéressantes pour le stockage Principales technologies : Ethernet (Gb, 10 Gb, 100 Gb) Myrinet Infiniband Répartition des familles d interconnexion, top 500, nov 2012 32 / 61

Architecture d un serveur Stockage : le goulot d étranglement Le débit global est dépendant de toute la chaîne d I/Os (baie, serveur, interconnexion...). La capacité de stockage augmente beaucoup plus vite que la vitesse d accès Le débit vers les disques augmente moins vite que la puissance de calcul La quantité de données générées augmente avec la puissance de calcul L approche classique un fichier/processus génère de plus en plus de fichiers Trop de fichiers = saturation des systèmes de fichiers (nombre maximum de fichiers et espace gaspillé à cause des tailles de bloc fixes) Le temps passé dans les I/O croît (surtout pour les applications massivement parallèles) 33 / 61

Evolutions technologiques et problématiques associées Sommaire 1 Architectures de calcul actuelles 2 Architecture d un serveur Processeur Mémoire Réseaux, stockage 3 Evolutions technologiques et problématiques associées GPU Many-cœurs 4 Moyens de calcul disponibles Micro éclairage sur le HPC mondial Pyramide des moyens de calcul : paysages européen et français Les grilles de calcul 5 Conclusions 34 / 61

Evolutions technologiques et problématiques associées Kilo, Méga, Giga, Téra, Péta, Exa... Top 500 Bench Linpack Puissance soutenue en Gflops Puissance en Gflops crête Nombre de processeurs ou de cœurs Juin 1993 59.7 131 1024 Juin 2011 8 262 000 8 773 630 548 352 1997 : année du Teraflops (10 12 Flops) 2008 : année du Petaflops (10 15 Flops) 2017 : année de l Exaflops (10 18 Flops)??? 35 / 61

Evolutions technologiques et problématiques associées Comment faire des calculateurs plus rapides? 1 Améliorer la vitesse du processeur : augmenter la fréquence d horloge. 2 Augmenter le nombre de transistors, donc augmenter le nombre de cœurs. 3 Utiliser des processeurs spécialisés ou des cartes accélératrices. 36 / 61

Evolutions technologiques et problématiques associées Les principales limitations Consommation électrique Augmente de façon exponentielle en fonction de la fréquence d horloge : P f 3 P : puissance (Watt) f : fréquence Mais pas que!! tous les éléments sont consommateurs : mémoires, carte mère, alimentation inefficace... Pour fonctionner à une vitesse d un exaflops avec ses composants actuels, le super-calculateur Tianhe nécessiterait une puissance de 1,6 milliard de watts, soit un peu plus que la puissance de la centrale nucléaire de Belleville dans le Cher! 37 / 61

Evolutions technologiques et problématiques associées Les principales limitations Dissipation thermique Directement liée à la puissance consommée : plus on augmente la fréquence, plus la dissipation thermique est importante Problème du refroidissement au niveau des chips, et au niveau de l infrastructure Finesse de gravure Actuellement 22 nm. Feuille de route Intel : 4 nm en 2022. Plus de transistors donc plus de cœurs, et moins de dissipation thermique (plus c est petit moins ça dissipe) Mais des défis technologiques pour les fondeurs et des technologies de plus en plus coûteuses! Jusqu à quand?? 38 / 61

Evolutions technologiques et problématiques associées Sommaire 1 Architectures de calcul actuelles 2 Architecture d un serveur Processeur Mémoire Réseaux, stockage 3 Evolutions technologiques et problématiques associées GPU Many-cœurs 4 Moyens de calcul disponibles Micro éclairage sur le HPC mondial Pyramide des moyens de calcul : paysages européen et français Les grilles de calcul 5 Conclusions 39 / 61

Evolutions technologiques et problématiques associées Pourquoi les GPU? A performance théorique égale, les plateformes à base de GPU : occupent moins de place sont moins chères sont moins consommatrices d électricité 40 / 61

Evolutions technologiques et problématiques associées Architecture comparée d un CPU et d un GPU Flow Control ALU ALU ALU ALU...... CACHE...... DRAM DRAM CPU GPU 41 / 61

Evolutions technologiques et problématiques associées Caractéristiques d un GPU Beaucoup de cœurs : 2496 dans le Nvidia Tesla K20 (Kepler) avec une fréquence de 705 MHz. Support IEEE double précision en virgule flottante Mémoire : jusqu à 6 GB Exploitation d un GPU Programmation de type SIMD, gestion de milliers de thread Transfert CPU-GPU très couteux API de programmation (CUDA, OpenCL) Complexe à exploiter, toutes les applications ne s y prêtent pas Principaux fournisseurs Nvidia Depuis peu, AMD avec sa carte graphique serveur FirePro S10000 42 / 61

Evolutions technologiques et problématiques associées Sommaire 1 Architectures de calcul actuelles 2 Architecture d un serveur Processeur Mémoire Réseaux, stockage 3 Evolutions technologiques et problématiques associées GPU Many-cœurs 4 Moyens de calcul disponibles Micro éclairage sur le HPC mondial Pyramide des moyens de calcul : paysages européen et français Les grilles de calcul 5 Conclusions 43 / 61

Evolutions technologiques et problématiques associées Evolution actuelle c Apparition sur le marché de cartes Many Integrated Core : les Xeon Phi Intel Xeon Phi 5110P : 60 coeurs à 1053 MHz, 8 Go de mémoire Principal avantage Les Xeon Phi supportent un environnement de programmation complètement standard. N 44 / 61

Moyens de calcul disponibles Sommaire 1 Architectures de calcul actuelles 2 Architecture d un serveur Processeur Mémoire Réseaux, stockage 3 Evolutions technologiques et problématiques associées GPU Many-cœurs 4 Moyens de calcul disponibles Micro éclairage sur le HPC mondial Pyramide des moyens de calcul : paysages européen et français Les grilles de calcul 5 Conclusions 45 / 61

Moyens de calcul disponibles Sommaire 1 Architectures de calcul actuelles 2 Architecture d un serveur Processeur Mémoire Réseaux, stockage 3 Evolutions technologiques et problématiques associées GPU Many-cœurs 4 Moyens de calcul disponibles Micro éclairage sur le HPC mondial Pyramide des moyens de calcul : paysages européen et français Les grilles de calcul 5 Conclusions 46 / 61

Moyens de calcul disponibles Micro éclairage sur le HPC mondial Top 500 Projet de classification des 500 premiers supercalculateurs connus au monde. Depuis juin 1993, liste mise à jour tous les six mois LinPack : créé par Jack Dongarra, il mesure le temps mis par un ordinateur pour résoudre un système de n équations à n inconnues dense, la solution étant obtenue par une utilisation partielle du pivot de Gauss. La performance est ensuite calculée en divisant le nombre d opérations par le temps mis, donc en FLOPS. 47 / 61

Moyens de calcul disponibles Top 500, novembre 2012 Quelques statistiques Cartes accélératrices : 87% sans, 10% Nvidia, 1.4% Xéon Phi. Pays : 50.2% USA, 14.4% Chine, 6.4% Japon, 4.8% UK, 4.2% France, 3.8% Allemagne IBM BlueGene Augmenter le nombre de coeurs en réduisant leur fréquence. Diminution de l écart entre les débits et les latences mémoires, diminution de l écart entre les débits et les latences réseaux machine plus équilibrée, une puissance de calcul élevée à consommation électrique équivalente Mais chaque coeur est lent, un très grand nombre de coeurs, peu de mémoire par coeur 48 / 61

Moyens de calcul disponibles Sommaire 1 Architectures de calcul actuelles 2 Architecture d un serveur Processeur Mémoire Réseaux, stockage 3 Evolutions technologiques et problématiques associées GPU Many-cœurs 4 Moyens de calcul disponibles Micro éclairage sur le HPC mondial Pyramide des moyens de calcul : paysages européen et français Les grilles de calcul 5 Conclusions 49 / 61

Moyens de calcul disponibles Paysages européen et français Tier 0 Centre européen Tier 1 Centres nationaux Tier 2 Mésocentres Tier 3 Laboratoires 50 / 61

Moyens de calcul disponibles Paysage européen Tier 0 Centre européen Tier 1 Centres nationaux Tier 2 Mésocentres Tier 3 Laboratoires 51 / 61

Moyens de calcul disponibles PRACE et l échelle européenne PRACE : Partnership for Advanced Computing in Europe Regroupement de 25 pays (dont Allemagne, Espagne, Grande-Bretagne, France...) Accès à 6 supercalculateurs aux architectures complémentaires, d une puissance crête globale de près de 15 petaflops, localisés en Allemagne, en Espagne, en France (CURIE) et en Italie. http://www.prace-ri.eu/ 52 / 61

Moyens de calcul disponibles Paysage national français Tier 0 Centre européen Tier 1 Centres nationaux Tier 2 Mésocentres Tier 3 Laboratoires 53 / 61

Moyens de calcul disponibles GENCI et l échelle nationale GENCI, Grand Equipement National de Calcul Intensif Société de droit civil détenue à 49% par l Etat représenté par le Ministère de la Recherche et l Enseignement Supérieur, 20% par le CEA, 20% par le CNRS, 10% par les Universités et 1% par l INRIA. TGCC/CCRT au CEA CINES IDRIS http://www.genci.fr 54 / 61

Moyens de calcul disponibles Paysage régional Tier 0 Centre européen Tier 1 Centres nationaux Tier 2 Mésocentres Tier 3 Laboratoires 55 / 61

Moyens de calcul disponibles Les mésocentres et l échelle régionale Définition d un mésocentre Un ensemble de moyens humains, de ressources matérielles et logicielles à destination d une ou plusieurs communautés scientifiques, issus de plusieurs entités (EPST, Universités, Industriels) en général d une même région, doté de sources de financement propres, destiné à fournir un environnement scientifique et technique propice au calcul haute performance. FLMSN et CIMENT Fédération Lyonnaise de Modélisation et des Sciences Numériques à Lyon http://www.flchp.univ-lyon1.fr/ CIMENT à Grenoble https://ciment.ujf-grenoble.fr 56 / 61

Moyens de calcul disponibles Sommaire 1 Architectures de calcul actuelles 2 Architecture d un serveur Processeur Mémoire Réseaux, stockage 3 Evolutions technologiques et problématiques associées GPU Many-cœurs 4 Moyens de calcul disponibles Micro éclairage sur le HPC mondial Pyramide des moyens de calcul : paysages européen et français Les grilles de calcul 5 Conclusions 57 / 61

Moyens de calcul disponibles Les grilles de production et de recherche France Grille Infrastructure de grille de production française Contribue à l infrastructure de grille européenne EGI Favorise les échanges entre grilles de production et grilles de recherche http://www.france-grilles.fr 58 / 61

Conclusions Sommaire 1 Architectures de calcul actuelles 2 Architecture d un serveur Processeur Mémoire Réseaux, stockage 3 Evolutions technologiques et problématiques associées GPU Many-cœurs 4 Moyens de calcul disponibles Micro éclairage sur le HPC mondial Pyramide des moyens de calcul : paysages européen et français Les grilles de calcul 5 Conclusions 59 / 61

Conclusions Conclusions Fréquence d horloge, nombre de cœurs, nombre d unités flottantes, caches, stockage, réseaux... Tous les éléments ont leur importance ; l architecture doit être équilibrée pour que l ensemble soit performant Au niveau technologique Beaucoup de cœurs Des cœurs hybrides CPU / cartes accélératrices Une différence entre la vitesse de calcul et les transferts mémoire et I/O 60 / 61

Conclusions Conclusions Au niveau applicatif Nécessité d une bonne connaissance des architectures, notamment au niveau de la mémoire. Plus de croissance des performances au niveau du cœur = nécessité d élaborer des algorithmes et des programmes capables d exploiter un grand nombre de processeurs. Nécessité d exploiter le parallélisme aux différents niveaux du hardware. Programmation sur des architectures hybrides avec différents types de processeurs. 61 / 61