Exponentielles et Murs. LRI Université Paris Sud



Documents pareils
Architecture des ordinateurs

Initiation au HPC - Généralités

Hiérarchie matériel dans le monde informatique. Architecture d ordinateur : introduction. Hiérarchie matériel dans le monde informatique

Architecture des calculateurs

Intel Corporation Nicolas Biguet Business Development Manager Intel France

Exécution des instructions machine

Systèmes et traitement parallèles

Fonctionnement et performance des processeurs

Introduction à l architecture des ordinateurs. Adrien Lebre Décembre 2007

Vers du matériel libre

Architecture des Ordinateurs. Partie II:

Outil d aide au choix Serveurs Lot 4 Marché Groupement de Recherche

Choix d'un serveur. Choix 1 : HP ProLiant DL380 G7 Base - Xeon E GHz

Tout savoir sur le matériel informatique

Eléments d architecture des machines parallèles et distribuées

HP 600PD TWR i G 4.0G 39 PC

Segmentation d'images à l'aide d'agents sociaux : applications GPU

en version SAN ou NAS

Chapitre 4 : Les mémoires

Leçon 1 : Les principaux composants d un ordinateur

1 Architecture du cœur ARM Cortex M3. Le cœur ARM Cortex M3 sera présenté en classe à partir des éléments suivants :

GCOS 7 sur microprocesseur standard Diane Daniel POIRSON 14 octobre 2004 Matériels 64 / DPS 7 / DPS 7000 Architecture & Evolution - Daniel POIRSON 1

THÈSE. Pour obtenir le grade de. Spécialité : Informatique. Arrêté ministériel : 7 août Présentée et soutenue publiquement par.

Tests de performance du matériel

Une méthode de conception de systèmes sur puce

EMETTEUR ULB. Architectures & circuits. Ecole ULB GDRO ESISAR - Valence 23-27/10/2006. David MARCHALAND STMicroelectronics 26/10/2006

Quantification d incertitude et Tendances en HPC

Ordinateur portable Latitude E5410

<Insert Picture Here> Solaris pour la base de donnés Oracle

Infrastructures Parallèles de Calcul

Séminaire RGE REIMS 17 février 2011

vbladecenter S! tout-en-un en version SAN ou NAS

Informatique Industrielle Année Architecture des ordinateurs Note de cours T.Dumartin

Hétérogénéité pour atteindre une consommation énergétique proportionnelle dans les clouds

Switching PCIe Photonique/Silicium Intel Connectique Intel MXC

Runtime. Gestion de la réactivité des communications réseau. François Trahay Runtime, LaBRI sous la direction d'alexandre Denis Université Bordeaux I

Architecture ordinateur. Organisation mémoire et Entrées/Sorties

Spécifications détaillées

Rappels d architecture

LES MÉMOIRES FLASH : ENTRE MÉMOIRE VIVE ET MÉMOIRE DE STOCKAGE. Etienne Nowak 12 mars Etienne Nowak - 12 mars GIS-SPADON

ELP 304 : Électronique Numérique. Cours 1 Introduction

Spécifications détaillées

Exigences système Edition & Imprimeries de labeur

Génération de code binaire pour application multimedia : une approche au vol

Conception de circuits numériques et architecture des ordinateurs

Eternelle question, mais attention aux arnaques Question qui est souvent mise en premier plan => ce n est pas une bonne idée

Contrôle Non Destructif : Implantation d'algorithmes sur GPU et multi-coeurs. Gilles Rougeron CEA/LIST Département Imagerie Simulation et Contrôle

Exigences système Commercial & Digital Printing

MODULE I1. Plan. Introduction. Introduction. Historique. Historique avant R&T 1ère année. Sylvain MERCHEZ

Configuration système requise pour les grandes et moyennes entreprises

Où sont-elles? Presque partout

Pour obtenir le grade de. Arrêté ministériel : 7 août Sylvain Genevès

Sur un ordinateur portable ou un All-in-One tactile, la plupart des éléments mentionnés précédemment sont regroupés. 10) 11)

TRANSFORM IT + BUSINESS + YOURSELF

TVTools Cloud Edition

LOT 1 - ACQUISITION DE SERVEURS INFORMATIQUES LOT 2 - ACQUISITION DE 5 POSTES INFORMATIQUES

Matériel & Logiciels (Hardware & Software)

Exigences système Edition & Imprimeries de labeur

Configuration système requise. pour les grandes et moyennes entreprises

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

11 Février 2014 Paris nidays.fr. france.ni.com

NFC EMV MODÈLE : TABLETTE ELO PRIX DE LISTE DE BASE (USD) : $

Protection de l Investissement Virtualisation, Efficacité énergétique

Module : Virtualisation à l aide du rôle Hyper-V

Éléments d'architecture des ordinateurs

Dell Vostro 3350/3450/3550/3750

Liste de prix PC Portables SAMSUNG Mars 2011 v1.1

Rapport 2014 et demande pour Portage de Méso-NH sur Machines Massivement Parallèles du GENCI Projet 2015 : GENCI GEN1605 & CALMIP-P0121

On distingue deux grandes catégories de mémoires : mémoire centrale (appelée également mémoire interne)

Devis Fonctionnel N dossier : D1501

Console de supervision en temps réel du réseau de capteurs sans fil Beanair

IFT1215 Introduction aux systèmes informatiques

INF6500 : Structures des ordinateurs. Sylvain Martel - INF6500 1

Fiche COMPOSANTS ELECTRONIQUES

Les tablettes. Présentation tablettes Descriptif Fournisseurs Caractéristiques Comparatifs Conseils Perspectives Démonstration

Robot WIFIBOT Lab V3. 4 roues motrices

Limitations of the Playstation 3 for High Performance Cluster Computing

UNIVERSITE CATHOLIQUE DE LOUVAIN École Polytechnique de Louvain

Guide de gestion des ressources de vsphere

Journée Utiliateurs Nouvelles du Pôle ID (Informatique) Pierre Neyron, LIG/CNRS

UNIVERSITÉ D ORLÉANS ÉCOLE DOCTORALE MIPTIS MATHÉMATIQUES, INFORMATIQUE, PHYSIQUE THÉORIQUE ET INGÉNIEURIE DES SYSTÈMES. THÈSE présentée par :

*Offre limitée au stock disponible - Prix affichés basés sur une TVA française de 19.6%.

Une nouvelle génération de serveur

SERVEUR LYNX CALLEO DATACENTER 2460

Une histoire de la microélectronique

Série Pro Toshiba Business Vision

Présentation d HyperV

Structure de base d un ordinateur

cc.region.beaujeu@wanadoo.fr Site Internet Actuellement nous trouvons ce schéma réseau :

Découvrez les Nouveautés Février 2010 du Catalogue PC Pack PRO

CUOMO PC Route d Oron Lausanne 021/

Satellite Pro R50 C O N Ç U P O U R V O T R E E N T R E P R I S E. TOSHIBA recommande Windows 8.

Editeur de solutions innovantes C 3. Solution globale managée de communication et de téléphonie sur IP

Serveurs et solutions PowerEdge pour les applications métiers

PROJECT POUR LE SYSTÈME DE SURVEILLANCE PAR CAMERA BASÉ SUR TECHNOLOGIE AXIS, PANNEAUX SOLAIRES ET LUMIERE DU LEDS BLOC D APARTEMENT LAURIER.

THEME 1 : L ORDINATEUR ET SON ENVIRONNEMENT. Objectifs

COLLEGE ADRIEN CERNEAU

Contribution à la conception par la simulation en électronique de puissance : application à l onduleur basse tension

Software and Hardware Datasheet / Fiche technique du logiciel et du matériel

Guide Mémoire NETRAM

Transcription:

Exponentielles et Murs Daniel Etiemble LRI Université Paris Sud

Exponentielles et murs 100000 10000 1000 100 60% 10 Ne pas franchir 7% 1 0 5 10 15 20 25 30 A franchir! 2

Des équations fondamentales Temps d exécution d un programme Puissance dissipée CMOS = 0 (autrefois!) 0

Plan (en vrac) Exponentielles Technologie Moore Performances Puissance dissipée Coûts de fabrication. Murs Chaleur IPC Mémoire Conception Programmation parallèle? Relations entre exponentielles et murs 4

Les exponentielles En profiter Utilisation dans les applications Puissance de calcul, capacité mémoire, etc. Exemple : la traduction automatique Les combattre btt Continuer à réaliser la progression exponentielle Performances : microarchitecture et architecture Traitement : explosion de la taille des données Les deux à la fois Exemple : calcul scientifique

La loi de Moore Version correcte Le nombre de transistors par puce double tous les ans / 18 mois / 2 ans Versions «incorrectes» Doublement tous les deux ans De la performance Du nombre de cœurs par puce Etc 6

La loi de Moore 7

Les «nœuds» technologiques Source S Grille G Drain D Grille S substrat (bulk) D Oxyde (Si O 2 ) Semiconducteur Silicium dopé Une fin? Il est difficile de faire des prévisions (surtout pour le futur) Voir les prévisions passées et la réalité Vers les limites physiques Quand? 8

Remarques sur les prévisions Paolo Gardini (Intel Fellow ITRS Chairman) http://www.ewh.ieee.org/r6/scv/eds/slides/2014 Mar 11 Paolo.pdf Lesson 2 «Predictors of Engineering Limits have Always been Proven Wrong by The Right Improvements» Lesson 3 «It Would be Wrong to Believe that the Right Fundamental Limits Don t Exist» 9

«Predictors of Engineering Limits have Always been Proven Wrong by The Right Improvements» Un exemple Transistor 3D et Technologie FinFET Vitesse Courant de fuite 10

«It Would be Wrong to Believe that the Right Fundamental Limits Don t Exist» Nœuds et longueur de grille Nœuds 11

Coûts de fabrication

Fonderies pour les autres (14 13) Croissance exponentielle des coûts de fonderie (loi de Rock) 10000 1000 100 10 1 Revenus (millions $USD) 2013 GLOBALFOUNDRIES TO ACQUIRE IBM'S MICROELECTRONICS BUSINESS Acquisition Enables GLOBALFOUNDRIES to Become a World Leader in Semiconductor Foundry Technology; 13

Vitesse des portes T transit (ps) 1000 Inverseurs 100 10 1000 100 Noeud technologique (nm) 1 10 Sources : STmicroelectronics 14

Nombre de transistors (microprocesseurs) 10 000 000 000 Xeon Phi 1 000 000 000 100 000 000 10 000 000 1 000 000 80486 1 µm 0.8 µm 0.5 µm 0.35 µm 0.25 µm 180 nm 130 nm 90 nm 65 nm 45 nm 40 nm 32 nm 22 nm 15

Nombre de transistors Millions de transis stors 10000 1000 100 10 1 GPU 350 nm 250 nm 250 nm 220 nm 180 nm 130 nm 110 nm 90 nm 90 nm 80 nm 65 nm 55 nm 40 nm 28 nm sistors Million ns de tran 10000 1000 100 10 FPGA 130 nm 90 nm 65 nm 40 nm 28 nm 20 nm 16

Surface de puce 400 350 300 250 Pentium Pro Pentium AMD K10 SPARC T3 mm 2 200 150 100 50 0 Core i7 386 Pentium III 1500 nm1000 nm 800 nm 500 nm 350 nm 250 nm 180 nm 130 nm 90 nm 65 nm 45 nm 40 nm 32 nm 22 nm Surfaces entre 1 et 7 cm 2 Neon Nehalem 45 nm 685 mm 2 Power8 22 nm 650 mm 2 17

Une ou deux puces Opérateurs flottants t Coprocesseurs (ex : x87) Intégrés Caches Externes Internes (L1 puis L1 L2 L2 puis ) Multi cœurs Du coprocesseur à l intégration lintégration dans la même puce CPU et GPU 2 pucesdistinctes De puces distinctes GPU intégré (APU) à une seule puce 1 puce Cluster de multi cœurs 18

Evolution des caches CPU CPU cache D - L1 cache I L1 Cache 386 Mémoire Cache Mémoire L2 CPU L1-ID CPU L1-ID cache L2 cache L2 Power6 Cache L3 Mémoire CPU Pentium cache D - L1 Cache L2 cache unifié I L1 Mémoire CPU L1-ID cache L2 cache L3 Cache L4 8 cœurs Mémoire CPU L1-ID cache L2 cache L3 Pentium 4 Power 8 19

Un ou plusieurs circuits intégrés Exemple : GPU ou APU APU = CPU + GPU dans la même puce. 20

Performance microprocesseurs (1980 2005) T exécution = NI * CPI * T c = NI IPC * F Temps de cycle Nombre de cycles/instruction 10000 1000 100 10 CPU F(MHz) Microarchitecture (IPC) 1 80 84 88 92 96 2000 Technologie 21

Exponentielles (plus ( l exponentielles que d autres) Evolution / an Capacité DRAM 1/Latence DRAM Débit DRAM Performance après 86 Performance avant 87 Fréquence 0% 10% 20% 30% 40% 50% 60% 70% 22

Parallélisme d instructions Mur de l IPC lipc Nombre d instructions exécutables/cycle Evolution très limitée de 1990 à 2015 ROB µop/cycle Station réservation Registres physiques entiers Registres physiques flottants 256 128 64 32 16 8 4 Renommage ROB Renommage registres µop fusionnées (10 à 35%) 2 1 1995 2000 2011 2013 Pentium Pro Pentium 4 Sandy Bridge Haswell 23

Algorithme de Tomasulo RECHERCHE ASSOCIATIVE Instructions à exécuter @ Ra @ Rb @ Ra @ Rb Registres OP1 OP2 @ R @ R 24

o o o : simplifier les recherches Renommage + ROB associatives Pentium Pro, PIII, Nehalem Netburst (P4) Sandy Bridge, g, Haswell Recherches associatives complexes Bibliothèques versus «full custom» (cas ARM) 25

Banc de registres multi ports Registres double accès Registres N ports Temps accès proportionnel à N Surface proportionnelle à N 2

Le mur de la chaleur 1000 Watts s/cm 2 Réacteur nucléaire 100 Pentium 4 10 1 i386 Hot plate i486 Pentium Pentium III Pentium II Pentium Pro Traîne fusée * New Microarchitecture Challenges in the Coming Generations of CMOS Process Technologies Fred dp Pollack, Intel Corp. Micro32 conference key note - 1999. 27

Puissance dissipée GPU 28

Puissance dissipée en CMOS Pd = Pd statique + Pd dynamique Puissance statique Courants de fuite Puissance dynamique P dyn =. C i.v dd2.f dyn i dd Fréquence Tension d alimentation 29

Puissance statique : technologie Technologie Ex : Technologie SoI (IBM) réduit les capacités Ex : transistor 3D (Intel) 30

Puissance statique : circuiterie Circuiterie Ex : Masses virtuelles (caches du Xeon) 31

Puissance dynamique Circuiteriei i «clockgating»: n activer que les parties utiles Plusieurs tensions d alimentation Transistors rapides, moyens et lents (tension de seuil Vt) Architecture Fréquence d horloge (F) Complexité du circuit Processeur Caches 32

N activer Nactiver que les parties utiles Plusieurs modes de fonctionnement 33

5 ème génération Intel Core Core M Pentium Celeron LES DIFFERENTS ETATS

Mur de la chaleur Arrêt de l augmentation de F Fin du «free lunch» Haut et milieu de gamme Tournant vers les multi cœurs Bas de gamme Simplification des architectures Utilisation du parallélisme Parallélisme de données dans les monoprocesseurs (SIMD et SIMT) Multi cœurs 35

Parallélisme de données : réduire NI CPU Tex = NI * CPI* Tc SIMD 1 instruction à plusieurs données SSE2/3/4 Neon Altivec X3 X2 X1 X0 Y3 Y2 Y1 Y0 op op op op X3 op Y3 X2 op Y2 X1 op Y1 X0 op Y0 source 1/dest. source 2 source 1/dest. GPU SIMT 1 instruction pour plusieurs threads Instruction Decoder and Warp Scheduler registers registers registers registers registers registers thread

Multiprocesseurs et puissance (d après F. Anceau) 37

Multi cœurs haut de gamme Ivy bridge 2013 22 nm 1,86 10 9 T 2,57 cm 2 38

Et le «petit» dernier 14 nm D1540 8 cœurs 15 Mo caches L3 2 GHz 45 W

Cc NUMA (exemple AMD) 40

Embarqué : des processeurs très différents Microcontrôleurs 8 bits 8051! 9000 8000 7000 6000 5000 4000 3000 2000 1000 Des processeurs 32 bits Des multi cœurs 0 Des SoC Million ns de dollars 1998 2003 2008 4 bits 8 bits 16 bits 32 bits Contraintes Taille du code Consommation Surface de puce 41

Intel Atom x3 c3440 CPU 4 cœurs Modem 4G Vidéo WiFi Bluetooth Radio FM

Kalray MPPA 256 400 MHz 5 voies Monte Carlo Option Pricing 43

Modification des «moteurs»

La logique synchrone CLK T transit (ps) LOGIQUE COMBINATOIRE (n niveaux) Temps cycle Nb portes à 1 GHz 1000 100 10 Temps de cycle fixé Mur de la chaleur Avec les nœuds technologiques successifs Diminution i i possible du nombre d étages de pipelines 1000 100 Noeud technologique (nm) 10 1 45

Des pipelines plus courts? Moins d étages de pipeline Structures matérielles plus simples Pédi Prédiction i de branchement moins importante Applicables à tous les types de processeurs Processeurs sans pipelines d exécution????? Suppression des aléas (structurel, données, branchement) Moins de registres Contrôle plus simple Consommation réduite Simplification de la hiérarchie mémoire 46

Multi cœurs et FPGA Réduction du différentiel de fréquences entre processeurs et FPGA Altera : 1 GHz en 14 nm Intel

CPU BA20 (IP Cast) VERSION MODERNE DU 8051 48

Fréquence Etages de pipeline Comparaisonde différents processeurs scalaires (jeu d instructions BA2) Caractéristiques ti BA20 BA21 BA22 (CE/AP) BA25 NB étages 1 2 5 7/12 CoreMarks/MHz 3,41 2,77 2,93 2,51 FMAX @TMSC65LP 75 MHz 150 MHz 400 MHz 800 MHz CoreMarks 256 415 1175 2000 Portes équivalentes > 10 K > 10 K >25 K >35 K > 150 K Caches L0 /L0 L0 et L1 MMU /L0 L0 et L1 49

Mur mémoire : NUMAS Regs cache D - L1 cache Processeur I L1 Cache L2 unifié Cache L3 Mémoire disque Hiérarchie de caches Clusters STRUCTURATION DES DONNEES EN FONCTION DE LA HIERARCHIE MEMOIRE MODELES DE PROGRAMMATION : Mémoire partagée / Mémoire distribuée 50

Caches privés ou partagés Complexification des problèmes de cohérence 51

Mur mémoire : débits SERVEURS DELL 52

Mur mémoire : débits 10000 GB/s GFLOPS GPU Nvidia 1000 X20 X9 100 PCIe1.0 x 16 PCIe2.0 x 16 PCIe3.0 x 16 2007 2010 10 2014 GPUs 65 55 65 40 40 28 28 28 nm 53

Mur mémoire : CPU et GPU CPU MP CPU PCI express GPU Mémoire GPU Eviter PCIe Puces soudées APU Débit maximum PCIe PCIe 1.0 x 16 : 4 Go/s PCIe 2.0 x 16 : 8 Go/s PCIe 30x 3.0 16 : 16 Go/s PCIe 4.0 (2016) Contrôleur mémoire «pinned» du CPU 54

Example: The Memory Capacity Gap Core count doubling ~ every 2 years DRAM DIMM capacity doubling ~ every 3 years Memory capacity per core expected to drop by 30% every two years Trends worse for memory bandwidth per core! 55

Hétérogénéité : CPU + accélérateurs Superordinateurs Multi cœurs et GPUs Multi cœurs et Xeon Phi Multi cœurs et FPGA MPSoC CPU / Multi cœurs/dsp/ FPGA 56

Et la programmation? Clusters de multi cœurs Mémoire partagée (OpenMP Pthreads) Mémoire distribuée (MPI) + GPU Cuda / OpenCL + DSP + FPGA + D. A. Paterson (IEEE Spectrum Juin 2010) The Trouble With Multicore Chipmakers are busy designing microprocessors that most programmers can't handle 57

Un autre différentiel Évolution comparée du temps de conception d un circuit et du nombre de portes disponibles 10,000 1,000 100 10 1 Écart de productivité de conception Capacité des Ecart Transistors par circuits intégrés puce (en millions) 0.1 1 productivité 0.01 0.001 100,000 10,000000 1000 100 10 0.1 0.01 Productivité (K)Transistors par Homme Mois. 58

Conclusions (1) Exponentielles : propriété n 1 de l architecture t des processeurs / ordinateurs Les exponentielles provoquent des murs, infranchissables ou à contourner Complexification Hétérogénéité matérielle Les accélérateurs disparaissent (on chip) et réapparaissent plus nombreux (GPU, FPGA ) Complexification de la hiérarchie mémoire Hétérogénéité é éité logicielle i ll Modèles de programmation différents 59

Conclusion (2) : exponentielle et thèse 10000 Performance Performance CoûtC Conditions d utilisation 100 Durée thèse Progression «normale» «j oublie l exponentielle» 1 Années Le référentiel (état de l art) évolue exponentiellement. 60

Recherche en archi : masochisme? Pourquoi avoir choisi iinfo/archi hi? Référentiel à évolution rapide ou exponentielle Architecture desordinateurs Données massives Et non un domaine à référentiel fixe ou à évolution très lente? Science de la terre Physique Chimie Biologie (végétale animale) Recherche médicale Ou Mathématiques 61

Dernier théorème de Fermat Formulé par Fermat vers 1630 x n + y n = z n n a na pas de solutions entières non nulles quand n > 2. Démontré par Andrew Wiles en 1995 Plus de350ans plus tard Problèmes et conditions de recherche sont immuables dans le temps 62

Questions? En évitant, dans la mesure du possible, les questions sur le futur! {joke} 63

Exécution o o o o o = recherches associatives Exemple : «ROB» dans Metaflow (DRISS) Op source 1 Op source 2 Destination N V N reg ID V N reg ID D? N reg Résultat ID1 V R2 V R1 D? R1 DIV R1,R2,R1 ID2 V R7 R1 ID1 D? R3 ADD R3,R7,R1 ID3 V R8 V R2 D? R1 SUB R1,R8,R2 ID4 R3 ID2 R1 ID3 D? R4 MUL R4,R3,R1, ID5 V R6 V R5 D? R4 XOR R4,R6,R5 64