Architectures t avancées : Introduction Daniel Etiemble d@lif de@lri.fr Les ordinateurs : de 1946 à hier/aujourd hui ENIAC (1946) 19000 tubes 30 tonnes surface de 72 m 2 consomme 140 kilowatts. Horloge : 0 KHz. 330 multiplications/s Mon portable (2006) Intel Duo Processor 2GHz 1 Go DRAM, 0 Go disque 1, 9 kg 1
«Systèmes informatiques» Systèmes embarqués ou enfouis Ordinateurs camouflés Sony Playstation 2 Casio Camera Watch Nokia 71 Browser Phone Philips TiVo Recorder Philips DVD player Prof. Stephen A. Edwards of Columbia University 2
Les grandes classes de système Caractéristique Ordinateur de bureau Serveur Enfoui/embarqué Prix du microprocesseur 0 à 00 200 à 2000 par processeur 0,20 à 200 par processeur Microprocesseurs vendus en 2000 150 millions 4 millions 300 millions (en ne comptant que les 32 et 64 bits) Critères Prixperformance Performance graphique Débit, disponibilité, extensibilité Prix, puissance dissipée, performance pour l application Ventes des microprocesseurs (fin du siècle dernier ) Processeurs enfouis/embarqués 4 bits : 2 milliards 8 bits : 4,7 milliards 16 bits : 700 millions 32 bits : 400 millions DSP (traitement du signal) 600 millions Généralistes classiques 150 millions 3
Gammes de processeurs Haut de gamme Processeurs des PC et serveurs Spécialisé Haut de gamme des générations précédentes Ex : MIPS, PowerPC «enfouis» Spécialisé embarqué Faible consommation Temps réel Contraintes Prix Performance Encombrement Consommation Temps réel temps d exécution déterministe ou non Les applications Usage général Calcul Scientifique GRAPHIQUE Traitement du signal JAVA Bases de données WEB Cloud Enfoui et embarqué 4
Roadmap des applications enfouies Roadmap du traitement enfoui Source ITRS Design ITWG July 2003 x 40 Process Technology (nm) 130 90 65 45 32 22 Operation voltage (V) 1,2 1 0,8 0,6 0,5 0,4 Clock frequency (MHz) 150 300 450 600 900 1200 Application Real Time Video Codec Real Time Interpretation (MAX performance required) Still Image Processing MPEG4/CIF Application Web Browser TV phone (1:1) TV phone (>3:1) (Others) Electric mailer Voice recognition (input) Voice recognition (operation) Scheduler Authentification (Crypto engine) Processing Performance (GOPS) 0,3 2 14 77 461 2458 Parallelism factor 1 4 4 4 4 4 Communication speed (Kbps) 64 384 2304 13824 82944 497664 Energy Efficiency (MOPS/mW) 3 20 140 770 4160 24580 Peak Power Concumption (mw) 0 0 0 0 0 0 Stand-by Power Concumption (mw) 2 2 2 2 2 2 Battery Capacity (Wh/kg) 120 200 400 Performance Efficacité énergétique (MOPS/mW) Puissance dissipée Capacité batterie 5
Exemple : industrie automobile Hétérogénéité Sources : C. Balle Renault Les moteurs de l évolution Les contraintes économiques Li Lois économiques Volumes de vente MARCHE GRAND PUBLIC PCs Consoles de jeux Intel, Microsoft Smartphones Tablettes Apple, Samsung 6
Le modèle économique Intel Nouveau modèle plus performant tous les x années 40 Performance relative 30 20 0 0 1 2 3 4 5 6 7 8 9 Années Disponible Besoins Un autre modèle économique Performance supérieure aux besoins de «masse» 40 30 20 0 Performance relative 0 1 2 3 4 5 6 7 8 9 Années Disponible Besoins Recherche des killer applications 7
Killer Application Performance : Microprocesseur NI T exécution = NI * CPI * T c = IPC * F Temps de cycle Nombre de cycles/instruction 000 00 0 CPU F(MHz) Microarchitecture (IPC) 1 80 84 88 92 96 2000 Technologie 8
DES EXPONENTIELLES MICROPROCESSEURS CPU 2/15 2x/1,5an Performance après 1987 Performance avant 1986 Fréquence d'horloge (MOS) Evolution/an 0% % 20% 30% 40% 50% 60% DES EXPONENTIELLES MEMOIRES 0,5/ ans 2x/1,5an Bande passante Latence Quantité/Prix Capacité 0% 20% 40% 60% Evolution/an DRAM DISK 9
Transistors par puce 8 7 6 5 4 3 2 1K La loi de Moore Mémoire Microprocesseur 4K 16K 64K 8086 4004 8080 256K 1M 80286 i386 4M 16M 64M i486 Pentium 256M Pentium III Pentium II Pentium Pro 1 0 70 73 76 79 82 85 88 91 94 '97 2000 Source: Intel Processeurs Intel : nombre de transistors l année d introduction Nb de transistors 00000000 Itanium2 0000000 P4 Itanium2 000000 Itanium PIII 00000 i486 PentiumPII 0000 i286 i386 000 8086 00 4004 8080 0 1 1965 1970 1975 1980 1985 1990 1995 2000 2005 20
LES DIFFERENTIELS 000 00 0 CPU Mémoire 1 80 82 84 86 88 90 92 94 96 98 20 000 Complexité croissante de la hiérarchie mémoire : L1, L2, L3, MP Evolution des hiérarchies mémoire (1985-2000) b) c) a) CPU CPU + Caches L1 Bus système 386 L1 cache Bus système Pentium CPU superscalaire + Caches L1 Cache L2 Cache L2 Pentium Pro Bus système MP MP MP e) d) CPU superscalaire + Caches L1 PentiumII CPU superscalaire + Caches L1 Cache L2 Bus spécial Bus système Bus spécial Bus système Cache L2 MP MP RDRAM Pentium4 11
La densité de puissance 00 Watts/cm 2 0 1 i386 Plat chaud Pentium i486 Réacteur nucléaire Pentium 4 Pentium III Pentium II Pentium Pro Trainée fusée * New Microarchitecture Challenges in the Coming Generations of CMOS Process Technologies Fred Pollack, Intel Corp. Micro32 conference key note - 1999. Multiprocesseurs et puissance (d après F. Anceau) 12
Le grand virage Evolution des processeurs pour PC (Intel, AMD) De l augmentation ti de la fréquence d horloge Au parallélisme Hyperthread Multi-cœurs Processeurs Intel et AMD : Multithread et Multiprocesseurs Processeur logique 1 Processeur logique 2 Processeur physique 1 Processeur physique 2 Etat archit. (registres) Etat archit. (registres) Etat archit. (registres) Etat archit. (registres) Unités fonctionnelles Caches Unités fonctionnelles Caches Unités fonctionnelles Caches Mémoire principale Mémoire principale 13
CPU et GPU 000 GFLOPS 00 0 7800 GTX 8800 GTX 6800 Ultra 7900 GTX P4 Dual core P4 Dual core P4 8800 Ultra Core 2 Duo GTX280 GTX285 Xeon Quad T12 Westmere NVIDIA GPU Intel CPU 1 janv-03 janv-04 janv-05 janv-06 janv-07 janv-08 janv-09 janv- Energie Puissance et énergie Capacité à faire quelque q chose d utile Important pour Durée de vie des piles et batteries Facture d électricité Mesurée au cours du temps Proportionnelle à la somme des capacités et au carré de la tension (CV 2 ) 14
Les batteries Batteries au lithium : 1992 : 90 Wh/kg, 2000 : 140 à 160 Wh/kg. 2007 : de 190 à 200 Wh/kg. Source : CEA Puissance et énergie Puissance Travail effectué par unité de temps Mesuré en Watts P = CV 2 f ( : activité, C: capacités, V: tension, f : fréquence) Mesurée à sa valeur maximale Plus de puissance Plus de courant Ne peut dépasser les contraintes de puissance maximale disponible Plus de puissance Température plus élevée Ne peut dépasser les contraintes thermiques 15
Watts 250 200 150 0 50 Evolution de la puissance (à taille de puce constante) 0 Puissance fuite Puissance utile 75 Puissance/cm2 50 25 Puissance (W/c cm 2 ) ~ puce 15mm Fréquence X 1.5 chaque génération 0 Limites: 1. Puissance dissipée, 2. Alimentation, et 3. Densité de puissance 0 Le spectre d implémentation Microprocesseur Matériel ASIC Reconfigurable ASIC Haute performance dédié à l application Non modifiable Processeur Programmable Non dédié à l application Matériel reconfigurable Bon compromis 16
Espace d implémentation 17
DSP CORE D$ IP IP IP Engine I$ CONTROL BUS. MEMORY BUS. CONTROL BUS. RISC IP IP IP CORE D$ Engine I$ Platform Un grand défi : la réduction de l énergie consommée et de la puissance dissipée Effort à tous les niveaux Niveau technologique Niveau circuit/logique Niveau architectural Niveau algorithmique Niveau système Méthodologies de conception Systèmes multiprocesseurs sur puce (MPSoC) Conception à base de plateformes External Memory MMU Application Middleware / OS Niveau d abstraction consid déré Transistors Portes RTL RTL Mer de portes TA SW Blocs matériels + logiciel HW SW Mers de processeurs Mer de transistors Dessins de masques Années 70 s 80 s Années 90 (début) Années 90 (fin) 2005+ 18
Les écarts de productivité Évolution comparée du temps de conception d un circuit et du nombre de portes disponibles Écart de productivité de conception Transistors par puce (en millions),000 1,000 0 1 0.1 0.01 0.001 Capacité des circuits intégrés productivité Ecart 0,000,000 00 0 1 0.1 0.01 Productivité (K)Transistors par Homme-Mois. Où va l effort de conception? Lo ogiciel Matériel Source : IBS 2002 19
Les technologies du futur Les interconnexions devenant prédominante, jouer sur la fréquence d horloge n est plus efficace La puissance de fuite devient plus importante que la puissance active La dispersion des composants augmentent (problèmes de conception, de rendement) La conception traditionnelle pire cas devient trop pessimiste. 2.2 Performances relatives de l inverseur (sortance 4) 2.0 1.8 1.6 1.4 1.2 1.0 0.8 fast process T=-40degC typ process T=25degC slow process T=125degC Performance degradation!!! 0.6 0.19CMOS18 0.17 0.15 CMOS12 0.13 0.11 CMOS090 0.09 CMOS065 0.07 0.05 20