DES SYSTEMES SUR PUCE (SoC) au MULTIPROCESSEURS (MPSoC) LIONEL TORRES GILLES SASSATELLI, PASCAL BENOIT, MICHEL ROBERT, LUCIAN OST CNFM Saint Malo 2012
CONTEXTE Aujourd hui Un Circuit (SoC) = ~2 à 4 de Transistors, X cm 2 F= 1 à 4Ghz Conso 100 W Transistor 20-30 nm Parallélisme 80-core 32-core 8-core Quad-core Dual Core
CONTEXTE Technologie, architecture & usage Les grands défis: Beyond CMOS, molecular computing, etc. A moyen terme : anticiper, faible conso., performance, fiabilité Nouvelles applications : Santé, Sécurité, HPC Innovation (ex: GMR, Memresistor, ) Repenser Technologie Architecture Usage Contrôler (ex: power, variabiloté)
ARCHITECTURE MPSOC System-on-Chip (SoC) Toutes les fonctions dans le même circuit 1 processing element Multi-Processor System-on-Chip (MPSoC) Plusieurs processing element Display Audio USB Display Audio USB Camera Camera Processor Memory Processor Memory Processor Processor Memory Bluetooth Processor Memory Processor Memory Bluetooth Processor Processor Memory Processor Memory Processor GPIO UART Keyboard SIM GPIO UART Keyboard SIM 10, 100, 1000 processeurs! > 2000 Processeurs en 2020!! Complexité croissante!! Ref : ITRS
performance Objectif : passage à l echelle (scaling!!) SoC/SiP : verrous technologiqes Energie point critique!!!!. Une demande incessante de performance Mise à l échelle de plus en plus difficile (freq. & power scaling) Confiance dans la technologie (fiabilité) 140 120 Source: Bernie Meyerson, IBM Bipolar CMOS IBM ES9000 Watts / cm 2 100 80 60 40 20 0 1950 Vacuum IBM 360 IBM 370 IBM 3033 Fujitsu VP2000 IBM 3090S NTT Fujitsu M-780 IBM 3090 CDC Cyber 205 IBM 4381 IBM 3081 Fujitsu M380 IBM RY5 IBM RY6 IBM RY4 Apache IBM GP IBM RY7 Pulsar? Pentium 4 Merced Pentium II(DSIP) 1960 1970 1980 1990 2000 2010 aging mature growing Techno 2 embryonic Techno 1 time
DEFIS : Un Constat ENERGIE Cible technologique en CMOS 22 nm Transport 1 bit 1pJ/mm Transport de 10 9 data 1s (1Ghz) 1pJ/mm x 10 9 s -1 = 1mw/mm Bus 64 Bits 64mw/mm Sur une puce plusieurs W/cm2 Calcul, commutation d un Bit 1 aj Calcul, commutation 10 9 data - 1s 1aJ x 10 9 s -1 = 1uw Il vaut mieux faire du calcul que du transport (mémoire-bus) Rapprocher calcul & transfert (parallélisme va dans ce sens)
PARALLELISME PERFORMANCE (& ENERGIE) «Single-core» Horloge à f clk N-core horloge à f clk /N ( Nf clk /N) Slower cores = lower V dd Dynamic Voltage Frequency Scaling P = f C V 2 clk L dd Au final plus efficace en ops/mm 2 /W (leakage?)
performance DES NOUVEAUX CONCEPTS 2 Concepts : «homogénéité» et «multi-level adaptation» Homogène / regular fabric s: Faciliter la conception Mieux gérer: Tolérance aux fautes, performances sous contraintes énergétique, etc. Systèmes adaptatifs: Optimisation en ligne (conso, perf.) @ niveaux Applications de moins en moins déterministe Decision Observation Action Une opportunité exploiter les technologies emergentes Technologie hybride (CMOS + X + Y; SIP, 3D) Véritable gap technologique (FD SOI, Nanotubes) mature aging growing Techno 2 embryonic Techno 1 time
DES NOUVEAUX CONCEPTS Hétérogène vs Homogène Hétérogène Centralisé CPU DSP DSP Homogène Distribué Statique RAM I/O Dynamique Mise à l échelle Compute Communication Control Manufacturing # processing units # canaux physiques Décision distribuée, adaptation Régularité, Regular arrays
SYSTEMES ADAPTATIFS ENVIRONNEMENT FONCTION contrôle MACHINE contrôle TECHNOLOGY A O FONCTION FONCTION contrôle contrôle MACHINE MACHINE contrôle contrôle TECHNOLOGY TECHNOLOGY controls observes Diagnostic D D Decision 1 SYSTEM control HARDWARE O workload Perf. Monitoring Decision D A Mapping Tuning control TECHNOLOGY O Monitoring current temp delay A Tuning V Freq...
SYSTEMES ADAPTATIFS ENVIRONNEMENT FONCTION contrôle MACHINE contrôle TECHNOLOGY FONCTION FONCTION contrôle contrôle MACHINE MACHINE contrôle contrôle TECHNOLOGY TECHNOLOGY controls observes SYSTEM control Illustration 3: -Système adaptatif multiprocesseurs robuste Illustration 2: - Optimisation (perf, Energie) distribuée HARDWARE control TECHNOLOGY Illustration 1: - Surveillance moniteur
CAPTEURS TECHNOLOGIQUES Exemple : évaluation de la variabilité SYSTEM control HARDWARE Variability monitors control Illustration 1: ie TECHNOLOGY - Surveillance variabilité
Variabilité Evolution nœud Technologique Variabilité (intrinsèque : dopage, V T, W, L ) Lié à l environnement (V and T) Violations de timing (setup & hold times) Impact sur la fréquence, fonctionnalité?? current current Otemp delay delay Monitoring D V V AFreq..... Tuning Approches Analyse off-line : Statistical (Static) Timing Analysis: SSTA On-line : Control adaptatif, surveillance et action 100 80 Critical Dimensions V DD V TH,total Variability, 3 / (%) ΔV TH Variation >> 30% @22nm!!! 60 40 V TH,dopants 20 0 2010 2013 2016 Year
Variabilité Mesure de la variabilité (off-line) - Capteurs Capteurs Subsystem: 1st configuration Circuit 2D Cartography current current Otemp delay delay Monitoring D V V AFreq..... Tuning Décision? FPGA Subsystem: 2nd configuration Circuit 2D Cartography Adapter le système en prenant en compte la variabilité (On-line) Ajustement fréquence, tension en fonction de l analyse locale de la variabilité In_A Sensor RN : Reset QN : Warning / Error FPGA Clk_DFF Datapath D Q Detection window DFF Tsetup CLK_LEAF Clock Tree Rebaud and Al. Digital Timing Slack Monitors and their Specific Insertion Flow for Adaptive Compensation of Variabilities, 2010 In Time window generator CC CLK_DFF CP
Système Adaptatif Théorie des jeux SYSTEM control Illustration 2: Optimization distribuée HARDWARE Decision control TECHNOLOGY current temp delay Monitoring V Freq... Tuning
Théorie des Jeux Optimisation distribuée Théorie des jeux MP-SoC Joueurs PE Décision actionneurs dans les PE (e.g.: DVFS) Gain individuel objective function per PE (e.g.: performance, power) Solution: Nash Equilibrium Maximimiser la fonction de gain Les atouts : Algorithme distribué Maximization local des gains PE-1 Performance Power DVFS set Performance Power PE-3 DVFS set PE-2 Performance Power DVFS set Performance Power PE-4 DVFS set
8.933 mm Théorie des Jeux Optimisation distribuée Contexte : utilisation pour > 100 proceseurs Fonction cout adaptable : conso, performancance, température etc.. Implantation aisée sur Silicium Mise à l échelle possible pour > 100 processeurs RAC OFDM ALAMOUTI MOD. TX MOD. units ARM Core CDMA BIT TURBO MOD. MAPPING INTER. CODING CONVOL. CODING AHB Subsystem NoC PERF. RAM1 CPU RAM2 EXT RAM CTRL CFO CORR. CHANNEL EQUALIZER EST. CONVOL. DECOD. ETHERNET SLOT SYNCHRO. OFDM RX CDMA DE- DEMOD. DEMOD. MAPPING units BIT DE- INTER. PUSCHINI and Al. «A Game- Theoretic Approach for Run-Time Distributed Optimization on MP-SoC», International Journal of Reconfigurable Computing DART Module
Système Adaptatif Tolérance aux fautes Illustration 3: -Système adaptatif multiprocesseurs robuste SYSTEM Diagnostic Decision control 1 HARDWARE control workload Perf. Monitoring Mapping Tuning TECHNOLOGY
fiabilité des MPSoCs, approche système Protection Statique J. A. Kahle, M. N. Day, H. P. Hofstee, C. R. Johns, T. R. Maeurer, and D. Shippy. 2005. Introduction to the cell multiprocessor. IBM J. Res. Dev. 49, 4/5 (July 2005), 589-604. Défaut Fabrication Test? Isolation Augmentation rendement 93% 7% 1 PE 61% 39% Silent Fault Numerical or Delay fault Failure or Crash fault Fautes latentes? J.-M. Daveau, A. Blampey, G. Gasiot, J. Bulone, and P. Roche, "An Industrial Fault Injection Platform for Soft-Error dependability Analysis and Hardening of Complex System-On-a-Chip," in International Reliability Physics Symposium (IRPS), Montreal, Canada, 2009. Appliquer ce mécanisme en cours de fonctionnement 19
Amélioration fiabilité des MPSoCs Principe Detection Isolation Pre-reset Reset Reconfiguration & Booting Reload An unavailability is detected PE Health register MPSoC Health memory =0 Reset Isolation (HW) Processing Element (HW) Boot Loader (SW) Operating System (SW) Self pre-diagnostic (SW) Protection (HW/SW) 16 Processing Elements X 2.71 MTTF 20
Source: J.O. Klein, IEF, Paris, France FIABILITE VARIABILITY $$$$ PERFORMANCE PC-RAM M-RAM Nanowire Graphene 3-D C-Nanotube Memristor CB-RAM Neuron X-Bar Bottom-up 3D SET Q-Bit Spintronic Molecular
2040 NEW PARADIGMS FOR INFORMATION PROCESSING? 3 principles prevailing today : Boole algebra and associate algorithms Turing machine/ Von Neumann architecture CMOS with scalability properties Challenges : Huge thermal dissipation Design and fabrication of zero defect very complex nano-systems Opportunities: from digital to quantum or adiabatic computing Neuromorphic systems using memristors? Answer : See you at Saint Malo 2040 Michel ROBERT & A. CAPPY
IMPACT SUR NOS FORMATIONS IMPOSSIBLE DE COUVRIR UN TEL SPECTRE ATTRACTIVITE - Impact Sociétal actuel - Application/usages - Liens socio-économique COLLABORATIF -Equipe /Projets - Virtuel -Multi-Disciplines -Créativité FONDAMENTAUX - Math/Physique - Electronique SPECIALISATION
Exemple : la securité numerique Fuites d information utilisées dans les attaques Emissions EM Son Fautes Calcul cryptographique Consommation Temps Température Serveurs Portables Ordinateurs de bureau Set-top box PC Distributeurs cartes à puce Réseau d entreprises Electromagnetic Analysis Terminal WLAN Bossuet & Fischer Téléphone PDA Radio logicielle Véhicule Lecteur mémoire