12/10/2012. Processeur vectoriel LES SUPERCOMPUTERS IBM 3090 VF. Fonctionnement PROCESSEUR VECTORIEL

Documents pareils
Architecture des ordinateurs

Eléments d architecture des machines parallèles et distribuées

Systèmes et traitement parallèles

Exécution des instructions machine

Initiation au HPC - Généralités

Architecture des calculateurs

Rappels d architecture

Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009. Pôle de Calcul Intensif pour la mer, 11 Decembre 2009

Les environnements de calcul distribué

AMBASSADE DE FRANCE EN ALLEMAGNE SERVICE POUR LA SCIENCE ET LA TECHNOLOGIE

Concept de machine virtuelle

Limitations of the Playstation 3 for High Performance Cluster Computing

Infrastructure de calcul du CRRI

Calcul scientifique précis et efficace sur le processeur CELL

Architecture des ordinateurs

Fonctionnement et performance des processeurs

CQP 112 Introduc/on à la programma/on. Thème 2 : Architecture d un système informa/que. Département d informa/que

CM2 L architecture MIPS32

Le supercalculateur Tera 100 Premier supercalculateur pétaflopique européen

IV- Comment fonctionne un ordinateur?

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

LES DATACENTRES. ANGD MATHRICE Novembre Françoise Berthoud Violaine Louvet. Merci à Dominique Boutigny. Site web :

MODULE I1. Plan. Introduction. Introduction. Historique. Historique avant R&T 1ère année. Sylvain MERCHEZ

Calcul Réparti et Grid Computing

Architecture des ordinateurs Introduction à l informatique

Infrastructures Parallèles de Calcul

Ecole Mohammadia d Ingénieurs Systèmes Répartis Pr. Slimane Bah, ing. PhD G. Informatique Semaine 24

Conception de circuits numériques et architecture des ordinateurs

Architectures d implémentation de Click&DECiDE NSI

Les clusters Linux. 4 août 2004 Benoît des Ligneris, Ph. D. benoit.des.ligneris@revolutionlinux.com. white-paper-cluster_fr.sxw, Version 74 Page 1

ELP 304 : Électronique Numérique. Cours 1 Introduction

Outline. Calcul Réparti et Grid Computing. Outline

DU BINAIRE AU MICROPROCESSEUR - D ANGELIS CIRCUITS CONFIGURABLES NOTION DE PROGRAMMATION

IFT2880 Organisation des ordinateurs et systèmes

Sur un ordinateur portable ou un All-in-One tactile, la plupart des éléments mentionnés précédemment sont regroupés. 10) 11)

Hiérarchie matériel dans le monde informatique. Architecture d ordinateur : introduction. Hiérarchie matériel dans le monde informatique

EPREUVE OPTIONNELLE d INFORMATIQUE CORRIGE

Retour d exprience sur le cluster du CDS

Evolution des technologies et émergence du cloud computing Drissa HOUATRA, Orange Labs Issy

NOTIONS DE RESEAUX INFORMATIQUES

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Sauvegarde des données au LAAS

Visite de presse. Le supercalculateur Tera - 10

Cours Informatique 1. Monsieur SADOUNI Salheddine

Architecture matérielle des systèmes informatiques

Matériel & Logiciels (Hardware & Software)

Rapport 2014 et demande pour Portage de Méso-NH sur Machines Massivement Parallèles du GENCI Projet 2015 : GENCI GEN1605 & CALMIP-P0121

Enseignant: Lamouchi Bassem Cours : Système à large échelle et Cloud Computing

High Performance Matrix Computations

Mesure de performances. [Architecture des ordinateurs, Hennessy & Patterson, 1996]

Cluster High Performance Computing. Dr. Andreas Koch, Cluster Specialist

Représentation des Nombres

M06/5/COMSC/SP1/FRE/TZ0/XX INFORMATIQUE NIVEAU MOYEN ÉPREUVE 1. Mardi 2 mai 2006 (après-midi) 1 heure 30 minutes INSTRUCTIONS DESTINÉES AUX CANDIDATS

Chapitre V : La gestion de la mémoire. Hiérarchie de mémoires Objectifs Méthodes d'allocation Simulation de mémoire virtuelle Le mapping

Evaluation des performances de programmes parallèles haut niveau à base de squelettes

Introduction à l architecture des ordinateurs. Adrien Lebre Décembre 2007

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

Jeu d instructions NIOS II

Théorie et codage de l information

4. Utilisation d un SGBD : le langage SQL. 5. Normalisation

INITIATIVE HPC-PME Calcul haute performance pour les PME

Serveurs et solutions PowerEdge pour les applications métiers

Cours 1 : Introduction Ordinateurs - Langages de haut niveau - Application

TAI049 Utiliser la virtualisation en assistance et en dépannage informatique TABLE DES MATIERES

Détection d'intrusions en environnement haute performance

Compilation (INF 564)

Partie 1. Professeur : Haouati Abdelali. CPGE Lycée Omar Ibn Lkhattab - Meknès haouaticpge@gmail.com

contexte cahier des charges critères de choix fonctionnalités configuration en pratique Bilan Conclusion Backuppc Logiciel de sauvegarde

Structure et fonctionnement d'un ordinateur : hardware

Portage d applications sur le Cloud IaaS Portage d application

Stockage des machines virtuelles d un système ESXi jose.tavares@hesge.ch & gerald.litzistorf@hesge.ch

MICROINFORMATIQUE NOTE D APPLICATION 1 (REV. 2011) ARITHMETIQUE EN ASSEMBLEUR ET EN C

Atelier C TIA Portal CTIA04 : Programmation des automates S7-300 Opérations numériques

Licence Sciences et Technologies Examen janvier 2010

La mémoire. Un ordinateur. L'octet. Le bit

11 Février 2014 Paris nidays.fr. france.ni.com

Structure de base d un ordinateur

Xserve G5. Présentation technologique Janvier 2004

Contexte et motivations Les techniques envisagées Evolution des processus Conclusion

Sécuristation du Cloud

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

L équipement choisit devra être nomade, il servira aux visiteurs en déplacements et sera donc sujets à des limitations de tailles et de poids.

Retours d expériences et perspectives sur les aspects énergétiques

Choix d'un serveur. Choix 1 : HP ProLiant DL380 G7 Base - Xeon E GHz

Spécifications détaillées

Leçon 1 : Les principaux composants d un ordinateur

SRS DAY: Problématique liée à la virtualisation

UNE VITESSE DE SAUVEGARDE EXCEPTIONNELLE

HP 600PD TWR i G 4.0G 39 PC

LOGICIEL DC4D MONITOR

Cours 13. RAID et SAN. 2004, Marc-André Léger

Tsoft et Groupe Eyrolles, 2005, ISBN :

THEME 1 : L ORDINATEUR ET SON ENVIRONNEMENT. Objectifs

Informatique Générale

Examen Médian - 1 heure 30

NVR Fusion IV. Pour quels marchés? Caractéristiques Matériel. Logiciel

Windows 2000: W2K: Architecture. Introduction. W2K: amélioration du noyau. Gamme windows W2K pro: configuration.

TYXAL. Annexe pour la télésurveillance et l'accès PC par modem pour les transmetteurs des gammes TYXAL et TYDOM

Cours 3 : L'ordinateur

Étude de performance d'un cluster de calcul ; Parallélisation et Application s o u s GEANT4

Transcription:

Processeur vectoriel Jean-luc.dekeyser@lifl.fr Version 2013 LES SUPERCOMPUTERS Co processeur dédié au calcul d'opérations sur des vecteurs. Un vecteur est défini comme un tableau d'opérandes. La même opération est effectuée sur l'ensemble des données. 4 Tendances architecturales: capacité des processeurs IBM 3090 VF Mémoire Gordon Moore (co-fondateur de Intel) a prédit en 1965 que la densité en transistors des semiconducteurs doublerait environ tous les 18 mois. Cache CPU Scalaire Décodeur Vecteur éléments Vecteur instructions CPU Vectoriel Les processeurs sont devenus plus petits, plus denses et plus puissants. Les réseaux, le stockage, la vitesse mémoire se sont aussi améliorés. Scalaires Valeur scalaire Vectoriels 2 5 Fonctionnement PROCESSEUR VECTORIEL IF ID FO EX SO EX IF ID FO EX SO EX EX IF ID FO EX SO EX EX EX IF ID FO EX EX EX EX EX EX EX EX 3 6 1

Intérêts Augmente la densité du code Réduit le nombre d instruction à exécuter (Ibandwith) Les données sont régulières et structurées: prise en compte hardware Intègre le contrôle de la boucle Unités fonctionnelles Plusieurs unités indépendantes Elles sont en général pipelinées Elles peuvent être parallèles 7 10 Notion de registres vectoriels Ensembles de 16 ou 64 ou 128 registres de 64 ou 128 bits Peuvent contenir des entiers et surtout des flottants Instructions de chargement spécifiques Plusieurs unités de Load/Store (3 sur le Cray) UF Pipeline input Registre output pipeline 8 11 Jeu d instructions Pipeline d addition Extension du jeu d'instructions (machine à registres vectoriels): V1 op V2 V3 opération binaire s1 op V2 V3 scalaire V1 op V2 s1 réduction M(1:n) V1 vecteur Load V1 M(1:n) vecteur Store op V1 V2 opération unaire op V1 s1 réduction unaire 9 C S A N Compare exposants Shift mantisse Add mantisses Normalise X1, Y1 C S A N Z1 X2, Y2 C S A N Z2 X3, Y3 C S A N Z3 X4, Y4 C S A N Z4 X5, Y5 C S A N Z5 X6, Y6 C S A N Z6 12 2

UF Parallèle input Registre output Pour les Load/Store Les entrées/sorties utilisent des mémoires entrelacées. Sans conflits, elles produisent une donnée par cycle processeur par port. On démarre le calcul avant que toutes les données soient arrivées 13 16 Avec deux pipelines parallèles X1, Y1 C S A N Z1 X2, Y2 C S A N Z2 X3, Y3 C S A N Z3 X4, Y4 C S A N Z4 X5, Y5 C S A N Z5 X6, Y6 C S A N Z6 A1 B8 C16 Move V3, C C= A B (3 ports d E/S) A2 B9 C17 C1 Move A,V1 A1 B1 A2 B2 A3 B3...... A64 B7 C15 Move B,V2 14 A2 B2 A3 B3 A4 B4 A5 B5 ADD V1, V2, V3 17 Chaînage de pipelines Une opération peut commencer lorsque Les deux premiers opérandes sont prêts X1 et Y1 L unité fonctionnelle est libre Dès qu un autre couple (Xi, Yi) est prêt, on l envoie vers l UF. La production d une UF est directement consommée par l UF suivante Chaînage pour les UF On peut également chaîner les UF La ou les sorties des UF sont connectées directement aux entrées des UF suivantes On obtient un Pseudo pipe-line par concaténation 15 18 3

C = (s x A) B Vload A, V1 Vload B, V2 Vmul s, V1, V3 Vadd V3, V2, V4 Vstore V4, C Historique Projet Beowulf (NASA, HPCC, début 1994) exploiter la puissance de calcul et le parallélisme potentiels d une pile de PC pour l exécution d applications scientifiques adapter la configuration de ces systèmes à faible coût aux besoins de calcul de la Nasa Configuration PC Réseau standard Ethernet Système de communication par échange de messages : TCP/IP Linux -> ExtremeLinux Octobre 1996 1,25 Gflops sur une grappe de 16 machines standard valant moins de $50 K pour une application de simulation numérique 19 22 Les machines parallèles Machine parallèle multiprocesseur très performante mais très chère, peu évolutive, facile à programmer. Les performances L unité de mesure: flops FLoating-point OPerations per Second MFlops: 1 million de flops GFlops: 1 milliard de flops TFlops: 1.000 milliards de flops PFlops: 1 millions de milliards de flops TOP500: liste des 500 machines les plus puissantes au monde http://www.top500.org/ Benchmark Linpack (Ax=b, dense) 20 23 Les grappes Grappe, Cluster, NOW, ensemble de machines standards interconnectées par un réseau à haut débit très bon marché, performance en hausse, évolutive, plus difficile à programmer efficacement. (10 15 ) (10 12 ) (10 9 ) (10 6 ) 1941 1 (Floating Point operations / second, Flop/s) 1945 100 1949 1,000 (1 KiloFlop/s, KFlop/s) 1951 10,000 1961 100,000 1964 1,000,000 (1 MegaFlop/s, MFlop/s) 1968 10,000,000 1975 100,000,000 1987 1,000,000,000 (1 GigaFlop/s, GFlop/s) 1992 10,000,000,000 1993 100,000,000,000 1997 1,000,000,000,000 (1 TeraFlop/s, TFlop/s) 2000 10,000,000,000,000 2003 35,000,000,000,000 (35 Tflop/s) Vector Super Scalar Scalar Super Scalar/Vector/Parallel Parallel (10 3 ) 21 24 4

Le concept de grille Approche pour la distribution de la puissance électrique = le réseau électrique et la haute-tension 25 28 Le dernier TOP 500 Le concept de grille informatique (GRID) Approche pour la distribution de la puissance informatique = le réseau Internet et la haute-performance (parallélisme et distribution) 29 Les origines... Les grilles Des millions de PC inoccupés... Nuits week-end = 60% Des millions de disques pratiquement vides... 1-10 Go Des millions de connexions Internet en attente d entrée clavier 2 Mo/s 27 30 5

Méta-ordinateur! 31 Grid5000 en France Pourquoi les grilles? Les problèmes de grandes tailles nécessitent une collaboration entre divers codes/centres de calculs Toujours plus de besoin en termes de puissance de calcul, de capacité mémoire et de capacité de stockage disque La puissance de n importe quelle ressource unique est petite en face de l agrégation de plusieurs ressources La connectivité réseau augmente de manière rapide à la fois en bandepassante et en disponibilité Prolifération de ressources De nombreuses grappes Des supercalculateurs Des stations de travail et des PCs par millions Complexité croissante des applications Multi-échelles Multi-disciplinaire Des volumes de données énormes De l hétérogénéité 33 6