Plan. Architectures Parallèles. Architectures parallèles: Motivation. Architecture séquentielle: "de von Neuman"

Documents pareils
Parallélisme et Répartition

INF6500 : Structures des ordinateurs. Sylvain Martel - INF6500 1

Initiation au HPC - Généralités

Cours de Systèmes d Exploitation

Eléments d architecture des machines parallèles et distribuées

Données Réparties. Thibault BERNARD.

DG-ADAJ: Une plateforme Desktop Grid

6 - Le système de gestion de fichiers F. Boyer, UJF-Laboratoire Lig, Fabienne.Boyer@imag.fr

Chapitre 4 : Exclusion mutuelle

Exécution des instructions machine

Systèmes et traitement parallèles

Projet de Veille Technologique

Structure fonctionnelle d un SGBD

Gestion de mémoire secondaire F. Boyer, Laboratoire Sardes

Technologie SDS (Software-Defined Storage) de DataCore

NOTIONS DE RESEAUX INFORMATIQUES

Windows Internet Name Service (WINS)

Qualité du logiciel: Méthodes de test

Techniques de stockage. Techniques de stockage, P. Rigaux p.1/43

Travail d évaluation personnelle UV valeur C : IRE. Planification de réseaux : Simulateur IT-GURU Academic Edition

«clustering» et «load balancing» avec Zope et ZEO

Ebauche Rapport finale

Contributions à l expérimentation sur les systèmes distribués de grande taille

Fonctionnement et performance des processeurs

Architecture des ordinateurs

LE SAN ET LE NAS : LE RESEAU AU SERVICE DES DONNEES

Conception des systèmes répartis

Leçon 1 : Les principaux composants d un ordinateur

Chapitre 1 - Langages de description d architectures matérielles hybrides

Architecture des ordinateurs

Introduction aux algorithmes répartis

Conception de circuits numériques et architecture des ordinateurs

CH.3 SYSTÈMES D'EXPLOITATION

Comme chaque ligne de cache a 1024 bits. Le nombre de lignes de cache contenu dans chaque ensemble est:

Fonctions Réseau et Télécom. Haute Disponibilité

Sauvegarde collaborative entre pairs Ludovic Courtès LAAS-CNRS

Programmation parallèle et distribuée

La continuité de service

GESTION DE LA MEMOIRE

Informatique Générale Les réseaux

Evaluation des performances de programmes parallèles haut niveau à base de squelettes

Consolidation de stockage

INTRODUCTION AUX SYSTEMES D EXPLOITATION. TD2 Exclusion mutuelle / Sémaphores

Programmation parallèle et distribuée

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN

Rapport du projet Qualité de Service

Sanity Check. bgcolor mgcolor fgcolor

ISO/CEI NORME INTERNATIONALE

10 problèmes de réseau courants que PRTG Network Monitor vous aide à résoudre

Les réseaux cellulaires

<Insert Picture Here> Solaris pour la base de donnés Oracle

Chapitre VII : Principes des réseaux. Structure des réseaux Types de réseaux La communication Les protocoles de communication

Architectures haute disponibilité avec MySQL. Olivier Olivier DASINI DASINI - -

Architecture des calculateurs

Hubert & Bruno Lundi 12 octobre 2009 SAINT-QUENTIN (02)

Contexte et motivations Les techniques envisagées Evolution des processus Conclusion

ARBRES BINAIRES DE RECHERCHE

Eléments de spécification des systèmes temps réel Pierre-Yves Duval (cppm)

On distingue deux grandes catégories de mémoires : mémoire centrale (appelée également mémoire interne)

Chapitre V : La gestion de la mémoire. Hiérarchie de mémoires Objectifs Méthodes d'allocation Simulation de mémoire virtuelle Le mapping

1. Systèmes d entrée/sortie 2. Systèmes de fichiers 3. Structure de mémoire de masse (disques)

Livre blanc Haute disponibilité sous Linux

Cours de Génie Logiciel

Problèmes liés à la concurrence

Chapitre 4 : Les mémoires

Pré-requis techniques

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

Artica. La déduplication. Révision Du 08 Février 2011 version

Argument-fetching dataflow machine de G.R. Gao et J.B. Dennis (McGill, 1988) = machine dataflow sans flux de données

Introduction à l Informatique licence 1 ère année Notes de Cours

Un concept multi-centre de données traditionnel basé sur le DNS

Détection d'intrusions en environnement haute performance

Plan du Travail. 2014/2015 Cours TIC - 1ère année MI 30

Big Data et Graphes : Quelques pistes de recherche

Tests de performance du matériel

ELP 304 : Électronique Numérique. Cours 1 Introduction

Votre Réseau est-il prêt?

Big Data et Graphes : Quelques pistes de recherche

Chapitre 5 : Flot maximal dans un graphe

Exclusion Mutuelle. Arnaud Labourel Courriel : arnaud.labourel@lif.univ-mrs.fr. Université de Provence. 9 février 2011

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

COTISATIONS VSNET 2015

Réseau : Interconnexion de réseaux, routage et application de règles de filtrage.

WebSphere MQ & Haute Disponibilité

Dimensionnement Introduction

EPREUVE OPTIONNELLE d INFORMATIQUE CORRIGE

Réseau longue distance et application distribuée dans les grilles de calcul : étude et propositions pour une interaction efficace

NetCrunch 6. Superviser

Architecture des ordinateurs Introduction à l informatique

Licence Sciences et Technologies Examen janvier 2010

Informatique Industrielle Année Architecture des ordinateurs Note de cours T.Dumartin

Les diagrammes de modélisation

Cahier des clauses techniques particulières

FORMATION CN01a CITRIX NETSCALER

Activité 1 : Création et Clonage d'une première machine virtuelle Linux OpenSuSE.

EMC Avamar : sauvegarde et restauration hautes performances pour un software-defined data center

Oracle Maximum Availability Architecture

INSTITUT LIMAYRAC. enseignement supérieur Toulouse. Vincent de Prato BTS Informatique de Gestion. Option Administrateur de Réseaux Locaux

Conception. Génie Logiciel. Renaud Marlet. LaBRI / INRIA (d'après A.-M. Hugues) màj 17/04/2007

Potentiels de la technologie FPGA dans la conception des systèmes. Avantages des FPGAs pour la conception de systèmes optimisés

Transcription:

Plan Architectures Parallèles N. Hameurlain http://www.univ-pau.fr/~hameur Architecture Séquentielle Architecture Parallèle Motivation Modèles Multiprocesseurs Multicalculateurs Master TI, M1, Université de Pau 1 Master TI, M1, Université de Pau 2 Architecture séquentielle: "de von Neuman" Architectures parallèles: Motivation 1. Les besoins des applications en puissance de traitement; 2. Les limites de l'approche microprocesseur; Unité de Traitement Ordres Unité de Contrôle Processeur Master TI, M1, Université de Pau 3 3. L'existence de la propriété du parallélisme dans les applications. Master TI, M1, Université de Pau 4 1. Les besoins des applications en puissance de traitement La latence du traitement: temps nécessaire pour l'exécution d'un traitement; le débit du traitement : nombre de traitement exécutable par unité de temps. 2. Les limites de l'approche microprocesseur(1) Les machines séquentielles (un seul processeur) sont construites autour des microprocesseurs (standardisés). L'inadéquation du format de données, et des opérations des microprocesseurs aux caractéristiques de certaines applications (traitement d'images, analyse numériques,...) Master TI, M1, Université de Pau 5 Master TI, M1, Université de Pau 6

Les limites de l'approche microprocesseur(2) les limites de l'exécution séquentielle découlent donc des limites des microprocesseurs: capacités d'accès à la mémoire, performance, tolérance aux pannes, etc... 2.1 La limite de capacités d'accès à la mémoire (résolution) Multiplier les bancs mémoire; Rajouter des mécanismes matériels d'extension d'adressage. Master TI, M1, Université de Pau 7 Master TI, M1, Université de Pau 8 2.2 La limite de performance Ne peut être résolue par un microprocesseur même si l'évolution des performances des microprocesseurs suit une courbe exponentielle dans le temps depuis 1985. 3. L'existence de la propriété du parallélisme dans les applications Parallélisme de données: la même opération est réalisée par plusieurs processeurs sur des données différentes: exemple : addition de deux matrices; Parallélisme de contrôle: des opérations différentes sont réalisées simultanément. indépendance /dépendance du flot (architecture pipeline: dupliquer les unités de traitements). Master TI, M1, Université de Pau 9 Master TI, M1, Université de Pau 10 Architectures parallèles : organisation Construites à partir des ressources qui composent les architectures séquentielles: UT, UC, mémoire, entrée/sortie (disque, réseau, etc); Durant l'exécution, toutes les unités échangent des informations à travers une ressource supplémentaire: le réseau de communication interne. Master TI, M1, Université de Pau 11 Architectures parallèles : classification (1) La machine a t-elle un ou plusieurs flux de données (Single Data stream ou Multiple Data stream) [Flynn 69]; La machine a t-elle un ou plusieurs flux d'instructions (Single Instruction stream ou ou Multiple Instruction stream); Master TI, M1, Université de Pau 12

Architectures parallèles : classification (2) 1 flux d'instructions >1 flux d'instructions 1 flux de données Séquentielle MISD (Pipeline) > 1 flux de données SIMD MIMD Le Modèle Vectoriel MISD : principe Conserve la même structure, mais les UT et les UC sont découpés en étages; Un seul flux de données reçoit plusieurs traitement simultanément; Il ne s'agit pas de machines multiprocesseurs, mais le parallélisme se situe au niveau plus bas (au sein même du processeur) Master TI, M1, Université de Pau 13 Master TI, M1, Université de Pau 14 Le Modèle Vectoriel MISD: Architecture fonctionnelle Étage 1 UT Étage n UT Ordres UC1 UC n Le Modèle Vectoriel MISD: Exemple x=0; Tant que la scène est filmée faire Ix=F(); Jx=N(Ix); // filtrage Kx=C(Jx); //compression d image S(Kx); //stocker l image x=x+1; fin faire Processeur Master TI, M1, Université de Pau 15 Master TI, M1, Université de Pau 16 Le Modèle SIMD: principe Seules les UT sont dupliquées; Une seule UC gère le séquencement du programme pour plusieurs UT; Toutes les UT fonctionnent en synchronisme et reçoivent les mêmes instructions en même temps; La même opération est appliquée à plusieurs données simultanément, puisque chaque UT calcule sur un flux de données différent. Le Modèle SIMD: Architecture fonctionnelle UTn UT1 Ordres UC Master TI, M1, Université de Pau 17 Master TI, M1, Université de Pau 18

Fonctionnement d une machine SIMD: Exemple Parfor i:=0, 2 //for parallèle Y[i]=Y[i]+T[i] ; Y=Y+T Endpar for Y[0] Y[1] Y[2] T[0] T[1] T[2] ADD Y, Y, T Y[0] Y[1] Y[2] UT1 UT2 UT3 du programme Le Modèle MIMD:principe L'architecture du processeur du modèle séquentiel est dupliquée; Chaque processeur est libre d'exécuter des instructions qui lui sont propres sur un flux de données qui lui est propre; Permet d'exécuter un programme différent sur tous les processeurs; Master TI, M1, Université de Pau 19 Master TI, M1, Université de Pau 20 Le Modèle MIMD: Architecture Fonctionnelle Le Modèle MIMD: classification UT UC UT UC Fortement couplés Multiprocesseurs (mémoire partagée) MIMD Faiblement couplés Multicalculateurs (mémoire privée) ProcesseurN Processeur1 Bus commutateur Bus (LAN) commutateur Master TI, M1, Université de Pau 21 Master TI, M1, Université de Pau 22 P P Réseau Multiprocesseurs/ Multicalculateurs P M M M partagée M M M P P P Réseau privée Multiprocesseurs à mémoire partagée : principe Les (N) processeurs accèdent à la même mémoire partagée qui doit se comporter comme une mémoire à N ports. La mémoire partagée est construite à partir de plusieurs composants mémoire; un réseau d'interconnexion relie les composants mémoire et les processeurs; Master TI, M1, Université de Pau 23 Master TI, M1, Université de Pau 24

Multiprocesseurs à mémoire partagée : problèmes Un problème de type structurel: la latence des accès mémoire; Un problème de type fonctionnel: c'est la coordination des accès à une variable partagée Multiprocesseurs à Bus : principe Un certains nombre d'uc sont connectés à un bus; La lecture (ou l'écriture) se fait en mettant l'adresse du mot mémoire sur le bus et en déclenchant le signal approprié (Lecture ou Ecriture); Master TI, M1, Université de Pau 25 Master TI, M1, Université de Pau 26 Multiprocesseurs à Bus : caractéristique Simplicité de réalisation; Mécanisme de diffusion; Accès séquentiel: un seul processeur à la fois peut accéder au bus, et donc à la mémoire. Multiprocesseurs à Bus : limites et solutions Limite: surcharge du bus dès qu'on atteint 4 ou 5 UC; Solution: ajouter une mémoire cache entre l'uc et le Bus: le cache conserve les mots mémoire auxquels on a récemment fait accès. tous les accès mémoire passent par le cache; Master TI, M1, Université de Pau 27 Master TI, M1, Université de Pau 28 Cache mémoire des Architectures Multiprocesseurs: principe Si le mot mémoire demandé existe dans le cache, le cache répond à l'uc; et aucune demande de bus n'est faite; Si le mot mémoire demandé n existe pas, le bus fait une demande à la mémoire; On atteint des taux de succès de plus de 90%, si le cache est assez grand (64 KO à 1 Mo), Master TI, M1, Université de Pau 29 Problème de cohérence de cache mémoire Deux UC A et B disposent d'un cache; Tant que A et B effectuent des références en lecture, ce sont les caches qui renvoient la donnée. Si A (par exemple) modifie la donnée: c'est sa copie dans son cache qui sera modifiée. La donnée en mémoire et la copie dans le cache de l'autre processeur ne sont plus cohérentes avec la copie modifiée. Master TI, M1, Université de Pau 30

Maintien de Cohérence de cache mémoire Technique par invalidation des copies blocs: l écriture sera précédée par l invalidation des copies blocs, dans lesquels la donnée réside, présents dans les caches des autres processeurs. Technique par diffusion des copies blocs: le contrôleur de cache du processeur qui modifie la variable met à jour la mémoire et les copies dans le cache des autres processeurs. Master TI, M1, Université de Pau 31 Multiprocesseurs à commutateurs : principe Construire 1 Multiprocesseur comportant plus de 64 Processeurs; Diviser la mémoire en Modules que l on relie aux processeurs (N): CROSSBAR switch: Matrice de commutateurs (NxN noeuds de commutateurs); OMEGA: basé sur les commutateurs 2x2 (Log2(N) commutateurs/étages). Master TI, M1, Université de Pau 32 Processeurs Multiprocesseurs à commutateurs : Exemples Nœud de commutation s CROSSBAR Processeurs Commutateur 2x2 OMEGA Master TI, M1, Université de Pau 33 s Multiprocesseurs à commutateurs: caractéristiques Matrices de commutateurs sont très chères; Les grands réseaux OMEGA sont à la fois lents et chers : Si N=1024, il y a 10 étages de commutateurs à franchir; Lecture ou écriture: multiplier par deux le temps de franchir le réseau; Master TI, M1, Université de Pau 34 partagée : Problème de synchronisation Exemple: Do i=1,n Parfor j:=2, n-1 A[j]:=A[j]+A[j-1]+A[j+1]/3 EndPar for EndDo Solution: barrière de synchronisation entre EndPar et EndDo. Barrière de synchronisation: Réalisation A partir d une variable partagée initialisée au nombre de processeurs à synchroniser; chaque processus qui atteint cette barrière: décrémente cette variable (protégée). se met en attente active sur cette variable; Lorsque la variable atteint 0, tous les processus se libèrent de l attente active. Master TI, M1, Université de Pau 35 Master TI, M1, Université de Pau 36

Exclusion Mutuelle : Exemple(1) Exclusion Mutuelle (2) Producteur (Prod) If compt < N Tampon[tete]=item1; tete=(tete+1) mod N; compt = compt+1; endif Consommateur(Cons) If compt > 0 item2=tampon[queue]; queue = (queue+1) mod N; compt = compt -1 endif «compt < N» et «compt > 0» peuvent être vérifiées simultanément; La lecture donne la même valeur par contre seulement l'une des deux écritures en mémoire sera prise en compte: La valeur de compt sera incohérente avec l'état du tampon pour le Prod ou le Cons. Master TI, M1, Université de Pau 37 Master TI, M1, Université de Pau 38 Exclusion Mutuelle: réalisation Matérielles: Masquage d'interruptions; Instruction indivisible de consultation et de modification d'un mot mémoire: Test and Set (TAS) Logicielles: Attente active (Dekker,Peterson..); Sémaphores (Dijkstra), Moniteur (Hoare),... Multicalculateurs à mémoire privée: principe Chaque UC est directement reliée à sa propre mémoire locale. un réseau d'interconnexion gère les échanges entre UC. Contrairement aux Multiprocesseurs, le délai de transmission d'un message est long et le débit de transmission est faible. Master TI, M1, Université de Pau 39 Master TI, M1, Université de Pau 40 Multicalculateurs à bus: principe/caractéristique La topologie est identique à celle d'un multiprocesseurs à bus; Les calculateurs peuvent être des stations de travail, reliées par un réseau Local d'entreprise (LAN); Le trafic est moins important que dans les Multiprocesseurs à bus (10 à100 Mbit/s au lieu de 300 Mbit/s et plus). Master TI, M1, Université de Pau 41 Multicalculateurs : Exemples Treillis: implanté sur des cartes de circuits imprimés; adapté aux problèmes par nature bidimensionnels (théorie des graphes, traitement d image) Hypercube: cube à n dimensions: chaque sommet représente une UC, chaque arête représente une liaison entre deux UC; chaque UC possède n liaisons avec les autres UC. Adapté à l implémentation de plusieurs Algo. (Tri, permutation, etc ). Master TI, M1, Université de Pau 42