Présentation CaSciModOT Performances et Architectures



Documents pareils
Architecture des calculateurs

Architecture des ordinateurs

Quantification d incertitude et Tendances en HPC

Infrastructures Parallèles de Calcul

Initiation au HPC - Généralités

Communications performantes par passage de message entre machines virtuelles co-hébergées

Eléments d architecture des machines parallèles et distribuées

Rapport 2014 et demande pour Portage de Méso-NH sur Machines Massivement Parallèles du GENCI Projet 2015 : GENCI GEN1605 & CALMIP-P0121

Séminaire RGE REIMS 17 février 2011

Cluster High Performance Computing. Dr. Andreas Koch, Cluster Specialist

Réseau longue distance et application distribuée dans les grilles de calcul : étude et propositions pour une interaction efficace

Runtime. Gestion de la réactivité des communications réseau. François Trahay Runtime, LaBRI sous la direction d'alexandre Denis Université Bordeaux I

Info0804. Cours 6. Optimisation combinatoire : Applications et compléments

Retour d expérience en Astrophysique : utilisation du Cloud IaaS pour le traitement de données des missions spatiales

FORMATION. Linux-HA et les systèmes de Cluster

THÈSE. pour obtenir le grade de. Spécialité : "Informatique : Systèmes et Communications"

<Insert Picture Here> Solaris pour la base de donnés Oracle

ORACLE 10g Découvrez les nouveautés. Jeudi 17 Mars Séminaire DELL/INTEL/ORACLE

UNIVERSITÉ D ORLÉANS ÉCOLE DOCTORALE MIPTIS MATHÉMATIQUES, INFORMATIQUE, PHYSIQUE THÉORIQUE ET INGÉNIEURIE DES SYSTÈMES. THÈSE présentée par :

Détection d'intrusions en environnement haute performance

Happy birthday ZSet High performance computing dans ZSet

DÉFIS DU SÉQUENÇAGE NOUVELLE GÉNÉRATION

Parallélisme et Répartition

Gestion de clusters de calcul avec Rocks

Projet IGGI. Infrastructure pour Grappe, Grille et Intranet. Fabrice Dupros. CASCIMODOT - Novembre Systèmes et Technologies de l Information

HPC by OVH.COM. Le bon calcul pour l innovation OVH.COM

Tests de performance du matériel

THÈSE. Pour obtenir le grade de. Spécialité : Informatique. Arrêté ministériel : 7 août Présentée et soutenue publiquement par.

Performances et optimisations

INF6500 : Structures des ordinateurs. Sylvain Martel - INF6500 1

Métriques de performance pour les algorithmes et programmes parallèles

Big Data. Cyril Amsellem Consultant avant-vente. 16 juin Talend

SIGAMM/CRIMSON COMMISSION UTILISATEUR du 05/12/2014

Limitations of the Playstation 3 for High Performance Cluster Computing

Contributions à l expérimentation sur les systèmes distribués de grande taille

Pour obtenir le grade de. Arrêté ministériel : 7 août Sylvain Genevès

Les environnements de calcul distribué

Segmentation d'images à l'aide d'agents sociaux : applications GPU

Le projet Gaïa, le Big Data au service du traitement de données satellitaires CRIP - 16/10/2013 Pierre-Marie Brunet

VMware vsphere 5 Préparation à la certification VMware Certified Professional 5 Data Center Virtualization (VCP5-DCV) - Examen VCP510

Chapitre 1. Infrastructures distribuées : cluster, grilles et cloud. Grid and Cloud Computing

Exploitation d un calculateur

Contribution à la conception à base de composants logiciels d applications scientifiques parallèles.

THÈSE DE DOCTORAT DE L UNIVERSITÉ PIERRE ET MARIE CURIE

Architectures haute disponibilité avec MySQL. Olivier Olivier DASINI DASINI - -

Drupal : Optimisation des performances

Protection de l Investissement Virtualisation, Efficacité énergétique

Les participants repartiront de cette formation en ayant une vision claire de la stratégie et de l éventuelle mise en œuvre d un Big Data.

Aspects théoriques et algorithmiques du calcul réparti L agglomération

Le supercalculateur Tera 100 Premier supercalculateur pétaflopique européen

C-JDBC. Emmanuel Cecchet INRIA, Projet Sardes.

Retour d expérience, portage de code Promes dans le cadre de l appel à projets CAPS-GENCI

Configurations maximales

INSTITUT NATIONAL POLYTECHNIQUE DE GRENOBLE THÈSE

Le data center moderne virtualisé

Rapport d activité Volet Technique

Fiche technique CPU 315SN/PN (315-4PN33)

Pourquoi superviser?

Rapport d activité. Mathieu Souchaud Juin 2007

Architectures d implémentation de Click&DECiDE NSI

Rapport d activité Volet Technique

Maîtriser les technologies Big Data pour obtenir des résultats en quasi-temps réel

Passage à l échelle d applications java distribuées auto-adaptatives

Disponibilité et fiabilité des services et des systèmes

Exploitation efficace des architectures parallèles de type grappes de NUMA à l aide de modèles hybrides de programmation

libérez votre innovation avec l extreme computing CEA/Philippe Stroppa

Visite de presse. Le supercalculateur Tera - 10

Portage d applications sur le Cloud IaaS Portage d application

Evaluation des performances de programmes parallèles haut niveau à base de squelettes

Équilibrage Dynamique de Charge pour des Calculs Parallèles sur Cluster Linux - Une Évaluation de l Environnement AMPI.

Consolidation. Grid Infrastructure avec la 11gR2

Une dérivation du paradigme de réécriture de multiensembles pour l'architecture de processeur graphique GPU

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters AVANTAGES

Performance Computing 2012/13 GUIDE TECHNOLOGIQUE

CLOUD PRIVÉ EMC VSPEX Microsoft Windows Server 2012 R2 avec Hyper-V - Jusqu à machines virtuelles

Audit et optimisation MySQL 5

HYPER-V CLOUD GUIDES DE DÉPLOIEMENT MODULE 1: ARCHITECTURE ET DIMENSIONNEMENT

CORBA haute performance

Hyper-V v2 : une évolution majeure des services de virtualisation

CLOUD PRIVÉ EMC VSPEX VMware vsphere Jusqu à machines virtuelles

Outil d aide au choix Serveurs Lot 4 Marché Groupement de Recherche

Serveurs et solutions PowerEdge pour les applications métiers

Tout ce que vous avez toujours voulu savoir sur SAP HANA. Sans avoir jamais osé le demander

FAMILLE EMC VPLEX. Disponibilité continue et mobilité des données dans et entre les datacenters

Contrôle Non Destructif : Implantation d'algorithmes sur GPU et multi-coeurs. Gilles Rougeron CEA/LIST Département Imagerie Simulation et Contrôle

Module : Virtualisation à l aide du rôle Hyper-V

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN

Deux stratégies parallèles de l'optimisation par colonie de fourmis

Le produit WG-1000 Wireless Gateway

Rapport de stage Master 2

Mesure de performances. [Architecture des ordinateurs, Hennessy & Patterson, 1996]

Rapport d'activité 2014 de la plate-forme technologique CISM

Journée Utiliateurs Nouvelles du Pôle ID (Informatique) Pierre Neyron, LIG/CNRS

Système de stockage IBM XIV Storage System Description technique

Diagrammes de Package, de déploiement et de composants UML

EMC VSPEX FOR VIRTUALIZED MICROSOFT EXCHANGE 2013

EMC VSPEX FOR VIRTUALIZED MICROSOFT SHAREPOINT 2013

EMC XTREMIO : SOLUTION DE CONSOLIDATION HAUTES PERFORMANCES POUR ORACLE

Le e s tocka k ge g DAS,NAS,SAN

<Insert Picture Here> Maintenir le cap avec Oracle WebLogic Server

Transcription:

Présentation CaSciModOT Performances et Architectures

Code parallèle : Un peu de théorie Architectures variables : C(n,p)? Quel code? Quelle architecture?

Structure d un code : partie parallèle / séquentielle t1 t2 t1 > t2 1 unité de calcul 2 unités de calcul

Structure d un code parallèle 1. Début 2. Lecture données, découpage des données 3. Communication des travaux aux unité de calculs 4. Calculs 5. Récupération des résultats 6. Traitements et Retour. 7. Fin

Structure d un code : Accélération S(n) S(n) C(n,p) t1 P(n) t2 P(n) P(n) S(n) S(n) t1 > t2 t1 = S(n) + P(n) t2 = S(n) + P(n) + C(n,p) A( n, p) = S( n) S( n) + + P( n) / P( n) p + C( n, p)

Vite, des cpus, des cpus A( n, p) = S( n) S( n) + + P( n) / P( n) p + C( n, p) Réduit le temps consacré à la partie parallèle Augmente les coûts de parallélisme (communications) Augmentation du nombre de processeurs (p)

Des limites : Scalabilité 18 16 14 12 10 C(n,p) P(n) S(n) Temps d exécution 8 6 4 2 0 N cpus 1 2 4 8 16

Objectifs : Identifier / Comprendre C(n,p) Réduire C(n,p) Choisir son architecture afin de limiter le coût C(n,p)

Cherchons C(n,p)? Coût des librairies parallèles : MPI / OpenMP? Coût d accès aux données / communications inter-nœuds? Coût des accès concurrents mémoire? Coût de traitement des résultats, coût IO?

CPU Cache L1 Cache L2 Des données aux calculs Des calculs aux données

Temps d accès variables.

2 cpu, 2 x plus. Goulot d étranglement. Concurrence d accès mémoire C(n,p) croit avec n et p. Ex: ex-architecture Intel Bensley - WoodCrest

Architecture NUMA CPU 1 CPU 2 Mem 1 Mem 2 Ex: HyperTransport AMD Barcelona Ou QuickPath Interconnect Intel nehalem Architecture NUMA Accès : CPU1->MEM1 > CPU1->MEM2

CrossBar C(n,p) croit Avec p et n. Architecture Multi-Core

Communications inter-serveur dans un cluster (communications inter-nœud) Utilisation Connectique Haut Débit Latence en jeu

Plus je communique, plus j ai de latences. Latence mémoire vive ~ 0.5 µs Latence inter-nœud Infiniband/Myrinet ~ 5 µs Latence inter-nœud ethernet ~ 50 µs C(n,p) croit avec n et p.

C(n,p) croit avec n. Calculs : Génération données, Exploitation des résultats, code générateur IO

Connaître ses besoins : Partie Séquentielle Embarrassante = Peu de communication, Beaucoup d actions Parallélisés SPMD : - Calcul génétiques -Traitement d images - Calculs Monte Carlo Problèmes accès sur le calcul : Besoins d unités de calcul pour faire tourner un modèle et d augmenter la granularité, précision : Code Générateur IO : CFD, RDM, Crash Test,, Astrophysique Problèmes accès sur la donnée : Besoin de traiter beaucoup de données, Code IO consommateur : - Climat, physique nucléaire, cartographie céleste

Réduire C(n, p)? Adapter n en fonction de p (de l architecture) : limiter les communications (dimensionnement des échanges mémoires). Jouer avec les affinités mémoires / CPU : connaître les surcoûts multi-core Trouver une solution pour la gestion IO?

Comment procéder? Benchmark (faire évoluer n et p), sonder son code Chercher les éléments limitants : accès concurrents mémoires, communications : latences mémoire/réseau, attentes IO? Analyser le comportement du code parallèle mis en place (Maître Esclave, Pipelining, Equilibrage de charge ), optimiser les méthodes de parallèlisation.

Quelle architecture choisir? Travailler en mémoire partagée (SMP), distribuée (cluster)? Si cluster? Quelle connectique ai-je besoin? Calcul EP : recours à des processeurs «spécialisés», GPU, FPGA? IO générateur/consommateur : Trouver une solution : (solution matérielle (raid, baie), solutions logiciels : Librairies parallèles IO, FS distribués ).

Conclusion : Quelle attitude adopter? Connaître son architecture : Benchmark. Connaître les comportements de son code : Benchmark. Dimensionner son code (n, p) pour avoir une efficacité satisfaisante : frustration du chercheur. Connaître son architecture, dompter l exécution de son code : Utilisation affinité mémoire / CPU nœuds IO

Merci Questions?

Groupe Eskape Situé à Tours www.connectikup.com/hpc Pascal Pucci ppucci@eskape.fr Division HPC