Outils d analyse de performance pour le HPC

Transcription

1 Outils d analyse de performance pour le HPC François Trahay Master MOPS Décembre 2013

2 Plan 1 Introduction Outils de profiling Traces d exécution Analyse de performance Logiciels d analyse de performance Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 2/30

3 1 Introduction Contexte : Calcul Hautes Performance (HPC : High Performance Computing) Simulation numérique (météorologie, astrophysique, automobile, etc.) But du HPC : Traiter un problème + rapidement Traiter un problème + gros Comment on fait? Répartition du travail sur plusieurs unités de calcul Communications entre les tâches Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 3/30

4 1 Introduction 1.1 Coût d un calculateur Exemple : Titan #2 au Top PFlop/s 8.2 MW Installé en 2012 au Oak Ridge National Laboratory Opteron CPUs (16 cores each) Tesla GPUs (2688 cores each) Coût : 100 M$ Coût de l électricité : environ 9 M$ par an Un calculateur coûte très cher Utiliser un calculateur coûte très cher > Obsession dans le HPC : utiliser au mieux la puissance de calcul Donc : les applications doivent être optimisées Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 4/30

5 1 Introduction 1.2 Utiliser au mieux la puissance de calcul, c est difficile? Matériel de plus en plus compliqué processeurs multicore, caches hiérarchiques, machines NUMA, etc. CPU CPU CPU CPU L1 L1 L1 L1 L3 L3 Mem NIC Mem GPU CPU CPU CPU CPU L1 L1 L1 L1 L3 L3 Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 5/30

6 1 Introduction 1.3 Utiliser au mieux la puissance de calcul, c est difficile? Matériel de plus en plus compliqué processeurs multicore, caches hiérarchiques, machines NUMA, etc. Mélange les modèles de programmation MPI, MPI+OpenMP, MPI+CUDA, etc. > Optimiser une application est extrèmement compliqué Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 6/30

7 1 Introduction 1. Executer l application 2. Si (performances satisfaisantes) return ; 3. Trouver une phase à optimiser 4. Optimiser 5. goto Optimiser une application Partie compliquée : phase 3 Nécessite de : Comprendre le déroulement de l application Connaitre la durée des différentes parties de l application Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 7/30

8 1 Introduction 1.5 Comment savoir si une fonction doit être optimisée? Détecter les fonctions qui consomment le plus de temps CPU Mesurer le temps passé dans chaque fonction Utiliser des indicateurs de performance Performance counters : registres du processeur donnant des informations sur l état du processeur Permet de connaître diverses métriques : Nombre d instructions exécutées Nombre de cache hits/miss Nombre de branchements correctement prédits etc. Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 8/30

9 1 Introduction 1.6 Trouver les phases de l application à optimiser À la main : Ajout d appels à gettimeofday() dans le code source But : identifier quelle partie du code prend le plus de temps Inconvénient : fastidieux f o r ( i =0; i <n i t e r ; i ++) { g e t t i m e o f d a y (& t [ 0 ], NULL) ; do_function_1 ( ) ; g e t t i m e o f d a y (& t [ 1 ], NULL) ; do_function_2 ( ) ; g e t t i m e o f d a y (& t [ 2 ], NULL) ; do_function_3 ( ) ; g e t t i m e o f d a y (& t [ 3 ], NULL) ; p r i n t _ t i m e r ( t, 4) ; } Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 9/30

10 2 Outils de profiling But : décrire statistiquement le déroulement de l application Temps passé dans chaque fonction (avec gprof) Utilisation des caches (avec cachegrind) Chemins d appels des fonctions (avec callgrind) $ g c c pg fopenmp lm sgefa_openmp. c o sgefa_openmp $. / sgefa_openmp [... ] $ g p r o f. / sgefa_openmp % c u m u l a t i v e s e l f s e l f t o t a l time s e c o n d s s e c o n d s c a l l s s / c a l l s / c a l l name sswap msaxpy saxpy matgen s g e f a isamax [... ] Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 10/30

11 3 Traces d exécution But : décrire dynamiquement le déroulement de l application Trace d exécution : liste d événements horodatés exemple de trace d exécution #timestamp #ThreadId #Event s 1 E n t e r f u n c t i o n Foo ( arg1 =17) s 1 E n t e r f u n c t i o n Bar ( n =42.23) s 2 E n t e r f u n c t i o n Baz ( a=21, b=40) s 2 Leave f u n c t i o n Baz ( a=21, b=40) r e t u r n v a l u e = s 1 Leave f u n c t i o n Bar ( n =42.23) r e t u r n v a l u e = [... ] Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 11/30

12 3 Traces d exécution 3.1 Visualisation de traces d exécution Représentation graphique des événements stockés dans une trace Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 12/30

13 3 Traces d exécution 3.2 Instrumentation d un programme Pour générer une trace d exécution, on a besoin d instrumenter le programme. À certains points-clés : enregistrement d un événement... n = foo(42);... int foo(int a) {... return x; } Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 13/30

14 3 Traces d exécution 3.2 Instrumentation d un programme Instrumentation d un programme par le compilateur 1. À la compilation, insertion de sondes... n = foo(42);... int foo(int a) { enter_fonction(foo);... exit_fonction(foo); return x; } Avantage : permet d instrumenter n importe quelle fonction Inconvénient : nécessite de recompiler Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 14/30

15 3 Traces d exécution 3.2 Instrumentation d un programme Instrumentation d un programme à la volée 2. Demander au lanceur de programme de précharger une bibliothèque : $ LD_PRELOAD=libinstrument.so./mon_programme libinstrument.so:... n = foo(42); int foo(int a) {... enter_fonction(foo); int foo(int a) { retval = foo_orig(a); exit_fonction(foo); return retval; } libfoo.so:... return x; } Avantage : pas besoin de recompiler Inconvénient : ne fonctionne qu avec les fonctions stockées dans une bibliothèque liée dynamiquement (*.so) Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 15/30

16 3 Traces d exécution 3.2 Instrumentation d un programme Instrumentation d un programme à la volée 3. Modifier le programme binaire pour insérer des sondes... n = foo(42);... foo: mov %eax, %ebx jmp instr1 add $1, %ebx add %eax, %ecx... sub %ebx, %ecx pop %ebp jmp instr2 pop %esp ret instr1: call enter_fonction jump replay1 replay1: mov %eax, %ebx add $1, %ebx jump continue1 Avantage : pas besoin de recompiler permet d instrumenter les fonctions liées statiquement à un programme permet une instrumentation à grain fin Inconvénient : problème si les instructions déplacées dépendent de eip Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 16/30

17 3 Traces d exécution 3.3 Impact de l analyse sur les performances de l application Analyse de performance = analyser le déroulement de l application Risque : modifier le comportement de l application à cause de l instrumentation -> il faut réduire au maximum le surcoût dû au tracage de l application Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 17/30

18 3 Traces d exécution 3.4 Enregistrer un événément : impact sur les performances de l application Proposition : écrire chaque événement directement sur le disque : v o i d e n t e r _ f o n c t i o n ( ) { e v e n t e = c r e a t e _ e v e n t ( ) ; w r i t e ( fd, &e, s i z e o f ( e ) ) ; } Inconvénient : coût de l appel système write -> impact important sur les performances de l application Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 18/30

19 3 Traces d exécution 3.4 Enregistrer un événément : impact sur les performances de l application Enregistrer un événément : impact sur les performances de l application Proposition : écrire chaque événement dans un buffer. v o i d e n t e r _ f o n c t i o n ( ) { b u f f e r [ nb_events ] = c r e a t e _ e v e n t ( ) ; nb_events++; } Avantage : faible coût de l enregistrement d un événement Inconvénient : consommation mémoire Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 19/30

20 3 Traces d exécution Si plusieurs threads enregistrent des événements en parallèle, il faut ajouter un mutex : 3.5 Problèmes de passage à l échelle v o i d e n t e r _ f o n c t i o n ( ) { mutex_lock ( l ) ; b u f f e r [ nb_events ] = c r e a t e _ e v e n t ( ) ; nb_events++; mutex_unlock ( l ) ; } Inconvénient : contention quand beaucoup de threads Cost for recording an event (ns) using mutex Number of threads Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 20/30

21 3 Traces d exécution 3.5 Problèmes de passage à l échelle Problèmes de passage à l échelle : les threads Solution : chaque thread enregistre ses événements dans son propre buffer v o i d e n t e r _ f o n c t i o n ( ) { b u f f e r [ t h r e a d _ i d ] [ nb_events ] = c r e a t e _ e v e n t ( ) ; nb_events++; } Avantage : pas de contention quand le nombre de threads augmente meilleure utilisation du cache Cost for recording an event (ns) using mutex using separate buffers Number of threads Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 21/30

22 3 Traces d exécution 3.5 Problèmes de passage à l échelle Problèmes de passage à l échelle : les processus Comment enregistrer la trace d une application s exécutant sur processus MPI? Risque : processus écrivent dans un seul fichier -> Contention CN1 CN2... CNn network ION 1 ION 2... ION m Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 22/30

23 3 Traces d exécution 3.5 Problèmes de passage à l échelle Problèmes de passage à l échelle : les processus CN1 ION 1 network Solution : chaque processus écrit dans son propre fichier. CN2... CNn ION 2... ION m Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 23/30

24 4 Analyse de performance Une fois que la/les traces ont été écrites, il faut les analyser Après l exécution de l application Buts de l analyse Montrer le comportement général de l application Détecter les problèmes de l application Donner des informations pour que l application s exécute mieux Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 24/30

25 4 Analyse de performance 4.1 Visualisation de traces Représentation graphique des événements contenus dans la trace Généralement sous forme de diagrame de Gantt Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 25/30

26 4 Analyse de performance 4.2 Matrices de communication Représente la quantité de données échangées entre chaque paire de processus MPI Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 26/30

27 4 Analyse de performance 4.2 Matrices de communication Placement des processus MPI Le lanceur MPI (mpirun) place les processus en fonction des processeurs disponibles Solution 1 : round robin sur 2 machines cache cache network cache cache La moitié des communications passe par le réseau Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 27/30

28 4 Analyse de performance 4.2 Matrices de communication Placement des processus MPI Le lanceur MPI (mpirun) place les processus en fonction des processeurs disponibles Solution 2 : on remplit une machine, puis l autre cache cache network cache cache Un quart des communications passe par le réseau Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 28/30

29 4 Analyse de performance 4.3 Temps passé par groupe de fonctions Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 29/30

30 5 Logiciels d analyse de performance Compteurs de performance PAPI likwid Profiling gprof cachegrind callgrind Génération de traces VampirTrace EZTrace TAU Visualisation de traces Vampir ViTE Outils tout en un Scalasca Open Speed Shop Intel Trace Analyzer and Collector Allinea Performance Reports Paraver Intel VTune Télécom SudParis INF François Trahay Décembre 2013 Master MOPS 30/30