Agrégation de traces d exécution pour la visualisation de grands systèmes distribués

Transcription

1 Agrégation de traces d exécution pour la visualisation de grands systèmes distribués Robin Lamarche-Perrin 1, Lucas M. Schnorr 2, Jean-Marc Vincent 2, Yves Demazeau 1 1. Laboratoire d Informatique de Grenoble Maison Jean Kuntzmann 110 avenue de la Chimie Saint-Martin-d Hères {Robin.Lamarche-Perrin,Yves.Demazeau}@imag.fr 2. Laboratoire d Informatique de Grenoble INRIA Rhône-Alpes 655 avenue de l Europe Montbonnot {Lucas.Schnorr,Jean-Marc.Vincent}@imag.fr RÉSUMÉ. La visualisation de performance consiste à représenter graphiquement l exécution d applications parallèles pour procéder à leur analyse. Dans le cas de très grands systèmes, l agrégation des données analysées est inévitable. Cet article met en évidence un problème scientifique majeur : comment produire des représentations agrégées qui ont un sens lors du passage à l échelle? Quatre éléments de réponse sont discutés. (1) Les outils de visualisation doivent garantir la compréhension et le contrôle par l utilisateur du procédé d agrégation. (2) Il est crucial d estimer la qualité des représentations engendrées afin de distinguer les agrégations utiles (suppression d informations redondantes) de celles qui sont dangereuses pour l analyse (perte d informations importantes). Nous proposons des mesures issues de la théorie de l information pour quantifier ces deux aspects et pour ainsi engendrer des représentations multirésolutions (agrégation de données redondantes et conservation des données hétérogènes). (3) Les propriétés sémantiques et topologiques du système doivent également être prises en compte afin de garantir la juste interprétation des agrégats par l utilisateur. La recherche des agrégations optimales est ainsi restreinte à un ensemble d agrégations pertinentes sur le plan sémantique. (4) Des méthodes de calcul sophistiquées sont alors nécessaires pour sélectionner les agrégations optimales lors du passage à l échelle. Nous proposons un algorithme à complexité linéaire (dans le cas de systèmes hiérarchiques) parvenant à agréger jusqu à un million d entités et garantissant l interprétabilité des visualisations engendrées. ABSTRACT. Performance visualisation consists in using graphical representations to analyse parallel applications. In the case of large-scale systems, the aggregation of data cannot be avoided. This paper highlights a major scientific issue: How to provide aggregated representations Technique et science informatiques n o 5-6/2014,

2 466 TSI. Volume 33 n o 5-6/2014 that have a consistent meaning at scale? Four facets of this issue are addressed in this paper. (1) Visualisation tools should ensure the understanding and the control of the aggregation process by the user. (2) They should estimate the quality of aggregated representations in order to distinguish useful aggregations (suppressing redundant information) from those that may be harmful for the analysis (supressing essential information). We propose to use informationtheoretic measures in order to quantify these two aspects and to generate multiresolution representations of the system (aggregating redundant data while preserving heterogeneous data). (3) The system s semantic and topological properties should also be taken into account in order to ensure the proper interpretation of aggregated data by the user. The search for optimal aggregations is thus restricted to a subset of semantically-relevant aggregations. (4) Advanced computation methods are necessary to select optimal aggregations in an efficient way. We propose an algorithm with a linear complexity (in the case of hierarchical systems) in order to aggregate large-scale execution traces while preserving the interpretability of generated visualisations. MOTS-CLÉS : agrégation de données, réduction de complexité, perte d information, théorie de l information, visualisation de performance, systèmes distribués, représentations treemap. KEYWORDS: data aggregation, complexity reduction, information loss, information theory, performance visualization, distributed systems, treemap representations. DOI: /TSI c 2014 Lavoisier 1. Introduction Les applications de calcul haute performance (High Performance Computing) s exécutent actuellement sur des systèmes ayant plusieurs milliers, voire plusieurs millions de cœurs. Le supercalculateur en tête de la liste Top500 de juin 2013 en possédait par exemple plus de 3 millions 1. L exa-informatique vise à développer, au cours des prochaines années, des supercalculateurs atteignant l exaflop (i.e., opérations par seconde) en orchestrant éventuellement plusieurs milliards de cœurs (Geller, 2011). Les applications exécutées sur ces plateformes font intervenir autant de fils d exécution, engendrant une concurrence extrême entre les tâches de calcul. Comprendre et expliquer le comportement de ces applications constitue un défi majeur pour l informatique. Nous distinguons les défis techniques, relatifs à l observation, la centralisation et l enregistrement de l activité des processus, notamment via des traces d exécution, et les défis sémantiques, relatifs à l extraction d informations pertinentes pour l analyse à différentes échelles temporelles (de la nanoseconde au millier de secondes) et spatiales (du cœur à l ensemble du système). La visualisation de performance constitue un outil d analyse adapté au débogage et à l optimisation d applications hautes performances. Elle consiste à représenter graphiquement leur exécution pour y détecter des comportements anormaux. Les techniques de visualisation de l espace et du temps utilisées dans le domaine comprennent 1. Supercalculateur Tianhe-2 Milkyway, voir :

3 Agrégation et visualisation de traces 467 des représentions classiques, telles que les diagrammes de Gantt (Wilson, 2003), et des représentations alternatives moins classiques, telles que les treemaps 2 (Shneiderman, 1992) et le graphe des ressources de calcul (Schnorr, Legrand, 2012). Cet article présente des outils de visualisation compétitifs pour l analyse de performances à grande échelle (Jumpshot-4, Pajé, Paraver, Triva, Vampir, Vite et Viva) en précisant les techniques de visualisation qu ils implémentent. Ces outils doivent cependant être perfectionnés afin de préserver la sémantique des données aux échelles qui nous intéressent. En plus d être extrêmement coûteux, le rendu détaillé du niveau microscopique est difficile à analyser (Schnorr, Legrand, 2012). Plus grave, le désordre qui existe à ce niveau compromet l interprétation des représentations. Il est alors nécessaire de recourir à des techniques d abstraction pour réduire la taille et la complexité des visualisations proposées (Elmqvist, Fekete, 2010). Pour ce faire, des techniques de sélection, d échantillonnage, de regroupement (clustering) ou d agrégation permettent de réduire la taille des traces pour engendrer des représentations graphiques lisibles. Cependant, les techniques de sélection n offrent que des représentations partielles du système, interdisant ainsi tout point de vue global. L échantillonnage ne permet pas de capter à coup sûr les comportements exceptionnels. Le regroupement (Lee et al., 2008) constitue des agrégats de processus généralement décorrélés de la sémantique du système (e.g., tâches exécutées, architecture, topologie du réseau), ce qui peut nuire à l analyse (cf. section 4). En revanche, l agrégation de données permet, dans certains cas, de constituer des abstractions plus pertinentes pour interpréter de grandes traces d exécution. Les données brutes sont transformées par un opérateur d agrégation (moyenne, somme, médiane, etc. (Elmqvist, Fekete, 2010)) en fonction de la structure du système (Schnorr et al., 2009). L agrégation vise ainsi à réduire la taille des données pour produire une représentation macroscopique cohérente des états et de la dynamique du système. Notons que ce processus de réduction est inévitable dans le cas de grandes traces, qu il s agisse d une agrégation graphique lors du rendu de la visualisation (par exemple au niveau des pixels, pour Paraver (Labarta et al., 2006)) ou d une agrégation de données (par exemple au niveau des évènements, pour Viva (Schnorr, Legrand, 2012)). L agrégation n est pas un procédé de traitement anodin. Elle peut notamment engendrer une perte d information dangereuse pour l interprétation des représentations macroscopiques, en particulier lorsque les données agrégées sont fortement hétérogènes. Si elle n est pas contrôlée, une telle transformation peut n apporter aucune information pertinente et, pire, induire l utilisateur en erreur. Par exemple, dans la figure 1, parce qu il n y a pas assez de place sur l écran pour représenter toute l information contenue dans une trace d exécution de 8 mois, une agrégation temporelle des données est nécessaire. En examinant les détails sur une période de 12 jours, nous remarquons que le comportement est bien plus complexe que celui visualisé à l échelle macroscopique. Plus grave encore, le logiciel de visualisation procède également à 2. Plusieurs traductions de ce terme anglais ont été proposées en informatique : «diagrammes de répartition», «diagrammes d occupation», ou encore «arborescences». Nous préférons dans la suite de l article conserver le terme original «treemaps» qui exprime mieux la représentation d arbres ou de hiérarchies.

4 468 TSI. Volume 33 n o 5-6/2014 Acroread 8 mois Evince 8 mois 12 jours 12 jours Figure 1. Visualisation de la disponibilité d un client BOINC sur une période de 8 mois (Schnorr, Legrand, Vincent, 2012). Une agrégation de données est nécessaire pour représenter l ensemble de cette période (frises supérieures). Le résultat de l agrégation est visualisé au format vectoriel par deux outils (Acroread à gauche et Evince à droite). Les représentations diffèrent du fait des techniques d agrégation graphique implémentées par chacun des outils une agrégation graphique pour afficher les données superposées au niveau du pixel. Le rendu diffère d un outil à l autre, ce qui met en cause l interprétabilité de la visualisation (cf. les quatre frises de la figure 1, réalisées avec deux outils de visualisations différents, sur le même ordinateur et avec le même logiciel de capture). Le procédé d agrégation étant à la fois décisif et critique, il nous paraît essentiel de disposer de méthodes formelles et pratiques pour son contrôle et son évaluation. À notre connaissance, peu de travaux de recherche en visualisation de performance se sont intéressés à ce problème dépassant, bien entendu, le seul domaine des systèmes distribués. Nous défendons l idée que, dans la plupart des domaines d applications, l évaluation du procédé d agrégation est un point crucial pour garantir l interprétabilité des visualisations à grande échelle. Face aux limitations sémantiques des outils de visualisation de performance (section 2), cet article présente une approche originale, adaptée à la production de visualisations macroscopiques pertinentes pour l utilisateur. Cette approche consiste à évaluer la qualité des représentations proposées en exploitant des mesures issues de la théorie de l information, dont les fondements mathématiques permettent de formaliser les notions de «complexité» et de «perte d information» pour engendrer des représentations multirésolutions : agrégation de données redondantes et conservation des données hétérogènes (section 3). Nous proposons un algorithme permettant d optimiser ces mesures de qualité et d ainsi sélectionner les «meilleures» visualisations pour une trace donnée (section 4). Cette approche est appliquée à l agrégation spatiale d applications parallèles et à leur visualisation via des treemaps multirésolutions. Nous montrons que de telles représentations permettent de détecter à moindre coût les comportements anormaux au sein de l application. En outre, nous montrons que notre approche résout les défis techniques et sémantiques actuels en agrégeant la trace d exécution d un million de processus (section 5). Nous montrons que cette ap-

5 Agrégation et visualisation de traces 469 proche peut être généralisée à de nombreux cas d analyse et que les problèmes qu elle soulève ne se limitent pas au domaine du calcul haute performance (section 6). Nous pensons au contraire que l évaluation et le contrôle des procédés d agrégation constitue un enjeu transversal crucial pour la visualisation de grandes quantités de données (section 7). 2. Politiques d agrégation des outils de visualisation de performance Les outils de visualisation de performance ont souvent recours à l agrégation de données pour manipuler de grandes traces d exécution. Dans cet état de l art, nous utilisons comme référence les techniques de visualisation par diagrammes de Gantt, car celles-ci sont implémentées dans la majeure partie des outils d analyse. Nous distinguons quatre catégories de politiques d agrégation de données proposées par ces outils (Schnorr, Legrand, 2012). À ce titre, le procédé d agrégation constitue une étape préliminaire au procédé de visualisation. Interdiction de l agrégation. Politique généralement utilisée pour éviter les pertes d information pouvant induire l utilisateur en erreur. Agrégation implicite. L utilisateur ne peut distinguer, au sein de la visualisation, les données agrégées des données brutes. L agrégation graphique, induite par le rendu de la visualisation, tombe dans cette catégorie. Agrégation explicite. L utilisateur supervise le procédé d agrégation. Il peut notamment contrôler les entités à agréger et les opérateurs à utiliser. Évaluation de l agrégation. En plus de superviser le procédé d agrégation, l utilisateur dispose d indicateurs concernant la qualité des représentations engendrées. Il peut ainsi estimer la perte d information induite par l agrégation Interdiction de l agrégation Le diagramme de Gantt implémenté dans Pajé (Chassin de Kergommeaux et al., 2000) interdit l agrégation spatiale des données en imposant une largeur d écran minimale pour chaque entité visualisée. Dans l exemple de la figure 2, seule l activité de 16 processus est affichée. L utilisateur doit faire défiler la fenêtre de haut en bas pour examiner les autres entités, ce qui rend impossible toute vue d ensemble. Très peu d outils interdisent l agrégation spatiale ou temporelle, sous peine de contraindre l utilisateur à une analyse extrêmement laborieuse dans le cas de grandes traces. La plupart des outils proposent donc un procédé d agrégation implicite ou explicite de l espace et du temps, pour offrir une vue globale de l exécution Agrégation implicite Dans le diagramme de Gantt implémenté par Pajé, les communications et les évènements peuvent être agrégés dans le temps. Cependant, l utilisateur ne peut distinguer

6 470 TSI. Volume 33 n o 5-6/2014 immédiatement les données brutes des données agrégées, les symboles correspondants étant identiques. Par exemple, dans la figure 2, les flèches de synchronisation entre les processus (ellipse B) peuvent indistinctement représenter une ou plusieurs communications. L utilisateur peut néanmoins parcourir ces symboles pour obtenir plus d information à leur sujet. Le diagramme implémenté par Vampir (Brunst et al., 2010) agrège dans le temps les fonctions exécutées par l application analysée. La couleur d un pixel correspond à la fonction prédominante sur l intervalle de temps correspondant (GWT-TUD Gmbh, 2011). Pour cet outil, il est impossible de distinguer le cas où une seule fonction a été exécutée du cas où plusieurs l ont été. Le diagramme implémenté par Vite (Coulomb et al., 2009) réalise une agrégation graphique implicite de l espace et du temps. L outil tente d afficher toutes les données fournies, indépendamment de l espace disponible pour la visualisation. Jumpshot-4 (Chan et al., 2008) et slog2 (un format de fichier pour encoder de très grandes traces) permettent à l utilisateur de configurer la granularité de la dimension temporelle pour réduire les coûts de lecture et de visualisation. Cependant, une fois la granularité définie, rien ne permet d identifier visuellement les intervalles qui ont effectivement été agrégés. Temps A B Processus agrégation interdite Rectangles hachurés : agrégation explicite des états Flèches superposées : agrégation implicite des communications Figure 2. Diagramme de Gantt proposé par l outil de visualisation Pajé (Kergommeaux et al., 2000). Les processus de l application sont listés selon l axe vertical (dimension spatiale) et le comportement de chaque processus est visualisé selon l axe horizontal (dimension temporelle) sous la forme de rectangles, indiquant les différents états d exécution, et de flèches, indiquant les communications entre les processus. L ellipse A met en évidence des rectangles hachurés indiquant une agrégation temporelle des états sur la tranche de temps correspondante (lorsqu il est impossible de visualiser des variations trop fines). L ellipse B met en évidence des flèches représentant chacune plusieurs communications via une agrégation implicite

7 Agrégation et visualisation de traces 471 Dans la mesure où les données agrégées ne sont pas clairement identifiées, ces outils peuvent conduire à une mauvaise interprétation de la visualisation : certaines données brutes peuvent être dissimulées, uniformisées, ou transformées sans que cela ne soit indiqué clairement à l utilisateur. Il est par conséquent nécessaire d utiliser ces outils avec la plus grande prudence, ou alors préférer ceux qui distinguent explicitement les données agrégées des données brutes Agrégation explicite Dans le diagramme proposé par Pajé, les états des processus sont représentés par des rectangles hachurés lorsqu il n y a pas assez de place pour représenter en détail leur succession (cf. figure 2, ellipse A). La distribution de ces états est alors indiquée, mais pas leur ordre. Lorsque le diagramme de Gantt proposé par Paraver (Pillet et al., 1995 ; Labarta et al., 2006) est agrégé dans le temps ou dans l espace, le rendu de la visualisation est contrôlé afin de repérer les éventuelles agrégations au niveau des pixels. L utilisateur peut alors sélectionner un opérateur d agrégation pour chacune des dimensions : afficher le premier ou le dernier état, l état le plus ou le moins présent, l état moyen, ou encore un état choisi de manière aléatoire. Il contrôle ainsi explicitement la manière dont est faite l agrégation. Dans le diagramme proposé par Vampir (Brunst et al., 2010), un symbole spécial est utilisé pour représenter les communications agrégées, invitant l utilisateur à zoomer pour obtenir plus de détails (GWT-TUD Gmbh, 2011). Triva (Schnorr, Legrand, Vincent, 2012) et Viva (Schnorr, Legrand, 2012) agrègent également l espace et le temps de manière explicite, mais à partir de techniques de visualisation moins classiques (treemaps et graphes des ressources). Ces outils pour l analyse de traces permettent de mieux interpréter les visualisations qu ils engendrent : soit en contrôlant la manière dont le procédé d agrégation est réalisé, soit en indiquant explicitement lorsque les données brutes ont été transformées. Cependant, ils ne permettent pas de distinguer les agrégations utiles (suppression d informations redondantes) des agrégations dangereuses pour l analyse (perte d informations importantes). En plus du contrôle du procédé d agrégation, ces outils devraient donc fournir à l utilisateur les moyens d évaluer la qualité des représentations engendrées. Analyse de l état d art et contribution Le tableau 1 fait la synthèse des politiques d agrégation implémentées par les outils de visualisation cités dans cette section. Nous distinguons l agrégation de la dimension spatiale (ensemble des processus de l application) et l agrégation de la dimension temporelle (états et communications des processus au cours du temps). Par exemple, la ligne dédiée à Pajé dans le tableau indique que cet outil interdit l agrégation spatiale et autorise l agrégation temporelle, de manière implicite dans le cas des communications et de manière explicite dans le cas des états. Ce tableau montre qu aucun outil de visualisation de performance, à notre connaissance, n offre les moyens nécessaires à l évaluation de la qualité des techniques d agrégation qu ils implémentent. Pour ceux

8 472 TSI. Volume 33 n o 5-6/2014 que nous avons examinés (Jumpshot-4, Pajé, Paraver, Triva, Vampir, Vite et Viva), même si les données agrégées sont graphiquement distinguées des données brutes, l utilisateur ne peut pas identifier et sélectionner les agrégations permettant le passage à l échelle sans nuire profondément à l interprétation des données. Cet article vise à l implémentation d une telle politique d agrégation au sein de l outil de visualisation Viva (cf. objectif dans le tableau 1. Interdiction Implicite Explicite Évaluation Jumpshot-4 Espace Temps Pajé Espace Temps (comm.) Temps (états) Paraver Triva Espace/Temps Espace/Temps Vampir Espace/Temps Temps (comm.) Vite Espace/Temps Viva Espace/Temps objectif Tableau 1. Classification des outils de visualisation de traces en fonction de leurs politiques d agrégation (spatiale/temporelle, interdite/implicite/explicite) 3. Évaluer la qualité des représentations agrégées Nous venons de mettre en évidence le besoin d intégrer aux outils de visualisation des méthodes d évaluation permettant de contrôler la qualité des représentations engendrées par l agrégation de données. Cette section formalise la notion même d agrégation (3.1). Nous y définissons la qualité d une représentation comme un équilibre entre une réduction de complexité, évaluant la suppression d informations redondantes pour simplifier la visualisation et passer à l échelle, et une mesure d ajustement (goodness-of-fit), évaluant la juste interprétation des données agrégées par rapport aux données microscopiques (3.2). Des mesures issues de la théorie de l information sont proposées afin de quantifier ces deux aspects de l agrégation de données (3.3) Données microscopiques et données agrégées Soit E l ensemble des entités microscopiques du système. Dans le cas de systèmes distribués, il s agit la plupart du temps des processus exécutés. La visualisation de performance consiste à afficher certains attributs de ces entités (états, propriétés, évènements, communications, etc.) pour en analyser la répartition. Dans cet article, nous nous intéressons aux attributs quantitatifs à valeur positive. Nous notons v(e) R + la valeur prise par l attribut du processus e E. L ensemble des valeurs {v(e)} e E constitue la représentation microscopique spatiale de l attribut (cf. figure 3). Elle fournit une information complète et détaillée des entités relativement

9 Agrégation et visualisation de traces 473 Agrégat homogène Agrégat hétérogène Représentation microscopique Représentation agrégée Réprésentation hypothétique Figure 3. Deux exemples d agrégation de données. Un agrégat homogène (en haut) et un agrégat hétérogène (en bas) sont représentés au niveau microscopique (à gauche), puis agrégés (au centre) et interprétés sous la forme d une représentation hypothétique (à droite). Dans le cas de l agrégat hétérogène, cette représentation hypothétique diverge significativement de la représentation microscopique à l attribut sélectionné. Dans de nombreux cas, toute l information contenue par une telle représentation n est pas nécessaire à l analyse. Un ensemble restreint de valeurs peut alors suffire à la compréhension et à l explication de l exécution. Un agrégat A E est une entité macroscopique abstraite qui résume le comportements d un ensemble d entités sous-jacentes. Les valeurs agrégées peuvent être définies de plusieurs manières : somme, moyenne, extrema, distribution des valeurs (Elmqvist, Fekete, 2010). Par exemple, dans la figure 3, les valeurs des agrégats sont la somme des valeurs des entités sous-jacentes. Nous notons donc v(e) la somme des valeurs de tous les processus. Une agrégation A est une partition de E qui associe à chaque entité microscopique un et un seul agrégat. L ensemble des valeurs agrégées {v(a)} A A fournit alors une représentation agrégée de l attribut (cf. figure 3). Dans cet article, nous nous limitons donc à l étude des agrégations recouvrantes (chaque entité appartient au moins à un agrégat) et non redondantes (chaque entité appartient au plus à un agrégat). Il serait intéressant de relâcher, plus tard, cette contrainte Mesure paramétrée : entre réduction de complexité et perte d information La visualisation et l analyse d une représentation agrégée est moins coûteuse, sur le plan computationnel et sur le plan cognitif, que la visualisation et l analyse de la représentation microscopique correspondante. Cependant, la représentation agrégée est plus ou moins similaire à la représentation initiale. On parle d ajustement. Par exemple, dans la figure 3, seules 2 valeurs sont fournies par la représentation agrégée, contre 13 valeurs pour la représentation microscopique. Ces deux représentations peuvent être comparées grâce à une hypothèse de répartition des valeurs au sein des

10 474 TSI. Volume 33 n o 5-6/2014 agrégats. Il s agit de la manière dont l utilisateur est amené à interpréter les données agrégées. Nous pouvons par exemple supposer que les sommes sont uniformément réparties entre les entités sous-jacentes (cf. figure 3). On parle alors de représentation hypothétique. Il apparaît que certains agrégats sont plus adéquats que d autres pour résumer les données. Dans la figure 3, l agrégat homogène semble pertinent dans la mesure où sa représentation hypothétique est proche de de sa représentation microscopique. Ce n est pas le cas de l agrégat hétérogène. Dans cet article, nous nous limitons à l hypothèse de répartition uniforme. L agrégation de valeurs hétérogènes entraîne alors un faible ajustement. Il serait cependant intéressant de travailler à partir d autres hypothèses de répartition en fonction de l attribut visualisé (par exemple des répartitions Gaussiennes, géométriques, etc.). La notion de «bonne» agrégation réunit donc deux aspects : 1. Ce que l on gagne en agrégeant la représentation microscopique. Il s agit de la simplification opérée par le processus d agrégation pour passer à l échelle. Nous parlons plus précisément de réduction de complexité, c est-à-dire de la réduction des ressources (ressources de calcul ou ressources cognitives) nécessaires à la visualisation de la représentation agrégée. 2. Ce que l on perd lors de l agrégation en termes d ajustement. Il s agit de mesurer la qualité des données visualisées par rapport aux données microscopiques. Le résultat de l agrégation est notamment sensible à la perte d information pouvant nuire à la bonne interprétation des données par l utilisateur. Par conséquent, choisir une agrégation consiste à réaliser un compromis entre un gain et une perte. Ce point de vue hérite notamment de travaux en sélection de modèles statistiques. Par exemple, le critère informationnel d Akaike (1974) permet de comparer le nombre de paramètres du modèle et sa vraisemblance, qui peuvent être respectivement interprétés comme une mesure de complexité et une mesure d ajustement. À supposer que nous disposons de mesures pour quantifier le gain et la perte d une agrégation A, nous exprimons ce compromis de qualité par une mesure paramétrée : m p (A) = p gain(a) (1 p) perte(a) (1) où A est l agrégation à évaluer et p [0, 1] est un paramètre permettant de pondérer les termes du compromis (rapport gain / perte). Maximiser m 0 revient à minimiser la perte : l agrégation la plus précise est optimale, on préfèrera donc la représentation microscopique. Maximiser m 1 revient à maximiser le gain : l agrégation la plus simple est optimale, on choisira donc l agrégation totale, résumant l attribut à la seule valeur v(e). Quand p varie de 0 à 1, un ensemble d agrégations optimales émerge. Chacune d elles optimise le compromis exprimé par m p en agrégeant seulement les parties homogènes du système. Le choix du rapport gain / perte est volontairement laissé à l attention de l utilisateur. Celui-ci peut ainsi adapter le niveau de représentation en fonction de la quantité de détails attendue et des ressources dont il dispose pour le rendu et l analyse de la visualisation.

11 Agrégation et visualisation de traces Des mesures de qualité issues de la théorie de l information Cette sous-section présente des mesures de gain et de perte permettant d évaluer la réduction de complexité et l ajustement d une représentation donnée. La théorie de l information fournit pour cela un cadre intéressant dont l apport essentiel consiste ici en deux mesures : l entropie de (Shannon, 1948) et la divergence de (Kullback, Leibler, 1951), toutes deux interprétables comme des quantités d information manipulées lors de l agrégation. De ce fait, notre approche hérite de travaux réalisés dans des domaines tels que le traitement du signal, la compression d images (Gonzalez, Woods, 2002), ou encore la construction de modèles statistiques (Akaike, 1973 ; 1974). Cette approche peut également être considérée comme une spécialisation de l approche MDL (Grunwald, 2007). Dans notre travail, la complexité d une représentation est évaluée comme la longueur d un codage simple, basé sur la quantité d information au sens de Shannon. L originalité des résultats repose plus sur la capacité algorithmique de sélectionner un modèle (au sens MDL) en un temps raisonnable (cf. complexité algorithmique polynomiale, section 4). Cette sélection est efficace car la classe de modèles est structurée algébriquement et que la quantité d information (au sens de Shannon ou de Kullback-Leibler) a de bonnes propriétés vis-à-vis de la structure algébrique de cette classe (cf. décomposabilité additive, section 4.3). Des détails concernant la formalisation et la sémantique des mesures présentées ci-dessous sont disponibles dans (Lamarche-Perrin et al., 2012 ; 2014) Mesurer la réduction de complexité induite par l agrégation de données Une représentation agrégée est moins coûteuse à encoder qu une représentation détaillée. En ce sens elle est plus facile à manipuler, moins complexe. La complexité d un objet peut ainsi être mesurée par une quantité d information (Edmonds, 1999). Le gain d une agrégation A est alors interprété comme une différence entre deux quantités : gain(a) = Q(A 0 ) Q(A), où A 0 est une partition de référence. Le gain mesure ainsi la quantité d information que l on économise en encodant la représentation A plutôt que la représentation A 0. Dans notre cas, nous prenons la représentation microscopique comme référence. Nombre de valeurs encodées Une manière simple de mesurer l information contenue dans une représentation consiste à compter le nombre de bits nécessaires pour encoder les valeurs qu elle contient. Nous pouvons alors supposer que chaque valeur nécessite un nombre constant de bits q dépendant du type de données utilisé (entier, flottant, booléen, etc.). Nous avons donc Q(A) = A q, où A est le nombre d agrégats représentés, et : gain(a) = ( E A ) q = A A ( A 1) q (2) Cette mesure de complexité compte simplement le nombre de valeurs contenue dans une représentation donnée (à une constante multiplicative près). Elle peut être

12 476 TSI. Volume 33 n o 5-6/2014 assimilée au décompte des paramètres d un modèle statistique (Akaike, 1974) : plus il y a de paramètres, plus le modèle est complexe. Il s agit également d une mesure cohérente avec les techniques de visualisation représentant la valeur de chaque agrégat (e.g., vecteurs de valeurs, histogrammes et diagrammes en rectangle, représentations treemap). En effet, le nombre A des valeurs à afficher définit alors la granularité de la visualisation et évalue aussi le coût de leur encodage et de leur rendu. Réduire le nombre de valeurs contenues dans une représentation permet ainsi le passage à l échelle de ces techniques de visualisation. Entropie de Shannon L entropie est une mesure classique de quantité d information couramment utilisée comme mesure de complexité (Edmonds, 1999). Elle est donnée par la formule de (Shannon, 1948) : H(A) = A A ( v(a) v(e) log 2 ) v(a) v(e) Nous prenons Q(A) = H(A) v(e), ce qui donne : gain(a) = ( v(a) log 2 v(a) ) v(e) log 2 v(e) A A e A (3) L entropie mesure la quantité d information nécessaire pour encoder, en moyenne, les symboles d un vocabulaire dont on connait la distribution de probabilité (les symboles les plus fréquents ont un code binaire plus court, et inversement). Or, nous pouvons interpréter un attribut comme une distribution de probabilité sur l ensemble des processus E, par exemple lorsqu il s agit d un dénombrement (évènements, changements d état, communications au sein de chaque processus). L entropie mesure alors la quantité d information nécessaire pour encoder chacun de ces évènements. Elle se distingue de la mesure précédente prenant en compte l encodage des valeurs, c està-dire de la quantité d évènements pour chaque agrégat. L entropie est donc particulièrement adaptée à la visualisation de ces évènements (e.g., graphes et diagrammes d interactions, nuages de points). Dans de précédents travaux de recherche, nous avons utilisé la réduction d entropie pour l agrégation de systèmes d information géographique (Lamarche-Perrin et al., 2014). Nous pensons qu elle peut également être utile à la visualisation de performance des systèmes distribués dans la mesure où de nombreuses analyses s intéressent aux relations de causalité entre les évènements et les communications Mesurer l ajustement d une représentation agrégée La divergence de Kullback-Leibler est une mesure classique de similarité ou d ajustement utilisée en théorie de l information (Kullback, Leibler, 1951). Elle nous sert

13 Agrégation et visualisation de traces 477 à comparer la distribution hypothétique des valeurs à la distribution microscopique (Lamarche-Perrin et al., 2012) : perte(a) = A A ( e A ( ) ) v(e) v(e) log 2 v(a) A (4) La divergence mesure la quantité d information perdue lorsqu on utilise un modèle statistique pour trouver le codage minimal d un vocabulaire au lieu de sa véritable distribution de probabilité. Elle peut également être interprétée comme la probabilité de retrouver la répartition initiale des valeurs à partir d une représentation agrégée : on parle alors de la vraisemblance de la représentation (Akaike, 1973). En d autres termes, la divergence mesure la perte d information liée à l approximation de la représentation microscopique par la représentation agrégée. Notons que la réduction de complexité n induit pas nécessairement de perte d information. En particulier, lorsque des valeurs homogènes sont agrégées, le nombre d agrégats visualisés diminue et les valeurs restent correctement interprétées par l utilisateur. D autres mesures de similarité classiques, en statistique, pourraient servir à évaluer l ajustement des représentations agrégées (par exemple l écart quadratique moyen). Nous leur préférons la divergence de Kullback-Leibler pour son interprétation en termes de quantité d information, assurant ainsi la compatibilité avec l entropie de Shannon (Kullback, Leibler, 1951) et le nombre de valeurs encodées. Ce travail peut également être étendu à d autres mesures de complexité telles que présentées dans (Grunwald, 2007). La sémantique du résultat devra alors être précisée de manière opérationnelle en fonction des algorithmes de codage utilisés. 4. Calculer les représentations agrégées optimales Les mesures présentées dans la section précédente, et en particulier la mesure paramétrée m p (sous-section 3.2), fournissent à l utilisateur les indicateurs de qualité dont il a besoin pour interpréter les agrégats visualisés. De tels outils permettent également de comparer les représentations dans le but de sélectionner les «meilleures» d entre elles. Cette section s intéresse à ce problème d optimisation. Il est nécessaire de fournir une technique d agrégation peu coûteuse en calcul, afin que cette étape préliminaire à la visualisation et à l analyse ait un intérêt lors du passage à l échelle. Dans cette section, nous montrons que le calcul des représentations optimales est un problème à complexité exponentielle vis-à-vis de la taille du système (4.1). Pour résoudre ce problème en un temps raisonnable, nous formulons deux hypothèses. Premièrement, la topologie du système visualisé permet de restreindre l espace de recherche en définissant un ensemble d agrégations admissibles par l utilisateur (4.2). Deuxièmement, les mesures utilisées pour l évaluation ont une propriété algébrique importante : la décomposabilité. Cette propriété peut être exploitée pour comparer rapidement les agrégations (4.3). À partir de ces hypothèses, nous proposons un algorithme qui calcule les représentations optimales en un temps linéaire dans le cas de systèmes hiérarchiques.

14 478 TSI. Volume 33 n o 5-6/ Complexité exponentielle du problème des représentations optimales Le problème des représentations optimales consiste à trouver les agrégations qui maximisent une mesure de qualité donnée. Or, le nombre de partitions d un ensemble et donc le nombre d agrégations possibles est donné par la suite des nombres de Bell (Rota, 1964) à croissance exponentielle : B(n + 1) = n k=0 ( n k ) B(n) = O (( n ) n ) ln(n) où n est la taille de l ensemble. En pratique, pour un système de grande taille (e.g., de l ordre du million de processus), il est impossible de trouver les agrégations optimales en les évaluant une à une. Des heuristiques, telles que développées par les techniques de clustering (Halkidi et al., 2001), pourraient être mises en œuvre pour trouver des solutions non optimales. Cependant, de telles approches supposent que toute agrégation à un sens pour l analyse. Nous soutenons au contraire que la plupart des systèmes ont une sémantique propre qui interdit l usage de certains agrégats. Par exemple, dans le cas des systèmes distribués, la topologie du réseau de communication et la position des processus au sein de ce réseau sont souvent essentielles à l analyse (Schnorr et al., 2009). Cette topologie doit être préservée par lors de l agrégation afin de produire des visualisations pertinentes pour l utilisateur. En outre, ces contraintes topologiques permettent de réduire la complexité du problème en restreignant l espace de recherche au sous-ensemble des agrégations admissibles Agrégations admissibles au sein d une hiérarchie Les ressources de calcul de certains systèmes distribués ont une organisation hiérarchique. C est par exemple le cas de Grid5000 (Bolze et al., 2006) : les processus sont exécutés par des machines, celles-ci sont regroupées en clusters, puis en sites de calcul, etc. Dans ce cas, la hiérarchie est induite par la structure physique du réseau de communication. Dans d autres cas, une telle organisation est induite par l application parallèle qui y est exécutée : e.g., distribution des tâches de calcul, réseau d utilisateurs dans les systèmes pair-à-pair. Dans tous les cas, ces structures sont essentielles pour l analyse dans la mesure où elles permettent d expliquer le comportement des processus Exprimer les connaissances a priori lors de l agrégation Le partitionnement contraint (constrained clustering) est une technique d apprentissage semi-supervisé permettant de formaliser la structure du système analysé sous la forme de contraintes sur le regroupement des données. Cette technique consiste notamment à interdire ou à obliger certains regroupements en fonction de règles logiques exprimées par les experts pour décrire leur connaissance a priori du système (Davidson, Basu, 2007). Cependant, la plupart des travaux du domaine définissent les contraintes au niveau des entités microscopiques (instance-level constrained clustering) : à partir de contraintes de type must-link et cannot-link (Wagstaff, Cardie, 2000 ; Davidson,

15 Agrégation et visualisation de traces 479 Basu, 2007) ou de règles de logique propositionnelle (Talavera, Béjar, 1999) obligeant ou interdisant le regroupement de certaines entités. Ces techniques de contraintes microscopiques ne permettent d exprimer que des propriétés relativement simples au niveau des agrégats : e.g., diamètre minimal des agrégats, distance minimale entre agrégats (Davidson, Basu, 2007). Afin de formaliser des structures plus complexes, nous proposons de travailler directement au niveau des agrégations (partitions de l ensemble des entités microscopiques). Les contraintes que nous définissons s appliquent donc à l ensemble des agrégations possibles et permettent d extraire le sous-ensemble des agrégations admissibles par les experts. Le problème que nous abordons dans cet article doit donc être soigneusement distingué des problèmes abordés en classification de données. Premièrement, les hiérarchies utilisées visent à la production d objets macroscopiques et non de concepts génériques. Le processus d agrégation n est donc pas un processus de généralisation (cf. la distinction proposée dans (Smith, Smith, 1977)). De plus, les techniques de classification classiques visent parfois à l édification de hiérarchies (e.g., analyse formelle de concepts sous forme de hiérarchies de concepts (Wille, 2005)). Dans ce cas, les hiérarchies sont le résultat du processus d abstraction, et non un point de départ. Dans notre cas, les hiérarchies constituent les données externes du problèmes, fournies par les experts chargés de l analyse du système pour contraindre le processus d abstraction Formaliser la notion de hiérarchie Une hiérarchie est souvent représentée par un arbre (cf. figure 4) : les feuilles représentent les entités microscopiques ; les nœuds représentent les agrégats ; et la racine représente l agrégation totale. Une hiérarchie définit donc un ensemble d agrégats emboîtés à partir desquels le système peut être agrégé. Les agrégations admissibles sont celles qui font intervenir uniquement ces agrégats. En particulier, l agrégation d entités appartenant à différentes branches de la hiérarchie ne respecte pas sa topologie. Il faut alors agréger les branches entièrement. Par exemple, dans la figure 4, si l on souhaite agréger les processus p 1 et p 4, alors il est également nécessaire d agréger l intégralité les processus des machines m 1 et m 2. Une agrégation est caractérisée par une coupe dans l arbre qui représente la hiérarchie, c est-à-dire un ensemble de nœuds tels que chaque feuille ne descend que d un seul nœud de cet ensemble (cf. les trois coupes présentées dans la figure 4). Le nombre d agrégations admissibles au sein d un arbre T est donné par la formule récursive suivante : N(T ) = 1 + N(S), où les S sont les «premiers sous-arbres» de T. Pour un ensemble E donné, le nombre maximal d agrégations admissibles est atteint lorsque l arbre représentant la hiérarchie est un arbre binaire complet : à chaque nœud, le nombre d agrégations admissibles est multiplié par deux. Supposons que E = 2 k, où k est la hauteur de l arbre, nous avons alors : N(2 k ) = U k = 1 + (U k 1 ) 2 avec U 0 = 1

16 480 TSI. Volume 33 n o 5-6/2014 c 1 c 1 c 1 m 1 m 2 m 3 m 1 m 2 m 3 m 1 m 2 m 3 p 1 p 2 p 3 p 4 p 5 p 6 p 7 p 1 p 2 p 3 p 4 p 5 p 6 p 7 p 1 p 2 p 3 p 4 p 5 p 6 p 7 Figure 4. Trois agrégations admissibles au sein d une hiérarchie définie sur 7 processus, répartis en 3 machines et 1 cluster. Les surfaces grisées représentent des coupes de l arbre et les cercles noirs les partitions correspondantes, de haut en bas : agrégation totale, agrégation multi-résolution et représentation microscopique La suite (U k ) k N est dominée par 3 : N(T ) = O(c n ) avec c 1, 226 Notons qu on trouve des résultats similaires pour des arbres ternaires complets 4 (c 1, 084), pour des arbres quaternaires complets, etc. Ainsi, pour une taille bornée des agrégats constituant la hiérarchie, la classe de complexité reste la même que dans le cas d un arbre binaire (c est-à-dire exponentielle). L espace de recherche déterminé par des contraintes hiérarchiques est donc bien plus petit que l espace non contraint, dont le cardinal est donné par le n-ème nombre de Bell B n. En particulier, N ne dépend pas directement du nombre de processus, mais essentiellement du nombre de branches dans la hiérarchie. Par exemple, N demeure constant lors de l addition de processus dans une branche de la hiérarchie. Cependant, le nombre d agrégations admissibles croît toujours de manière exponentielle lors de l addition de branches ou de niveaux. Ainsi, les contraintes topologiques ne sont pas à elles seules suffisantes pour résoudre le problème de l agrégation optimale en temps polynomial Un algorithme reposant sur la décomposabilité des mesures Pour comparer les agrégations admissibles en un temps raisonnable, nous utilisons une propriété algébrique importante des mesures définies dans la sous-section 3.3. Il s agit de la décomposabilité additive (sum property) (Csiszár, 2008). Une mesure de qualité f est additivement décomposable s il existe une application g de P(E) dans R + telle que, pour toute agrégation A : f(a) = A A g(a) 3. Voir la formule présentée sur le site Integer Sequences : (formule de Benoit Cloitre, 27 novembre 2002) 4. Voir :

17 Agrégation et visualisation de traces 481 En d autre termes, la qualité d une agrégation peut être définie comme la somme des qualités de ses agrégats. La décomposabilité additive garantit ainsi que la qualité d un agrégat ne dépend pas de la manière dont les autres entités sont agrégées. L évaluation d un agrégat peut donc servir à l évaluation de toutes les agrégations qui le contiennent. En réalité, la décomposabilité additive est une hypothèse plus forte puisqu il suffit qu une mesure soit décomposable pour garantir que l on peut évaluer les agrégats indépendamment les uns des autres. Il se trouve que la plupart des mesures en théorie de l information sont également additives (Csiszár, 2008). De plus, notons que l additivité des mesures de qualité ne dépend pas de l additivité des attributs analysés : il est par exemple possible, en toute généralité, de définir des mesures additivement décomposables s appliquant à des attributs intensifs (agrégation par moyenne). Les équations 2, 3 et 4 montrent que les mesures que nous avons définies précédemment sont bien décomposables. C est également le cas de la mesure paramétrée m p (équation 1). L algorithme des représentations optimales présenté ci-dessous utilise cette propriété pour trouver les agrégations maximisant m p en réalisant le moins de mesures possible. L évaluation est divisée sur chaque branche de l arbre par autant d appels récursifs. L algorithme est appliqué une fois à chaque nœud et correspond donc à un simple parcours en profondeur de l arbre. Sa complexité temporelle est donc linéaire. Notons que les deux hypothèses doivent être vérifiées pour obtenir une complexité linéaire : la décomposabilité sans les contraintes topologiques, et réciproquement, ne suffit pas. Soit T un arbre et m une mesure de qualité additivement décomposable. On note A T l agrégation totale de T. Si T est une feuille, alors renvoyer A T, (cas de base) sinon : 1. Pour chaque sous-arbre direct S, trouver l agrégation optimale A S. (un appel récursif pour chaque fils de la racine de T ) 2. Si la somme des qualités des agrégations optimales m(a S ) est supérieure à la qualité de l agrégation totale m(a T ), alors : renvoyer A S, l union des agrégations optimales, sinon : renvoyer A T, l agrégation totale. Algorithme des représentations optimales. Cet algorithme calcule les agrégations admissibles au sein d une hiérarchie (représentée par un arbre T ) qui maximisent une mesure de qualité décomposable m

18 482 TSI. Volume 33 n o 5-6/ Résultats et évaluation de l approche Cette section montre l intérêt des mesures de qualité et de l algorithme des représentations optimales à partir de trois cas d étude concernant la détection et l explication d anomalies apparaissant à différentes échelles spatiales dans les traces d exécution. Les applications et les outils utilisés, ainsi que les objectifs de l analyse, sont détaillés dans la sous-section suivante. Trois cas d analyse sont ensuite présentés : deux concernant le vol de travail dans des applications parallèles réelles et un troisième pour démontrer que l approche proposée passe à l échelle en agrégeant la trace simulée d un million de processus Description des outils, des traces et du cadre d analyse Les approches de visualisation orientée-pixels (Keim, 2000 ; Ward et al., 2010) proposent d utiliser l intégralité des pixels disponibles à l écran pour représenter de très grandes quantités de données. Nous choisissons une technique de visualisation adaptée à la structure hiérarchique des systèmes qui nous intéressent. Les représentations treemap (Shneiderman, 1992) constituent à ce titre une technique orientée-pixels représentant les hiérarchies sous la forme de «boîtes imbriquées», chacune représentant une entitée ou un agrégat (processus, machine, cluster ou site dans le cas de systèmes distribués). Les attributs de ces entités graphiques sont affichés à l intérieur des boîtes. Dans nos expériences, les treemaps sont utilisées pour afficher le temps passé par les processus dans différents états au cours de l exécution. Des niveaux de gris différents sont utilisés pour chaque état (cf. figures 5, 6 et 7). La complexité des treemaps est mesurée par le nombre de valeurs affichées, définissant ainsi la granularité de la visualisation (cf. section 3.3.1). Nous utilisons les outils open-source PajéNG et Viva (Chassin de Kergommeaux et al., 2000 ; Schnorr, Legrand, 2012 ; Schnorr, Huard, Navaux, 2012), affichant les traces d exécution sous la forme de treemaps, outils au sein desquels nous avons implémenté les mesures de qualité et l algorithme d agrégation. Notons que l agrégation de données constitue une étape préliminaire à la visualisation. Ainsi, nous pensons que l approche présentée dans cet article peut être appliquée à de nombreuses autres techniques de visualisation classiques (comme aux diagrammes de Gantt, discutés en section 2 ou à d autres approches orientées-pixels (Ward et al., 2010)) à condition de définir une mesure de complexité adaptée, i.e., exprimant le coût du processus de visualisation pour une représentation donnée. Les deux premiers cas d étude concernent l analyse du vol de travail aléatoire d une application parallèle orienté par les tâches. L application repose sur le middleware KAAPI (Gautier et al., 2007) qui tente d équilibrer les charges de travail. Les traces analysées contiennent, pour chaque processus, les intervalles de temps consacrés à l exécution des tâches (RUN), ainsi que les dates auxquelles le processus tente de voler des tâches aux autres processus (STEAL). L application est exécutée sur la plateforme Grid 5000 (Bolze et al., 2006). Les processus y sont hiérarchiquement organisés en machines, clusters et sites. Le troisième cas d étude propose l analyse d une trace engendrée de manière artificielle. Celle-ci contient l exécution d un mil-

19 Agrégation et visualisation de traces 483 lion de processus, organisés selon 5 niveaux et pouvant être dans deux états : VS0 et VS1. Pour souligner l intérêt de notre approche, nous avons introduit des comportements hétérogènes à chaque niveau de la hiérarchie : des processus hétérogènes au sein d une machine, des machines hétérogènes au sein d un cluster, etc Premier cas d étude : utilisation des mesures et de l algorithme Ce cas d étude explique le fonctionnement des treemaps et montre l intérêt de l algorithme des représentations optimales pour régler le niveau de détail de la visualisation spatiale de la trace. La trace analysée provient d une application parallèle KAAPI composée de 188 processus répartis en 9 clusters et 5 sites (Schnorr, Huard, Navaux, 2012). Dans les treemaps de la figure 5, l état RUN est représenté en gris clair et l état STEAL en gris foncé. La treemap A affiche le temps passé dans ces états pour chaque processus. Il s agit d une visualisation de la représentation microscopique. Les treemaps A.1 et A.2 affichent les données agrégées au niveau des clusters et des sites. Les temps passés dans chaque état par les processus sous-jacents sont simplement additionnés. La treemap A.3 représente l agrégation totale. En affichant les différents niveaux d agrégation, ces quatre treemaps (A, A.1, A.2 et A.3) rendent compte de l organisation hiérarchique de la plateforme sous la forme de «boîte imbriquées» : A.1 indique les agrégats de processus en clusters, A.2 les agrégats de clusters en sites et A.3 l agrégation totale. Plus nous montons dans la hiérarchie, plus le nombre de valeurs affichées diminue et, avec lui, la complexité de la visualisation. Celle-ci nécessite moins de temps de rendu et peut être analysée plus rapidement. Pourtant, elle contient moins d information concernant le comportement précis des processus. Une analyse de la treemap A permet de repérer que certains processus d un site (entouré, dans la figure 5) ont passé un temps anormal dans l état STEAL. Cette anomalie peut être expliquée par une analyse technique plus approfondie : la latence du réseau est plus grande au niveau du site en question. Comme l algorithme de répartition des tâches ne prend pas en compte ce genre de propriétés locales, il résulte des temps de vol de travail plus longs. Cette anomalie ne peut pas être détectée à partir des treemaps A.1, A.2 et A.3 puisqu elles agrègent les informations relatives au site en question. Pire, ces visualisations peuvent être mal interprétées. En particulier, l utilisateur peut supposer que tous les processus du site ont anormalement volé du travail. Il peut également penser que c est le cas d un seul processus. Dans les deux cas, il s agit d interprétations erronées qui peuvent nuire à l analyse de l application. De plus, la treemap A n est pas optimale dans la mesure où elle contient beaucoup d information redondante (sites homogènes). Cette visualisation microscopique peut difficilement être appliquée à de très grands systèmes, tels que présentés dans le troisième cas d étude. L algorithme des représentations optimales, appliqué à la mesure paramétrée m p (cf. équation 1), permet de construire des visualisations multirésolutions pertinentes pour pallier ces problèmes. Nous examinons les agrégations maximisant la mesure m p pour différentes valeurs du rapport gain / perte p : de 0 % (visualisation micro-

20 484 TSI. Volume 33 n o 5-6/2014 A 188 processus A.1 9 clusters A.2 5 sites A.3 Agrégation totale B Agrégation optimale pour p = 10% C Agrégation optimale pour p = 40% Figure 5. Treemaps d une application exécutée sur 188 processus. La treemap A présente le niveau microscopique ; les treemaps A.1, A.2 et A.3 présentent les autres niveaux de la hiérarchie ; les treemaps B et C sont engendrées par l algorithme des représentations optimales. Le positionnement du paramètre p à 10 % (treemap B) et à 40 % (treemap C) permet d observer la trace à différentes échelles spatiales scopique, treemap A) à 100 % (agrégation totale, treemap A.3). Très rapidement, pour p > 10 %, les sites homogènes sont agrégés et l anomalie reste visible (treemap B). Contrairement aux treemaps A.1, A.2 et A.3, agrégées à différents niveaux de la hiérarchie, l algorithme garantit dans le cas des treemaps B et C que les données sont homogènes dans chacun des agrégats. Ainsi, l utilisateur peut faire les bonnes hypothèses concernant les processus sous-jacents, sans procéder à une analyse plus détaillée de ces parties de la visualisation. Lorsque le rapport gain / perte arrive aux alentours de 40 %, l algorithme agrège chacun des sites (treemap C). Cette visualisation rend compte d un autre niveau d hétérogénéité. Nous constatons alors que le site entouré lorsqu il est pris dans sa globalité se comporte différemment des autres. Enfin, pour p > 54 %, nous obtenons l agrégation totale (treemap A.3) Deuxième cas d étude : détecter les anomalies via l hétérogénéité L application analysée dans ce cas d étude est exécutée sur 433 processus, répartis en 50 machines et 3 clusters. L objectif de l analyse consiste à détecter des anomalies dans la trace engendrée. On suppose ici que l hétérogénéité est le symptôme d une exécution anormale : comme dans le cas précédent, on s attend à ce que les proces-

21 Agrégation et visualisation de traces 485 sus au sein d un même cluster aient un comportement similaire. Les treemaps de la figure 6 utilisent le même code couleur que précédemment. Les treemaps A, A.1, A.2 et A.3 visualisent les différents niveaux d agrégation spatiale. La treemap B est engendrée par l algorithme des représentations optimales pour un rapport gain / perte de 10 %. Les machines homogènes y sont agrégées avec une perte d information négligeable. Seules les machines avec au moins un processus différent des autres sont détaillées. Pour p > 30 %, les machines hétérogènes sont finalement agrégées (treemap C). Il s agit indubitablement d une perte d information, mais cela permet de repérer une machine «plus hétérogène» que les autres (entourée, dans la figure 6). Elle contient en effet deux processus au comportement anormal. Cet exemple montre comment, avec très peu d effort, l utilisateur peut détecter des anomalies dans l application qu il analyse, à supposer que celles-ci soient synonymes d hétérogénéité. L algorithme d agrégation focalise l attention sur ces parties du système. Bien évidement, d autres critères peuvent être utilisés pour détecter d autres anomalies : trop ou pas assez de temps passé dans un état donné, comportements homogènes, etc. Notre approche permet de produire des visualisations au sein desquelles de tels critères sont également détectables à moindre coût. A 433 processus A.1 50 machines A.2 3 clusters A.3 Agrégation totale B Agrégation optimale pour p = 10% C Agrégation optimale pour p = 30% Figure 6. Treemaps d une application exécutée sur 433 processus. La treemap A présente le niveau microscopique ; les treemaps A.1, A.2 et A.3 présentent les autres niveaux de la hiérarchie ; les treemaps B et C sont engendrées par l algorithme des représentations optimales. La treemap B (p = 10 %) induit une perte d information négligeable par rapport à la treemap C (p = 30 %) où seule la machine la plus hétérogène est détaillée

22 486 TSI. Volume 33 no 5-6/ Troisième cas d étude : visualisation de très grands systèmes distribués Ce cas d étude vise à montrer que l agrégation de données est essentielle lorsqu il s agit de passer à l échelle les méthodes de visualisation. Dans ce but, nous avons artificiellement engendré la trace d exécution d une application contenant un million de processus, chacun pouvant être dans un état parmi deux possibles. Ces processus sont répartis en machines, clusters, 100 super-clusters et 10 sites. Tous ces niveaux sont homogènes à un cas près : une machine a des processus hétérogènes, un cluster a des machines hétérogènes, un super-clusters à des clusters hétérogènes et un site a des super-clusters hétérogènes. A machines A.b A.a A.c B Agrégation optimale pour p = 10% B.b B.d B.a B.c Figure 7. Treemaps d une trace artificielle contenant un million de processus. La treemap A présente le niveau des machines ; la treemap B est engendrée par l algorithme des représentations optimales. Avec un paramètre p à 10 %, la treemap B contient 50 fois moins d agrégats que la treemap A, mais contient néanmoins 95 % de l information microscopique. Elle permet ainsi le passage à l échelle des techniques de détection et d analyse des anomalies

Montrer encore