Agrégation de traces d exécution pour la visualisation de grands systèmes distribués

Dimension: px
Commencer à balayer dès la page:

Download "Agrégation de traces d exécution pour la visualisation de grands systèmes distribués"

Transcription

1 Agrégation de traces d exécution pour la visualisation de grands systèmes distribués Robin Lamarche-Perrin 1, Lucas M. Schnorr 2, Jean-Marc Vincent 2, Yves Demazeau 1 1. Laboratoire d Informatique de Grenoble Maison Jean Kuntzmann 110 avenue de la Chimie Saint-Martin-d Hères {Robin.Lamarche-Perrin,Yves.Demazeau}@imag.fr 2. Laboratoire d Informatique de Grenoble INRIA Rhône-Alpes 655 avenue de l Europe Montbonnot {Lucas.Schnorr,Jean-Marc.Vincent}@imag.fr RÉSUMÉ. La visualisation de performance consiste à représenter graphiquement l exécution d applications parallèles pour procéder à leur analyse. Dans le cas de très grands systèmes, l agrégation des données analysées est inévitable. Cet article met en évidence un problème scientifique majeur : comment produire des représentations agrégées qui ont un sens lors du passage à l échelle? Quatre éléments de réponse sont discutés. (1) Les outils de visualisation doivent garantir la compréhension et le contrôle par l utilisateur du procédé d agrégation. (2) Il est crucial d estimer la qualité des représentations engendrées afin de distinguer les agrégations utiles (suppression d informations redondantes) de celles qui sont dangereuses pour l analyse (perte d informations importantes). Nous proposons des mesures issues de la théorie de l information pour quantifier ces deux aspects et pour ainsi engendrer des représentations multirésolutions (agrégation de données redondantes et conservation des données hétérogènes). (3) Les propriétés sémantiques et topologiques du système doivent également être prises en compte afin de garantir la juste interprétation des agrégats par l utilisateur. La recherche des agrégations optimales est ainsi restreinte à un ensemble d agrégations pertinentes sur le plan sémantique. (4) Des méthodes de calcul sophistiquées sont alors nécessaires pour sélectionner les agrégations optimales lors du passage à l échelle. Nous proposons un algorithme à complexité linéaire (dans le cas de systèmes hiérarchiques) parvenant à agréger jusqu à un million d entités et garantissant l interprétabilité des visualisations engendrées. ABSTRACT. Performance visualisation consists in using graphical representations to analyse parallel applications. In the case of large-scale systems, the aggregation of data cannot be avoided. This paper highlights a major scientific issue: How to provide aggregated representations Technique et science informatiques n o 5-6/2014,

2 466 TSI. Volume 33 n o 5-6/2014 that have a consistent meaning at scale? Four facets of this issue are addressed in this paper. (1) Visualisation tools should ensure the understanding and the control of the aggregation process by the user. (2) They should estimate the quality of aggregated representations in order to distinguish useful aggregations (suppressing redundant information) from those that may be harmful for the analysis (supressing essential information). We propose to use informationtheoretic measures in order to quantify these two aspects and to generate multiresolution representations of the system (aggregating redundant data while preserving heterogeneous data). (3) The system s semantic and topological properties should also be taken into account in order to ensure the proper interpretation of aggregated data by the user. The search for optimal aggregations is thus restricted to a subset of semantically-relevant aggregations. (4) Advanced computation methods are necessary to select optimal aggregations in an efficient way. We propose an algorithm with a linear complexity (in the case of hierarchical systems) in order to aggregate large-scale execution traces while preserving the interpretability of generated visualisations. MOTS-CLÉS : agrégation de données, réduction de complexité, perte d information, théorie de l information, visualisation de performance, systèmes distribués, représentations treemap. KEYWORDS: data aggregation, complexity reduction, information loss, information theory, performance visualization, distributed systems, treemap representations. DOI: /TSI c 2014 Lavoisier 1. Introduction Les applications de calcul haute performance (High Performance Computing) s exécutent actuellement sur des systèmes ayant plusieurs milliers, voire plusieurs millions de cœurs. Le supercalculateur en tête de la liste Top500 de juin 2013 en possédait par exemple plus de 3 millions 1. L exa-informatique vise à développer, au cours des prochaines années, des supercalculateurs atteignant l exaflop (i.e., opérations par seconde) en orchestrant éventuellement plusieurs milliards de cœurs (Geller, 2011). Les applications exécutées sur ces plateformes font intervenir autant de fils d exécution, engendrant une concurrence extrême entre les tâches de calcul. Comprendre et expliquer le comportement de ces applications constitue un défi majeur pour l informatique. Nous distinguons les défis techniques, relatifs à l observation, la centralisation et l enregistrement de l activité des processus, notamment via des traces d exécution, et les défis sémantiques, relatifs à l extraction d informations pertinentes pour l analyse à différentes échelles temporelles (de la nanoseconde au millier de secondes) et spatiales (du cœur à l ensemble du système). La visualisation de performance constitue un outil d analyse adapté au débogage et à l optimisation d applications hautes performances. Elle consiste à représenter graphiquement leur exécution pour y détecter des comportements anormaux. Les techniques de visualisation de l espace et du temps utilisées dans le domaine comprennent 1. Supercalculateur Tianhe-2 Milkyway, voir :

3 Agrégation et visualisation de traces 467 des représentions classiques, telles que les diagrammes de Gantt (Wilson, 2003), et des représentations alternatives moins classiques, telles que les treemaps 2 (Shneiderman, 1992) et le graphe des ressources de calcul (Schnorr, Legrand, 2012). Cet article présente des outils de visualisation compétitifs pour l analyse de performances à grande échelle (Jumpshot-4, Pajé, Paraver, Triva, Vampir, Vite et Viva) en précisant les techniques de visualisation qu ils implémentent. Ces outils doivent cependant être perfectionnés afin de préserver la sémantique des données aux échelles qui nous intéressent. En plus d être extrêmement coûteux, le rendu détaillé du niveau microscopique est difficile à analyser (Schnorr, Legrand, 2012). Plus grave, le désordre qui existe à ce niveau compromet l interprétation des représentations. Il est alors nécessaire de recourir à des techniques d abstraction pour réduire la taille et la complexité des visualisations proposées (Elmqvist, Fekete, 2010). Pour ce faire, des techniques de sélection, d échantillonnage, de regroupement (clustering) ou d agrégation permettent de réduire la taille des traces pour engendrer des représentations graphiques lisibles. Cependant, les techniques de sélection n offrent que des représentations partielles du système, interdisant ainsi tout point de vue global. L échantillonnage ne permet pas de capter à coup sûr les comportements exceptionnels. Le regroupement (Lee et al., 2008) constitue des agrégats de processus généralement décorrélés de la sémantique du système (e.g., tâches exécutées, architecture, topologie du réseau), ce qui peut nuire à l analyse (cf. section 4). En revanche, l agrégation de données permet, dans certains cas, de constituer des abstractions plus pertinentes pour interpréter de grandes traces d exécution. Les données brutes sont transformées par un opérateur d agrégation (moyenne, somme, médiane, etc. (Elmqvist, Fekete, 2010)) en fonction de la structure du système (Schnorr et al., 2009). L agrégation vise ainsi à réduire la taille des données pour produire une représentation macroscopique cohérente des états et de la dynamique du système. Notons que ce processus de réduction est inévitable dans le cas de grandes traces, qu il s agisse d une agrégation graphique lors du rendu de la visualisation (par exemple au niveau des pixels, pour Paraver (Labarta et al., 2006)) ou d une agrégation de données (par exemple au niveau des évènements, pour Viva (Schnorr, Legrand, 2012)). L agrégation n est pas un procédé de traitement anodin. Elle peut notamment engendrer une perte d information dangereuse pour l interprétation des représentations macroscopiques, en particulier lorsque les données agrégées sont fortement hétérogènes. Si elle n est pas contrôlée, une telle transformation peut n apporter aucune information pertinente et, pire, induire l utilisateur en erreur. Par exemple, dans la figure 1, parce qu il n y a pas assez de place sur l écran pour représenter toute l information contenue dans une trace d exécution de 8 mois, une agrégation temporelle des données est nécessaire. En examinant les détails sur une période de 12 jours, nous remarquons que le comportement est bien plus complexe que celui visualisé à l échelle macroscopique. Plus grave encore, le logiciel de visualisation procède également à 2. Plusieurs traductions de ce terme anglais ont été proposées en informatique : «diagrammes de répartition», «diagrammes d occupation», ou encore «arborescences». Nous préférons dans la suite de l article conserver le terme original «treemaps» qui exprime mieux la représentation d arbres ou de hiérarchies.

4 468 TSI. Volume 33 n o 5-6/2014 Acroread 8 mois Evince 8 mois 12 jours 12 jours Figure 1. Visualisation de la disponibilité d un client BOINC sur une période de 8 mois (Schnorr, Legrand, Vincent, 2012). Une agrégation de données est nécessaire pour représenter l ensemble de cette période (frises supérieures). Le résultat de l agrégation est visualisé au format vectoriel par deux outils (Acroread à gauche et Evince à droite). Les représentations diffèrent du fait des techniques d agrégation graphique implémentées par chacun des outils une agrégation graphique pour afficher les données superposées au niveau du pixel. Le rendu diffère d un outil à l autre, ce qui met en cause l interprétabilité de la visualisation (cf. les quatre frises de la figure 1, réalisées avec deux outils de visualisations différents, sur le même ordinateur et avec le même logiciel de capture). Le procédé d agrégation étant à la fois décisif et critique, il nous paraît essentiel de disposer de méthodes formelles et pratiques pour son contrôle et son évaluation. À notre connaissance, peu de travaux de recherche en visualisation de performance se sont intéressés à ce problème dépassant, bien entendu, le seul domaine des systèmes distribués. Nous défendons l idée que, dans la plupart des domaines d applications, l évaluation du procédé d agrégation est un point crucial pour garantir l interprétabilité des visualisations à grande échelle. Face aux limitations sémantiques des outils de visualisation de performance (section 2), cet article présente une approche originale, adaptée à la production de visualisations macroscopiques pertinentes pour l utilisateur. Cette approche consiste à évaluer la qualité des représentations proposées en exploitant des mesures issues de la théorie de l information, dont les fondements mathématiques permettent de formaliser les notions de «complexité» et de «perte d information» pour engendrer des représentations multirésolutions : agrégation de données redondantes et conservation des données hétérogènes (section 3). Nous proposons un algorithme permettant d optimiser ces mesures de qualité et d ainsi sélectionner les «meilleures» visualisations pour une trace donnée (section 4). Cette approche est appliquée à l agrégation spatiale d applications parallèles et à leur visualisation via des treemaps multirésolutions. Nous montrons que de telles représentations permettent de détecter à moindre coût les comportements anormaux au sein de l application. En outre, nous montrons que notre approche résout les défis techniques et sémantiques actuels en agrégeant la trace d exécution d un million de processus (section 5). Nous montrons que cette ap-

5 Agrégation et visualisation de traces 469 proche peut être généralisée à de nombreux cas d analyse et que les problèmes qu elle soulève ne se limitent pas au domaine du calcul haute performance (section 6). Nous pensons au contraire que l évaluation et le contrôle des procédés d agrégation constitue un enjeu transversal crucial pour la visualisation de grandes quantités de données (section 7). 2. Politiques d agrégation des outils de visualisation de performance Les outils de visualisation de performance ont souvent recours à l agrégation de données pour manipuler de grandes traces d exécution. Dans cet état de l art, nous utilisons comme référence les techniques de visualisation par diagrammes de Gantt, car celles-ci sont implémentées dans la majeure partie des outils d analyse. Nous distinguons quatre catégories de politiques d agrégation de données proposées par ces outils (Schnorr, Legrand, 2012). À ce titre, le procédé d agrégation constitue une étape préliminaire au procédé de visualisation. Interdiction de l agrégation. Politique généralement utilisée pour éviter les pertes d information pouvant induire l utilisateur en erreur. Agrégation implicite. L utilisateur ne peut distinguer, au sein de la visualisation, les données agrégées des données brutes. L agrégation graphique, induite par le rendu de la visualisation, tombe dans cette catégorie. Agrégation explicite. L utilisateur supervise le procédé d agrégation. Il peut notamment contrôler les entités à agréger et les opérateurs à utiliser. Évaluation de l agrégation. En plus de superviser le procédé d agrégation, l utilisateur dispose d indicateurs concernant la qualité des représentations engendrées. Il peut ainsi estimer la perte d information induite par l agrégation Interdiction de l agrégation Le diagramme de Gantt implémenté dans Pajé (Chassin de Kergommeaux et al., 2000) interdit l agrégation spatiale des données en imposant une largeur d écran minimale pour chaque entité visualisée. Dans l exemple de la figure 2, seule l activité de 16 processus est affichée. L utilisateur doit faire défiler la fenêtre de haut en bas pour examiner les autres entités, ce qui rend impossible toute vue d ensemble. Très peu d outils interdisent l agrégation spatiale ou temporelle, sous peine de contraindre l utilisateur à une analyse extrêmement laborieuse dans le cas de grandes traces. La plupart des outils proposent donc un procédé d agrégation implicite ou explicite de l espace et du temps, pour offrir une vue globale de l exécution Agrégation implicite Dans le diagramme de Gantt implémenté par Pajé, les communications et les évènements peuvent être agrégés dans le temps. Cependant, l utilisateur ne peut distinguer

6 470 TSI. Volume 33 n o 5-6/2014 immédiatement les données brutes des données agrégées, les symboles correspondants étant identiques. Par exemple, dans la figure 2, les flèches de synchronisation entre les processus (ellipse B) peuvent indistinctement représenter une ou plusieurs communications. L utilisateur peut néanmoins parcourir ces symboles pour obtenir plus d information à leur sujet. Le diagramme implémenté par Vampir (Brunst et al., 2010) agrège dans le temps les fonctions exécutées par l application analysée. La couleur d un pixel correspond à la fonction prédominante sur l intervalle de temps correspondant (GWT-TUD Gmbh, 2011). Pour cet outil, il est impossible de distinguer le cas où une seule fonction a été exécutée du cas où plusieurs l ont été. Le diagramme implémenté par Vite (Coulomb et al., 2009) réalise une agrégation graphique implicite de l espace et du temps. L outil tente d afficher toutes les données fournies, indépendamment de l espace disponible pour la visualisation. Jumpshot-4 (Chan et al., 2008) et slog2 (un format de fichier pour encoder de très grandes traces) permettent à l utilisateur de configurer la granularité de la dimension temporelle pour réduire les coûts de lecture et de visualisation. Cependant, une fois la granularité définie, rien ne permet d identifier visuellement les intervalles qui ont effectivement été agrégés. Temps A B Processus agrégation interdite Rectangles hachurés : agrégation explicite des états Flèches superposées : agrégation implicite des communications Figure 2. Diagramme de Gantt proposé par l outil de visualisation Pajé (Kergommeaux et al., 2000). Les processus de l application sont listés selon l axe vertical (dimension spatiale) et le comportement de chaque processus est visualisé selon l axe horizontal (dimension temporelle) sous la forme de rectangles, indiquant les différents états d exécution, et de flèches, indiquant les communications entre les processus. L ellipse A met en évidence des rectangles hachurés indiquant une agrégation temporelle des états sur la tranche de temps correspondante (lorsqu il est impossible de visualiser des variations trop fines). L ellipse B met en évidence des flèches représentant chacune plusieurs communications via une agrégation implicite

7 Agrégation et visualisation de traces 471 Dans la mesure où les données agrégées ne sont pas clairement identifiées, ces outils peuvent conduire à une mauvaise interprétation de la visualisation : certaines données brutes peuvent être dissimulées, uniformisées, ou transformées sans que cela ne soit indiqué clairement à l utilisateur. Il est par conséquent nécessaire d utiliser ces outils avec la plus grande prudence, ou alors préférer ceux qui distinguent explicitement les données agrégées des données brutes Agrégation explicite Dans le diagramme proposé par Pajé, les états des processus sont représentés par des rectangles hachurés lorsqu il n y a pas assez de place pour représenter en détail leur succession (cf. figure 2, ellipse A). La distribution de ces états est alors indiquée, mais pas leur ordre. Lorsque le diagramme de Gantt proposé par Paraver (Pillet et al., 1995 ; Labarta et al., 2006) est agrégé dans le temps ou dans l espace, le rendu de la visualisation est contrôlé afin de repérer les éventuelles agrégations au niveau des pixels. L utilisateur peut alors sélectionner un opérateur d agrégation pour chacune des dimensions : afficher le premier ou le dernier état, l état le plus ou le moins présent, l état moyen, ou encore un état choisi de manière aléatoire. Il contrôle ainsi explicitement la manière dont est faite l agrégation. Dans le diagramme proposé par Vampir (Brunst et al., 2010), un symbole spécial est utilisé pour représenter les communications agrégées, invitant l utilisateur à zoomer pour obtenir plus de détails (GWT-TUD Gmbh, 2011). Triva (Schnorr, Legrand, Vincent, 2012) et Viva (Schnorr, Legrand, 2012) agrègent également l espace et le temps de manière explicite, mais à partir de techniques de visualisation moins classiques (treemaps et graphes des ressources). Ces outils pour l analyse de traces permettent de mieux interpréter les visualisations qu ils engendrent : soit en contrôlant la manière dont le procédé d agrégation est réalisé, soit en indiquant explicitement lorsque les données brutes ont été transformées. Cependant, ils ne permettent pas de distinguer les agrégations utiles (suppression d informations redondantes) des agrégations dangereuses pour l analyse (perte d informations importantes). En plus du contrôle du procédé d agrégation, ces outils devraient donc fournir à l utilisateur les moyens d évaluer la qualité des représentations engendrées. Analyse de l état d art et contribution Le tableau 1 fait la synthèse des politiques d agrégation implémentées par les outils de visualisation cités dans cette section. Nous distinguons l agrégation de la dimension spatiale (ensemble des processus de l application) et l agrégation de la dimension temporelle (états et communications des processus au cours du temps). Par exemple, la ligne dédiée à Pajé dans le tableau indique que cet outil interdit l agrégation spatiale et autorise l agrégation temporelle, de manière implicite dans le cas des communications et de manière explicite dans le cas des états. Ce tableau montre qu aucun outil de visualisation de performance, à notre connaissance, n offre les moyens nécessaires à l évaluation de la qualité des techniques d agrégation qu ils implémentent. Pour ceux

8 472 TSI. Volume 33 n o 5-6/2014 que nous avons examinés (Jumpshot-4, Pajé, Paraver, Triva, Vampir, Vite et Viva), même si les données agrégées sont graphiquement distinguées des données brutes, l utilisateur ne peut pas identifier et sélectionner les agrégations permettant le passage à l échelle sans nuire profondément à l interprétation des données. Cet article vise à l implémentation d une telle politique d agrégation au sein de l outil de visualisation Viva (cf. objectif dans le tableau 1. Interdiction Implicite Explicite Évaluation Jumpshot-4 Espace Temps Pajé Espace Temps (comm.) Temps (états) Paraver Triva Espace/Temps Espace/Temps Vampir Espace/Temps Temps (comm.) Vite Espace/Temps Viva Espace/Temps objectif Tableau 1. Classification des outils de visualisation de traces en fonction de leurs politiques d agrégation (spatiale/temporelle, interdite/implicite/explicite) 3. Évaluer la qualité des représentations agrégées Nous venons de mettre en évidence le besoin d intégrer aux outils de visualisation des méthodes d évaluation permettant de contrôler la qualité des représentations engendrées par l agrégation de données. Cette section formalise la notion même d agrégation (3.1). Nous y définissons la qualité d une représentation comme un équilibre entre une réduction de complexité, évaluant la suppression d informations redondantes pour simplifier la visualisation et passer à l échelle, et une mesure d ajustement (goodness-of-fit), évaluant la juste interprétation des données agrégées par rapport aux données microscopiques (3.2). Des mesures issues de la théorie de l information sont proposées afin de quantifier ces deux aspects de l agrégation de données (3.3) Données microscopiques et données agrégées Soit E l ensemble des entités microscopiques du système. Dans le cas de systèmes distribués, il s agit la plupart du temps des processus exécutés. La visualisation de performance consiste à afficher certains attributs de ces entités (états, propriétés, évènements, communications, etc.) pour en analyser la répartition. Dans cet article, nous nous intéressons aux attributs quantitatifs à valeur positive. Nous notons v(e) R + la valeur prise par l attribut du processus e E. L ensemble des valeurs {v(e)} e E constitue la représentation microscopique spatiale de l attribut (cf. figure 3). Elle fournit une information complète et détaillée des entités relativement

9 Agrégation et visualisation de traces 473 Agrégat homogène Agrégat hétérogène Représentation microscopique Représentation agrégée Réprésentation hypothétique Figure 3. Deux exemples d agrégation de données. Un agrégat homogène (en haut) et un agrégat hétérogène (en bas) sont représentés au niveau microscopique (à gauche), puis agrégés (au centre) et interprétés sous la forme d une représentation hypothétique (à droite). Dans le cas de l agrégat hétérogène, cette représentation hypothétique diverge significativement de la représentation microscopique à l attribut sélectionné. Dans de nombreux cas, toute l information contenue par une telle représentation n est pas nécessaire à l analyse. Un ensemble restreint de valeurs peut alors suffire à la compréhension et à l explication de l exécution. Un agrégat A E est une entité macroscopique abstraite qui résume le comportements d un ensemble d entités sous-jacentes. Les valeurs agrégées peuvent être définies de plusieurs manières : somme, moyenne, extrema, distribution des valeurs (Elmqvist, Fekete, 2010). Par exemple, dans la figure 3, les valeurs des agrégats sont la somme des valeurs des entités sous-jacentes. Nous notons donc v(e) la somme des valeurs de tous les processus. Une agrégation A est une partition de E qui associe à chaque entité microscopique un et un seul agrégat. L ensemble des valeurs agrégées {v(a)} A A fournit alors une représentation agrégée de l attribut (cf. figure 3). Dans cet article, nous nous limitons donc à l étude des agrégations recouvrantes (chaque entité appartient au moins à un agrégat) et non redondantes (chaque entité appartient au plus à un agrégat). Il serait intéressant de relâcher, plus tard, cette contrainte Mesure paramétrée : entre réduction de complexité et perte d information La visualisation et l analyse d une représentation agrégée est moins coûteuse, sur le plan computationnel et sur le plan cognitif, que la visualisation et l analyse de la représentation microscopique correspondante. Cependant, la représentation agrégée est plus ou moins similaire à la représentation initiale. On parle d ajustement. Par exemple, dans la figure 3, seules 2 valeurs sont fournies par la représentation agrégée, contre 13 valeurs pour la représentation microscopique. Ces deux représentations peuvent être comparées grâce à une hypothèse de répartition des valeurs au sein des

10 474 TSI. Volume 33 n o 5-6/2014 agrégats. Il s agit de la manière dont l utilisateur est amené à interpréter les données agrégées. Nous pouvons par exemple supposer que les sommes sont uniformément réparties entre les entités sous-jacentes (cf. figure 3). On parle alors de représentation hypothétique. Il apparaît que certains agrégats sont plus adéquats que d autres pour résumer les données. Dans la figure 3, l agrégat homogène semble pertinent dans la mesure où sa représentation hypothétique est proche de de sa représentation microscopique. Ce n est pas le cas de l agrégat hétérogène. Dans cet article, nous nous limitons à l hypothèse de répartition uniforme. L agrégation de valeurs hétérogènes entraîne alors un faible ajustement. Il serait cependant intéressant de travailler à partir d autres hypothèses de répartition en fonction de l attribut visualisé (par exemple des répartitions Gaussiennes, géométriques, etc.). La notion de «bonne» agrégation réunit donc deux aspects : 1. Ce que l on gagne en agrégeant la représentation microscopique. Il s agit de la simplification opérée par le processus d agrégation pour passer à l échelle. Nous parlons plus précisément de réduction de complexité, c est-à-dire de la réduction des ressources (ressources de calcul ou ressources cognitives) nécessaires à la visualisation de la représentation agrégée. 2. Ce que l on perd lors de l agrégation en termes d ajustement. Il s agit de mesurer la qualité des données visualisées par rapport aux données microscopiques. Le résultat de l agrégation est notamment sensible à la perte d information pouvant nuire à la bonne interprétation des données par l utilisateur. Par conséquent, choisir une agrégation consiste à réaliser un compromis entre un gain et une perte. Ce point de vue hérite notamment de travaux en sélection de modèles statistiques. Par exemple, le critère informationnel d Akaike (1974) permet de comparer le nombre de paramètres du modèle et sa vraisemblance, qui peuvent être respectivement interprétés comme une mesure de complexité et une mesure d ajustement. À supposer que nous disposons de mesures pour quantifier le gain et la perte d une agrégation A, nous exprimons ce compromis de qualité par une mesure paramétrée : m p (A) = p gain(a) (1 p) perte(a) (1) où A est l agrégation à évaluer et p [0, 1] est un paramètre permettant de pondérer les termes du compromis (rapport gain / perte). Maximiser m 0 revient à minimiser la perte : l agrégation la plus précise est optimale, on préfèrera donc la représentation microscopique. Maximiser m 1 revient à maximiser le gain : l agrégation la plus simple est optimale, on choisira donc l agrégation totale, résumant l attribut à la seule valeur v(e). Quand p varie de 0 à 1, un ensemble d agrégations optimales émerge. Chacune d elles optimise le compromis exprimé par m p en agrégeant seulement les parties homogènes du système. Le choix du rapport gain / perte est volontairement laissé à l attention de l utilisateur. Celui-ci peut ainsi adapter le niveau de représentation en fonction de la quantité de détails attendue et des ressources dont il dispose pour le rendu et l analyse de la visualisation.

11 Agrégation et visualisation de traces Des mesures de qualité issues de la théorie de l information Cette sous-section présente des mesures de gain et de perte permettant d évaluer la réduction de complexité et l ajustement d une représentation donnée. La théorie de l information fournit pour cela un cadre intéressant dont l apport essentiel consiste ici en deux mesures : l entropie de (Shannon, 1948) et la divergence de (Kullback, Leibler, 1951), toutes deux interprétables comme des quantités d information manipulées lors de l agrégation. De ce fait, notre approche hérite de travaux réalisés dans des domaines tels que le traitement du signal, la compression d images (Gonzalez, Woods, 2002), ou encore la construction de modèles statistiques (Akaike, 1973 ; 1974). Cette approche peut également être considérée comme une spécialisation de l approche MDL (Grunwald, 2007). Dans notre travail, la complexité d une représentation est évaluée comme la longueur d un codage simple, basé sur la quantité d information au sens de Shannon. L originalité des résultats repose plus sur la capacité algorithmique de sélectionner un modèle (au sens MDL) en un temps raisonnable (cf. complexité algorithmique polynomiale, section 4). Cette sélection est efficace car la classe de modèles est structurée algébriquement et que la quantité d information (au sens de Shannon ou de Kullback-Leibler) a de bonnes propriétés vis-à-vis de la structure algébrique de cette classe (cf. décomposabilité additive, section 4.3). Des détails concernant la formalisation et la sémantique des mesures présentées ci-dessous sont disponibles dans (Lamarche-Perrin et al., 2012 ; 2014) Mesurer la réduction de complexité induite par l agrégation de données Une représentation agrégée est moins coûteuse à encoder qu une représentation détaillée. En ce sens elle est plus facile à manipuler, moins complexe. La complexité d un objet peut ainsi être mesurée par une quantité d information (Edmonds, 1999). Le gain d une agrégation A est alors interprété comme une différence entre deux quantités : gain(a) = Q(A 0 ) Q(A), où A 0 est une partition de référence. Le gain mesure ainsi la quantité d information que l on économise en encodant la représentation A plutôt que la représentation A 0. Dans notre cas, nous prenons la représentation microscopique comme référence. Nombre de valeurs encodées Une manière simple de mesurer l information contenue dans une représentation consiste à compter le nombre de bits nécessaires pour encoder les valeurs qu elle contient. Nous pouvons alors supposer que chaque valeur nécessite un nombre constant de bits q dépendant du type de données utilisé (entier, flottant, booléen, etc.). Nous avons donc Q(A) = A q, où A est le nombre d agrégats représentés, et : gain(a) = ( E A ) q = A A ( A 1) q (2) Cette mesure de complexité compte simplement le nombre de valeurs contenue dans une représentation donnée (à une constante multiplicative près). Elle peut être

12 476 TSI. Volume 33 n o 5-6/2014 assimilée au décompte des paramètres d un modèle statistique (Akaike, 1974) : plus il y a de paramètres, plus le modèle est complexe. Il s agit également d une mesure cohérente avec les techniques de visualisation représentant la valeur de chaque agrégat (e.g., vecteurs de valeurs, histogrammes et diagrammes en rectangle, représentations treemap). En effet, le nombre A des valeurs à afficher définit alors la granularité de la visualisation et évalue aussi le coût de leur encodage et de leur rendu. Réduire le nombre de valeurs contenues dans une représentation permet ainsi le passage à l échelle de ces techniques de visualisation. Entropie de Shannon L entropie est une mesure classique de quantité d information couramment utilisée comme mesure de complexité (Edmonds, 1999). Elle est donnée par la formule de (Shannon, 1948) : H(A) = A A ( v(a) v(e) log 2 ) v(a) v(e) Nous prenons Q(A) = H(A) v(e), ce qui donne : gain(a) = ( v(a) log 2 v(a) ) v(e) log 2 v(e) A A e A (3) L entropie mesure la quantité d information nécessaire pour encoder, en moyenne, les symboles d un vocabulaire dont on connait la distribution de probabilité (les symboles les plus fréquents ont un code binaire plus court, et inversement). Or, nous pouvons interpréter un attribut comme une distribution de probabilité sur l ensemble des processus E, par exemple lorsqu il s agit d un dénombrement (évènements, changements d état, communications au sein de chaque processus). L entropie mesure alors la quantité d information nécessaire pour encoder chacun de ces évènements. Elle se distingue de la mesure précédente prenant en compte l encodage des valeurs, c està-dire de la quantité d évènements pour chaque agrégat. L entropie est donc particulièrement adaptée à la visualisation de ces évènements (e.g., graphes et diagrammes d interactions, nuages de points). Dans de précédents travaux de recherche, nous avons utilisé la réduction d entropie pour l agrégation de systèmes d information géographique (Lamarche-Perrin et al., 2014). Nous pensons qu elle peut également être utile à la visualisation de performance des systèmes distribués dans la mesure où de nombreuses analyses s intéressent aux relations de causalité entre les évènements et les communications Mesurer l ajustement d une représentation agrégée La divergence de Kullback-Leibler est une mesure classique de similarité ou d ajustement utilisée en théorie de l information (Kullback, Leibler, 1951). Elle nous sert

13 Agrégation et visualisation de traces 477 à comparer la distribution hypothétique des valeurs à la distribution microscopique (Lamarche-Perrin et al., 2012) : perte(a) = A A ( e A ( ) ) v(e) v(e) log 2 v(a) A (4) La divergence mesure la quantité d information perdue lorsqu on utilise un modèle statistique pour trouver le codage minimal d un vocabulaire au lieu de sa véritable distribution de probabilité. Elle peut également être interprétée comme la probabilité de retrouver la répartition initiale des valeurs à partir d une représentation agrégée : on parle alors de la vraisemblance de la représentation (Akaike, 1973). En d autres termes, la divergence mesure la perte d information liée à l approximation de la représentation microscopique par la représentation agrégée. Notons que la réduction de complexité n induit pas nécessairement de perte d information. En particulier, lorsque des valeurs homogènes sont agrégées, le nombre d agrégats visualisés diminue et les valeurs restent correctement interprétées par l utilisateur. D autres mesures de similarité classiques, en statistique, pourraient servir à évaluer l ajustement des représentations agrégées (par exemple l écart quadratique moyen). Nous leur préférons la divergence de Kullback-Leibler pour son interprétation en termes de quantité d information, assurant ainsi la compatibilité avec l entropie de Shannon (Kullback, Leibler, 1951) et le nombre de valeurs encodées. Ce travail peut également être étendu à d autres mesures de complexité telles que présentées dans (Grunwald, 2007). La sémantique du résultat devra alors être précisée de manière opérationnelle en fonction des algorithmes de codage utilisés. 4. Calculer les représentations agrégées optimales Les mesures présentées dans la section précédente, et en particulier la mesure paramétrée m p (sous-section 3.2), fournissent à l utilisateur les indicateurs de qualité dont il a besoin pour interpréter les agrégats visualisés. De tels outils permettent également de comparer les représentations dans le but de sélectionner les «meilleures» d entre elles. Cette section s intéresse à ce problème d optimisation. Il est nécessaire de fournir une technique d agrégation peu coûteuse en calcul, afin que cette étape préliminaire à la visualisation et à l analyse ait un intérêt lors du passage à l échelle. Dans cette section, nous montrons que le calcul des représentations optimales est un problème à complexité exponentielle vis-à-vis de la taille du système (4.1). Pour résoudre ce problème en un temps raisonnable, nous formulons deux hypothèses. Premièrement, la topologie du système visualisé permet de restreindre l espace de recherche en définissant un ensemble d agrégations admissibles par l utilisateur (4.2). Deuxièmement, les mesures utilisées pour l évaluation ont une propriété algébrique importante : la décomposabilité. Cette propriété peut être exploitée pour comparer rapidement les agrégations (4.3). À partir de ces hypothèses, nous proposons un algorithme qui calcule les représentations optimales en un temps linéaire dans le cas de systèmes hiérarchiques.

14 478 TSI. Volume 33 n o 5-6/ Complexité exponentielle du problème des représentations optimales Le problème des représentations optimales consiste à trouver les agrégations qui maximisent une mesure de qualité donnée. Or, le nombre de partitions d un ensemble et donc le nombre d agrégations possibles est donné par la suite des nombres de Bell (Rota, 1964) à croissance exponentielle : B(n + 1) = n k=0 ( n k ) B(n) = O (( n ) n ) ln(n) où n est la taille de l ensemble. En pratique, pour un système de grande taille (e.g., de l ordre du million de processus), il est impossible de trouver les agrégations optimales en les évaluant une à une. Des heuristiques, telles que développées par les techniques de clustering (Halkidi et al., 2001), pourraient être mises en œuvre pour trouver des solutions non optimales. Cependant, de telles approches supposent que toute agrégation à un sens pour l analyse. Nous soutenons au contraire que la plupart des systèmes ont une sémantique propre qui interdit l usage de certains agrégats. Par exemple, dans le cas des systèmes distribués, la topologie du réseau de communication et la position des processus au sein de ce réseau sont souvent essentielles à l analyse (Schnorr et al., 2009). Cette topologie doit être préservée par lors de l agrégation afin de produire des visualisations pertinentes pour l utilisateur. En outre, ces contraintes topologiques permettent de réduire la complexité du problème en restreignant l espace de recherche au sous-ensemble des agrégations admissibles Agrégations admissibles au sein d une hiérarchie Les ressources de calcul de certains systèmes distribués ont une organisation hiérarchique. C est par exemple le cas de Grid5000 (Bolze et al., 2006) : les processus sont exécutés par des machines, celles-ci sont regroupées en clusters, puis en sites de calcul, etc. Dans ce cas, la hiérarchie est induite par la structure physique du réseau de communication. Dans d autres cas, une telle organisation est induite par l application parallèle qui y est exécutée : e.g., distribution des tâches de calcul, réseau d utilisateurs dans les systèmes pair-à-pair. Dans tous les cas, ces structures sont essentielles pour l analyse dans la mesure où elles permettent d expliquer le comportement des processus Exprimer les connaissances a priori lors de l agrégation Le partitionnement contraint (constrained clustering) est une technique d apprentissage semi-supervisé permettant de formaliser la structure du système analysé sous la forme de contraintes sur le regroupement des données. Cette technique consiste notamment à interdire ou à obliger certains regroupements en fonction de règles logiques exprimées par les experts pour décrire leur connaissance a priori du système (Davidson, Basu, 2007). Cependant, la plupart des travaux du domaine définissent les contraintes au niveau des entités microscopiques (instance-level constrained clustering) : à partir de contraintes de type must-link et cannot-link (Wagstaff, Cardie, 2000 ; Davidson,

15 Agrégation et visualisation de traces 479 Basu, 2007) ou de règles de logique propositionnelle (Talavera, Béjar, 1999) obligeant ou interdisant le regroupement de certaines entités. Ces techniques de contraintes microscopiques ne permettent d exprimer que des propriétés relativement simples au niveau des agrégats : e.g., diamètre minimal des agrégats, distance minimale entre agrégats (Davidson, Basu, 2007). Afin de formaliser des structures plus complexes, nous proposons de travailler directement au niveau des agrégations (partitions de l ensemble des entités microscopiques). Les contraintes que nous définissons s appliquent donc à l ensemble des agrégations possibles et permettent d extraire le sous-ensemble des agrégations admissibles par les experts. Le problème que nous abordons dans cet article doit donc être soigneusement distingué des problèmes abordés en classification de données. Premièrement, les hiérarchies utilisées visent à la production d objets macroscopiques et non de concepts génériques. Le processus d agrégation n est donc pas un processus de généralisation (cf. la distinction proposée dans (Smith, Smith, 1977)). De plus, les techniques de classification classiques visent parfois à l édification de hiérarchies (e.g., analyse formelle de concepts sous forme de hiérarchies de concepts (Wille, 2005)). Dans ce cas, les hiérarchies sont le résultat du processus d abstraction, et non un point de départ. Dans notre cas, les hiérarchies constituent les données externes du problèmes, fournies par les experts chargés de l analyse du système pour contraindre le processus d abstraction Formaliser la notion de hiérarchie Une hiérarchie est souvent représentée par un arbre (cf. figure 4) : les feuilles représentent les entités microscopiques ; les nœuds représentent les agrégats ; et la racine représente l agrégation totale. Une hiérarchie définit donc un ensemble d agrégats emboîtés à partir desquels le système peut être agrégé. Les agrégations admissibles sont celles qui font intervenir uniquement ces agrégats. En particulier, l agrégation d entités appartenant à différentes branches de la hiérarchie ne respecte pas sa topologie. Il faut alors agréger les branches entièrement. Par exemple, dans la figure 4, si l on souhaite agréger les processus p 1 et p 4, alors il est également nécessaire d agréger l intégralité les processus des machines m 1 et m 2. Une agrégation est caractérisée par une coupe dans l arbre qui représente la hiérarchie, c est-à-dire un ensemble de nœuds tels que chaque feuille ne descend que d un seul nœud de cet ensemble (cf. les trois coupes présentées dans la figure 4). Le nombre d agrégations admissibles au sein d un arbre T est donné par la formule récursive suivante : N(T ) = 1 + N(S), où les S sont les «premiers sous-arbres» de T. Pour un ensemble E donné, le nombre maximal d agrégations admissibles est atteint lorsque l arbre représentant la hiérarchie est un arbre binaire complet : à chaque nœud, le nombre d agrégations admissibles est multiplié par deux. Supposons que E = 2 k, où k est la hauteur de l arbre, nous avons alors : N(2 k ) = U k = 1 + (U k 1 ) 2 avec U 0 = 1

16 480 TSI. Volume 33 n o 5-6/2014 c 1 c 1 c 1 m 1 m 2 m 3 m 1 m 2 m 3 m 1 m 2 m 3 p 1 p 2 p 3 p 4 p 5 p 6 p 7 p 1 p 2 p 3 p 4 p 5 p 6 p 7 p 1 p 2 p 3 p 4 p 5 p 6 p 7 Figure 4. Trois agrégations admissibles au sein d une hiérarchie définie sur 7 processus, répartis en 3 machines et 1 cluster. Les surfaces grisées représentent des coupes de l arbre et les cercles noirs les partitions correspondantes, de haut en bas : agrégation totale, agrégation multi-résolution et représentation microscopique La suite (U k ) k N est dominée par 3 : N(T ) = O(c n ) avec c 1, 226 Notons qu on trouve des résultats similaires pour des arbres ternaires complets 4 (c 1, 084), pour des arbres quaternaires complets, etc. Ainsi, pour une taille bornée des agrégats constituant la hiérarchie, la classe de complexité reste la même que dans le cas d un arbre binaire (c est-à-dire exponentielle). L espace de recherche déterminé par des contraintes hiérarchiques est donc bien plus petit que l espace non contraint, dont le cardinal est donné par le n-ème nombre de Bell B n. En particulier, N ne dépend pas directement du nombre de processus, mais essentiellement du nombre de branches dans la hiérarchie. Par exemple, N demeure constant lors de l addition de processus dans une branche de la hiérarchie. Cependant, le nombre d agrégations admissibles croît toujours de manière exponentielle lors de l addition de branches ou de niveaux. Ainsi, les contraintes topologiques ne sont pas à elles seules suffisantes pour résoudre le problème de l agrégation optimale en temps polynomial Un algorithme reposant sur la décomposabilité des mesures Pour comparer les agrégations admissibles en un temps raisonnable, nous utilisons une propriété algébrique importante des mesures définies dans la sous-section 3.3. Il s agit de la décomposabilité additive (sum property) (Csiszár, 2008). Une mesure de qualité f est additivement décomposable s il existe une application g de P(E) dans R + telle que, pour toute agrégation A : f(a) = A A g(a) 3. Voir la formule présentée sur le site Integer Sequences : (formule de Benoit Cloitre, 27 novembre 2002) 4. Voir :

17 Agrégation et visualisation de traces 481 En d autre termes, la qualité d une agrégation peut être définie comme la somme des qualités de ses agrégats. La décomposabilité additive garantit ainsi que la qualité d un agrégat ne dépend pas de la manière dont les autres entités sont agrégées. L évaluation d un agrégat peut donc servir à l évaluation de toutes les agrégations qui le contiennent. En réalité, la décomposabilité additive est une hypothèse plus forte puisqu il suffit qu une mesure soit décomposable pour garantir que l on peut évaluer les agrégats indépendamment les uns des autres. Il se trouve que la plupart des mesures en théorie de l information sont également additives (Csiszár, 2008). De plus, notons que l additivité des mesures de qualité ne dépend pas de l additivité des attributs analysés : il est par exemple possible, en toute généralité, de définir des mesures additivement décomposables s appliquant à des attributs intensifs (agrégation par moyenne). Les équations 2, 3 et 4 montrent que les mesures que nous avons définies précédemment sont bien décomposables. C est également le cas de la mesure paramétrée m p (équation 1). L algorithme des représentations optimales présenté ci-dessous utilise cette propriété pour trouver les agrégations maximisant m p en réalisant le moins de mesures possible. L évaluation est divisée sur chaque branche de l arbre par autant d appels récursifs. L algorithme est appliqué une fois à chaque nœud et correspond donc à un simple parcours en profondeur de l arbre. Sa complexité temporelle est donc linéaire. Notons que les deux hypothèses doivent être vérifiées pour obtenir une complexité linéaire : la décomposabilité sans les contraintes topologiques, et réciproquement, ne suffit pas. Soit T un arbre et m une mesure de qualité additivement décomposable. On note A T l agrégation totale de T. Si T est une feuille, alors renvoyer A T, (cas de base) sinon : 1. Pour chaque sous-arbre direct S, trouver l agrégation optimale A S. (un appel récursif pour chaque fils de la racine de T ) 2. Si la somme des qualités des agrégations optimales m(a S ) est supérieure à la qualité de l agrégation totale m(a T ), alors : renvoyer A S, l union des agrégations optimales, sinon : renvoyer A T, l agrégation totale. Algorithme des représentations optimales. Cet algorithme calcule les agrégations admissibles au sein d une hiérarchie (représentée par un arbre T ) qui maximisent une mesure de qualité décomposable m

18 482 TSI. Volume 33 n o 5-6/ Résultats et évaluation de l approche Cette section montre l intérêt des mesures de qualité et de l algorithme des représentations optimales à partir de trois cas d étude concernant la détection et l explication d anomalies apparaissant à différentes échelles spatiales dans les traces d exécution. Les applications et les outils utilisés, ainsi que les objectifs de l analyse, sont détaillés dans la sous-section suivante. Trois cas d analyse sont ensuite présentés : deux concernant le vol de travail dans des applications parallèles réelles et un troisième pour démontrer que l approche proposée passe à l échelle en agrégeant la trace simulée d un million de processus Description des outils, des traces et du cadre d analyse Les approches de visualisation orientée-pixels (Keim, 2000 ; Ward et al., 2010) proposent d utiliser l intégralité des pixels disponibles à l écran pour représenter de très grandes quantités de données. Nous choisissons une technique de visualisation adaptée à la structure hiérarchique des systèmes qui nous intéressent. Les représentations treemap (Shneiderman, 1992) constituent à ce titre une technique orientée-pixels représentant les hiérarchies sous la forme de «boîtes imbriquées», chacune représentant une entitée ou un agrégat (processus, machine, cluster ou site dans le cas de systèmes distribués). Les attributs de ces entités graphiques sont affichés à l intérieur des boîtes. Dans nos expériences, les treemaps sont utilisées pour afficher le temps passé par les processus dans différents états au cours de l exécution. Des niveaux de gris différents sont utilisés pour chaque état (cf. figures 5, 6 et 7). La complexité des treemaps est mesurée par le nombre de valeurs affichées, définissant ainsi la granularité de la visualisation (cf. section 3.3.1). Nous utilisons les outils open-source PajéNG et Viva (Chassin de Kergommeaux et al., 2000 ; Schnorr, Legrand, 2012 ; Schnorr, Huard, Navaux, 2012), affichant les traces d exécution sous la forme de treemaps, outils au sein desquels nous avons implémenté les mesures de qualité et l algorithme d agrégation. Notons que l agrégation de données constitue une étape préliminaire à la visualisation. Ainsi, nous pensons que l approche présentée dans cet article peut être appliquée à de nombreuses autres techniques de visualisation classiques (comme aux diagrammes de Gantt, discutés en section 2 ou à d autres approches orientées-pixels (Ward et al., 2010)) à condition de définir une mesure de complexité adaptée, i.e., exprimant le coût du processus de visualisation pour une représentation donnée. Les deux premiers cas d étude concernent l analyse du vol de travail aléatoire d une application parallèle orienté par les tâches. L application repose sur le middleware KAAPI (Gautier et al., 2007) qui tente d équilibrer les charges de travail. Les traces analysées contiennent, pour chaque processus, les intervalles de temps consacrés à l exécution des tâches (RUN), ainsi que les dates auxquelles le processus tente de voler des tâches aux autres processus (STEAL). L application est exécutée sur la plateforme Grid 5000 (Bolze et al., 2006). Les processus y sont hiérarchiquement organisés en machines, clusters et sites. Le troisième cas d étude propose l analyse d une trace engendrée de manière artificielle. Celle-ci contient l exécution d un mil-

19 Agrégation et visualisation de traces 483 lion de processus, organisés selon 5 niveaux et pouvant être dans deux états : VS0 et VS1. Pour souligner l intérêt de notre approche, nous avons introduit des comportements hétérogènes à chaque niveau de la hiérarchie : des processus hétérogènes au sein d une machine, des machines hétérogènes au sein d un cluster, etc Premier cas d étude : utilisation des mesures et de l algorithme Ce cas d étude explique le fonctionnement des treemaps et montre l intérêt de l algorithme des représentations optimales pour régler le niveau de détail de la visualisation spatiale de la trace. La trace analysée provient d une application parallèle KAAPI composée de 188 processus répartis en 9 clusters et 5 sites (Schnorr, Huard, Navaux, 2012). Dans les treemaps de la figure 5, l état RUN est représenté en gris clair et l état STEAL en gris foncé. La treemap A affiche le temps passé dans ces états pour chaque processus. Il s agit d une visualisation de la représentation microscopique. Les treemaps A.1 et A.2 affichent les données agrégées au niveau des clusters et des sites. Les temps passés dans chaque état par les processus sous-jacents sont simplement additionnés. La treemap A.3 représente l agrégation totale. En affichant les différents niveaux d agrégation, ces quatre treemaps (A, A.1, A.2 et A.3) rendent compte de l organisation hiérarchique de la plateforme sous la forme de «boîte imbriquées» : A.1 indique les agrégats de processus en clusters, A.2 les agrégats de clusters en sites et A.3 l agrégation totale. Plus nous montons dans la hiérarchie, plus le nombre de valeurs affichées diminue et, avec lui, la complexité de la visualisation. Celle-ci nécessite moins de temps de rendu et peut être analysée plus rapidement. Pourtant, elle contient moins d information concernant le comportement précis des processus. Une analyse de la treemap A permet de repérer que certains processus d un site (entouré, dans la figure 5) ont passé un temps anormal dans l état STEAL. Cette anomalie peut être expliquée par une analyse technique plus approfondie : la latence du réseau est plus grande au niveau du site en question. Comme l algorithme de répartition des tâches ne prend pas en compte ce genre de propriétés locales, il résulte des temps de vol de travail plus longs. Cette anomalie ne peut pas être détectée à partir des treemaps A.1, A.2 et A.3 puisqu elles agrègent les informations relatives au site en question. Pire, ces visualisations peuvent être mal interprétées. En particulier, l utilisateur peut supposer que tous les processus du site ont anormalement volé du travail. Il peut également penser que c est le cas d un seul processus. Dans les deux cas, il s agit d interprétations erronées qui peuvent nuire à l analyse de l application. De plus, la treemap A n est pas optimale dans la mesure où elle contient beaucoup d information redondante (sites homogènes). Cette visualisation microscopique peut difficilement être appliquée à de très grands systèmes, tels que présentés dans le troisième cas d étude. L algorithme des représentations optimales, appliqué à la mesure paramétrée m p (cf. équation 1), permet de construire des visualisations multirésolutions pertinentes pour pallier ces problèmes. Nous examinons les agrégations maximisant la mesure m p pour différentes valeurs du rapport gain / perte p : de 0 % (visualisation micro-

20 484 TSI. Volume 33 n o 5-6/2014 A 188 processus A.1 9 clusters A.2 5 sites A.3 Agrégation totale B Agrégation optimale pour p = 10% C Agrégation optimale pour p = 40% Figure 5. Treemaps d une application exécutée sur 188 processus. La treemap A présente le niveau microscopique ; les treemaps A.1, A.2 et A.3 présentent les autres niveaux de la hiérarchie ; les treemaps B et C sont engendrées par l algorithme des représentations optimales. Le positionnement du paramètre p à 10 % (treemap B) et à 40 % (treemap C) permet d observer la trace à différentes échelles spatiales scopique, treemap A) à 100 % (agrégation totale, treemap A.3). Très rapidement, pour p > 10 %, les sites homogènes sont agrégés et l anomalie reste visible (treemap B). Contrairement aux treemaps A.1, A.2 et A.3, agrégées à différents niveaux de la hiérarchie, l algorithme garantit dans le cas des treemaps B et C que les données sont homogènes dans chacun des agrégats. Ainsi, l utilisateur peut faire les bonnes hypothèses concernant les processus sous-jacents, sans procéder à une analyse plus détaillée de ces parties de la visualisation. Lorsque le rapport gain / perte arrive aux alentours de 40 %, l algorithme agrège chacun des sites (treemap C). Cette visualisation rend compte d un autre niveau d hétérogénéité. Nous constatons alors que le site entouré lorsqu il est pris dans sa globalité se comporte différemment des autres. Enfin, pour p > 54 %, nous obtenons l agrégation totale (treemap A.3) Deuxième cas d étude : détecter les anomalies via l hétérogénéité L application analysée dans ce cas d étude est exécutée sur 433 processus, répartis en 50 machines et 3 clusters. L objectif de l analyse consiste à détecter des anomalies dans la trace engendrée. On suppose ici que l hétérogénéité est le symptôme d une exécution anormale : comme dans le cas précédent, on s attend à ce que les proces-

21 Agrégation et visualisation de traces 485 sus au sein d un même cluster aient un comportement similaire. Les treemaps de la figure 6 utilisent le même code couleur que précédemment. Les treemaps A, A.1, A.2 et A.3 visualisent les différents niveaux d agrégation spatiale. La treemap B est engendrée par l algorithme des représentations optimales pour un rapport gain / perte de 10 %. Les machines homogènes y sont agrégées avec une perte d information négligeable. Seules les machines avec au moins un processus différent des autres sont détaillées. Pour p > 30 %, les machines hétérogènes sont finalement agrégées (treemap C). Il s agit indubitablement d une perte d information, mais cela permet de repérer une machine «plus hétérogène» que les autres (entourée, dans la figure 6). Elle contient en effet deux processus au comportement anormal. Cet exemple montre comment, avec très peu d effort, l utilisateur peut détecter des anomalies dans l application qu il analyse, à supposer que celles-ci soient synonymes d hétérogénéité. L algorithme d agrégation focalise l attention sur ces parties du système. Bien évidement, d autres critères peuvent être utilisés pour détecter d autres anomalies : trop ou pas assez de temps passé dans un état donné, comportements homogènes, etc. Notre approche permet de produire des visualisations au sein desquelles de tels critères sont également détectables à moindre coût. A 433 processus A.1 50 machines A.2 3 clusters A.3 Agrégation totale B Agrégation optimale pour p = 10% C Agrégation optimale pour p = 30% Figure 6. Treemaps d une application exécutée sur 433 processus. La treemap A présente le niveau microscopique ; les treemaps A.1, A.2 et A.3 présentent les autres niveaux de la hiérarchie ; les treemaps B et C sont engendrées par l algorithme des représentations optimales. La treemap B (p = 10 %) induit une perte d information négligeable par rapport à la treemap C (p = 30 %) où seule la machine la plus hétérogène est détaillée

22 486 TSI. Volume 33 no 5-6/ Troisième cas d étude : visualisation de très grands systèmes distribués Ce cas d étude vise à montrer que l agrégation de données est essentielle lorsqu il s agit de passer à l échelle les méthodes de visualisation. Dans ce but, nous avons artificiellement engendré la trace d exécution d une application contenant un million de processus, chacun pouvant être dans un état parmi deux possibles. Ces processus sont répartis en machines, clusters, 100 super-clusters et 10 sites. Tous ces niveaux sont homogènes à un cas près : une machine a des processus hétérogènes, un cluster a des machines hétérogènes, un super-clusters à des clusters hétérogènes et un site a des super-clusters hétérogènes. A machines A.b A.a A.c B Agrégation optimale pour p = 10% B.b B.d B.a B.c Figure 7. Treemaps d une trace artificielle contenant un million de processus. La treemap A présente le niveau des machines ; la treemap B est engendrée par l algorithme des représentations optimales. Avec un paramètre p à 10 %, la treemap B contient 50 fois moins d agrégats que la treemap A, mais contient néanmoins 95 % de l information microscopique. Elle permet ainsi le passage à l échelle des techniques de détection et d analyse des anomalies

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci http://liris.cnrs.fr/hamamache.kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de

Plus en détail

Big Data et Graphes : Quelques pistes de recherche

Big Data et Graphes : Quelques pistes de recherche Big Data et Graphes : Quelques pistes de recherche Hamamache Kheddouci Laboratoire d'informatique en Image et Systèmes d'information LIRIS UMR 5205 CNRS/INSA de Lyon/Université Claude Bernard Lyon 1/Université

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test Grandes lignes Analyseur Statique de logiciels Temps RÉel Embarqués École Polytechnique École Normale Supérieure Mercredi 18 juillet 2005 1 Présentation d 2 Cadre théorique de l interprétation abstraite

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Techniques d interaction dans la visualisation de l information Séminaire DIVA Techniques d interaction dans la visualisation de l information Séminaire DIVA Zingg Luca, luca.zingg@unifr.ch 13 février 2007 Résumé Le but de cet article est d avoir une vision globale des techniques

Plus en détail

4.2 Unités d enseignement du M1

4.2 Unités d enseignement du M1 88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter

Plus en détail

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R Yves Aragon, David Haziza & Anne Ruiz-Gazen GREMAQ, UMR CNRS 5604, Université des Sciences

Plus en détail

Université de Bangui. Modélisons en UML

Université de Bangui. Modélisons en UML Université de Bangui CRM Modélisons en UML Ce cours a été possible grâce à l initiative d Apollinaire MOLAYE qui m a contacté pour vous faire bénéficier de mes connaissances en nouvelles technologies et

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

Extraction d informations stratégiques par Analyse en Composantes Principales

Extraction d informations stratégiques par Analyse en Composantes Principales Extraction d informations stratégiques par Analyse en Composantes Principales Bernard DOUSSET IRIT/ SIG, Université Paul Sabatier, 118 route de Narbonne, 31062 Toulouse cedex 04 dousset@irit.fr 1 Introduction

Plus en détail

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Data Mining. Vincent Augusto 2012-2013. École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto. des des Data Mining Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne 2012-2013 1/65 des des 1 2 des des 3 4 Post-traitement 5 représentation : 6 2/65 des des Définition générale Le

Plus en détail

Traitement bas-niveau

Traitement bas-niveau Plan Introduction L approche contour (frontière) Introduction Objectifs Les traitements ont pour but d extraire l information utile et pertinente contenue dans l image en regard de l application considérée.

Plus en détail

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories : La vision nous permet de percevoir et d interpreter le monde qui nous entoure. La vision artificielle a pour but de reproduire certaines fonctionnalités de la vision humaine au travers de l analyse d images.

Plus en détail

High Performance by Exploiting Information Locality through Reverse Computing. Mouad Bahi

High Performance by Exploiting Information Locality through Reverse Computing. Mouad Bahi Thèse High Performance by Exploiting Information Locality through Reverse Computing Présentée et soutenue publiquement le 21 décembre 2011 par Mouad Bahi pour l obtention du Doctorat de l université Paris-Sud

Plus en détail

Chapitre 7. Récurrences

Chapitre 7. Récurrences Chapitre 7 Récurrences 333 Plan 1. Introduction 2. Applications 3. Classification des récurrences 4. Résolution de récurrences 5. Résumé et comparaisons Lectures conseillées : I MCS, chapitre 20. I Rosen,

Plus en détail

Francis BISSON (06 794 819) Kenny CÔTÉ (06 836 427) Pierre-Luc ROGER (06 801 883) IFT702 Planification en intelligence artificielle

Francis BISSON (06 794 819) Kenny CÔTÉ (06 836 427) Pierre-Luc ROGER (06 801 883) IFT702 Planification en intelligence artificielle Francis BISSON (06 794 819) Kenny CÔTÉ (06 836 427) Pierre-Luc ROGER (06 801 883) PLANIFICATION DE TÂCHES DANS MS PROJECT IFT702 Planification en intelligence artificielle Présenté à M. Froduald KABANZA

Plus en détail

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN

LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN LES OUTILS D ALIMENTATION DU REFERENTIEL DE DB-MAIN Les contenues de ce document sont la propriété exclusive de la société REVER. Ils ne sont transmis qu à titre d information et ne peuvent en aucun cas

Plus en détail

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France

Théorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Transmission d informations sur le réseau électrique

Transmission d informations sur le réseau électrique Transmission d informations sur le réseau électrique Introduction Remarques Toutes les questions en italique devront être préparées par écrit avant la séance du TP. Les préparations seront ramassées en

Plus en détail

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par. École Doctorale d Informatique, Télécommunications et Électronique de Paris THÈSE présentée à TÉLÉCOM PARISTECH pour obtenir le grade de DOCTEUR de TÉLÉCOM PARISTECH Mention Informatique et Réseaux par

Plus en détail

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes PLAN CYCLE DE VIE D'UN LOGICIEL EXPRESSION DES BESOINS SPÉCIFICATIONS DU LOGICIEL CONCEPTION DU LOGICIEL LA PROGRAMMATION TESTS ET MISE AU POINT DOCUMENTATION CONCLUSION C.Crochepeyre Génie Logiciel Diapason

Plus en détail

MABioVis. Bio-informatique et la

MABioVis. Bio-informatique et la MABioVis Modèles et Algorithmes pour la Bio-informatique et la Visualisation Visite ENS Cachan 5 janvier 2011 MABioVis G GUY MELANÇON (PR UFR Maths Info / EPI GRAVITE) (là, maintenant) - MABioVis DAVID

Plus en détail

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services 69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard

Plus en détail

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot Chapitre 5 Arithmétique binaire L es codes sont manipulés au quotidien sans qu on s en rende compte, et leur compréhension est quasi instinctive. Le seul fait de lire fait appel au codage alphabétique,

Plus en détail

Differential Synchronization

Differential Synchronization Differential Synchronization Neil Fraser Google 2009 BENA Pierrick CLEMENT Lucien DIARRA Thiemoko 2 Plan Introduction Stratégies de synchronisation Synchronisation différentielle Vue d ensemble Dual Shadow

Plus en détail

Once the installation is complete, you can delete the temporary Zip files..

Once the installation is complete, you can delete the temporary Zip files.. Sommaire Installation... 2 After the download... 2 From a CD... 2 Access codes... 2 DirectX Compatibility... 2 Using the program... 2 Structure... 4 Lier une structure à une autre... 4 Personnaliser une

Plus en détail

Le produit semi-direct

Le produit semi-direct Le produit semi-direct Préparation à l agrégation de mathématiques Université de Nice - Sophia Antipolis Antoine Ducros Octobre 2007 Ce texte est consacré, comme son titre l indique, au produit semi-direct.

Plus en détail

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair Raja Chiky, Bruno Defude, Georges Hébrail GET-ENST Paris Laboratoire LTCI - UMR 5141 CNRS Département Informatique et Réseaux

Plus en détail

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Filtrage stochastique non linéaire par la théorie de représentation des martingales Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de

Plus en détail

Resolution limit in community detection

Resolution limit in community detection Introduction Plan 2006 Introduction Plan Introduction Introduction Plan Introduction Point de départ : un graphe et des sous-graphes. But : quantifier le fait que les sous-graphes choisis sont des modules.

Plus en détail

Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs

Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs Le Futur de la Visualisation d Information Jean-Daniel Fekete Projet in situ INRIA Futurs La visualisation d information 1.Présentation 2.Bilan 3.Perspectives Visualisation : 3 domaines Visualisation scientifique

Plus en détail

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB www.enseirb.fr/~legal Olivier Augereau Formation UML http://olivier-augereau.com Sommaire Introduction I) Les bases II) Les diagrammes

Plus en détail

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies Régis Boulet Charlie Demené Alexis Guyot Balthazar Neveu Guillaume Tartavel Sommaire Sommaire... 1 Structure

Plus en détail

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION DES NOMBRES par Jean-Luc BREGEON professeur formateur à l IUFM d Auvergne LE PROBLÈME DE LA REPRÉSENTATION DES NOMBRES On ne conçoit pas un premier enseignement

Plus en détail

Business & High Technology

Business & High Technology UNIVERSITE DE TUNIS INSTITUT SUPERIEUR DE GESTION DE TUNIS Département : Informatique Business & High Technology Chapitre 8 : ID : Informatique Décisionnelle BI : Business Intelligence Sommaire Introduction...

Plus en détail

Optimisation, traitement d image et éclipse de Soleil

Optimisation, traitement d image et éclipse de Soleil Kléber, PCSI1&3 014-015 I. Introduction 1/8 Optimisation, traitement d image et éclipse de Soleil Partie I Introduction Le 0 mars 015 a eu lieu en France une éclipse partielle de Soleil qu il était particulièrement

Plus en détail

Synthèse «Le Plus Grand Produit»

Synthèse «Le Plus Grand Produit» Introduction et Objectifs Synthèse «Le Plus Grand Produit» Le document suivant est extrait d un ensemble de ressources plus vastes construites par un groupe de recherche INRP-IREM-IUFM-LEPS. La problématique

Plus en détail

Primaire. analyse a priori. Lucie Passaplan et Sébastien Toninato 1

Primaire. analyse a priori. Lucie Passaplan et Sébastien Toninato 1 Primaire l ESCALIER Une activité sur les multiples et diviseurs en fin de primaire Lucie Passaplan et Sébastien Toninato 1 Dans le but d observer les stratégies usitées dans la résolution d un problème

Plus en détail

Représentation des Nombres

Représentation des Nombres Chapitre 5 Représentation des Nombres 5. Representation des entiers 5.. Principe des représentations en base b Base L entier écrit 344 correspond a 3 mille + 4 cent + dix + 4. Plus généralement a n a n...

Plus en détail

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION

Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Sciences de Gestion Spécialité : SYSTÈMES D INFORMATION DE GESTION Classe de terminale de la série Sciences et Technologie du Management et de la Gestion Préambule Présentation Les technologies de l information

Plus en détail

Modélisation géostatistique des débits le long des cours d eau.

Modélisation géostatistique des débits le long des cours d eau. Modélisation géostatistique des débits le long des cours d eau. C. Bernard-Michel (actuellement à ) & C. de Fouquet MISTIS, INRIA Rhône-Alpes. 655 avenue de l Europe, 38334 SAINT ISMIER Cedex. Ecole des

Plus en détail

LES TYPES DE DONNÉES DU LANGAGE PASCAL

LES TYPES DE DONNÉES DU LANGAGE PASCAL LES TYPES DE DONNÉES DU LANGAGE PASCAL 75 LES TYPES DE DONNÉES DU LANGAGE PASCAL CHAPITRE 4 OBJECTIFS PRÉSENTER LES NOTIONS D ÉTIQUETTE, DE CONS- TANTE ET DE IABLE DANS LE CONTEXTE DU LAN- GAGE PASCAL.

Plus en détail

Concevoir et déployer un data warehouse

Concevoir et déployer un data warehouse Concevoir et déployer un data warehouse Ralph Kimball Éditions Eyrolles ISBN : 2-212-09165-6 2000 2 Le cycle de vie dimensionnel Avant d étudier de plus près les spécificités de la conception, du développement

Plus en détail

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Odile VERBAERE UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU Résumé : Cet article présente une réflexion sur une activité de construction de tableau, y compris

Plus en détail

Compression et Transmission des Signaux. Samson LASAULCE Laboratoire des Signaux et Systèmes, Gif/Yvette

Compression et Transmission des Signaux. Samson LASAULCE Laboratoire des Signaux et Systèmes, Gif/Yvette Compression et Transmission des Signaux Samson LASAULCE Laboratoire des Signaux et Systèmes, Gif/Yvette 1 De Shannon à Mac Donalds Mac Donalds 1955 Claude Elwood Shannon 1916 2001 Monsieur X 1951 2 Où

Plus en détail

Chapitre 1 : Introduction aux bases de données

Chapitre 1 : Introduction aux bases de données Chapitre 1 : Introduction aux bases de données Les Bases de Données occupent aujourd'hui une place de plus en plus importante dans les systèmes informatiques. Les Systèmes de Gestion de Bases de Données

Plus en détail

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée. ANALYSE 5 points Exercice 1 : Léonie souhaite acheter un lecteur MP3. Le prix affiché (49 ) dépasse largement la somme dont elle dispose. Elle décide donc d économiser régulièrement. Elle a relevé qu elle

Plus en détail

Formats d images. 1 Introduction

Formats d images. 1 Introduction Formats d images 1 Introduction Lorsque nous utilisons un ordinateur ou un smartphone l écran constitue un élément principal de l interaction avec la machine. Les images sont donc au cœur de l utilisation

Plus en détail

Introduction au datamining

Introduction au datamining Introduction au datamining Patrick Naïm janvier 2005 Définition Définition Historique Mot utilisé au départ par les statisticiens Le mot indiquait une utilisation intensive des données conduisant à des

Plus en détail

Contributions à l expérimentation sur les systèmes distribués de grande taille

Contributions à l expérimentation sur les systèmes distribués de grande taille Contributions à l expérimentation sur les systèmes distribués de grande taille Lucas Nussbaum Soutenance de thèse 4 décembre 2008 Lucas Nussbaum Expérimentation sur les systèmes distribués 1 / 49 Contexte

Plus en détail

Résumé CONCEPTEUR, INTEGRATEUR, OPERATEUR DE SYSTEMES CRITIQUES

Résumé CONCEPTEUR, INTEGRATEUR, OPERATEUR DE SYSTEMES CRITIQUES Aristote ----- Cloud Interopérabilité Retour d'expérience L A F O R C E D E L I N N O V A T I O N Résumé Les systèmes d'information logistique (SIL) sont des outils qui amènent des gains de productivité

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes Loris MARCHAL Laboratoire de l Informatique du Parallélisme Équipe Graal Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes Thèse réalisée sous la direction

Plus en détail

Entraînement, consolidation, structuration... Que mettre derrière ces expressions?

Entraînement, consolidation, structuration... Que mettre derrière ces expressions? Entraînement, consolidation, structuration... Que mettre derrière ces expressions? Il est clair que la finalité principale d une démarche d investigation est de faire acquérir des connaissances aux élèves.

Plus en détail

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS Mémento Ouvrir TI-Nspire CAS. Voici la barre d outils : L insertion d une page, d une activité, d une page où l application est choisie, pourra

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

Opérations de base sur ImageJ

Opérations de base sur ImageJ Opérations de base sur ImageJ TPs d hydrodynamique de l ESPCI, J. Bico, M. Reyssat, M. Fermigier ImageJ est un logiciel libre, qui fonctionne aussi bien sous plate-forme Windows, Mac ou Linux. Initialement

Plus en détail

Arbres binaires de décision

Arbres binaires de décision 1 Arbres binaires de décision Résumé Arbres binaires de décision Méthodes de construction d arbres binaires de décision, modélisant une discrimination (classification trees) ou une régression (regression

Plus en détail

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique La programmation linéaire : une introduction Qu est-ce qu un programme linéaire? Qu est-ce qu un programme linéaire? Exemples : allocation de ressources problème de recouvrement Hypothèses de la programmation

Plus en détail

Annexe 6. Notions d ordonnancement.

Annexe 6. Notions d ordonnancement. Annexe 6. Notions d ordonnancement. APP3 Optimisation Combinatoire: problèmes sur-contraints et ordonnancement. Mines-Nantes, option GIPAD, 2011-2012. Sophie.Demassey@mines-nantes.fr Résumé Ce document

Plus en détail

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre : Terminale STSS 2 012 2 013 Pourcentages Synthèse 1) Définition : Calculer t % d'un nombre, c'est multiplier ce nombre par t 100. 2) Exemples de calcul : a) Calcul d un pourcentage : Un article coûtant

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Equilibrage de charge pour les grilles de calcul : classe des tâches dépendantes et indépendantes.

Equilibrage de charge pour les grilles de calcul : classe des tâches dépendantes et indépendantes. Equilibrage de charge pour les grilles de calcul : classe des tâches dépendantes et indépendantes. Meriem Meddeber 1 et Belabbas Yagoubi 2 1 Université de Mascara, Faculté des sciences, Département des

Plus en détail

Travailler avec les télécommunications

Travailler avec les télécommunications Travailler avec les télécommunications Minimiser l attrition dans le secteur des télécommunications Table des matières : 1 Analyse de l attrition à l aide du data mining 2 Analyse de l attrition de la

Plus en détail

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1 Exemples de problèmes et d applications INF6953 Exemples de problèmes Sommaire Quelques domaines d application Quelques problèmes réels Allocation de fréquences dans les réseaux radio-mobiles Affectation

Plus en détail

Introduction à l étude des Corps Finis

Introduction à l étude des Corps Finis Introduction à l étude des Corps Finis Robert Rolland (Résumé) 1 Introduction La structure de corps fini intervient dans divers domaines des mathématiques, en particulier dans la théorie de Galois sur

Plus en détail

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Jade. Projet Intelligence Artificielle «Devine à quoi je pense» Jade Projet Intelligence Artificielle «Devine à quoi je pense» Réalisé par Djénéba Djikiné, Alexandre Bernard et Julien Lafont EPSI CSII2-2011 TABLE DES MATIÈRES 1. Analyse du besoin a. Cahier des charges

Plus en détail

Entrepôt de données 1. Introduction

Entrepôt de données 1. Introduction Entrepôt de données 1 (data warehouse) Introduction 1 Présentation Le concept d entrepôt de données a été formalisé pour la première fois en 1990 par Bill Inmon. Il s agissait de constituer une base de

Plus en détail

Présentation du Modèle de Référence pour les Bibliothèques FRBR

Présentation du Modèle de Référence pour les Bibliothèques FRBR Submitted on: 03.08.2015 Présentation du Modèle de Référence pour les Bibliothèques FRBR French translation of the original paper: Introducing the FRBR Library Reference Model. Traduit par : Mélanie Roche,

Plus en détail

Les diagrammes de modélisation

Les diagrammes de modélisation L approche Orientée Objet et UML 1 Plan du cours Introduction au Génie Logiciel L approche Orientée Objet et Notation UML Les diagrammes de modélisation Relations entre les différents diagrammes De l analyse

Plus en détail

OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT)

OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT) OPTIMISATION DE LA MAINTENANCE DES EQUIPEMENTS DE MANUTENTION DU TERMINAL A CONTENEURS DE BEJAIA (BMT) LAGGOUNE Radouane 1 et HADDAD Cherifa 2 1,2: Dépt. de G. Mécanique, université de Bejaia, Targa-Ouzemour

Plus en détail

Agrégation des portefeuilles de contrats d assurance vie

Agrégation des portefeuilles de contrats d assurance vie Agrégation des portefeuilles de contrats d assurance vie Est-il optimal de regrouper les contrats en fonction de l âge, du genre, et de l ancienneté des assurés? Pierre-O. Goffard Université d été de l

Plus en détail

Conception des bases de données : Modèle Entité-Association

Conception des bases de données : Modèle Entité-Association Conception des bases de données : Modèle Entité-Association La modélisation d un problème, c est-à-dire le passage du monde réel à sa représentation informatique, se définit en plusieurs étapes pour parvenir

Plus en détail

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE ANALYSIS OF THE EFFICIENCY OF GEOGRIDS TO PREVENT A LOCAL COLLAPSE OF A ROAD Céline BOURDEAU et Daniel BILLAUX Itasca

Plus en détail

Intégration et probabilités TD1 Espaces mesurés Corrigé

Intégration et probabilités TD1 Espaces mesurés Corrigé Intégration et probabilités TD1 Espaces mesurés Corrigé 2012-2013 1 Petites questions 1 Est-ce que l ensemble des ouverts de R est une tribu? Réponse : Non, car le complémentaire de ], 0[ n est pas ouvert.

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Créer le schéma relationnel d une base de données ACCESS

Créer le schéma relationnel d une base de données ACCESS Utilisation du SGBD ACCESS Polycopié réalisé par Chihab Hanachi et Jean-Marc Thévenin Créer le schéma relationnel d une base de données ACCESS GENERALITES SUR ACCESS... 1 A PROPOS DE L UTILISATION D ACCESS...

Plus en détail

F7n COUP DE BOURSE, NOMBRE DÉRIVÉ

F7n COUP DE BOURSE, NOMBRE DÉRIVÉ Auteur : S.& S. Etienne F7n COUP DE BOURSE, NOMBRE DÉRIVÉ TI-Nspire CAS Mots-clés : représentation graphique, fonction dérivée, nombre dérivé, pente, tableau de valeurs, maximum, minimum. Fichiers associés

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Continuité d une fonction de plusieurs variables

Continuité d une fonction de plusieurs variables Chapitre 2 Continuité d une fonction de plusieurs variables Maintenant qu on a défini la notion de limite pour des suites dans R n, la notion de continuité s étend sans problème à des fonctions de plusieurs

Plus en détail

UML (Diagramme de classes) Unified Modeling Language

UML (Diagramme de classes) Unified Modeling Language UML (Diagramme de classes) Unified Modeling Language Sommaire Introduction Objectifs Diagramme de classes Classe (Nom, attribut, opération) Visibilité et portée des constituants d une classe Association

Plus en détail

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

Calculer avec Sage. Revision : 417 du 1 er juillet 2010 Calculer avec Sage Alexandre Casamayou Guillaume Connan Thierry Dumont Laurent Fousse François Maltey Matthias Meulien Marc Mezzarobba Clément Pernet Nicolas Thiéry Paul Zimmermann Revision : 417 du 1

Plus en détail

Créer et partager des fichiers

Créer et partager des fichiers Créer et partager des fichiers Le rôle Services de fichiers... 246 Les autorisations de fichiers NTFS... 255 Recherche de comptes d utilisateurs et d ordinateurs dans Active Directory... 262 Délégation

Plus en détail

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE Le schéma synoptique ci-dessous décrit les différentes étapes du traitement numérique

Plus en détail

Comparaison de trois techniques de modélisation de processus: ADONIS, OSSAD et UML

Comparaison de trois techniques de modélisation de processus: ADONIS, OSSAD et UML Olivier Glassey Jean-Loup Chappelet Comparaison de trois techniques de modélisation de processus: ADONIS, OSSAD et UML Working paper de l'idheap 14/2002 UER: Management public / Systèmes d'information

Plus en détail

ASSURER LA QUALITE DES RESULTATS D ESSAI ET D ETALONNAGE Assuring the quality of test and calibration results

ASSURER LA QUALITE DES RESULTATS D ESSAI ET D ETALONNAGE Assuring the quality of test and calibration results ASSURER LA QUALITE DES RESULTATS D ESSAI ET D ETALONNAGE Assuring the quality of test and calibration results Soraya Amarouche Armelle Picau Olivier Pierson Raphaël Deal Laboratoire National de Métrologie

Plus en détail

NON-LINEARITE ET RESEAUX NEURONAUX

NON-LINEARITE ET RESEAUX NEURONAUX NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Introduction à MATLAB R

Introduction à MATLAB R Introduction à MATLAB R Romain Tavenard 10 septembre 2009 MATLAB R est un environnement de calcul numérique propriétaire orienté vers le calcul matriciel. Il se compose d un langage de programmation, d

Plus en détail

TD : Codage des images

TD : Codage des images TD : Codage des images Les navigateurs Web (Netscape, IE, Mozilla ) prennent en charge les contenus textuels (au format HTML) ainsi que les images fixes (GIF, JPG, PNG) ou animée (GIF animée). Comment

Plus en détail

Programmes des classes préparatoires aux Grandes Ecoles

Programmes des classes préparatoires aux Grandes Ecoles Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voies : Mathématiques, physique et sciences de l'ingénieur (MPSI) Physique, chimie et sciences de l ingénieur (PCSI) Physique,

Plus en détail

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

Théorèmes de Point Fixe et Applications 1

Théorèmes de Point Fixe et Applications 1 Théorèmes de Point Fixe et Applications 1 Victor Ginsburgh Université Libre de Bruxelles et CORE, Louvain-la-Neuve Janvier 1999 Published in C. Jessua, C. Labrousse et D. Vitry, eds., Dictionnaire des

Plus en détail

Installer Joomla. 2013 Pearson France Joomla! Le guide officiel Jennifer Marriott, Elin Waring

Installer Joomla. 2013 Pearson France Joomla! Le guide officiel Jennifer Marriott, Elin Waring 3 Installer Joomla Dans ce chapitre, nous procéderons au téléchargement et à l installation manuelle de Joomla, et nous expliquerons la configuration de base. Les captures d écran et les instructions font

Plus en détail

Cours de Master Recherche

Cours de Master Recherche Cours de Master Recherche Spécialité CODE : Résolution de problèmes combinatoires Christine Solnon LIRIS, UMR 5205 CNRS / Université Lyon 1 2007 Rappel du plan du cours 16 heures de cours 1 - Introduction

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail