Visualisation cohérente 2D-3D de pyramides de documents

Documents pareils
sont appliquées à des fonds documentaires, sont destinées à fournir des informations pertinentes sur la structure globale plutôt que sur le contenu.

Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs

Infolettre #18 : Les graphiques avec Excel 2010

Communiqué de Lancement

Mise en scène d un modèle dans l espace 3D

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

ProSimPlus HNO3 Résumé des nouvelles fonctionnalités, décembre 2008

Qu'est-ce que le BPM?

MODELISATION UN ATELIER DE MODELISATION «RATIONAL ROSE»

modélisation solide et dessin technique

Utilisation de XnView

LES CARTES À POINTS : POUR UNE MEILLEURE PERCEPTION

PRESENTATION DU LOGICIEL

Utiliser Access ou Excel pour gérer vos données

et Groupe Eyrolles, 2006, ISBN :

CommentWatcher. plateforme Web open-source pour analyser les discussions sur des forums en ligne. Marian-Andrei RIZOIU

Avant-propos FICHES PRATIQUES EXERCICES DE PRISE EN MAIN CAS PRATIQUES

Utilisation du logiciel GALAAD

Entrepôt de données 1. Introduction

Guide de l utilisateur. Faites connaissance avec la nouvelle plateforme interactive de

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

claroline classroom online

Extraction d informations stratégiques par Analyse en Composantes Principales

INSERER DES OBJETS - LE RUBAN INSERTION... 3 TABLEAUX

Formation. Module WEB 4.1. Support de cours

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Révision salariale - Manager

Création d'une interface graphique

Brève introduction à la recherche d!information sur le Web à base d!agents logiciels

Date de diffusion : Rédigé par : Version : Mars 2008 APEM 1.4. Sig-Artisanat : Guide de l'utilisateur 2 / 24

DECOUVREZ Discover TYPE EDIT V12 Français

INTRODUCTION GENERALE...1 LA CONNEXION ODBC :...1. CONNEXION AU TRAVERS D EXCEL(tm)...6. LOGICIEL QUANTUM GIS (Qgis)... 10

Manuel d utilisation 26 juin Tâche à effectuer : écrire un algorithme 2

Livre Blanc WebSphere Transcoding Publisher

Mini_guide_Isis_v6.doc le 10/02/2005 Page 1/15

Designer d escalier GUIDE DE L UTILISATEUR. Stair Designer-1

ES Enterprise Solutions

TEXT MINING von 7

Introduction : présentation de la Business Intelligence

LES TOUT PREMIERS PAS

La carte, le territoire et l'explorateur où est la visualisation? Jean-Daniel Fekete Equipe-projet AVIZ INRIA

Nouveau Web Client marquant, Cumulus Video Cloud, optimisations de la base de données, et plus..

GUIDE D UTILISATION DE L ISU SEPTEMBRE 2013 GUIDE D UTILISATION DU NAVIGATEUR UIS.STAT (VERSION BÊTA)

pcon.planner 6 Préparer et présenter une implantation en toute simplicité

Guide de l utilisateur Mikogo Version Windows

TangibleData. Manipulation tangible et multitouch de bases de données

Document d accompagnement pour le référentiel national du C2i niveau 2 Métiers de l environnement et de l aménagement durables

2 Grad Info Soir Langage C++ Juin Projet BANQUE

eproject Manuel utilisateur Version 0.0

basée sur le cours de Bertrand Legal, maître de conférences à l ENSEIRB Olivier Augereau Formation UML

Manuel d utilisation NETexcom

GUIDE DE DÉMARRAGE. SitagriPro Infinite FINANCEAGRI. Un service. c o r p o r a t e

données en connaissance et en actions?

Pentaho Business Analytics Intégrer > Explorer > Prévoir

Introduction aux concepts d ez Publish

INTRODUCTION AU CMS MODX

Business Intelligence avec SQL Server 2012

les Formulaires / Sous-Formulaires Présentation Créer un formulaire à partir d une table...3

Diagnostic adaptatif d'un flux d'alarmes par méta diagnostic distribué Application à la détection d'intrusions dans un serveur Web

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

SIG ET ANALYSE EXPLORATOIRE

Utiliser Freemind à l'école

CREG : versailles.fr/spip.php?article803

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

Travaux pratiques avec RapidMiner

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Le modèle de données

Adobe Illustrator Logiciel de dessin vectoriel et de Cartographie Assistée par Ordinateur

Utilisation du visualiseur Avermedia

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

PowerPoint offre trois modes d affichage principaux : le mode Normal, le mode Trieuse de diapositives et le mode Diaporama

TP Blender n 2 : Importation d un modèle SketchUp et animation


Cédric Gendre Inra, ESR Toulouse

Chapitre 9 : Informatique décisionnelle

SAP BusinessObjects Web Intelligence (WebI) BI 4

INFORM :: DEMARRAGE RAPIDE A service by KIS

La classification automatique de données quantitatives

Business Intelligence avec SQL Server 2012

ISTEX, vers des services innovants d accès à la connaissance

Compte-rendu re union Campus AAR 3 mars 2015

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Stratégies gagnantes pour les prestataires de services : le cloud computing vu par les dirigeants Dossier à l attention des dirigeants

Guide de démarrage rapide

Interface PC Vivago Ultra. Pro. Guide d'utilisation

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Thunderbird est facilement téléchargeable depuis le site officiel

MEMENTO D'UTILISATION Du T.N.I. SmartBoard (Version )

ContactForm et ContactFormLight - Gestionnaires de formulaire pour Prestashop Edité par ARETMIC S.A.

Interaction et Vis ualis ation en Géosicence

Un exemple avec WORKSPACE d'interwrite

Jean-Daniel Fekete Directeur de Recherche, Resp. équipe-projet AVIZ INRIA

COPY. Picture Style Editor Ver. 1.4 MODE D EMPLOI. Logiciel de création de fichiers de style d image. Contenu de ce mode d emploi

EIP 2012 Projet Livepad. Documentation technique 1.5

Visualisation d information interactive

Conception d'applications de base de données ios plus rapides Guide Pratique FileMaker

Transcription:

Chapitre 6 Visualisation cohérente 2D-3D de pyramides de documents 6.1. Introduction L'étude décrite dans cet article s'appuie sur un besoin industriel dans le domaine de la fouille de données: l'utilisation d'interfaces graphiques interactives pour l'accès au contenu et à la sémantique de données structurées. Disposant de gros volumes de données, ces interfaces doivent permettre à des analystes d'extraire des informations significatives; celles-ci seront ensuite exploitées par des décideurs pour faire des choix stratégiques ou par des marketeurs pour concevoir leurs démarches commerciales. Dans ce chapitre, nous nous focalisons sur la visualisation des données pour une meilleure connaissance des clients d'edf en nous appuyant sur les enquêtes de satisfaction. Nous nous appuyons sur des travaux réalisés dans le cadre du projet ANR SEVEN (partenaires EDF R&D, LIMSI-CNRS, INRIA, CEREMADE, Semiosys) qui a pour but de réaliser une chaîne de traitement de données comlexescomplexes et hétérogènes ou de résultats d'analyses et qui va jusqu'à l'annotation métier sur une interface de visualisation en passant par des traitements linguistiques et classifications résumant l'information pertinente à représenter. La partie visualisation de ce projet est en aval de traitements linguistiques et statistiques fournissant construisant une structure des donnée dont le défi principal est d être comprise par les utilisateurss. Elle se compose principalement de deux interfaces Chapitre rédigé par Christian JACQUEMIN, Adrien MAZAUD, Rémi DURAND, Camille MAURICE et Frédéric VERNIER

16 Information & visualisation : vers une ergonomie visuelle interactive graphiques, une en 2D et une en 3D, chacune portant sur des structures de données similaires. La visualisation 3D de données s'applique à de nombreux domaines industriels et scientifiques pour des données physiques: systèmes d'information géographique, visualisation de maillages issus de reconstructions 3D en médecine ou pour le patrimoine, visualisation technique en architecture ou en mécanique, et enfin toutes les visualisations interactives d'environnements virtuels tels que le jeu ou la simulation. Ici, il s'agit de l'appliquer à des données informationnelles, numériques ou symboliques, issues d'enquêtes de satisfaction client fournies par EDF R&D. Dans le domaine de la représentation de l'information, la visualisation 3D est controversée dans les cas où les données peuvent également être visualisées en 2D. Comme indiqué dans des études comparatives d'interfaces 2D et 3D telles que [SEB 99, COC 02], l'efficacité est meilleure sur une interface 2D pour des tâches de recherche d'information. Toutefois, les utilisateurs apprécient l utilisation des interfaces 3D et ne remarquent pas leurs plus faibles performances, l'engagement compensant la baisse de l'efficacité. Dans l'étude que nous présentons ici, il s'agit de réaliser la visualisation de structures spécifiques de données appelées pyramides qui se déclinent en 2 ou en 3 dimensions. Ces structures sont obtenues au moyens des logiciels SODAS et HYPIES développés par le laboratoire CEREMADE. La version tri-dimensionnelle des pyramides n'étant pas réductible à une représentation 2D, il est nécessaire d avoir recours à une visualisation 3D pour manipuler cette structure. Le premier enjeu de ce travail est donc de réaliser une interface pour la visualisation et la navigation dans les pyramides 2D et 3D en maximisant la similarité d'interaction entre ces deux types de structure et en minimisant la redondance du code. Chacune de ces structures est intéressante à analyser, la structure 2D pour sa simplicité et sa lisibilité, la structure 3D pour la plus grande richesse des informations contenues et une hauteur moindre de la structuration induite. Le second enjeu est de trouver les bons paradigmes d'interaction pour accéder à ces structures conceptuelles pour que les experts humains interprètent les données qu'elles représentent. Comment un expert peut-il visualiser des classes de documents par le biais de cette structure afin d en extraire des concepts importants et les transmettre à des décideurs qui les utiliseront dans leurs choix stratégiques ou à des marketeurs qui les appliqueront dans leurs démarches commerciales? La contribution du travail réalisé en visualisation a été de proposer une plateforme unique pour la construction et la visualisation homogène des pyramides 2D ou 3D dans leurs dimensions respectives. Elle offre un cadre cohérent pour la navigation, la sélection et la lecture des nœuds (aussi appelées «classes» dans le

Visualisation cohérente 2D-3D de pyramides de documents 17 cadre des pyramides). Elle propose également de nombreuses facilités pour l'accès aux informations numériques associées aux classes qui construisent la pyramide. Bien que conçu dans un cadre très particulier, ce travail de visualisation peut s'appliquer à tout projet d'analyse visuelle dynamique de grandes masses de données pour lesquelles les hiérarchies strictes ne sont pas un mode de représentation suffisant ou pertinent. En intégrant représentations 2D et 3D et informations numériques, il offre un cadre intuitif d'accès aux données, de sélection et d'annotation de classes, et de report des informations numériques pertinentes sur la visualisation graphique des pyramides. 6.2. Visualisation de hiérarchies La visualisation de hiérarchie a toujours été un domaine important de la visualisation de données symboliques et tendra à le rester dans les prochaines années en raison du développement du web sémantique et de la structuration hiérarchique qu'il génère tant sur le contenu (les documents) que sur les méta-données (les ontologies). Dans le cas de SEVEN, nous nous sommes contentés de travailler sur des documents et des classes thématiques obtenues automatiquement. Nous n'avons pas utilisé de thésaurus thesaurus, ni d'ontologie. La visualisation de hiérarchies volumineuses a naturellement orienté les recherches vers la spatialisation des données et la possibilité d'interagir avec ces structures. Ainsi les cone trees [ROB 91] proposent d'augmenter la capacité de visualisation par la distribution des éléments sur un cercle au lieu d'un segment dans le cas d'un arbre (figures 6.1.a et 6.1.b). Les cone trees ont été critiqués pour leur occlusion des données qui se trouvent sur la partie cachée d'un cône et par la perte de repères dans la hiérarchie lors de la rotation des cônes. Afin d'éviter cette faiblesse des cone trees, [JAC 05] propose un mode d'exploration des données réparties sur des géométries de cônes hiérarchiques qui repose non sur la manipulation du cône, mais sur la navigation dans les données ainsi structurées. Des changements d'échelle assurent une bonne discrimination visuelle entre les différents niveaux de la hiérarchie.

18 Information & visualisation : vers une ergonomie visuelle interactive Figure 6.1. Différentes représentations spatiales de hiérarchies Les limites de la représentation hiérarchique des données ne viennent pas seulement du mode d'accès à ces données, mais également de leur incapacité à représenter la richesse des relations rencontrées dans les données réelles, en particulier celles ayant trait aux documents textuels et à leurs nombreuses relations thématiques. En conséquence, les travaux sur la représentation de données hiérarchiques se sont ensuite orientés vers des structures plus riches que des hiérarchies strictes: des structures où un élément peut avoir plus d un ancêtre. Pour donner un exemple, il semble effectivement naturel d'accepter qu'un même document se trouve rattaché à plusieurs thèmes. Un premier exemple de ces hiérarchies non disjointes est fourni par les multi-arbres (voir figure 6.1.c et [FUR 94]). Les multi-arbres sont une classe restreinte de treillis dont les sousstructures sont des arbres et qui n'accepte pas de structure en losange: un document ne peut accéder à ses ancêtres par plus d'un chemin. Les multi-arbres sont plus riches que les arbres, mais ils permettent cependant de réutiliser les outils de visualisation d arbre sur les sous-arbres qu ils contiennent. Ce type de structure se construit naturellement lors d une activité d édition consistant à recycler des fragments de documents structurés au sein d un document les contenant : on construit alors une nouvelle hiérarchie faite de fragments d arbre recopiés. Dans le projet SEVEN, les données complexes traitées sont soit des réponses à des questions fermées, soit des champs de commentaires libres assez courts. Les multi-arbres conviendraient mieux pour des données faites de documents textuels longs et

Visualisation cohérente 2D-3D de pyramides de documents 19 structurés, ce qui n'est pas le cas actuellement pour les données complexes traitées par EDF R&D telles que les enquêtes de satisfaction clients. Un autre exemple de hiérarchies non strictement disjointes est donné par les polyarchies (figure 6.1.d), des hiérarchies pouvant partager des éléments communs. Ce type de structure se rencontre typiquement dans les organisations humaines où des personnes peuvent se trouver impliquées conjointement, de par leur fonction, dans des structures hiérarchiques différentes. La visualisation des polyarchies proposée dans [ROB 02] offre des transitions fluides entre des hiérarchies incluses dans une même polyarchie permettant de suivre visuellement les éléments communs à ces hiérarchies. Dans le travail présenté dans cet article, les structures sur lesquelles porte la visualisation sont des pyramides [DID 84, DID 86, PAK 05a, PAK 05b]. Ces structures hiérarchiques ne sont pas des multi-arbres puisque plusieurs chemins peuvent faire passer d'un nœud à un de ses ancêtres. Ce ne sont pas non plus des polyarchies puisque les éléments communs se trouvent à l'intérieur du même treillis. Ces structures de pyramides peuvent se définir selon différentes dimensions, nous ne nous intéressons ici qu'aux pyramides de dimension 2 ou 3 (figures 6.2.a et 6.2.b). Figure 6.2. Les structures de pyramides Les pyramides sont une extension des hiérarchies qui permettent des recouvrements emboîtés entre classes au lieu de partitions. Elles représentent un indice de dissimilarité entre classes et elles sont plus fidèles que les hiérarchies pour les représenter. Les structures de pyramide sont construites à partir d une mesure de dissimilarité entre éléments deux à deux. Les deux (ou quatre) éléments les plus similaires par cette mesure sont agrégés pour former un nouvel élément (ou classe d éléments). Ce nouvel élément sera à nouveau agrégé lorsqu il fera à nouveau partie du couple (ou du quadrinome) d éléments les plus proches. Il est à noteré que la position finale des éléments (base de la pyramide) est induite par cette structuration. Cette structuration particulière représente mieux les liens de dissimilarités qu une hiérarchie qui fonctionne en tout ou rien. Les dissimilarités

20 Information & visualisation : vers une ergonomie visuelle interactive sont rendues dans les pyramides par les positions en hauteur des nœuds: plus un nœud est proche des classes qu'il domine plus la dissimilarité entre ces classes et ce nœud qui les agrège est faible. Structurellement, les pyramides sont des graphes acycliques orientés. Les nœuds de base sont agrégés par des nœuds qui forment un palier. Les paliers peuvent à leur tour être agrégés en paliers. Le graphe n'a pas d'intersection entre les arcs en 2D et pas de croisements entre les liens en 3D. Une représentation en pyramide suppose donc un ordre total sur les individus à classer et chaque palier représente un intervalle (en 2D) ou un rectangle (en 3D) sur cet ordre. Les individus ne peuvent être agrégés en paliers qu'à condition de construire des intervalles ce qui induit l'absence de croisement dans le graphe ainsi construit. L'ensemble des paliers dont la plus grande distance à la base est identique constitue un niveau. Nous nous situons dans le cas particulier de pyramides saturées où tous les paliers possèdent toujours deux fils pour les pyramides 2D et quatre pour les pyramides 3D. En revanche, les nœuds de base et les paliers (sauf le palier du sommet) possèdent un ou deux pères pour les pyramides en 2D alors qu ils en possèdent un, deux ou quatre dans le cas des pyramides 3D. L extension d un nœud représente l ensemble des nœuds de la base accessibles à partir de ce nœud par un chemin dans la pyramide. 6.3. Fouille de données visuelle La visualisation de données se compose généralement d'une transformation et d'une analyse des données, puis de phases d'interprétation graphique et enfin de présentation et d'interaction utilisateur [PAR 93]. Le travail réalisé en visualisation et présenté dans cet article a été conduit dans le cadre du projet SEVEN de l'agence Nationale de la Recherche sous la responsabilité scientifique de Sylvaine Nugier (EDF R&D). Il porte sur l analyse et la visualisation de grandes masses de données complexes, le scénario retenu est celui des enquêtes satisfaction auprès des clients EDF. Les données textuelles initiales passent dans un pipe-line de traitement illustré par la figure 6.3. Les enquêtes sont indexées par une analyse linguistique de surface permettant de repérer les termes et les entités nommées. Les documents ainsi analysés sont ensuite groupés en thèmes par une analyse statistique du type nuées dynamiques. Les classes thématiques obtenues sont analysées statistiquement afin de calculer des matrices de dissimilarités puis elles sont structurées en pyramides 2D et 3D.

Visualisation cohérente 2D-3D de pyramides de documents 21 Figure 6.3. Les principales étapes en visualisation de données L analyse de données textuelles massives, la réalisation de chaînes de traitement combinant des analyses symboliques et numériques de l information et leur visualisation relève du champ de la fouille de données visuelles [WON 04]. Les systèmes ainsi réalisés requièrent des compétences pluridisciplinaires (linguistique computationnelle, analyse statistique de données, visualisation d information, sciences cognitives ) et reposent sur des architectures de pipe-lines configurables dans lesquelles circulent des données enrichies progressivement. Le système développé dans le cadre du projet SEVEN et présenté ici a une architecture assez proche du système IN-SPIRE développé depuis plusieurs années par le laboratoire PNNL. Celui-ci comporte également des modules d indexation par des termes, de statistiques terminologiques, d analyse thématique et de calcul de matrices de dissimilarités [KRI 07]. La différence entre l approche de IN-SPIRE et celle présentée ici porte sur la structure spatiale utilisée pour la visualisation. Dans IN-SPIRE la visualisation repose sur des algorithmes de clustering et de projection alors que dans le projet SEVEN, nous avons souhaité compléter les visualisations de classes par des visualisations plus structurées à base de pyramides afin de présenter une vue hiérarchique abstraite des données. Hive (Hybrid Information Visualisation Environment) [ROS 05] est un programme de visualisation de données à base de flot de données. Contrairement à IN-SPIRE, il

22 Information & visualisation : vers une ergonomie visuelle interactive n'offre pas une base logicielle aussi importante de modules de traitement. En contrepartie, il propose un mode de construction simple de chaînes de traitement et de visualisation des données qui le rend flexible. Avec une interaction de type glisser/déposer pour insérer des modules et la possibilité de tirer des fils entre ces modules, l'utilisateur peut se construire une chaîne de traitement à façon. L'approche retenue dans le projet SEVEN est très similaire à celle de Hive avec un accent plus fort sur l'interactivité. La visualisation des pyramides que nous présentons ici intervient comme un module de fin de chaîne chargé de présenter l'information à l'utilisateur et de saisir ses commentaires d'experts pour les conserver pour des utilisations futures. 6.4. Visualisation cohérente de pyramides et de données numériques associées Le but de la visualisation de classes de données complexes dans le projet SEVEN est de fournir des outils d aide à la navigation et à l accès interactif aux données pour des structures de données en deux ou trois dimensions. Ces structures de données sont des pyramides 2D ou 3D dont les bases sont composées de classes thématiques. Les pyramides ainsi construites comportent plus de lien que les structures d arbres et permettent donc plus d informations structurelles que les hiérarchies classiques. Cet atout à un revers : les pyramides étant plus denses, il est plus difficile de rendre l information lisible et accessible. Les structures pyramidales présentent donc des enjeux intéressants en visualisation de données textuelles. Nous décrivons maintenant le dispositif et les solutions originales retenues pour offrir aux utilisateurs les moyens de mieux accéder aux classes de données complexes contenus dans une structure pyramidale, ainsi qu aux informations représentées par les liens entre classes. 6.4.1. Présentation générale de l'interface L'interface utilisateur (UI) est composée de trois fenêtres interdépendantes: la visualisation 2D, la visualisation 3D et le panneau de contrôle des deux visualisations (figure 6.4). Les structures de données fournies par les traitements statistiques sont définies de façon très similaire pour les pyramides 2D et 3D afin de maximiser la réutilisation des composants entre les visualisations 2D et 3D.

Visualisation cohérente 2D-3D de pyramides de documents 23 Figure 6.4. Architecture de l application La figure 6.4 décrit les flots de données entre les composantes de la visualisation. Le pipeline logiciel commence avec le fichier de structure (un fichier ASCII décrivant la structure de données) qui est donné au parseur. Celui-ci va extraire les données utiles puis les transmettre aux interfaces de visualisation 2D ou 3D en fonction du type de structure. L utilisateur interagit directement sur ces interfaces de visualisation ou bien sur le panneau de contrôle qui va transmettre l information aux modules de visualisation. La visualisation 3D est implémentée dans Virtual Choreographer (VirChor, http://virchor.sf.net/) et est extérieure au reste de l application. La communication entre ces deux modules se fait par des messages réseau, offrant ainsi la possibilité de distribuer les rendus sur des architectures différentes. 6.4.2. Visualisation 2D L interface de visualisation 2D se compose d'un panneau de contrôle permettant de paramétrer le rendu graphique et d'une zone d'affichage pour le dessin de la pyramide. La navigation dans la structure hiérarchique se fait par zoomming via la molette de la souris et panning via la translation du curseurmanipulation directe.

24 Information & visualisation : vers une ergonomie visuelle interactive Figure 6.5. Mini-vue de la structure Pour l aider à la navigation, une mini-vue est intégrée dans l interface (figure 6.5) Elle permet de donner à tout moment une vue globale de la structure et de mettre en évidence la zone affichée à l écran. Ce concept est directement repris des jeux de stratégies ou où la carte est trop grande pour être affichée en entier : la majeure partie de l espace est occupée par une vue détaillée et un petit espace est réservé pour voir la vue d ensemble et la zone affichée. Compte tenu de la difficulté inhérente à la visualisation de la structure de pyramide, il semble opportun d afficher la pyramide complète uniquement dans la vue globale et de laisser tous les détails dans la vue locale. Il y a trois types de sélection pour la visualisation 2D : la sélection primaire, la sélection secondaire et la sélection passive. La sélection primaire met en valeur un noeud ainsi que son extension en le colorant différemment du reste de la pyramide. La sélection secondaire a un rôle similaire, mais peut être appliquée à plus d'un seul noeud. Enfin, la sélection passive met en valeur un noeud lorsqu'il est survolé en épaississant son tracé. Cette dernière permet de plus d'accéder aux interactions contextuelles lorsque le survol dure un court instants arrête sur un nœud.

Visualisation cohérente 2D-3D de pyramides de documents 25 Figure 6.6. Menu en barillet sur un nœud L'accès aux interactions contextuelles attachées à un nœud de la hiérarchie se fait par un menu en barillet [CAL 88] (Figure 6.6). Celui-ci donne accès à la labellisation (nomination par l utilisateur), l annotation (ajout et consultation de notes) ainsi qu àa la visualisation des données associées au nœud. La labellisation consiste à attribuer un nouvel identifiant à un nœud alors que l'annotation permet d'attacher aux nœuds des informations complémentaires lors d'une analyse de données. Celles-ci pourront ensuite être sauvegardées et récupérées par les utilisateurs afin de tirer parti d'une analyse experte antérieure lors d'une consultation des données. Un nœud peut contenir plusieurs notes datées et rattachées à un auteur afin de les authentifier. Bien que ces fonctionnalités soient directement inspirées du cahier des charges particulier des marketeurs, il nous semble très important de mettre en avant ces outils dont la très grande flexibilité permet aux utilisateurs de s approprier ces nouvelles formes de structure de données. Enfin la visualisation des données d un nœud permet d afficher ses variables sous forme d étoiles (cf section 6.4.4). Outre les interactions possibles sur les nœuds, les commandes accessibles par la fenêtre de contrôle agissent sur la structure dans sa globalité. Ainsi on peut régler le type d échelle employée pour tracer la structure. On utilisera une échelle linéaire pour des structures distribuées uniformément en hauteur, alors que celles dont la distribution en hauteur des niveaux est très élevée dans les basses ou les faibles hauteurs, seront plus lisibles avec une échelle exponentielle ou logarithmique qui permettra de mieux distinguer les hauteurs relatives de ses paliers (figure 6.7).

26 Information & visualisation : vers une ergonomie visuelle interactive Figure 6.7. Affichage d'une pyramide avec une forte densité de niveaux dans les faibles hauteurs avec une échelle linéaire (a) et une échelle logarithmique (b) La fenêtre de contrôle permet également de paramétrer la forme des liens: trapézoïdaux ou triangulaires. Ces derniers mettent en évidence la différence de hauteur significative entre les deux fils d un nœud donné grâce à un décroché qui souligne cette différence (voir figure 6.8). Figure 6.8. Liens triangulaires avec décrochage d un lien pour souligner la dissimilarité Il est possible d'accentuer cette mise en évidence en affichant des textures en arrière plan. Deux textures sont alors utilisées : une pour l'ensemble de la pyramide et une autre dont la couleur et l'aspect créent un effet de contraste qui met en valeur la hauteur significative. L interface de visualisation 2D intègre également un système de recherche de nœuds. Lorsqu une recherche est lancée, la structure dans sa globalité est grisée, donnant un effet de brouillard. Au fur et à mesure que l utilisateur entre sa requête, les nœuds correspondant à la recherche sont mis en évidence (figure 6.9).

Visualisation cohérente 2D-3D de pyramides de documents 27 Figure 6.9. Recherche de nœuds dans la structure L'interface utilise un système d'animation en complément de l'interaction qui la rend plus «naturelle». En effet, dans la vie réelle, les objets ne se déplacent pas de manière instantanée et nous sommes habitués à percevoir et comprendre leurs déplacements. Les animations viennent donc ponctuer les transitions entre les différentes actions de l'utilisateur et lui offrent un confort visuel et une aide cognitive. 6.4.3. Visualisation 3D L interface de visualisation 3D a fait l objet d un développement séparé dans l outil VirChor. VirChor est un moteur de rendu 3D de scènes 3D en OpenGL à partir de description de scène au format XML. Il est orienté vers l'interaction tant au niveau interne avec la possibilité d'attacher des comportements aux objets géométriques, qu'au niveau externe avec la possibilité de recevoir des messages d'applications tierces pour déclencher des scripts internes. L'utilisation d'un format XML facilite la génération automatique de scènes 3D à partir de structures de données et laisse ouverte la possibilité d'appliquer des feuilles de style pour personnaliser le rendu et les comportements des objets. L interface 3D est composée de deux parties : une visualisation de la structure dans un espace à 3 dimensions ainsi qu une vue en coupe de cette dernière dans un espace pseudo 2D (figure 6.10 a et b). La navigation dans la vue 3D est libre et s effectue à l aide de la souris. Des points de vue prédéfinis (gauche, face, dessus,

28 Information & visualisation : vers une ergonomie visuelle interactive ) servent à revenir à des positions canoniques de visualisation et évitent la désorientation de l'utilisateur dans les navigations 3D. Figure 6.10. Vue 3D (a) et pseudo vue 2D (b) d'une pyramide 3D Dans la vue 2D la navigation conventionnelle est désactivée. Elle fournit des vues en coupes des structures 3D afin d'en faciliter la sélection, l'analyse et l'enrichissement au moyen d'une présentation sélective. Il existe deux types de vues 2D: les coupes longitudinales, qui mettent en valeur les liens hiérarchiques entre niveaux, et les coupes transversales, qui elles mettent en évidence la différence de hauteur entre les nœuds. La coupe longitudinale peut être réglée selon deux paramètres : le sens (gauche, face, ) et la profondeur (première ligne de nœud de la base, seconde ligne, ). La vue en coupe transversale consiste à afficher un rectangle semi- transparent qui symbolise la hauteur de coupe de la structure et qui est visible simultanément dans la perspective 3D. L utilisateur peut déplacer ce rectangle afin de ne visualiser que des nœuds proches du plan de coupe au moyen d'un volume de vue de faible hauteur centré sur le plan de coupe. Au fur et à mesure qu il se déplace dans les deux vues, on aperçoit les nœuds passer au dessus ou en dessous du rectangle par transparence. Cette fonctionnalité permet de comparer la

Visualisation cohérente 2D-3D de pyramides de documents 29 hauteur de nœuds qui sont proches en hauteur et donc de mieux appréhender les dissimilarités entre classes (figure 6.11 a et b). Figure 6.11. Vue en coupe horizontale en 3D (a) et en pseudo vue 2D (b) Un certain nombre d interactions sont possibles allant de la simple sélection d un nœud à l annotation de ce dernier. Dans la visualisation 3D, comme dans la visualisation 2D, il existe trois types de sélections : passive, primaire et secondaire. La sélection passive consiste à surligner le nœud situé au dessous du curseur en le changeant de couleur et à afficher les informations le concernant à l écran. La sélection primaire quand à elle consiste à surligner un nœud ainsi que son extension en coloriant toute la sous-structure de ce dernier (nœuds enfants et liens) d une autre couleur. Enfin la sélection secondaire joue le même rôle que la sélection primaire à ceci près que plusieurs sous-structures de nœuds peuvent être mise en évidence à l inverse de la sélection primaire (une seule sous-structure simultanée) et qu elle n a pas la priorité sur la sélection primaire (c est -à -dire qu une sous-structure qui est à la fois en sélection primaire et secondaire, sera considérée en sélection primaire). La sélection secondaire permet de visualiser simultanément l'extension de deux nœuds. Comme en 2D, les interactions sont accessibles par un menu contextuel attaché à un nœud ou par le panneau de contrôle. Ainsi, les interactions associées à un nœud sont la labellisation, l annotation ou la visualisation des variables de ce dernier. Ces actions sont relayées à l application principale en Java par des messages réseau. VirChor joue le rôle d'un visualiseur 3D dont «l'intelligence» est située dans le module Java. Celui-ci reçoit les identifiants des éléments sélectionnés, ainsi que les messages paramétrés envoyés par les menus contextuels, et il retourne les paramètres d'affichage qui reflètent l'état des objets après les interactions

30 Information & visualisation : vers une ergonomie visuelle interactive (coloration, taille, enrichissement graphique...). Java peut également modifier des informations dans le modèle de données géométrique de VirChor telles que des labels de nœuds qui seront affichés lorsque la souris passera au-dessus du nœud après cette modification. Dans ce contexte où le contrôle et les modèles de données sont partagées entre Java et VirChor, l'implémentation des échanges d'information entre les applications doit s'assurer que les données Java et la représentation visuelle dans VirChor sont constamment maintenues cohérentes. Par exemple, chaque nœud qui possède une note est estampillé d une enveloppe alternant du rouge au blanc si le nœud possède de nouvelles notes (figure 6.12.a), ou d une enveloppe blanche si l utilisateur à déjà pris connaissance de ces notes (figure 6.12.b). Il est indispensable que ces données visuelles reflètent l'état des données symboliques. Figure 6.12. Nœud contenant une annotation La recherche d'un nœud par son label et/ou son identifiant entraîne l'envoi à VirChor de messages qui contrôlent la couleur des nœuds. Au début de la recherche, les nœuds sont en gris. Puis, au cours de la recherche, les nœuds qui satisfont la requête reprennent leur couleur d origine. Tout comme en 2D, il est possible de changer le type d échelle employée pour tracer la structure. Les lignes symbolisant l échelle ne sont pas affichées sur la vue 3D par soucis de clarté, elles sont uniquement présentes sur les coupes longitudinales. Trois types de liens sont utilisés pour afficher la pyramide : Les courbes de Bézier (figure 6.13.a) sont claires et aérées. Elles rendent bien compte de la hauteur des niveaux par leur partie supérieure tangente à l'horizontale, mais elles sont difficiles à suivre en parcours ascendant. Les liens rectilignes (figure 6.13.b) sont plus lisibles en parcours remontant, mais sont moins aptes que les courbes de Bézier à rendre compte des hauteurs relatives des paliers.

Visualisation cohérente 2D-3D de pyramides de documents 31 Enfin, les liens en trapèze (figure 6.13.c) offrent un bon compromis entre lisibilité et esthétique. Ils sont à la fois clairs pour les connexions quel qu'en soit le sens de parcours, et pour le positionnement horizontal des nœuds grâce à leur forme supérieure en plateau. Figure 6.13. Liens en courbes de Bézier (a), en triangle (b) et en trapèze (c) 6.4.4. Visualisation de données numériques Les nœuds de la pyramide représentent des classes de données documents complexes qui ont été agrégés sur la base de similarités entre leurs valeurs numériques ou entre leurs contenus linguistiques. Afin d'analyser la classification obtenue, les variables et leurs valeurs sont représentées en étoiles dont chaque branche porte un histogramme: les valeurs numériques associées à chacune des modalités d'une variable (figure 6.14). Ces histogrammes agrègent les valeurs numériques des feuilles sous-jacentes (nœuds du bas) de la pyramide. Ainsi, au nœud le plus haut de la pyramide est associée une étoile de tous les histogrammes de répartition pour toutes les valeurs numériques associées aux données. Dans le cadre de SEVEN aucun échantillonnage n a été nécessaire car nous disposions de réponses discrètes à des questions fermées. L histogramme de gauche de la Figure 6.14 nous montre par exemple que la classe de données complexes représentés par le nœud choisi correspond à des

32 Information & visualisation : vers une ergonomie visuelle interactive questionnaires de clients plutôt satisfaits sauf au niveau de la modalité «temps d attente pour parler à un interlocuteur». Cet histogramme ne peut pas réellement être interprété sans être comparé au même histogramme des nœuds à côté (autres classes), au-dessus (classe plus large) et au-dessous (sous-classes plus spécifiques). Figure 6.14. Une étoile de données La navigation au sein d une étoile se fait en faisant tourner ses branches autour de son centre. Pour plus de clarté, les branches qui sont en arrière -plan sont atténuées, les intitulés de chaque modalité disparaissent et apparaissent également au fur et à mesure que l étoile tourne pour ne laisser places qu à ceux des deux branches du premier plan. Il est possible de ramener une branche au premier plan en cliquant sur l une des modalités de ses variables. Plusieurs fonctionnalités, basées sur une interaction graphique, ont été implantées afin de visualiser les valeurs des variables sur l'ensemble de la hiérarchie. On peut mettre en évidence les classes d une structure qui satisfont certaines requêtes sur les variables, comme par exemple mettre en évidence toustelles que les nœuds dont la modalité m de la variable v est comprise entre x1 et x2. Il est également possible de visualiser la répartition d une modalité au sein de la hiérarchie. Notre système propose de faire correspondre la taille et/ou la couleur des nœuds de la structure aux variables choisies. Dans le cas de variables à modalités multiples, plus la modalité d'une variable est fortement pondérée par rapport aux autres modalités de cette variable plus ce nœud est gros ou plus il est de la couleur associée aux fortes pondérations de cette modalité (Figure 6.15.a et 6.15.b).

Visualisation cohérente 2D-3D de pyramides de documents 33 Figure 6.15. Répartition de modalités en 2D (a) et 3D (b) Les répartition des valeurs sur les variables peuvent être comparées sur deux nœuds simultanément en combinant les étoiles associées à chacun de ces nœuds. Les branches associées aux mêmes variables sont alignées et les histogrammes sont tracés à l'aide de deux couleurs, une pour chaque nœud (figure 6.16).

34 Information & visualisation : vers une ergonomie visuelle interactive Figure 6.16. Comparaison de deux étoiles 6.5. Synthèse et perspectives La visualisation d'information ne se résume pas à rechercher des motifs (ou patterns) visuels dans des nuages de données. En amont, il est nécessaire de fournir des traitements de plus en plus lourds sur les données pour tirer parti des informations linguistiques, structurelles ou numériques sur les données. Les traitements à réaliser dépendent alors d'une suite de modules qui peuvent éventuellement utiliser les résultats des traitements faits en amont pour réaliser leur analyse. En raison de la complexification des traitements sur les données, les structures fournies par ces modules sont multi-dimensionnnelles, peuvent comporter des méta-données riches, et sont généralement assez abstraites par rapport aux données initiales. Face à ces nouveaux résultats de traitement de l'information, il est nécessaire d'offrir, en aval de ces traitements, des outils qui permettent aux utilisateurs d'appréhender les structures fournies, les analyser, les organiser et les annoter. La visualisation des pyramides que nous avons présentée ici se situe dans ce cadre: il s'agit d'une structure complexe car issue d'une analyse de dissimilarité puis d'une construction hiérarchique empiétante. En outre, les nœuds de cette structure sont eux-mêmes des ensembles complexes car issus d'agglomérations de classes, ellesmêmes construites sur des similarités thématiques entre données complexes. Le travail décrit dans cet article a fourni un exemple de module de visualisation intégré dans une telle chaîne de traitement. De par ses fonctionnalités de navigation et de comparaison des hauteurs de paliers, il aide à mieux appréhender les relations

Visualisation cohérente 2D-3D de pyramides de documents 35 structurelles et les inclusions entre les classes (connexions et positionnement des nœuds en hauteur). L'annotation et la labellisation aident l'analyste à déposer des traces contextuelles de sa compréhension des données pour qu'elles puissent être reportées dans d'autres outils ou relues par des personnes moins expertes. Enfin, les fonctionnalités de visualisation des valeurs de variables par individus (une étoile), par petits groupes d'individus (une superposition d'étoiles de couleurs différentes) ou par distribution sur l'ensemble de la pyramide (reflétée par une couleur ou une taille des individus), permettent de mieux appréhender quelles sont les variables qui ont contribué au rapprochement de certaines classes et à la construction de la hiérarchie lorsque les valeurs ne sont pas uniformément réparties sur la structure. Ce travail doit se poursuivre par des modes d'accès dynamiques aux données encore plus riches que ce que nous avons actuellement. À partir d'une classe, il faudrait pouvoir ouvrir la liste des requêtes qui ont contribué à la réalisation de cette classe, visualiser sur chaque requête les valeurs des variables et leur positionnement au sein de l'histogramme de cette classe. Il serait également souhaitable de disposer de modes d'interactions sur les données, tels que le replacement d'une classe sur la grille de base de la pyramide 3D ou sur une position en hauteur dans la hiérarchie afin que l'utilisateur puisse revenir sur des choix faits par l'algorithme de classification. Ces nouvelles valeurs pourraient ensuite être utilisées pour recalculer une nouvelle hiérarchie plus adaptée aux données que la précédente. Nous envisageons également de nouveaux modes d'interaction avec ces données. Pour la pyramide 3D, nous souhaitons de combiner interaction en 2D sur une table tactile avec interaction dans un environnement 3D spatialisé [AJA 07] afin de combiner une bonne appréhension spatiale du relief de la pyramide dans la vue 3D avec une manipulation aisée des widgets de l'interface via la table tactile. Dans un environnement du type bureau, nous voulons également proposer des rendus multi-écrans afin de juxtaposer le rendu de la pyramide et des informations tabulaires sur l'indexation et l'analyse linguistique (entités nommées, terminologie, liens sémantiques), ou des graphes sur les liens thématiques entre documents. Il faudra alors voir quelles sont les meilleures façons de relier les données dans la pyramide avec celles sur l'analyse linguistique. On pourrait placer les écrans côte à côte et avoir des liens connectant les données entre les deux écrans. Dans le cas d'un seul écran, on peut également avoir un accès aux informations antérieures en «entrant» dans un nœud de la pyramide pour y découvrir les connexions entre les documents qui constituent les classes emboîtées dans ce nœud. Les structures telles que les pyramides sont issues des travaux de recherche en statistiques et en analyse de données. Ce sont des objets mathématiques dont la pertinence formelle est désormais bien établie. Il faut poursuivre les recherches qui portent ces modes de présentation de l'information vers des applications

36 Information & visualisation : vers une ergonomie visuelle interactive industrielles. Si ces travaux aboutissent on peut espérer que ces structures de données prendront une place croissante en analyse de données, tout comme les autres hiérarchies étendues telles que les multi-arbres ou les polyarchies, car elles offrent une représentation des données qui est plus souple et plus proche des situations humaines que les hiérarchies strictes. 6.6. Remerciements Nous remercions très chaleureusement tous les partenaires du projet ANR SVEN: Sylvaine Nugier, coordinatrice scientifique du projet, (EDF R&D), Edwin Diday, Mohamed Rahal et Myriam Touati (CEREMADE), Anne Perradotto et Yasmina Quatrain (EDF R&D), Thanh-Nghi Do et Jean-Daniel Fekete (AVIZ, INRIA Futurs), Benoît Habert et Martine Hurault-Plantet (LIMSI LIR), et Elie Naulleau (Semiosys). Merci également à Martine Hurault-Plantet et Yasmina Quatrain pour leur relecture d'une version préliminaire de ce chapitre. 6.7. Bibliographie [AJA 07] AJAJ, R., JACQUEMIN, C., ET VERNIER, F. 2007. «User collaboration for 3D manipulation through multiple shared 2D and 3D views». Proceedings, Virtual Reality International Conference, VRIC '2007, Laval, France, 18-22 avril 2007. [CAL 88] CALLAHAN, J., HOPKINS, D., WEISER, M., ET SHNEIDERMAN, B. 1988. «An empirical comparison of pie vs. linear menus». Proceedings of the SIGCHI Conference on Human Factors in Computing Systems, CHI '88, Washington, D.C., USA, p. 95-100, 15-19 Mai 1988. [COC 02] COCKBURN, A. ET MCKENZIE, B. 2002. «Evaluating the effectiveness of spatial memory in 2D and 3D physical and virtual environments». Proceedings of the SIGCHI Conference on Human Factors in Computing Systems: Changing Our World, Changing Ourselves, CHI '02, Minneapolis, MI, USA, p. 203-210, 20-25 Avril 2002. [DID 84] DIDAY E. «Une représentation visuelle des classes empiétantes : les pyramides» Rapport INRIA n 291 (Rocquencourt), Avril 1984. [DID 86] DIDAY E. «Une représentation visuelle des classes empiétantes : les pyramides»rairo - AFCET - Gauthier-Villars APII 52 pp. 475-526, 1986. [FUR 94] FURNAS, G. W. ET ZACKS, J. 1994. «Multitrees: enriching and reusing hierarchical structure». Proceedings of the SIGCHI Conference on Human Factors in Computing Systems: Celebrating interdependence, CHI '94, Boston, MA, USA, p. 330-336, 24-28 Avril 1994. [JAC 05] JACQUEMIN, C., FOLCH, H., ET NUGIER, S. «OCEAN: 2 1/2D Interactive Visual Data Mining of Text Documents». Proceedings of the 10th International Conference on Information Visualisation, IV '06, Londres, Angleterre, p. 383-388, 5-7 Juillet 2006.

Visualisation cohérente 2D-3D de pyramides de documents 37 [KRI 07] KRISHNAN, M. BOHN, S. COWLEY, W. CROW, V. NIEPLOCHA, J. «Scalable Visual Analytics of Massive Textual Datasets». Proceedings Parallel and Distributed Symposium, 2007, IPDPS '07, Long Beach, CA, USA, p. 1-10, 26-30 Mars 2007. [PAK 05a] PAK, K., RAHAL, M.C., ET DIDAY, E. «Élagage et aide à l'interprétation symbolique et graphique d'une pyramide». Actes du congrès d'extraction et gestion des connaissances, EGC Paris, Editions Cepadues,18-21 Janvier 2005. [PAK 05b] PAK, K. «Classifications hiérarchique et pyramidale spatiale». Thèse ParisIX Dauphine, 2005. [ROB 02] ROBERTSON, G., CAMERON, K., CZERWINSKI, M., ET ROBBINS, D. 2002. «Polyarchy visualization: visualizing multiple intersecting hierarchies». Proceedings of the SIGCHI Conference on Human Factors in Computing Systems: Changing Our World, Changing Ourselves, CHI '02, Minneapolis, MI, USA, p. 423-430, 20-25 Avril 2002. [ROB 91] ROBERTSON, G. G., MACKINLAY, J. D., ET CARD, S. K. 1991. «Cone Trees: animated 3D visualizations of hierarchical information». Proceedings of the SIGCHI Conference on Human Factors in Computing Systems: Reaching Through Technology, CHI '91, New Orleans, LO, USA, p. 189-194, 27 Avril 2 Mai 1991. [PAR 93] PARSAYE, K. ET CHIGNELL, M. «Intelligent Database Tools & Applications». John Wiley & Sons, Inc., 1993. [ROS 05] ROSS, G., MORRISON,A.J., ET CHALMERS,M., «Visualisation techniques for users and designers of layout algorithms». Proceedings of the 9th International Conference on Information Visualisation, IV '05, p. 579-586, Londres, Angleterre, 6-8 Juillet 2005. [SEB 99] SEBRECHTS, M. M., CUGINI, J. V., LASKOWSKI, S. J., VASILAKIS, J., ET MILLER, M. S. 1999. «Visualization of search results: a comparative evaluation of text, 2D, and 3D interfaces». Proceedings of the 22nd Annual international ACM SIGIR Conference on Research and Development in information Retrieval, SIGIR '99, Berkeley, CA, USA, p. 3-10, 15-19 Août 1999. [WON 04] WONG P. C. ET THOMAS J. «Visual Analytics». IEEE Computer Graphics and Applications, 24:5 p. 20-21, 2004.