ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection Nicolas HEULOT (CEA LIST) Michaël AUPETIT (CEA LIST) Jean-Daniel FEKETE (INRIA Saclay) Journées Big Data & Visualization 24 Juin 2013
Plan Introduction Contexte Problématiques Cette projection représente-t-elle fidèlement les données? Background ProxiViz Design Modèle ProxiLens Discussion Conclusion
Introduction (1/2) CONTEXTE Comment visualiser des données en grandes dimensions? Matrice de scatterplots, Coordonnées parallèles, Heatmap? La projection de données est indépendante du nombre de dimensions Pipeline de visualisation d une projection: Données en grandes dimensions Matrice de similarités Projection 2D Analyse Variables Individus... Exemple: Caractéristiques de signaux EEG Exemple: Distance euclidienne Exemple: ACP, MDS
Introduction (2/2) PROBLÈMATIQUES Problèmes topologiques Interprétation locale des erreurs Surestimation du nombre de clusters Faux Voisinages Artefacts de Projection Déchirures Tâches d analyse exploratoire Extraire des clusters Détecter des points atypiques Valider des étiquettes de classe? Cluster? Artefacts ou Outliers?
Background PROXIVIZ AUPETIT M.: Visualizing distortions and recovering topology in continuous projection techniques. Neurocomputing 70, 7-9 (2007), 1304 1330. Visualisation interactive des lignes d une matrice de similarité (basée sur une sélection au survol de la souris) Matrice de similarités Problèmes Représentation: Tailles des cellules de Voronoi aléatoires Interaction: Clignotements dues aux faux voisinages Analyse: Difficile d extraire des clusters
Design (1/2) Espace des données Espace 2D MODÈLE rayon HD rayon 2D référence Déchirures Faux voisinages Espace 2D Comment explorer l espace des données de manière continue? On doit éviter de sélectionner des faux voisins Proposition: Les faux voisins sont déplacés vers les bords de la zone de voisinage 2D 1 2 3
Design (1/2) Espace des données Espace 2D MODÈLE rayon HD rayon 2D Espace 2D référence Déchirures Faux voisinages Comment aider à extraire des clusters? L utilisateur doit pouvoir facilement associer à un même cluster courant toutes les données voisines de la référence (points verts) Proposition: l utilisateur paramètre les rayons de voisinage dans l espace des données et l espace 2D rayon HD: définie le voisinage dans l espace des données rayon 2D: définie le voisinage dans l espace 2D (comme la zone d intérêt d une lentille) 1 2 3 cluster1
Design (2/2) PROXILENS Représentation Interpolation de Shepard Cercle 2D représentant la lentille Interaction Paramétrage des rayons HD et 2D (avec le scroll) Amorçage la sélection de la référence en fonction de la distance dans l espace des données Exemple avec des problèmes de faux voisinages Extraction de clusters On associe à un même cluster courant tous les points qui sont à la fois dans le voisinage de la référence dans l espace des données et dans l espace 2D Exemple avec des problèmes de déchirures DEMO (d3.js - webgl)
Discussion PARAMÈTRES Problèmes avec des configurations extrêmes Rayon de voisinage trop petit dans l espace des données Rayon de voisinage trop grand dans l espace 2D (perte du contexte) Meilleur paramétage La qualité de l analyse visuelle est directement dépendante de la métrique de similarité
Conclusion PROXILENS: EXPLORATION INTERACTIVE DE DONNÉES Conclusion Amélioration de la représentation par rapport à ProxiViz (coloration et distorsion spatiale) Interaction permettant une exploration de manière continue des données (par rapport à la topologie) Analyse et extraction de clusters intuitive Perspectives Evaluation de Proxilens avec des experts en data-mining Aider à paramétrer automatiquement les rayons de voisinage Aider à extraire les clusters de manière semi-automatique
Merci pour votre attention Questions?