ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection



Documents pareils
Extraction d informations stratégiques par Analyse en Composantes Principales

La carte, le territoire et l'explorateur où est la visualisation? Jean-Daniel Fekete Equipe-projet AVIZ INRIA

BIG DATA et DONNéES SEO

Le Futur de la Visualisation d Information. Jean-Daniel Fekete Projet in situ INRIA Futurs

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

DATA ANALYTICS Des données aux connaissances et à la création de valeur

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Business Intelligence avec Excel, Power BI et Office 365

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Cours3. Applications continues et homéomorphismes. 1 Rappel sur les images réciproques

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Introduction au Data-Mining

La classification automatique de données quantitatives

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Des données à la connaissance client. A la découverte de la plateforme de connaissance client knowlbox

Introduction au Data-Mining

Pentaho Business Analytics Intégrer > Explorer > Prévoir

5. Excel 2010, le tableur collaboratif. a. Concevez des tableaux lisibles

Atelier Visualisation d informations, interactions et fouille de données (VIF)

SOMMAIRE. Accéder à votre espace client. Les Fichiers communs. Visualiser les documents. Accéder à votre espace client. Changer de Workspace

Agenda de la présentation

Enjeux mathématiques et Statistiques du Big Data

VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES

MatrixExplorer: Un système pour l analyse exploratoire de réseaux sociaux

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Algorithme des fourmis appliqué à la détection et au suivi de contours dans une image

Analyses croisées de sites Web pour détecter les sites de contrefaçon. Prof. Dr. Olivier Biberstein

Introduction au datamining

Modélisation multi-agents - Agents réactifs

TRAVAUX DE RECHERCHE DANS LE

Fonctions de plusieurs variables

Title Text. Outil intégré de collecte, d'analyse et de visualisation de données de mobilité

Franck VAUTIER, Jean-Pierre TOUMAZET, Erwan ROUSSEL, Marlène FAURE, Mohamed ABADI, Marta FLOREZ, Bertrand DOUSTEYSSIER

Utilisation du CMS (Content Management System) Wordpress

Visualisation d information interactive

BLANC LIVRE. Data Discovery L alternative à la BI?

Plateforme «Inscription en ligne»

La visualisation de données relationnelles au service de la recherche d informations

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

1 Complément sur la projection du nuage des individus

La Geo-Business Intelligence selon GALIGEO avec 26/10/2005 1

La Data Visualisation dans les organisations. Par Claude-Henri Meledo

Réception des réponses et suivi de vos déclarations.

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

SharePoint (Toute la Gamme)... 1 Office 2010 (Toute la Gamme)... 2 OLAP (Toute la Gamme)... 2 STATISTICA Connecteur PI (Produit Complémentaire)...

Journées PERF-RV Octobre B. Arnaldi

SYNERGYTEK. Logiciel de gestion de la production sur mesure

Communications immersives : Enjeux et perspectives

1. Visualiser la «carte» de mon réseau social

QU EST-CE QUE LE DECISIONNEL?

LA DIVULGATION INTELLIGENTE DES DONNEES A L'HEURE DES BIG DATA

Mesure agnostique de la qualité des images.

sont appliquées à des fonds documentaires, sont destinées à fournir des informations pertinentes sur la structure globale plutôt que sur le contenu.

En route vers le succès avec une solution de BI intuitive destinée aux entreprises de taille moyenne

pythonocc: une plateforme de développement agile d applications CAO.

Business Intelligence

Analyse de grandes bases de données en santé

Extraction et reconstruction de bâtiments en 3D à partir de relevés lidar aéroportés

Apprentissage Automatique

De la modélisation linguistique aux applications logicielles: le rôle des Entités Nommées en Traitement Automatique des Langues

Hypervision et pilotage temps réel des réseaux IP/MPLS

Gestion de la Sécurité, Fore!

Entrepôt de données 1. Introduction

SQL SERVER 2008, BUSINESS INTELLIGENCE

Traitement bas-niveau

OPEN DATA : CHALLENGES ET PERSPECTIVES D ENTREPOSAGE

SEMINAIRE SAS VISUAL ANALYTICS LAUSANNE, MARCH 18 : JÉRÔME BERTHIER VALERIE AMEEL

Support de TD ArcGIS Introduction à l automatisation et au développement avec ArcGIS 10.1 JEAN-MARC GILLIOT e année ingénieur

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

WILOG ERP Terroir. Gestion commerciale. Solution Cloud Solution Réseau Solution Monoposte. 136 boulevard de Finlande Pompey - France

Master IMA - UMPC Paris 6 RDMM - Année Fiche de TP

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Big Data et Graphes : Quelques pistes de recherche

CegidBusinessPlaceMode. Back Office. Le progiciel de gestion intégré pour piloter votre réseau de distribution

TD Introduction aux SIG avec ArcGis 9

Recherche d'images par le contenu Application au monitoring Télévisuel à l'institut national de l'audiovisuel

INTRODUCTION A LA B.I AVEC PENTAHO BUSINESS ANALYTICS Formation animée par

Manuel d utilisation de l outil collaboratif

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Thibault Denizet. Introduction à SSIS

Urbanisation des SI-NFE107

BIRT (Business Intelligence and Reporting Tools)

SIG CELLULE DE CRISE. LIEU FORUM ESRI VERSAILLES NOM DE L INTERVENANT Olivier BOURGUIGNON - Arkema / DISIT DATE 3 OCT 2012

MABioVis. Bio-informatique et la

Business Intelligence avec SQL Server 2012

LOGICIEL POUR BOUTIQUE DE SPORT

Big Data: comment passer de la stratégie à la mise en œuvre? Big Data Paris Mars 2015

DOCUMENTATION POINT FACTURE

Big Data & objets connectés

DU RÉSEAU AU BIG DATA UNE OFFRE GLOBALE DE GESTION DE LA DONNÉE. Bruno Fleisch - Responsable Produits Tarik Hakkou Responsable du pôle «Data»

Big Data et Marketing : les competences attendues

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

BASE DE DONNÉES D'ASSISTANCE AU DÉVELOPPEMENT POUR LA MAURITANIE (DAD MAURITANIE)

Transcription:

ProxiLens : Exploration interactive de données multidimensionnelles à partir de leur projection Nicolas HEULOT (CEA LIST) Michaël AUPETIT (CEA LIST) Jean-Daniel FEKETE (INRIA Saclay) Journées Big Data & Visualization 24 Juin 2013

Plan Introduction Contexte Problématiques Cette projection représente-t-elle fidèlement les données? Background ProxiViz Design Modèle ProxiLens Discussion Conclusion

Introduction (1/2) CONTEXTE Comment visualiser des données en grandes dimensions? Matrice de scatterplots, Coordonnées parallèles, Heatmap? La projection de données est indépendante du nombre de dimensions Pipeline de visualisation d une projection: Données en grandes dimensions Matrice de similarités Projection 2D Analyse Variables Individus... Exemple: Caractéristiques de signaux EEG Exemple: Distance euclidienne Exemple: ACP, MDS

Introduction (2/2) PROBLÈMATIQUES Problèmes topologiques Interprétation locale des erreurs Surestimation du nombre de clusters Faux Voisinages Artefacts de Projection Déchirures Tâches d analyse exploratoire Extraire des clusters Détecter des points atypiques Valider des étiquettes de classe? Cluster? Artefacts ou Outliers?

Background PROXIVIZ AUPETIT M.: Visualizing distortions and recovering topology in continuous projection techniques. Neurocomputing 70, 7-9 (2007), 1304 1330. Visualisation interactive des lignes d une matrice de similarité (basée sur une sélection au survol de la souris) Matrice de similarités Problèmes Représentation: Tailles des cellules de Voronoi aléatoires Interaction: Clignotements dues aux faux voisinages Analyse: Difficile d extraire des clusters

Design (1/2) Espace des données Espace 2D MODÈLE rayon HD rayon 2D référence Déchirures Faux voisinages Espace 2D Comment explorer l espace des données de manière continue? On doit éviter de sélectionner des faux voisins Proposition: Les faux voisins sont déplacés vers les bords de la zone de voisinage 2D 1 2 3

Design (1/2) Espace des données Espace 2D MODÈLE rayon HD rayon 2D Espace 2D référence Déchirures Faux voisinages Comment aider à extraire des clusters? L utilisateur doit pouvoir facilement associer à un même cluster courant toutes les données voisines de la référence (points verts) Proposition: l utilisateur paramètre les rayons de voisinage dans l espace des données et l espace 2D rayon HD: définie le voisinage dans l espace des données rayon 2D: définie le voisinage dans l espace 2D (comme la zone d intérêt d une lentille) 1 2 3 cluster1

Design (2/2) PROXILENS Représentation Interpolation de Shepard Cercle 2D représentant la lentille Interaction Paramétrage des rayons HD et 2D (avec le scroll) Amorçage la sélection de la référence en fonction de la distance dans l espace des données Exemple avec des problèmes de faux voisinages Extraction de clusters On associe à un même cluster courant tous les points qui sont à la fois dans le voisinage de la référence dans l espace des données et dans l espace 2D Exemple avec des problèmes de déchirures DEMO (d3.js - webgl)

Discussion PARAMÈTRES Problèmes avec des configurations extrêmes Rayon de voisinage trop petit dans l espace des données Rayon de voisinage trop grand dans l espace 2D (perte du contexte) Meilleur paramétage La qualité de l analyse visuelle est directement dépendante de la métrique de similarité

Conclusion PROXILENS: EXPLORATION INTERACTIVE DE DONNÉES Conclusion Amélioration de la représentation par rapport à ProxiViz (coloration et distorsion spatiale) Interaction permettant une exploration de manière continue des données (par rapport à la topologie) Analyse et extraction de clusters intuitive Perspectives Evaluation de Proxilens avec des experts en data-mining Aider à paramétrer automatiquement les rayons de voisinage Aider à extraire les clusters de manière semi-automatique

Merci pour votre attention Questions?