Visualisation de données Fabrice Rossi Télécom ParisTech
Plan Introduction Analyses univariées Variables numériques Histogramme Densité Boxplot et statistiques Conditionnement Variables nominales Analyses multivariées Diagramme de dispersion Matrice de corrélation Diagramme mosaique Coordonnées parallèles Interaction 2 / 43 F. Rossi
Plan Introduction Analyses univariées Variables numériques Histogramme Densité Boxplot et statistiques Conditionnement Variables nominales Analyses multivariées Diagramme de dispersion Matrice de corrélation Diagramme mosaique Coordonnées parallèles Interaction 3 / 43 F. Rossi Introduction
Analyse visuelle de données Objectifs : obtenir une vision globale d un jeu de données découvrir des formes de régularité Moyens : représentations visuelles (et interactives) des données recherche automatique de régularités : corrélation et dépendance entre variables groupes homogènes (classification) schémas fréquents 4 / 43 F. Rossi Introduction
Analyse visuelle de données Objectifs : obtenir une vision globale d un jeu de données découvrir des formes de régularité Moyens : représentations visuelles (et interactives) des données recherche automatique de régularités : corrélation et dépendance entre variables groupes homogènes (classification) schémas fréquents Height 0 20 40 60 80 100 PC2 2 0 2 4 6 6 4 2 0 2 4 PC1 4 / 43 F. Rossi Introduction
Exemple recensement 32561 personnes 15 attributs par personne 5 / 43 F. Rossi Introduction
Plan Introduction Analyses univariées Variables numériques Histogramme Densité Boxplot et statistiques Conditionnement Variables nominales Analyses multivariées Diagramme de dispersion Matrice de corrélation Diagramme mosaique Coordonnées parallèles Interaction 6 / 43 F. Rossi Analyses univariées
Analyses élémentaires Première étape d une analyse exploratoire travailler variable par variable numériquement et graphiquement Variable numérique à valeurs dans R statistiques classiques : moyenne, variance, médiane, etc. représentations associées : histogramme, estimation de densité, boxplot, etc. 7 / 43 F. Rossi Analyses univariées
Analyses élémentaires Première étape d une analyse exploratoire travailler variable par variable numériquement et graphiquement Variable numérique à valeurs dans R statistiques classiques : moyenne, variance, médiane, etc. représentations associées : histogramme, estimation de densité, boxplot, etc. Variable âge : numérique 7 / 43 F. Rossi Analyses univariées
Analyses élémentaires Première étape d une analyse exploratoire travailler variable par variable numériquement et graphiquement Variable numérique à valeurs dans R statistiques classiques : moyenne, variance, médiane, etc. représentations associées : histogramme, estimation de densité, boxplot, etc. Histogram of age Variable âge : numérique Density 0.000 0.010 0.020 0 20 40 60 80 100 age 7 / 43 F. Rossi Analyses univariées
Histogramme Un histogramme représente une estimation de la densité d une variable Principe de construction : division de l intervalle [min, max] en K sous-intervalles (diverses règles pour K, par exemple log N) dénombrement des objets pour lesquels la valeur de la variable tombe dans chacun des intervalles représentation par des barres de surfaces proportionnelles aux décomptes 8 / 43 F. Rossi Analyses univariées
Histogramme Un histogramme représente une estimation de la densité d une variable Principe de construction : division de l intervalle [min, max] en K sous-intervalles (diverses règles pour K, par exemple log N) dénombrement des objets pour lesquels la valeur de la variable tombe dans chacun des intervalles représentation par des barres de surfaces proportionnelles aux décomptes Attention aux intervalles de longueurs différentes Histogram of dummy.unif Histogram of dummy.unif Density 0.0 0.4 0.8 Frequency 0 50 150 0.0 0.2 0.4 0.6 0.8 1.0 dummy.unif 0.0 0.2 0.4 0.6 0.8 1.0 dummy.unif 8 / 43 F. Rossi Analyses univariées
Histogramme Un histogramme représente une estimation de la densité d une variable Principe de construction : division de l intervalle [min, max] en K sous-intervalles (diverses règles pour K, par exemple log N) dénombrement des objets pour lesquels la valeur de la variable tombe dans chacun des intervalles représentation par des barres de surfaces proportionnelles aux décomptes Attention aux intervalles de longueurs différentes Histogram of dummy.unif Histogram of dummy.unif Density 0.0 0.4 0.8 Frequency 0 200 600 0.0 0.2 0.4 0.6 0.8 1.0 dummy.unif 0.0 0.2 0.4 0.6 0.8 1.0 dummy.unif 8 / 43 F. Rossi Analyses univariées
Intérêts Histogram of age Histogramme des heures travaillées par semaine Density 0.000 0.010 0.020 Frequency 0 5000 10000 15000 0 20 40 60 80 100 Âge age 0 20 40 60 80 100 Heures Temps de travail Histogramme des plus values Frequency 0 5000 15000 25000 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 Plus values Plus values 9 / 43 F. Rossi Analyses univariées
Intérêts Histogram of age Histogramme des heures travaillées par semaine Density 0.000 0.010 0.020 Frequency 0 5000 10000 15000 0 20 40 60 80 100 0 20 40 60 80 100 age Heures Âge Temps de travail Frequency 0 5000 15000 25000 Histogramme des plus values Idée générale de la distribution 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 Plus values Plus values 9 / 43 F. Rossi Analyses univariées
Intérêts Histogram of age Histogramme des heures travaillées par semaine Density 0.000 0.010 0.020 Frequency 0 5000 10000 15000 0 20 40 60 80 100 0 20 40 60 80 100 age Heures Âge Temps de travail Frequency 0 5000 15000 25000 Histogramme des plus values Idée générale de la distribution irrégularités 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 Plus values Plus values 9 / 43 F. Rossi Analyses univariées
Intérêts Histogram of age Histogramme des heures travaillées par semaine Density 0.000 0.010 0.020 Frequency 0 5000 10000 15000 0 20 40 60 80 100 0 20 40 60 80 100 age Heures Âge Temps de travail Frequency 0 5000 15000 25000 Histogramme des plus values 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 Plus values Plus values Idée générale de la distribution irrégularités distribution complètement atypique 9 / 43 F. Rossi Analyses univariées
Limitations Histogramme des plus values Frequency 0 5000 15000 25000 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 Plus values presque aucune information : presque toutes les valeurs sont négatives quelques valeurs très grandes 10 / 43 F. Rossi Analyses univariées
Densités Density 0.000 0.010 0.020 Density 0.0 0.1 0.2 0.3 0.4 0 20 40 60 80 100 age Âge 0 20 40 60 80 100 heures Temps de travail Density 0e+00 1e 04 2e 04 3e 04 4e 04 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 Plus values Plus values 11 / 43 F. Rossi Analyses univariées
Densités Density 0.000 0.010 0.020 Density 0.0 0.1 0.2 0.3 0.4 0 20 40 60 80 100 0 20 40 60 80 100 age heures Âge Temps de travail Estimateur à noyau Density 0e+00 1e 04 2e 04 3e 04 4e 04 f h (x) = 1 nh n ( ) x xi K h i=1 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 Plus values Plus values 11 / 43 F. Rossi Analyses univariées
Densités Density 0.000 0.010 0.020 Density 0.0 0.1 0.2 0.3 0.4 0 20 40 60 80 100 0 20 40 60 80 100 age heures Âge Temps de travail Estimateur à noyau Density 0e+00 1e 04 2e 04 3e 04 4e 04 f h (x) = 1 nh n ( ) x xi K h i=1 sélection heuristique de h 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 Plus values Plus values 11 / 43 F. Rossi Analyses univariées
Densités Density 0.000 0.010 0.020 Density 0.0 0.1 0.2 0.3 0.4 0 20 40 60 80 100 0 20 40 60 80 100 age heures Âge Temps de travail Estimateur à noyau Density 0e+00 1e 04 2e 04 3e 04 4e 04 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 Plus values Plus values f h (x) = 1 nh n ( ) x xi K h i=1 sélection heuristique de h plus fin et plus risqué 11 / 43 F. Rossi Analyses univariées
Superposition Density 0.000 0.010 0.020 Density 0.0 0.1 0.2 0.3 0.4 0 20 40 60 80 100 0 20 40 60 80 100 age heures Âge Temps de travail Density 0e+00 1e 04 2e 04 3e 04 4e 04 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 plus values Plus values 12 / 43 F. Rossi Analyses univariées
Superposition Density 0.000 0.010 0.020 Density 0.0 0.1 0.2 0.3 0.4 0 20 40 60 80 100 0 20 40 60 80 100 age heures Âge Temps de travail Density 0e+00 1e 04 2e 04 3e 04 4e 04 Comparer ou combiner des représentations 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 plus values Plus values 12 / 43 F. Rossi Analyses univariées
Superposition Density 0.000 0.010 0.020 Density 0.0 0.1 0.2 0.3 0.4 0 20 40 60 80 100 0 20 40 60 80 100 age heures Âge Temps de travail Density 0e+00 1e 04 2e 04 3e 04 4e 04 Comparer ou combiner des représentations Position précise des modes 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 plus values Plus values 12 / 43 F. Rossi Analyses univariées
Superposition Density 0.000 0.010 0.020 Density 0.0 0.1 0.2 0.3 0.4 0 20 40 60 80 100 0 20 40 60 80 100 age heures Âge Temps de travail Density 0e+00 1e 04 2e 04 3e 04 4e 04 Comparer ou combiner des représentations Position précise des modes 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 plus values Plus values Pertinence des modes? 12 / 43 F. Rossi Analyses univariées
Boxplot a.k.a. boîte à moustaches ou boîte à pattes Représentation compacte d une distribution ligne centrale : médiane ligne basse : premier quartile ligne haute : troisième quartile moustaches : le max du min et de la médiane - 1.5 l intervalle interquartile le min du max et de la médiane + 1.5 l intervalle interquartile points atypiques (outliers) : au delà des moustaches Âge 20 40 60 80 13 / 43 F. Rossi Analyses univariées
Comparaison Density 0.000 0.010 0.020 0 20 40 60 80 100 age Âge 20 40 60 80 14 / 43 F. Rossi Analyses univariées
Comparaison Density 0.000 0.010 0.020 0 20 40 60 80 100 age Âge 20 40 60 80 plus d information plus dépouillé 14 / 43 F. Rossi Analyses univariées
Comparaison Density 0.000 0.010 0.020 0 20 40 60 80 100 age Âge 20 40 60 80 plus d information inférence moins précise plus dépouillé quelques informations très précises 14 / 43 F. Rossi Analyses univariées
Statistiques Indicateurs classiques : tendance : moyenne et médiane dispersion : écart-type, intervalle interquartile 15 / 43 F. Rossi Analyses univariées
Statistiques Indicateurs classiques : tendance : moyenne et médiane dispersion : écart-type, intervalle interquartile Interprétation parfois délicate : moyenne = 990 médiane = 0 écart-type = 7410 intervalle interquartile = 0 Frequency 0 5000 15000 25000 Histogramme des plus values 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 Plus values 15 / 43 F. Rossi Analyses univariées
Statistiques Indicateurs classiques : tendance : moyenne et médiane dispersion : écart-type, intervalle interquartile Histogramme des plus values Interprétation parfois délicate : moyenne = 990 médiane = 0 écart-type = 7410 intervalle interquartile = 0 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 meilleurs choix ici : Plus values 87 % des personnes ont une plus value nulle, 8.3 % positive et 4.7 % négative puis statistiques sur les deux groupes (par ex., perte médiane 1887) Frequency 0 5000 15000 25000 15 / 43 F. Rossi Analyses univariées
Sens des statistiques La pertinence de la statistique dépend de la distribution Exemple : blogs politiques graphe des liens entre les blogs (blogroll) distribution des degrés des noeuds Frequency 0 200 400 600 0 100 Degree distribution 200 300 400 degree µ = 27.36, σ = 38.42 m = 13, δ = 33 16 / 43 F. Rossi Analyses univariées
Sens des statistiques La pertinence de la statistique dépend de la distribution Exemple : blogs politiques graphe des liens entre les blogs (blogroll) distribution des degrés des noeuds Frequency 0 200 400 600 0 100 Degree distribution 200 300 400 degree µ = 27.36, σ = 38.42 probability 0.00 0.02 0.04 0.06 0.08 0.10 m = 13, δ = 33 loi puissance : P(x) x α 0 50 100 150 200 250 300 350 degree 16 / 43 F. Rossi Analyses univariées
Sens des statistiques La pertinence de la statistique dépend de la distribution Exemple : blogs politiques graphe des liens entre les blogs (blogroll) distribution des degrés des noeuds Frequency 0 200 400 600 Degree distribution 0 100 200 300 400 degree µ = 27.36, σ = 38.42 m = 13, δ = 33 probability 0.001 0.005 0.020 0.050 loi puissance : P(x) x α sans échelle : la moyenne informe peu 1 2 5 10 20 50 100 200 degree 16 / 43 F. Rossi Analyses univariées
Sens des statistiques La pertinence de la statistique dépend de la distribution Exemple : blogs politiques graphe des liens entre les blogs (blogroll) distribution des degrés des noeuds Frequency 0 200 400 600 Degree distribution 0 100 200 300 400 degree µ = 27.36, σ = 38.42 m = 13, δ = 33 probability 0.001 0.005 0.020 0.050 loi puissance : P(x) x α sans échelle : la moyenne informe peu ici α 1.27 1 2 5 10 20 50 100 200 degree 16 / 43 F. Rossi Analyses univariées
Sens des statistiques La pertinence de la statistique dépend de la distribution Exemple : blogs politiques graphe des liens entre les blogs (blogroll) distribution des degrés des noeuds Frequency 0 200 400 600 Degree distribution 0 100 200 300 400 degree µ = 27.36, σ = 38.42 m = 13, δ = 33 probability 0.001 0.005 0.020 0.050 1 2 5 10 20 50 100 200 degree loi puissance : P(x) x α sans échelle : la moyenne informe peu ici α 1.27 Adapter les statistiques aux données 16 / 43 F. Rossi Analyses univariées
Trois points de vue Histogramme des heures travaillées par semaine Frequency 0 5000 10000 15000 0 20 40 60 80 100 Heures Moyenne : 40.44, Écart-type : 12.35 Médiane : 40, Interquartile : 5 17 / 43 F. Rossi Analyses univariées
Trois points de vue Histogramme des heures travaillées par semaine Frequency 0 5000 10000 15000 0 20 40 60 80 100 Heures Moyenne : 40.44, Écart-type : 12.35 Médiane : 40, Interquartile : 5 Compléments : 47 % = 40 heures 29 % > 40 heures 24 % < 40 heures 17 / 43 F. Rossi Analyses univariées
Conditionnement l analyse univariée seule est très limitée... première incursion dans l analyse multivariée : étudier une distribution conditionnelle en comparant plusieurs visualisations 18 / 43 F. Rossi Analyses univariées
Conditionnement l analyse univariée seule est très limitée... première incursion dans l analyse multivariée : étudier une distribution conditionnelle en comparant plusieurs visualisations exemple : p(âge genre) : deux distributions boxplots bien adaptées à la comparaison Âge 20 40 60 80 Female Male 18 / 43 F. Rossi Analyses univariées
Conditionnement Density 0.000 0.005 0.010 0.015 0.020 0.025 0.030 Female Male Âge 20 40 60 80 Female Male 20 40 60 80 visualisation par densités age compromis habituel : contenu en information, place occupée, précision, etc. 19 / 43 F. Rossi Analyses univariées
Histogrammes peu adaptés à la comparaison solution possible par superposition Frequency 0 1000 2000 3000 4000 Full Male Frequency 0 1000 2000 3000 4000 Full Female 0 20 40 60 80 100 0 20 40 60 80 100 age age lisibilité discutable 20 / 43 F. Rossi Analyses univariées
Variables nominales variable nominale (ou qualitative) : variable à valeurs dans un ensemble fini quelconque (les modalités) quand les modalités sont ordonnées : variable ordinale 21 / 43 F. Rossi Analyses univariées
Variables nominales variable nominale (ou qualitative) : variable à valeurs dans un ensemble fini quelconque (les modalités) quand les modalités sont ordonnées : variable ordinale représentation par un diagramme à bâtons : un bâton par modalité hauteur proportionnelle à la fréquence de la modalité ordre arbitraire sauf dans la cas ordinal 21 / 43 F. Rossi Analyses univariées
Variables nominales variable nominale (ou qualitative) : variable à valeurs dans un ensemble fini quelconque (les modalités) quand les modalités sont ordonnées : variable ordinale représentation par un diagramme à bâtons : un bâton par modalité hauteur proportionnelle à la fréquence de la modalité ordre arbitraire sauf dans la cas ordinal 0 5000 10000 20000 0 4000 8000 12000 Female Genre Male Divorced Married civ spouse Never married Widowed Statut marital 21 / 43 F. Rossi Analyses univariées
Lisibilité Déséquilibre 0 5000 15000 25000? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam 22 / 43 F. Rossi Analyses univariées
Lisibilité Déséquilibre 0 5000 15000 25000? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam Grand nombre de modalités 0 100 200 300 400 500 600? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam 22 / 43 F. Rossi Analyses univariées
Camembert Transport moving? Machine op inspct Other service Sales Adm clerical Handlers cleaners Farming fishing Tech support Protective serv Priv house serv Armed Forces Exec managerial Prof specialty Craft repair représentation très classique versions créatives (3D...) mauvaise solution : lecture des surfaces et des angles difficiles 23 / 43 F. Rossi Analyses univariées
Camembert Transport moving? Machine op inspct Other service Sales Adm clerical Handlers cleaners Farming fishing Tech support Protective serv Priv house serv Armed Forces Exec managerial Prof specialty Craft repair représentation très classique versions créatives (3D...) mauvaise solution : lecture des surfaces et des angles difficiles 0 1000 2000 3000 4000 Armed Forces Priv house serv Protective serv Tech support Farming fishing Handlers cleaners Transport moving? Machine op inspct Other service Sales Adm clerical Exec managerial Craft repair Prof specialty 23 / 43 F. Rossi Analyses univariées
Plan Introduction Analyses univariées Variables numériques Histogramme Densité Boxplot et statistiques Conditionnement Variables nominales Analyses multivariées Diagramme de dispersion Matrice de corrélation Diagramme mosaique Coordonnées parallèles Interaction 24 / 43 F. Rossi Analyses multivariées
Analyses conjointes Relativement peu d information dans chaque variable Analyse croisée nécessaire Difficultés : vision humaine limitée (2D ou 3D, formes et couleurs) beaucoup de combinaisons possibles variables incompatibles Solutions : outils de la visualisation de l information (interaction) outils de l apprentissage automatique (automatisation) 25 / 43 F. Rossi Analyses multivariées
Diagramme de dispersion Deux variables numériques : l une en fonction de l autre scatter plot Superposition : alpha blending 26 / 43 F. Rossi Analyses multivariées
Décoration Compléments du diagramme : couleur en fonction d une autre variable symbole en fonction d une autre variable Assez limité 27 / 43 F. Rossi Analyses multivariées
Matrice de diagrammes matrice de diagrammes de dispersion tous les couples de variables numériques limités à quelques variables (croissance quadratique) décorations possibles ici : 7 types de verre décrits par 9 variables 28 / 43 F. Rossi Analyses multivariées
Corrélations Recherche de corrélations Représentation graphique de la matrice de corrélation : rouge : forte corrélation positive bleu : forte corrélation négative RI Na Mg Al Si K Ca Ba Fe RI Na Mg Al Si K Ca Ba Fe 29 / 43 F. Rossi Analyses multivariées
Corrélations Recherche de corrélations Représentation graphique de la matrice de corrélation : rouge : forte corrélation positive bleu : forte corrélation négative Ici : RI corrélé avec Ca Mg anti-corrélé avec Al RI anti-corrélé avec Si Aucun lien entre Al et Si RI Na Mg Al Si K Ca Ba Fe RI Na Mg Al Si K Ca Ba Fe 29 / 43 F. Rossi Analyses multivariées
Corrélation RI et Ca Corrélation = 0.811 Ca 6 8 10 12 14 16 1.515 1.520 1.525 1.530 RI 30 / 43 F. Rossi Analyses multivariées
Corrélation RI et Si Corrélation = 0.539 Si 70 71 72 73 74 75 1.515 1.520 1.525 1.530 RI 31 / 43 F. Rossi Analyses multivariées
Corrélation Al et Si Corrélation = 0.0162 Si 70 71 72 73 74 75 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Al 32 / 43 F. Rossi Analyses multivariées
Corrélation Mg et Al Corrélation = 0.48 Al 0.5 1.0 1.5 2.0 2.5 3.0 3.5 0 1 2 3 4 Mg 33 / 43 F. Rossi Analyses multivariées
Mg et Al Histogramme de Mg Frequency 0 20 40 60 80 0 1 2 3 4 Mg 34 / 43 F. Rossi Analyses multivariées
Mg et Al Histogramme de Mg Histogramme de Al Frequency 0 20 40 60 80 Frequency 0 20 40 60 80 100 0 1 2 3 4 Mg 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Al 34 / 43 F. Rossi Analyses multivariées
Mg et Al Histogramme de Mg Histogramme de Al Frequency 0 20 40 60 80 Frequency 0 20 40 60 80 100 0 1 2 3 4 Mg 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Al Histogramme de Al Frequency 0 20 40 60 80 100 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Al 34 / 43 F. Rossi Analyses multivariées
Mg et Al Histogramme de Mg Histogramme de Al Frequency 0 20 40 60 80 0 1 2 3 4 Mg Corrélation = 0.367 Al 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Frequency 0 20 40 60 80 100 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Al Histogramme de Al Frequency 0 20 40 60 80 100 0 1 2 3 4 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Mg Al 34 / 43 F. Rossi Analyses multivariées
Mg et Al Histogramme de Mg Histogramme de Al Frequency 0 20 40 60 80 0 1 2 3 4 Mg Corrélation = 0.48 Al 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Frequency 0 20 40 60 80 100 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Al Histogramme de Al Frequency 0 20 40 60 80 100 0 1 2 3 4 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Mg Al 34 / 43 F. Rossi Analyses multivariées
Vision globale 35 / 43 F. Rossi Analyses multivariées
Vision globale RI Na Mg Al Si K Ca Ba Fe RI Na Mg Al Si K Ca Ba Fe 36 / 43 F. Rossi Analyses multivariées
Mosaic plot Équivalent du scatter plot pour les variables qualitatives 0 5000 15000 25000 Amer Indian Eskimo Asian Pac Islander Black Other White découpage récursif ethnicity Amer Indian Eskimo Asian Pac Islander Black Other White Female adults Male surface proportionnelle à la fréquence gender 0 5000 10000 20000 Female Male 37 / 43 F. Rossi Analyses multivariées
Mosaic plot Équivalent du scatter plot pour les variables qualitatives 0 5000 15000 25000 Amer Indian Eskimo Asian Pac Islander Black Other White découpage récursif surface proportionnelle à la fréquence ethnicity Amer Indian Eskimo Asian Pac Islander Black Other White Female adults gender Male Standardized Residuals: < 4 4: 2 2:0 0:2 2:4 >4 significativité 0 5000 10000 20000 Female Male 37 / 43 F. Rossi Analyses multivariées
Mosaic plot Équivalent du scatter plot pour les variables qualitatives 0 5000 15000 25000 Amer Indian Eskimo Asian Pac Islander Black Other White découpage récursif surface proportionnelle à la fréquence significativité plus de 2 variables ethnicity Amer Indian Eskimo Asian Pac Islander Black Other White 0 5000 10000 20000 adults Female Male <=50K >50K <=50K >50K gender 0 5000 15000 Female Male <=50K >50K 37 / 43 F. Rossi Analyses multivariées
Mosaic plot Équivalent du scatter plot pour les variables qualitatives 0 5000 15000 25000 Amer Indian Eskimo Asian Pac Islander Black Other White découpage récursif surface proportionnelle à la fréquence significativité plus de 2 variables ethnicity Amer Indian Eskimo Asian Pac Islander Black Other White 0 5000 10000 20000 adults Female Male <=50K >50K <=50K >50K gender 0 5000 15000 Standardized Residuals: < 4 4: 2 2:0 0:2 2:4 >4 Female Male <=50K >50K 37 / 43 F. Rossi Analyses multivariées
Coordonnées parallèles Méthode proposée en 1985 par A. Inselberg un axe vertical par variable un objet devient une ligne brisée (x 1,..., x p ) est représenté par la ligne brisée passant par (1, x 1 ), (2, x 2 ),..., (p, x p ) x 5 x 2 x 4 x 1 x 3 x 6 1 2 3 4 5 6 38 / 43 F. Rossi Analyses multivariées
Données Iris Sepal.Length 2.0 2.5 3.0 3.5 4.0 0.5 1.0 1.5 2.0 2.5 4.5 5.5 6.5 7.5 2.0 3.0 4.0 Sepal.Width Petal.Length 1 2 3 4 5 6 7 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 0.5 1.5 2.5 1 2 3 4 5 6 7 Petal.Width Anderson's/Fisher's Iris 4+1 variables, 150 objets 39 / 43 F. Rossi Analyses multivariées
Données Iris Anderson's/Fisher's Iris Sepal.Length Sepal.Width Petal.Length Petal.Width 40 / 43 F. Rossi Analyses multivariées
Données Iris Anderson's/Fisher's Iris Sepal.Length Sepal.Width Petal.Length Petal.Width Species 40 / 43 F. Rossi Analyses multivariées
Attention à l ordre Anderson's/Fisher's Iris Sepal.Length Sepal.Width Petal.Length Petal.Width Les variables Petal sont elles corrélées? 41 / 43 F. Rossi Analyses multivariées
Attention à l ordre Anderson's/Fisher's Iris Petal.Length Sepal.Length Sepal.Width Petal.Width Les variables Petal sont elles corrélées? 41 / 43 F. Rossi Analyses multivariées
Interaction problèmes : surcharge de l écran surcharge cognitive solution par interaction : zoom vues multiples sélection et lien : sélection d une zone (brushing) affichage des résultats sur toutes les vues (linking) en R iplots ggobi et rggobi 42 / 43 F. Rossi Analyses multivariées
iplots 43 / 43 F. Rossi Analyses multivariées
iplots 43 / 43 F. Rossi Analyses multivariées
iplots 43 / 43 F. Rossi Analyses multivariées
iplots 43 / 43 F. Rossi Analyses multivariées