Visualisation de données. Fabrice Rossi Télécom ParisTech



Documents pareils
Séries Statistiques Simples

Annexe commune aux séries ES, L et S : boîtes et quantiles

Statistique : Résumé de cours et méthodes

données en connaissance et en actions?

Représentation d une distribution

Logiciel XLSTAT version rue Damrémont PARIS

Protection individuelle

1. Vocabulaire : Introduction au tableau élémentaire

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

Lire ; Compter ; Tester... avec R

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Statistiques Descriptives à une dimension

Aide-mémoire de statistique appliquée à la biologie

Business Intelligence

Travaux pratiques avec RapidMiner

Introduction aux Statistiques et à l utilisation du logiciel R

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

PROBABILITES ET STATISTIQUE I&II

Statistique Descriptive Élémentaire

Analyse exploratoire des données

Traitement des données avec Microsoft EXCEL 2010

Techniques d interaction dans la visualisation de l information Séminaire DIVA

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

La carte, le territoire et l'explorateur où est la visualisation? Jean-Daniel Fekete Equipe-projet AVIZ INRIA

Exemple d application en CFD : Coefficient de traînée d un cylindre

Statistiques descriptives

Quel diagramme ou graphique vous convient le mieux? Donnez du sens à vos données

1 Objectifs. Traitement statistique des données d enquête avec introduction à SPSS. Plan

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Biostatistiques : Petits effectifs

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Économetrie non paramétrique I. Estimation d une densité

Algebra & Trigonometry High School Level Glossary English / French

démographie des masseurs-kinésithérapeutes

Optimiser ses graphiques avec R

Mini_guide_Isis_v6.doc le 10/02/2005 Page 1/15

Principe d un test statistique

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

IBM SPSS Direct Marketing 21

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

Classe de première L

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Démographie des masseurs-kinésithérapeutes

2010 Minitab, Inc. Tous droits réservés. Version Minitab, le logo Minitab, Quality Companion by Minitab et Quality Trainer by Minitab sont des

NOTICE D EMPLOI SLT-TR

1 Modélisation d être mauvais payeur

Introduction : présentation de la Business Intelligence

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Projet Matlab : un logiciel de cryptage

GUIDE D UTILISATION DU CENTRE DE DONNÉES DE L ISU

Alimentation portable mah

Circuits RL et RC. Chapitre Inductance

1 Importer et modifier des données avec R Commander

SOFI Gestion+ Version 5.4. Echanges de données informatiques Spicers Sofi gestion+ Groupements. SOFI Informatique. Actualisé le

- Ressources pour les classes

TD 1 - Structures de Traits et Unification

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

IBM SPSS Statistics Base 20

Exercice : la frontière des portefeuilles optimaux sans actif certain

Systèmes de transmission

Travailler avec les télécommunications

Jean-Daniel Fekete Directeur de Recherche, Resp. équipe-projet AVIZ INRIA

Gestion de projet. GanttProject Didacticiel V novembre Gérard Gervois Frédéric Giamarchi

Leçon N 4 : Statistiques à deux variables

Mesures de PAR. Densité de flux de photons utiles pour la photosynthèse

Opérations de base sur ImageJ

Estimation et tests statistiques, TD 5. Solutions

PLANIFICATION DE PROJET ET METHODES D ORDONNANCEMENT

Manuel d utilisation du prototype d étiquetage et première expérimentation (fin 2008)

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Modèle GARCH Application à la prévision de la volatilité

SAP BusinessObjects Web Intelligence (WebI) BI 4

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Extraction d informations stratégiques par Analyse en Composantes Principales

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Introduction au Data-Mining

Introduction à la statistique descriptive

Procédures de tests en réflectométrie. Septembre 2013

Table des matières A. Introduction... 4 B. Principes généraux... 5 C. Exemple de formule (à réaliser) :... 7 D. Exercice pour réaliser une facture

FORMULAIRE DE STATISTIQUES

Résumé du Cours de Statistique Descriptive. Yves Tillé

à moyen Risque moyen Risq à élevé Risque élevé Risq e Risque faible à moyen Risq Risque moyen à élevé Risq

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Guide d utilisation pour

Stockage ou pas stockage?

La place de SAS dans l'informatique décisionnelle

Infos. Indicateurs analogiques encastrables pour installation à courants forts. Série M W/P/ LSP BWQ BGQ TP TG WQ /0S WQ /2S FQ /2 W BI BIW DFQ

CAPTEURS - CHAINES DE MESURES

Quatrième partie IV. Test. Test 15 février / 71

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Système de contrôle d installations photovoltaïques

L a d é m a r c h e e t l e s o u t i l s p r o p o s é s

Statistiques avec la graph 35+

Documentation Technique du programme HYDRONDE_LN

La plateforme Cloud Supply Chain. Présentation de GT Nexus

Security Center Plate-forme de sécurité unifiée

Big Data et Graphes : Quelques pistes de recherche

Transcription:

Visualisation de données Fabrice Rossi Télécom ParisTech

Plan Introduction Analyses univariées Variables numériques Histogramme Densité Boxplot et statistiques Conditionnement Variables nominales Analyses multivariées Diagramme de dispersion Matrice de corrélation Diagramme mosaique Coordonnées parallèles Interaction 2 / 43 F. Rossi

Plan Introduction Analyses univariées Variables numériques Histogramme Densité Boxplot et statistiques Conditionnement Variables nominales Analyses multivariées Diagramme de dispersion Matrice de corrélation Diagramme mosaique Coordonnées parallèles Interaction 3 / 43 F. Rossi Introduction

Analyse visuelle de données Objectifs : obtenir une vision globale d un jeu de données découvrir des formes de régularité Moyens : représentations visuelles (et interactives) des données recherche automatique de régularités : corrélation et dépendance entre variables groupes homogènes (classification) schémas fréquents 4 / 43 F. Rossi Introduction

Analyse visuelle de données Objectifs : obtenir une vision globale d un jeu de données découvrir des formes de régularité Moyens : représentations visuelles (et interactives) des données recherche automatique de régularités : corrélation et dépendance entre variables groupes homogènes (classification) schémas fréquents Height 0 20 40 60 80 100 PC2 2 0 2 4 6 6 4 2 0 2 4 PC1 4 / 43 F. Rossi Introduction

Exemple recensement 32561 personnes 15 attributs par personne 5 / 43 F. Rossi Introduction

Plan Introduction Analyses univariées Variables numériques Histogramme Densité Boxplot et statistiques Conditionnement Variables nominales Analyses multivariées Diagramme de dispersion Matrice de corrélation Diagramme mosaique Coordonnées parallèles Interaction 6 / 43 F. Rossi Analyses univariées

Analyses élémentaires Première étape d une analyse exploratoire travailler variable par variable numériquement et graphiquement Variable numérique à valeurs dans R statistiques classiques : moyenne, variance, médiane, etc. représentations associées : histogramme, estimation de densité, boxplot, etc. 7 / 43 F. Rossi Analyses univariées

Analyses élémentaires Première étape d une analyse exploratoire travailler variable par variable numériquement et graphiquement Variable numérique à valeurs dans R statistiques classiques : moyenne, variance, médiane, etc. représentations associées : histogramme, estimation de densité, boxplot, etc. Variable âge : numérique 7 / 43 F. Rossi Analyses univariées

Analyses élémentaires Première étape d une analyse exploratoire travailler variable par variable numériquement et graphiquement Variable numérique à valeurs dans R statistiques classiques : moyenne, variance, médiane, etc. représentations associées : histogramme, estimation de densité, boxplot, etc. Histogram of age Variable âge : numérique Density 0.000 0.010 0.020 0 20 40 60 80 100 age 7 / 43 F. Rossi Analyses univariées

Histogramme Un histogramme représente une estimation de la densité d une variable Principe de construction : division de l intervalle [min, max] en K sous-intervalles (diverses règles pour K, par exemple log N) dénombrement des objets pour lesquels la valeur de la variable tombe dans chacun des intervalles représentation par des barres de surfaces proportionnelles aux décomptes 8 / 43 F. Rossi Analyses univariées

Histogramme Un histogramme représente une estimation de la densité d une variable Principe de construction : division de l intervalle [min, max] en K sous-intervalles (diverses règles pour K, par exemple log N) dénombrement des objets pour lesquels la valeur de la variable tombe dans chacun des intervalles représentation par des barres de surfaces proportionnelles aux décomptes Attention aux intervalles de longueurs différentes Histogram of dummy.unif Histogram of dummy.unif Density 0.0 0.4 0.8 Frequency 0 50 150 0.0 0.2 0.4 0.6 0.8 1.0 dummy.unif 0.0 0.2 0.4 0.6 0.8 1.0 dummy.unif 8 / 43 F. Rossi Analyses univariées

Histogramme Un histogramme représente une estimation de la densité d une variable Principe de construction : division de l intervalle [min, max] en K sous-intervalles (diverses règles pour K, par exemple log N) dénombrement des objets pour lesquels la valeur de la variable tombe dans chacun des intervalles représentation par des barres de surfaces proportionnelles aux décomptes Attention aux intervalles de longueurs différentes Histogram of dummy.unif Histogram of dummy.unif Density 0.0 0.4 0.8 Frequency 0 200 600 0.0 0.2 0.4 0.6 0.8 1.0 dummy.unif 0.0 0.2 0.4 0.6 0.8 1.0 dummy.unif 8 / 43 F. Rossi Analyses univariées

Intérêts Histogram of age Histogramme des heures travaillées par semaine Density 0.000 0.010 0.020 Frequency 0 5000 10000 15000 0 20 40 60 80 100 Âge age 0 20 40 60 80 100 Heures Temps de travail Histogramme des plus values Frequency 0 5000 15000 25000 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 Plus values Plus values 9 / 43 F. Rossi Analyses univariées

Intérêts Histogram of age Histogramme des heures travaillées par semaine Density 0.000 0.010 0.020 Frequency 0 5000 10000 15000 0 20 40 60 80 100 0 20 40 60 80 100 age Heures Âge Temps de travail Frequency 0 5000 15000 25000 Histogramme des plus values Idée générale de la distribution 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 Plus values Plus values 9 / 43 F. Rossi Analyses univariées

Intérêts Histogram of age Histogramme des heures travaillées par semaine Density 0.000 0.010 0.020 Frequency 0 5000 10000 15000 0 20 40 60 80 100 0 20 40 60 80 100 age Heures Âge Temps de travail Frequency 0 5000 15000 25000 Histogramme des plus values Idée générale de la distribution irrégularités 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 Plus values Plus values 9 / 43 F. Rossi Analyses univariées

Intérêts Histogram of age Histogramme des heures travaillées par semaine Density 0.000 0.010 0.020 Frequency 0 5000 10000 15000 0 20 40 60 80 100 0 20 40 60 80 100 age Heures Âge Temps de travail Frequency 0 5000 15000 25000 Histogramme des plus values 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 Plus values Plus values Idée générale de la distribution irrégularités distribution complètement atypique 9 / 43 F. Rossi Analyses univariées

Limitations Histogramme des plus values Frequency 0 5000 15000 25000 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 Plus values presque aucune information : presque toutes les valeurs sont négatives quelques valeurs très grandes 10 / 43 F. Rossi Analyses univariées

Densités Density 0.000 0.010 0.020 Density 0.0 0.1 0.2 0.3 0.4 0 20 40 60 80 100 age Âge 0 20 40 60 80 100 heures Temps de travail Density 0e+00 1e 04 2e 04 3e 04 4e 04 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 Plus values Plus values 11 / 43 F. Rossi Analyses univariées

Densités Density 0.000 0.010 0.020 Density 0.0 0.1 0.2 0.3 0.4 0 20 40 60 80 100 0 20 40 60 80 100 age heures Âge Temps de travail Estimateur à noyau Density 0e+00 1e 04 2e 04 3e 04 4e 04 f h (x) = 1 nh n ( ) x xi K h i=1 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 Plus values Plus values 11 / 43 F. Rossi Analyses univariées

Densités Density 0.000 0.010 0.020 Density 0.0 0.1 0.2 0.3 0.4 0 20 40 60 80 100 0 20 40 60 80 100 age heures Âge Temps de travail Estimateur à noyau Density 0e+00 1e 04 2e 04 3e 04 4e 04 f h (x) = 1 nh n ( ) x xi K h i=1 sélection heuristique de h 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 Plus values Plus values 11 / 43 F. Rossi Analyses univariées

Densités Density 0.000 0.010 0.020 Density 0.0 0.1 0.2 0.3 0.4 0 20 40 60 80 100 0 20 40 60 80 100 age heures Âge Temps de travail Estimateur à noyau Density 0e+00 1e 04 2e 04 3e 04 4e 04 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 Plus values Plus values f h (x) = 1 nh n ( ) x xi K h i=1 sélection heuristique de h plus fin et plus risqué 11 / 43 F. Rossi Analyses univariées

Superposition Density 0.000 0.010 0.020 Density 0.0 0.1 0.2 0.3 0.4 0 20 40 60 80 100 0 20 40 60 80 100 age heures Âge Temps de travail Density 0e+00 1e 04 2e 04 3e 04 4e 04 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 plus values Plus values 12 / 43 F. Rossi Analyses univariées

Superposition Density 0.000 0.010 0.020 Density 0.0 0.1 0.2 0.3 0.4 0 20 40 60 80 100 0 20 40 60 80 100 age heures Âge Temps de travail Density 0e+00 1e 04 2e 04 3e 04 4e 04 Comparer ou combiner des représentations 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 plus values Plus values 12 / 43 F. Rossi Analyses univariées

Superposition Density 0.000 0.010 0.020 Density 0.0 0.1 0.2 0.3 0.4 0 20 40 60 80 100 0 20 40 60 80 100 age heures Âge Temps de travail Density 0e+00 1e 04 2e 04 3e 04 4e 04 Comparer ou combiner des représentations Position précise des modes 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 plus values Plus values 12 / 43 F. Rossi Analyses univariées

Superposition Density 0.000 0.010 0.020 Density 0.0 0.1 0.2 0.3 0.4 0 20 40 60 80 100 0 20 40 60 80 100 age heures Âge Temps de travail Density 0e+00 1e 04 2e 04 3e 04 4e 04 Comparer ou combiner des représentations Position précise des modes 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 plus values Plus values Pertinence des modes? 12 / 43 F. Rossi Analyses univariées

Boxplot a.k.a. boîte à moustaches ou boîte à pattes Représentation compacte d une distribution ligne centrale : médiane ligne basse : premier quartile ligne haute : troisième quartile moustaches : le max du min et de la médiane - 1.5 l intervalle interquartile le min du max et de la médiane + 1.5 l intervalle interquartile points atypiques (outliers) : au delà des moustaches Âge 20 40 60 80 13 / 43 F. Rossi Analyses univariées

Comparaison Density 0.000 0.010 0.020 0 20 40 60 80 100 age Âge 20 40 60 80 14 / 43 F. Rossi Analyses univariées

Comparaison Density 0.000 0.010 0.020 0 20 40 60 80 100 age Âge 20 40 60 80 plus d information plus dépouillé 14 / 43 F. Rossi Analyses univariées

Comparaison Density 0.000 0.010 0.020 0 20 40 60 80 100 age Âge 20 40 60 80 plus d information inférence moins précise plus dépouillé quelques informations très précises 14 / 43 F. Rossi Analyses univariées

Statistiques Indicateurs classiques : tendance : moyenne et médiane dispersion : écart-type, intervalle interquartile 15 / 43 F. Rossi Analyses univariées

Statistiques Indicateurs classiques : tendance : moyenne et médiane dispersion : écart-type, intervalle interquartile Interprétation parfois délicate : moyenne = 990 médiane = 0 écart-type = 7410 intervalle interquartile = 0 Frequency 0 5000 15000 25000 Histogramme des plus values 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 Plus values 15 / 43 F. Rossi Analyses univariées

Statistiques Indicateurs classiques : tendance : moyenne et médiane dispersion : écart-type, intervalle interquartile Histogramme des plus values Interprétation parfois délicate : moyenne = 990 médiane = 0 écart-type = 7410 intervalle interquartile = 0 0e+00 2e+04 4e+04 6e+04 8e+04 1e+05 meilleurs choix ici : Plus values 87 % des personnes ont une plus value nulle, 8.3 % positive et 4.7 % négative puis statistiques sur les deux groupes (par ex., perte médiane 1887) Frequency 0 5000 15000 25000 15 / 43 F. Rossi Analyses univariées

Sens des statistiques La pertinence de la statistique dépend de la distribution Exemple : blogs politiques graphe des liens entre les blogs (blogroll) distribution des degrés des noeuds Frequency 0 200 400 600 0 100 Degree distribution 200 300 400 degree µ = 27.36, σ = 38.42 m = 13, δ = 33 16 / 43 F. Rossi Analyses univariées

Sens des statistiques La pertinence de la statistique dépend de la distribution Exemple : blogs politiques graphe des liens entre les blogs (blogroll) distribution des degrés des noeuds Frequency 0 200 400 600 0 100 Degree distribution 200 300 400 degree µ = 27.36, σ = 38.42 probability 0.00 0.02 0.04 0.06 0.08 0.10 m = 13, δ = 33 loi puissance : P(x) x α 0 50 100 150 200 250 300 350 degree 16 / 43 F. Rossi Analyses univariées

Sens des statistiques La pertinence de la statistique dépend de la distribution Exemple : blogs politiques graphe des liens entre les blogs (blogroll) distribution des degrés des noeuds Frequency 0 200 400 600 Degree distribution 0 100 200 300 400 degree µ = 27.36, σ = 38.42 m = 13, δ = 33 probability 0.001 0.005 0.020 0.050 loi puissance : P(x) x α sans échelle : la moyenne informe peu 1 2 5 10 20 50 100 200 degree 16 / 43 F. Rossi Analyses univariées

Sens des statistiques La pertinence de la statistique dépend de la distribution Exemple : blogs politiques graphe des liens entre les blogs (blogroll) distribution des degrés des noeuds Frequency 0 200 400 600 Degree distribution 0 100 200 300 400 degree µ = 27.36, σ = 38.42 m = 13, δ = 33 probability 0.001 0.005 0.020 0.050 loi puissance : P(x) x α sans échelle : la moyenne informe peu ici α 1.27 1 2 5 10 20 50 100 200 degree 16 / 43 F. Rossi Analyses univariées

Sens des statistiques La pertinence de la statistique dépend de la distribution Exemple : blogs politiques graphe des liens entre les blogs (blogroll) distribution des degrés des noeuds Frequency 0 200 400 600 Degree distribution 0 100 200 300 400 degree µ = 27.36, σ = 38.42 m = 13, δ = 33 probability 0.001 0.005 0.020 0.050 1 2 5 10 20 50 100 200 degree loi puissance : P(x) x α sans échelle : la moyenne informe peu ici α 1.27 Adapter les statistiques aux données 16 / 43 F. Rossi Analyses univariées

Trois points de vue Histogramme des heures travaillées par semaine Frequency 0 5000 10000 15000 0 20 40 60 80 100 Heures Moyenne : 40.44, Écart-type : 12.35 Médiane : 40, Interquartile : 5 17 / 43 F. Rossi Analyses univariées

Trois points de vue Histogramme des heures travaillées par semaine Frequency 0 5000 10000 15000 0 20 40 60 80 100 Heures Moyenne : 40.44, Écart-type : 12.35 Médiane : 40, Interquartile : 5 Compléments : 47 % = 40 heures 29 % > 40 heures 24 % < 40 heures 17 / 43 F. Rossi Analyses univariées

Conditionnement l analyse univariée seule est très limitée... première incursion dans l analyse multivariée : étudier une distribution conditionnelle en comparant plusieurs visualisations 18 / 43 F. Rossi Analyses univariées

Conditionnement l analyse univariée seule est très limitée... première incursion dans l analyse multivariée : étudier une distribution conditionnelle en comparant plusieurs visualisations exemple : p(âge genre) : deux distributions boxplots bien adaptées à la comparaison Âge 20 40 60 80 Female Male 18 / 43 F. Rossi Analyses univariées

Conditionnement Density 0.000 0.005 0.010 0.015 0.020 0.025 0.030 Female Male Âge 20 40 60 80 Female Male 20 40 60 80 visualisation par densités age compromis habituel : contenu en information, place occupée, précision, etc. 19 / 43 F. Rossi Analyses univariées

Histogrammes peu adaptés à la comparaison solution possible par superposition Frequency 0 1000 2000 3000 4000 Full Male Frequency 0 1000 2000 3000 4000 Full Female 0 20 40 60 80 100 0 20 40 60 80 100 age age lisibilité discutable 20 / 43 F. Rossi Analyses univariées

Variables nominales variable nominale (ou qualitative) : variable à valeurs dans un ensemble fini quelconque (les modalités) quand les modalités sont ordonnées : variable ordinale 21 / 43 F. Rossi Analyses univariées

Variables nominales variable nominale (ou qualitative) : variable à valeurs dans un ensemble fini quelconque (les modalités) quand les modalités sont ordonnées : variable ordinale représentation par un diagramme à bâtons : un bâton par modalité hauteur proportionnelle à la fréquence de la modalité ordre arbitraire sauf dans la cas ordinal 21 / 43 F. Rossi Analyses univariées

Variables nominales variable nominale (ou qualitative) : variable à valeurs dans un ensemble fini quelconque (les modalités) quand les modalités sont ordonnées : variable ordinale représentation par un diagramme à bâtons : un bâton par modalité hauteur proportionnelle à la fréquence de la modalité ordre arbitraire sauf dans la cas ordinal 0 5000 10000 20000 0 4000 8000 12000 Female Genre Male Divorced Married civ spouse Never married Widowed Statut marital 21 / 43 F. Rossi Analyses univariées

Lisibilité Déséquilibre 0 5000 15000 25000? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam 22 / 43 F. Rossi Analyses univariées

Lisibilité Déséquilibre 0 5000 15000 25000? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam Grand nombre de modalités 0 100 200 300 400 500 600? China Ecuador Germany Honduras Iran Jamaica Nicaragua Poland South Vietnam 22 / 43 F. Rossi Analyses univariées

Camembert Transport moving? Machine op inspct Other service Sales Adm clerical Handlers cleaners Farming fishing Tech support Protective serv Priv house serv Armed Forces Exec managerial Prof specialty Craft repair représentation très classique versions créatives (3D...) mauvaise solution : lecture des surfaces et des angles difficiles 23 / 43 F. Rossi Analyses univariées

Camembert Transport moving? Machine op inspct Other service Sales Adm clerical Handlers cleaners Farming fishing Tech support Protective serv Priv house serv Armed Forces Exec managerial Prof specialty Craft repair représentation très classique versions créatives (3D...) mauvaise solution : lecture des surfaces et des angles difficiles 0 1000 2000 3000 4000 Armed Forces Priv house serv Protective serv Tech support Farming fishing Handlers cleaners Transport moving? Machine op inspct Other service Sales Adm clerical Exec managerial Craft repair Prof specialty 23 / 43 F. Rossi Analyses univariées

Plan Introduction Analyses univariées Variables numériques Histogramme Densité Boxplot et statistiques Conditionnement Variables nominales Analyses multivariées Diagramme de dispersion Matrice de corrélation Diagramme mosaique Coordonnées parallèles Interaction 24 / 43 F. Rossi Analyses multivariées

Analyses conjointes Relativement peu d information dans chaque variable Analyse croisée nécessaire Difficultés : vision humaine limitée (2D ou 3D, formes et couleurs) beaucoup de combinaisons possibles variables incompatibles Solutions : outils de la visualisation de l information (interaction) outils de l apprentissage automatique (automatisation) 25 / 43 F. Rossi Analyses multivariées

Diagramme de dispersion Deux variables numériques : l une en fonction de l autre scatter plot Superposition : alpha blending 26 / 43 F. Rossi Analyses multivariées

Décoration Compléments du diagramme : couleur en fonction d une autre variable symbole en fonction d une autre variable Assez limité 27 / 43 F. Rossi Analyses multivariées

Matrice de diagrammes matrice de diagrammes de dispersion tous les couples de variables numériques limités à quelques variables (croissance quadratique) décorations possibles ici : 7 types de verre décrits par 9 variables 28 / 43 F. Rossi Analyses multivariées

Corrélations Recherche de corrélations Représentation graphique de la matrice de corrélation : rouge : forte corrélation positive bleu : forte corrélation négative RI Na Mg Al Si K Ca Ba Fe RI Na Mg Al Si K Ca Ba Fe 29 / 43 F. Rossi Analyses multivariées

Corrélations Recherche de corrélations Représentation graphique de la matrice de corrélation : rouge : forte corrélation positive bleu : forte corrélation négative Ici : RI corrélé avec Ca Mg anti-corrélé avec Al RI anti-corrélé avec Si Aucun lien entre Al et Si RI Na Mg Al Si K Ca Ba Fe RI Na Mg Al Si K Ca Ba Fe 29 / 43 F. Rossi Analyses multivariées

Corrélation RI et Ca Corrélation = 0.811 Ca 6 8 10 12 14 16 1.515 1.520 1.525 1.530 RI 30 / 43 F. Rossi Analyses multivariées

Corrélation RI et Si Corrélation = 0.539 Si 70 71 72 73 74 75 1.515 1.520 1.525 1.530 RI 31 / 43 F. Rossi Analyses multivariées

Corrélation Al et Si Corrélation = 0.0162 Si 70 71 72 73 74 75 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Al 32 / 43 F. Rossi Analyses multivariées

Corrélation Mg et Al Corrélation = 0.48 Al 0.5 1.0 1.5 2.0 2.5 3.0 3.5 0 1 2 3 4 Mg 33 / 43 F. Rossi Analyses multivariées

Mg et Al Histogramme de Mg Frequency 0 20 40 60 80 0 1 2 3 4 Mg 34 / 43 F. Rossi Analyses multivariées

Mg et Al Histogramme de Mg Histogramme de Al Frequency 0 20 40 60 80 Frequency 0 20 40 60 80 100 0 1 2 3 4 Mg 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Al 34 / 43 F. Rossi Analyses multivariées

Mg et Al Histogramme de Mg Histogramme de Al Frequency 0 20 40 60 80 Frequency 0 20 40 60 80 100 0 1 2 3 4 Mg 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Al Histogramme de Al Frequency 0 20 40 60 80 100 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Al 34 / 43 F. Rossi Analyses multivariées

Mg et Al Histogramme de Mg Histogramme de Al Frequency 0 20 40 60 80 0 1 2 3 4 Mg Corrélation = 0.367 Al 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Frequency 0 20 40 60 80 100 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Al Histogramme de Al Frequency 0 20 40 60 80 100 0 1 2 3 4 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Mg Al 34 / 43 F. Rossi Analyses multivariées

Mg et Al Histogramme de Mg Histogramme de Al Frequency 0 20 40 60 80 0 1 2 3 4 Mg Corrélation = 0.48 Al 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Frequency 0 20 40 60 80 100 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Al Histogramme de Al Frequency 0 20 40 60 80 100 0 1 2 3 4 0.0 0.5 1.0 1.5 2.0 2.5 3.0 3.5 Mg Al 34 / 43 F. Rossi Analyses multivariées

Vision globale 35 / 43 F. Rossi Analyses multivariées

Vision globale RI Na Mg Al Si K Ca Ba Fe RI Na Mg Al Si K Ca Ba Fe 36 / 43 F. Rossi Analyses multivariées

Mosaic plot Équivalent du scatter plot pour les variables qualitatives 0 5000 15000 25000 Amer Indian Eskimo Asian Pac Islander Black Other White découpage récursif ethnicity Amer Indian Eskimo Asian Pac Islander Black Other White Female adults Male surface proportionnelle à la fréquence gender 0 5000 10000 20000 Female Male 37 / 43 F. Rossi Analyses multivariées

Mosaic plot Équivalent du scatter plot pour les variables qualitatives 0 5000 15000 25000 Amer Indian Eskimo Asian Pac Islander Black Other White découpage récursif surface proportionnelle à la fréquence ethnicity Amer Indian Eskimo Asian Pac Islander Black Other White Female adults gender Male Standardized Residuals: < 4 4: 2 2:0 0:2 2:4 >4 significativité 0 5000 10000 20000 Female Male 37 / 43 F. Rossi Analyses multivariées

Mosaic plot Équivalent du scatter plot pour les variables qualitatives 0 5000 15000 25000 Amer Indian Eskimo Asian Pac Islander Black Other White découpage récursif surface proportionnelle à la fréquence significativité plus de 2 variables ethnicity Amer Indian Eskimo Asian Pac Islander Black Other White 0 5000 10000 20000 adults Female Male <=50K >50K <=50K >50K gender 0 5000 15000 Female Male <=50K >50K 37 / 43 F. Rossi Analyses multivariées

Mosaic plot Équivalent du scatter plot pour les variables qualitatives 0 5000 15000 25000 Amer Indian Eskimo Asian Pac Islander Black Other White découpage récursif surface proportionnelle à la fréquence significativité plus de 2 variables ethnicity Amer Indian Eskimo Asian Pac Islander Black Other White 0 5000 10000 20000 adults Female Male <=50K >50K <=50K >50K gender 0 5000 15000 Standardized Residuals: < 4 4: 2 2:0 0:2 2:4 >4 Female Male <=50K >50K 37 / 43 F. Rossi Analyses multivariées

Coordonnées parallèles Méthode proposée en 1985 par A. Inselberg un axe vertical par variable un objet devient une ligne brisée (x 1,..., x p ) est représenté par la ligne brisée passant par (1, x 1 ), (2, x 2 ),..., (p, x p ) x 5 x 2 x 4 x 1 x 3 x 6 1 2 3 4 5 6 38 / 43 F. Rossi Analyses multivariées

Données Iris Sepal.Length 2.0 2.5 3.0 3.5 4.0 0.5 1.0 1.5 2.0 2.5 4.5 5.5 6.5 7.5 2.0 3.0 4.0 Sepal.Width Petal.Length 1 2 3 4 5 6 7 4.5 5.0 5.5 6.0 6.5 7.0 7.5 8.0 0.5 1.5 2.5 1 2 3 4 5 6 7 Petal.Width Anderson's/Fisher's Iris 4+1 variables, 150 objets 39 / 43 F. Rossi Analyses multivariées

Données Iris Anderson's/Fisher's Iris Sepal.Length Sepal.Width Petal.Length Petal.Width 40 / 43 F. Rossi Analyses multivariées

Données Iris Anderson's/Fisher's Iris Sepal.Length Sepal.Width Petal.Length Petal.Width Species 40 / 43 F. Rossi Analyses multivariées

Attention à l ordre Anderson's/Fisher's Iris Sepal.Length Sepal.Width Petal.Length Petal.Width Les variables Petal sont elles corrélées? 41 / 43 F. Rossi Analyses multivariées

Attention à l ordre Anderson's/Fisher's Iris Petal.Length Sepal.Length Sepal.Width Petal.Width Les variables Petal sont elles corrélées? 41 / 43 F. Rossi Analyses multivariées

Interaction problèmes : surcharge de l écran surcharge cognitive solution par interaction : zoom vues multiples sélection et lien : sélection d une zone (brushing) affichage des résultats sur toutes les vues (linking) en R iplots ggobi et rggobi 42 / 43 F. Rossi Analyses multivariées

iplots 43 / 43 F. Rossi Analyses multivariées

iplots 43 / 43 F. Rossi Analyses multivariées

iplots 43 / 43 F. Rossi Analyses multivariées

iplots 43 / 43 F. Rossi Analyses multivariées