Analyse exploratoire des données

Documents pareils
1 Complément sur la projection du nuage des individus

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

La classification automatique de données quantitatives

Logiciel XLSTAT version rue Damrémont PARIS

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

ACP Voitures 1- Méthode

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Analyse en Composantes Principales

Initiation à l analyse en composantes principales

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Chapitre 3. Les distributions à deux variables

Lire ; Compter ; Tester... avec R

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Introduction aux Statistiques et à l utilisation du logiciel R

Gestion des données avec R

Introduction. Préambule. Le contexte

Introduction à l approche bootstrap

Statistique Descriptive Élémentaire

Relation entre deux variables : estimation de la corrélation linéaire

Aide-mémoire de statistique appliquée à la biologie

Analyse des correspondances avec colonne de référence

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Statistiques Descriptives à une dimension

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Ricco.Rakotomalala

Scénario: Données bancaires et segmentation de clientèle

La place de SAS dans l'informatique décisionnelle

Introduction au datamining

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Partie II Cours 3 (suite) : Sécurité de bases de données

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

Mémo d utilisation de ADE-4

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Enjeux mathématiques et Statistiques du Big Data

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

données en connaissance et en actions?

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

6 ème. Rallye mathématique de la Sarthe 2013/ ère épreuve de qualification : Problèmes Jeudi 21 novembre 2013

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Chapitre 5 : Flot maximal dans un graphe

L'analyse des données à l usage des non mathématiciens

Avant-après, amont-aval : les couples de tableaux totalement appariés

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

SAS de base : gestion des données et procédures élémentaires

Traits biologiques : variables ou K-tableaux?

Cours d analyse numérique SMI-S4

Individus et informations supplémentaires

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

FORMULAIRE DE STATISTIQUES

Classification non supervisée

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Introduction au Data-Mining

Cours d Analyse. Fonctions de plusieurs variables

Plus courts chemins, programmation dynamique

ERRATA ET AJOUTS. ( t) 2 s2 dt (4.7) Chapitre 2, p. 64, l équation se lit comme suit : Taux effectif = 1+

Introduction à MATLAB R

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

Panorama des problématiques de traitement de l information. Larbi Aït Hennani, Fatma Bouali, Vincent Vandewalle

INF6304 Interfaces Intelligentes

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Exercice : la frontière des portefeuilles optimaux sans actif certain

EVALUATION DE LA SANTÉ FINANCIÈRE D UNE MUNICIPALITÉ VIA UNE APPROCHE STATISTIQUE MULTIVARIÉE.

Optimiser les performances du mouvement de monte de l Axe Z.

Modèles pour données répétées

REVUE DE STATISTIQUE APPLIQUÉE

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

Analyse de la variance Comparaison de plusieurs moyennes

Licence Sciences et Technologies Examen janvier 2010

Déterminants. Marc SAGE 9 août Inverses et polynômes 3

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Optimisation des ressources des produits automobile première

Le chi carré. Le sommaire. Approche quantitative

Biostatistiques : Petits effectifs

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Cours 9 : Plans à plusieurs facteurs

Techniques d interaction dans la visualisation de l information Séminaire DIVA

Cours Fonctions de deux variables

1 Objectifs. Traitement statistique des données d enquête avec introduction à SPSS. Plan

SPHINX Logiciel de dépouillement d enquêtes

Cette Leçon va remplir ces attentes spécifiques du curriculum :

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

23. Interprétation clinique des mesures de l effet traitement

Fonctions de plusieurs variables

Durée de L épreuve : 2 heures. Barème : Exercice n 4 : 1 ) 1 point 2 ) 2 points 3 ) 1 point

FONCTION DE DEMANDE : REVENU ET PRIX

Annexe commune aux séries ES, L et S : boîtes et quantiles

Étudier si une famille est une base

1. Vocabulaire : Introduction au tableau élémentaire

Introduction à l'analyse multivariée (factorielle) sous R. Stéphane CHAMPELY

LES DIFFERENTS TYPES DE MESURE

Transcription:

Analyse exploratoire des données Christophe Lalanne lalanne@ciep.fr Centre international d études pédagogiques juillet 2007 C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 1 / 25

Organisation Introduction Analyse en composantes principales Échelonnement multidimensionnel Analyse des correspondances C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 2 / 25

Introduction Objectifs décrire une structure de données complexes (cadre multivarié ou multidimensionnel) quantifier et interpréter des associations (distance, similarité, etc.) différentes techniques adaptées selon le type de variables manipulées et selon la visée inférentielle ou descriptive (ACP, AFC, ACM, MDS, CAH, k-means, AD, MANOVA, CART, modèle log-linéaire, etc.) C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 3 / 25

Analyse en composantes principales Object de l ACP décrire les variations d un ensemble de variables corrélées X i à partir d un nouvel ensemble de variables non corrélées Y i, obtenues à partir de combinaisons linéaires des premières procédé itératif de construction de ces variables Y i : maximiser la variance expliquer + combinaisons linéaires orthogonales dans leur ensemble ces nouvelles variables Y i sont appelées composantes principales et permettent d expliquer une part substantielle de la variabilité observée (par ordre décroissant) C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 4 / 25

Analyse en composantes principales Principe général utilisable avec des variables continues (en principe) aucune condition de validité réduction de dimensions du n individus et p variables (en général, n et p sont supérieurs à 10 ou 20) : retenir 2 ou 3 dimensions qui contiennent le maximum d information sur les données originales normalisation éventuelle des données originales (cas de variables dont les unités diffèrent fortement et contribuent à augmenter artificiellement les diparités entre variables) : utilisation de la matrice de corrélation des X i au lieu de la matrice de covariance (dans ce dernier cas, on peut tester l égalité de groupes de composantes principales) C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 5 / 25

Analyse en composantes principales Application (1) À partir d une matrice de corrélation : load ( cor1. RData ) eigen ( cor )$ values eigen ( cor )$ vectors valeurs propres : part de variance expliquée vecteurs propres : composantes principales C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 6 / 25

Analyse en composantes principales Application (2) À partir d un fichier de données brutes (ex. R) : summary (pc.cr <- princomp ( USArrests, cor = TRUE )) Importance of components : Comp.1 Comp.2 Comp.3 Comp.4 Standard deviation 1. 5748783 0. 9948694 0. 5971291 0. 41644938 Proportion of Variance 0. 6200604 0. 2474413 0. 0891408 0. 04335752 Cumulative Proportion 0. 6200604 0. 8675017 0. 9566425 1. 00000000 loadings (pc.cr) Loadings : Comp.1 Comp.2 Comp.3 Comp.4 Murder -0.536 0.418-0.341 0.649 Assault -0.583 0.188-0.268-0.743 UrbanPop -0.278-0.873-0.378 0.134 Rape -0.543-0.167 0.818 Comp.1 Comp.2 Comp.3 Comp.4 SS loadings 1.00 1.00 1.00 1.00 Proportion C. Lalanne (CIEP) Var 0.25 Analyse 0.25 exploratoire 0.25 des données 0.25 juillet 2007 7 / 25

Analyse en composantes principales Application (3) C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 8 / 25

Analyse en composantes principales Application (4) plot (pc.cr) biplot (pc.cr) graphique des valeurs propres : critère du coude pour la sélection des axes à retenir biplot : représentation des point individus et des corrélations entre variables corrélation entre les variables : cosinus de l angle formé par les vecteurs distance entre individus C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 9 / 25

Analyse en composantes principales Application (5) C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 10 / 25

Analyse en composantes principales Application (5) C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 10 / 25

Analyse en composantes principales Application (6) Associé à un arbre de classification hiérarchique : plot ( hclust ( dist ( USArrests ))) C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 11 / 25

Analyse en composantes principales Remarques sur l ACP avec R fonction : princomp (plutôt que prcomp) 2 packages utiles : ade4 psy C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 12 / 25

Échelonnement multidimensionnel Objectifs du MDS ACP : représenter dans un espace de faible dimension des variables en préservant autant que possible les distances euclidiennes entre les observations des p variables initiales extension de cette technique à un type de variable plus spécifique, non nécessairement continues, et pour lesquelles la notion de distance euclidienne n a pas de sens 2 cas de figure : représenter graphiquement des données de type mesure de similitude ou de préférence adapter l ACP pour représenter les données non pas sur un plan mais sur une courbe ou un sous-espace : déploiement non-linéaire C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 13 / 25

Échelonnement multidimensionnel Analyse de similitudes ou de préférences Analyse de similitudes classement par niveau de similitude (subjectif) décroissant de modalités proches d une autre modalité représenter les similitudes entre variables à partir de la matrice de corrélation identifier des regroupements de modalités permettant de définir des situations particulières Analyse de préférences ACP sur un tableau n p regroupant des les rangs de préférence exprimés par les n individus pour chacune des p variables la première composante résumera «au mieux» l ensemble des préférences adaptation de la représentation graphique aux données ordinales C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 14 / 25

Analyse des correspondances Objectifs de l AC représenter graphiquement les associations entre 2 (AFC) ou plusieurs (ACM) variables qualitatives calcul de nouvelles coordonnées lignes/colonnes permettant de représenter l association entre variables par leur proximité dans un plan 2 façons de voir l AC sur le plan mathématique : méthode de décomposition de la statistique du χ 2 en différentes composantes correspondant à plusieurs dimensions de la variance entre les colonnes du tableau de contingence méthode pour assigner simultanément une échelle aux profils lignes et une autre échelle aux profils colonnes de façon à maximiser la corrélation entre ces deux échelles C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 15 / 25

Analyse des correspondances Rappels : le test du χ 2 associations entre les modalités de 2 variables qualitatives = écart à l indépendance tableau de contingence I J : représentation des effectifs observés (n ij ou O) et des effectifs théoriques (ñ ij, ou E) effectifs théoriques (indépendance entre lignes et colonnes du tableau des effectifs) : ñ ij = n i n j n on définit la distance du χ 2 comme suit : d 2 = (O E) 2 E χ 2 (I 1)(J 1) C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 16 / 25

Analyse des correspondances Exemple Consommation de caféine et statut marital (Dalgaard, 2002) : caff. marital <- matrix (c (652,1537,598,242,36,46,38,21,218,327,106,67), nrow =3, byrow =T) colnames ( caff. marital ) <- c("0"," 1-150 "," 151-300 "," >300") rownames ( caff. marital ) <- c(" Married "," Prev. married "," Single ") caff. marital 0 1-150 151-300 >300 Married 652 1537 598 242 Prev. married 36 46 38 21 Single 218 327 106 67 chisq. test ( caff. marital ) Pearson s Chi - squared test data : caff. marital X- squared = 51.6556, df = 6, p- value = 2.187 e -09 C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 17 / 25

Analyse des correspondances Exemple (2) E <- chisq. test ( caff. marital )$ expected E 0 1-150 151-300 >300 Married 705. 83179 1488. 01183 578. 06533 257. 09105 Prev. married 32. 85648 69. 26698 26. 90895 11. 96759 Single 167. 31173 352. 72119 137. 02572 60. 94136 O <- chisq. test ( caff. marital )$ observed (O-E)^2/E 0 1-150 151-300 >300 Married 4. 1055981 1. 612783 0. 6874502 0. 8858331 Prev. married 0. 3007537 7. 815444 4. 5713926 6. 8171090 Single 15. 3563704 1. 875645 7. 0249243 0. 6023355 C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 18 / 25

Analyse des correspondances Exemple (3) C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 19 / 25

Analyse des correspondances Principe général de l AFC utilisable avec des variables qualitatives (nominales) aucune condition de validité peut être dérivée de l ACP ou du MDS (optimisation de la représentation sptiale dans le cadre de données qualitatives, grâce à la distance du χ 2 ) chaque modalité est représentée par un point dans l espace 2D les valeurs propres ne permettent pas (contrairement au cas de l ACP) d estimer correctement la part de variance distinction entre variables actives et illustratives (utilisées après construction de la représentation) interprétation des axes en fonction de la position des modalités représentées sur le nuage des variables ou de leur contribution à l inertie et vérification de la qualité de représentation de chaque point sur les différents axes C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 20 / 25

Analyse des correspondances Interprétation lorsque les coordonnées pour les modalités en lignes et en colonnes sont larges et positives (ou négatives), cela indique une association entre la ligne i et la colonne j (n ij > ñ ij ) lorsque les coordonnées sont large en valeurs absolues mais de signe différent pour les lignes et les colonnes, il existe une association négative entre les lignes et les colonnes correspondantes (n ij < ñ ij ) lorsque le produit des coordonnées est proche de 0, l association est faible (n ij ñ ij ) C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 21 / 25

Analyse des correspondances Application (1) Couleur des yeux et couleur des cheveux, selon le sexe (ex. R) : library ( MASS ) data ( HairEyeColor ) HairEyeColor,, Sex = Male Eye Hair Brown Blue Hazel Green Black 32 11 10 3 Brown 38 50 25 15 Red 10 10 7 7 Blond 3 30 5 8,, Sex = Female Eye Hair Brown Blue Hazel Green Black 36 9 5 2 Brown 81 34 29 14 Red 16 7 7 7 Blond 4 64 5 8 C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 22 / 25

Analyse des correspondances Application (2) x <- HairEyeColor [,,1]+ HairEyeColor [,,2] corresp (x, nf = 2) First canonical correlation ( s): 0. 4569165 0. 1490859 Hair scores : [,1] [,2] Black -1.1042772 1. 4409170 Brown -0.3244635-0.2191109 Red -0.2834725-2.1440145 Blond 1. 8282287 0. 4667063 Eye scores : [,1] [,2] Brown -1.0771283 0. 5924202 Blue 1. 1980612 0. 5564193 Hazel -0.4652862-1.1227826 Green 0. 3540108-2.2741218 C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 23 / 25

Analyse des correspondances Application (3) biplot ( corresp (x, nf = 2)) C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 24 / 25

Analyse des correspondances Remarques distance entre les colonnes i et j : d J ij = J k=1 avec p k = n k n distance entre les lignes i et j : d I ij = I k=1 1 p k (p ki p kj ) 2 1 p k (p ik p jk ) 2 avec p k = n k n l AC revient à faire du MDS sur chaque matrice de distance (lignes et colonnes) et à représenter graphiquement les deux premières coordonnées pour les modalités en colonnes et celles pour les modalités en lignes sur le même plan C. Lalanne (CIEP) Analyse exploratoire des données juillet 2007 25 / 25