Analyse des données et Data Mining Analyse en composantes principales utc sy09 1
Objectif des méthodes factorielles Visualiser, traiter des données multidimensionnelles Problème difficile Information apportée par ces variables souvent redondante Exploiter cette redondance pour remplacer les variables initiales par un nombre réduit de nouvelles variables sans perdre trop d information Remplacer plusieurs variables par une seule : démarche habituelle : Moyenne àl école QI répartition des hommes politiques sur l axe droite-gauche Mieux à faire : conserver un aspect multidimensionnel Psychologues américains (Spearman, Burt, Thurstone) Données : résultats à des tests psychologiques Objectif ; facteur général d aptitude + facteurs spécifiques (mémoire, intelligence,...) utc sy09 2
Exemple de l analyse en composantes principales Variables quantitatives Nouvelles variables = combinaisons linéaires des variables initiales Non corrélées Géométriquement : chercher les droites, les plans et de manière plus générale les variétés linéaires proches du nuage des individus K. Pearson (1900) : 2 variables H. Hotelling (1933) : plus de 2 variables de variables. Référence récente : Jackson (1991) utc sy09 3
Les différentes méthodes factorielles Dépendent de la forme des données Mêmes bases mathématiques Différent de «factor analysis» Anglo-saxons Statistiques inférentielles s appuyant sur un modèle statistique Assez peu utilisées en France ACP : tableaux de variables quantitatives AFC : tableaux de contingence ACM : tableaux de variables qualitatives AFTD : tableaux de proximités AFD : Variable à discriminer utc sy09 4
Les données X tableau individus, variables quantitatives Nuage N(Ω) de R p muni de la métrique euclidienne X centré en colonne Matriciellement : X = Y 1 n Y si Y est la matrice initiale utc sy09 5
Formulation du problème Représentation fidèle du nuage des individus dans un espace plus simple : Espaces choisis : Droite, plan,... Espace affine de dimension de petite dimension Il faut fixer la dimension k<p Il existe des extensions à d autres types d espaces Type de représentation : Projection orthogonale Fidélité : Minimisation des «écarts» entre les points du nuage et leurs projections Minimisation de l inertie par rapport à l espace affine utc sy09 6
Formulation mathématique Pb1 : Trouver le sous-espace affine E k de dimension k tel que I Ek Théorème de Huygens : E k g g =0 E k sous-espace vectoriel De plus I Ek + I E k = I = cste Pb2 : Trouver le sous-espace vectoriel E k t.q. I E k soit maximum k = 1 : droite des moindres carrés ACP : régression orthogonale Différent de la droite de régression de y par rapport à x Différent de la droite de régression de x par rapport à y soit minimum utc sy09 7
Résolution du problème : axes factoriels Décomposition spectrale de la matrice de variance S = 1 n XX S sym. 0 diagonalisable, valeurs propres 0, vecteurs propres λ 1... λ p valeurs propres ordonnées u 1,...,u p les vecteurs propres normés correspondant : base orthonormée Solution : les propriétés spectrales permettent de montrer que les sous-espaces recherchés sont définis de la façon suivante : E 1 = u 1 ; E 2 = E 1 u 2... E k = E k 1 u k En outre : I u k = λ k u k : axe factoriel (ou axe principal d inertie) utc sy09 8
Résultats pratiques La recherche des sous-espaces E k est donc obtenue de la façon suivante : Diagonaliser S Ordonner les vecteurs propres dans l ordre décroissant des valeurs propres Normaliser des vecteurs propres Notations matricielles : Matrice des vecteurs propres U =(u 1,...,u p ) Matrice diagonale des valeurs propres L =diag(λ 1,...,λ p ) Remarque : UU = I U SU = L SU = UL utc sy09 9
Inerties expliquées On a I u k = λ k E k = u 1... u k et u k orthogonaux D où I E k = λ 1 +...+ λ k Remarques pour k = p : on retrouve I = trace(s) Si r est le rang de la matrice X(r min(p, n)) : λ 1,...,λ r > 0 et λ r+1,...,λ p =0 On a donc I E r = I : le nuage est donc dans E r utc sy09 10
Choix du nombre k d axes à retenir Avec le pourcentage d inertie pourcentage d inertie expliquée par E 1 = 100 λ 1 p α=1 λ = 100 λ 1 ; α trace(s) pourcentage d inertie expliquée par E 2 = 100 (λ 1+λ 2 ) p α=1 λ α... ; = 100 (λ 1+λ 2 ) trace(s) ; pourcentage d inertie expliquée par E k = 100 (λ 1+λ 2 +...λ k ) p α=1 λ α = 100 (λ 1+λ 2 +...λ k ) trace(s) Méthode graphique du «coude» Utilisation de tests : par exemple H 0 : λ k+1 =... = λ p utc sy09 11
Composantes Principales Définition Pb initial : représenter les individus dans un espace de petite dimension E k Comment obtenir cette représentation? Coordonnées d un individu i sur E k : c 1 i...,cα i,...,ck i où cα i est la position de i sur l axe α Composantes principales : c α =(c α 1,...,c α n) Pour tracer le plan factoriel (α, β), il suffit de calculer c α et c β Pour α>r,onac α = 0 (inertie expliquée nulle) i Ω (cα i )2 Expression des valeurs propres λ α = I uα = 1 n Calcul des composantes principales : projection des x i sur les vecteurs de base c α i =< x i, u α >= x iu α ou encore c α = Xu α Matriciellement si C =(c1,...,c p ): C = XU utc sy09 12
Composantes principales : nouvelles variables c α associe à chaque individu une valeur réelle : nouvelle variable Propriétes combinaisons linéaires des variables x j centrées, de variance λ α et non corrélées Vecteurs propres de 1 n XX, matrice des produits scalaires avec les valeurs propres λ α Autre interprétation de l ACP : Trouver k nouvelles variables, combinaisons linéaires normées ( u α =1)desp variables centrées initiales, non corrélées deux à deux et de variance maximum Solution : vecteurs propres normées de la matrice 1 n XX : c α Diagonaliser XX ou X X? utc sy09 13
Formule de reconstitution p r X = CU ou X = = c α u α = c α u α α=1 α=1 Décomposition de la matrice X en une somme de matrices de rang 1 «Reconstitution» de X avec les composantes principales et les axes factoriels Approximation : X X = k c α u α = CŨ. α=1 Relation quelquefois utilisée pour compresser les données utc sy09 14
Qualité delareprésentation Qualité globale : pourcentage d inertie pris en compte par E k λ 1 +...+ λ k trace(s).100 Contribution d un axe à un individu : proportion de l inertie de l individu conservée sur l axe Inertie de l individu : 1 n x i 2 (I = p i=1 1 n x i 2 ) Inertie de l individu sur l axe : 1 n (ci α) 2 Contribution COR(i, α) = (cα i )2 x i 2 Carré du cosinus de l angle (x i, u α ) Varie de 1 (i bien représenté) à0(i mal représenté) Généralisation : contribution relative de E k k k α=1 QLT (i, k) = (cα i )2 x i 2 = COR(i, α) utc sy09 15 i=1
Qualité de la représentation (suite) Contribution d un individu à un axe: proportion d inertie de l axe apportée par un individu Inertie de l axe Contribution I uα = λ α = 1 n CTR(i, α) = n (c α i ) 2 i=1 1 n (cα i )2 λ α utc sy09 16
Représentation des variables Objectif : visualiser les corrélations x j, x j et les corrélations c α, x j Représentation des variables normées ( cercle des corrélations) : les corrélations x j, x j seront visualisées par les cosinus Les composantes principales normées v α = 1 λα c α forment une base orthonormée de l espace vectoriel engendré par les variables initiales Dans cette base : les coordonnées des variables normées sur les axes sont les corrélations c α, x j Calcul des coordonnées : d j α = cor(x j, c α ) ou encore D = D 1 σ UL1 2 Qualité de représentation : dépend de la position des projections par rapport au cercle de corrélations utc sy09 17
Les éléments supplémentaires (ou illustratifs) Représentation d individus ou de variables n ayant pas participé à l analyse Principe : leur appliquer les mêmes transformations que celles qui ont été appliquées aux individus ou aux variables de départ Individu supplémentaire : coordonnée sur l axe u α de l individu y s : centrage en colonne : x s = y s x =(y 1 s x 1,...,y p s x p ) Projection sur l axe : < x s, u α >= x su α Variable supplémentaire : coordonnée sur l axe v α de la variable s s Centrage en colonne : x s =(y s 1 y s,...,y s p y s ) Projection sur l axe : < x s, v α > Dp =(x s ) D p c α λα utc sy09 18
Les éléments supplémentaires : utilisation Représentation d individus dont la fiabilité est suspecte Représentation d individus prenant des valeurs atypiques qui prendraient une part trop prépondérante à la formation des axes s ils étaient pris en compte Représentation d un groupe d individus par leur centre de gravité Représentation d éléments de natures différentes des éléments initiaux : variables actives : notes scolaires et variables supplémentaires : notes de tests psychologiques Individus actifs : malades et individus supplémentaires : personnes saines utc sy09 19
Exemple d ACP : Les données math scie fran lati d-m jean 6.0 6.0 5.0 5.5 8 aline 8.0 8.0 8.0 8.0 9 annie 6.0 7.0 11.0 9.5 11 monique 14.5 14.5 15.5 15.0 8 didier 14.0 14.0 12.0 12.5 10 andré 11.0 10.0 5.5 7.0 13 pierre 5.5 7.0 14.0 11.5 10 brigitte 13.0 12.5 8.5 9.5 12 evelyne 9.0 9.5 12.5 12.0 18 Moy. 9.67 9.83 10.22 10.05 11 Données initiales math scie fran lati dess -3.67-3.83-5.22-4.55-3 -1.67-1.83-2.22-2.05-2 -3.67-2.83 0.78-0.55 0 4.83 4.67 5.28 4.95-3 4.33 4.17 1.78 2.45-1 1.33 0.17-4.72-3.05 2-4.17-2.83 3.78 1.45-1 3.33 2.67-1.72-0.55 1-0.67-0.33 2.28 1.95 7 0 0 0 0 0 Données centrées utc sy09 20
Matrice de variance S = 1 9 X X = math scie fran lati dess math 11.389 scie 9.917 8.944 fran 2.657 4.120 12.062 lati 4.824 5.481 9.293 7.914 dess 0.111 0.056 0.389 0.667 8.667 Valeurs propres Axes factoriels Inertie % d inertie % d inertie expliquée expliquée cumulée 28.2533 57.69 57.69 12.0747 24.65 82.34 8.6157 17.59 99.94 0.0217 0.04 99.98 0.0099 0.02 100.00 u 1 u 2 u 3 u 4 u 5 0.51 0.57-0.05 0.29-0.57 0.51-0.37-0.01-0.55 0.55 0.49 0.65 0.11-0.39-0.41 0.48 0.32 0.02 0.67 0.45 0.03 0.11-0.99-0.03-0.01 utc sy09 21
Contributions relatives des axes aux individus Contributions relatives des individus aux axes 1 2 3 4 5 jean 0.89 0.03 0.08 0.00 0.00 aline 0.80 0.03 0.17 0.00 0.00 annie 0.46 0.53 0.00 0.00 0.00 monique 0.89 0.00 0.11 0.00 0.00 didier 0.88 0.10 0.02 0.00 0.00 andré 0.24 0.58 0.19 0.00 0.00 pierre 0.03 0.91 0.07 0.00 0.00 brigitte 0.17 0.74 0.09 0.00 0.00 evelyne 0.05 0.20 0.75 0.00 0.00 1 2 3 4 5 jean 0.30 0.03 0.09 0.11 0.15 aline 0.06 0.00 0.04 0.04 0.02 annie 0.04 0.11 0.00 0.15 0.00 monique 0.37 0.00 0.14 0.15 0.11 didier 0.15 0.04 0.02 0.03 0.40 andré 0.03 0.20 0.09 0.00 0.25 pierre 0.00 0.36 0.04 0.07 0.02 brigitte 0.02 0.15 0.03 0.30 0.00 evelyne 0.01 0.11 0.56 0.14 0.04 utc sy09 22
Composantes principales 1 2 3 4 5 jean -8.70-1.70 2.55 0.16 0.11 aline -3.94-0.72 1.81 0.09-0.04 annie -3.22 3.47 0.29-0.18-0.02 monique 9.75 0.22 3.54 0.18-0.09 didier 6.37-2.17 0.96-0.07 0.18 andré -2.97-4.65-2.64 0.02-0.16 pierre -1.05 6.21 1.67-0.11-0.04 brigitte 1.99-4.07-1.41-0.25 0.00 evelyne 1.77 3.40-6.62 0.15 0.07 Analyse dans R n F1 F2 F3 F4 F 5 math 0.81-0.58-0.04 0.01-0.02 scie 0.90-0.43-0.01-0.03 0.02 fran 0.75 0.65 0.09-0.02-0.01 lati 0.92 0.40 0.02 0.04 0.02 d-m 0.06 0.13-0.99 0.00 0.00 utc sy09 23
ACP : Exemple des notes (variables) 1 fran 0.5 lati Axe 2 0 d m 0.5 math scie 1 1 0.5 0 0.5 1 Axe 1 utc sy09 24
ACP : Exemple des notes (variables) 1 0.5 Axe 3 0 fran math scie lati 0.5 1 d m 1 0.5 0 0.5 1 Axe 1 utc sy09 25
ACP : Exemple des notes (individus) 6 pier 5 4 3 anni evel 2 Axe 2 1 0 moni 1 alin 2 3 jean didi 4 brig andr 8 6 4 2 0 2 4 6 8 10 Axe 1 utc sy09 26
3 2 jean alin ACP : Exemple des notes (individus) pier moni 1 didi 0 anni Axe 3 1 2 3 andr brig 4 5 6 evel 8 6 4 2 0 2 4 6 8 10 Axe 1 utc sy09 27
Taille du cerveau et intelligence Référence : Reference : Willerman, L., Schultz, R., Rutledge, J. N., and Bigler, E. (1991), In Vivo Brain Size and Intelligence, Intelligence, 15, 223-228. Description : 40 étudiants en psychologie et 7 variables Sexe 3 mesures d intelligence FSIQ : Full Scale IQ scores based on the four Wechsler (1981) subtests VIQ : Verbal IQ scores based on the four Wechsler (1981) subtests PIQ : Performance IQ scores based on the four Wechsler (1981) subtests Weight : taille de l étudiant Height : poids de l étudiant MRI (Magnetic Resonance Imaging) : taille du cerveau utc sy09 28
Les données FSIQ VIQ PIQ W H MRI 1F 133 132 124 118 65 816932 2M 140 150 124 118 73 1001121 3M 139 123 150 143 73 1038437 4M 133 129 128 172 69 965353 5F 137 132 134 147 65 951545 6F 99 90 110 146 69 928799 7F 138 136 131 138 65 991305 8F 92 90 98 175 66 854258 9M 89 93 84 134 66 904858 10M 133 114 147 172 69 955466 11F 132 129 124 118 65 833868 12M 141 150 128 151 70 1079549 13M 135 129 124 155 69 924059 14F 140 120 147 155 71 856472 15F 96 100 90 146 66 878897 16F 83 71 96 135 68 865363 17F 132 132 120 127 69 852244 18M 100 96 102 178 74 945088 19F 101 112 84 136 66 808020 20M 80 77 86 180 70 889083 FSIQ VIQ PIQ WEIG HEIG MRI 21M 83 83 86 180 70 892420 22M 97 107 84 186 77 905940 23F 135 129 134 122 62 790619 24M 139 145 128 132 68 955003 25F 91 86 102 114 63 831772 26M 141 145 131 171 72 935494 27F 85 90 84 140 68 798612 28M 103 96 110 187 77 1062462 29F 77 83 72 106 63 793549 30F 130 126 124 159 67 866662 31F 133 126 132 127 63 857782 32M 144 145 137 191 67 949589 33M 103 96 110 192 76 997925 34M 90 96 86 181 69 879987 35F 83 90 81 143 67 834344 36F 133 129 128 153 67 948066 37M 140 150 124 144 71 949395 38F 88 86 94 139 65 893983 39M 81 90 74 148 74 930016 40M 89 91 89 179 76 935863 utc sy09 29
Corrélations FSIQ VIQ PIQ WEIG HEIG MRI FSIQ 1.00 0.95 0.93 0.13 0.10 0.36 VIQ 0.95 1.00 0.78 0.16 0.08 0.34 PIQ 0.93 0.78 1.00 0.05 0.09 0.39 WEIG 0.13 0.16 0.05 1.00 0.63 0.43 HEIG 0.10 0.08 0.09 0.63 1.00 0.60 MRI 0.36 0.34 0.39 0.43 0.60 1.00 ACP : valeurs propres 1 2 3 4 5 6 Variance 2.97 2.09 0.453 0.287 0.189 0.0026 Pourc. de variance 49.57 34.90 7.549 4.790 3.146 0.0432 Pourcentage cumulé 49.57 84.47 92.021 96.810 99.957 100.0000 utc sy09 30
ACP (correlation) : Taille du cerveau (variables) 1 MRI HEIG WEIG 0.5 PC 2 0 PIQ FSIQ VIQ 0.5 1 utc sy09 31 1 0.5 0 0.5 1 PC 1
ACP (correlation) : Taille du cerveau (individus) 28 3 33 2 18 22 40 1 12 3 26 32 104 34 39 2120 PC 2 0 1 2 37 24 7 5 13 14 36 30 17 6 15 19 8 9 38 16 35 27 2 3111 25 1 29 23 3 2 1 0 1 2 3 utc sy09 PC 1 32
ACP (correlation) : Taille du cerveau (individus) 3 f m 2 1 PC 2 0 1 2 3 2 1 0 1 2 3 utc sy09 PC 1 33
Fichier notes.rd math scie fran lati d-m jean 6.0 6.0 5.0 5.5 8.0 aline 8.0 8.0 8.0 8.0 9.0 annie 6.0 7.0 11.0 9.5 11.0 monique 14.5 14.5 15.5 15.0 8.0 didier 14.0 14.0 12.0 12.5 10.0 andre 11.0 10.0 5.5 7.0 13.0 pierre 5.5 7.0 14.0 11.5 10.0 brigitte 13.0 12.5 8.5 9.5 12.0 evelyne 9.0 9.5 12.5 12.0 18.0 Y <- as.matrix(data) n <- dim(y)[1] Programme R # Centrage du tableau X <- Y-matrix(1,n,1)%*% apply(y,2,mean) # Reduction du tableau (eventuellement) #X <- X/matrix(1,n,1)%*% apply(x,2,sd) # Calcul de la matrice de covariance ou de correlation S <- (1/n)*t(X)%*%X # Calcul des valeurs propres et des axes d inertie tmp<-eigen(s,symmetric=true) L <- diag(tmp$values) U <- tmp$vectors # Calcul des composantes principales des individus C <- X%*% U # Représentation des variables D <- diag(1/(sqrt((n-1)/n)*sd(x))) %*% U %*% sqrt(l) # Calcul des contributions COR <- diag(1/apply(x^2,1,sum))%*% C^2 CTR <- (1/n)*C^2 %*% diag(1/diag(l)) # Tracé des graphiques plot(c[,1],c[,2],type="n") text(c[,1],c[,2],rownames(data));abline(h=0);abline(v=0) plot(c[,1],c[,3],type="n") text(c[,1],c[,3],rownames(data));abline(h=0);abline(v=0) plot(-1:1,-1:1,type="n",xlab= Axe 1,ylab= Axe 2 ) text(d[,1],d[,2],colnames(data));abline(h=0);abline(v=0) curve(sqrt(1-x^2),-1,1,add=true) curve(-sqrt(1-x^2),-1,1,add=true) plot(-1:1,-1:1,type="n",xlab= Axe 1,ylab= Axe 3 ) text(d[,1],d[,3],colnames(data));abline(h=0);abline(v=0) curve(sqrt(1-x^2),-1,1,add=true) curve(-sqrt(1-x^2),-1,1,add=true) utc sy09 34