Analyse en composantes principales

Transcription

1 5MS04 - Analyse des données Master 2 spécialité Statistiques Université Pierre et Marie Curie Analyse en composantes principales et une courte introduction à l analyse des correspondances Bertrand MICHEL [email protected]

2 La décomposition en valeurs singulières Singular Value Decomposition (SVD) Théorème 1. Pour X M(n, D) de rang r, il existe : des réels positifs µ 1 µ r > 0, une famille orthonormée U = [u 1,..., u r ] de R D, une famille orthonormée V = [v 1,..., v r ] de R n tels que X = V Diag(µ 1,..., µ r )U = µ s v s u s. s=1...r De plus, pour tout d r, la matrice X d = s=1...d µ sv s u s vérifie : X X d F = min X B F = µ 2 s B M n,d rang(b)=d s=d+1...r où F est la norme de Frobenius : M 2 F = i,j M 2 i,j = Tr(M M)

3 La décomposition en valeurs singulières Singular Value Decomposition (SVD) Diagonalisation de la matrice de covariance via la SVD de X : ns = X X = µ 2 su s u s s=1...r et les u s sont des vecteurs propres (normés) de la matrice X X relatifs aux valeurs propres µ 2 1,..., µ 2 r. Diagonalisation de la matrice de Gram via la SVD de X : G = XX = µ 2 sv s (v s ) s=1...r et les v s sont des vecteurs propres (normés) de la matrice XX relatifs aux valeurs propres µ 2 1,..., µ 2 r. Dualité entre les deux problèmes Xu s = µ s v s et X v s = µ s u s.

4 Dans la suite, on suppose que la matrice de données X a été préalablement centrée : x = 0. ACP : position du problème Individus x 1,..., x i,..., x n en lignes, Variables quantitatives numériques x 1,..., x j,..., x D en colonnes. x x D 1... x 1 n... x D n L ACP : méthode d exploration des données qui vise : La représentation graphique des variables dans un sous-espace explicitant au mieux les liaisons entre les variables ; La représentation graphique optimale des individus dans un sous-espace de dimension q de R D, en déformant le moins possible le nuage de points initial ; La réduction de dimension, la compression de données.

5 ACP : Nuages de X et métriques La matrice de X définit deux nuages : N ind : le nuage des points individus dans R D. N var : le nuage des points variables dans R n. Pour résumer les données, on cherche pour un entier d fixé : le s.e.v. E d de dim. d dans R D qui s ajuste le mieux sur N ind, le s.e.v. F d de dim. d dans R n qui s ajuste le mieux sur N var. Métriques choisies : R D est muni du produit scalaire usuel : < x i, x l >= j=1...d xj i xj l R n est muni du produit scalaire des poids tous égaux : < x j, x k > n := 1 n On note n la norme associée. i=1...n x j i xk i.

6 ACP : Nuages de X et métriques Grâce au recentrage de la matrice X et au choix de p.s. dans R n : < x j, x k > n = 1 n (xj ) x k = cov(x j, x k ) = cor(x j, x k ) pour l ACP normée x j x k 2 n = var x j + var x k 2 cov(x j, x k ) [ ] = 2 1 cor(x j, x k ) pour l ACP normée En ACP normée, la distance entre variables s interprète en terme de colinéarité :

7 ACP : inertie du nuage des individus L inertie généralise la notion de dispersion pour un nuage de points (individus) dans R D : I(X) := 1 n i=1...n x i 2 = 1 n X F = 1 n tr(xx ) = tr(s) Dans l espace des variables (R n, n ), on définit l inertie d un nuage par D I (N var ) := x j 2 n On a bien I (N var ) = I (N ind ) j=1

8 ACP : Ajustement d un sous-espace vectoriel sur N ind On cherche un s.e.v. E d de R D qui approche au mieux le nuage N ind pour la norme usuelle. Par Pythagore : D où : Minimiser 1 n x i 2 = x i P Ed (x i ) 2 + P Ed (x i ) 2 i=1...n ( ) x i P Ed (x i ) 2 Maximiser I PEd (N ind) On considère la décomposition en valeurs singulières de X : X := µ s v s u s. s=1...r L inertie de la projection orthogonale de N ind sur un s.e.v. E d est maximale pour Êd := Vect(u 1,..., u d ). De façon équivalente : l ajustement sur le nuage de points N ind est optimal pour Êd.

9 ACP : Ajustement d un sous espace vectoriel sur N var On cherche cette fois un s.e.v. F d de R n qui approche au mieux le nuage N var pour la norme n. Par Pythagore : D où Minimiser x j 2 n = x j P Fd (x j ) 2 n + P Fd (x j ) 2 n j=1...d ( ) x j P Fd (x j ) 2 n Maximiser I PEd (N var) On considère la SVD de X : X := r µ s v s u s. s=1 L ajustement sur N var est optimal pour ˆF d := Vect(v 1,..., v d ). Attention : v s 2 n = 1 n, on définit donc ṽs = nv s et ṽ s 2 n = 1.

10 ACP : solutions et dualité des deux problèmes d ajustement Dans R D : les vecteurs propres de S = 1 n X X sont les u s pour les valeurs propres λ s := 1 n µ2 s : Su s = 1 n X Xu s = 1 n µ2 su s. Dans R n : les vecteurs propres de la matrice de Gram XX sont les v s pour les valeurs propres µ 2 s : XX v s = µ 2 sv s. En général n > D et la solution la moins coûteuse algorithmiquement est de passer par la diagonalisation de S.

11 ACP : solutions et dualité des deux problèmes d ajustement Par la SVD de X : Xu s = µ s v s et X v s = µ s u s. Composantes principales : coordonnées des projections des points individus sur l axe factoriel porté par u s : Ψ s := < x 1, u s >. < x n, u s > = Xu s = µ s v s = λ s ṽ s. Coordonnées des projections des variables sur l axe factoriel porté par v s ou ṽ s : Φ s := < x 1, ṽ s > n. < x p, ṽ s > n = 1 n X ṽ s = 1 n X v s = λ s u s.

12 ACP : Bilan de l ACP

13 ACP : Bilan de l ACP On dispose initialement d un tableau de données brutes R = (r ij ) de taille n D. On distingue 2 types d analyse en composantes principales (ACP) : l ACP non normée : analyse du tableau centré X = R r ; l ACP normée : analyse du tableau centré réduit X = ( r j i rj var(r j ) ). i,j Trouver des projections des nuages N ind et N var sur des sous-espaces vectoriels de dimensions inférieures, qui conservent un maximum d information c est-à-dire d inertie, conduit à considérer la décomposition en valeurs singulières de X : X := r µ s v s u s. s=1

14 ACP : Bilan de l ACP X := r µ s v s u s s=1 Les vecteurs u s sont les vecteurs propres de S pour les valeurs propres λ s := 1 n µ2 s et on peut d ailleurs les déterminer de cette façon. On peut ensuite trouver les v s grâce à la relation Xu s = µ s v s. La solution de l ACP est finalement donnée par la projection du nuage N ind sur Êd := Vect(u 1,..., u d ), la projection du nuage N var sur ˆF d := Vect(v 1,..., v d ). Les coordonnées des projections des individus sur le s-ième axe factoriel se lisent dans le vecteur Ψ s = λ s v s. De même, les coordonnées des projections des variables sur le s-ième axe factoriel se lisent dans le vecteur Φ s = λ s u s. L ACP est une projection orthogonale bien choisie, il s agit donc d une méthode de réduction de dimension de type linéaire.

15 Une seconde formulation du problème de l ACP On a défini la s-ième composante principale comme le vecteur des coordonnées des points individus x i sur l axe factoriel dirigé par u s. On a Ψ s = Xu s = λ s ṽ s et le vecteur Ψ s R n peut aussi être considéré comme une variable. Proposition 1. Les composantes principales sont orthogonales (ou non corrélées) deux à deux : cov(ψ s, Ψ t ) = λ s δ s,t En particulier, var(ψ s ) = µ2 s n = λ s.

16 Une seconde formulation du problème de l ACP Seconde formulation du problème de l ACP : on cherche une famille de nouvelles variables ( Ψ s ) s=1,...,d de R n telle que : chaque Ψ s soit une combinaison linéaire des x j : Ψ s = Xα s avec α s = 1 ; les Ψ s ne soient pas corrélés entre eux : cov( Ψ s, Ψ t ) = 0 si s t ; les variances var( Ψ s ) soient maximales (d où la contrainte α s = 1). Proposition 2. Les composantes principales Ψ s sont solutions (pour α s = u s ) de cette seconde formulation du problème de l ACP.

17 Une seconde formulation du problème de l ACP Cette seconde approche montre bien que la matrice de variance-covariance S de X permet de décrire la géométrie du nuage des individus. En effet, les facteurs u s sont les vecteurs propres normés de S et sont tels que : les facteurs u s sont dirigés dans R n dans les directions où le nuage est le plus étalé, les facteurs u s sont orthogonaux, la dispersion des données dans ces directions est mesurée par les valeurs propres de S : var(ψ s ) = var(xu s ) = λ s.

18 Pratique de l ACP : plans factoriels On analyse le nuage des individus en projetant ces derniers sur les premières directions factorielles : Ces représentations permettent de résumer de façon optimale la géométrie du nuage. Elles permettent aussi de déceler d éventuels outliers, que l on pourra alors retirer des données pour procéder à une nouvelle ACP.

19 Pratique de l ACP (cf TPs) 2D-proj : left-right pose 3D-proj : light 2D-proj : up-down pose

20 Pratique de l ACP : qualité de la représentation L inertie du nuage peut aussi être décomposée de la façon suivante : I (N ind ) = tr(s) = λ λ D = λ λ r car λ s = 0 pour s > r = D pour l ACP normée La qualité globale de la représentation pour une projection sur Êd se mesure par le ratio d inertie conservé par la projection : ratio d := I ( P Êd (N ind ) ) = λ λ d. I(N ind ) λ λ r La qualité de la représentation de l individu x i projeté sur Êd peut être mesurée par le cosinus carré suivant : cos 2 [ θ(x i, P Êd x i ) ] = PÊ d x i 2 x i 2 = d s=1 (Ψs i )2 r s=1 (Ψs i )2.

21 Pratique de l ACP : contributions des individus L inertie du nuage peut aussi être décomposée de la façon suivante : I (N ind ) = λ λ p = 1 n x i 2 = 1 n r (Ψ s i ) 2. n n i=1 i=1 s=1 La contribution de l individu i à l inertie totale du nuage vaut 1 n γ i = x i 2 1 r I (N ind ) = n s=1 (Ψs i )2. λ λ p Puisque var(ψ s ) = λ s = 1 n n (Ψ s i ) 2, la contribution de l individu i à la variance de la s-ième composante principale vaut 1 n γ i s = (Ψs i )2. λ s i=1

22 On peut aussi calculer comme précédemment la qualité de la représentation de z. Pratique de l ACP : Représentation d individus supplémentaires On appelle individu supplémentaire tout individu qui n a pas été pris en compte pour le calcul de l ACP (i.e. pour la diagonalisation de S). On peut représenter des individus supplémentaires en les projetant dans les plans factoriels. Soit z un tel individu, on recentre z : z = z x (et on réduit dans le cas de l ACP normé). Les coordonnées de la projection de z sur chacun des axes factoriels valent Ψ s z := u s z.

23 Pratique de l ACP : Cercle des corrélations On analyse le nuage des variables en projetant ces dernières sur les premières directions factorielles : Dans le cas de l ACP normée, on a x j 2 n = 1 pour tous les j et la projection des individus sur tout plan factoriel (ṽ s, ṽ t ) est nécessairement à l intérieur du cercle.

24 Coordonnées des variables projetées et corrélation Rappel : Φ s = ( ) Φ 1 s,..., Φ D s est le vecteur des coordonnées de chacune des D variables sur le s-ième axe factoriel dirigé par ṽ s ; on a φ j s = 1 n ( x j ) ṽs = cov(x j, ṽ s ) = cor(x j, ṽ s ) pour l ACP normée L inertie du nuage des variables projetées sur F d se décompose alors de la façon suivante : I ( ) D PˆFd N var = var(x j ) [cor(x j, ṽ 1 ) cor(x j, ṽ d ) 2] = j=1 D cor(x j, ṽ 1 ) cor(x j, ṽ d ) 2 j=1 ACP normée Comme pour l analyse du nuage des individus, on définit des indicateurs pour mesurer la qualité des représentations ainsi que les contributions de chacune des variables.

25 Qualité de la représentation des variables (ACP normée) La qualité de la représentation de la variable x j projetée sur ˆF q vaut cos 2 [ θ(x j, PˆFq xj ) ] = PÊ qx j 2 n x j 2 n = q s=1 ( cor(x j, ṽ s ) ) 2 r s=1 (cor(xj, ṽ s )) 2. la variable x 1 est bien représentée, elle très corrélée avec ṽ 1 (ou Ψ 1 ), peu avec ṽ 2 (ou Ψ 2 ). la variable x 2 est bien représentée, elle très corrélée avec ṽ 2 (ou Ψ 2 ), peu avec ṽ 1 (ou Ψ 1 ). la variable x 3 est mal représentée dans ce plan factoriel, elle est peu corrélée avec ṽ 1 et v 2.

26 Si les variables sont de type catégoriel Avec l ACP : on peut représenter une variable catégorielle en projetant les barycentres des sous-nuages (une modalité de la variable = un sous-nuage) sur chacun des axes factoriels. Cependant, les variables catégorielles ne sont alors que des variables illustratives. Autrement dit, elles n entrent pas en jeu dans la formation des composantes principales.

27 L analyse factorielle des correspondances (AFC) L AFC est une ACP sur un tableau de contingence (2 variables catégorielles). L AFC est un raffinement du test du χ 2. On étudie l AFC sur un exemple. Données : Nombre de médailles obtenues aux JO sur 5 olympiades (1992 à 2008) Pays Tableau de contingence : alg aus bah bar bdi blr bra brn can chn cub cze den 10000m m mH m m km mSteeple m mH x100m x400m m km m Decathlon

28 L analyse factorielle des correspondances (AFC) Le test d indépendance du χ 2. Soient Y et Z à valeurs dans {y 1,..., y L } et {z 1,..., z H }. On observe un n-échantillon de (Y, Z). Pour l {1..., L} et h {1..., H}, on définit N l, = card {i; Y i = y l }, N,h = card {i; Z i = z h }, N l,h = card {i; y i = y l, Z i = z h }. La matrice des N l,h est le tableau de contingence des observations de (Y, Z). Sous l hypothèse d indépendance, on s attend à ce que les proportions observées vérifient N,h f l,h := N l,h n N l, n n =: f l, f,h. Stat du test du χ 2 : Φ 2 := n (f l,h f l, f,h ) 2 l=1...l h=1...h f l, f,h. Sous hypothèse d indépendance, Φ 2 χ 2 ((H 1)(L 1)).

29 L analyse factorielle des correspondances (AFC) L AFC résumée en 4 points : on considère ( le nuage des profils lignes fl,1,..., f ) l,h,... pour la ligne l f l, f l, On introduit la métrique du χ 2 entre profils lignes : H ( 1 fi,h d χ 2(i, l) := f ) 2 l,h. f,h f i, f l, h=1 L inertie (pondérée) associée vérifie f l, d χ 2(G H, l) = nφ 2 l=1...l où G H est le profil moyen des colonnes. de même pour le nuage des profils colonnes. La solution de l ACP (i.e. la recherche d axes orthogonaux d inertie max) est donnée par une SVD de la matrice des profils centrés (pour d χ 2).

30 L analyse factorielle des correspondances (AFC)

31 L analyse des correspondances multiples L analyse des composantes multiples permet de traiter le cas de p variables catégorielles. En bref : On considère le tableau disjonctif complet. On définit une distance adéquate entre modalités ainsi qu une distance entre individus. On résout l ACP correspondante. On projette sur les plans factoriels toutes les modalités de toutes les variables.