Analyse en Composantes Principales

Plan du cours Analyse en Composantes Principales Introduction Les données Leurs représentations La méthode Modèle Interprétation statistique Espace principal Composantes Principales Représentations Graphiques Individus (qualité globale et individuelle) Variables (qualité de représentation et interprétation) Choix de dimension Part d inertie Eboulis des valeurs propres Pratique de l Préparation des mesures................................... TP N o 2 Scilab Interprétation des résultats................................ TP N o 2 Scilab Bibliographie enib c mp2003-2004.... 1

' $ Introduction 1. Les donne es p variables statistiques Y j, (j = 1 p), n individus affecte s des poids wi, (i = 1 n). n X i = 1 n : wi > 0 et wi = 1 ; yij i = 1 n : y11...... Y = yi1...... yn1... i=1 j = Y (i), mesure de Y j sur le ie me individu. y1j... y1p...... j yi... yip....... ynj... ynp 2. Leurs repre sentations espace des individus : E = (IRp, E, M ) espace des variables : F = (IRn, F, D), avec D = diag(w1,, wn ) 3. La me thode repre sentations graphiques optimales de E et F & c mp2003-2004.... 2 enib %

Modèle 1. Interprétations statistiques variables centrées (vecteurs de F ). longueur d un vecteur écart-type, cosinus d un angle corrélation. 2. Espace principal Observation = Modèle + Bruit. Les u k sont les vecteurs propres D-orthonormés de la matrice XMX D associés aux valeurs propres λ k rangées par ordre décroissant. Les v k, appelés vecteurs principaux, sont les vecteurs propres M-orthonormés de la matrice X DXM = SM associés aux mêmes valeurs propres ; axes principaux = vect{v k }. Espace principal : Êq = vect{v 1 v q }. Projection sur l espace principal : P q est la matrice de projection M-orthogonale sur Êq. 3. Composantes Principales ẑ q i = P q x i + ȳ. Corrélation de Y j et Y k : Moyenne empirique de Y j : y j = y j, 1 n D = D1 yj n. Barycentre des individus : ȳ = Y D1 n. Centrage de Y j : x j = y j y j 1 n. Matrice des données centrées : X = Y 1 n y. Ecart-type de Y j : σ j = (x j Dx j ) 1/2 = x j D. Covariance de Y j et Y k : x j Dx k = x j, x k D. Matrice des covariances : S = n i=1 w ix i x i = X DX. x j,x k D x j D x k D = cos θ D (x j, x k ). {y i ; i = 1,..., n}, n vecteurs aléatoires { indépendants de E, E(εi ) = 0, var(ε y i = z i + ε i, i = 1,..., n avec i ) = σ 2 Γ, σ > 0 inconnu, Γ régulière et connue, A q, sous-espace affine de dimension q de E tel que i, z i A q (q < p). { min X Z M,D Z = Ẑq q k=1 } ; Z M n,p, rang(z) = q. λ 1/2 k u kv k = U q Λ 1/2 V q = X P q, où Pq = V q V q M. enib c mp2003-2004.... 3

Représentations Graphiques 1. Individus Projection dans l espace principal : graphiques obtenus représenter au mieux les distances inter-individus mesurées par la métrique M. Chaque individu i représenté par x i est approché par sa projection M-orthogonale ẑ i q sur le sous-espace Êq engendré par les q premiers vecteurs principaux {v 1,..., v q }. En notant e i un vecteur de la base canonique de E, la coordonnée de l individu i sur v k est donnée par x i, v k M = x i Mvk = e i XMvk = c k i. Les coordonnées de la projection M-orthogonale de x i sur Êq sont les q premiers éléments de la ième ligne de la matrice C des composantes principales. Les individus sont étiquetés dans l espace principal, afin de les reconnaître. Qualité globale : part de dispersion expliquée r q = tr(sm P q ) tr(sm) = q k=1 λ k p k=1 λ. k Qualité individuelle : cosinus carré de l angle qu il forme avec sa projection [cos θ(x i, ẑ i q )] 2 = P q x i 2 M x i 2 M = q k=1 (ck i )2 p k=1 (ck i )2 2. Variables Projection dans l espace principal : graphiques obtenus représenter au mieux les corrélations entre les variables (cosinus des angles) et, si celles-ci ne sont pas réduites, leurs variances (longueurs). Une variable X j (ou Y j ) est représentée par la projection D-orthogonale Q q x j sur le sous-espace F q engendré par les q premiers axes factoriels. La coordonnée de x j sur u k est x j, u k D = Du xj k = 1 x j DXMv k = 1 e j X DXMv k = λ k vj k. Les coordonnées de la projection λk λk D-orthogonale de x j sur le sous-espace F q sont les q premiers éléments de la jème ligne de la matrice VΛ 1/2. [ Qualité de représentation : cos θ(x j, Q ] 2 q x j Q q x j 2 q ) = D k=1 x j 2 = λ k(v j k )2 p D k=1 λ k(v j k )2. Interprétation (corrélations principales / initiales) : cor(x j, C k ) = cos θ(x j, c k ) = cos θ(x j, u k ) = xj, u k D x j D = enib c mp2003-2004.... 4 λk σ j v k j.

Choix de dimension 1. Part d inertie La qualité globale des représentations est mesurée par la part d inertie expliquée r q. La valeur de q est choisie de sorte que cette part d inertie expliquée r q soit supérieure à une valeur seuil fixée a priori par l utilisateur (r q=p = 1). C est souvent le seul critère employé. 2. Eboulis des valeurs propres C est le graphique présentant la décroissance des valeurs propres. Le principe consiste à rechercher, s il existe, un coude (changement de signe dans la suite des différences d ordre 2) dans le graphe et de ne conserver que les valeurs propres jusqu à ce coude. Intuitivement, plus l écart (λ q λ q+1 ) est significativement grand, par exemple supérieur à (λ q 1 λ q ), et plus on peut être assuré de la stabilité de Êq. 1 0.8 0.6 0.4 0.2 0 0 1 2 3 4 5 6 7 enib c mp2003-2004.... 5

Pratique de l 1. Préparation des mesures Traitement préalable à l exécution d un programme d A.C.P. afin de : (a) vérifier la cohérence et l exactitude des données, (b) éliminer certaines variables, (c) procéder à d éventuelles transformations de variables (racine, log...). On obtient alors la matrice Y (n p) qui sera centrée par le programme. Options (a) pondération des individus (par défaut 1 n ) pour regrouper des données identiques, redresser un échantillon... (b) métrique de l espace des individus : par défaut M=Ip ; pour pondérer les variables : M = diag(a 2 1,..., a 2 p). 2. Interprétation des résultats Les contributions permettent d identifier les individus très influents pouvant déterminer à eux seuls l orientation de certains axes ; ces points sont vérifiés, caractérisés, puis éventuellement considérés comme supplémentaires dans une autre analyse. Choisir le nombre de composantes à retenir, c est-à-dire la dimension des espaces de représentation. Axes factoriels interprétés par rapport aux variables initiales. Qualités de représentation des variables initiales. L A.C.P. est une technique linéaire optimisant un critère quadratique ; elle ne tient donc pas compte d éventuelles liaisons non linéaires et présente une forte sensibilité aux valeurs extrêmes. enib c mp2003-2004.... 6

Bibliographie 1. Cibois, P. (1983) L Analyse factorielle : analyse en composantes principales et analyse des correspondances. Presses Universitaires de France, ISBN : 2-13037939-7. 2. Philippeau, A. (1986) Comment interpréter les résultats d une analyse en composantes principales? Lavoisier. 3. Salles-Le Gac, D. et Herrera, R.R. (2002) Initiation a l analyse factorielle des données. Fondements mathématiques et interprétations - Cours et Exercices corrigés. Eyrolles, Ellipses, ISBN : 2-7298-1119-2. 4. Claereboudt, M. et Dufour, P. Analyse des données : Similarité des atolls et relations entre les types d atoll et les caractéristiques de leur colonne d eau en saison sèche. http ://www.com.univ-mrs.fr/ird/atollpol/typatoll/simtypsc.htm enib c mp2003-2004.... 7