L Analyse en Composantes Principales A. Morineau - 2005 1
L ACP, qu est ce?
L ACP, qu est ce?
Principe géométrique de l ACP X(n,p) tableau de données A. Morineau - 2005 4
Principe géométrique de l ACP i R p i' ressemblance des individus X(n,p) tableau de données A. Morineau - 2005 4
Principe géométrique de l ACP i R p i' ressemblance des individus X(n,p) j j' tableau de données R n liaisons entre les variables A. Morineau - 2005 4
Exemple introductif A. Morineau - 2005 5
Exemple introductif Les individus : 24 modèles de voitures A. Morineau - 2005 5
Exemple introductif Les individus : 24 modèles de voitures Les variables : «moteur» : puissance, vitesse, cylindrée «dimensions» : poids, longueur, largeur Objectifs : visualiser Les modèles qui se ressemblent au vu des 6 variables Les variables les plus corrélées A. Morineau - 2005 5
Les données A. Morineau - 2005 6
Ressemblances entre individus : problème des unités de mesure Cylindrée en litres Cylindrée en cm 3 3000 3 1 1000 800 1500 Poids en Kg 0,8 1,5 Poids en tonnes La forme du nuage de points est très sensible au choix des unités de mesure (à l'arbitraire des unités de mesure). Arbitraire des unités = Dispersion inégale entre les variables A. Morineau - 2005 7
Ressemblances entre individus : Solution : centrer et réduire les données Centrer : retrancher la moyenne positions relatives des individus Réduire : diviser par l écart type enlever l arbitraire de l unité de mesure Distance entre individus : A. Morineau - 2005 8
Les données centrées réduites A. Morineau - 2005 9
Ressemblances entre individus : Calcul des distances entre individus Exemple : d² (Honda Civic, Opel Omega) = ( -0.987-0.178 )² + ( -0.623-0.219)² + + ( -0.378-1.090)² = 14.02 A. Morineau - 2005 10
Ressemblances entre individus Vitesse Puissance Cylindrée A. Morineau - 2005 11
Ressemblances entre individus Vitesse Rover 827i Renault 25 Bmw 530i Puissance Ford Sierra Ford Fiesta Fiat Uno Cylindrée A. Morineau - 2005 11
Ressemblances entre individus : forme générale du nuage Vitesse Puissance Cylindrée A. Morineau - 2005 12
Ressemblances entre individus : forme générale du nuage Vitesse Puissance Cylindrée A. Morineau - 2005 12
Ressemblances entre individus : principe de détermination des axes Nuage de n points-individus dans R p Pour avoir la «meilleure» image approchée du nuage en projection sur une droite H : Respecter au mieux les inter-distances entre tous les couples (H) A. Morineau - 2005 13
Ressemblances entre individus : 1 er axe d inertie 1 er axe : direction d allongement maximal du nuage de points Direction selon laquelle la dispersion autour du centre de gravité (l inertie) est maximale. A. Morineau - 2005 14
Ressemblances entre individus : 1 er axe d inertie Vitesse Puissance Cylindrée A. Morineau - 2005 15
Ressemblances entre individus : 1 er axe d inertie Vitesse Axe 1 Puissance Cylindrée A. Morineau - 2005 15
Ressemblances entre individus : détermination des axes d inertie 2 ème axe d inertie : direction orthogonale à la première selon laquelle la dispersion résiduelle est maximale. 3 ème axe On décompose ainsi l inertie sur un système d axes orthogonaux deux à deux. A. Morineau - 2005 16
Ressemblances entre individus : détermination des axes d inertie A. Morineau - 2005 17
Ressemblances entre individus : détermination des axes d inertie Axe 1 A. Morineau - 2005 17
Ressemblances entre individus : détermination des axes d inertie Axe 1 Axe 2 A. Morineau - 2005 17
Ressemblances entre individus : détermination des axes d inertie Axe 3 Axe 1 Axe 2 A. Morineau - 2005 17
Mesurer l inertie décomposée sur chaque axe L inertie totale du nuage se décompose sur les axes principaux Pour p variables, p axes reconstituent l inertie totale du nuage A. Morineau - 2005 18
La meilleure représentation des distances entre individus A. Morineau - 2005 19
Coordonnées des individus et décomposition de l inertie A. Morineau - 2005 20
Distance calculée sur les données de départ : Meilleure représentation des distances entre individus d² (Honda Civic, Opel Omega) = ( -0.987-0.178 )² + ( -0.623-0.219)² + ( -0.378-1.090)² = 14.02 Distance calculée sur les axes factoriels : TOUS les axes : d² (Honda Civic, Opel Omega) = ( -2.01-1.45 )² + ( 0.32 +0.79)² + ( -0.15-0.06)² = 14.02 les 2 PREMIERS axes : d² (Honda Civic, Opel Omega) = ( -2.01-1.45 )² + ( 0.32 +0.79)² = 13.15 A. Morineau - 2005 21
Liaisons entre les variables : coefficient de corrélation y y R ne mesure pas la forme du nuage mais mesure la parenté entre la forme du nuage et une droite. y r = -1 x y -1 < r < 0 x On s'intéresse au degré de linéarité de la liaison entre deux variables. y r = 0 x y r = 0 x 0 < r < 1 A. Morineau - 2005 22 x r = 1 x
Corrélation : domaine de l étude a b La relation est linéaire dans la plage [a,b] A. Morineau - 2005 23
Corrélation et causalité 30 nb de TV (x1000) R² = 0,9841 23 15 8 0 0 23 45 68 90 nb de malades mentaux/100hab A. Morineau - 2005 24
Liaisons entre les variables : matrice des corrélations A. Morineau - 2005 25
Liaisons entre les variables Une variable est définie par les n valeurs qu elle prend sur les individus. Les variables sont centrées réduites, on a donc : (1) (1) est l équation d une sphère de rayon 1 centrée en zéro : les vecteurs variables sont donc de longueur 1 et se disposent sur la surface d une sphère dans R n. A. Morineau - 2005 26
Liaisons entre les variables individu 3 Largeur Longueur Poids individu 2 Cylindrée individu 1 Puissance Vitesse A. Morineau - 2005 27
Liaisons entre variables : distance entre les points variables Distance basée sur la corrélation : j o o o j k k k j cor(j,k) 1 d(j,k) 0 ( d² 0 ) cor(j,k) 0 d(j,k) 2 ( d² 2 ) cor(j,k) -1 d(j,k) 2 ( d² 4 ) A. Morineau - 2005 28
Liaisons entre variables : distance entre les points variables A. Morineau - 2005 29
Liaisons entre variables : ajustement des plans factoriels 1 et 2 individu 3 Largeur Longueur Poids individu 2 Cylindrée individu 1 Puissance Vitesse A. Morineau - 2005 30
Liaisons entre variables : ajustement des plans factoriels 1 et 2 1 er Plan individu 3 Largeur Longueur Poids individu 2 Cylindrée individu 1 Puissance Vitesse A. Morineau - 2005 30
Liaisons entre variables : ajustement des plans factoriels 1 et 2 1 er Plan individu 3 Largeur 2 ème Plan Longueur Poids individu 2 Cylindrée individu 1 Puissance Vitesse A. Morineau - 2005 30
Meilleure représentation des liaisons entre variables A. Morineau - 2005 31
Nuage des variables Nuage des p variables (approximation dans R n ). Un plan factoriel (v1,v2) coupe la sphère suivant un grand cercle (de rayon 1). Les points-variables tombent à l intérieur. Espace R n 4 2 1 e1 e2 Projection de quatre variables 4 e2 3 2 1 e1 3 A. Morineau - 2005 32
Coordonnées des variables et décomposition de l inertie Coordonnées des variables : Les données ont été centrées et réduites : les coordonnées des variables sont aussi les corrélations de ces variables avec les axes factoriels. Les sommes des carrés des coordonnées sur chaque axe donnent la décomposition de l inertie sur ces axes. A. Morineau - 2005 33
Représentation simultanée : les anciens axes unitaires (j) Les variables peuvent être vues comme des individus particuliers qui en représentent les directions. X Individu (i) Ces individus synthétiques valent 1 dans la direction de la variable et 0 dans les autres directions : variable (j) variable (1) 0 0 0 1 0 0 0 0 1 0 0 0 0 0 0 0 A. Morineau - 2005 34
Représentation simultanée : les anciens axes unitaires Vitesse Axe 1 Puissance Axe 2 Cylindrée A. Morineau - 2005 35
Représentation simultanée : les anciens axes unitaires Vitesse Axe 1 Puissance Axe 2 Cylindrée A. Morineau - 2005 35
Représentation simultanée : les anciens axes unitaires Vitesse Axe 1 Puissance Axe 2 Cylindrée A. Morineau - 2005 35
Représentation simultanée : les anciens axes unitaires Vitesse Axe 1 Puissance Axe 2 Cylindrée A. Morineau - 2005 35
Représentation simultanée : les anciens axes unitaires les anciens axes unitaires sont l image des variables dans l espace contenant les points individus. A. Morineau - 2005 36
Représentation simultanée : les anciens axes unitaires et les individus A. Morineau - 2005 37
Représentation simultanée : interprétation des anciens axes unitaires A. Morineau - 2005 38
Représentation simultanée : interprétation des anciens axes unitaires A. Morineau - 2005 39
Une autre interprétation des anciens axes unitaires : relations entre les deux espaces On a vu que les anciens axes unitaires sont l image des variables dans l espace contenant les points individus : les coefficients nous donnent les relations de transition entre l espace de départ et le nouvel espace de représentation des données. A. Morineau - 2005 40
Une autre interprétation des anciens axes unitaires : relations entre les deux espaces Les axes factoriels sont des combinaisons linéaire des variables centrées et réduites ; les coefficients de ces combinaisons sont les colonnes du tableau des anciens axes unitaires. Pour l axe1 : 0.45 CYLINDRE + 0.42 PUISSANC + 0.35 VITESSE + 0.42 POIDS + 0.43 LONGUEUR + 0.37 LARGEUR : le premier axe indique un effet de taille Pour l axe 2 : 0.01 CYLINDRE + 0.41 PUISSANC + 0.66 VITESSE - 0.19 POIDS - 0.32 LONGUEUR - 0.51 LARGEUR : le deuxième axe oppose les caractéristiques «moteur» aux autres. A. Morineau - 2005 41
Une autre interprétation des anciens axes unitaires : relations entre les deux espaces A partir des coordonnées factorielles, on peut revenir aux variables de départ. En prenant que les premiers axes factoriels, on reconstitue de manière approchée les variables de départ. CYLINDRE = 0.45 axe1 + 0.01 axe2-0.27 axe3 : reconstitution approchée de la variable cylindre à partir des 3 premiers axes factoriels. A. Morineau - 2005 42
Principes mathématiques de l ACP : détermination des axes d inertie X est la matrice des données centrées réduites (on présente les calculs dans le cas d une ACP normée) Nuages de points associés : Les individus : n points dans un espace de dimension p Les variables : p points dans un espace de dimension n Ajustement dans R p : maximiser u (X X)u avec u u = 1 Le vecteur qui maximise cette expression est le vecteur propre associé à la plus grande valeur propre de X Xu = λu Ajustement dans R n : maximiser v (XX )v avec v v = 1 Le vecteur qui maximise cette expression est le vecteur propre associé à la plus grande valeur propre de XX v = µv A. Morineau - 2005 43
ACP normée et non normée Normée Distance entre individus Non normée Matrice diagonalisée (x',x) corrélations covariances Distance entre variables A. Morineau - 2005 44
Principes mathématiques de l ACP : relations de transition relations entre les deux espaces (relations de transition) ajustement dans R p : (X X)u = λu u est le vecteur propre associé à la plus grande valeur propre de X X : λ ajustement dans R n : (XX )v = µv v est le vecteur propre associé à la plus grande valeur propre de XX : µ On peut écrire : XX (Xu) = λ(xu) i.e. λ est une valeur propre de XX associée au vecteur propre Xu ; puisque µ est la plus grande valeur propre de XX, on a nécessairement : λ < µ. X X(X v) = µ(x v) i.e. m est une valeur propre de X X associée au vecteur propre X v ; puisque λ est la plus grande valeur propre de X X, on a nécessairement : µ < λ. On a donc λ = µ En imposant les contraintes de normalisation des vecteurs propres : (Xu) Xu = λ et (X v) (X v) = µ on obtient les relations suivantes appelées relations de transition : A. Morineau - 2005 45
Relations de transition en ACP A. Morineau - 2005 46
Influence des individus : les contributions Dans quelle proportion chaque point contribue-t-il à l inertie λ α du nuage projeté sur l axe u α? G i G i G i G i' G i' G i' Utilité Pour donner une signification à un axe, s intéresser surtout aux points ayant une forte contribution. (Ils fixent la position de l axe dans R p ) A. Morineau - 2005 47
Influence des individus : les contributions A. Morineau - 2005 48
Qualité de représentation des individus : les cosinus carrés Le point (i) dans R p est plus ou moins «proche» de chaque axe (α) de projection. En projection, la proximité entre points est d autant plus «véridique» que les points sont proches de l axe de projection. Pour analyser les proximités entre points, s intéresser surtout aux points ayant un fort cosinus carré. (Proximités peu modifiées en projection.) (i) (i) G u α G u α Utilité A. Morineau - 2005 49
Qualité de représentation des individus : les cosinus carrés A. Morineau - 2005 50
Eléments supplémentaires Individus et variables continues A. Morineau - 2005 51
Eléments supplémentaires Variables nominales A. Morineau - 2005 52
Eléments supplémentaires Modalités d une variable nominale A. Morineau - 2005 53
Références Lebart L., Morineau A., Piron M. Statistique Exploratoire Multidimensionnelle. Dunod, Paris, 1995. Lebart L., Morineau A., Warwick K. Multivariate Descriptive Statistical Analysis. J. Wiley, New York, 1984. A. Morineau - 2005 54