Analyse en composantes principales

Dimension: px

Commencer à balayer dès la page:

Download "Analyse en composantes principales"

Jeannine Leroux
il y a 9 ans
Total affichages :

1 Analyse en composantes principales Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire LITIS Analyse en composantes principales p. 1/18

2 Introduction Objectifs Soit {x i } i=1,,l un ensemble d observations décrit par d attributs. Les objectifs de l analyse en composantes principales sont : 1. la représentation graphique optimale des observations minimisant la déformation du nuage de points dans un sous-espace de dimension q (q < d). 2. la reduction de la dimension, ou l approximation des observations à partir de q variables (q < d). Notations Observation : x i R d avec x i =¼ xi,1 x i,2.. ½ Variable (attribut) : x j x i,d Analyse en composantes principales p. 2/18

la représentation graphique optimale des observations minimisant la déformation du nuage de points dans un sous-espace de dimension q

3 Les données Description Soit l observations décrites par d attributs. Soit X la matrice des observations (x i R d ) : X =¼ x 1,1 x 1,2... x 1,d.. x ½ =¼ t xl t ½ = x1 x2 x l,1 x l,2... x l,d x t l Moyenne x = x 1 x 2... x d t avec x j = 1 lèl i=1 x i,j, j = 1,...,d Variance des variables var(x j ) = 1 lèl i=1 (x i,j x j ) 2 Les observations peuvent être transformées en données centrées et réduites par transformation (soustraction de la moyenne et division par l écart-type). Cette opération est importante si les ordres de grandeur des variables sont très différents. Analyse en composantes principales p. 3/18

..,d Variance des variables var(x j ) = 1 lèl i=1 (x i,j x j ) 2 Les observations peuvent être transformées en données centrées et réduites par

4 Covariance et Matrice de covariance Covariance entre variables j et k cov(x j, x k ) = 1 l (x i,j x j )(x i,k x k ) Relations intuitives : si la covariance est grande (en valeur absolue) alors les grandes valeurs de la variable j sont associées aux grandes valeurs de la variable k (en valeur absolue). La matrice de covariance Σ des variables est la matrice de terme général Σ j,k = cov(x j, x k ). C est une matrice symétrique et si les observations sont centrées alors : Σ = 1 l Xt X Analyse en composantes principales p. 4/18

valeurs de la variable k (en valeur absolue).

5 Changement de base Rappel Le but de l ACP est de trouver une meilleure base de représentation des données obtenue par combinaison linéaire de la base originale. C est donc tout simplement un problème de changement de base. Soit le cas général où X et Y sont des matrices de dimensions d l et H une matrice de changement de base de taille d d. Si Y représente les coordonnées de l vecteurs dans R d et X représentent les coordonnées de ces mêmes vecteurs dans une nouvelle base alors, on a : Y = HX avec h i,j tel que x i =Èj h j,iy j. H est la matrice de transformation linéaire qui transforme un vecteur xi en y i. Les colonnes de H forment les vecteurs de la nouvelle base. Analyse en composantes principales p. 5/18

Soit le cas général où X et Y sont des matrices de dimensions d l et H une matrice de changement de base de taille d d.

6 Analyse en Composantes Principales Objectifs et hypothèses Soit X une matrice de l données appartenant à R d. On suppose que X est centré. L objectif de l Analyse en Composantes Principales est de trouver un sous-espace de dimension q d qui permet d avoir une représentation réduite de X. Pour cela, on associe un vecteur t i R q à une observation x i à travers une transformation linéaire définie par P R d,q. On a donc t i = P t x i avec P = (p 1,,p q ), p i R d On impose aussi que P t P = I. P est une matrice de changement de base où les vecteurs de la nouvelle base sont orthogonaux 2 à 2 i.e. p t j p i = 0 si i j Reconstruction de xi à partir de t i : ˆx i = Pt i On construit P de sorte que la représentation réduite minimise l erreur de représentation de X (équivalent à maximiser la variance de la représentation réduite). Analyse en composantes principales p. 6/18

Pour cela, on associe un vecteur t i R q à une observation x i à travers une transformation linéaire définie par P R d,q.

7 P t x i x t ip Minimisation d erreur/maximisation variance Equivalence Soit J e (P) l erreur quadratique d estimation. On a : J e (P) = 1 l x i ˆx i 2 = 1 l (x i PP t x i ) t (x i PP t x i ) = 1 l (x t ix i 2x t ipp t x i + x t ipp t PP t x i ) = 1 l x t ix i 1 l x t ipp t x i = 1 l x t ix i 1 l t t it i = trace 1 l x t ix i 1 l t i t t i =trace 1 l x i x t i 1 l J e (P) = trace (Σ) trace P t ΣP pour des données x i centrées minje (P) revient à maximiser par rapport à P la variance P t ΣP des points projetés. Analyse en composantes principales p. 7/18

i 1 l x t ipp t x i = 1 l x t ix i 1 l t t it i = trace 1 l x t ix i 1 l t i t t i =trace 1 l x i x t i 1 l J e (P) = trace (Σ) trace P t

8 Axes factoriels et composantes principales Définition Soit X la matrice des données et p un vecteur unitaire ( p = 1) de R d. Soit le vecteur de R l, c 1 = Xp 1 = x t 1p 1... x t l p 1 t. On appelle premier axe factoriel de X le vecteur p 1 tel que la variance de Xp 1 soit maximale. Le vecteur c 1 est appelé première composante principale. Le kième axe factoriel de X est le vecteur p k unitaire tel que la variance de c k = Xp k soit maximale et que p k soit orthogonal aux k 1 premiers axes factoriels. Analyse en composantes principales p. 8/18

On appelle premier axe factoriel de X le vecteur p 1 tel que la variance de Xp 1 soit maximale.

9 Minimisation de l erreur quadratique d estimation Premier axe factoriel On cherche un sous espace de dimension 1 engendré par p 1 avec comme contrainte p t 1p 1 = 1. On a donc le problème sous contraintes suivant : min p 1 J e (p 1 ) = 1 l x t ix i 1 l x t ip 1 p t 1x i avec p t 1p 1 = 1 Par l équivalence, on peut simplifier J e (p 1 ) par J e (p 1 ) = p t 1 1 l x i x t i p 1 = p t 1Σp 1 et donc le lagrangien s écrit L(p 1, λ 1 ) = p t 1Σp 1 + λ 1 (p t 1p 1 1) Analyse en composantes principales p. 9/18

On a donc le problème sous contraintes suivant : min p 1 J e (p 1 ) = 1 l x t ix i 1 l x t ip 1 p t 1x i avec p t 1p 1 = 1 Par

10 Minimisation de l EQE Optimisation et solutions Les conditions d optimalité sont : p1 L = 0 = 2Σp 1 + 2λ 1 p 1 λ1 L = 0 = p t 1p 1 1 Ainsi on a à l optimalité : On a donc : Σp 1 = λ 1 p 1 et p t 1Σp 1 = λ 1 (1) λ 1 et p 1 qui sont respectivement valeur propre et vecteur propre de Σ (2) λ 1 la fonction que l on cherche à minimiser Le premier axe factoriel p 1 est donc le vecteur propre associé à la plus grande valeur propre de Σ. Analyse en composantes principales p. 10/18

respectivement valeur propre et vecteur propre de Σ (2) λ 1 la fonction que l on cherche à minimiser Le premier axe

11 k-ième axe factoriel Lemme Le sous-espace de dimension k minimisant l erreur quadratique d estimation des données contient nécessairement le sous-espace de dimension k 1. Calcul de la seconde composante principale Supposons que la première composante principale est connue, on a donc un autre problème d optimisation dont le lagrangien est : L(p 2, λ 2, µ) = p t 2Σp 2 + λ 2 (p t 2p 2 1) + µ(p t 2p 1 ) et p2 L = 0 = 2Σp 2 + 2λ 2 p 2 + µp 1 Vu que Σ est symétrique, et donc p t 2Σp 1 = λ 2 p t 2p 1 = 0, on montre que µ = 0 et donc Σp 2 = λ 2 p 2 λ 2 est la seconde plus grande valeur propre de Σ et p 2 le vecteur propre associé. Analyse en composantes principales p. 11/18

est : L(p 2, λ 2, µ) = p t 2Σp 2 + λ 2 (p t 2p 2 1) + µ(p t 2p 1 ) et p2 L = 0 = 2Σp 2 + 2λ 2 p 2 + µp 1 Vu que Σ est symétrique, et donc p t 2Σp 1 = λ 2 p t 2p 1 = 0,

12 Algorithme 1. Centrer les données 2. Construire la matrice de covariance Σ 3. Décomposer cette matrice en vecteur propres,valeur propres {p i, λ i } 4. Ordonner les valeurs propres par ordre décroissant 5. Le sous-espace de dimension q qui représente au mieux les données au sens de l erreur quadratique moyenne est engendré par la matrice : P = (p 1,, p q ) où {p 1,, p q } sont les q vecteurs propres associés aux q plus grandes valeurs propres. 6. L ensemble des composantes principales s ecrit matriciellement : C = XP = (c 1,, c q ) Analyse en composantes principales p. 12/18

Le sous-espace de dimension q qui représente au mieux les données au sens de l erreur quadratique moyenne est engendré par la matrice : P = (p

13 Propriétés des axes factoriels Les valeurs propres de Σ sont positives car Σ est une matrice semi-definie positive Le nombre d axes factoriels est égal au nombre de valeurs propres non-nulles de Σ. La variance expliquée par l axe factoriel pk (homogène à une inertie) s écrit I k = p t k Σp k = p t k λ kp k = λ k. la variance totale des axes factoriels est I =Èd k=1 λ k et le pourcentage de variance expliquée par un sous-espace d ordre q engendré par les q premiers axes : Èq k=1 λ k Èd k=1 λ 100 k Choix de la dimension q du sous-espace Validation croisée Examen graphique des valeurs propres et détection "d un coude" On choisit q de sorte qu un pourcentage fixé (par exemple 95%) de la variance soit expliqué Analyse en composantes principales p. 13/18

la variance totale des axes factoriels est I =Èd k=1 λ k et le pourcentage de variance expliquée par un sous-espace d ordre q engendré par les q premiers axes : Èq k=1 λ k Èd k=1 λ 100 k

14 Propriétés de l ACP Les composantes principales {ci } i=1,,d sont centrées et non-corrélés ie si i k. cov(c i, c k ) = 0 cov(c i, c k ) = c t ic k = p t ix t Xp k = λ k p t ip k = 0 Soit pk le k-ième axe factoriel. Soit c k = Xp k, le vecteur renfermant représentant la projection de X sur p k. Alors, la variance de la composante principale c k s écrit : c t kc k = v t kx t Xv k = v t kλ k v k = λ k Analyse en composantes principales p. 14/18

Soit c k = Xp k, le vecteur renfermant représentant la projection de X sur p k.

15 Exemples données issues d une distribution gaussienne. représentation 3D des données iris et représentation sur les 2 premières composantes principales Analyse en composantes principales p. 15/18

16 Réduction de la dimensionalité Le principe même de l ACP est de représenter les données dans un espace de dimension plus faible. La nouvelle base de représentation est donnée par la matrice P. Chaque vecteur de cette base est combinaison linéaire des vecteurs de la base originale. P est une matrice unitaire ie P t P = PP t = I la matrice C est la matrice des composantes principales qui est en fait la matrice des projections de chaque x i sur les axes factoriels. Ainsi chaque x i s écrit dans la base des axes factoriels comme : q k=1 ˆX = CP t ou ˆx i = C i,k p k Analyse en composantes principales p. 16/18

P est une matrice unitaire ie P t P = PP t = I la matrice C est la matrice des composantes principales qui est en fait la matrice des projections de

17 Réduction de la dimensionalité Si q = d, c est à dire que le nouveau sous-espace de représentation est égale à l espace original alors ˆX = X Erreur d approximation sur un sous-espace vectoriel de dimension q E q = 1 l x i ˆx (q) i 2 = i=q+1 d λ i Analyse en composantes principales p. 17/18

Erreur d approximation sur un sous-espace vectoriel de dimension q E q =

18 Conclusions L Analyse en composantes principale est un outil de visualisation des données. et permet de faire de la reduction de la dimensionalité. Analyse en composantes principales p. 18/18

Documents pareils

1 Complément sur la projection du nuage des individus

1 Complément sur la projection du nuage des individus TP 0 : Analyse en composantes principales (II) Le but de ce TP est d approfondir nos connaissances concernant l analyse en composantes principales (ACP). Pour cela, on reprend les notations du précédent