Analyse en composantes principales

Analyse en composantes principales Alain RAKOTOMAMONJY - Gilles GASSO INSA Rouen -Département ASI Laboratoire LITIS 11 Février 2009 A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 1 / 18

Introduction Objectifs Soit {x i },,l un ensemble d observations décrit par d attributs. Les objectifs de l analyse en composantes principales sont : Notations 1 la représentation graphique optimale des observations minimisant la déformation du nuage de points dans un sous-espace de dimension q (q < d). 2 la réduction de la dimension, ou l approximation des observations à partir de q variables (q < d). 0 Observation : x i R d avec x i = B @ Variable (attribut) : x j x i,1 x i,2. x i,d 1 C A A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 2 / 18

Les données Description Soit l observations décrites par d attributs. Soit X la matrice des observations (x i R d ) : 0 1 0 1 x 1,1 x 1,2... x 1,d B X = @ C B.. A = @ x l,1 x l,2... x l,d x t 1.. x t l C A = ` x 1 x 2... x l t Moyenne x = ` x 1 x 2... x d t avec x j P = 1 l l x i,j, j = 1,..., d Variance des variables var(x j ) = 1 l P l (x i,j x j ) 2 Les observations peuvent être transformées en données centrées et réduites par transformation (soustraction de la moyenne et division par l écart-type). Cette opération est importante si les ordres de grandeur des variables sont très différents. A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 3 / 18

Covariance et Matrice de covariance Covariance entre variables j et k cov(x j, x k ) = 1 l (x i,j x j )(x i,k x k ) Relations intuitives : si la covariance est grande (en valeur absolue) alors les grandes valeurs de la variable j sont associées aux grandes valeurs de la variable k (en valeur absolue). La matrice de covariance Σ des variables est la matrice de terme général Σ j,k = cov(x j, x k ). C est une matrice symétrique et si les observations sont centrées alors : Σ = 1 l X t X A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 4 / 18

Changement de base Rappel Le but de l ACP est de trouver une meilleure base de représentation des données obtenue par combinaison linéaire de la base originale. C est donc tout simplement un problème de changement de base. Soit le cas général où X et Y sont des matrices de dimensions d l et H une matrice de changement de base de taille d d. Si Y représente les coordonnées de l vecteurs dans R d et X représentent les coordonnées de ces mêmes vecteurs dans une nouvelle base alors, on a : avec h i,j tel que x i = P j h j,iy j. X = HY H est la matrice de transformation linéaire qui transforme un vecteur x i en y i. Les colonnesde H forment les vecteurs de la nouvelle base. A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 5 / 18

Analyse en Composantes Principales Objectifs et hypothèses Soit X une matrice de l données appartenant à R d. On suppose que X est centré. L objectif de l Analyse en Composantes Principales est de trouver un sous-espace de dimension q d qui permet d avoir une représentation réduite de X. Pour cela, on associe un vecteur t i R q à une observation x i à travers une transformation linéaire définie par P R d,q. On a donc t i = P t x i avec P = (p 1,, p q), p i R d On impose aussi que P t P = I. P est une matrice de changement de base où les vecteurs de la nouvelle base sont orthogonaux 2 à 2 i.e. p t j p i = 0 si i j Reconstruction de x i à partir de t i : ˆx i = Pt i On construit P de sorte que la représentation réduite minimise l erreur de représentation de X (équivalent à maximiser la variance de la représentation réduite). A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 6 / 18

Minimisation d erreur/maximisation variance Équivalence Soit J e(p) l erreur quadratique d estimation. On a : J e(p) = 1 l = 1 l = 1 l x i ˆx i 2 = 1 l (x i PP t x i ) t (x i PP t x i ) (xi t x i 2xi t PP t x i + xi t PP t PP t x i ) x t i x i 1 l xi t PP t x i = 1 l! 1 = trace xi t x i 1 l l J e(p) = trace (Σ) trace P t ΣP t i t t i = trace x t i x i 1 l 1 l t t i t i x i x t i 1 l pour des données x i centrées minj e(p) revient à maximiser par rapport à P la variance P t ΣP des points projetés. P t x i x t i P! A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 7 / 18

Axes factoriels et composantes principales Définition Soit X la matrice des données et p un vecteur unitaire ( p = 1) de R d. Soit le vecteur de R l, c 1 = Xp 1 = `x t 1p 1... x t lp 1 t. On appelle premier axe factoriel de X le vecteur p 1 tel que la variance de Xp 1 soit maximale. Le vecteur c 1 est appelé première composante principale. Le kième axe factoriel de X est le vecteur p k unitaire tel que la variance de c k = Xp k soit maximale et que p k soit orthogonal aux k 1 premiers axes factoriels. A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 8 / 18

Minimisation de l erreur quadratique d estimation Premier axe factoriel On cherche un sous espace de dimension 1 engendré par p 1 avec comme contrainte p t 1p 1 = 1. On a donc le problème sous contraintes suivant : min J p e(p 1 ) = 1 1 l x t i x i 1 l x t i p 1 p t 1x i avec p t 1p 1 = 1 Par l équivalence, on peut simplifier J e(p 1 ) par! J e(p 1 ) = p1 t 1 x i xi t p 1 = p1σp t 1 l et donc le lagrangien s écrit L(p 1, λ 1 ) = p t 1Σp 1 + λ 1 (p t 1p 1 1) A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 9 / 18

Minimisation de l EQE Optimisation et solutions Les conditions d optimalité sont : p1 L = 0 = 2Σp 1 + 2λ 1 p 1 λ1 L = 0 = p1p t 1 1 Ainsi on a à l optimalité : Σp 1 = λ 1 p 1 et p1σp t 1 = λ 1 On a donc : (1) λ 1 et p 1 qui sont respectivement valeur propre et vecteur propre de Σ (2) λ 1 la fonction que l on cherche à minimiser Le premier axe factoriel p 1 est donc le vecteur propre associé à la plus grande valeur propre de Σ. A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 10 / 18

k-ième axe factoriel Lemme Le sous-espace de dimension k minimisant l erreur quadratique d estimation des données contient nécessairement le sous-espace de dimension k 1. Calcul de la seconde composante principale Supposons que la première composante principale est connue, on a donc un autre problème d optimisation dont le lagrangien est : et L(p 2, λ 2, µ) = p t 2Σp 2 + λ 2 (p t 2p 2 1) + µ(p t 2p 1 ) p2 L = 0 = 2Σp 2 + 2λ 2 p 2 + µp 1 Vu que Σ est symétrique, et donc p t 2Σp 1 = λ 2 p t 2p 1 = 0, on montre que µ = 0 et donc Σp 2 = λ 2 p 2 λ 2 est la seconde plus grande valeur propre de Σ et p 2 le vecteur propre associé. A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 11 / 18

Algorithme 1 Centrer les données 2 Construire la matrice de covariance Σ 3 Décomposer cette matrice en vecteur propres,valeur propres {p i, λ i } 4 Ordonner les valeurs propres par ordre décroissant 5 Le sous-espace de dimension q qui représente au mieux les données au sens de l erreur quadratique moyenne est engendré par la matrice : P = (p 1,, p q) où {p 1,, p q} sont les q vecteurs propres associés aux q plus grandes valeurs propres. 6 L ensemble des composantes principales s ecrit matriciellement : C = XP = (c 1,, c q) A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 12 / 18

Propriétés des axes factoriels Les valeurs propres de Σ sont positives car Σ est une matrice semi-définie positive Le nombre d axes factoriels est égal au nombre de valeurs propres non-nulles de Σ. La variance expliquée par l axe factoriel p k (homogène à une inertie) s écrit I k = p t kσp k = p t kλ k p k = λ k. la variance totale des axes factoriels est I = P d k=1 λ k et le pourcentage de variance expliquée par un sous-espace d ordre q engendré par les q premiers axes : P q k=1 λ k P d k=1 λ 100 k Choix de la dimension q du sous-espace Validation croisée Examen graphique des valeurs propres et détection d un coude On choisit q de sorte qu un pourcentage fixé (par exemple 95%) de la variance soit expliqué A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 13 / 18

Propriétés de l ACP Les composantes principales {c i },,d sont centrées et non-corrélés ie cov(c i, c k ) = 0 si i k. cov(c i, c k ) = ci t c k = pi t X t Xp k = λ k pi t p k = 0 Soit p k le k-ième axe factoriel. Soit c k = Xp k, le vecteur renfermant représentant la projection de X sur p k. Alors, la variance de la composante principale c k s écrit : c t kc k = v t kx t Xv k = v t kλ k v k = λ k A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 14 / 18

Exemples données issues d une distribution gaussienne. représentation 3D des données iris et représentation sur les 2 premières composantes principales. 3 2 1 0 1 2 3 3 2 1 0 1 2 3 3 7 2 6 5 1 4 0 3 2 1 1 4.5 4 3.5 3 2.5 5 6 7 8 2 3 4 5 6 7 8 9 10 11 12 2 4 A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 15 / 18

Réduction de la dimensionalité Le principe même de l ACP est de représenter les données dans un espace de dimension plus faible. La nouvelle base de représentation est donnée par la matrice P. Chaque vecteur de cette base est combinaison linéaire des vecteurs de la base originale. P est une matrice unitaire ie P t P = PP t = I la matrice C est la matrice des composantes principales qui est en fait la matrice des projections de chaque x i sur les axes factoriels. Ainsi chaque x i s écrit dans la base des axes factoriels comme : ˆX = CP t ou ˆx i = qx C i,k p k k=1 A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 16 / 18

Réduction de la dimensionalité Si q = d, c est à dire que le nouveau sous-espace de représentation est égale à l espace original alors ˆX = X Erreur d approximation sur un sous-espace vectoriel de dimension q E q = 1 l x i ˆx (q) i 2 = dx i=q+1 λ i A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 17 / 18

Conclusions L Analyse en composantes principale est un outil de visualisation des données. et permet de faire de la réduction de la dimensionalité. A. RAKOTOMAMONJY G. GASSO (INSA ASI) Analyse en composantes principales 11 Février 2009 18 / 18