Analyse en composantes principales Gilles Gasso, Stéphane Canu INSA Rouen - Département ASI Laboratoire LITIS 1 17 septembre 01 1. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane Canu Analyse en composantes principales 1 /
Plan 1 Introduction ACP Principe Formulation mathématique et résolution 3 Algorithme Propriétés Des axes factoriels De l ACP Réduction de dimension Gilles Gasso, Stéphane Canu Analyse en composantes principales /
Introduction Introduction Objectifs {x i R D },,N : ensemble de N points décrits par D attributs. Objectifs de l analyse en composantes principales 1 représentation (graphique) des points dans un sous-espace de dimension d (d << D) telle que la déformation du nuage de points soit minimale réduction de la dimension, ou approximation des points à partir de d variables (d D). Notations Observation : x i R D avec x i = ( x i,1 x i, x i,d ) Variable (attribut) : x j Gilles Gasso, Stéphane Canu Analyse en composantes principales 3 /
Introduction Les données : description Données Soit X la matrice des données (x i R D ) : x 1,1 x 1,... x 1,D x X =.. = 1. x N,1 x N,... x N,D x N = ( x 1 x... x N ) Statistiques sommaires : moyenne et variance Moyenne x = ( x 1 x... x D) avec x j = 1 N N x i,j, Variance des variables var(x j ) = 1 N N (x i,j x j ) Gilles Gasso, Stéphane Canu Analyse en composantes principales /
Introduction Covariance et Matrice de covariance Covariance entre variables j et k cov(x j, x k ) = 1 N (x i,j x j )(x i,k x k ) Si covariance grande (en valeur absolue) = variables j et k dépendantes. Covariance nulle = variables indépendantes Matrice de covariance Σ R D D Σ est une matrice symétrique de terme général Σ j,k = cov(x j, x k ) : Σ = 1 (x i x) (x i x) N données centrées : Σ = 1 N N x ix i, ou encore Σ = 1 N X X Gilles Gasso, Stéphane Canu Analyse en composantes principales 5 /
ACP Principe Analyse en Composantes Principales Principe Soit x i R D, i = 1,, N des données centrées. Objectif : trouver un sous-espace de dimension d D où projeter les x i de façon à perdre le moins d informations possibles 5 Points Moyenne Axe 1 Axe Trouver une meilleure base orthonormale de représentation des données par combinaison linéaire de la base originale. 3 1 0 p 1, p : vecteurs orthonormés (axes 1 et ). Projeter les données sur l espace engendré par p 1 et p = changement de base 1 1 0 1 3 5 Quel est le meilleur sous-espace de dimension 1? Gilles Gasso, Stéphane Canu Analyse en composantes principales /
ACP Principe Analyse en Composantes Principales Objectifs et hypothèses X R N D : matrice de données centrées. Objectif ACP : trouver un sous-espace de dimension d D qui permet d avoir une représentation réduite de X. Comment? Projection linéaire de x i R D sur t i R d t i = P x i avec P = ( p 1 p d ), pi R D P R D d : matrice de transformation linéaire Contrainte : P P = I Les vecteurs de la nouvelle base sont orthogonaux à c est-à-dire p j p i = 0 i j Gilles Gasso, Stéphane Canu Analyse en composantes principales 7 /
ACP Principe Analyse en Composantes Principales Reconstruction de x i à partir de t i Si d = D, la matrice P est orthogonale Problématique t i = P x i = Pt i = PP x i = x i = Pt i Dans ce cas, pas de réduction de dimension, juste un changement de base et donc pas de perte d information d < D (réduction de dimension) Reconstruction de x i par l approximation ˆx i = Pt i ou ˆx i = PP x i Construire P de sorte que l erreur x i ˆx i entre le vrai x i et sa reconstruction ˆx i soit minimale et ceci pour tous les points x i, i = 1,, N Gilles Gasso, Stéphane Canu Analyse en composantes principales /
ACP Formulation mathématique et résolution Minimisation d erreur/maximisation variance Soit J e (P) l erreur quadratique d estimation. On a : J e (P) = 1 N = 1 N = 1 N x i ˆx i = 1 N (x i PP x i ) (x i PP x i ) (xi x i xi PP x i + xi PP PP x i ) = trace x i ( 1 N x i 1 N xi x i 1 N x i PP x i = 1 N ) t i ti =trace x i ( 1 N x i 1 ti t i N ) x i xi 1 P x i xi P N J e (P) = trace (Σ) trace ( P ΣP ) pour des données x i centrées minj e (P) revient à maximiser par rapport à P la variance P ΣP des points projetés. Gilles Gasso, Stéphane Canu Analyse en composantes principales 9 /
ACP Formulation mathématique et résolution Le kième axe factoriel est le vecteur p k unitaire ( p k = 1) tel que la variance de c k = Xp k soit maximale et que p k soit orthogonal aux k 1 premiers axes factoriels. Gilles Gasso, Stéphane Canu Analyse en composantes principales / Axes factoriels et composantes principales Soit X la matrice des données et p R D tq p = 1. Soit le vecteur de R N, c 1 = Xp 1 = ( x 1 p 1... x N p 1). On appelle premier axe factoriel de X le vecteur p 1 tel que la variance de Xp 1 soit maximale. Le vecteur c 1 est appelé première composante principale.
ACP Formulation mathématique et résolution Minimisation de l erreur quadratique d estimation Premier axe factoriel On cherche le sous espace engendré par p 1 tq p1 p 1 = 1. Problème d optimisation sous contrainte égalité : min J e (p 1 ) = 1 p 1 N x i x i 1 N xi p 1 p1 x i avec p1 p 1 = 1 Simplification de J e (p 1 ) Le lagrangien s écrit J e (p 1 ) = p 1 ( 1 x i xi N ) p 1 = p 1 Σp 1 L(p 1, λ 1 ) = p 1 Σp 1 + λ 1 (p 1 p 1 1) Gilles Gasso, Stéphane Canu Analyse en composantes principales 11 /
ACP Formulation mathématique et résolution Minimisation de l EQE Optimisation Conditions d optimalité p1 L = 0 = Σp 1 + λ 1 p 1 et λ1 L = 0 = p 1 p 1 1 Solution Interprétation = Σp 1 = λ 1 p 1 et p 1 Σp 1 = λ 1 1 (λ 1, p 1 ) représente la paire (valeur propre, vecteur propre) de la matrice de covariance Σ J e (p 1 ) = λ 1 est la fonctionnelle que l on cherche à minimiser Le premier axe factoriel p 1 est le vecteur propre associé à la plus grande valeur propre de Σ. Gilles Gasso, Stéphane Canu Analyse en composantes principales 1 /
ACP Formulation mathématique et résolution k-ième axe factoriel Lemme Le sous-espace de dimension k minimisant l erreur quadratique d estimation des données contient nécessairement le sous-espace de dimension k 1. Calcul du e axe factoriel p sachant que p 1 est connu Exercice min p J e (p ) = p Σp tel que p p = 1, p p 1 = 0 Interprétation : on cherche un vecteur unitaire p qui maximise la variance p Σp et qui soit orthogonal au vecteur p 1 Montrer que p est le vecteur propre associé à λ, la seconde plus grande valeur propre de Σ Gilles Gasso, Stéphane Canu Analyse en composantes principales 13 /
Algorithme Algorithme 1 Centrer les données : {x i R D } N {x i = x i x R D } N Calculer la matrice de covariance Σ = 1 N X X avec X = ( x 1 ) x N 3 Calculer la décomposition en valeurs propres {p j R D, λ j R} D j=1 de Σ Ordonner les valeurs propres λ j par ordre décroissant 5 Nouvelle base de représentation des données : P = (p 1,, p d ) R D d {p 1,, p d } sont les d vecteurs propres associés aux d plus grandes λ j. Projection de tous les points via P s obtient matriciellement : C = XP = ( c 1 c d ) Note : la projection d un point quelconque x est donnée par t = P (x x) Gilles Gasso, Stéphane Canu Analyse en composantes principales 1 /
Propriétés Des axes factoriels Propriétés des axes factoriels Les valeurs propres de Σ sont positives car Σ est une matrice semi-definie positive Le nombre d axes factoriels est égal au nombre de valeurs propres non-nulles de Σ. La variance expliquée par l axe factoriel p k (homogène à une inertie) s écrit I k = p k Σp k = p k λ kp k = λ k. La variance totale des axes factoriels est I = d k=1 λ k Pourcentage de variance expliquée par les d premiers axes d k=1 λ k D k=1 λ 0 k Gilles Gasso, Stéphane Canu Analyse en composantes principales 15 /
Propriétés Des axes factoriels Propriétés des axes factoriels Choix de la dimension d du sous-espace Validation croisée Détection "d un coude" sur le graphique des valeurs propres On choisit d de sorte qu un pourcentage fixé (par exemple 95%) de la variance soit expliqué 0. Spectre de la matrice de variance covariance 0 Pourcentage de variance cumulee 0.7 0. 90 0 70 0.5 0 0. 50 0.3 0 30 0. 0 0.1 0 1 3 5 7 9 11 1 13 1 15 0 0 5 15 Gilles Gasso, Stéphane Canu Analyse en composantes principales 1 /
Propriétés De l ACP Propriétés de l ACP Les composantes principales {c i },,D sont centrées et non-corrélées ie cov(c i, c k ) = 0 si i k cov(c i, c k ) = 1 N c i c k = 1 N p i X Xp k = p i Σp k = p i (p k λ k ) = 0 Soit c k = Xp k, le vecteur représentant la projection de X sur le k-ième axe p k. La variance de la composante principale c k est 1 N c k c k = 1 N p k X Xp k = p k Σp k = p k λ kp k = λ k Gilles Gasso, Stéphane Canu Analyse en composantes principales 17 /
Propriétés De l ACP Exemple des données iris : x i R Représentation 3D Corrélation entre les variables 0.5 1 5 0 3 5 1.5 1 0. 1.5 0. 0..5 0. 3 0 3.5 0..5 0. 7 1 3 Projection en D par ACP Composante principale 1 0.5 0 0.5 1 1.5 0 Composante principale 1 Gilles Gasso, Stéphane Canu Analyse en composantes principales 1 /
Propriétés Réduction de dimension Réduction de la dimensionalité ACP représenter les données dans un espace de dim. réduite. La nouvelle base de représentation est donnée par la matrice P. Chaque vecteur de cette base est combinaison linéaire des vecteurs de la base originale. P vérifie P P = I. C = XP : matrice des composantes principales qui est en fait la matrice de projections de tous les x i sur les axes factoriels. Reconstruction des x i à partir des composantes principales x i est reconstruit par ˆx i = Pt i + x avec t i = P x i. On déduit que la matrice des données reconstruites est d ˆX = CP + 1 N x ou ˆx i = C i,k p k + x k=1 Note : un point quelconque projeté t est reconstruit par ˆx = Pt + x Gilles Gasso, Stéphane Canu Analyse en composantes principales 19 /
Propriétés Réduction de dimension Réduction de la dimensionalité Si q = d, c est à dire que le nouveau sous-espace de représentation est égale à l espace original alors ˆX = X Erreur d approximation sur un sous-espace vectoriel de dimension d E q = 1 N x i ˆx (d) i = D i=d+1 λ i L analyse en composantes principale est un outil de visualisation des données...... et permet de faire de la reduction de la dimensionalité. Gilles Gasso, Stéphane Canu Analyse en composantes principales 0 /
Propriétés Réduction de dimension Exemple : données USPS Caractères manuscripts sous forme d images 1 1 Chaque image est transformée en un vecteur de dimension 5 On a pris ici des 3 et des (quelques exemples ci-dessous) Moyenne Corrélation entre les variables 1 50 0 0.5 1 1 1 1 1 150 00 0 1 1 1 1 1 50 0.5 50 0 150 00 50 1 1 1 1 1 5 15 5 15 5 15 5 15 5 15 Gilles Gasso, Stéphane Canu Analyse en composantes principales 1 /
Propriétés Réduction de dimension Exemple : données USPS 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 5 15 1 5 15 1 5 15 Figure: Reconstruction avec d = composantes Composante principale 5 0 5 1 5 15 1 5 15 Projection en D par ACP 1 5 15 1 5 15 Figure: Reconstruction avec d = 50 composantes 3 1 5 15 5 0 5 Composante principale 1 Gilles Gasso, Stéphane Canu Analyse en composantes principales /