L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ
INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et les ressemblances entre individus. Résultats : Visualisation des individus (Notion de distances entre individus) Visualisation des variables (en fonction de leurs corrélations)
INTERPRÉTATION DES RÉSULTATS Mesurer la qualité des représentations obtenues : critère global critères individuels «Donner des noms au aes» Epliquer la position des individus Utilisation éventuelle de variables supplémentaires (illustratives) 3
I. L ANALYSE EN COMPOSANTES PRINCIPALES LE PROBLÈME. LES DONNÉES p variables quantitatives observées sur n individus. X X X j X p j p j p X (n,p) n i i j i p individu e' i n n j Variable X j p n p INDIVIDU = Élément de R p VARIABLE = Élément de R n 4
On cherche à représenter le nuage des individus. A chaque individu noté e i, on peut associer un point dans R p = espace des individus. A chaque variable du tableau X est associé un ae de R p. X 3 i 3 e i Impossible à visualiser dès que p > 3. i X i X 5
. PRINCIPE DE L A.C.P. On cherche une représentation des n individus, dans un sous-espace F k de R p de dimension k ( k petit, 3 ; par eemple un plan) Autrement dit, on cherche à définir k nouvelles variables combinaisons linéaires des p variables initiales qui feront perdre le moins d information possible. Ces variables seront appelées «composantes principales», les aes qu elles déterminent : «aes principau» les formes linéaires associées : «facteurs principau» 6
X X ae ON VISUALISE ae X i ae 3 F 3 R p aes principau 7
«Perdre le moins d information possible» F k devra être «ajusté» le mieu possible au nuage des individus: la somme des carrés des distances des individus à F k doit être minimale. F k est le sous-espace tel que le nuage projeté ait une inertie (dispersion) maimale. et sont basées sur les notions de : distance projection orthogonale 8
e i e j β j β i Δ f i f j α i α j Δ La distance entre f i et f j est inférieure ou égale à celle entre e i et e j 9
3. LE CHOIX DE LA DISTANCE ENTRE INDIVIDUS y B y A A B Dans le plan: (, ) = ( ) + ( ) d A B y y B A B A A B Dans l espace R p à p dimensions, on généralise cette notion : la distance euclidienne entre deu individus s écrit: e ( p... ) ( p e ) j = j j... j i = i i i p p ( i, j) = ( i j) + ( i j) +... ( i j ) d e e p k ( i, j) = ( k i j ) d e e Le problème des unités? k= 0
Pour résoudre ce problème, on choisit de transformer les données en données centrées-réduites. i k L observation est alors remplacée par : UNITÉS D ÉCART TYPE: Eemple : k = k i s où : moyenne de la variable X k s k = écart-type de la variable X k Puissance moyenne de 30 voitures = 9 ch Ecart-type = 4 ch La Renault TXI a une puissance de 40 ch La Renault TXI a une puissance de : 40 9 4 écarts-type au-dessus de la moyenne. k = k
4. INERTIE TOTALE I g = n d n i = ( e g) i, ou de façon plus générale n g = i i i= ( ) I p d e,g avec n i= p = i L inertie est la somme pondérée des carrés des distances des individus au centre de gravité g L inertie mesure la dispersion totale du nuage de points.
L inertie est donc aussi égale à la somme des variances des variables étudiées. En notant V la matrice de variances-covariances : V = s... s p Remarque s s... s p... s p I g I = g = p s i i= ( ) Tr V Dans le cas où les variables sont centrées réduites, la variance de chaque variable vaut. L inertie totale est alors égale à p (nombre de variables). 3
Équivalence des deu critères concernant la perte d information e i Projection orthogonale du nuage sur un sous-espace F g f i Soit F un sous-ensemble de R p f i e i la projection orthogonale de sur F i i i i e g = e f + f g i=... n 4
On va chercher F tel que : n p e f i= i i i soit minimal ce qui revient d après le théorème de Pythagore à maimiser : n i= pi f i g 5
i i i i e g = e f + f g i=... n Donc : pi ei g pi ei fi = pi fi g = = = i n i n Inertie totale minimiser cette quantité (carrés des distances entre points individus et leurs projections) i n maimiser l inertie du nuage projeté 6
II. LA SOLUTION DU PROBLÈME POSÉ La recherche d aes portant le maimum d inertie équivaut à la construction de nouvelles variables (auquelles sont associés ces aes) de variance maimale. En d autres termes, on effectue un changement de repère dans R p de façon à se placer dans un nouveau système de représentation où le premier ae apporte le plus possible de l inertie totale du nuage, le deuième ae le plus possible de l inertie non prise en compte par le premier ae, et ainsi de suite. Cette réorganisation s appuie sur la diagonalisation de la matrice de variances-covariances. 7
. SOLUTION Aes principau On appelle aes principau d inertie les aes de direction les vecteurs propres de V normés à. Il y en a p. Le premier ae est celui associé à la plus grande valeur propre. On le note u Le deuième ae est celui associé à la deuième valeur propre. On le note u... 8
Composantes principales À chaque ae est associée une variable appelée composante principale. La composante c est le vecteur renfermant les cordonnées des projections des individus sur l ae. La composante c est le vecteur renfermant les cordonnées des projections des individus sur l ae. Pour obtenir ces coordonnées, on écrit que chaque composante principale est une combinaison linéaire des variables initiales. Eemple p c = u + u +... u p 9
. PROPRIÉTÉS DES COMPOSANTES PRINCIPALES La variance d une composante principale est égale à l inertie portée par l ae principal qui lui est associé. ère composante c variance : ème composante c variance : 3 ème composante c 3 variance : λ λ λ 3 Les composantes principales sont non corrélées deu à deu. En effet, les aes associés sont orthogonau. 0
3. REPRÉSENTATION DES INDIVIDUS j c j c La j ème j composante principale c = fournit les j c coordonnées des n individus sur le j ème n ae principal.... Si on désire une représentation plane des individus, la meilleure sera celle réalisée grâce au deu premières composantes principales.
e i c i g c i e j Attention à la qualité de représentation de chaque individu!
4. REPRÉSENTATION DES VARIABLES Les «proimités» entre les composantes principales et les variables initiales sont mesurées par les covariances, et surtout les corrélations. ( j i) rc, c j i est le coefficient de corrélation linéaire entre et c (, i ) r c i r ( c, i ) c CERCLE DES CORRÉLATIONS 3
5. INTERPRETATION DES «PROXIMITÉS» ENTRE VARIABLES On utilise un produit scalaire entre variables permettant d associer au paramètres courants : écart-type, coefficient de corrélation linéaire des représentations géométriques., n i j i j = k k n k = On suppose les variables centrées. 4
( ) i j i j, = Cov,, n i i i ( i ) = = k n k= i = s Variance de i i i = s i Écart-type de i 5
Coefficient de corrélation linéaire i j ( i j) (, Cov X,X ) ( ) i j i j Cos X,X = r X,X i j X X = s s = i j Le cosinus de l angle formé par les variables X i et X j est le coefficient de corrélation linéaire de ces deu variables 6
X et X ont une corrélation proche de. X 3 X X et X 3 ont une corrélation proche de 0. X 6 X 5 X X 4 CERCLE DES CORRÉLATIONS 7
III. VALIDITÉ DES REPRÉSENTATIONS. CRITÈRE GLOBAL λ i λ + λ +... λ Eemple : p mesure la part d inertie epliquée par l ae i. λ + λ p λ i i= est la part d inertie epliquée par le premier plan principal. Ce critère (souvent eprimé en pourcentage) mesure le degré de reconstitution des carrés des distances. La réduction de dimension est d autant plus forte que les variables de départ sont plus corrélées. 8
Combien d aes? Différentes procédures sont complémentaires: Pourcentage d inertie souhaité : a priori Diviser l inertie totale par le nombre de variables initiales inertie moyenne par variable : I.M. Conserver tous les aes apportant une inertie supérieure à cette valeur I.M. (inertie > si variables centrées réduites). Histogramme....... Conserver les aes associés au valeurs propres situées avant la cassure. 4 3 λ λ λ 3 = 4,5 = 3,8 =,9 λ λ λ 3 λ 4 λ 5 λ 6 λ 7 cassure 9
. CRITÈRES INDIVIDUELS Cosinus carrés e i ae θ θ θ f i y ae cos θ= cos θ + cos θ 30
Pour chaque individu, la qualité de sa représentation est définie par le carré du cosinus de l angle entre l ae de projection et le vecteur e i. Plus la valeur est proche de, meilleure est la qualité de représentation En général, les qualités de représentation sont données ae par ae. Pour avoir la qualité de représentation dans un plan, on additionne les critères correspondant au aes étudiés. Ce critère n a pas de signification pour les individus proches de l origine. Quand on détecte un individu pour lequel le cosinus carré est faible, on doit tenir compte de sa distance à l origine avant d indiquer qu il est mal représenté 3
Contributions Il est très utile aussi de calculer pour chaque ae la contribution apportée par les divers individus à cet ae. Considérons la k ième composante principale, soit la valeur de la composante pour le i ème individu. n ( ) n c k i =λ i= k c k c i k La contribution de l individu e i à la composante n k est définie par n ( c k ) i λ k 3
Remarque : Il n est pas souhaitable qu un individu ait une contribution ecessive (car facteur d instabilité) éliminer les individus dont la contribution est trop importante. Problème des enquêtes par sondage 33
3. REPRÉSENTATION DES VARIABLES Le cercle des corrélations est la projection du nuage des variables sur le plan des composantes principales. c corrélation = cosinus c Les variables bien représentées sont celles qui sont proches du cercle, celles qui sont proches de l origine sont mal représentées. 34
4. INTERPRÉTATION EXTERNE : VARIABLES ET INDIVIDUS SUPPLÉMENTAIRES (ILLUSTRATIFS) 4. Variables Variable quantitative: On calcule le coefficient de corrélation entre la variable supplémentaire et les composantes principales. Ceci permet sa représentation sur le cercle des corrélations. 35
Variable qualitative Identification des individus de chaque catégorie de la variable Représentation de chaque catégorie par son centre de gravité. Calcul du rapport de corrélation entre la variable qualitative supplémentaire et chaque composante principale (test de Fischer-Snedecor) ou valeur-test dans SPAD. 36
Individus Individu de poids nul ne participant pas à l analyse (fichier test). Appliquer au coordonnées de l individu les epressions définissant les composantes principales. 37