105 HUITIEME PARTIE ANALYSE EN COMPSANTES PRINCIPALES 1. Introduction En statistiques il arrive fréquemment que les individus soient décrits par un grand nombre de caractères. : voitures décrites par leur prix, leur taille, puissance, finition etc, rendement d une réaction chimique en fonction de la température, pression, concentrations, nature du catalyseur etc, propriété physique d une substance chimique en fonction de données structurales. L analyse en composantes principales permet de répondre aux questions : En ce qui concernent les variables : quelles sont celles qui sont associées, lesquelles agissent dans le même sens lesquelles s opposent? Quelles sont les variables qui expliquent efficacement l une d entre elles (par exemple quels sont les paramètres qui définissent le prix d une voiture)? En ce qui concerne les individus : quels sont ceux qui se ressemblent, quelles sont celles qui sont dissemblables?. Principe de l ACP Lorsqu il y a plus de trois variables explicatives, il n est plus possible de représenter les individus dans l espace géométrique. S il y a p variables indépendantes, chaque individu est un point dans un espace à p dimensions. Il faut donc projeter les individus dans un espace de dimension plus petite, en pratique on utilise un ou plusieurs plans de projection. Mathématiquement, une projection n est jamais une bijection, elle fait toujours perdre de l information, mais parmi toutes les projections possibles il en existe qui font perdre moins d information que d autres. Fig 41 : Information transmise par une image
106 Dans l exemple ci-dessus, suivant l angle sous lequel le photographe a pris cette photo, on peut reconnaître l animal ou non. Notons que la photo sur laquelle l animal est le plus reconnaissable est cette où il occupe le plus d espace (à facteur d agrandissement constant évidemment). Si l image est représentée par des points, la projection qui transmet le maximum d information est celle qui se caractérise par le plus grand étalement des variables x et y, en d autre termes celle qui présente les variances maximales de x et y. Dans l exemple suivant, les points semblent alignés suivant une droite dans le plan xoz. Une rotation adéquate du système de référence montre que ces points se distribuent autour d un cercle. Or un changement de référentiel revient à écrire de nouvelles variables qui sont des combinaisons linéaires des anciennes variables. Fig 4 : Perte d information lors d une projection L ACP procède exactement de cette manière, elle consiste à calculer des indices synthétiques (variables transformées) qui sont des combinaisons linéaires des variables initiales de manière à rendre leur variance maximale. L ACP recherche d abord la combinaison linéaire des variables de variance maximale. Cette nouvelle variable (ou indice) est la première composante principale, elle définit le premier axe principal, ensuite on cherche un axe orthogonal, donc une nouvelle variable n ayant aucune corrélation avec la première et qui montre également la plus grande variance possible et ainsi de suite, donc l ACP transforme un ensemble de caractères plus ou moins corrélés en un nouvel ensemble de caractères non corrélés et d importance décroissante appelés composantes principales. Mathématiquement le procédé consiste à rechercher les valeurs propres et les vecteurs propres d une matrice carrée. Pour que la transformation des coordonnées puisse s appliquer correctement, il faut que tous les caractères soient centrés. On admet implicitement que tous les x i,j sont remplacés par x i,j m j c'està-dire que l origine des axes est centré sur le barycentre des caractères.
107 3. L espace des individus Chaque individu est défini par p caractères, donc est considéré comme un vecteur (ou un point) dans un espace de dimension p (x 1,i, x,i, x 3,i, x p,i ). L ensemble des individus est représenté par une matrice n*p : x1,1 x,1 L xp,1 x1, x, xp, X L = L L L L x1,n x,n x L p,n Exemple : Caractéristique des voitures (chaque individu est une voiture) Marque prix ( ) cylindrée puissance longueur largeur poids vitesse finition A 1580 1350 79 393 161 870 165 B B 0000 1588 85 468 177 1110 160 TB C 14800 194 68 44 168 1050 15 M D 14100 1 59 41 161 930 151 M E 17450 1585 98 439 164 1105 165 B F 17740 197 8 49 169 1080 160 TB G 16150 1796 79 449 169 1160 154 B H 16000 1565 55 44 163 1010 140 B I 3800 664 18 45 173 130 180 TB J 1370 1166 55 399 157 815 140 M K 100 1570 109 48 16 1060 175 TB L 17000 1798 8 445 17 1160 158 B M 000 1998 115 469 169 1370 160 TB N 17500 1993 98 438 170 1080 167 B O 19700 144 80 431 166 119 144 TB P 14000 1769 83 440 165 1095 165 M Q 16350 1979 100 459 173 110 173 B R 11050 194 68 404 161 955 140 M Dans ce cas n=18 (nombre d individus) et p=8 (nombre de caractères). Observer que les ordres de grandeurs des caractères sont très différents et que la finition est un caractère qualitatif. Il faut donc préalablement associer une valeur numérique à la finition et centrer les caractères. Le vecteur Voiture H est la ligne correspondante (vecteur à 8 composantes), le vecteur puissance correspond à la colonne puissance, il est de dimension 18.
108 Les relations entre individus sont représentées par la matrice de variance covariance. (p*p) s 1 s1, L s 1,p s1, s s,p V L = L L L L s1,p s,p s L p De même, l ensemble des coefficients de corrélations est regroupé dans la matrice de corrélation : 1 r1, L r1,p r1, 1 r,p R L = L L L L r1,p r,p 1 L La distance entre individus se calcule habituellement par le théorème de Pytagore,, = p dik ( xji, x jk, ) (105) j= 1 Habituellement, dans un espace géométrique, toutes les coordonnées sont de même nature et exprimées dans les mêmes unités, c est une condition pour que la distance ait un sens physique. Dans le cas des caractères statistiques, chaque caractère est physiquement différent et exprimé dans des unités différentes. (pour une voiture les caractères sont le prix, la puissance, le poids, la finition ). Dans la matrice de variance covariance, un caractère exprimé par une très petite unité donnera un variance et une covariance très grande et l élément matriciel correspondant écrasera tous les autres, il faut donc diviser chaque caractère par son écart-type ce qui fournit des grandeurs sans dimension. Dans cette opération, la matrice de variance covariance est remplacée par la matrice de corrélation. C est donc sur cette matrice que nous travaillerons ultérieurement. 4. L espace des caractères n Chaque caractère est un vecteur dans un espace de dimension n (p vecteurs dans un espace ) La proximité (ou l identité) de deux caractères ne se mesure pas comme une distance mais comme un angle. Des caractères non corrélés sont orthogonaux, des caractères identiques vont dans la même direction, des caractères qui s opposent vont dans des directions contraires). L angle entre deux vecteurs V 1 et V s exprime par leur produit scalaire : rr VV s cos( θ ) = r r = = (106) j k j, k jk, rjk, Vj V ss k j k Comme les caractères sont centrés, le cosinus de l angle θ n est autre que le coefficient de corrélation entre les deux caractères.
109 5. La recherche des composantes principales La recherche des composantes principales revient à calculer les valeurs propres et les vecteurs propres de la matrice de corrélation. 1 r1, L r1,p r1, 1 r,p R L = L L L L r1,p r,p 1 L matrice des vecteurs propres Matrice des valeurs propres (diagonale) λ 1 0 O 0 λ p Fig 43 Principe de la recherche des valeurs propres d une matrice carrée Cette opération fournit deux matrices : La matrice des vecteurs propres qui sont les coefficients des combinaisons linéaires fournissant les composantes principales. La matrice des valeurs propres qui sont les variances des individus suivant les axes principaux correspondants. 6. Contribution des axes principaux à la variance totale Dans la recherche des valeurs propres, la variance totale est distribuée suivant les nouvelles variables explicatives. Cette distribution se fait proportionnellement aux valeurs propres. On peut donc estimer l importance de chaque facteur par la contribution de sa variance à la variance totale (en %). On peut ainsi choisir un nombre limité de facteurs qui expliquent par exemple 80% de la variabilité des individus. Dans l exemple des voitures on a effectué une ACP sur toutes les variables excepté le prix (note fin est une note attribuée à la variable qualitative finition): Matrice de corrélation (les corrélations des variables avec elles-mêmes sont omises) cylindrée puissance longueur largeur poids vitesse puissance 0,797 longueur 0,701 0,641 largeur 0,630 0,51 0,849 poids 0,789 0,765 0,868 0,717 vitesse 0,665 0,844 0,476 0,473 0,478 note fin 0,48 0,653 0,546 0,515 0,613 0,439
110 Il est totalement logique de trouver des corrélations élevées. En effet, une voiture longue est également large et son poids est élevé. Une grosse voiture (longue, large et lourde) est également puissante. (on ne met pas de petit moteur dans une grosse voiture), quand à la relation entre cylindrée, puissance et vitesse, elle est évidente. Analyse des valeurs et vecteurs propres de la matrice de corrélation Valeur propre 4,864 0,856 0,6193 0,379 0,171 0,0779 Proportion 0,695 0,1 0,088 0,053 0,04 0,011 Cumulatif 0,695 0,817 0,906 0,959 0,983 0,995 Valeur propre 0,038 Proportion 0,005 Cumulatif 1,000 Variable CP1 CP CP3 cylindré -0,394-0,13 0,395 puissanc -0,406-0,416-0,081 longueur -0,399 0,408 0,133 largeur -0,367 0,443 0,143 poids -0,411 0,41 0,03 vitesse -0,338-0,63 0,137 note fin -0,31 0,0-0,883 On observe que les trois premières composantes principales expliquent 90% de la variabilité des individus, il n est donc pas nécessaire d utiliser 7 variables. Cela signifie aussi que les individus sont bien représentés dans un sous-espace vectoriel de dimension 3 à condition que les axes soient bien choisis. Le tableau suivant donne les coefficients des variables initiales dans le calcul des composantes principales. Si on appelle c i,j les coefficients de la matrice des vecteurs propres, les composantes principales sont une combinaison linéaire des variables de départ avec les coefficients c i,j p CP = c x (107) i i, j j i= 1 par exemple CP1=-0,394 cylindrée -0,406 puissance -0,399 longueur etc 7. Régression en fonction des composantes principales L analyse de la matrice de corrélation montre qu il est inadéquat de calculer une régression multi linéaire du prix par rapport aux 7 autres variables explicatives. Une régression pas à pas permet d éliminer brutalement les facteurs les plus corrélés, mais on ne tient pas compte du fait qu une combinaison linéaire de variables très corrélés peut être plus significative qu un nombre limité de ces variables. L ACP permet de faire un calcul de régression sur un nombre limité de nouvelles variables (les premières composantes principales) qui sont indépendantes par construction, par contre la signification physique de ces nouvelles variables est souvent délicate à interpréter
111 ANALYSE EN COMPOSANTES PRINCIPALES CE QU IL FAUT ABSOLUMENT SAVOIR Calculer et interpréter une matrice de corrélation à l aide d un tableur ou d un logiciel statistique. Comprendre le principe et l utilité de l ACP Calculer les composantes principales à l aide d un tableur ou d un logiciel statistique et interpréter les résultats.