L analyse en composantes principales

L analyse en composantes principales 1

La méthode 1 Les données, les objectifs de la méthode L Analyse en Composantes Principales (ACP) est la méthode adaptée à l exploration synthétique de l information contenue dans un tableau de données Individus Variables Quantitatives. Elle ne s applique directement qu aux variables quantitatives dont les valeurs sont prises sur les mêmes individus. Un tableau de données Individus Variables Quantitatives est un tableau rectangulaire pour lequel chaque case correspond àlavaleur prise par une variable j (en colonnes) pour un individu i (en lignes). 2

Les valeurs prises par p variables quantitatives sur n individus sont alors rassemblées dans un tableau X à n lignes et p colonnes : X = x 11 x 12... x 1p x 21 x 22... x 2p............ x n1 x n2... x np. x ij est la valeur prise par l individu i pour la variable j. 3

Exemple : tableau donnant les 11 mesures effectuées sur 150 vins jeunes de la région de Gaillac. Les mesures sont : l extrait sec (g/l), acidité totale, acidité volatile, degré alcoolique du vin... Les vins sont les individus en lignes et les mesures les variables en colonnes. 4

L ACP consiste à extraire l essentiel de l information d un tableau X en fournissant à l utilisateur des représentations graphiques adaptées à l interprétation. Il s agit d une méthode exploratoire multidimentionnelle. Cette exploration s articule autour de deux aspects principaux : un analyse de ressemblances entre les individus : par exemple peuton mettre en évidence une typologie des individus? une analyse des liaisons entre les variables : par exemple existe-t-il des groupes de variables corrélées entre elles? 5

Ces deux voies ne sont pas indépendantes du fait de la dualité inhérente à l étude d un tableau rectangulaire : on caractérise les classes d individus par l intermédiaire des variables ; on caractérise les groupes de variables liées entre elles par l intermédiaire des individus. 6

Nous considérons le cas où tous les individus jouent le même rôle dans l analyse. Ils auront le même poids. Il existe cependant des cas où l on peut souhaiter attribuer des poids différents aux individus. Par exemple lorsque les individus représentent chacun une population. 7

2 Exploration et transformation des données Avant de mettre en oeuvre la méthode, il est judicieux d opérer quelques vérifications et transformations sur les variables. les variables sont-elles unimodales symétriques? analyse univariée de statistique descriptive ; analyse bivariée visant à étudier s il y a lieu de transformer les variables pour rendre leurs liaisons linéaires. En effet, leurs liaisons seront décrites dans l analyse par des coefficients de corrélation linéaire. 8

Une fois ces éventuelles transformations opérées, on doit centrer les variables du tableau X. L influence des variables dans l analyse se mesure par leur variance. Si les données initiales sont réduites et si nous accordonslemêmepoids à toutes les variables dans l analyse, alors elles auront toutes la même influence. On réduit les variables si elles sont de nature différentes ; par exemple : âge, le salaire, le nombre d enfants..., on estime que leurs influences respectives dans l analyse ne doit pas dépendre de leur variabilité ; notes : une matière ayant une forte variance doit-elle avoir uneinfluence plus grande dans l analyse? 9

Nous présentons la méthode de l ACP pour des tableaux de données centrés et réduits. Nous considérons alors le tableau de données Y centré et réduit à partir du tableau de données X. Pour tout i {1,...,n} et tout j {1,...,p}, Y apourélément(i, j) : où x.j = 1 n n x ij et s j = i=1 y ij = x ij x.j s j 1 n n (x ij x.j ) 2. i=1 10

3 L espace des individus En termes géométriques, les individus du tableau de données Y correspondent à n points de R p. L ensemble de n individus, appelé nuage des individus, est un nuage des points dans R p. A - Distance entre deux individus Comme nous l avons vu, l un des objectifs de l ACP est de décrire les proximités entre les individus. Nous avons alors besoin de mesurer la similarité de deux individus. Comment mesurer la distance entre deux individus? 11

Les variables du tableau Y étant réduites, toutes les variables de Y sont exprimées dans le même ordre de grandeur. La distance d 1 entre deux individus i 1 et i 2 du tableau Y est alors définie comme étant : d 1 (i 1,i 2 )= p (y i1 j y i2 j) 2. j=1 Il s agit de la racine carrée de la somme des écarts des coordonnées des deux individus, c est-à-dire la distance euclidienne de leurs vecteurs lignes associés. 12

B - Centre de gravité du nuage des individus Le centre de gravité du nuage des individus associé au tableau de données X est défini comme étant le point moyen de coordonnées (x.1,x.2,...,x.p ). Les variables du tableau Y étant centrées, le centre de gravité du nuage des individus associé au tableau Y est le point de coordonnées (0,...,0). Le barycentre du nuage des individus associé au tableau Y est alors l origine du nuage. 13

C - L inertie La variance empirique de la j è m e s v a r i a b l e d u t a b l e a u Y, (y 1j,...,y nj ), est donnée par 1 n (y ij y.j ) 2. n i=1 C est une mesure de sa dispersion unidimentionnelle. L inertie est une mesure de la dispersion multidimentionnelle. L inertie d un tableau de données est définie comme étant la moyenne des carrés des distances entre les individus et centre de gravité du nuage. 14

Formellement, In e (Y )= 1 n p j=1 n (y ij y.j ) 2. i=1 Le tableau de données Y étant réduit, nous avons et donc In e (Y )=p. n (y ij y.j ) 2 =1 i=1 15

4 L espace des variables En terme géométrique, les variables quantitatives du tableau de données Y correspondent à p points de R n. A - Angle entre deux variables L ensemble de p variables, appelé nuage des variables, est un nuage des points dans R n. Comme nous l avons vu, l un des objectifs de l ACP est d étudier les liaisons entre les variables. Pour ce faire, nous allons munir l espace des variables d une métrique. 16

Tous les individus ayant les mêmes poids, la produit scalaire naturel entre deux variables j 1 et j 2 du tableau de données Y est : n y ij1 y ij2. i=1 Les variables du tableau de données Y étant centrées réduites n y ij1 y ij2 est le coefficient de corrélation linéaire entre les i=1 variables j 1 et j 2. Ce coefficient de corrélation n est autre que le cosinus de l angle entre les deux variables. Dans l espace des individus, on s intéresse aux distances entre les individus (points), dans l espace des variables on s intéresse aux corrélations entre les variables (vecteurs) et donc aux angles. 17

B-Inertie L inertie la même que pour le nuage des individus. Elle est égale à p (nombre de variables) lorsque ces dernières sont réduites 18

5 Réduction de dimension dans l espace des individus L un des objectifs de l ACP est de décrire les proximités entre les individus. Le nuage des individus du tableau de données Y est dans un espace de dimension p. Si p =2,pourvisualisercesproximités,onvaanalyserlenuagede points entre les 2 variables. Si p =3,onpeutessayerd analyserlenuagedesindividus,endimension 3, et les nuages de points des variables deux à deux. Si p 4, on ne peut pas visualiser le nuages des individus, c est inaccessible à notre intuition. Aussi, analyser les nuages des variables deux à deux ne permet pas une interprétation claire et une vision synthétique. 19

Le principe de l ACP dans l espace des individus est d obtenir une représentation approchée du nuages des individus dans un sous-espace de dimension faible. On obtient de nouvelles dimensions. Ainsi, si l on ne retient parmi ces nouvelles dimensions que les deux ou trois dimensions qui contiennent le plus d information, il est alors éventuellement possible de représenter les données de manières synthétique sans perdre trop d information. 20

La réduction du nombre de variables ne se fait pas par une simple sélection de certaines d entre elles. Elle se fait par la construction de nouvelles variables synthétiques, appelées composantes principales, obtenues en combinant linéairement les variables initiales. L analyse en composantes principale dans l espace des individus est une méthode factorielle linéaire. 21

A - Recherche des axes factoriels Nous cherchons un sous-espace vectoriel F k de dimension k de R p maximisant l inertie du nuage des individus projeté sur ce sous-espace e t contenant l origine. On cherche à maximiser la moyenne des carrées des distances entreles projections et l origine. Du fait du centrage, les axes factoriels peuvent être interprétés comme des directions d allongement maximum du nuage des individus. On parle aussi de principaux facteurs de variabilité 22

La matrice symétrique Y Y est diagonalisable et admet une base orthonormée de vecteurs propres. Solution du problème : Pour tout k {1,...,p},lesous-espaceF k de dimension k est engendré par les k vecteurs propres de la matrice Y Y associés aux k plus grandes valeurs propres. Le premier axe factoriel est le vecteur propre de la matrice Y Y associé à l a p l u s g r a n d e v a l e u r p r o p r e d e Y Y. 23

Le deuxième axe factoriel est orthogonal au premier axe factoriel, et il s agit du vecteur propre associé à la deuxième plus grande valeur propre de Y Y... On peut montrer que les axes factoriels rendent minimum l écart entre le nuage des individus est sa projection. Aussi, on peut montrer que la moyenne des carrées des distances entre les projections doit être la plus grande possible. Les distances ne peuvent que diminuer en projection. Les axes factoriels apparaissent alors comme les directions tellesque les distances entre les individus projetés ressemblent le plus possible aux distances entre les individus du nuage. 24

6 - Réduction de dimension dans l espace des variables Le deuxième objectif de l analyse en composantes principales consiste à analyser les liaisons entre les variables. A - Recherche des axes factoriels Pour obtenir une suite de variables synthétiques et une représentation approchée des corrélations entre les variables, l ACP applique au nuage des variables la même démarche qu aux nuage des individus. Le critère de l inertie projetée maximum pour choisir les axes est exactement le même. 25

le nuage des variables n est pas centré ; tous les vecteurs sont situés sur le sphère unité. ce sont les angles entre les variables qui sont peu déformés parles projections et non pas les distances entre les coordonnées des variables. En outre, les variables étant centrées réduites leur projection sur un axe factoriel est égal à leur coefficient de corrélation avec cette variable. 26

On recherche en fait les combinaisons linéaires les plus lié e s à l e n - semble des variables. Les axes factoriels étant orthogonaux deux à deux, on met en évidence une suite de variables synthétiques, appelées composantes principales. Elles sont non corrélées entre elles et résument l ensemble des variables initiales. 27