Introduction sur l analyse en composantes principales (CP) ) Introduction sur un exemple à 2 dimensions On veut représenter graphiquement les profils d élèves qui ont été notés sur 2 matières (Français et maths). Chaque élève est représenté par un point ayant pour coordonnées chacune des deux notes. Elève Maths Français 10 10 B, 15 13 C 8 8 D 9 9 E 19 16 F 2 4 14 12 H 5 6 I 4 5 J 8 8 K 2 4 L 1 3 On cherche un axe sur lequel projeter les données en perdant le moins d information possible Cas 1 Notes de français et de maths sont très corrélées positivement. Si on projette les points sur l axe oblique, on perd très peu d'information: les «candidats bons en tout» sont sur la droite de l'axe, les «mauvais en tout» sur la gauche xe de projection des données Elève Maths Français 10 8 B, 15 5 C 8 9 D 9 8 E 19 3 F 2 12 14 6 H 5 10 I 4 11 J 8 9 K 2 12 L 1 12 Cas 2 Notes de français et de maths sont très corrélées mais la corrélation est négative.si on projette sur l'axe on aura à droite : des matheux (bons en maths et mauvais en français); sur la gauche des "littéraires" (bons en français et mauvais en maths. Là encore on perd très peu d informations car l axe de projection conserve la quasi-totalité de la variance du nuage de points.
Elève Maths Français MaCR FrCR 4 12-0,717 1,110 B, 15 15 1,214 2,135 C 8 4-0,015-1,623 D 9 3 0,161-1,964 E 19 8 1,916-0,256 F 2 7-1,068-0,598 14 6 1,039-0,939 H 5 14-0,541 1,794 I 4 5-0,717-1,281 J 8 7-0,015-0,598 K 2 9-1,068 0,085 L 1 8-1,244-0,256 Moyenne 7,583 8,167-0,088-0,199 écart type 5,775 3,786 1,014 1,293 Cas 3 Les notes de français et de maths sont très peu corrélées.la projection sur l'axe (dont le tracé n'a rien d'évident) fait perdre beaucoup d'information. Sur la droite, on peut avoir des points correspondant à des profils très différents (les élèves et ne seront pas très éloignés). Dans les deux premiers cas en projetant sur un axe, on aura une bonne représentation des données. Dit en d autre termes, la projection sur 1 axe explique la majeure partie de la variance des données. Dans le cas 3, la projection sur l axe ne fournit pas une bonne représentation des données ; elle n explique qu une faible part de la variance totale. En conclusion, selon que les variables sont plus ou moins corrélées, la réduction de 2 dimensions à une, que l on opère en projetant sur un axe fait perdre plus ou moins d information, et fournit donc une représentation plus ou moins précise des individus.
B) énéralisation à n dimensions un examen, les élèves sont notés sur n matières ; le profil de chaque élève peut donc être représenté par un point dans un espace à n dimensions. Mais il est difficile de visualiser les choses dans un espace de plus de 3 dimensions. On va donc par des projections se ramener à un espace à deux dimensions (représentation dans un plan). Ces axes de projection vont être choisis de façon à ce que la perte d information soit minimale. Ce qui en intéresse en CP, ce ne sont pas les valeurs absolues des variables (ici les notes) mais les différences relatives entre les individus. On va donc projeter sur les axes non pas les variables elles-mêmes mais les variables centrées réduites (en retranchant la moyenne et en divisant par l écart-type). utrement dit, on neutralise ainsi les différences dans les échelles de notation qu il peut y avoir entre les disciplines. Un raisonnement mathématique qui dépasse le cadre de cette courte note montre que les axes de projection permettant de conserver le maximum d information sont obtenus par les coordonnées des vecteurs propres de la matrice des coefficients de corrélation entre les variables. Les valeurs propres associés à ces vecteurs propres permettent de mesurer la part de variance expliquée par chaque axe. Premier exemple avec 4 variables Elève Maths Français H et e Physique 10 5 8 10 B, 15 4 4 14 C 8 9 4 8 D 9 15 12 9 E 19 12 13 18 F 2 8 15 3 14 10 14 14 H 5 8 6 6 I 4 3 7 5 J 8 12 3 8 K 2 4 2 3 L 1 3 4 4 Les données font ressortir cette fois une forte corrélation positive entre maths et physique, une corrélation positive moyenne entre français et histoire et géographie, assez faible entre les autres disciplines Le traitement de ce tableau peut être fait sous XLSTT (logiciel téléchargeable gratuit en version démo) qui permet d appliquer sur EXCEL les méthodes d analyse des données (CP, FC) ou sur certains logiciels de traitement d enquête (ici Sphinx). Résultats obtenus Variables Maths Français H et e Physique Maths 1 0,432 0,340 0,993 Français 0,432 1 0,488 0,405 H et e 0,340 0,488 1 0,350 Physique 0,993 0,405 0,350 1 (ce tableau n est autre que celui des coefficients de corrélation des variables prises 2 par 2). Valeurs propres : F1 F2 F3 F4 Total Valeur propre 2,546 0,941 0,507 0,006 4 En (%) 63,660 23,514 12,678 0,148 100 % cumulé 63,660 87,174 99,852 100,000
Ce tableau signifie que le premier axe (F1) permet d expliquer 63,66% de la variance totale du nuage de points, que le second axe (F2) permet d expliquer 23,51% de la variance totale. En projetant donc chaque individu sur un plan F1 F2, on conserve donc 63,66+23,51 soit 87,17% de la variance totale (on a donc une bonne qualité de représentation). Variables (axes F1 et F2 : 87,17 %) 1 0,75 0,5 H et e Français F2 (23,51 %) 0,25 0-0,25-0,5 Physique Maths -0,75-1 -1-0,75-0,5-0,25 0 0,25 0,5 0,75 1 F1 (63,66 %) Ce graphique donne la représentation des variables dans le plan. Les points «physique et maths» sont très proches car les 2 variables sont très corrélées. Ces deux points sont très proches du cercle ce qui signifie que les 2 variables (maths et physiques sont très bien représentées). Les points histoire et géo et français (sont proches) : corrélation positive entre les matières (un peu plus éloignés du cercle) donc moins bien représentées. Sur le premier axe (axe horizontal qui contient 63% de l information) les 4 variables ont des coordonnées positives. Ce premier axe est donc représentatif du niveau des élèves (les bons à droite, les mauvais à gauche). Sur le second axe (axe vertical qui contient 23% de l information) s opposent plutôt les littéraires (en haut) et les scientifiques (en bas)
Sur Sphinx, on obtient les représentations suivantes nalyse en composantes principales Variables :Maths, Français, H et e, Physique. H et e F Français D K L I H C J B, Physique Maths La position des candidats sur le cercle permet d interpréter facilement leur profil et ce d autant qu ils sont plus proches du cercle : E (complétement à droite hors du cercle) tête de classe surtout pour les maths et la physique). (moins bon que E en maths physique) mais un peu plus littéraire (positif sur l axe 2) à l opposé K et L mauvais en tout B bon en sciences mais pas du tout littéraire à l inverse de D. La carte montre les positions des 4 critères et les coordonnées des 12 observations. 87.16% de la variance est expliquée par les deux axes représentés. Chaque observation est représentée par un point. Variables :Maths, Français, H et e, Physique. xe 1 (+63.65%) xe 2 (+23.51%) CONTRIBUTIONS POSITIVES Maths +32,0% Physique +32,0% H et e +41,0% Français +24,0% CONTRIBUTIONS NETIVES Physique -17,0% Maths -16,0% Ce tableau donne, pour les composantes les plus importantes de l axe, les contributions relatives (positives et négatives) des critères. Le contributions des variables sur l axe 2 (positives pour Français et Hist et géo) et négatives (maths physique) confirme que cet axe oppose littéraires et scientifiques. Remarque : Projeter un point sur un axe revient à affecter à un élève ayant obtenu les notes x y z et t une note unique K = ax +by+cz + dt les valeurs de a b c et d étant déterminées par l CP.
utrement dit, cela revient à affecter des coefficients aux notes ; ces coefficients au lieu d être fixés a priori (comme à l examen) sont déterminés à l CP de façon à représenter aux mieux les différences entre les candidats. Deuxième exemple à 4 dimensions Les notes ont été cette fois générées de façon aléatoire (fonction ENT(LE()*20) On n a donc aucune raison cette fois d observer des profils particuliers. Effectivement, le traitement sous SPHINX nous donne la représentations suivante : Elève Maths Français H et e Physique 19 4 7 0 B, 15 16 17 9 C 6 3 2 18 D 9 3 16 16 E 2 18 3 5 F 6 17 0 7 0 19 19 4 H 19 4 15 11 I 8 2 2 13 J 7 5 4 6 K 18 18 10 19 L 7 19 0 11 nalyse en composantes principales Variables :Maths, Français, H et e, Physique. xe 2 (27.50%) B, H et e Français Maths K E xe 1 (36.68%) D F L J Physique I C L éloignement des variables du cercle des corrélations montre que les variables sont plutôt mal représentées. La variance totale expliquée (64%) est relativement faible si on considère qu on se ramène de 4 à 2 dimensions. La position des points sur les axes ne permet aucune conclusion particulière. L application de cette méthode à des résultats réels d examens peut permettre de rechercher en quoi les épreuves auxquels les candidats sont soumis permettent de les
différencier, de repérer certains profils d élèves, de voir quelles sont les épreuves réellement significatives. Les résultats seront d autant plus probants que l analyse portera sur des centaines (ou des milliers) de candidats, notés sur cinq à dix épreuves, et que l on se ramènera à 2 dimensions.