Université de Strasbourg Analyse des données Master de Sciences, Spécialité Statistique 2012/13 Master Actuariat Emmanuel Périnel Analyse des données - Logiciel R TP n 3. L Analyse en Composantes Principales (ACP) Corrigé 1. L ACP des données température 1. Importer le jeu de données temperature. 2. Choisir la colonne Ville comme identificateur des individus : Données Jeu de données actif nom des cas. 3. Réaliser l ACP (FactoMineR Principal Components Analysis) du tableau des températures en faisant les choix suivants : variables actives = les 12 mois ; ACP normée : scaled ; Outputs : sélectionner l ensemble des items. Individuals factor map (PCA) Variables factor map (PCA) 4 2 0 2 4 6 Brest Rennes Nantes Lille Nice Paris Toulouse Bordeaux Clermont Vichy Montpellier Marseille Grenoble Strasbourg Lyon janvier décembre février novembre mars octobre avril septembre juillet juin mai aout 4 2 0 2 4 6 4. Quelle est l inertie associée au premier axe factoriel? au second axe? au premier plan factoriel? > res$eig eigenvalue percentage of variance cumulative percentage of variance comp 1 9.5817795809 7.984816e+01 79.84816 comp 2 2.2764183987 1.897015e+01 98.81832 L inertie de l axe 1 est donné par la première valeur propre, soit λ 1 = 9, 58. L inertie de l axe 2 est donné par la seconde valeur propre, soit λ 2 = 2, 27. En pourcentage, cela représente respectivement 79,85% et 18,97%. Le premier plan factoriel (la plan engendré par les deux premiers axes) restitue par onséquent 79, 85% + 18, 97% = 98, 82% 5. Quelle est la variable la plus corrélée à l axe 1? à l axe 2?
$coord janvier 0.7612384 0.6443379-0.02141723 0.050985523 0.031469657 février 0.8804578 0.4690786-0.03355925-0.011652192-0.005336597 mars 0.9687704 0.1560084-0.15435120-0.109217288 0.012442608 avril 0.9693357-0.2036737-0.12174425 0.054072597-0.014960576 mai 0.8727646-0.4747092-0.03855734 0.092588621-0.048219227 juin 0.8635747-0.4993460-0.01242061 0.048863646 0.035383866 juillet 0.8415346-0.5314197 0.08212005-0.011781462 0.026093895 aout 0.8986059-0.4299386 0.06153954-0.040173888 0.038976725 septembre 0.9740289-0.2081014 0.04124477-0.064058662-0.007978425 octobre 0.9801599 0.1704565 0.07418299-0.040077540-0.047967190 novembre 0.9037531 0.4139260 0.08508702 0.002998317-0.048256436 décembre 0.7743349 0.6242957 0.05628254 0.060459976 0.046663216 $cor janvier 0.7612384 0.6443379-0.02141723 0.050985523 0.031469657 février 0.8804578 0.4690786-0.03355925-0.011652192-0.005336597 mars 0.9687704 0.1560084-0.15435120-0.109217288 0.012442608 avril 0.9693357-0.2036737-0.12174425 0.054072597-0.014960576 mai 0.8727646-0.4747092-0.03855734 0.092588621-0.048219227 juin 0.8635747-0.4993460-0.01242061 0.048863646 0.035383866 juillet 0.8415346-0.5314197 0.08212005-0.011781462 0.026093895 aout 0.8986059-0.4299386 0.06153954-0.040173888 0.038976725 septembre 0.9740289-0.2081014 0.04124477-0.064058662-0.007978425 octobre 0.9801599 0.1704565 0.07418299-0.040077540-0.047967190 novembre 0.9037531 0.4139260 0.08508702 0.002998317-0.048256436 décembre 0.7743349 0.6242957 0.05628254 0.060459976 0.046663216 On peut consulter indifféremment les coordonnées des variables sur les axes ou les valeurs des corrélations (identiques car l ACP est normée). Il s avère que la variable la plus liée à l axe 1 est donc Octobre (0,98) et que celle la plus liée à l axe 2 est le mois de Janvier (0,64). 6. Quel est l individu dont la qualité de représentation sur le plan (1,2) est la plus élevée? la moins élevée? $cos2 Bordeaux 0.94668773 0.001161224 5.050943e-02 2.093297e-05 5.974291e-06 Brest 0.23436246 0.763393814 6.013116e-04 7.509928e-05 4.350288e-04 Clermont 0.87988441 0.103705112 1.078243e-04 8.223376e-03 6.431728e-03 Grenoble 0.42894041 0.522580994 3.467164e-03 2.930774e-02 1.469480e-02 Lille 0.97152116 0.019355705 6.919770e-03 1.330036e-06 8.231975e-05 Lyon 0.17813711 0.817127272 1.348841e-04 1.309988e-04 7.876526e-04 Marseille 0.96419529 0.028358560 5.249337e-03 9.368053e-04 7.854061e-05 Montpellier 0.98575843 0.010862202 1.924686e-03 3.259626e-05 1.028595e-04 Nantes 0.05645333 0.886324192 3.715059e-02 1.011754e-02 1.449190e-03 Nice 0.98005143 0.016920844 1.139311e-03 1.216170e-04 9.359768e-04 Paris 0.88935998 0.014094539 2.745069e-02 6.522425e-02 3.895767e-06 Rennes 0.41985296 0.566502170 4.706401e-03 1.329581e-04 2.156904e-03 Strasbourg 0.77565410 0.217137845 5.499506e-05 6.376477e-03 3.710068e-04 Toulouse 0.95255524 0.005855863 5.945086e-04 2.828124e-02 7.598943e-03
Vichy 0.92150642 0.062910418 8.048468e-03 4.056869e-03 2.215126e-03 La qualité de représentation sur le premier plan est déterminée par la somme des cos2 des deux premiers axes. On peut obtenir ce calcul en soumettant la commande : > round(res$ind$cos2[,1]+res$ind$cos2[,2],3) Bordeaux Brest Clermont Grenoble Lille 0.948 0.998 0.984 0.952 0.991 Lyon Marseille Montpellier Nantes Nice 0.995 0.993 0.997 0.943 0.997 Paris Rennes Strasbourg Toulouse Vichy 0.903 0.986 0.993 0.958 0.984 La ville possédant la qualité de représentation maximale est donc Brest. 7. Quel est l individu ayant le plus contribué à la formation de l axe 1? le moins contribué? $contrib Bordeaux 6.7759249 0.03498418 49.47583268 0.036184685 0.029171831 Brest 3.5789091 49.06878939 1.25666928 0.276968607 4.532064329 Clermont 2.0725832 1.02820712 0.03475855 4.678090930 10.335451943 Grenoble 1.6271372 8.34401167 1.79994987 26.849842631 38.028253610 Lille 12.3718247 1.03749158 12.05957373 0.004090506 0.715156376 Lyon 0.4850349 9.36488350 0.05026181 0.086142601 1.463082216 Marseille 16.2497301 2.01168233 12.10721845 3.812963664 0.903006480 Montpellier 11.9672370 0.55505413 3.19773171 0.095570399 0.851889573 Nantes 0.0550515 3.63802974 4.95797180 2.382794962 0.964095962 Nice 25.1063100 1.82452633 3.99424990 0.752420305 16.357410223 Paris 1.0731542 0.07158624 4.53311303 19.007536204 0.003206956 Rennes 1.4400400 8.17848800 2.20914917 0.110134751 5.046888358 Strasbourg 11.7277788 13.81902127 0.11379683 23.284164993 3.826881803 Toulouse 2.0972252 0.05426751 0.17913143 15.037840293 11.413624264 Vichy 3.3720591 0.96897702 4.03059175 3.585254470 5.529816075 La ville ayant le plus contribué à l inertie de l axe 1 est Nice, à hauteur de 25,11%. La ville ayant le moins contribué à l inertie de l axe 1 est Nantes (0,06%). On peut trier les contributions (et les arrondir à deux décimales) à l aide de la commande : > sort(round(res$ind$contrib[,1],2)) Nantes Lyon Paris Rennes Grenoble 0.06 0.49 1.07 1.44 1.63 Clermont Toulouse Vichy Brest Bordeaux 2.07 2.10 3.37 3.58 6.78 Strasbourg Montpellier Lille Marseille Nice 11.73 11.97 12.37 16.25 25.11 8. Quel est l individu ayant le plus contribué à la formation de l axe 2? le moins contribué? > sort(round(res$ind$contrib[,2],2)) Bordeaux Toulouse Paris Montpellier Vichy 0.03 0.05 0.07 0.56 0.97 Clermont Lille Nice Marseille Nantes 1.03 1.04 1.82 2.01 3.64 Rennes Grenoble Lyon Strasbourg Brest 8.18 8.34 9.36 13.82 49.07
La ville ayant le plus contribué à l inertie de l axe 2 est Brest, à hauteur de 49,07%. La ville ayant le moins contribué à l inertie de l axe 2 est Bordeaux (0,03%). On peut trier les contributions à l aide de la commande : 9. Découper la variable Latitude en 3 classes de même effectif avec les libellés nord, centre, sud comme nom de niveaux. Idem pour la variable Longitude (avec les libellés ouest, centre, est ). Appeler les nouvelles variables laticlasse, longiclasse. 10. Réaliser à nouveau l ACP du tableau des températures en faisant maintenant en plus les choix suivants : variables illustratives quantitatives (supplementary variables) = latitude, longitude, amplitude, moyenne ; variables illustratives qualitatives (supplementary factors) = laticlasse, longiclasse. On pourra également utiliser les options graphiques consistant à représenter d une même couleur les individus possédant la même modalité (coloring for individuals = LatiClasse, par exemple). Individuals factor map (PCA) 2 0 2 4 6 sud centre nord Lille Strasbourg Brest Rennes Nantes nord Paris Vichy Clermont centre Grenoble Lyon Nice Bordeaux Toulouse sud Montpellier Marseille 4 2 0 2 4 6 Variables factor map (PCA) Latitude Longitude Amplitude janvier décembre février novembre mars octobre Moyenne avril septembre aout juin mai juillet 11. Produire le premier plan factoriel des individus ainsi que celui des variables à l aide du package dyngraph. Interpréter les deux premiers axes factoriels. L axe 1 de l ACP oppose clairement les villes du sud (Nice, Marseille, Montpellier) à celles du nord (Lille, Strasbourg).
On vérifie aisément que ces villes situées aux extrémités de l axe sont celles qui ont naturellement le plus contribué à sa construction (la contribution de Nice est par exemple égale à 25,11%). Le cercle des corrélations présente clairement un effet taille le long de ce premier axe : l ensemble des variables sont liées à ce facteur et les variables sont de plus très liées les unes aux autres. Cette première dimension représente par conséquent un gradient de température moyenne puisqu il ordonne les villes globalement les plus froides vers les plus chaudes tout au long de l année. Décrivons la situation de deux villes : Nice, situé à l extrémité positive de l axe 1 est donc une ville qui prend des valeurs plus élevées que la moyenne pour toutes les variables allant dans sa direction, c est-à-dire pour l ensemble des mois de l année. A l opposé, une ville comme Lille est globalement plus froide que la moyenne tout au long de l année, car sa position s oppose à la direction de l ensemble des variables. Cette interprétation de l axe 1 est appuyée par les corrélation très élevées des variables supplémentaires Latitude et Moyenne à l axe 1 (respectivement -0,8389 et 0,9997.) L axe 2 quant à lui oppose la ville de Brest (contribution supérieure à 49%) à des villes comme Strasbourg, Grenoble ou Lyon. Cet axe représente donc a priori une opposition est - ouest. Mais si cette opposition est bien marquée pour les ville de la moitié nord, elle l est très peu en ce qui concerne les villes du sud. Cela se répercute sur la valeur de la corrélation de la variable supplémentaire Longitude à l axe 2 (égale à -0.7922), donc moins intense que celle de la latitude à l axe 1. Par contre, la variable amplitude thermique s avère bien plus représentative de cette dimension au vu de sa corrélation avec l axe (-0,9857). Cette dimension décrit donc bien l opposition entre climats caractéristiques du littoral atlantique, à faible amplitude (le cas le plus emblématique étant celui de Brest) et ceux de type continental, à forte amplitude thermique (Grenoble ou Strasbourg). Plus en détail, on remarque que la position de Brest (haut de l axe 2) est en accord avec des corrélations assez élevées positivement entre l axe 2 et les variables décembre, janvier ou février (il y fait particulièrement doux en hiver) et des corrélations assez élevées négativement entre l axe 2 et les mois d été (Brest fait partie des villes les plus fraîches de France en été). 2. Analyse en composantes principales : exemple des jus d orange 6 jus d orange ont été décrits par un panel de dégustateurs du point de vue de 7 descripteurs sensoriels : intensité de l odeur, typicité de l odeur, caractère pulpeux, intensité du goût caractère acide, caractère amer, caractère sucré. On dispose également pour ces 6 jus d orange : de 9 mesures physico-chimiques (ou instrumentales) : Glucose, Fructose, Saccharose, SucreTotal, ph brut, ph après centrifugation, Titre, Acide citrique, Vitamine C. de notes de satisfaction données par 96 consommateurs. 1. Importer le jeu de données Orange.txt. 2. Déclarer la colonne Jus comme le nom des individus. 3. Ajouter au jeu de données la variable qualitative FraisAmb, selon que le jus d orange est vendu au rayon frais ou ambiant. 4. Réaliser l ACP normée du jeu de données en choisissant : les 7 descripteurs sensoriels comme variables actives ; les 9 variables instrumentales comme variables supplémentaires ; la variable FraisAmb comme facteur supplémentaire. 5. Produire le graphique des individus où l on fera apparaître les deux types de jus : frais et ambiant. 6. Produire le cercle des corrélations avec les variables actives et supplémentaires.
7. Refaire une ACP avec les mêmes variables actives mais en choisissant cette fois-ci les 96 notes de satisfaction comme variables supplémentaires.