Université d'angers master MIM TD analyse de données p. I Etude d'un nuage de points TP : Analyse en composantes principales. Construire le nuage centré de 5 individus caractérisés par un couple de variables suivant une loi normale d'espérance (,) et de matrice de covariance Σ =.5 u u : u. Construire une fonction qui pour un vecteur unitaire.5 4 (fonction mvrnorm de MASS). - calcule l'inertie projetée sur l'axe, - calcule l'affixe de la projection de chaque individu sur l'axe, - dans la même fenêtre représente l'histogramme des affixes et l'ajustement d'une loi normale (fonction dnorm) représente le nuage de points et le vecteur 3. Etudier graphiquement (boxplot) la dispersion des projections pour différents vecteurs unitaires. Conclure. 4. Construire l'ellipse de concentration du nuage (fonction ellipse de car) et calculer les axes principaux ainsi que l'inertie suivant chaque axe. mvrnorm(5, mu = c(, ), Sig = matrix(c(,.5,.5, 4), c(, [,] )))[,] -4-4 - - mvrnorm(5, mu = c(, ), Sig = matrix(c(,.5,.5, 4), c(, [,] )))[,] II DVS. Soit X un tableau centré et R sa forme réduite. Etudier la DVS de (X,diag( /σ j ), n I n) et (R,I p, n I n).. a. Effectuer la DVS (X,I p,i n ) de A = et b. Determiner l'opérateur de projection sur Im B. B =.
Université d'angers master MIM TD analyse de données p. III Etude d un tableau à l aide d une ACP Partie A : calcul à la main Le tableau de données ci-dessous est constitué de trois variables x, y et z, et de quatre individus A à D. On utilisera les valeurs exactes. x y z A B C D EFFECTUER L'ACP NORMEE DU TABLEAU ) Calculer le centre de gravité g I du nuage. ) Calculer le tableau centré réduit. 3) a. Calculer la matrice d'inertie S du nuage N(I). b. Que représente cette matrice? c. Quelle est l'inertie du nuage? 4) Recherche des axes principaux d'inertie : a. Déterminer les valeurs propres de S. b. Vérifier votre résultat à l'aide de la question 3) c. c. Déterminer les deux premiers vecteurs propres. 5) a. Quelle est la contribution absolue de l'axe F à l'inertie du nuage? b. Quel est le taux d'inertie extrait par l'axe F? c. Quelle est la meilleure représentation plane?
Université d'angers master MIM TD analyse de données p. 3 REPRESENTATION DES INDIVIDUS ) Compléter dans le tableau ci-dessous les composantes principales (coordonnées des individus). composantes principales qlt = cos² (/) ctr (/) F F F3 F F F F A B C D ) Calculer l'inertie des individus et 4 par rapport à g I. 3) Définir la qualité de représentation de i sur l'axe F et compléter le tableau ci-dessus. 4) Compléter les contributions relatives des individus à l'inertie de l'axe F? 5) Effectuer la représentation graphique du plan ()-().
Université d'angers master MIM TD analyse de données p. 4 REPRESENTATION DES VARIABLES ) Calculer les coordonnées des individus sur les différents axes et compléter le tableau. coordonnées ctr (/) F F F F V V V 3 ) Définir la qualité de la représentation de la variable j sur les axes et compléter le tableau. 3) Effectuer la représentation graphique dans les différents plans. INDIVIDUS ET VARIABLES SUPPLEMENTAIRES Construire la représentation graphique de l'individus de coordonnées (,,). Construire la représentation graphique de la variable de coordonnées (,-,,-,). Partie B : Calculs à l'aide du logiciel R. Construire une fonction R permettant de déterminer pour un tableau T les valeurs propres ainsi que les composantes principales et qui représente le plan factoriel FF pour les individus et les variables. Partie C : Un second exemple Reprendre les étapes du I (calcul manuel + vérification sous R) avec le tableau de données : T= ou T= 3 v v v F E D C B A
Université d'angers master MIM TD analyse de données p. 5 IV Etude d'exemples Exemple : Etude olfacto-gustative de cidres Plusieurs caractéristiques du cidre ont été mesurées sur cidres différents. Les résultats de l ACP sont présentés page suivante. cidre odeur sucre acide amer astringence suffocante piquante alcool parfum fruitée,4,86 3,9,9,4,9,86,9,9,43,79,7,57,43,57,86,43,4 3,7 3,4,57,57,43,4,4,86,9,7 4 3 3,7,4,7,57,9 3,4 3,4 5 3,43,9,86 3,4,7,86,86,4,9 6 3,4,86,86 3,79,57,4,7 3,9,4 7 3,4,4,86,86,43,7,86,4 8,43 3,7 3,,57,7,57,57,86 9 5,,86,86 3,7,79,7,43,43,57,7 3,7 3,4,57 3,43,9,57 3,7 Partie I : Examen des données Utiliser les résultats ci-dessous pour justifier vos réponses. a. Justifier l'utilisation d'une ACP. b. Expliquer les différences obtenues entre une ACP normée et non normée? c. Déterminer trois groupes de variables qui présentent des corrélations entre elles (r>.5). d. Que représentent les ellipses dans la représentation en 3D. e. Expliquez les différences entre les ellipses obtenues dans les deux nuages. Pour réaliser les différents traitements avec R, il faut charger les packages rgl, ade4 et éventuellement Rcmdr (interface concivial). > cidre <- read.table("../echange/cidre.txt") Paramètres statistiques acid.793.385676 alco.788.937869 amer.693.644473 astr.94.355 fruit.5.3484843 odeu 3.59.87657 parf.48.7577 piqu.543.7454 sucr.5.86994 suffo.399.553844 > round(cov(cidre),) odeu sucr acid amer astr suffo piqu alco parf fruit odeu.68.7 -.4.5..38 -.37. -.7. sucr.7.4 -. -.44 -.9 -.3 -.53 -..6.5 acid -.4 -.. -..4..3.5 -.5 -. amer.5 -.44 -..39.4.3 -..4 -.45 -.4 astr. -.9.4.4...3.6 -.4 -.8 suffo.38 -.3..3..3 -.. -.3 -.7 piqu -.37 -.53.3 -..3 -..55.34 -.8 -.73 alco. -..5.4.6..34.88 -.8 -.5 parf -.7.6 -.5 -.45 -.4 -.3 -.8 -.8.7. fruit..5 -. -.4 -.8 -.7 -.73 -.5..8 > round(cor(cidre),) odeu sucr acid amer astr suffo piqu alco parf fruit odeu..8 -.6.49.4.84 -.6.3 -.9.8 sucr.8. -.9 -.6 -.77 -.9 -.6 -.9.87.95 acid -.6 -.9. -.8.34.4.4.5 -.4 -.7 amer.49 -.6 -.8..7.38 -.3.7 -.63 -.5 astr.4 -.77.34.7..7.4.86 -.66 -.64 suffo.84 -.9.4.38.7. -.3. -.5 -. piqu -.6 -.6.4 -.3.4 -.3..48 -.33 -.73 alco.3 -.9.5.7.86..48. -.76 -.83 parf -.9.87 -.4 -.63 -.66 -.5 -.33 -.76..8 fruit.8.95 -.7 -.5 -.64 -. -.73 -.83.8.
Université d'angers master MIM TD analyse de données p. 6 Examen graphique : >library("rgl") > cidrer = as.data.frame(scale(cidre)*sqrt(/9)) >attach(cidrer) nuage : >plot3d(acid,alco,suffo,type="s",xlim=c(-3,3),ylim=c(-3,3),zlim=c(-3,3)) >plot3d(ellipse3d(cor(cbind(acid,alco,suffo))),col="grey",alpha=.5,add=true) nuage : >plot3d(parf,alco,sucr,type="s",xlim=c(-3,3),ylim=c(-3,3),zlim=c(-3,3)) >plot3d(ellipse3d(cor(cbind(parf,alco,sucr))),col="grey",alpha=.5,add=true)
Université d'angers master MIM TD analyse de données p. 7 Partie II : ACP normée du tableau. Nombre de facteurs retenus > round(acp$eig,) [] 5.5.5..83.9.4.5.. > round(cumsum(acp$eig*),) [] 5.54 76.56 87.53 95.87 97.8 99. 99.7 99.94. a. Les deux premiers facteurs ont été retenus ici. Quel est le pourcentage de variance expliqué par ces deux facteurs? b. Que signifie ce pourcentage? / Analyse des variables >inertie <-inertia.dudi(acp, col.inertia=true) [coordonnées des variables] > round(acp$co,) Comp Comp odeu -.8 -.98 sucr.97 -.6 acid -.33.5 amer -.7 -.47 astr -.83 -.3 suffo -.3 -.79 piqu -.49.7 alco -.94.4 parf.9. fruit.9 -.9 [ctr en %] > inertie$col.abs/ Comp Comp odeu.3 38.7 sucr 8.4.5 acid.7.94 amer 9.97 8.68 astr 3.49.4 suffo.84 4.96 piqu 4.65.59 alco 7.8.6 parf 5.95.54 fruit 6. 3.44 [qlt en %] > inertie$col.re/ Comp Comp con.tra odeu -.69-96.83 sucr 94.84 -.63 acid -.65.35 amer -5.38 -.7 astr -69.54 -. suffo -9.48-6.44 piqu -3.97 5.5 alco -89.9.6 parf 8.3 3.85 fruit 83.56-8.6 > s.corcircle(acp$co,xax=,yax=) a. Comment reconnaît-on sur la figure des variables qu une variable est bien représentée? h. Donner une signification à cet axe. b. Quelles sont les variables mal représentées dans le plan F-F? Justifier votre réponse. c. A l aide de la figure sur les variables, préciser la variable la plus corrélée positivement à alcool, la plus corrélée négativement à alcool, la moins corrélée à alcool. d. Quelles sont les variables qui ont contribuées à l axe F? Justifier votre réponse. e. f. Donner une signification à cet axe. g. Quelles sont les variables qui ont contribuées à l axe F? Justifier votre réponse.
Université d'angers master MIM TD analyse de données p. 8 3/ Analyse des individus >inertie <-inertia.dudi(acp, row.inertia=true) Composantes principales > round(acp$li,) Axis Axis -.53.87 -.5.4 3.8.9 4 3.3. 5 -. -.6 6-3.57 -.4 7 -.69. 8.94. 9.9-4.9.78 -.76 [ctr en %] > inertie$row.abs/ Axis Axis.55 3.9 8.95 7.97 3 6.4 3.4 4.35.7 5 9.37.53 6 4.78. 7 5.55.6 8 6.74 4.4 9.6 66.77 6.4.3 [qlt en %] > inertie$row.re/ Axis Axis con.tra -4.7 58. 6. -56.65 4.5 8.4 3 49..7 6.7 4 77.55.9 4.9 5-78.9-6.9 6.8 6-8.36 -. 5.5 7-69.7.35 4. 8 63.9 7.48 3.5 9.46-9.86 8.9 4.36-7.76 7.47 > s.label(acp$li,xax=,yax=) a. Comment évalue-t-on si un individu est bien représenté dans un plan? b. Quel est l individu le mieux représenté dans le plan F-F? Justifier votre réponses. c. Quels sont les 3 individus les moins bien représentés dans le plan F-F? Justifier votre réponse. d. Quels sont les individus qui ont contribuées à l axe F? Justifier votre réponse. e. Quels sont les individus qui ont contribuées à l axe F? Justifier votre réponse. f. Proposer 4 groupes de cidres en précisant clairement les principales caractéristiques de ces groupes. 4. Vers la classification. Les individus semblent se répartir en quatre groupes : groupe : 5 6 7 groupe : 3 4 8 groupe 3 : 9 groupe 4 : Créons un facteur indiquant le groupe : > fac <- as.factor(c(4,,,,,,,,3,)) > s.class(dfxy=acp$li,fac=fac,xax=,yax=)
Université d'angers master MIM TD analyse de données p. 9 Exemple II : Charolais Zebu Nous étudions dans cette partie les masses de différentes parties d'un groupe de 3 bovins constitué de charolais ( à ) et zebus (3 à 3). Les variables représentent: poids vif. poids de la carcasse. poids de la viande de première qualité. poids de la viande totale. poids du gras. poids des os. Analyser les résultats ci-dessous. > zebu<-read.table("zebu.txt",header=t) > zebu vif carc qsup tota gras os race 395 4 35. 79. 6. 4.9 4 3 3.9 73.4 9.7 6.4 3 45 33 3.7 76.5 7.5 6.5 4 45 4 3.4 75.3 8.7 6. > race <- as.factor(race) > zebu <- zebu[,:6]. Paramètres statistiques: Moyenne et écart-type par race Variable: carc 33. 8.7949 4.77 6.854 Variable: gras 7.58333.439986.845455.75865 Variable: os 6.3833.9949494 6.588.5846 Variable: qsup 3.9967.344658 7.66364.343334 Variable: tota 76.6.5 7.56364.973 Variable: vif 4.5 9.8857 399.773 4.59 Matrice des corrélations vif carc qsup tota gras os vif..64 -.9 -.3.6 -.6 carc.64..8.39 -.33 -.9 qsup -.9.8..89 -.86 -.6 tota -.3.39.89. -.9 -. gras.6 -.33 -.86 -.9. -.7 os -.6 -.9 -.6 -. -.7.. Représentation graphique 6 8 carc 6 8 6 3 34 39 45 4 gras 5 3 45 os 5 7 6 3 34 39 45 4 5 3 45 qsup tota 5 7 7 74 78 vif 7 74 78
Université d'angers master MIM TD analyse de données p. 3. Valeurs propres > library(ade4) > acp <- dudi.pca(zebu) > round(acp$eig,) [].95.6.7.7.8. > round(cumsum(acp$eig*),) [] 9.5 45.7 56.37 59.8 59.89 6. 4. Analyse des variables inertie <-inertia.dudi(acp, col.inertia=true) Coordonnées >round(acp$co,) Comp Comp Comp3 vif.3.93.9 carc -.48.8. qsup -.94 -. -. tota -.97 -.7 -.6 gras.95.9 -. os -. -.6.96 [CTR en ième ] > inertie$col.abs Comp Comp Comp3 vif 53 34 carc 779 393 7 qsup 97 73 36 tota 38 33 54 gras 366 4 49 os 43 87 [Qlt en ième ] > inertie$col.re Comp Comp Comp3 con.tra vif 7 863 364 667 carc -99 6366 36 667 qsup -8766-9 -45 667 tota -9387-53 -7 667 gras 946 363-458 667 os -3-696 987 667 s.corcircle(acp$co,xax=,yax=) axes axes - 3 axes - 3
Université d'angers master MIM TD analyse de données p. 4. Analyse des individus inertie <-inertia.dudi(acp, row.inertia=true) Composantes principales > round(acp$li,3) Axis Axis Axis3 -.69 -.37 -.786 -.5..8 3 -.7.499. 4 -.67.8 -.49 5 -.756 -.9 -.5 6 -.999.337 -.66 7 -.4 -.65.76 8 -.3.78 -.89 9 -.4.96.83 -.869 -.954 -.5 -.65.663.76 -.3 -.57.8 3.87 -.8 -.898 4.4 -.485 -.49 5.73 -.635.48 6.586 -.76.7 7.88 -.699.64 8.735.87 -.74 9.56.3 -.835.8.457.593.365.5.4.949 -.8 -.53 3 3.3 -.55.897 [CTR en ième ] > inertie$row.abs Axis Axis Axis3 67 347 3 36 3 3 69 67 7 4 66 45 9 5 84 83 54 6 589 48 55 7 85 78 3 8 7 438 74 9 89 975 76 55 4 4 67 94 3 69 69 677 3 44 39 4 7 63 68 5 75 78 8 6 5 3 7 4 3 553 8 443 9 36 9 966 3 374 478 57 43 75 68 59 8 6 3 444 98 39 [Qlt en ième ] > inertie$row.re Axis Axis Axis3 con.tra -5975-68 -634 878-4836 9 8 3-733 59 6 4 4-994 667-98 64 5-948 -6695-437 6-64 785-59 465 7-6356 -97 84 658 8-378 44-7 86 9-74 4 785 65-4653 -585-5 544-359 8497 9 65-47 -94 469 635 3 6643-7 -33 8 4 556-848 -8 6 5 945-4975 374 389 6 6-5446 3 54 7 99-836 594 93 8 4939 57-497 44 9 655 3-3365 75 54 3547 588 434 449 66 3494 3 9644-7 654 3 89-9 667 876 axes axes - 3
Université d'angers : master MIM TP analyse des données p. axes - 3 5. Avec les informations sur les races : axes - axes - 3
Université d'angers : master MIM TP analyse des données p. 3 Exemple 3 : Etude de l'alimentation des foyers français Soit le tableau suivant décrivant en 97 la consommation annuelle en francs de différentes catégories socio-professionnelles pour différents aliments. pain légumes fruits viandes volailles lait vin MA 33 48 354 437 56 47 47 EM 93 559 388 57 567 39 58 CA 37 767 56 948 97 35 433 MA3 46 563 34 57 544 34 47 EM3 386 68 396 5 558 39 363 CA3 438 843 689 345 48 43 34 MA4 534 66 367 6 638 44 47 EM4 46 699 484 856 76 4 46 CA4 385 789 6 366 49 34 8 MA5 655 776 43 848 759 495 486 EM5 584 995 548 56 893 58 39 CA5 55 97 887 63 67 56 84 CA, MA, EM indiquent la profession: cadre, agent de maintenance et employé. Le chiffre indique le nombre de personnes constituant la famille. Le fichier s'appelle csp.txt. Reprendre l'étude de l'exemple précédent pour étudier ce tableau.