TP 2 : Analyse en composantes principales

Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Initiation à l analyse en composantes principales

ACP Voitures 1- Méthode

L'analyse des données à l usage des non mathématiciens

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Introduction. Préambule. Le contexte

Analyse en Composantes Principales

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Tâche : Comparer l étiquette de produits alimentaires afin de connaître leur valeur nutritive.

Charte PNNS Groupe CASINO Résultats

1 Complément sur la projection du nuage des individus

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

La place de SAS dans l'informatique décisionnelle

Microsoft Excel : tables de données

TP N 3 La composition chimique du vivant

LISTE V AU PROTOCOLE A MAROC. Description des produits

Analyse des correspondances avec colonne de référence

IGP CITE DE CARCASSONNE-CABERNET

Extraction d informations stratégiques par Analyse en Composantes Principales

La classification automatique de données quantitatives

Introduction à l'analyse multivariée (factorielle) sous R. Stéphane CHAMPELY

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Ricco.Rakotomalala

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

MAÎTRISER LA LECTURE DES ÉTIQUETTES NUTRITIONNELLES

Développement d une application pilote

Les Enseignants de l Ere Technologique - Tunisie. Niveau 1

Dérivation : cours. Dérivation dans R

AVANT-PROPOS. Directeur de la Division de la statistique de la FAO

Aide-mémoire de statistique appliquée à la biologie

Dextro Energy gel Liquid Apple

Mémo d utilisation de ADE-4

lire les Étiquettes et trouver les sucres cachés

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Régression linéaire. Nicolas Turenne INRA

Le BTS Sciences et Technologies des Aliments (STA)

Manuel de l'utilisateur d'intego VirusBarrier Express et VirusBarrier Plus

TD1 Signaux, énergie et puissance, signaux aléatoires

Evaluation de la typicité des vins liés au terroir : proposition de méthodes pour les professionnels de la filière

Fiche d animation n 1 : Pêle-mêle

Circulaire relative aux dispositions applicables aux banques alimentaires et associations caritatives

Comment utilisons-nous notre argent?

La lettre électronique du service économie agricole de l'essonne n 3 juillet 2012

Simulation Matlab/Simulink d une machine à induction triphasée. Constitution d un référentiel

Les Autorisations de Mise sur le Marché (AMM) délivrées au titre du Règlement (UE) n 528/2012 (dit BPR)

La cohabitation des races ovines Ouled Jellal (OJ) et Beni Guil (BG) et développement de l'élevage ovin dans le système pastoral du Maroc Oriental

Quoi manger et boire avant, pendant et après l activité physique

Evaluation de la variabilité d'un système de mesure

Master professionnel aliments, microbiologie, assurance qualité

Individus et informations supplémentaires

Programme en 1 an. 3 èmes cycles spécialisés & MBA. Votre candidature cocher le(s) 3 ème(s) cycle(s) choisis en indiquant l ordre de préférence

GRENADE / GARONNE 30 janvier Centrale de Restauration MARTEL Maryse LAFFONT, Diététicienne

Chafa Azzedine - Faculté de Physique U.S.T.H.B 1

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

BESOIN DE MANGER ET BOIRE chez BB. Besoin d'eau : 125cc/kg/jour Maximum 1 litre.

FEN FICHE EMPLOIS NUISANCES

Comment prendre sa carte de pêche par Internet

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

La Carte et le Menus

Développements limités, équivalents et calculs de limites

EnergyOatSnack barre Banana Bread

INTRODUCTION AU DATA MINING

Logiciel XLSTAT version rue Damrémont PARIS

1. Introduction Création d'une requête...2

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

La Carte et le Menus

Science et technique. La température et la durée de stockage sont des facteurs déterminants. Viande bovine et micro-organisme pathogène

Le test de dépistage qui a été pratiqué à la

Les aliments de l intelligence

ETUDE DE PERCEPTION PRODUIT

DESSERTS PATISSIERS. Sirop à baba : eau, sucre, glucose, armagnac (12% à 50 ), 6 babas (farine de blé, œufs, beurre, levure, sel, sucre)

TP Service HTTP Serveur Apache Linux Debian

Factsheet Qu est-ce que le yogourt?

Rentrée 2014 Francine Eichenberger Diététicienne

Située à 50km de Paris, la Bergerie est le lieu idéal pour vos Séminaires.

Evaluation de cépages résistants ou tolérants aux principales maladies cryptogamiques de la vigne

TP 03 B : Mesure d une vitesse par effet Doppler

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Le logo «Fait maison»

Leçon 10. Je quitte la maison - par où commencer? Matériel : Niveaux : Buts : Vocabulaire : Temps requis :

Analyse de variance à deux facteurs (plan inter-sujets à deux facteurs) TP9

Gestion d'une billeterie défilé des talents

Pascal Schlich, INRA

Profits et rendements maximum.

RAPPELS DU COURS PRÉCÉDENT

L équilibre alimentaire.

Depuis 50 ans, nous vous assurons la meilleure couverture.

Tous au marché! LES MS/GS DECOUVRENT LE MARCHE DE TARTAS

Analyse de grandes bases de données en santé

Le secteur agroalimentaire en Provence-Alpes-Côte d Azur

SPHINX Logiciel de dépouillement d enquêtes

«Cette action contribue au PNNS». À CHÂTEAU THIERRY

Introduction à Eclipse

IR1/IG1 Base de données TD#1

SPECIALITE : RESTAURATION À LIRE ATTENTIVEMENT AVANT DE TRAITER LE SUJET

Transcription:

Université d'angers master MIM TD analyse de données p. I Etude d'un nuage de points TP : Analyse en composantes principales. Construire le nuage centré de 5 individus caractérisés par un couple de variables suivant une loi normale d'espérance (,) et de matrice de covariance Σ =.5 u u : u. Construire une fonction qui pour un vecteur unitaire.5 4 (fonction mvrnorm de MASS). - calcule l'inertie projetée sur l'axe, - calcule l'affixe de la projection de chaque individu sur l'axe, - dans la même fenêtre représente l'histogramme des affixes et l'ajustement d'une loi normale (fonction dnorm) représente le nuage de points et le vecteur 3. Etudier graphiquement (boxplot) la dispersion des projections pour différents vecteurs unitaires. Conclure. 4. Construire l'ellipse de concentration du nuage (fonction ellipse de car) et calculer les axes principaux ainsi que l'inertie suivant chaque axe. mvrnorm(5, mu = c(, ), Sig = matrix(c(,.5,.5, 4), c(, [,] )))[,] -4-4 - - mvrnorm(5, mu = c(, ), Sig = matrix(c(,.5,.5, 4), c(, [,] )))[,] II DVS. Soit X un tableau centré et R sa forme réduite. Etudier la DVS de (X,diag( /σ j ), n I n) et (R,I p, n I n).. a. Effectuer la DVS (X,I p,i n ) de A = et b. Determiner l'opérateur de projection sur Im B. B =.

Université d'angers master MIM TD analyse de données p. III Etude d un tableau à l aide d une ACP Partie A : calcul à la main Le tableau de données ci-dessous est constitué de trois variables x, y et z, et de quatre individus A à D. On utilisera les valeurs exactes. x y z A B C D EFFECTUER L'ACP NORMEE DU TABLEAU ) Calculer le centre de gravité g I du nuage. ) Calculer le tableau centré réduit. 3) a. Calculer la matrice d'inertie S du nuage N(I). b. Que représente cette matrice? c. Quelle est l'inertie du nuage? 4) Recherche des axes principaux d'inertie : a. Déterminer les valeurs propres de S. b. Vérifier votre résultat à l'aide de la question 3) c. c. Déterminer les deux premiers vecteurs propres. 5) a. Quelle est la contribution absolue de l'axe F à l'inertie du nuage? b. Quel est le taux d'inertie extrait par l'axe F? c. Quelle est la meilleure représentation plane?

Université d'angers master MIM TD analyse de données p. 3 REPRESENTATION DES INDIVIDUS ) Compléter dans le tableau ci-dessous les composantes principales (coordonnées des individus). composantes principales qlt = cos² (/) ctr (/) F F F3 F F F F A B C D ) Calculer l'inertie des individus et 4 par rapport à g I. 3) Définir la qualité de représentation de i sur l'axe F et compléter le tableau ci-dessus. 4) Compléter les contributions relatives des individus à l'inertie de l'axe F? 5) Effectuer la représentation graphique du plan ()-().

Université d'angers master MIM TD analyse de données p. 4 REPRESENTATION DES VARIABLES ) Calculer les coordonnées des individus sur les différents axes et compléter le tableau. coordonnées ctr (/) F F F F V V V 3 ) Définir la qualité de la représentation de la variable j sur les axes et compléter le tableau. 3) Effectuer la représentation graphique dans les différents plans. INDIVIDUS ET VARIABLES SUPPLEMENTAIRES Construire la représentation graphique de l'individus de coordonnées (,,). Construire la représentation graphique de la variable de coordonnées (,-,,-,). Partie B : Calculs à l'aide du logiciel R. Construire une fonction R permettant de déterminer pour un tableau T les valeurs propres ainsi que les composantes principales et qui représente le plan factoriel FF pour les individus et les variables. Partie C : Un second exemple Reprendre les étapes du I (calcul manuel + vérification sous R) avec le tableau de données : T= ou T= 3 v v v F E D C B A

Université d'angers master MIM TD analyse de données p. 5 IV Etude d'exemples Exemple : Etude olfacto-gustative de cidres Plusieurs caractéristiques du cidre ont été mesurées sur cidres différents. Les résultats de l ACP sont présentés page suivante. cidre odeur sucre acide amer astringence suffocante piquante alcool parfum fruitée,4,86 3,9,9,4,9,86,9,9,43,79,7,57,43,57,86,43,4 3,7 3,4,57,57,43,4,4,86,9,7 4 3 3,7,4,7,57,9 3,4 3,4 5 3,43,9,86 3,4,7,86,86,4,9 6 3,4,86,86 3,79,57,4,7 3,9,4 7 3,4,4,86,86,43,7,86,4 8,43 3,7 3,,57,7,57,57,86 9 5,,86,86 3,7,79,7,43,43,57,7 3,7 3,4,57 3,43,9,57 3,7 Partie I : Examen des données Utiliser les résultats ci-dessous pour justifier vos réponses. a. Justifier l'utilisation d'une ACP. b. Expliquer les différences obtenues entre une ACP normée et non normée? c. Déterminer trois groupes de variables qui présentent des corrélations entre elles (r>.5). d. Que représentent les ellipses dans la représentation en 3D. e. Expliquez les différences entre les ellipses obtenues dans les deux nuages. Pour réaliser les différents traitements avec R, il faut charger les packages rgl, ade4 et éventuellement Rcmdr (interface concivial). > cidre <- read.table("../echange/cidre.txt") Paramètres statistiques acid.793.385676 alco.788.937869 amer.693.644473 astr.94.355 fruit.5.3484843 odeu 3.59.87657 parf.48.7577 piqu.543.7454 sucr.5.86994 suffo.399.553844 > round(cov(cidre),) odeu sucr acid amer astr suffo piqu alco parf fruit odeu.68.7 -.4.5..38 -.37. -.7. sucr.7.4 -. -.44 -.9 -.3 -.53 -..6.5 acid -.4 -.. -..4..3.5 -.5 -. amer.5 -.44 -..39.4.3 -..4 -.45 -.4 astr. -.9.4.4...3.6 -.4 -.8 suffo.38 -.3..3..3 -.. -.3 -.7 piqu -.37 -.53.3 -..3 -..55.34 -.8 -.73 alco. -..5.4.6..34.88 -.8 -.5 parf -.7.6 -.5 -.45 -.4 -.3 -.8 -.8.7. fruit..5 -. -.4 -.8 -.7 -.73 -.5..8 > round(cor(cidre),) odeu sucr acid amer astr suffo piqu alco parf fruit odeu..8 -.6.49.4.84 -.6.3 -.9.8 sucr.8. -.9 -.6 -.77 -.9 -.6 -.9.87.95 acid -.6 -.9. -.8.34.4.4.5 -.4 -.7 amer.49 -.6 -.8..7.38 -.3.7 -.63 -.5 astr.4 -.77.34.7..7.4.86 -.66 -.64 suffo.84 -.9.4.38.7. -.3. -.5 -. piqu -.6 -.6.4 -.3.4 -.3..48 -.33 -.73 alco.3 -.9.5.7.86..48. -.76 -.83 parf -.9.87 -.4 -.63 -.66 -.5 -.33 -.76..8 fruit.8.95 -.7 -.5 -.64 -. -.73 -.83.8.

Université d'angers master MIM TD analyse de données p. 6 Examen graphique : >library("rgl") > cidrer = as.data.frame(scale(cidre)*sqrt(/9)) >attach(cidrer) nuage : >plot3d(acid,alco,suffo,type="s",xlim=c(-3,3),ylim=c(-3,3),zlim=c(-3,3)) >plot3d(ellipse3d(cor(cbind(acid,alco,suffo))),col="grey",alpha=.5,add=true) nuage : >plot3d(parf,alco,sucr,type="s",xlim=c(-3,3),ylim=c(-3,3),zlim=c(-3,3)) >plot3d(ellipse3d(cor(cbind(parf,alco,sucr))),col="grey",alpha=.5,add=true)

Université d'angers master MIM TD analyse de données p. 7 Partie II : ACP normée du tableau. Nombre de facteurs retenus > round(acp$eig,) [] 5.5.5..83.9.4.5.. > round(cumsum(acp$eig*),) [] 5.54 76.56 87.53 95.87 97.8 99. 99.7 99.94. a. Les deux premiers facteurs ont été retenus ici. Quel est le pourcentage de variance expliqué par ces deux facteurs? b. Que signifie ce pourcentage? / Analyse des variables >inertie <-inertia.dudi(acp, col.inertia=true) [coordonnées des variables] > round(acp$co,) Comp Comp odeu -.8 -.98 sucr.97 -.6 acid -.33.5 amer -.7 -.47 astr -.83 -.3 suffo -.3 -.79 piqu -.49.7 alco -.94.4 parf.9. fruit.9 -.9 [ctr en %] > inertie$col.abs/ Comp Comp odeu.3 38.7 sucr 8.4.5 acid.7.94 amer 9.97 8.68 astr 3.49.4 suffo.84 4.96 piqu 4.65.59 alco 7.8.6 parf 5.95.54 fruit 6. 3.44 [qlt en %] > inertie$col.re/ Comp Comp con.tra odeu -.69-96.83 sucr 94.84 -.63 acid -.65.35 amer -5.38 -.7 astr -69.54 -. suffo -9.48-6.44 piqu -3.97 5.5 alco -89.9.6 parf 8.3 3.85 fruit 83.56-8.6 > s.corcircle(acp$co,xax=,yax=) a. Comment reconnaît-on sur la figure des variables qu une variable est bien représentée? h. Donner une signification à cet axe. b. Quelles sont les variables mal représentées dans le plan F-F? Justifier votre réponse. c. A l aide de la figure sur les variables, préciser la variable la plus corrélée positivement à alcool, la plus corrélée négativement à alcool, la moins corrélée à alcool. d. Quelles sont les variables qui ont contribuées à l axe F? Justifier votre réponse. e. f. Donner une signification à cet axe. g. Quelles sont les variables qui ont contribuées à l axe F? Justifier votre réponse.

Université d'angers master MIM TD analyse de données p. 8 3/ Analyse des individus >inertie <-inertia.dudi(acp, row.inertia=true) Composantes principales > round(acp$li,) Axis Axis -.53.87 -.5.4 3.8.9 4 3.3. 5 -. -.6 6-3.57 -.4 7 -.69. 8.94. 9.9-4.9.78 -.76 [ctr en %] > inertie$row.abs/ Axis Axis.55 3.9 8.95 7.97 3 6.4 3.4 4.35.7 5 9.37.53 6 4.78. 7 5.55.6 8 6.74 4.4 9.6 66.77 6.4.3 [qlt en %] > inertie$row.re/ Axis Axis con.tra -4.7 58. 6. -56.65 4.5 8.4 3 49..7 6.7 4 77.55.9 4.9 5-78.9-6.9 6.8 6-8.36 -. 5.5 7-69.7.35 4. 8 63.9 7.48 3.5 9.46-9.86 8.9 4.36-7.76 7.47 > s.label(acp$li,xax=,yax=) a. Comment évalue-t-on si un individu est bien représenté dans un plan? b. Quel est l individu le mieux représenté dans le plan F-F? Justifier votre réponses. c. Quels sont les 3 individus les moins bien représentés dans le plan F-F? Justifier votre réponse. d. Quels sont les individus qui ont contribuées à l axe F? Justifier votre réponse. e. Quels sont les individus qui ont contribuées à l axe F? Justifier votre réponse. f. Proposer 4 groupes de cidres en précisant clairement les principales caractéristiques de ces groupes. 4. Vers la classification. Les individus semblent se répartir en quatre groupes : groupe : 5 6 7 groupe : 3 4 8 groupe 3 : 9 groupe 4 : Créons un facteur indiquant le groupe : > fac <- as.factor(c(4,,,,,,,,3,)) > s.class(dfxy=acp$li,fac=fac,xax=,yax=)

Université d'angers master MIM TD analyse de données p. 9 Exemple II : Charolais Zebu Nous étudions dans cette partie les masses de différentes parties d'un groupe de 3 bovins constitué de charolais ( à ) et zebus (3 à 3). Les variables représentent: poids vif. poids de la carcasse. poids de la viande de première qualité. poids de la viande totale. poids du gras. poids des os. Analyser les résultats ci-dessous. > zebu<-read.table("zebu.txt",header=t) > zebu vif carc qsup tota gras os race 395 4 35. 79. 6. 4.9 4 3 3.9 73.4 9.7 6.4 3 45 33 3.7 76.5 7.5 6.5 4 45 4 3.4 75.3 8.7 6. > race <- as.factor(race) > zebu <- zebu[,:6]. Paramètres statistiques: Moyenne et écart-type par race Variable: carc 33. 8.7949 4.77 6.854 Variable: gras 7.58333.439986.845455.75865 Variable: os 6.3833.9949494 6.588.5846 Variable: qsup 3.9967.344658 7.66364.343334 Variable: tota 76.6.5 7.56364.973 Variable: vif 4.5 9.8857 399.773 4.59 Matrice des corrélations vif carc qsup tota gras os vif..64 -.9 -.3.6 -.6 carc.64..8.39 -.33 -.9 qsup -.9.8..89 -.86 -.6 tota -.3.39.89. -.9 -. gras.6 -.33 -.86 -.9. -.7 os -.6 -.9 -.6 -. -.7.. Représentation graphique 6 8 carc 6 8 6 3 34 39 45 4 gras 5 3 45 os 5 7 6 3 34 39 45 4 5 3 45 qsup tota 5 7 7 74 78 vif 7 74 78

Université d'angers master MIM TD analyse de données p. 3. Valeurs propres > library(ade4) > acp <- dudi.pca(zebu) > round(acp$eig,) [].95.6.7.7.8. > round(cumsum(acp$eig*),) [] 9.5 45.7 56.37 59.8 59.89 6. 4. Analyse des variables inertie <-inertia.dudi(acp, col.inertia=true) Coordonnées >round(acp$co,) Comp Comp Comp3 vif.3.93.9 carc -.48.8. qsup -.94 -. -. tota -.97 -.7 -.6 gras.95.9 -. os -. -.6.96 [CTR en ième ] > inertie$col.abs Comp Comp Comp3 vif 53 34 carc 779 393 7 qsup 97 73 36 tota 38 33 54 gras 366 4 49 os 43 87 [Qlt en ième ] > inertie$col.re Comp Comp Comp3 con.tra vif 7 863 364 667 carc -99 6366 36 667 qsup -8766-9 -45 667 tota -9387-53 -7 667 gras 946 363-458 667 os -3-696 987 667 s.corcircle(acp$co,xax=,yax=) axes axes - 3 axes - 3

Université d'angers master MIM TD analyse de données p. 4. Analyse des individus inertie <-inertia.dudi(acp, row.inertia=true) Composantes principales > round(acp$li,3) Axis Axis Axis3 -.69 -.37 -.786 -.5..8 3 -.7.499. 4 -.67.8 -.49 5 -.756 -.9 -.5 6 -.999.337 -.66 7 -.4 -.65.76 8 -.3.78 -.89 9 -.4.96.83 -.869 -.954 -.5 -.65.663.76 -.3 -.57.8 3.87 -.8 -.898 4.4 -.485 -.49 5.73 -.635.48 6.586 -.76.7 7.88 -.699.64 8.735.87 -.74 9.56.3 -.835.8.457.593.365.5.4.949 -.8 -.53 3 3.3 -.55.897 [CTR en ième ] > inertie$row.abs Axis Axis Axis3 67 347 3 36 3 3 69 67 7 4 66 45 9 5 84 83 54 6 589 48 55 7 85 78 3 8 7 438 74 9 89 975 76 55 4 4 67 94 3 69 69 677 3 44 39 4 7 63 68 5 75 78 8 6 5 3 7 4 3 553 8 443 9 36 9 966 3 374 478 57 43 75 68 59 8 6 3 444 98 39 [Qlt en ième ] > inertie$row.re Axis Axis Axis3 con.tra -5975-68 -634 878-4836 9 8 3-733 59 6 4 4-994 667-98 64 5-948 -6695-437 6-64 785-59 465 7-6356 -97 84 658 8-378 44-7 86 9-74 4 785 65-4653 -585-5 544-359 8497 9 65-47 -94 469 635 3 6643-7 -33 8 4 556-848 -8 6 5 945-4975 374 389 6 6-5446 3 54 7 99-836 594 93 8 4939 57-497 44 9 655 3-3365 75 54 3547 588 434 449 66 3494 3 9644-7 654 3 89-9 667 876 axes axes - 3

Université d'angers : master MIM TP analyse des données p. axes - 3 5. Avec les informations sur les races : axes - axes - 3

Université d'angers : master MIM TP analyse des données p. 3 Exemple 3 : Etude de l'alimentation des foyers français Soit le tableau suivant décrivant en 97 la consommation annuelle en francs de différentes catégories socio-professionnelles pour différents aliments. pain légumes fruits viandes volailles lait vin MA 33 48 354 437 56 47 47 EM 93 559 388 57 567 39 58 CA 37 767 56 948 97 35 433 MA3 46 563 34 57 544 34 47 EM3 386 68 396 5 558 39 363 CA3 438 843 689 345 48 43 34 MA4 534 66 367 6 638 44 47 EM4 46 699 484 856 76 4 46 CA4 385 789 6 366 49 34 8 MA5 655 776 43 848 759 495 486 EM5 584 995 548 56 893 58 39 CA5 55 97 887 63 67 56 84 CA, MA, EM indiquent la profession: cadre, agent de maintenance et employé. Le chiffre indique le nombre de personnes constituant la famille. Le fichier s'appelle csp.txt. Reprendre l'étude de l'exemple précédent pour étudier ce tableau.