TD ANALYSE DES DONNEES



Documents pareils
ACP Voitures 1- Méthode

Initiation à l analyse en composantes principales

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Evaluation de la typicité des vins liés au terroir : proposition de méthodes pour les professionnels de la filière

L'analyse des données à l usage des non mathématiciens

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Examen de Logiciels Statistiques

La classification automatique de données quantitatives

Analyse des correspondances avec colonne de référence

Scénario: Données bancaires et segmentation de clientèle

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Statistique Descriptive Multidimensionnelle. (pour les nuls)

ESIEA PARIS

Logiciel XLSTAT version rue Damrémont PARIS

Introduction à l'analyse multivariée (factorielle) sous R. Stéphane CHAMPELY

Statistiques Descriptives à une dimension

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Traits biologiques : variables ou K-tableaux?

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Individus et informations supplémentaires

Web Mining. YOUSSOUF Kamal LACHAAL Rafik. [Tapez le résumé du document ici. Il s agit généralement d une courte synthèse du document.

Statistiques. Rappels de cours et travaux dirigés. Master 1 Biologie et technologie du végétal. Année

Université Paris IX DAUPHINE DATE : 24/04/06

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Aide-mémoire de statistique appliquée à la biologie

Analyse en Composantes Principales

PLAN. Ricco Rakotomalala Tutoriels Tanagra - 2

CONSTRUIRE SES CARTES: LE DÉVELOPPEMENT D'OUTILS STATISTIQUES INTERACTIFS INTÉGRÉS À UN SYSTÈME D'INFORMATION GÉOGRAPHIQUE

QUESTIONNAIRE DE CREATION AGENCE IMMOBILIERE Vous souhaitez créer une SAS. DENOMINATION SOCIALE (Nom de votre société) : SIGNE (Si vous en avez un) :

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Responsabilité civile et décennale Construction maison individuelle

SPHINX Logiciel de dépouillement d enquêtes

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

FORMULAIRE DE DÉCLARATION DE PATRIMOINE

1 Complément sur la projection du nuage des individus

Avant-après, amont-aval : les couples de tableaux totalement appariés

Localisation des fonctions

Pascal Schlich, INRA

PLAFONNEMENT DES EFFETS DU QUOTIENT FAMILIAL

FIP ISATIS DÉVELOPPEMENT N 2

Introduction aux Statistiques et à l utilisation du logiciel R

Extraction d informations stratégiques par Analyse en Composantes Principales

NOTE SUR LA FISCALITÉ DU FONDS

Introduction. Préambule. Le contexte

en savoir plus sur les nouveaux barèmes C, H et A1 à A5

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

NOTE D INFORMATION SUR LA FISCALITE DU FIP HEXAGONE PATRIMOINE 1 AVERTISSEMENT

DEMANDE DE PRISE EN CHARGE D UNE PARTIE DE LA COTISATION À L ASSURANCE MALADIE DE LA CAISSE DES FRANÇAIS DE L ÉTRANGER

Requête en réclamation d aliments (articles 205 et suivants du Code Civil)

DOSSIER DE CANDIDATURE

FICHE DE RENSEIGNEMENTS

Mémo d utilisation de ADE-4

L Europe des consommateurs : Contexte international Rapport Eurobaromètre 47.0

Big Data : Risques et contre-mesures

Primes à l acquisition

NOTE FISCALE DU FIP ARKEON PRE COTATION REGIONS 2013

INPCA. Institution Nationale de Prévoyance du Commerce et de l Artisanat 2 / 0 / 1 / 4

REGLEMENT INTERIEUR TITRE I OBJET DU REGLEMENT L ADHESION

LES EUROPEENS ET LA QUALITE DE VIE

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Les néo ruraux et leurs rapports àla gouvernance : quels enjeux? quelles actions?

BROCHURE PACKS DE REFERENCEMENT. de la société. Référencement Page 1

INFORMATIONS GÉNÉRALES RÉSUMÉ MÉTHODOLOGIQUE

FIP ALLIANCE Soutenez le développement des PME françaises et diversifiez votre patrimoine financier à long terme.

Comment réduire son ISF grâce à l investissement dans les PME

DOSSIER DE DEMANDE D ADMISSION

FIP ECUREUIL N 10 IR 2014 ISF 2014 SOUTENEZ LE DÉVELOPPEMENT DES PME FRANÇAISES ET DIVERSIFIEZ VOTRE PATRIMOINE FINANCIER À LONG TERME

Étalonnage Consolidation au Québec

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

1 - PRESENTATION GENERALE...

INF6304 Interfaces Intelligentes

Le nombre de cotisants de solidarité agricoles diminue de 2 % entre 2010 et 2011.

DEMANDE D OUVERTURE D UN COMPTE PERSONNE MORALE (1)

Théorie des sondages : cours 5

NOM... Prénom... Né(e) le... /... /... Situation familiale : Nom et prénom(s) du conjoint :... Nb d enfants à charge : Adresse :... Ville :...

INTRODUCTION AU DATA MINING

Ricco.Rakotomalala

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

CONFERENCE INTERAFRICAINE DES MARCHES D ASSURANCE

Structure financière et performance économique des PME : Étude empirique sur les entreprises belges

Etudes marketing et connaissance client

Innover à l'ère du numérique : ramener l'europe sur la bonne voie Présentation de J.M. Barroso,

VOS COTISATIONS Octobre Nous vous adressons, sous ce pli, votre bordereau de cotisations. sociales et contributions de l'année 2014.

Introduction à R. Florence Yerly. Dept. de mathématiques, Université de Fribourg (CH) SP 2011

Spécificités, Applications et Outils

S LICENCE INFORMATIQUE Non Alt S Alt S S1 S2 S3 S4 SS5 S6 Parcours : S IL (Ingénierie Logicielle) SRI (Systèmes et Réseaux Informatiques)

Agrégation des portefeuilles de contrats d assurance vie

Commande Prédictive des. Convertisseurs Statiques

à à à entre 5 000K et K plus de K

Agenda annuel des informations / consultations du CE

SAS de base : gestion des données et procédures élémentaires

Classification non supervisée

SIG ET ANALYSE EXPLORATOIRE

Offre Transport de Marchandises

Formulaire de demande d aide financière extra-légale

COMMENT PAYEZ-VOUS? COMMENT VOUDRIEZ-VOUS PAYER?

Transcription:

Master 2 TVPS Angers Analyse des données : ACP AFC CAH 1 TD ANALYSE DES DONNEES Exemple d'acp : Etude olfacto-gustative de cidres Plusieurs caractéristiques du cidre ont été mesurées sur 10 cidres différents. Les résultats de l ACP sont présentés page suivante. cidre odeur sucre acide amer astringence suffocante piquante alcool parfum fruitée 1 2,14 1,86,29 2,29 2 0,14 2,29 1,86 1,29 1,29 2 2,4 0,79 2,71 2,57 2 0,4 2,57 2,86 0,4 0,14 2,71,14 2,57 2,57 1,4 0,14 2,14 0,86 2,29 1,71 4,71 2,14 2,07 1,57 0 1,29 1,14,14 5,4 1,29 2,86,14 2,17 1 1,86 2,86 1,14 0,29 6,14 0,86 2,86,79 2,57 0,14 1,71,29 0,14 0 7,14 1,14 2,86 2,86 2 0,4 1,71 1,86 0,14 0 8 2,4,71,21 1,57 1,71 0 1 0,57 2,57 2,86 9 5,1 2,86 2,86,07 1,79 1,71 0,4 1,4 0,57 2,71 10,07,14 2,57 2 0 0,4 1,29 2,57,07 Partie I : Examen des données a. Justifier l'utilisation d'une ACP. b. Expliquer les différences obtenues entre une ACP normée et non normée? Pour réaliser les différents traitements avec R, il faut charger les packages rgl, ade4, ou FactoMineR, et éventuellement Rcmdr (voir la fiche installation). > cidre <- read.table("../echange/cidre.txt") Paramètres statistiques mean sd n acid 2.79 0.285676 10 alco 1.788 0.972869 10 amer 2.69 0.624447 10 astr 1.924 0.221525 10 fruit 1.521 1.48484 10 odeu.059 0.8217657 10 parf 1.428 1.1271577 10 piqu 1.54 0.7425040 10 sucr 2.250 1.1826994 10 suffo 0.99 0.558441 10 > round(cor(cidre),2) odeu sucr acid amer astr suffo piqu alco parf fruit odeu 1.00 0.08-0.16 0.49 0.04 0.84-0.61 0.0-0.29 0.18 sucr 0.08 1.00-0.29-0.60-0.77-0.19-0.61-0.92 0.87 0.95 acid -0.16-0.29 1.00-0.08 0.4 0.14 0.14 0.15-0.40-0.27 amer 0.49-0.60-0.08 1.00 0.71 0.8-0.0 0.70-0.6-0.50 astr 0.04-0.77 0.4 0.71 1.00 0.07 0.14 0.86-0.66-0.64 suffo 0.84-0.19 0.14 0.8 0.07 1.00-0.2 0.22-0.50-0.10 piqu -0.61-0.61 0.14-0.0 0.14-0.2 1.00 0.48-0. -0.7 alco 0.0-0.92 0.15 0.70 0.86 0.22 0.48 1.00-0.76-0.8 parf -0.29 0.87-0.40-0.6-0.66-0.50-0. -0.76 1.00 0.80 fruit 0.18 0.95-0.27-0.50-0.64-0.10-0.7-0.8 0.80 1.00 c. Déterminer trois groupes de variables qui présentent des corrélations entre elles (r>0.5).

Master 2 TVPS Angers Analyse des données : ACP AFC CAH 2 Examen graphique : >library("rgl") >cidrer = as.data.frame(scale(cidre)) >attach(cidrer) nuage 1 : >plotd(acid,alco,suffo,type="s",xlim=c(-,),ylim=c(-,),zlim=c(-,)) >plotd(ellipsed(cor(cbind(acid,alco,suffo))),col="grey",alpha=0.05,add=true) nuage 2: >plotd(parf,alco,sucr,type="s",xlim=c(-,),ylim=c(-,),zlim=c(-,)) >plotd(ellipsed(cor(cbind(parf,alco,sucr))),col="grey",alpha=0.05,add=true) d. Que représentent les ellipses dans la représentation en D. e. Expliquez les différences entre les ellipses obtenues dans les deux nuages. Partie II : ACP normée du tableau 1. Nombre de facteurs retenus > round(acp$eig,2) [1] 5.15 2.50 1.10 0.8 0.19 0.14 0.05 0.02 0.01 > round(cumsum(acp$eig*10),2) [1] 51.54 76.56 87.5 95.87 97.81 99.21 99.70 99.94 100.00 a. Les deux premiers facteurs ont été retenus ici. Quel est le pourcentage de variance expliqué par ces deux facteurs? b. Que signifie ce pourcentage?

Master 2 TVPS Angers Analyse des données : ACP AFC CAH 2/ Analyse des variables >inertie <-inertia.dudi(acp, col.inertia=true) [coordonnées des variables] > round(acp$co,2) Comp1 Comp2 odeu -0.08-0.98 sucr 0.97-0.16 acid -0. 0.15 amer -0.72-0.47 astr -0.8-0.0 suffo -0.1-0.79 piqu -0.49 0.72 alco -0.94 0.04 parf 0.91 0.20 fruit 0.91-0.29 > s.corcircle(acp$co,xax=1,yax=2) [ctr en %] > inertie$col.abs/100 Comp1 Comp2 odeu 0.1 8.70 sucr 18.40 1.05 acid 2.07 0.94 amer 9.97 8.68 astr 1.49 0.04 suffo 1.84 24.96 piqu 4.65 20.59 alco 17.28 0.06 parf 15.95 1.54 fruit 16.21.44 [qlt en %] > inertie$col.re/100 Comp1 Comp2 con.tra odeu -0.69-96.8 10 sucr 94.84-2.6 10 acid -10.65 2.5 10 amer -51.8-21.71 10 astr -69.54-0.11 10 suffo -9.48-62.44 10 piqu -2.97 51.52 10 alco -89.09 0.16 10 parf 82.2.85 10 fruit 8.56-8.60 10 a. Comment reconnaît-on sur la figure des variables qu une variable est bien représentée? b. Quelles sont les variables mal représentées dans le plan F1-F2? Justifier votre réponse. c. A l aide de la figure sur les variables, préciser la variable la plus corrélée positivement à alcool, la plus corrélée négativement à alcool, la moins corrélée à alcool. d. Quelles sont les variables qui ont contribuées à l axe F1? Justifier votre réponse. e. f. Donner une signification à cet axe. g. Quelles sont les variables qui ont contribuées à l axe F2? Justifier votre réponse. h. Donner une signification à cet axe.

Master 2 TVPS Angers Analyse des données : ACP AFC CAH 4 / Analyse des individus >inertie <-inertia.dudi(acp, row.inertia=true) Composantes principales > round(acp$li,2) Axis1 Axis2 1-0.5 1.87 2-2.15 1.41 1.82 0.90 4.2 0.20 5-2.20-0.62 6 -.57-0.04 7-1.69 0.12 8 2.94 1.01 9 0.29-4.09 10 1.78-0.76 [ctr en %] > inertie$row.abs/100 Axis1 Axis2 1 0.55 1.91 2 8.95 7.97 6.41.24 4 21.5 0.17 5 9.7 1.5 6 24.78 0.01 7 5.55 0.06 8 16.74 4.04 9 0.16 66.77 10 6.14 2.1 [qlt en %] > inertie$row.re/100 Axis1 Axis2 con.tra 1-4.71 58.00 6.00 2-56.65 24.50 8.14 49.20 12.07 6.72 4 77.55 0.29 14.19 5-78.09-6.19 6.18 6-82.6-0.01 15.51 7-69.70 0.5 4.11 8 6.92 7.48 1.50 9 0.46-91.86 18.19 10 42.6-7.76 7.4 > s.label(acp$li,xax=1,yax=2) a. Comment évalue-t-on si un individu est bien représenté dans un plan? b. Quel est l individu le mieux représenté dans le plan F1-F2? Justifier votre réponses. c. Quels sont les individus les moins bien représentés dans le plan F1-F2? Justifier votre réponse. d. Quels sont les individus qui ont contribuées à l axe F1? À l'axe F2? Justifier votre réponse. e. Proposer 4 groupes de cidres en précisant clairement les principales caractéristiques de ces groupes.

Master 2 TVPS Angers Analyse des données : ACP AFC CAH 5 5. Vers la classification. Les individus semblent se répartir en quatre groupes : groupe 1 : 2 5 6 7 groupe 2 : 4 8 10 groupe : 9 groupe 4 : 1 Créons un facteur indiquant le groupe : > fac <- as.factor(c(4,1,2,2,1,1,1,2,,2)) > s.class(dfxy=acp$li,fac=fac,xax=1,yax=2) 6) Autre Représentations complémentaires Eigenvalues piqu d = 2 1 2 acid 8 parf 6 alco astr 7 4 5 10 sucr fruit amer suffo odeu 9 scatter(acp) Autre exemple d'acp : Traiter l'exemple decathlon décrivant les score obtenu aux 10 épreuves du décathlon par différents athlétes ainsi que le score final.

Master 2 TVPS Angers Analyse des données : ACP AFC CAH 6 Exemple d'afc : Les donnees proviennent d'une societe d'assurance automobile. Les deux variables retenues pour l'analyse son le mode de règlement et la situation maritale (http://pbil.univ-lyon1.fr/r/enseignement.html, tdr620). celibataire concubin divorce marie veuf annuel 209 148 41 20 60 mensuel 4 151 1 70 10 semestriel 55 2448 897 15 trimestriel 77 245 4 19 9 1. Comment s'appelle ce tableau? Quelle est la première question qu'il pose? 2. Tester l'indépendance entre les deux variables.. Est-il préférebale de comparer les profils colonnes ou le profils ligne? Interpréter les résultats X-squared = 129.2212, df = 12, p-value < 2.2e-16 4. Est-il préférable de comparer les profils colonnes ou les profils ligne? Interpréter les résultats. profilcol <- prop.table(sitpay, 2) par(mfrow=c(4,1)) barplot(profilcol[,1]) celibataire concubin divorce marie veuf annuel 24 4 52 22 28 mensuel 4 1 5 5 semestriel 6 57 42 6 6 trimestriel 9 6 5 10 4 0.0 annuel mensuel semestriel trimestriel 0.0 annuel mensuel semestriel trimestriel 0.0 annuel mensuel semestriel trimestriel 0.0 annuel mensuel semestriel trimestriel

Master 2 TVPS Angers Analyse des données : ACP AFC CAH 7 AFC du tableau 1. Qu'apporte l'afc pour l'étude de ce tableau? 2. Interpréter les valeurs propres obtenues. eigenvalue % variance cum variance dim 1 0.018 94.276 94.276 dim 2 0.001 5.106 99.81 dim 0.000 0.619 100.000 0.000 0.005 0.010 0.015 > res$col $contrib Dim 1 Dim 2 Dim celibataire 14.69729695 2.290090 67.8762712 concubin 26.8118595 0.758794 0.04962 divorce 12.14464596 7.25609 1.80965172 marie 46.2942775.294608 29.74455904 veuf 0.0449 56.0899 0.5455469 > res$row $contrib Dim 1 Dim 2 Dim annuel 59.8040 7.75447 2.2888620 mensuel 5.1924 6.86175 84.1700687 semestriel 10.770248 17.45222 1.226652 trimestriel 24.752470 68.064256 0.147040 $cos2 $cos2 Dim 1 Dim 2 Dim Dim 1 Dim 2 Dim celibataire 0.962701 0.008124114 2.917276e-02 annuel 0.9927227 0.007026006 2.512575e-04 concubin 0.99846219 0.001529270 8.57074e-06 mensuel 0.8478129 0.061077684 9.110940e-02 divorce 0.85658219 0.14258015 8.74980e-04 semestriel 0.910092 0.0796871 7.56896e-0 marie 0.9919942 0.0082509 4.18217e-0 trimestriel 0.87015 0.129612128 7.260474e-05 veuf 0.0108095 0.9880114 1.1594e-0. Interpréter les qualités de représentation (cos²) des profils colonne et ligne dans le plan F 1 F 2. 4. Interpréter les contributions des profils colonne et ligne dans le plan F 1 F 2.

Master 2 TVPS Angers Analyse des données : ACP AFC CAH 8 5. Interpréter les cartes factorielles (plans de projection) CA factor map Dim 2 (5.106%) -0. -0.2-0.1 0.0 0.1 0.2 0. 0.4 divorce trimestriel annuel concubin celibataire marie semestriel mensuel veuf -0.4-0.2 0.0 0.2 Dim 1 (94.28%) Autre exemple d'afc : Traiter l'exemple election2002 décrivant les journaux lus en fonction du vote.

I Master 2 TVPS Angers Analyse des données : ACP AFC CAH 9 Exemple de CAH Exemple 1 : On considère la matrice des carrés des distances d'un ensemble de 5 points de même poids. A B C D E A 0 16 1 9 10 B 0 17 25 2 C 0 4 9 D 0 1 E 0 Réaliser la classification ascendante hiérarchique et le dendrogramme en utilisant le critère du saut minimal. Exemple 2 : Le tableau décrit pour chaque pays de la CEE la production agricole par unité d'exploitation (x) et le pourcentage de la population active employée dans l'agriculuture (y). pays x y B 16.8 2.7 Cluster Dendrogram for Solution HClust. DK 21. 5.7 D 18.7.5 GR 5.9 22.2 E 11.4 10.9 F 17.8 6.0 IRL 10.9 14.0 I 16.6 8.5 Height 0 10 20 0 40 50 DK L F UK D B NL E IR GR P L 21.0.5 NL 16.4 4. Observation Number in Data Set agri Method=ward; Distance=euclidian P 7.8 17.4 UK 14.0 2. -10 0 10 20 Comp.2-0.4-0.2 0.0 0.2 0.4 0.6 x 2 2 1 y 1-10 0 10 20-0.4-0.2 0.0 0.2 0.4 0.6 Comp.1