Rappel sur le rapport de corrélation et Exemple d analyse des correspondances multiples

Documents pareils
Initiation à l analyse en composantes principales

Analyse de la variance Comparaison de plusieurs moyennes

Fiche TD avec le logiciel. Courbes de niveau. D. Chessel

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Lire ; Compter ; Tester... avec R

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

La classification automatique de données quantitatives

Examen de Logiciels Statistiques

Module 16 : Les fonctions de recherche et de référence

Analyse en Composantes Principales

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Aide-mémoire de statistique appliquée à la biologie

Gestion des données avec R

Chapitre 3. Les distributions à deux variables

Théorie des sondages : cours 5

CAC, DAX ou DJ : lequel choisir?

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

Analyse Combinatoire

ACP Voitures 1- Méthode

Logiciel XLSTAT version rue Damrémont PARIS

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

Fluctuation d une fréquence selon les échantillons - Probabilités

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Algorithmique & programmation

Cours 9 : Plans à plusieurs facteurs

FICHE DE RENSEIGNEMENTS

Satisfaction des stagiaires de BRUXELLES FORMATION Résultats 2013

Statistiques Descriptives à une dimension

EXCEL PERFECTIONNEMENT SERVICE INFORMATIQUE. Version /11/05

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

données en connaissance et en actions?

Mesure du surendettement en Europe

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

IMAGES NUMÉRIQUES MATRICIELLES EN SCILAB

LES AMORTISSEMENTS : CALCULS ENREGISTREMENTS

1 - Salaires nets tous secteurs confondus

BAX MC Contrats à terme sur acceptations bancaires canadiennes de trois mois

Microsoft Excel : tables de données

Plus petit, plus grand, ranger et comparer

Extraction d informations stratégiques par Analyse en Composantes Principales

Cours d algorithmique pour la classe de 2nde

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

UNIVERSITE DE TOULON UFR FACULTE DE DROIT REGLEMENT D EXAMEN ANNEE 2012/2017 LICENCE DROIT MENTION DROIT GENERAL

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Information et communication

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

Fonctions de deux variables. Mai 2011

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

STAGE IREM 0- Premiers pas en Python

Projet Matlab : un logiciel de cryptage

Collecter des informations statistiques

L import massif introduit plusieurs nouvelles fonctionnalités, selon que l on importe un thésaurus, un ensemble de valeurs contrôlées ou un corpus.

SPHINX Logiciel de dépouillement d enquêtes

Mise à jour : 4 avril 2013

BACCALAUREAT GENERAL MATHÉMATIQUES

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Étalonnage Consolidation au Québec

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

Contenu de l action de formation BTS BANQUE - option A Marché des particuliers

L arbitrage entre consommation et épargne Activités pour l élève

DOSSIER DE MARIAGE * * Documents à signer et à remettre

DÉCLARATION ANNUELLE DE REVENUS FAMILIAUX DES OCCUPANTS POUR L ANNÉE CIVILE 2014

Densité de population et ingestion de nourriture chez un insecte vecteur de la maladie de Chagas

Saisissez le login et le mot de passe (attention aux minuscules et majuscules) qui vous ont

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Exercices de dénombrement

Trépier avec règle, ressort à boudin, chronomètre, 5 masses de 50 g.

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Introduction à MATLAB R

Date : Tangram en carré page

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

Nom de l agent : Fonctions : FORMULAIRE DE DEMANDE D AIDE SOCIALE

SEM Analyser. L outil d analyse concurrentielle

INITIATION AU LANGAGE C SUR PIC DE MICROSHIP

DEMANDE 2015 DE PRISE EN CHARGE AU PREALABLE PLAN DE FORMATION PERIODE DE PROFESSIONNALISATION FORMATION TUTEUR COMPTE PERSONNEL DE FORMATION (CPF)

TP : Gestion d une image au format PGM

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Action sociale. Demande d aide pour Bien vieillir chez soi

Mesurer les performances (CPU) sous Linux

OLYMPIADES ACADEMIQUES DE MATHEMATIQUES. 15 mars 2006 CLASSE DE PREMIERE ES, GMF

DELIBERATION N DU 25 MARS 2015 DE LA COMMISSION DE CONTROLE DES INFORMATIONS NOMINATIVES PORTANT AVIS FAVORABLE A LA MISE EN ŒUVRE DU

DOSSIER DE CANDIDATURE

A l aide de votre vous pouvez visiter un site web!

Ecran : Processeur : OS : Caméra : Communication : Mémoire : Connectique : Audio : Batterie : Autonomie : Dimensions : Poids : DAS :

LES FACTEURS DE FRAGILITE DES MENAGES

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Chap17 - CORRECTİON DES EXERCİCES

PRINCIPES DE LA CONSOLIDATION. CHAPITRE 4 : Méthodes de consolidation. Maître de conférences en Sciences de Gestion Diplômé d expertise comptable

TC12 : Protection sociale et solidarités collectives

1. Les comptes de dépôt et d épargne

Partie 1. Fonctions plus complexes dans Excel. Fonctions Si(), Et(), Ou() et fonctions imbriquées. Opérateurs logiques. I.1.

: seul le dossier dossier sera cherché, tous les sousdomaines


RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Transcription:

Fiche TD avec le logiciel : tdr Rappel sur le rapport de corrélation et Exemple d analyse des correspondances multiples A.B. Dufour Dans cette séance, nous présentons le rapport de corrélation afin de mieux appréhender les objectifs des analyses des correspondances et des méthodes inter et intra tableaux. Table des matières Rapport de corrélation. La notion de variation......................... Le rapport de corrélation....................... Remarque : la variation intra-groupe................. Représentation Graphique....................... Exercice, extrait de Dodge [00].................. Analyse des correspondances multiples. Rappel.................................. Présentation des données....................... Quelques questions autour de ces données............. 7 Références

Rapport de corrélation Pour étudier le relation entre une variable qualitative et une variable quantitative, on décompose la variation totale en variation intergroupe et en variation intragroupe. Pour mesurer l intensité de la relation, on peut calculer un paramètre appelé rapport de corrélation.. La notion de variation La variance d une variable quantitative est, par définition, la moyenne des carrés des écarts à la moyenne. On définit : - la variation totale c est-à-dire la somme des carrés des écarts à la moyenne : n vartot = (x i x) Sous, on l écrit : vartot <- function(x) { res <- sum((x - mean(x))^) return(res) } i= Exemple. On considère la variable quantitative X, note obtenue par étudiants. notes <- c(,, 0,,,, 8, 7,,,, 7,,, ) vartot(notes) [] 0. - La variation intergroupe Reprenons la variable note précédente. Les étudiants sont répartis dans p = groupes : () ceux qui ont suivi la moitié des cours, () ceux qui ne sont jamais venus, () ceux qui ont suivi tous les cours. Maintenant, l objectif est de savoir si la note est liée au choix des étudiants de participer ou non aux cours. Supposons que tous les étudiants aient la même note, qu ils participent beaucoup, moyennement, ou pas du tout au cours. Alors cette valeur commune serait égale à la moyenne calculée sur l échantillon global. Pour évaluer l erreur réalisée si on considère que les étudiants ont la même note, on calcule le carré des écarts entre les valeurs mesurées et la moyenne globale, c est-à-dire la variation totale vue ci-dessus. Si on considère que la note dépend du choix des étudiants de participer ou non aux cours, alors la valeur est la moyenne du groupe d appartenance. Pour évaluer l erreur réalisée si on considère que la note des étudiants est liée au suivi des cours, on va calculer le carré des écarts entre la moyenne du groupe et la moyenne globale. p varinter = n k (x k x) k= Logiciel R version.0.0 (009-0-) tdr.rnw Page / Compilé le 009--7 Maintenance : S. Penel, URL : http://pbil.univ-lyon.fr/r/pdf/tdr.pdf

où x k désigne la note des étudiants du groupe k et n k, le nombre d étudiants appartenant à ce même groupe. Sous, on écrit : varinter <- function(x, gpe) { moyennes <- tapply(x, gpe, mean) effectifs <- tapply(x, gpe, length) res <- (sum(effectifs * (moyennes - mean(x))^)) return(res) } Exemple. On considère que les étudiants sont classés ici par groupe de. suivi <- as.factor(rep(c("", "", ""), rep(, ))) varinter(notes, suivi) [].. Le rapport de corrélation Pour étudier la relation entre une variable qualitative et une variable quantitative, on calcule le rapport de corrélation noté η : p η k= = n k(x k x) n i= (x. i x) Si le rapport est proche de 0, les deux variables ne sont pas liées. Si le rapport est proche de, les variables sont liées. Sous, on écrit : eta <- function(x, gpe) { res <- varinter(x, gpe)/vartot(x) return(res) } Exemple. Que peut-on dire finalement des notes et du suivi des cours par les étudiants? tapply(notes, suivi, mean)... tapply(notes, suivi, sd).07.877.7 eta(notes, suivi) [] 0.8787 Oui, nous le reconnaissons, l exemple est un peu démagogique.. Remarque : la variation intra-groupe D une manière générale, la variation totale est la somme de la variation intergroupes et de la variation intragroupe. Cette dernière est la somme pondérée des variances calculées à l intérieur de chaque groupe. varintra = p n k s k = k= p (n k ) σ k k= Logiciel R version.0.0 (009-0-) tdr.rnw Page / Compilé le 009--7 Maintenance : S. Penel, URL : http://pbil.univ-lyon.fr/r/pdf/tdr.pdf

où s k est la variance descriptive au sein du groupe k, σ k est la variance estimée de la population k. Elle s obtient facilement par différence entre la variation totale et la variation inter-groupes. On a alors la relation suivante, fondamentale en statistique : Variation Totale = Variation Inter-groupes + Variation intragroupe Exemple. Calculs de la variation intra-groupe vartot(notes) - varinter(notes, suivi) [] 7. effectifs <- tapply(notes, suivi, length) varest <- tapply(notes, suivi, var) sum((effectifs - ) * varest) [] 7.. Représentation Graphique Afin de bien visualiser la relation entre une variable quantitative et une variable qualitative, on construit la représentation suivante. Les groupes sont représentés en vertical, la variable quantitative en horizontal. Un carré blanc représente un individu. Les points rouges représentent les moyennes dans chaque groupe. La ligne en pointillé représente la moyenne de l ensemble des individus. Les traits bleus représentent les écarts entre les moyennes des groupes et la moyenne de l ensemble soit une visualisation de la variation intergroupe. graphnf <- function(x, gpe) { stripchart(x ~ gpe) points(tapply(x, gpe, mean), :length(levels(gpe)), col = "red", pch = 9, cex =.) abline(v = mean(x), lty = ) moyennes <- tapply(x, gpe, mean) traitnf <- function(n) segments(moyennes[n], n, mean(x), n, col = "blue", lwd = ) sapply(:length(levels(gpe)), traitnf) } graphnf(notes, suivi) 0 x Logiciel R version.0.0 (009-0-) tdr.rnw Page / Compilé le 009--7 Maintenance : S. Penel, URL : http://pbil.univ-lyon.fr/r/pdf/tdr.pdf

. Exercice, extrait de Dodge [00] On étudie le lien entre la durée de chômage (exprimée en semaines) et trois catégories socio-professionnelles (cadres - CA, ouvriers qualifiés - OQ et ouvriers non qualifiés - ONQ). Les données sont résumées dans les commandes ci-dessous. semaine <- : effca <- c(,, 8, 7,,, rep(0, 7)) effoq <- c(,,,,,, 0,,,,,, 0) effonq <- c(,,, 7,,,,,,, 7,, ) donca <- rep(semaine, effca) donoq <- rep(semaine, effoq) dononq <- rep(semaine, effonq) chomage <- c(donca, donoq, dononq) profession <- factor(rep(c("ca", "OQ", "NOQ"), c(length(donca), length(donoq), length(dononq)))). Donner la moyenne et la variance de la durée du chômage, toutes catégories confondues.. Donner les moyennes et les variances par catégorie socio-professionnelle.. Existe-t-il une différence de durée du chômage entre catégories socioprofessionnelles? Analyse des correspondances multiples. Rappel En analyse des correspondances multiples, on recherche une combinaison linéaire y des p variables qualitatives q p maximisant la somme des rapports de corrélations : p η (y, q j ) j=. Présentation des données Les données proviennent d une enquête réalisée dans des supermarchés angevins et parisiens entre 99 et 998 dans le but de connaître l avis de consommateurs quant aux produits biologiques et aux produits diététiques. Elles nous sont proposées par Gilles Hunault de l université d Angers et se trouvent originalement à l adresse http://www.info.univ-angers.fr/~gh/datasets/pbio.txt avec une copie sur le site pédagogique http://pbil.univ-lyon.fr/r/donnees/ pbio.txt. 9 individus ont répondu aux questions suivantes : CONNAITRE Connaissez-vous les produits biologiques? 0 non réponse oui non DIFF Y a-t-il une différence entre produit biologique et produit diététique? 0 non réponse oui Logiciel R version.0.0 (009-0-) tdr.rnw Page / Compilé le 009--7 Maintenance : S. Penel, URL : http://pbil.univ-lyon.fr/r/pdf/tdr.pdf

non CONSOM Avez-vous déjà consommé des produits biologiques? non jamais oui une seule fois oui rarement oui de temps en temps oui plusieurs fois par mois oui plusieurs fois par semaine 7 ne se prononce pas MARQUE Parmi les marques suivantes, laquelle connaissez-vous? 0 non réponse bio vivre bjorg carrefour bio la vie vrai prosain 7 favrichon CONSVIE Avez-vous déjà consommé des produits la vie? 0 non réponse oui une fois oui occasionnellement oui régulièrement non jamais SEXE Sexe de la personne homme femme AGE Classe d âge moins de ans entre et ans entre et ans entre et ans entre et ans plus de ans ETATCIVIL Etat Civil 0 autre marié célibataire divorcé en concubinage veuf NBENF Nombre d enfants sans enfant enfant enfants enfants plus de enfants SITPROF Situation Professionnelle agriculteur artisan Logiciel R version.0.0 (009-0-) tdr.rnw Page / Compilé le 009--7 Maintenance : S. Penel, URL : http://pbil.univ-lyon.fr/r/pdf/tdr.pdf

cadre supérieur cadre moyen employé ouvrier 7 retraité 8 autre 9 non réponse REVENU Classe de revenus mensuels 0 non réponse moins de kf entre et 0 kf entre 0 et kf entre et 0 kf plus de 0 kf ne se prononce pas La première colonne CODE correspond à l identifiant associé à la personne interrogée. pbio <- read.table("http://pbil.univ-lyon.fr/r/donnees/pbio.txt", h = T, row.names = ). Quelques questions autour de ces données. Quelle est la dimension de ce data frame?. Ecrire le résumé statistique du data frame pbio. Que constate-t-on? Modiferle pour le rendre conforme à la réalité des données.. Ecrire le nouveau résumé statistique. Donner le nombre d enquêtés connaissant la marque carrefour bio.. On note que certains enquêtés n ont pas répondu aux questions posées mais que la non réponse n obéit pas toujours au même codage. On modifie le data frame () en remplaçant les modalités non réponse codées par 0 (sauf dans un cas par 7) par des NA et () en ne conservant qu un data frame des données complètes. int <- read.table("http://pbil.univ-lyon.fr/r/donnees/pbio.txt", h = T, row.names = ) temp <- which(int == 0, arr.ind = TRUE) for (i in :00) int[temp[i, ], temp[i, ]] <- NA for (i in :9) if (int[i, ] == 7) int[i, ] <- NA for (j in :) int[, j] <- factor(int[, j]) pbio.cc <- int[complete.cases(int), ] summary(pbio.cc) CONNAITRE DIFF CONSOM MARQUE CONSVIE SEXE AGE ETATCIVIL NBENF :0 : :7 : : 9 : 9 : :8 :7 : 9 : : : : 7 :8 :9 : 89 : 9 :70 : : : : : :9 : 9 : :77 : : :0 : : : 8 : 0 : : : 7: SITPROF REVENU 8 :9 :8 :87 :79 : : 7 : :9 : :8 : 9 : (Other): Logiciel R version.0.0 (009-0-) tdr.rnw Page 7/ Compilé le 009--7 Maintenance : S. Penel, URL : http://pbil.univ-lyon.fr/r/pdf/tdr.pdf

On constate que, après avoir enlevé les données manquantes, la modalité agriculteur de la variable SITPROF vaut 0. summary(pbio.cc$sitprof) 7 8 0 9 87 9 levels(pbio.cc$sitprof) [] "" "" "" "" "" "" "7" "8" Il faut donc redéfinir les modalités de cette variable. pbio.cc$sitprof <- factor(pbio.cc$sitprof) levels(pbio.cc$sitprof) [] "" "" "" "" "" "7" "8". Commenter les résultats de l analyse des correspondances multiples réalisée sur l ensemble des variables du tableau. library(ade) acmtot <- dudi.acm(pbio.cc, scannf = F) barplot(acmtot$eig) 0.00 0.0 0.0 0. 0.0 0. On note que le nombre important des valeurs propres (liées on le rappelle non aux variables mais aux modalités de ces variables) ne permet pas d énoncer un critère de sélection du nombre de facteurs à conserver. On conserve valeurs propres mais on ne détaillera dans la présentation que les deux premiers. A charge au lecteur de regarder les facteurs et. head(inertia.dudi(acmtot)$tot) inertia cum ratio 0.7 0.7 0.08008 0.0790 0.8 0.990 0.799 0.8 0.70007 0.97 0.799 0.900 0.9 0.987788 0.877 0.7789.077 0.88898 En gardant les quatre premiers facteurs, on ne conserve que.9% de l inertie totale. Mais ce pourcentage est relativement courant dans ce genre d analyse. scatter(acmtot) Logiciel R version.0.0 (009-0-) tdr.rnw Page 8/ Compilé le 009--7 Maintenance : S. Penel, URL : http://pbil.univ-lyon.fr/r/pdf/tdr.pdf

CONNAITRE DIFF CONSOM MARQUE 7 CONSVIE SEXE AGE ETATCIVIL NBENF SITPROF 7 8 REVENU Dans cette représentation graphique, le même plan factoriel est répété autant de fois qu il y a de variables qualitatives. Sur chaque plan, il y a 9 points correspondant aux individus enquêtés. Pour faciliter l interprétation, on représente, variable par variable, la modalité prise par chaque individu et une ellipse résumant la dispersion des points. On voit par exemple que pour la variable CONSO, il y a opposition entre ceux qui consomment des produits biologiques plusieurs fois par semaine [] et tous les autres, de ceux qui ne consomment jamais [] à ceux qui consomment plusieurs fois par mois []. L objectif de l ACM étant d obtenir des s numériques des individus maximisant la somme des rapports de corrélation entre ces s et les variables qualitatives, il est intéressant de les représenter. par(mfrow = c(, ), mar = c(,,, 0), cex = 0.7) barplot(acmtot$cr[, ], horiz = TRUE, xlim = c(0, ), names.arg = colnames(pbio), las =, main = "Premier facteur", col = "lightblue", xlab = "Rapport de corrélation") barplot(acmtot$cr[, ], horiz = TRUE, xlim = c(0, ), names.arg = colnames(pbio), las =, main = "Deuxième facteur", col = "lightblue", xlab = "Rapport de corrélation") Logiciel R version.0.0 (009-0-) tdr.rnw Page 9/ Compilé le 009--7 Maintenance : S. Penel, URL : http://pbil.univ-lyon.fr/r/pdf/tdr.pdf

Premier facteur Deuxième facteur REVENU REVENU SITPROF SITPROF NBENF NBENF ETATCIVIL ETATCIVIL AGE AGE SEXE SEXE CONSVIE CONSVIE MARQUE MARQUE CONSOM CONSOM DIFF DIFF CONNAITRE CONNAITRE 0.0 0. 0. 0. 0.8.0 Rapport de corrélation 0.0 0. 0. 0. 0.8.0 Rapport de corrélation La fonction () permet de visualiser les variables qualitatives avec un facteur. Pour chaque variable, les individus sont positionnés sur l axe des abscisses par leur sur l axe factoriel considéré et, sur l axe des ordonnées par le de la modalité qu ils portent. Le d une modalité est la moyenne des s des individus portant cette modalité, ce qui est mis en évidence par la première bissectrice. (acmtot, xax = ) 0 CONNAITRE 0 DIFF 0 CONSOM 0 0 0 0 MARQUE 7 0 CONSVIE 0 SEXE 0 0 0 0 AGE 0 ETATCIVIL 0 NBENF 0 0 0 0 SITPROF 7 8 0 REVENU 0 0 En étudiant le résultat de (acmtot, xax=), faire le lien avec les Logiciel R version.0.0 (009-0-) tdr.rnw Page 0/ Compilé le 009--7 Maintenance : S. Penel, URL : http://pbil.univ-lyon.fr/r/pdf/tdr.pdf

plans factoriels.. On considère les cinq premières variables comme des variables actives et les suivantes comme des variables illustratives. (a) Réaliser une analyse des correspondances multiples sur les individus conservés dans le tableau et les variables actives. (b) Réaliser une analyse des correspondances multiples sur les individus conservés dans le tableau et les variables illustratives. (c) Calculer le coefficient de corrélation entre le premier facteur de l analyse sur les variables actives et le premier facteur de l analyse sur les variables illustratives. Commenter. Références Y. Dodge. Premiers pas en statistique. Springer-Verlag, 00. Logiciel R version.0.0 (009-0-) tdr.rnw Page / Compilé le 009--7 Maintenance : S. Penel, URL : http://pbil.univ-lyon.fr/r/pdf/tdr.pdf