TD 2: AFCM Analyse factorielle des correspondances multiples

Documents pareils
Niveau CEl CE2. Le grand dauphin ou dauphin souffleur Tursiops truncatus

Qui mange quoi? Filtrer avec des fanons

o Anxiété o Dépression o Trouble de stress post-traumatique (TSPT) o Autre

SPHINX Logiciel de dépouillement d enquêtes

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Logiciel XLSTAT version rue Damrémont PARIS

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

GUIDE DE FORMATION Attestation visant les activités en mer

Microsoft Excel : tables de données

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

» Le passeport des Baleines «

UNIVERSITE DE TOULON UFR FACULTE DE DROIT REGLEMENT D EXAMEN ANNEE 2012/2017 LICENCE DROIT MENTION DROIT GENERAL

MATHÉMATIQUES ET SCIENCES HUMAINES

Athénée Royal d Evere

T de Student Khi-deux Corrélation

Analyse en Composantes Principales

Exercices pour renforcer les muscles abdominaux après l accouchement

Carnet de voyages 2011

La classification automatique de données quantitatives

Les jours de la semaine

le livret de Bébé nageur avec la complicité de bébé.

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

ACP Voitures 1- Méthode

UNIVERSITE DES ANTILLES ET DE LA GUYANE

TACHES N 1. Escalier : Taper des pieds en faisant le crocodile, souffler, immerger le visage... S asseoir au fond de l eau, tête hors de l eau

Ceinture Home Dépôt. Orthèse lombaire et abdominale. Mother-to-be (Medicus)

DEMANDE DE VISA TOURISME/ (VISITE FAMILIALE/OU AMICALE)

Nom Prénom :... Mon livret de stage

Unité 1. Au jour le jour

1 Complément sur la projection du nuage des individus

Chapitre 3. Les distributions à deux variables

Cours 9 : Plans à plusieurs facteurs

Le Sphinx Millenium Modes opératoires Préparer, administrer, Dépouiller les enquêtes

Manuel de l ergonomie au bureau

Charlotte Dejey Catherine Nouvelle. l o r t h o. g r a p h e. sans se casser la tête

IMPORTANT! à conserver pour consultation ultérieure

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

«Docteur je ne peux pas aller travailler» Règles et recommandations pour la rédaction d un certificat médical d arrêt de travail Dr S.

LA PERTE DE CONSCIENCE

Questionnaire pour enfants avec trouble de voix

RAPPELS DU COURS PRÉCÉDENT

MON DOS AU QUOTIDIEN COMPRENDRE, ÉVITER ET SOULAGER LE MAL DE DOS

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

Localisation des fonctions

UNIVERSITE DES COMORES LA REFORME UNIVERSITAIRE A L UNIVERSITE DES COMORES MISE EN ŒUVRE DU LMD

SAVAIS-TU QUE DANS MA COUR D ÉCOLE...

Principe d un test statistique

L analyse de la gestion de la clientèle

EXERCICIOS AUTOAVALIABLES. 1.- Écris le nom des parties du corps que les flèches indiquent :

Scénario: Données bancaires et segmentation de clientèle

Comment les Français gèrent l eau dans leurs foyers?

MASTER DROIT, ECONOMIE, GESTION Mention DROIT PUBLIC

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

PRXSENTATION D UN GESTIONNAIRE DE DONNEES NUMERIQUES HIERARCHISEES DESTINE AU DE- -POUILLEMENT D ENQUETES

Chapitre 1 : La consommation et l épargne

Le verbe être au présent - 1

Insuffisance cardiaque

Fonctions de deux variables. Mai 2011

COMPTABILITE GENERALE ETAPE 2 : LE COMPTE

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

La technique en 7 étapes. Déroulement du mouvement. ASTA Association Suisse de Tir à l Arc. Conseil des entraîneurs

Statistiques Descriptives à une dimension

Exercices sur le thème II : Les savons

CegidBusinessPlaceMode. Back Office. Le progiciel de gestion intégré pour piloter votre réseau de distribution

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

Cordonniers, sigans

Cours pratique Excel. Dans chacune des feuilles, les donnés sont déjà entrées afin de gagner du temps.

PROTECTION SOCIALE EN FRANCE

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Étude auprès de la génération X. Le paiement virtuel et la gestion des finances personnelles

LE SPORT POUR CHACUN! Docteur CASCUA Stéphane Médecin du sport

CODE DE VIE

Relation entre deux variables : estimation de la corrélation linéaire

Exemples d utilisation de G2D à l oral de Centrale

ETUDE DE PERCEPTION PRODUIT

Objectif. Cette formation doit permettre au client d être autonome dans la création de ses rapports avancés en utilisant la fonctionnalité Excel +.

Le rapport des femmes à la beauté

Information pour le patient

Programme de prévention du jeu excessif en Valais Plan d action :

QUESTIONNAIRE SUR LA SANTE RESPIRATOIRE ET ALLERGIQUE DES ECOLIERS ET LEUR ENVIRONNEMENT SCOLAIRE

FAST RETAILING WAY (Philosophie d entreprise du groupe FR)

BAREME sur 40 points. Informatique - session 2 - Master de psychologie 2006/2007

CECOP. Centre d études et de connaissances sur l opinion publique. Les Français, leur épargne et leur retraite

Appareil d expansion palatine

L'analyse des données à l usage des non mathématiciens

Risques psychosociaux et petites entreprises Outil "Faire le point"

CONSTRUCTION D UN CHAUFFE EAU SOLAIRE

Satisfaction des stagiaires de BRUXELLES FORMATION Résultats 2013

Transcription:

TD 2: AFCM Analyse factorielle des correspondances multiples 1 Questions de cours 1. Rappeler les objectifs d une AFCM. Définir la ressemblance entre deux individus, entre deux variables, entre deux modalités de deux variables différentes (exemple: +65 ans et les retraités), et entre deux modalités de la même variable (exemple: entre les plus de 60 ans et les plus de 65 ans). 2. Lors d un stage en entreprise, l objectif est de traiter les résultats d une enquête (par exemple sur les habitudes de voyage des bretons) comprenant une trentaine de questions (variables qualitatives). Dans un premier temps, l analyse commence comme toujours par des statistiques descriptives. On décide alors de réaliser des tableaux croisés entre les différentes variables qualitatives (on se demande par exemple quels sont les CSP qui partent en camping, à l hôtel...). Comment choisir les variables des tableaux croisés à réaliser? 3. Dans une enquête, je dispose à la fois de variables quantitatives (5 vars) et qualitatives (30 vars). Comment analyser simultanément ces variables de nature différentes? 4. Que vaut l inertie totale en AFCM, quelle est la différence par rapport à l AFC? 5. Quelle est la particularité des représentations graphiques en AFCM? (s aider de la relation de transition). 6. Que faut-il regarder avant de commencer une AFCM? 2 AFCM sur la santé des étudiants Le but de l étude est de mieux cerner les besoins en matière de santé de la population étudiante bretonne. La population cible de cette enquête est la population des étudiants inscrits en première année de premier cycle universitaire (hors inscription en classe préparatoire) dans les universités bretonnes. L enquête a été réalisée auprès d un échantillon de 1104 étudiants représentatif de la population cible, tirés au hasard dans les fichiers informatiques des universités en respectant des quotas par rapport aux universités, sexe et UFR. 1. Importer le fichier sante.csv. Les variables de cet exemple se répartissent en plusieurs thèmes: Consommation de produits Consommation de tabac: Jamais, Occasionnelle (déjà consommé mais ne fume pas quotidiennement), Fumeur quotidien Consommation d alcool: Jamais/ Occasionnelle (déjà consommé mais moins de 10 fois le mois précédent)/régulière (au moins 10 épisodes de consommation le mois précédent) Ivresse au cours de la vie: Non, Oui Consommation de cannabis Jamais/ Occasionnelle (déjà consommé mais moins de 3 fois dans le mois précédent), Régulière (au moins 3 épisodes de consommation le mois précédent) Qualité du sommeil Plainte concernant la qualité du sommeil: Jamais, Rarement, Souvent Difficulté pour s endormir: J, R, S Fatigue en se levant: J, R, S Cauchemars: J, R, S Fatigue constante: J, R, S Insomnies: J, R, S État psychologique Se sentir seul: J, R, S Se sentir déprimé: J, R, S 1

Être désespéré en pensant à l avenir: J, R, S Être agressif: J, R, S Avoir des hallucinations: J, R, S Signalétique Sexe: Fille, Garçon Age: -18 ans, 19 ans, 20 ans et 21 ans et + Lieu habitation: Habite chez ses parents, N habite pas chez ses parents Absentéisme: Exceptionellement, Jamais, Parfois, Presque tous, Souvent On dispose également d une variable poids correspondant à un poids associé à chaque individu provenant du redressement de l échantillon (pour avoir autant de filles et de garçons que dans les universités, autant d UFR représentées...). L objectif du travail est de réaliser une typologie des profils de consommations de produits psychoactifs et ensuite de s intéresser aux liaisons éventuelles entre profil de consomations et la signalétique (par exemple qui sont les personnes qui ont les comportements les plus addictifs?). 2. Réaliser l analyse permettant de répondre à cette problématique. help(mca) res.mca=mca(sante[,],...) 3. Commenter les résultats concernant les valeurs propres et pourcentages d inertie (nombre de valeurs propres non nulles, nombre d axes retenus, pourcentages d inertie du premier plan factoriel...). res.mca$eig barplot(res.mca$eig[,1]) 4. Commenter globalement l analyse, quelles sont les grandes tendances qui se dégagent? Si les graphiques ne vous plaisent pas, regarder:?plot.mca et effectuer des représentations séparées des individus et des variables. Interpréter le premier plan factoriel. 5. Variables: Quelles sont les variables les plus liées à l axe 1? à l axe 2? #CTR ou rapport des corrélations ctr <- res.mca$var$contrib variable=null nbvar=4 for (i in 2:5) {variable=c(variable,rep(names(sante)[i],length(levels(sante[,i]))))} tapply(ctr[,1],variable,sum)# somme par variable des CTR sur l axe 1 tapply(ctr[,1],variable,sum)*nbvar*res.mca$eig[1,1] # Rap. de Cor par rapport à l axe 1. # Vous pouvez effectuer l analyse de variance pour voir qu on obtient les mêmes résultats. # ou plus général: variable=rep(colnames(sante[,2:5]),unlist(lapply(sante[,2:5],nlevels))) CTR = aggregate(res.mca$var$contrib,by=list(factor(variable)),fun=sum) 6. Modalités: Quelles sont les modalités qui contribuent le plus à la création du premier axe? du deuxième? Ces modalités sont-elles situées forcément aux extrémités du graphique? Commenter la qualité de représentation de ces modalités: les résultats obtenus vous semblent-ils surprenants? res.mca$var 2

7. Interpréter la proximité entre Cannabis Régulier et Alcool Régulier. Revenir aux données brutes pour confirmer votre interprétation. table(sante[,3],sante[,5]) 8. Que peut-on dire des consommateurs de Tabac Régulier? Sont-ils exclusivement des fumeurs de Cannabis Régulier? 9. Comment caractériser les étudiants qui ne sont Jamais Ivre? Et ceux qui ne boivent jamais? 10. Variables supplémentaires: On ne dispose pas de la contribution, est-ce normal? A quoi correspond la valeur test? res.mca$quali.sup Pourquoi les modalités supplémentaires sont ici proches du centre de gravité? Quels sont les personnes qui ont les comportements les plus addictifs? 11. Remarque: Il est intéressant de revenir aux données brutes pour analyser encore plus finement la proximité entre deux modalités qui vous intéresse particulièrement: Regarder le tableau croisé: table(sante[,3],sante[,5]) Construire le tableau des pourcentages en ligne puis des pourcentages en colonne et commenter. Commenter le tableau des effectifs que l on aurait obtenu s il y avait indépendance entre les deux variables et le tableau des contributions aux Chi2. Test <- chisq.test(table(sante[,3],sante[,5]), correct=false) Test$expected # Expected Counts round(test$residuals^2, 2) 12. Décrire de manière automatique les axes: dimdesc(res.mca) 3

3 AFCM des cétacés baleines à fanons (1) Baleines à fanons baleines grises (2) baleines à bosse (3) Physeteroidea cachalots (4) baleines à bec (5) dauphins (6) Baleines à dents Delphinoidea marsouins (7) belougas (8) Platanistoidea dauphins d eau douce (9) Figure 1: Classification des cétacés d après Grasse Le fichier cetaces.txt contient les observations sur 36 cétacés de 15 variables qualitatives : (a) Cou (absent, présent) (b) Forme de la tête (cylindrique, conique, front incurvé, globulaire, plat, convexe) (c) Taille de la tête (grosse, moyenne) (d) Bec (aucun, grand, étroit et court, étroit et long) (e) Nageoire dorsale (aucune, triangulaire, falciforme, falciforme arrière) (f) Palmes (petites, larges et courtes, moyennes, longues et étroites) (g) Dents (sur machoire inférieure, sur les deux, sans dent et long fanon, sans dent et mince fanon, sans dent et large fanon) (h) Sillon de la gorge (absent, petit, grand) (i) Event (à gauche, à droite, vertical, vertical avec 2 trous) (j) Couleur (ventre plus clair que le dos, noirâtre, sans pigmentation, taché, sans) (k) Vertèbres cervicales (libres, partiellement ou totalement soudées) (l) Os lacrymaux et jugulaires (forment un pièce, sont indépendants, absents) (m) Os de la tête (symétrique, faiblement asymétriques, asymétriques, fortement asymétriques, absents) (n) Habitat (rivières, mers tempérés et chaudes, mers froides, côtes, variable) (o) Alimentation (calmars, poissons, phoques, planctons) 4

Figure 2: Baleine à bosse Figure 3: Marsouin La première colonne du tableau cetaces.txt contient le groupe de classification auquel l individu appartient et ne fait pas partie des variables à analyser. Nous allons essayer d analyser ce tableau selon trois niveaux : vérification de la séparation des individus selon la classification ; interprétation des axes par variable (et non pas par modalité) ; relations entre modalités. 3.1 Vérification de la classification Quel est le type de graphique à faire? En retenant les 3 premiers axes, vérifier la séparation des baleines à fanons, des platanistoidea, des physeteroidea et des delphinoidea. Remarquer qu il est difficile de bien séparer les physeteroidea et les delphinoidea. Créer une variable qualitative à 4 modalités "classif": Fanons, Physeteroidea, Delphinoidea et Platanistoidea Essayer d obtenir un graphique "propre" (utiliser les options invisibles, habillages de plot.mca...), ou reconstruire les graphiques "à la main" en rajoutant toutes les options possibles titre, libellé des axes, vous pouvez aussi remettre les pourcentages d inertie...: cetaces.acm=mca(cetaces,...) plot(cetaces.acm,...) #Ou, plot(cetaces.acm$ind$coord[,1],cetaces.acm$ind$coord[,2],type="n",xlab="axe_1",...) text(cetaces.acm$li[,1],cetaces.acm$li[,2],format(groupe),col=as.numeric(classif)) Comme on s intéresse aux 3 premiers axes, on peut aussi réaliser un graphique en 3 dimensions: 5

library(scatterplot3d) scatterplot3d(cetaces.acm$ind$coord[,1],cetaces.acm$ind$coord[,2],cetaces.acm$ind$coord[,3],color=as.numeric(classif)) Quand deux baleines se ressemblent, vous pouvez revenir aux données brutes pour confirmer votre interprétation: cetace[6:7,] 3.2 Interprétation des axes par variable Quelles sont les variables les plus importantes? Quelles sont les variables qui permettent de séparer les baleines à fanons? Quelles sont les variables qui permettent de séparer les platanistoidea? 3.3 Interprétation des axes par modalité Donner un sens aux axes 1 et 2 à l aide des modalités. 6