TD 2: AFCM Analyse factorielle des correspondances multiples 1 Questions de cours 1. Rappeler les objectifs d une AFCM. Définir la ressemblance entre deux individus, entre deux variables, entre deux modalités de deux variables différentes (exemple: +65 ans et les retraités), et entre deux modalités de la même variable (exemple: entre les plus de 60 ans et les plus de 65 ans). 2. Lors d un stage en entreprise, l objectif est de traiter les résultats d une enquête (par exemple sur les habitudes de voyage des bretons) comprenant une trentaine de questions (variables qualitatives). Dans un premier temps, l analyse commence comme toujours par des statistiques descriptives. On décide alors de réaliser des tableaux croisés entre les différentes variables qualitatives (on se demande par exemple quels sont les CSP qui partent en camping, à l hôtel...). Comment choisir les variables des tableaux croisés à réaliser? 3. Dans une enquête, je dispose à la fois de variables quantitatives (5 vars) et qualitatives (30 vars). Comment analyser simultanément ces variables de nature différentes? 4. Que vaut l inertie totale en AFCM, quelle est la différence par rapport à l AFC? 5. Quelle est la particularité des représentations graphiques en AFCM? (s aider de la relation de transition). 6. Que faut-il regarder avant de commencer une AFCM? 2 AFCM sur la santé des étudiants Le but de l étude est de mieux cerner les besoins en matière de santé de la population étudiante bretonne. La population cible de cette enquête est la population des étudiants inscrits en première année de premier cycle universitaire (hors inscription en classe préparatoire) dans les universités bretonnes. L enquête a été réalisée auprès d un échantillon de 1104 étudiants représentatif de la population cible, tirés au hasard dans les fichiers informatiques des universités en respectant des quotas par rapport aux universités, sexe et UFR. 1. Importer le fichier sante.csv. Les variables de cet exemple se répartissent en plusieurs thèmes: Consommation de produits Consommation de tabac: Jamais, Occasionnelle (déjà consommé mais ne fume pas quotidiennement), Fumeur quotidien Consommation d alcool: Jamais/ Occasionnelle (déjà consommé mais moins de 10 fois le mois précédent)/régulière (au moins 10 épisodes de consommation le mois précédent) Ivresse au cours de la vie: Non, Oui Consommation de cannabis Jamais/ Occasionnelle (déjà consommé mais moins de 3 fois dans le mois précédent), Régulière (au moins 3 épisodes de consommation le mois précédent) Qualité du sommeil Plainte concernant la qualité du sommeil: Jamais, Rarement, Souvent Difficulté pour s endormir: J, R, S Fatigue en se levant: J, R, S Cauchemars: J, R, S Fatigue constante: J, R, S Insomnies: J, R, S État psychologique Se sentir seul: J, R, S Se sentir déprimé: J, R, S 1
Être désespéré en pensant à l avenir: J, R, S Être agressif: J, R, S Avoir des hallucinations: J, R, S Signalétique Sexe: Fille, Garçon Age: -18 ans, 19 ans, 20 ans et 21 ans et + Lieu habitation: Habite chez ses parents, N habite pas chez ses parents Absentéisme: Exceptionellement, Jamais, Parfois, Presque tous, Souvent On dispose également d une variable poids correspondant à un poids associé à chaque individu provenant du redressement de l échantillon (pour avoir autant de filles et de garçons que dans les universités, autant d UFR représentées...). L objectif du travail est de réaliser une typologie des profils de consommations de produits psychoactifs et ensuite de s intéresser aux liaisons éventuelles entre profil de consomations et la signalétique (par exemple qui sont les personnes qui ont les comportements les plus addictifs?). 2. Réaliser l analyse permettant de répondre à cette problématique. help(mca) res.mca=mca(sante[,],...) 3. Commenter les résultats concernant les valeurs propres et pourcentages d inertie (nombre de valeurs propres non nulles, nombre d axes retenus, pourcentages d inertie du premier plan factoriel...). res.mca$eig barplot(res.mca$eig[,1]) 4. Commenter globalement l analyse, quelles sont les grandes tendances qui se dégagent? Si les graphiques ne vous plaisent pas, regarder:?plot.mca et effectuer des représentations séparées des individus et des variables. Interpréter le premier plan factoriel. 5. Variables: Quelles sont les variables les plus liées à l axe 1? à l axe 2? #CTR ou rapport des corrélations ctr <- res.mca$var$contrib variable=null nbvar=4 for (i in 2:5) {variable=c(variable,rep(names(sante)[i],length(levels(sante[,i]))))} tapply(ctr[,1],variable,sum)# somme par variable des CTR sur l axe 1 tapply(ctr[,1],variable,sum)*nbvar*res.mca$eig[1,1] # Rap. de Cor par rapport à l axe 1. # Vous pouvez effectuer l analyse de variance pour voir qu on obtient les mêmes résultats. # ou plus général: variable=rep(colnames(sante[,2:5]),unlist(lapply(sante[,2:5],nlevels))) CTR = aggregate(res.mca$var$contrib,by=list(factor(variable)),fun=sum) 6. Modalités: Quelles sont les modalités qui contribuent le plus à la création du premier axe? du deuxième? Ces modalités sont-elles situées forcément aux extrémités du graphique? Commenter la qualité de représentation de ces modalités: les résultats obtenus vous semblent-ils surprenants? res.mca$var 2
7. Interpréter la proximité entre Cannabis Régulier et Alcool Régulier. Revenir aux données brutes pour confirmer votre interprétation. table(sante[,3],sante[,5]) 8. Que peut-on dire des consommateurs de Tabac Régulier? Sont-ils exclusivement des fumeurs de Cannabis Régulier? 9. Comment caractériser les étudiants qui ne sont Jamais Ivre? Et ceux qui ne boivent jamais? 10. Variables supplémentaires: On ne dispose pas de la contribution, est-ce normal? A quoi correspond la valeur test? res.mca$quali.sup Pourquoi les modalités supplémentaires sont ici proches du centre de gravité? Quels sont les personnes qui ont les comportements les plus addictifs? 11. Remarque: Il est intéressant de revenir aux données brutes pour analyser encore plus finement la proximité entre deux modalités qui vous intéresse particulièrement: Regarder le tableau croisé: table(sante[,3],sante[,5]) Construire le tableau des pourcentages en ligne puis des pourcentages en colonne et commenter. Commenter le tableau des effectifs que l on aurait obtenu s il y avait indépendance entre les deux variables et le tableau des contributions aux Chi2. Test <- chisq.test(table(sante[,3],sante[,5]), correct=false) Test$expected # Expected Counts round(test$residuals^2, 2) 12. Décrire de manière automatique les axes: dimdesc(res.mca) 3
3 AFCM des cétacés baleines à fanons (1) Baleines à fanons baleines grises (2) baleines à bosse (3) Physeteroidea cachalots (4) baleines à bec (5) dauphins (6) Baleines à dents Delphinoidea marsouins (7) belougas (8) Platanistoidea dauphins d eau douce (9) Figure 1: Classification des cétacés d après Grasse Le fichier cetaces.txt contient les observations sur 36 cétacés de 15 variables qualitatives : (a) Cou (absent, présent) (b) Forme de la tête (cylindrique, conique, front incurvé, globulaire, plat, convexe) (c) Taille de la tête (grosse, moyenne) (d) Bec (aucun, grand, étroit et court, étroit et long) (e) Nageoire dorsale (aucune, triangulaire, falciforme, falciforme arrière) (f) Palmes (petites, larges et courtes, moyennes, longues et étroites) (g) Dents (sur machoire inférieure, sur les deux, sans dent et long fanon, sans dent et mince fanon, sans dent et large fanon) (h) Sillon de la gorge (absent, petit, grand) (i) Event (à gauche, à droite, vertical, vertical avec 2 trous) (j) Couleur (ventre plus clair que le dos, noirâtre, sans pigmentation, taché, sans) (k) Vertèbres cervicales (libres, partiellement ou totalement soudées) (l) Os lacrymaux et jugulaires (forment un pièce, sont indépendants, absents) (m) Os de la tête (symétrique, faiblement asymétriques, asymétriques, fortement asymétriques, absents) (n) Habitat (rivières, mers tempérés et chaudes, mers froides, côtes, variable) (o) Alimentation (calmars, poissons, phoques, planctons) 4
Figure 2: Baleine à bosse Figure 3: Marsouin La première colonne du tableau cetaces.txt contient le groupe de classification auquel l individu appartient et ne fait pas partie des variables à analyser. Nous allons essayer d analyser ce tableau selon trois niveaux : vérification de la séparation des individus selon la classification ; interprétation des axes par variable (et non pas par modalité) ; relations entre modalités. 3.1 Vérification de la classification Quel est le type de graphique à faire? En retenant les 3 premiers axes, vérifier la séparation des baleines à fanons, des platanistoidea, des physeteroidea et des delphinoidea. Remarquer qu il est difficile de bien séparer les physeteroidea et les delphinoidea. Créer une variable qualitative à 4 modalités "classif": Fanons, Physeteroidea, Delphinoidea et Platanistoidea Essayer d obtenir un graphique "propre" (utiliser les options invisibles, habillages de plot.mca...), ou reconstruire les graphiques "à la main" en rajoutant toutes les options possibles titre, libellé des axes, vous pouvez aussi remettre les pourcentages d inertie...: cetaces.acm=mca(cetaces,...) plot(cetaces.acm,...) #Ou, plot(cetaces.acm$ind$coord[,1],cetaces.acm$ind$coord[,2],type="n",xlab="axe_1",...) text(cetaces.acm$li[,1],cetaces.acm$li[,2],format(groupe),col=as.numeric(classif)) Comme on s intéresse aux 3 premiers axes, on peut aussi réaliser un graphique en 3 dimensions: 5
library(scatterplot3d) scatterplot3d(cetaces.acm$ind$coord[,1],cetaces.acm$ind$coord[,2],cetaces.acm$ind$coord[,3],color=as.numeric(classif)) Quand deux baleines se ressemblent, vous pouvez revenir aux données brutes pour confirmer votre interprétation: cetace[6:7,] 3.2 Interprétation des axes par variable Quelles sont les variables les plus importantes? Quelles sont les variables qui permettent de séparer les baleines à fanons? Quelles sont les variables qui permettent de séparer les platanistoidea? 3.3 Interprétation des axes par modalité Donner un sens aux axes 1 et 2 à l aide des modalités. 6