Analyse simultanée de variables quantitatives et qualitatives à l aide de l analyse factorielle multiple Jérôme Pagès Laboratoire de mathématiques appliquées Agrocampus France
Analyse Factorielle Multiple (AFM) Un ensemble d individus décrit par plusieurs groupes de variables Exposé en deux étapes ) Un groupe de variables incluant à la fois des variables quantitatives et qualitatives 2) Plusieurs groupes de variables, quantitatives, qualitatives ou des deux types (données mixtes) 2
Données K variables quantitatives (centrées réduites) Q variables qualitatives k K q Q Individus i x ik x iq I 3
Données K variables quantitatives (centrées réduites) Q variables qualitatives =K 2 indicatrices (codage disjonctif complet) q Q k q K 2 k K k q K q Individus i x ik x ikq I 4
Objectifs Mettre en œuvre une analyse factorielle dans laquelle les deux types de variables jouent un rôle actif Solution classique Diviser l intervalle de variation des variables quantitatives Coder les variables quantitatives en qualitatives Mettre en œuvre une Analyse des Correspondances Multiples (ACM) Benzécri J.-P., Cazes P., Lebart L., etc. Excellente solution en pratique Deux cas «limite» I petit Q <<K 5
Autres solutions, moins connues Introduction de variables quantitatives en ACM Via un codage particulier B. Escofier CAD 979 (PUR 2003) Introduction d indicatrices dans une ACP via une métrique particulière G. Saporta in Revue Soc. ital. de stat. 990 AFM de données mixtes B. Escofier & J. Pagès (Dunod 988-997) J. Pagès RSA 2002 idée : une variable = un groupe Abascal E. et al. Carme 2003 6
Représentation des variables dans R I Variables quantitatives en ACP normée R I k O 7
Représentation des variables dans R I Variables qualitatives en ACM R I E q O E q sous-espace engendré par les indicatrices de la variable q L inertie des indicatrices de la variable q est égale à dans toutes les directions de E q 8
Critère Cas de l ACP normée R I k 2 cos θ kv r 2 ( k, v) k k v O θ kv 9
Critère Cas de l ACM R I q 2 cos θ qv η 2 ( qv, ) q v E q O θ qv 0
Méthode proposée par B. Escofier (979) Critère R I k cos θ + cos 2 2 kv q θ qv k v E q θ kv O θ qv
Méthode proposée par B. Escofier (979) En pratique Les variables quantitatives sont codées par deux colonnes et juxtaposées au tableau disjonctif complet L ensemble est traité par ACM K variables quantitatives (centrées réduites) Q variables qualitatives = K 2 indicatrices (codage disjonctif complet) q Q k K k q k q K q K 2 i I x ik + x ik 2 2 x ik q 2
Méthode proposée par G. Saporta (990) Critère k 2 2 r k v + η q v (, ) (, ) q En pratique Les indicatrices sont juxtaposées aux variables quantitatives L ensemble est traité par une ACP avec une métrique particulière Même méthode vue dans le cadre de l ACM (B. Escofier) dans le cadre de l ACP (G. Saporta) Analyse factorielle de données mixtes (AFDM) 3
AFDM à l aide d une ACP Codage des indicatrices pour garder, en ACP, leurs propriétés en ACM Q variables qualitatives = K 2 indicatrices q i k q K k q K q x ik p q k q I p kq fréquence de la modalité k de la variable q 4
Représentations fournies par l AFDM F2 F2 k individu modalité k 3 i2 i F C A B F k 2 5
AFM appliquée à plusieurs groupes de variables : quantitatifs, qualitatifs ou mixtes J groupes quantitatifs J 2 groupes qualitatifs (codage disjonctif complet) Groupes j J j J 2 Var. kk j q Q j k K q Ind. i x ik x ik I 6
Données : exemple Perception de 5 outils pédagogiques par des étudiants Cours en ligne : Livres ) texte 4) cours 2) animations 5) exercices 3) film sur logiciels Chaque outil est noté par chaque étudiant sur une échelle en 5 points de = inutile à 5 = très utile Tableau : 25 étudiants x 5 outils avec x ik la note donnée par l étudiant i à l outil k Analyse exploratoire Les variables peuvent être considérées comme quantitatives (ACP) ou qualitatives (ACM) Double objectif Comparaison ACP - ACM Introduction des deux points de vue dans une analyse unique 7
Données : exemple 5 outils = variables quantitatives (centrées-réduites) 5 outils = 25 indicatrices (codage disjonctif complet) q 5 k 25 k 5 k 5 Individus i x ik x ik I 8
Pondération des groupes de variables Plusieurs groupes de variables actives dans une analyse unique Question Comment équilibrer leur influence? 9
Pondération des groupes de variables Exemple de référence : deux groupes de variables quantitatives R I groupe : 2 var. groupe 2 : 3 var. 20
Pondération des groupes de variables ACP des 5 variables, sans considérer les groupes R I ère composante principale Groupe : 2 var. Groupe 2 : 3 var. 2
Exemple de référence Pondération des groupes dans l AFM Equilibrer l inertie axiale maximum R I.5.5 Groupe : 2 var. Groupe 2 : 3 var. Chaque variable du groupe j est pondérée par /λ j λ j : ère valeur propre de l ACP séparée du groupe j. 22
Le cœur de l AFM est une analyse factorielle de tous les groupes actifs Les groupes de variables peuvent être : quantitatifs (centrés-réduits ou non) qualitatifs mixtes Critère (cas de 2 groupes : K variables quantitatives + Q 2 variables qualitatives) r ( k, v) + η ( q, v) λ 2 2 2 k K λq 2 q Q 2 Equivalences en AFM quand chaque groupe contient une seule variable Variables quantitatives Variables qualitatives Données mixtes ACP normée ACM AFDM 23
Le cœur de l AFM est une analyse factorielle de tous les groupes actifs L AFM fournit : ) : les résultats classiques de l analyse factorielle Soit, pour chaque axe : Coordonnées, contributions et Cos² des individus Coefficient de corrélation entre facteurs et variables continues Coordonnées des modalités (au barycentre de leurs individus) F2 F2 k individu modalité k 3 i2 i F C A B F k 2 24
Valeurs propres des analyses séparées F F2 F3 F4 F5 MCA 0,637 0,67 0,454 0,48 0,369 PCA 2,837,870 0,48 0,08 0,063 Valeurs propres des analyses séparées (% cumulés) F F2 F3 F4 F5 MCA 5,92 3,33 42,68 53,2 62,35 PCA 56,75 94,6 97,2 98,74 00,00 Décomposition de l inertie dans l AFM F F2 F3 F4 F5 MFA,942,455 0,826 0,694 0,62 24,4% 8,09% 0,27% 8,63% 7,6% MCA 0,950 0,864 0,78 0,689 0,597 PCA 0,992 0,59 0,045 0,005 0,05 25
F2-8.09 % Les 25 étudiants 2 i2 i3 i4 i5 i8 i9 i3 i5 i4 i6i7 i9 0 i i20 F - 24.4 % i0 i8 i2 - i22 i7 i24 i25 i23-2 i6 i i2-2 - 0 2 26
F2-8.09 % 0.8 0.4 Films sur logiciels Animations F - 24.4 % Texte -0.8-0.4 0.4 0.8-0.4-0.8 Livre d exercices Livre du cours 27
.50 F2-8.09 % 0.75 Lco Lex Fil3 Tex3 Ani3 Lex2 Lco2 0 Tex2 Ani2 Lex3 Films sur logiciels Lco3 Tex4 Fil4 Ani4 F - 24.4 % Texte Fil2 Fil5-0.75 Fil Tex animations Lco4 Livre cours Lex4 Livre exercices Ani5 Tex5 Ani -.50 Lco5 Lex5 -.50-0.75 0 0.75.50 28
Axes des analyses séparées F2-8.09 % ACMF ACPF2 0.4 F - 24.4 % Films logiciels Animations -0.8-0.4 0.4 0.8 ACPF Texte ACMF2-0.4-0.8 Livre exercices Livre cours 29
Représentation globale des groupes de variables j J i K K j K J i i j i J I R K i N I j R K j i j N I j R K J N I J i J N I j : nuage partiel (des individus ; associé au groupe j) 30
6. Représentation des groupe Etudier les ressemblances globales entre les N j i? R K R Kj N I j N I j R K J N I J i i j i J j J l I l I l I i W (i,l) i W j (i,l) i W J (i,l) I I I matrices des produits scalaires entre individus pour chaque groupe j Wj = X jx j 3
Données Produits scalaires K j l I i i x ik W j (i,l) I I R I R I² N K j W j N J 32
N J : nuage des groupes R I² W j N J Etudier le nuage N J Méthode de référence : STATIS (Escoufier Y., Lavit C.) Axes principaux de N J Interprétation de ces axes difficile 33
Etudier N J avec l AFM Données Produits scalaires K j l I i i x ik W j (i,l) I I R I R I² N K j W j w s v s N J w s : W associé à v s inertie de N K j projeté sur v s coordonnée de W j sur w s 34
Carré des liaisons Lg ( v, K j ) groupe K j K j quantitatif 0 0 Lg ( v, K j ) Lg v K = r k v 2 ( s, j) (, ) j s λ k K K j qualitatif Lg v K = q v 2 ( s, j) η (, ) j s λq 2 q Q 2 35
.00 F2-8.09 % 0.75 Livre cours (quali.) Livre exercices(quali.) Livre cours (quanti.) Livre exercices (quanti.) Group (ACM) Group 2 (ACP) 0.50 Texte (quali.) 0.25 Animations (quali.) Films logiciels (quali.) 0 Animations (quanti.) Films logiciels (quanti.) F - 24.4 % Texte (quanti.) 0 0.25 0.50 0.75.00 36
Conclusion L AFM est une méthode factorielle dédiée aux tableaux multiples dans lesquels Un groupe d individus est décrit par plusieurs groupes de variables Les groupes de variables peuvent être quantitatifs, qualitatifs ou mixtes Le cœur de la méthode est une analyse factorielle pondérée ; elle fonctionne comme une ACP pour les variables quantitatives comme une ACM pour les variables qualitatives Elle fournit des résultats classiques de l analyse factorielle représentation des individus, des variables, etc. spécifiques de la structure des variables en groupes représentation des groupes, des axes des analyses séparées, etc. 37
Ces analyses sont disponibles dans Un package R dédié à l analyse exploratoire des données http://www2.agrocampus-ouest.fr/math/ 38