ANALYSE FACTORIELLE DE DONNÉES MIXTES : PRINCIPE ET

ANALYSE FACTORIELLE DE DONNÉES MIXTES : PRINCIPE ET EXEMPLE D APPLICATION Jérôme Pagès Laboratoire de mathématiques appliquées Agrocampus, 35042 Rennes cedex email : pages@agrorennes.educagri.fr Résumé Une méthodologie factorielle permettant d inclure à la fois des variables quantitatives et qualitatives en tant qu éléments actifs d une même analyse a été proposée par B. Escofier en 1979 dans le cadre de l analyse des correspondances multiples. De son côté, Saporta a esquissé en 1990 une méthodologie ayant le même objectif mais dans le cadre de l analyse en composantes principales. Enfin, la pratique de l analyse factorielle multiple (AFM) suggère la possibilité de mettre en œuvre une AFM sur des données mixtes en considérant chaque variable, quantitative ou qualitative, comme un groupe d une seule variable. On peut montrer que ces trois approches conduisent aux même résultats. L ensemble de ces trois points de vue confère à la méthode proposée initiallement par B. Escofier le statut d une méthode à part entière : l Analyse Factorielle de Données Mixtes (AFDM). Cette communication présente le principe de l AFDM et une application illustrant la façon dont elle équilibre l influence des différents types de variables. Mots-clés : Analyse ou composantes principales, analyse des correspondances multiples, analyse factorielle multiple, données mixtes. Summary In the framework of multiple correspondences analysis, B. Escofier (1979a) proposed a factor analysis in which both quantitative and qualitative variables can intervene as active ones. This approach is equivalent to the one outlined by Saporta (1990) in the principal components analysis framework and to a multiple factor analysis (MFA ; Escofier & Pagès, 1998) in which each set of variables is composed by only one variable. All these equivalencies lead to a method (Factor analysis for mixed data: FAMD) having several good properties and easy to perform. This paper presents the principle of FAMD and an application showing how it balances the influence of the different kinds of variables. Keywords : Principal components analysis, multiple correspondances analysis, multiple factor analysis, mixed data. 1 Introduction L introduction simultanée de variables quantitatives et qualitatives (données dites mixtes) en tant qu éléments actifs d une même analyse factorielle est une problématique fréquente. L intérêt de conserver telles quelles les variables quantitatives (i.e. sans les coder en qualitatives) vaut essentiellement dans deux cas : lorsque le nombre de variables qualitatives est très petit comparé à celui des variables quantitatives lorsque le nombre d individus est faible. Plusieurs propositions d analyse factorielle de données mixtes ont déjà été faites. On peut citer, sans prétendre à l exhaustivité, les travaux suivants de l Ecole française d Analyse des données : Tenenhaus (1977), Escofier (1979a) et Saporta (1990). Adoptant le point de vue de l ACM, Escofier (1979a) a proposé d introduire des variables

quantitatives (moyennant un codage approprié) dans une ACM : elle décrit plusieurs propriétés de cette méthodologie ainsi qu une application. Il est possible, moyennant une métrique judicieusement choisie, de réaliser une ACP sur un tableau juxtaposant des variables quantitatives réduites et des variables qualitatives codées sous forme disjonctive complète. Cette possibilité est esquissée dans Saporta (1990) sous le nom d extension de l ACP et de l ACM. Enfin, lorsque les variables constituent des groupes homogènes (i.e. les variables d un même groupe sont de même type), une analyse factorielle multiple (AFM) peut être réalisée (Escofier & Pagès, 1998 p 173 ; Pagès, 2002). Si l on transpose les idées de B. Escofier (1979a) dans le cadre de l ACP, on retrouve l extension de Saporta (1990). En outre, cette méthode est équivalente à une AFM dans laquelle chaque groupe est réduit à une seule variable, quantitative ou qualitative. La convergence entre ces trois points de vue (ACP, ACM et AFM) apporte une justification solide à cette méthodologie qui du coup mérite une dénomination à part entière soit : Analyse Factorielle de Données Mixtes (AFDM). Les propriétés de l AFDM sont étudiées en détail dans Pagès (2004), présentation qui comporte une application sur des données réelles. Nous nous limitons ici à rappeler le principe de l AFDM et à décrire une application sur des données construites pour illustrer la façon dont l AFDM équilibre l influence des différents types de variables. 2 Données, notations Soient I individus notés i et munis du même poids p i = 1/I i. Ces individus sont décrits par : K 1 variables quantitatives {k = 1, K 1 } ; ces variables seront toujours supposées centrées réduites ; ceci n est pas une commodité mais une nécessité due à la présence des deux types de variables ; Q variables qualitatives {q = 1, Q}; la q ième variable présente K q modalités {k q = 1, K q } ; l ensemble des modalités a pour cardinal Σ q K q = K 2. Soit K = K 1 + K 2 le nombre total de variables quantitatives et de variables indicatrices. Ces notations sont rassemblées dans le tableau de la figure 1 dans lequel les variables qualitatives apparaissent à la fois sous leur forme condensée et sous leur forme disjonctive complète. 1 K 1 variables quantitatives (centrées-réduites) Q variables qualitatives (codage condensé) Q variables qualitatives = K 2 indicatrices (codage disjonctif complet) 1 q Q 1 k q K 2 1 k K 1 1 q Q 1 k q K q i x ik x iq x ik q I Figure 1. Structure des données et principales notations. x ik : valeur de i pour la variable (centrée-réduite) k ; x iq : modalité de i pour la variable q ; x ik q : = 1 si i possède la modalité k de la variable q et 0 sinon 3 Représentation des variables dans R I Soit R I l espace des fonctions sur I. Cet espace est muni de la métrique diagonale des poids des individus notée D : D (i, j) = 0 si j i = p i si j = i Généralement les individus ont le même poids : D = (1/I) I d (en notant I d la matrice identité de

dimension I). Comme en ACP normée, les variables quantitatives sont représentées par des vecteurs de longueur 1. Comme en ACM, la variable q est représentée par le nuage N q de ses K q indicatrices centrées. Ce nuage engendre le sous-espace E q de dimension K q 1, ensemble des fonctions sur I centrées et constantes sur les classes de la partition définie par q. Pour que N q ait, dans une ACP non normée, les mêmes propriétés inertielles que dans une ACM, il faut affecter à l indicatrice k q le poids 1/p kq (en notant p kq la proportion des individus possédant la modalité k q ). Comme les programmes d ACP usuels ne permettent pas l introduction directe de poids de colonnes, on préfèrera diviser les valeurs de l indicatrice k q par p kq, ce que nous appelons le codage-acp de la variable qualitative. En procédant ainsi, on obtient en particulier la propriété fondamentale suivante de l ACM : l inertie projetée de N q sur une variable centrée y est égale au rapport de corrélation η²(q, y) entre q et y. 4 Principe de l AFDM En recherchant la direction v de R I qui rend maximum l inertie projetée du nuage N K (comportant à la fois les variables quantitatives et les indicatrices), on rend maximum le critère (en notant r le coefficient de corrélation) : 2 2 r ( k, v) +. η ( q, v) k K1 point de départ de la proposition de Saporta (1990 p66). Géométriquement, les variables k étant réduites, r(k, v) = cosθ kv, en notant θ kv l angle entre les vecteurs k et v. De même, v étant centrée, η²(q, v) = cos²θ qv en notant θ qv l angle entre v et sa projection sur E q. Le critère s écrit alors q Q 2 2 cos θkv + cos θqv k K1 q Q point de départ de la présentation de l AFDM par Escofier (1979a). Dans sa présentation de l AFDM, Escofier (1979a) adopte un point de vue technique symétrique de celui choisi ici : elle se place dans le cadre de l ACM et code la variable quantitative de façon à obtenir un tableau traitable dans ce cadre. Il s agit donc bien de la même méthode, dont les résultats peuvent être obtenus via une ACM ou une ACP. En AFM, les groupes de variables sont pondérés de façon rendre égale à 1 leur inertie axiale maximum. En introduisant un tableau de données mixtes dans lequel chaque variable, quantitative ou qualitative, constitue un groupe, on obtient donc les résultats de l AFDM : - les variables quantitatives sont centrées-réduites ; - les variables qualitatives sont codées comme en ACM. L idée d appliquer l AFM à des groupes constitués chacun d une seule variable quantitative ou qualitative à déjà été proposée (Abascal-Fernandez et al 2003). 5 Graphiques de l AFDM Comme dans toute analyse factorielle on représente : le nuage des individus par sa projection sur ses axes d inertie (on note F s le facteur sur I de rang s) ; les variables quantitatives par leur coefficient de corrélation avec les facteurs F s ; les modalités de variables qualitatives par les centres de gravité des individus correspondant. En outre, s inspirant de la représentation des groupes de variables en AFM, on fait figurer sur un même graphique les deux types de variables dans le droit fil des représentations des variables qualitatives en ACM proposés par Escofier (1979b) ou Cazes (1982). La coordonnée de la variables x le long de l axe s vaut : r²(x, F s ) si x est une variable quantitative ;

η²(x, F s ) si x est une variable qualitative. Remarque : cette représentation n annule pas l intérêt du classique cercle des corrélations puisqu elle ne dépend pas du signe de r(x, F s ). 6 Application 6.1 Données, problématique Les données ont été construites de façon à mettre en évidence les propriétés de l AFDM avec un tableau aussi petit que possible : ceci facilite la mise en évidence directe dans les données brutes des résultats montrés par l analyse. Elles se composent de deux variables quantitatives non corrélées (A et B) et d une variable qualitative (C) à trois modalités (C1, C2, C3) liée aux deux précédentes (Tableaux 1 et 2). données brutes données en vue d une ACP A B C Acr Bcr C1 C2 C3 a 1 1 1-1.464-1.225 1.732 0 0 b 2 2 1-0.878 0 1.732 0 0 A B C c 3 3 2-0.293 1.225 0 1.732 0 A 1 d 4 3 2 0.293 1.225 0 1.732 0 B 0 1 e 5 2 3 0.878 0 0 0 1.732 C.914.750 2 f 6 1 3 1.464-1.225 0 0 1.732 Tableau 1. Données : six individus décrits par trois variables A, B : deux variables quantitatives ; C : variables qualitative. Acr, Bcr : variables A et B centrées réduites ; C1, C2, C3 : indicatrices des modalités de C «codées- ACP». Tableau 2. Liaison entres les variables initiales Pour deux variables quantitatives A, B : r²(a, B) ; Pour une variable qualitative C et une variable quantitative A : η²(a, C). 6.2 Pourcentages d inertie Les deux premiers axes expriment, à part à peu près égale, l essentiel de l inertie, résultat attendu compte tenu de la structure des données (Tableau 3). Inertie Totale Axe 1 Axe 2 Ensemble 4 (100%) 1.9562 (48.90%) 1.8660 (46.65%) A 1.9781 0 B 1 0.9330 C 2.9781.9330 Tableau 3. Décomposition de l inertie, par variable et par dimension de l AFDM La contribution d une variable à l inertie d un facteur s interprète comme une mesure de la liaison (carré du coefficient de corrélation cas d une variable quantitative ou le rapport de corrélation cas d une variable qualitative) entre le facteur et la variable. Le premier axe exprime la liaison entre A et C et le second la liaison entre B et C, résultat attendu compte tenu de la non corrélation entre A et B et de la liaison plus forte entre A et C qu entre B et C (cf. Tableau 2). L équilibre entre les contributions des deux types de variables apparaît ici de façon parfaite. 6.3 Représentation des individus et des modalités (Figure 2) Du point de vue des individus, l axe 1 place bien les points selon l ordre de la variable A, mais de façon «caricaturée» par la variable C (par rapport à A, rapprochement de a et b, de c et d et de f et

e). De façon précise, par exemple, selon la variable quantitative A, b est à mi-chemin entre a et c ; selon la variable qualitative C, b est confondu avec a. Le premier axe, lié de façon identique aux variables A et C, place b dans une position compromis à savoir à mi-chemin entre le milieu de [a, c] et de a. De ce point de vue aussi, le rôle joué par les deux types de variable est parfaitement équilibré. A propos du deuxième axe, on peut faire une remarque analogue : la position des individus correspond globalement à la variable B mais est marquée par la variable qualitative. Facteur 2-46.65 % Facteur 2-46.65 % 2 0.8 f a 1 C3 C1 0.4 e b 0 0 A -1-0.4-2 d C2 c -0.8 B -3-3.0-1.5 0 1.5 3.0 Facteur 1-48.90 % Figure 2. Représentation des individus et des modalités (centres de gravité) -0.8-0.4 0 0.4 0.8 Facteur 1-48.90 % Figure 3. Représentation des variables quantitatives 6.4 Représentation des variables (Figures 3 et 4) La représentation des variables quantitatives est celle, classique, de l ACP (Figure 3). Globalement, l axe 1 correspond à la variable A et l axe 2 à la variable B. La représentation conjointe des deux types de variables (Figure 4) est une illustration du tableau 2. Elle sera donc surtout précieuse dans le cas d un grand nombre de variables. Dans cet exemple, elle montre clairement la liaison de A avec F1, de B avec F2 et de C avec ces deux facteurs. 1.00 Facteur 2-46.65 % 0.75 0.50 0.25 B C Figure 4. Représentation simultanée des variables quantitatives et qualitatives La coordonnée d une variable le long de l axe s s interprète comme une mesure de la liaison (carré du coefficient de corrélation cas d une variable quantitative ou rapport de corrélation cas d une variable qualitative) entre la variable et le facteur s. 0 0 0.25 0.50 0.75 1.00 Facteur 1-48.90 % A

7 Conclusion La méthodologie proposée initialement par Escofier (1979a), dans le cadre de l ACM, et esquissée par Saporta (1990), dans le cadre de l ACP, prend en compte les variables quantitatives comme une ACP normée et les variables qualitatives comme une ACM. L équilibre entre les deux types de variables est assuré par leurs propriétés inertielles. Les résultats qu elle produit peuvent être interprétés avec les règles usuelles de l ACP et de l ACM. Sa mise en œuvre peut être réalisée très facilement à l aide d un programme d AFM. En combinant l AFDM et l AFM, il est possible d étendre l AFM au cas de groupes de variables pouvant inclure chacun des variables des deux types. Ces groupes sont codées de façon à ce que leur ACP non normée conduise aux résultats de l AFDM ; dans l AFM, ils sont alors déclarés comme quantitatifs. En procédant ainsi, on équilibre à la fois les groupes entre eux et les variables au sein de chaque groupe. On retrouve ici un cas particulier d analyse factorielle multiple hiérarchique (Le Dien et Pagès 2002). Bibliographie [1] Abascal-Fernandez E., Landaluce-Cluo M.I., Garcia-Laube I. (2003). Multiple factor analysis of mixed tables : a proposal for analysing problematic metric variables. Proceeding cf CARME 2003 meeting. Barcelona, June 2003. [2] Cazes P. (1980). Note sur les éléments supplémentaires en analyse des correspondances. Les cahiers de l analyse des données, 7 (1) 9-23 et 7 (2) 133-154 [3] Escofier B.(1979a). Traitement simultané de variables quantitatives et qualitatives en analyse factorielle. Les cahiers de l analyse des données 4 (2) 137-146. [4] Escofier B.(1979b). Une représentation des variables dans l analyse des correspondances multiples. Revue Statistique Appliquée XXVII (4) 37-47. [5] Escofier B. et Pagès J. (1998). Analyses factorielles simples et multiples. 3 e ed. Dunod. [6] Le Dien S. et Pagès J. (2002). Analyse factorielle multiple hiérarchique. Revue de statistique appliquée LI (2) 47-73. [7] Pagès J. (2002). Analyse factorielle multiple appliquée aux variables qualitatives et aux données mixtes. Revue de statistique appliquée L (4) 5-37. [8] Pagès J. (2004). Analyse factorielle de données mixtes. Revue de statistique appliquée à paraître. [9] Saporta G. (1990). Simultaneous analysis of qualitative and quantitative data. Atti della XXXV riunione scientifica ; società ita liana di statistica, 63-72. [10] Tenenhaus M. (1977). Analyse en composantes principales d un ensemble de variables nominales ou numériques. Revue de Statistique Appliquée, XXV (2) 39-56. [11] Spad (2002). Diffusé par CISIA 30 rue Victor Hugo 92532 Levallois-Perret cedex