ANALYSE FACTORIELLE DE DONNÉES MIXTES : PRINCIPE ET

Documents pareils
1 Complément sur la projection du nuage des individus

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

La classification automatique de données quantitatives

Analyse en Composantes Principales

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Introduction à l approche bootstrap

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Introduction. Préambule. Le contexte

Exercices - Nombres complexes : corrigé. Formes algébriques et trigonométriques, module et argument

Analyse des correspondances avec colonne de référence

Principe de symétrisation pour la construction d un test adaptatif

Statistiques Descriptives à une dimension

INF6304 Interfaces Intelligentes

Théorie et codage de l information

EXERCICES DE REVISIONS MATHEMATIQUES CM2

Cours d Analyse. Fonctions de plusieurs variables

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Introduction. Mathématiques Quantiques Discrètes

I. Polynômes de Tchebychev

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Extraction d informations stratégiques par Analyse en Composantes Principales

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Deux disques dans un carré

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

L'analyse des données à l usage des non mathématiciens

Logiciel XLSTAT version rue Damrémont PARIS

Calcul intégral élémentaire en plusieurs variables

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

REVUE DE STATISTIQUE APPLIQUÉE

Chapitre 2 : Caractéristiques du mouvement d un solide

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Préparer un état de l art

Représentation géométrique d un nombre complexe

Polynômes à plusieurs variables. Résultant

Individus et informations supplémentaires

Angles orientés et trigonométrie

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Public and European Business Law - Droit public et européen des affaires. Master I Law Level

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Traitement des données avec Microsoft EXCEL 2010

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

AGROBASE : un système de gestion de données expérimentales

Statistique Descriptive Élémentaire

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

Manuel d utilisation 26 juin Tâche à effectuer : écrire un algorithme 2

Structuration des décisions de jurisprudence basée sur une ontologie juridique en langue arabe

ACP Voitures 1- Méthode

Exercices - Polynômes : corrigé. Opérations sur les polynômes

VISUALISATION DE NUAGES DE POINTS

PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS?

Chapitre 1 Régime transitoire dans les systèmes physiques

Baccalauréat L spécialité, Métropole et Réunion, 19 juin 2009 Corrigé.

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

FOURTH SESSION : "MRP & CRP"

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Sujet de thèse CIFRE RESULIS / LGI2P

Les indices à surplus constant

Avis n sur la méthodologie relative aux comptes combinés METHODOLOGIE RELATIVE AUX COMPTES COMBINES

Efficacité énergétique des logements à haute performance énergétique, HPE : Application au site de Béchar

Chapitre 3. Les distributions à deux variables

LES GENERATEURS DE NOMBRES ALEATOIRES

MATHÉMATIQUES ET SCIENCES HUMAINES

Évaluation de la régression bornée

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

avec des nombres entiers

ÉVALUATION FORMATIVE. On considère le circuit électrique RC représenté ci-dessous où R et C sont des constantes strictement positives.

Modélisation géostatistique des débits le long des cours d eau.

TOUT CE QU IL FAUT SAVOIR POUR LE BREVET

Exemple PLS avec SAS

F411 - Courbes Paramétrées, Polaires

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

CHAPITRE IV Oscillations libres des systèmes à plusieurs degrés de liberté

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

P1 : Corrigés des exercices

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Rappels et compléments, première partie : Nombres complexes et applications à la géométrie

Introduction au datamining

Relation entre deux variables : estimation de la corrélation linéaire

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Le produit semi-direct

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Activités numériques [13 Points]

Chapitre 2. Eléments pour comprendre un énoncé

Once the installation is complete, you can delete the temporary Zip files..

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Différentiabilité ; Fonctions de plusieurs variables réelles

TP : Gestion d une image au format PGM

Transcription:

ANALYSE FACTORIELLE DE DONNÉES MIXTES : PRINCIPE ET EXEMPLE D APPLICATION Jérôme Pagès Laboratoire de mathématiques appliquées Agrocampus, 35042 Rennes cedex email : pages@agrorennes.educagri.fr Résumé Une méthodologie factorielle permettant d inclure à la fois des variables quantitatives et qualitatives en tant qu éléments actifs d une même analyse a été proposée par B. Escofier en 1979 dans le cadre de l analyse des correspondances multiples. De son côté, Saporta a esquissé en 1990 une méthodologie ayant le même objectif mais dans le cadre de l analyse en composantes principales. Enfin, la pratique de l analyse factorielle multiple (AFM) suggère la possibilité de mettre en œuvre une AFM sur des données mixtes en considérant chaque variable, quantitative ou qualitative, comme un groupe d une seule variable. On peut montrer que ces trois approches conduisent aux même résultats. L ensemble de ces trois points de vue confère à la méthode proposée initiallement par B. Escofier le statut d une méthode à part entière : l Analyse Factorielle de Données Mixtes (AFDM). Cette communication présente le principe de l AFDM et une application illustrant la façon dont elle équilibre l influence des différents types de variables. Mots-clés : Analyse ou composantes principales, analyse des correspondances multiples, analyse factorielle multiple, données mixtes. Summary In the framework of multiple correspondences analysis, B. Escofier (1979a) proposed a factor analysis in which both quantitative and qualitative variables can intervene as active ones. This approach is equivalent to the one outlined by Saporta (1990) in the principal components analysis framework and to a multiple factor analysis (MFA ; Escofier & Pagès, 1998) in which each set of variables is composed by only one variable. All these equivalencies lead to a method (Factor analysis for mixed data: FAMD) having several good properties and easy to perform. This paper presents the principle of FAMD and an application showing how it balances the influence of the different kinds of variables. Keywords : Principal components analysis, multiple correspondances analysis, multiple factor analysis, mixed data. 1 Introduction L introduction simultanée de variables quantitatives et qualitatives (données dites mixtes) en tant qu éléments actifs d une même analyse factorielle est une problématique fréquente. L intérêt de conserver telles quelles les variables quantitatives (i.e. sans les coder en qualitatives) vaut essentiellement dans deux cas : lorsque le nombre de variables qualitatives est très petit comparé à celui des variables quantitatives lorsque le nombre d individus est faible. Plusieurs propositions d analyse factorielle de données mixtes ont déjà été faites. On peut citer, sans prétendre à l exhaustivité, les travaux suivants de l Ecole française d Analyse des données : Tenenhaus (1977), Escofier (1979a) et Saporta (1990). Adoptant le point de vue de l ACM, Escofier (1979a) a proposé d introduire des variables

quantitatives (moyennant un codage approprié) dans une ACM : elle décrit plusieurs propriétés de cette méthodologie ainsi qu une application. Il est possible, moyennant une métrique judicieusement choisie, de réaliser une ACP sur un tableau juxtaposant des variables quantitatives réduites et des variables qualitatives codées sous forme disjonctive complète. Cette possibilité est esquissée dans Saporta (1990) sous le nom d extension de l ACP et de l ACM. Enfin, lorsque les variables constituent des groupes homogènes (i.e. les variables d un même groupe sont de même type), une analyse factorielle multiple (AFM) peut être réalisée (Escofier & Pagès, 1998 p 173 ; Pagès, 2002). Si l on transpose les idées de B. Escofier (1979a) dans le cadre de l ACP, on retrouve l extension de Saporta (1990). En outre, cette méthode est équivalente à une AFM dans laquelle chaque groupe est réduit à une seule variable, quantitative ou qualitative. La convergence entre ces trois points de vue (ACP, ACM et AFM) apporte une justification solide à cette méthodologie qui du coup mérite une dénomination à part entière soit : Analyse Factorielle de Données Mixtes (AFDM). Les propriétés de l AFDM sont étudiées en détail dans Pagès (2004), présentation qui comporte une application sur des données réelles. Nous nous limitons ici à rappeler le principe de l AFDM et à décrire une application sur des données construites pour illustrer la façon dont l AFDM équilibre l influence des différents types de variables. 2 Données, notations Soient I individus notés i et munis du même poids p i = 1/I i. Ces individus sont décrits par : K 1 variables quantitatives {k = 1, K 1 } ; ces variables seront toujours supposées centrées réduites ; ceci n est pas une commodité mais une nécessité due à la présence des deux types de variables ; Q variables qualitatives {q = 1, Q}; la q ième variable présente K q modalités {k q = 1, K q } ; l ensemble des modalités a pour cardinal Σ q K q = K 2. Soit K = K 1 + K 2 le nombre total de variables quantitatives et de variables indicatrices. Ces notations sont rassemblées dans le tableau de la figure 1 dans lequel les variables qualitatives apparaissent à la fois sous leur forme condensée et sous leur forme disjonctive complète. 1 K 1 variables quantitatives (centrées-réduites) Q variables qualitatives (codage condensé) Q variables qualitatives = K 2 indicatrices (codage disjonctif complet) 1 q Q 1 k q K 2 1 k K 1 1 q Q 1 k q K q i x ik x iq x ik q I Figure 1. Structure des données et principales notations. x ik : valeur de i pour la variable (centrée-réduite) k ; x iq : modalité de i pour la variable q ; x ik q : = 1 si i possède la modalité k de la variable q et 0 sinon 3 Représentation des variables dans R I Soit R I l espace des fonctions sur I. Cet espace est muni de la métrique diagonale des poids des individus notée D : D (i, j) = 0 si j i = p i si j = i Généralement les individus ont le même poids : D = (1/I) I d (en notant I d la matrice identité de

dimension I). Comme en ACP normée, les variables quantitatives sont représentées par des vecteurs de longueur 1. Comme en ACM, la variable q est représentée par le nuage N q de ses K q indicatrices centrées. Ce nuage engendre le sous-espace E q de dimension K q 1, ensemble des fonctions sur I centrées et constantes sur les classes de la partition définie par q. Pour que N q ait, dans une ACP non normée, les mêmes propriétés inertielles que dans une ACM, il faut affecter à l indicatrice k q le poids 1/p kq (en notant p kq la proportion des individus possédant la modalité k q ). Comme les programmes d ACP usuels ne permettent pas l introduction directe de poids de colonnes, on préfèrera diviser les valeurs de l indicatrice k q par p kq, ce que nous appelons le codage-acp de la variable qualitative. En procédant ainsi, on obtient en particulier la propriété fondamentale suivante de l ACM : l inertie projetée de N q sur une variable centrée y est égale au rapport de corrélation η²(q, y) entre q et y. 4 Principe de l AFDM En recherchant la direction v de R I qui rend maximum l inertie projetée du nuage N K (comportant à la fois les variables quantitatives et les indicatrices), on rend maximum le critère (en notant r le coefficient de corrélation) : 2 2 r ( k, v) +. η ( q, v) k K1 point de départ de la proposition de Saporta (1990 p66). Géométriquement, les variables k étant réduites, r(k, v) = cosθ kv, en notant θ kv l angle entre les vecteurs k et v. De même, v étant centrée, η²(q, v) = cos²θ qv en notant θ qv l angle entre v et sa projection sur E q. Le critère s écrit alors q Q 2 2 cos θkv + cos θqv k K1 q Q point de départ de la présentation de l AFDM par Escofier (1979a). Dans sa présentation de l AFDM, Escofier (1979a) adopte un point de vue technique symétrique de celui choisi ici : elle se place dans le cadre de l ACM et code la variable quantitative de façon à obtenir un tableau traitable dans ce cadre. Il s agit donc bien de la même méthode, dont les résultats peuvent être obtenus via une ACM ou une ACP. En AFM, les groupes de variables sont pondérés de façon rendre égale à 1 leur inertie axiale maximum. En introduisant un tableau de données mixtes dans lequel chaque variable, quantitative ou qualitative, constitue un groupe, on obtient donc les résultats de l AFDM : - les variables quantitatives sont centrées-réduites ; - les variables qualitatives sont codées comme en ACM. L idée d appliquer l AFM à des groupes constitués chacun d une seule variable quantitative ou qualitative à déjà été proposée (Abascal-Fernandez et al 2003). 5 Graphiques de l AFDM Comme dans toute analyse factorielle on représente : le nuage des individus par sa projection sur ses axes d inertie (on note F s le facteur sur I de rang s) ; les variables quantitatives par leur coefficient de corrélation avec les facteurs F s ; les modalités de variables qualitatives par les centres de gravité des individus correspondant. En outre, s inspirant de la représentation des groupes de variables en AFM, on fait figurer sur un même graphique les deux types de variables dans le droit fil des représentations des variables qualitatives en ACM proposés par Escofier (1979b) ou Cazes (1982). La coordonnée de la variables x le long de l axe s vaut : r²(x, F s ) si x est une variable quantitative ;

η²(x, F s ) si x est une variable qualitative. Remarque : cette représentation n annule pas l intérêt du classique cercle des corrélations puisqu elle ne dépend pas du signe de r(x, F s ). 6 Application 6.1 Données, problématique Les données ont été construites de façon à mettre en évidence les propriétés de l AFDM avec un tableau aussi petit que possible : ceci facilite la mise en évidence directe dans les données brutes des résultats montrés par l analyse. Elles se composent de deux variables quantitatives non corrélées (A et B) et d une variable qualitative (C) à trois modalités (C1, C2, C3) liée aux deux précédentes (Tableaux 1 et 2). données brutes données en vue d une ACP A B C Acr Bcr C1 C2 C3 a 1 1 1-1.464-1.225 1.732 0 0 b 2 2 1-0.878 0 1.732 0 0 A B C c 3 3 2-0.293 1.225 0 1.732 0 A 1 d 4 3 2 0.293 1.225 0 1.732 0 B 0 1 e 5 2 3 0.878 0 0 0 1.732 C.914.750 2 f 6 1 3 1.464-1.225 0 0 1.732 Tableau 1. Données : six individus décrits par trois variables A, B : deux variables quantitatives ; C : variables qualitative. Acr, Bcr : variables A et B centrées réduites ; C1, C2, C3 : indicatrices des modalités de C «codées- ACP». Tableau 2. Liaison entres les variables initiales Pour deux variables quantitatives A, B : r²(a, B) ; Pour une variable qualitative C et une variable quantitative A : η²(a, C). 6.2 Pourcentages d inertie Les deux premiers axes expriment, à part à peu près égale, l essentiel de l inertie, résultat attendu compte tenu de la structure des données (Tableau 3). Inertie Totale Axe 1 Axe 2 Ensemble 4 (100%) 1.9562 (48.90%) 1.8660 (46.65%) A 1.9781 0 B 1 0.9330 C 2.9781.9330 Tableau 3. Décomposition de l inertie, par variable et par dimension de l AFDM La contribution d une variable à l inertie d un facteur s interprète comme une mesure de la liaison (carré du coefficient de corrélation cas d une variable quantitative ou le rapport de corrélation cas d une variable qualitative) entre le facteur et la variable. Le premier axe exprime la liaison entre A et C et le second la liaison entre B et C, résultat attendu compte tenu de la non corrélation entre A et B et de la liaison plus forte entre A et C qu entre B et C (cf. Tableau 2). L équilibre entre les contributions des deux types de variables apparaît ici de façon parfaite. 6.3 Représentation des individus et des modalités (Figure 2) Du point de vue des individus, l axe 1 place bien les points selon l ordre de la variable A, mais de façon «caricaturée» par la variable C (par rapport à A, rapprochement de a et b, de c et d et de f et

e). De façon précise, par exemple, selon la variable quantitative A, b est à mi-chemin entre a et c ; selon la variable qualitative C, b est confondu avec a. Le premier axe, lié de façon identique aux variables A et C, place b dans une position compromis à savoir à mi-chemin entre le milieu de [a, c] et de a. De ce point de vue aussi, le rôle joué par les deux types de variable est parfaitement équilibré. A propos du deuxième axe, on peut faire une remarque analogue : la position des individus correspond globalement à la variable B mais est marquée par la variable qualitative. Facteur 2-46.65 % Facteur 2-46.65 % 2 0.8 f a 1 C3 C1 0.4 e b 0 0 A -1-0.4-2 d C2 c -0.8 B -3-3.0-1.5 0 1.5 3.0 Facteur 1-48.90 % Figure 2. Représentation des individus et des modalités (centres de gravité) -0.8-0.4 0 0.4 0.8 Facteur 1-48.90 % Figure 3. Représentation des variables quantitatives 6.4 Représentation des variables (Figures 3 et 4) La représentation des variables quantitatives est celle, classique, de l ACP (Figure 3). Globalement, l axe 1 correspond à la variable A et l axe 2 à la variable B. La représentation conjointe des deux types de variables (Figure 4) est une illustration du tableau 2. Elle sera donc surtout précieuse dans le cas d un grand nombre de variables. Dans cet exemple, elle montre clairement la liaison de A avec F1, de B avec F2 et de C avec ces deux facteurs. 1.00 Facteur 2-46.65 % 0.75 0.50 0.25 B C Figure 4. Représentation simultanée des variables quantitatives et qualitatives La coordonnée d une variable le long de l axe s s interprète comme une mesure de la liaison (carré du coefficient de corrélation cas d une variable quantitative ou rapport de corrélation cas d une variable qualitative) entre la variable et le facteur s. 0 0 0.25 0.50 0.75 1.00 Facteur 1-48.90 % A

7 Conclusion La méthodologie proposée initialement par Escofier (1979a), dans le cadre de l ACM, et esquissée par Saporta (1990), dans le cadre de l ACP, prend en compte les variables quantitatives comme une ACP normée et les variables qualitatives comme une ACM. L équilibre entre les deux types de variables est assuré par leurs propriétés inertielles. Les résultats qu elle produit peuvent être interprétés avec les règles usuelles de l ACP et de l ACM. Sa mise en œuvre peut être réalisée très facilement à l aide d un programme d AFM. En combinant l AFDM et l AFM, il est possible d étendre l AFM au cas de groupes de variables pouvant inclure chacun des variables des deux types. Ces groupes sont codées de façon à ce que leur ACP non normée conduise aux résultats de l AFDM ; dans l AFM, ils sont alors déclarés comme quantitatifs. En procédant ainsi, on équilibre à la fois les groupes entre eux et les variables au sein de chaque groupe. On retrouve ici un cas particulier d analyse factorielle multiple hiérarchique (Le Dien et Pagès 2002). Bibliographie [1] Abascal-Fernandez E., Landaluce-Cluo M.I., Garcia-Laube I. (2003). Multiple factor analysis of mixed tables : a proposal for analysing problematic metric variables. Proceeding cf CARME 2003 meeting. Barcelona, June 2003. [2] Cazes P. (1980). Note sur les éléments supplémentaires en analyse des correspondances. Les cahiers de l analyse des données, 7 (1) 9-23 et 7 (2) 133-154 [3] Escofier B.(1979a). Traitement simultané de variables quantitatives et qualitatives en analyse factorielle. Les cahiers de l analyse des données 4 (2) 137-146. [4] Escofier B.(1979b). Une représentation des variables dans l analyse des correspondances multiples. Revue Statistique Appliquée XXVII (4) 37-47. [5] Escofier B. et Pagès J. (1998). Analyses factorielles simples et multiples. 3 e ed. Dunod. [6] Le Dien S. et Pagès J. (2002). Analyse factorielle multiple hiérarchique. Revue de statistique appliquée LI (2) 47-73. [7] Pagès J. (2002). Analyse factorielle multiple appliquée aux variables qualitatives et aux données mixtes. Revue de statistique appliquée L (4) 5-37. [8] Pagès J. (2004). Analyse factorielle de données mixtes. Revue de statistique appliquée à paraître. [9] Saporta G. (1990). Simultaneous analysis of qualitative and quantitative data. Atti della XXXV riunione scientifica ; società ita liana di statistica, 63-72. [10] Tenenhaus M. (1977). Analyse en composantes principales d un ensemble de variables nominales ou numériques. Revue de Statistique Appliquée, XXV (2) 39-56. [11] Spad (2002). Diffusé par CISIA 30 rue Victor Hugo 92532 Levallois-Perret cedex