ANALYSE FACTORIELLE MULTIPLE DE DONNEES MIXTES :

Documents pareils
La classification automatique de données quantitatives

MATHÉMATIQUES ET SCIENCES HUMAINES

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Analyse en Composantes Principales

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Statistique Descriptive Multidimensionnelle. (pour les nuls)

7. ECONOMIE 7.3. COMMERCE GESTIONNAIRE DE TRES PETITES ENTREPRISES

Satisfaction des stagiaires de BRUXELLES FORMATION Résultats 2013

RÉGIBEAU Julien. Aspirant F.R.S.-FNRS

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

1 Complément sur la projection du nuage des individus

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Analyse des correspondances avec colonne de référence

Extraction d informations stratégiques par Analyse en Composantes Principales

I- Définitions des signaux.

ESIEA PARIS

Filière «Économie et Entreprise» 2015/2016

Mémo d utilisation de ADE-4

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

La gestion des contraintes pour modéliser les stratégies humaines d'ordonnancement et concevoir des interfaces homme-machine ergonomiques

JUNIOR MBA ECOFI MANAGEMENT DES ORGANISATIONS ET DE S PROJETS

RPS QVT. risques psychosociaux / QUALITÉ DE VIE AU TRAVAIL. l expertise obea

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

THOT - Extraction de données et de schémas d un SGBD

Introduction. Préambule. Le contexte

Variations du modèle de base

Contenuti: Les principales régions françaises proposées aux différents types de touristes

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

RESULTATS D ENQUÊTE: LES SALAIRES DES DIPLÔMÉS DE L EPFL

Filtrage stochastique non linéaire par la théorie de représentation des martingales

INF6304 Interfaces Intelligentes

Bandes Critiques et Masquage

L axe 5 du Cancéropole Nord Ouest

Summer Institute/Institut d Été. in Medical Education/Pédagogie Médicale

Compression Compression par dictionnaires

Master CCI. Compétences Complémentaires en Informatique. Livret de l étudiant

Informatique et sciences du numérique

Famille multirésidence : recensement et sources alternatives

Mathématiques financières

Master ès Sciences en sciences infirmières

Indications pour une progression au CM1 et au CM2

FONCTION DE DEMANDE : REVENU ET PRIX

MATHÉMATIQUES FINANCIÈRES

Cours Base de données relationnelles. M. Boughanem, IUP STRI

M. F. PITA Departamento de Geografía Física. Universidad de Sevilla. C/ María de Padilla s.n SEVILLA (Espagne).

Techniques d interaction dans la visualisation de l information Séminaire DIVA

EVALUATION Nombres CM1

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

2 - Quels sont les intérêts des exercices?

Chapitre 2 Le problème de l unicité des solutions

FORMULAIRE DE STATISTIQUES

Temps forts départementaux. Le calcul au cycle 2 Technique opératoire La soustraction

BERTHIER E, CHRISTIANO M, PHILIPPE M O, IEHL J, TATARU N, DECAVEL P, VUILLIER F, ELISEEF A, MOULIN T. Introduction (1). Contexte de l étude

MARCHE N emp Objets de la consultation :

LA QUALITE DU LOGICIEL

Logiciel XLSTAT version rue Damrémont PARIS

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Lecture critique et pratique de la médecine

UNIVERSITE DES ANTILLES ET DE LA GUYANE

En 2014, comment mener à bien une enquête aléatoire en population générale par téléphone?

Les indices à surplus constant

PRXSENTATION D UN GESTIONNAIRE DE DONNEES NUMERIQUES HIERARCHISEES DESTINE AU DE- -POUILLEMENT D ENQUETES

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Cherche. Champ de saisie. Langue de. l interface. 1. Informations et. à l utilisation. NEBIS recherche. et trouver. Prêt

La création d une agence autonome présenterait les avantages et inconvénients suivants, recensés à travers l étude:

1 Première section: La construction générale

10 leçon 2. Leçon n 2 : Contact entre deux solides. Frottement de glissement. Exemples. (PC ou 1 er CU)

Master recherche Histoire des mondes moderne et contemporain

Données longitudinales et modèles de survie

Qu est-ce qu une probabilité?

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

L'analyse des données à l usage des non mathématiciens

L'INTÉRÊT COMPOSÉ. 2.1 Généralités. 2.2 Taux

Italiano - English - Français

PolitMonitor Lëtzebuerg RTL Luxemburger Wort. TNS ILRES mai Referendum Vague. Partie I à diffuser le 6 mai

OSGOODE HALL LAW SCHOOL Université York MÉMOIRE PRIVILÉGIÉ ET CONFIDENTIEL

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Articulation entre mesures sociales du casino et lieux d aide spécialisés lors des mesures de limitation et d exclusion Lisiane SCHÜRMANN

LES NOUVELLES CONTRAINTES EN MATIERE DE MARCHES PUBLICS

NOTICE MÉTHODOLOGIQUE SUR LES OPTIONS DE CHANGE

OBSERVATOIRE DE L EPARGNE EUROPEENNE

SEIRICH : Système d évaluation et d information sur les

Conseil et Etudes de Marché du pareil au même? Audrey Chemin European Market Analytics Manager Oncology

Éléments de cadrage général (toutes UE et semestres confondus)

OPTIMISATION À UNE VARIABLE

III RESULTATS LE LONG DU TRACE PREFERENTIEL DE LA LIGNE 2

La nouvelle planification de l échantillonnage

Enseignement secondaire

SAISIE DES NOTES DE BAS DE PAGE et BIBLIOGRAPHIE MEMO RÉSUMÉ. Norme AFNOR Z NF ISO 690. Dernière édition : octobre 2011

Concurrence imparfaite

Logiciel Libre Cours 3 Fondements: Génie Logiciel

Feuille TD n 1 Exercices d algorithmique éléments de correction

Année propédeutique santé Présentation générale du programme

Brique BDL Gestion de Projet Logiciel

DOSSIER D INSCRIPTION PÉDAGOGIQUE

REGLEMENT DE LA CONSULTATION

L équipe doit être constituée d'au moins 3 membres dont le chef de projet. Informations sur le Projet. Scientifiques. Secteurs développement

Transcription:

ANALYSE FACTORIELLE MULTIPLE DE DONNEES MIXTES : APPLICATION A LA COMPARAISON DE DEUX CODAGES Jérôme Pagès & Sergio Camiz Laboratoire de mathématiques appliquées Agrocampus Rennes rue de Saint Brieuc CS 000 Rennes Università di Roma La Sapienza, Dipartimento di Matematica Guido Castelnuovo, Piazzale Aldo Moro, Roma, Italie, I 00 Résumé. L analyse factorielle multiple (AFM) est appliquée à un ensemble de variables d échelles considérées à la fois comme quantitatives et qualitatives. On illustre ainsi une façon de prendre en compte, dans une analyse factorielle, ces deux types de variables simultanément en tant qu éléments actifs. Mots clés. Analyse factorielle multiple, données mixtes, échelles. Summary The multiple factor analysis (MFA) is applied to a set of scale variables considered both as quantitative and qualitative variables. One thus illustrates a way of taking into account these two types of variables simultaneously as active in a factor analysis. Keywords. Multiple factor analysis, mixed data, scale data. Introduction Il est souvent souhaité, par les utilisateurs, d introduire simultanément des variables qualitatives et quantitatives en tant qu éléments actifs dans une même analyse factorielle. L analyse factorielle de données mixtes (AFDM ; Pagès 00), qui reprend les méthodes proposées par B. Escofier (a) et G. Saporta (0), répond bien à cette problématique. Par ailleurs, lorsque l on dispose de groupes de variables quantitatives et qualitatives, l analyse factorielle multiple (AFM) est bien appropriée (Escofier & Pagès ; Pagès, 00). Pour aider les utilisateurs à mettre en œuvre ces méthodologies, il est nécessaire de diffuser des applications montrant comment concrètement : on peut construire des axes factoriels en s appuyant de façon équilibrée sur les deux types de variables ; on peut mener une interprétation en intégrant les deux types de variables. Pour cela, nous utiliserons une application à caractère méthodologique : la comparaison entre deux façons de prendre en compte des échelles de notation dans les questionnaires. Dans les enquêtes, on demande souvent d évaluer par une note le degré d accord à un item, l importance accordée à tel critère, la satisfaction induite par tel produit au service, etc. On dispose ainsi d un ensemble de variables qui peuvent être considérées comme quantitatives (ce qui conduit à mettre en œuvre une ACP) ou qualitative (ce qui conduit à une ACM). Chaque point de vue présente ses avantages et inconvénients. L objectif de cette communication est multiple : comment l analyse factorielle gère-t-elle des données mixtes actives? en quoi l AFM est-elle un outil commode pour comparer différents codages d un même ensemble de variables? faut-il traiter, dans les questionnaires, les échelles de notations en tant que variables quantitatives ou qualitatives?

Notations Nous disposons de I individus. Chaque individu i est muni du poids p i tels que Σ i p i =. Pour simplifier, nous supposons les individus de même poids p i = /I i. Ces individus sont décrits par : K variables quantitatives {v k ; k =, K} ; ces variables seront toujours supposées centrées et réduites ; Q variables qualitatives {V q ; q =, Q} Ces notations peuvent être rassemblées dans le tableau de la Figure dans lequel les variables qualitatives apparaissent à la fois sous leur forme condensée et sous leur forme disjonctive complète. K variables quantitatives Q variables qualitatives k K q Q i x ik x iq I Figure. Structure des données et principales notations. x ik : valeur de i pour la variable v k. x iq : modalité de i pour la variable V q. Critères Dans un premier temps, nous considérons les variables dans leur ensemble, c est-à-dire non structurées en groupes. On est dans le cadre de l AFDM. Dans l espace des variables (R I ) le critère maximisé par l axe de rang s peut s écrire : λ = r ( z, v ) + η ( z, V ) s s k s q k K q Q en notant : r²(z s, v k ) le carré du coefficient de corrélation entre v k et le facteur z s de rang s ; η²(z s, V q ) le carré du rapport de corrélation entre V q et le facteur z s de rang s ; λ s la valeur propre de rang s. Saporta (0) semble être le premier à avoir proposé ce critère sous cette forme dans le cadre de l ACP. Auparavant, Escofier (a) avait proposé ce même critère mais sous une forme géométrique et dans le cadre de l ACM. Soit : k q λ = cos( θ ) + cos( θ ) en notant s vs vs k K q Q k θ v s : l angle dans R I entre z s et la variable quantitative v k ; q θ v s : l angle dans R I entre z s et sa projection sur le sous-espace engendré par les indicatrices de la variable qualitative V q. Si l on prend en compte la structure en groupes des variables qui ici coïncide avec leur type, il convient de mettre en œuvre une AFM. Dans cette analyse, les variables du groupe j sont pondérées j j par / λ en notant λ la première valeur propre de l analyse séparée du groupe j (une ACP pour des variables quantitatives, une ACM pour des variables qualitatives). Le critère devient alors : λs = (, ) (, ) r zs vk + η z s Vq λ λ k K q Q

Données Les données proviennent d une enquête réalisée auprès des étudiants de la faculté d Economie de Brescia (Camiz et al., ). D un long questionnaire, nous avons extrait 0 variables concernant : leur évaluation de six aspects de l université ; les espaces pour les cours (e), les horaires (e), les espaces pour l étude (e), les aides à l étude (e : bibliothèque, centre de calcul, etc.), l administration en général (e) et leurs rapports avec les enseignants (e) ; leur satisfaction sur quatre aspects personnels ; leur situation économique (s), leur situation familiale (s), leurs rapports amicaux (s) et l environnement universitaire (s). Pour chaque variable on demandait de répondre par une note sur une échelle allant de (évaluation très négative/forte insatisfaction) à (évaluation très positive/forte satisfaction). Finalement on dispose de 0 questionnaires et de dix variables. Le nombre de non-réponses varie de 0 à selon la question. Les non-réponses sont codées par une modalité ad hoc dans le point de vue ACM et sont remplacées par la moyenne de la variable dans le point de vue ACP. Ces données ont déjà commentées (Bottiroli et al., ; Camiz et Tagliacozzo, ). Analyses séparées axe axe axe axe axe axe axe axe axe axe 0 Valeur ACP 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, propre ACM,0, 0, 0, 0,0 0, 0,0 0, 0, 0, % ACP,0,,0,,0,,,,, ACM,,,,,0,,0,0,,0 % ACP,0,,,,0,0,,,0, cumul ACM,,,,0,,,,, 00,00 Tableau. Inerties des analyses séparées. L ACM met en évidence (Tableau ) d abord un facteur bien marqué puis trois autres après lesquels la décroissance des inerties est très régulière. L ACP met en évidence deux facteurs sensiblement plus importants que les autres. Ces allures sont assez typiques des décroissances de valeurs propres que l on observe en pratique en ACP et ACM. Dans cette différence d allure réside une difficulté majeure pour l analyse simultanée des deux types de variables : la pondération de l AFM neutralise bien la différence au niveau de la première valeur propre mais, évidemment, ne va pas au-delà (ce qui ne serait pas souhaitable puisque pour cela il faudrait modifier la structure interne des soustableaux). Axes de l ACP Axes de l ACM axe axe axe axe axe axe axe axe axe axe 0 axe 0,0 0,0 0, 0,0 0,0 0,0 0,00 0,0-0,00 0,0 axe 0,0-0,00 0,0 0, -0, 0, 0, -0, 0,0-0, axe -0,0-0,0 0,0-0,0-0,0-0,0 0,0-0,00-0,0-0,00 axe -0,00 0,0-0,0-0,00-0,0 0,0-0,0-0,0 0,0 0,0 axe -0,00-0,00 0,0-0,0 0,00-0,00-0,0-0,00-0,0 0,0 axe 0,0 0,000-0,0 0,00 0,00 0,0 0,0 0,00 0,00 0,00 axe -0,00-0,0 0,0-0,0-0,0-0,0-0,0-0,00 0, -0,0 axe -0,0-0,00 0,0-0,0-0,0-0,0 0,00-0,0 0,0 0,0 axe 0,0 0,0-0,0 0,0 0,0 0,0-0,0-0,0 0,0-0,0 axe 0-0,00 0,00-0,00 0,0-0,00-0,0 0,0 0,0 0,0 0,0 Tableau. Corrélations entre facteurs des analyses séparées La matrice des corrélations (Tableau ) met en évidence :

une forte liaison entre le premier facteur de l ACP et le second de l ACM ; une liaison entre le second facteur de l ACP et les facteurs et de l ACM. La structure commune aux deux tableaux ne risque donc pas d apparaître en comparant simplement les résultats des deux analyses. Une méthode d analyse globale est nécessaire. Analyse Factorielle Multiple. Inerties (Tableau ) Les valeurs propres de l AFM mettent en évidence trois facteurs bien marqués. Leur décomposition par groupe montre que le premier et le troisième facteur correspondent à des directions d inertie importante des deux groupes, le deuxième étant spécifique du groupe ACM. axe axe axe axe axe axe axe axe axe axe 0 Ensemble en %,0,00,,,,,0,0,, Ensemble,0 0, 0, 0, 0, 0,0 0, 0, 0, 0, Groupe (ACM) 0, 0, 0,0 0,0 0, 0, 0, 0, 0,0 0, Groupe (ACP) 0, 0,00 0,0 0,0 0, 0, 0, 0,0 0, 0,0 Tableau. Inertie des axes de l AFM, globale et ventilée par groupe. Représentations des variables quantitatives et des modalités (Figures et ) Facteur -. % Sa sit. familiale Sa. rapports amicaux Sa. sit. économique 0 Sa. env. universit. Ev. aides à l'étude Ev. administration Ev. rapports enseignants Ev. horaires Ev. espaces étude Ev. espaces cours - Facteur -. % - - 0 Figure. Représentation des modalités sur le plan - de l AFM

.00 Facteur -. % Facteur -. % 0. Facteur -. % ev. espaces cours ev. espaces étude ev. administration ev. aides à l'étude ev. horaires ev rapp. enseignants 0.0 s-c s-c s-n s-n s-c s-n sa. env. universit. sa. sit. économique sa. rapports amicaux sa. sit. familiale Figure. Cercle des corrélations. 0. s-n e-n s-c e-c e-n e-c e-n e-n e-n e-n e-c e-c e-c Facteur -. % 0 0 0. e-c 0.0 0..00 Figure. Carré des liaisons. e : évaluation ; s : satisfaction -n ; variable nominale ; -c variable continue En AFM sur données mixtes, comme en AFDM, chaque modalité est représentée par le centre de gravité (exact et non à / λs près comme en ACM) des individus qui la possèdent. Les variables quantitatives sont représentées comme en ACP. Le second facteur (non représenté), spécifique du groupe ACM, classe les individus selon leur nombre de non-réponses. Un tel facteur ne peut évidemment pas apparaître via les variables quantitatives. Nous examinons ci-après plutôt le plan - commun aux deux groupes. Le premier axe est corrélé à toutes les variables : il oppose les individus ayant une évaluation positive pour les aspects de l université et étant satisfait des aspects de leur vie personnelle, aux individus ayant émis les opinions opposées. Le troisième axe met en évidence la spécificité de la situation personnelle vis à vis de l évolution de l université. Remarquons, au passage, le caractère intermédiaire de la satisfaction quant à l environnement universitaire. Dans cette présentation méthodologique, nous ne détaillons pas plus le commentaire de ce graphique.. Représentation simultanée des variables des deux types (Figure ) Comme en AFDM, on peut représenter sur un même graphique : les variables quantitatives (ou continues, notées par la désinence c dans la figure) par le carré de leur coefficient de corrélation avec les facteurs ; les variables qualitatives (ou nominales, notées par n) par le carré de leur rapport de corrélation avec les facteurs. Ce graphique est dit «carré des liaisons». Il peut s interpréter comme une projection (Escofier & Pagès ). Il trouve son origine dans les représentations de variables qualitatives proposées par Escofier (b) et Cazes () dans le cadre de l ACM. La Figure fait clairement apparaître deux groupes de variables : les six évaluations, surtout liées au facteur et trois satisfactions, liées surtout au facteur. La position de la satisfaction vis à vis de l environnement universitaire, clairement du côté des évaluations. Cette figure donne une image des liaisons variables-facteurs plus tranchée que les graphiques des Figures et. Cela tient à l élévation au carré du coefficient ou du rapport de corrélation. Ce graphique sera donc précieux pour un débroussaillage parmi de très nombreuses variables. Sur la Figure, les images quantitative et qualitative d une même variable sont très proches. Cela

tient à la linéarité des liaisons mises en évidence sur ce plan. Ces points seraient évidemment éloignés si l on considérait l axe. Conclusion Quelques éléments de réponse aux trois questions qui terminent l introduction. La pondération de l AFM permet d équilibrer les deux types de variables dans la construction des axes. Pour les variables : les représentations usuelles de l ACP et de l ACM sont disponibles ; une représentation supplémentaire intègre les deux types. L AFM met en évidence des structures communes aux groupes de variables qui n apparaissent pas forcement dans une comparaison directe des facteurs des analyses séparées. Les structures spécifiques des groupes apparaissent aussi sur les premiers axes lorsqu elles sont importantes. Dans le traitement d une batterie d échelles, ACP et ACM sont complémentaires, fournissant chacune son compromis entre simplicité et richesse. L AFM peut aussi être utilisée pour bénéficier des deux points de vue dans une analyse en quelque sorte «robuste» vis à vis du codage. Bibliographie [] BOTTIROLI CIVARDI, M., et CAMIZ S. (), Analisi esplorative e di conferma per lo studio della propensione al lavoro degli studenti d=economia e Commercio dell=università di Brescia, dans M. Bottiroli Civardi et S. Camiz (eds.), La popolazione studentesca e le Università Italiane: indagini, modelli e risultati, Padova : CLEUP Editrice, p. -. [] CAMIZ, S., CIVARDI M, CREMONESI R, FALBO P., STEFANI S. ET ZOPPETTI S. (), «Indagine sulla popolazione studentesca dell'università di Brescia», Rapport de recherche du Dipartimento di Metodi Quantitativi dell'università di Brescia, Quaderno n.. [] CAMIZ, S., ET G. TAGLIACOZZO (), «Analisi testuale delle risposte a testo libero dei questionari degli studenti di Brescia: primi risultati, dans M. Bottiroli Civardi et S. Camiz (eds.), La popolazione studentesca e le Università Italiane: indagini, modelli e risultati. Padova : CLEUP Editrice, p. -. [] CAZES, P. (). Note sur les éléments supplémentaires en analyse des correspondances. Les cahiers de l Analyse des données, (), p. - et (), p. -. [] ESCOFIER, B. (a). Traitement simultané de variables quantitatives et qualitatives en analyse factorielle. Les cahiers de l analyse des données, (), -. [] ESCOFIER, B. (b). Une représentation des variables dans l analyse des correspondances multiples. Revue Statistique Appliquée, XXVII (), -. [] ESCOFIER, B. ET PAGES, J. (). Analyses factorielles simples et multiples. e ed., Paris, Dunod. [] PAGÈS, J (00). Analyse factorielle multiple appliquée aux variables qualitatives et aux données mixtes. Revue de statistique appliquée, L (), -. [] PAGÈS, J.(00). Analyse Factorielle de Données Mixtes. Revues de Statistique Appliquée, LII (), -. [0] SAPORTA, G. (0). Probabilités, analyse des données et statistique, Paris, Technip.