Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix

Documents pareils
Analyse des correspondances avec colonne de référence

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Description des variables de la base de données. a. Attractivité démographique pour les différents types de population

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Filière «Économie et Entreprise» 2015/2016

Intervenant : Séverin Poutrel, BURGEAP

Apprentissage Automatique

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

La classification automatique de données quantitatives

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Latitude N Longitude E Altitude 376 m RÉSUMÉ MENSUEL DU TEMPS DE JANVIER 2014

MATHÉMATIQUES ET SCIENCES HUMAINES

FICHE SIGNALETIQUE. Cœur de Flandre. 1. Profil Territoire. 2 Profil Fiscal

Analyse en Composantes Principales

Maître de Conférences en mathématiques appliquées Université de Bordeaux - MARS

Finance et performance des jeunes viticulteurs : les conséquences pour l installation

Extraction d informations stratégiques par Analyse en Composantes Principales

Programme Recueil des résumés

LEADER... LE PROJET DU PAYS DE SAINT-MALO : UN OBJECTIF FORT : LEADER ACCOMPAGNE : LES 4 THÉMATIQUES : POUR VOUS ACCOMPAGNER

Défi Transition énergétique : ressources, société, environnement ENRS Projet Exploratoire PALEOSTOCK

Elaboration d un Plan Local d Urbanisme / d un Agenda 21

Plan marketing Doubs tourisme (Cdt)

Étude de cas Assurance

JUNIOR MBA ECOFI MANAGEMENT DES ORGANISATIONS ET DE S PROJETS

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

COMPTE RENDU SOMMAIRE DU CONSEIL MUNICIPAL

Créer et modifier un fichier d'importation SAU avec Excel

Mémo d utilisation de ADE-4

Devenez expert DE LA BANQUE ET DE L ASSURANCE INTERMÉDIAIRE EN ASSURANCE, ASSURANCE VIE, PRÉVOYANCE ET PROTECTION SOCIALE

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Population active et pauvreté en région Centre

ÉDITORIAL. Chiffres Clés. 29% des emplois. 11% des établissements employeurs de la région

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

PRXSENTATION D UN GESTIONNAIRE DE DONNEES NUMERIQUES HIERARCHISEES DESTINE AU DE- -POUILLEMENT D ENQUETES

Marketing territorial et veille

Les enseignants, acteurs majeurs du développement personnel

La place de SAS dans l'informatique décisionnelle

Rendez-vous de Insee. «Des projections de ménages aux besoins. en logement» Mardi 11 décembre Annaïg LE MEUR, SIAL/DPH

ECOLE SUPERIEURE DE L EDUCATION NATIONALE

Les indices à surplus constant

RESPONSABLE DU DEVELOPPEMENT COMMERCIAL IMPORT EXPORT

Note de contexte relative aux propositions de modifications du plan de développement Programme Leader Terres Romanes en Pays Catalan

Initiation à l analyse en composantes principales

Thème 1: MÉNAGES ET CONSOMMATION

1. STRUCTURATION FEDERALE BI POLAIRE

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Stratégie locale en faveur du commerce, de l artisanat & des services

Intégrez les enjeux énergie-climat dans vos documents d'urbanisme

SIRH Gestion des documents Socle Oracle RH

CHAMPIONNAT DU MONDE SENIOR EPREUVES DE COUPE DU MONDE ARC A POULIES

THEME 5: CONDITIONS DE VIABILITE FINANCIERE DE LA MICROFINANCE AGRICOLE

Instructeur du dossier : Adresse : Téléphone :

La fraude à la carte bancaire

CHAPITRE VI - LES SOLDES COMPTABLES ET LES INDICATEURS DE REVENU

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

Les Français et l assurance santé

DÉVELOPPEMENT DE COURS ÀDISTANCE JEUDI DU NUMÉRIQUE 14/10/2010 M. LUCAS - UF SPI - ENITAB

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

Master professionnel Langues, Affaires, Interculturalité

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Master recherche Histoire des mondes moderne et contemporain

Les Français et la fraude fiscale

Statistiques Descriptives à une dimension

Lancement de l Association Professionnelle des Intermédiaires en Crédits (APIC)

Les dons de sang en France Disparités territoriales et profil des donneurs en 2010

Les Français et le chauffage. Résultats de l étude menée

Les Français et le libéralisme

Le Diplôme d Etudes Supérieures Spécialisées de Droit Notarial de l Université Montesquieu-Bordeaux IV

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

DE LA STRATEGIE LEADER. Appel d offres Novembre 2014

MASTER ECONOMIE APPLIQUEE

Individus et informations supplémentaires

CANDIDATURE PROGRAMME LOCAL DE FORMATION INTERFILIERES

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

INTRODUCTION... 2 CALENDRIER... 3 TRAVAUX DE L ANNEE BUDGET REALISE ANNEXES... 10

Introduction. Préambule. Le contexte

Le marché immobilier de bureaux en Ile-de-France 4 ème trimestre Accelerating success.

LES GARANTIES DU REGIME CONVENTIONNEL DES CADRES DE LA PRODUCTION AGRICOLE

exigences des standards ISO 9001: 2008 OHSAS 18001:2007 et sa mise en place dans une entreprise de la catégorie des petites et moyennes entreprises.

Séminaire du 17 octobre 2014 «La gestion des milieux aquatiques dans la loi MAPTAM et le SAGE : quels enjeux pour la Baie de Saint Brieuc?

Découvrez l offre Nexity Studéa

23 ème Edition de la Commission des Statistiques Agricoles pour l Afrique (AFCAS)

Module VII. Outils de recueil d informations sur les cofacteurs dans l étude des effets psychosociaux des catastrophes

Principe de symétrisation pour la construction d un test adaptatif

Evaluation des projets de logistique urbaine

Les Français ais et l assurance l

1/5 ENFANTS ETAUTRES PERSONNES VIVANT AU FOYER SI ENFANTS ACCUEILLIS EN DROIT DE VISITE ET D HEBERGEMENT, PRECISER :

MENTION ADMINISTRATION DES TERRITOIRES ET DES ENTREPRISES

VotrePartenaire de la vigne au verre. Loire. ud-ouest. Beaujolais. Cotes du Rhône. Bourgogne Champagne. Languedoc-Roussillo

1 La société GIR. 2 La solution proposée

Revenu national avant impôts: (100%) Revenu disponible: (74%) Revenu après impôts: (51%)

PASS CULTURE SPORT REGLEMENT D INTERVENTION

PRATIQUE ET POINTS DE VIGILANCE

Ce qu il faut savoir en 20 points

ACP Voitures 1- Méthode

«Poursuivre au-delà de BEEST : une approche fonctionnelle basée sur les traits de vie des espèces en relation avec l habitat».

COTE D IVOIRE. FICHE TECHNIQUE Ouest Côte d Ivoire. Monitoring d un projet cash : étapes, enjeux. Introduction. Les fondamentaux du monitoring

Responsabilité Civile Professionnelle QUESTIONNAIRE. 4. Forme sociale : Code APE : N SIRET :

T. Gasc 1,2,3, F. De Vuyst 1, R. Motte 3, M. Peybernes 4, R. Poncet 5

Transcription:

Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix Amaury Labenne 1,2, Marie Chavent 2,3, Vanessa Kuentz-Simonet 1, Tina Rambonilaza 1 & Jérôme Saracco 2,3 1 IRSTEA, UR ADBX, 33612 Cestas Cedex, France. 2 Univ. Bordeaux, IMB, UMR 5251, F-33400 Talence, France. 3 INRIA, CQFD, F-33400 Talence, France. Amaury Labenne Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix 1 / 19

INTRODUCTION PCAmix : L analyse factorielle de données mixtes Escofier B, (1979), Traitement simultane de variables qualitatives et quantitatives en analyse factorielle Kiers, (1991), Simple structure in component analysis techniques for mixtures of qualitative and quantitative variables Pages, (2004), Analyse factorielle de donnees mixtes Husson et al. FactoMineR (fonction AFDM) Chavent et al., (2012), Orthogonal rotation in PCAMIX = Approche : SVD avec métrique MFA : L analyse factorielle de données multiples Escofier et Pages (1983), Methode pour l analyse de plusieurs groupes de variables Pages J (2002), Analyse factorielle multiple appliquee aux variables qualitatives et aux donnees mixtes FactoMineR : fonction MFA = Approche AFM avec mixité à l intérieur des groupes Amaury Labenne Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix 2 / 19

PLAN 1 La méthode PCAmix avec métriques 2 La méthode MFAmix 3 Application sur des données relatives à la qualité de vie Amaury Labenne Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix 3 / 19

La méthode PCAmix (1/3) Données n individus { p1 variables quantitatives stockées dans la matrice X 1 p 2 variables qualitatives (total de m modal) stockées dans la matrice X 2 On recode les données de la manière suivante dans Z = (Z 1 Z 2 ) Z1 = X 1 centrée-réduite. dim(z 1) = n p 1 Z2 = TDC de X 2 centré. dim(z 2) = n m Métriques Métrique D des individus : D = diag (d i, i = 1... n), en général d i = 1 n ). Métrique M des variables : M = ( M1 M2 M1 = diag (ω j, j = 1,..., p 1) pour les variables quantitatives. M2 = diag (ω s, s = 1,..., m) pour les indicatrices des variables qualitatives. Dans PCAmix, M 1 = I p1 et M 2 = diag ( n n s, s = 1,..., m) Amaury Labenne Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix 4 / 19

La méthode PCAmix (2/3) SDV de Z avec les métriques D et M : Z = UΛV t Λ = diag ( λ 1,..., λ r ). Où : r est le rang de Z λ1,..., λ r sont les valeurs propres de Z t DZM et ZMZ t D. U est la matrice de dimension n r dont les colonnes sont les vecteurs propres de ZMZ t D et U t DU = I r V est la matrice de dimension p r dont les colonnes sont les vecteurs propres de Z t DZM et V t MV = I r On sépare la matrice V en deux parties : V = ( V1 V 2 ) } p 1 } m Amaury Labenne Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix 5 / 19

La méthode PCAmix (3/3) Remarques : Si (p 2 = 0), PCAmix = ACP classique. Si (p 1 = 0), on obtient les mêmes résultats qu une ACM pour les coordonnées des modalités. Cependant, on obtient des valeurs propres p 2 fois plus grandes et donc des coordonnées factorielles multipliées par p 2. Ainsi la propriété quasi-barycentrique de l ACM reliant les coordonnées factorielles des modalités aux coordonnées factorielles des individus reste vraie. Amaury Labenne Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix 6 / 19

La méthode MFAmix (1/4) Les données : Les données sont séparées en k groupes de variables X (1)... X (k). Les variables à l intérieur d un groupe peuvent être quantitatives ou qualitatives. On recode chaque X (g), (g = 1,..., k) en Z (g) comme dans PCAmix. Principe de la méthode : Amaury Labenne Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix 7 / 19

La méthode MFAmix (2/4) Métrique M des variables : M = ( M1 M 2... M 1 = M 1P 1 = M 1 αj avec α j = 1... appartient la variable j.... M 2 = M 2P 2 = M 2 αs avec α s = 1... appartient la modalité s. ) λ 1 (g) λ 1 (g) où g est le groupe auquel où g est le groupe auquel On effectue la SVD de Z avec les métriques D et M : Z = U Λ V t Amaury Labenne Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix 8 / 19

La méthode MFAmix (3/4) Résultats spécifiques à l AFM Scores des individus partiels : F (k) On note Z (g) = 0 Z (g) 0 le tableau de données partiel de dimension n p correspondant au g ème groupe complété par des 0 pour les variables des autres groupes. Les individus partiels sont les individus décrits séparément par chaque groupe de variables. Les coordonnées des projections des individus partiels sur les axes de l AFM sont : F (g) = k Z (g) M V Amaury Labenne Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix 9 / 19

La méthode MFAmix (4/4) Coordonnées d un groupe g sur l axe α La coordonnée d un groupe est égale à l inertie des projections des variables du groupe sur l axe : j Group(g) ωj a 2 jα Ainsi, si la coordonnée d un groupe est proche de 1 sur un axe, ce groupe détermine de façon prépondérante la construction de cet axe. Mesure globale de liaison entre deux groupes g et g : coefficient RV Le coefficient RV permet de rendre compte de la proximité des structures de deux groupes de données : RV = trace{z (g)t Z (g ) Z (g ) t Z (g) } trace{z (g)t Z (g) Z (g)t Z (g) }trace{z (g ) t Z (g ) Z (g ) t Z (g ) } Si ce coefficient est proche de 1, alors on conclut que les deux groupes possèdent très vraisemblablement de l information commune. Amaury Labenne Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix 10 / 19

Application sur des données relatives à la Qualité de vie Problématique : Projet ANR ADAPTEAU : Etablir un diagnostic socio-économique et environnemental des territoires par la notion de Qualité de vie Quels sont les thèmes prépondérants dans la notion de Qualité de vie? Les Données : 302 communes du Sud-Ouest 56 variables (p 1 = 56, p 2 = 23, m = 50) (INSEE, Corine Land Cover) Variables séparées en 8 thématiques relatives à la Qualité de vie : Logement et Services, Population, Emplois, Condition Familiales, Education, Revenus, Environnement, Sécurité et Soins Amaury Labenne Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix 11 / 19

Application sur des données relatives à la Qualité de vie Utilisation de MFAmix dans : 1 r e s< MFAmix( data=x, group=y, name. group=nom, ndim=3) 2 summary ( r e s ) Amaury Labenne Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix 12 / 19

Application sur des données relatives à la Qualité de vie Amaury Labenne Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix 13 / 19

Application sur des données relatives à la Qualité de vie Sorties spécifiques à l AFM : Axes partiels : Coordonnées des groupes : Axes factoriels de chaque analyse projetés Nécessité d analyser chaque groupe séparément Coordonnées des groupes Liaison entre le groupe et l axe factoriel de l AFM Amaury Labenne Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix 14 / 19

Application sur des données relatives à la Qualité de vie Les communes très proches de Bordeaux sont caractérisées par : forte densité, logements de type appartement anciens, des forts revenus, une population qualifiée et un accès à un grand nombre de services Les communes périphériques à Bordeaux, sont caractérisées par : forte proportion de ménages avec enfants, des logements récents, des emplois qualifiés hors de la commune mais à l intérieur du département Les communes rurales sont caractérisées par une faible densité, un faible revenu, des habitations principales de type maison, une forte proportion de territoires et d exploitants agricoles et une population dans l ensemble peu diplomée Les communes littorales sont caractérisées par : une forte proportion de retraités, des menages composés d hommes ou de femmes seules, et des emplois à l échelle de la commune, souvent des emplois dans le domaine des services Amaury Labenne Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix 15 / 19

Application sur des données relatives à la Qualité de vie Ces deux individus sont proches sur le plan factoriel Cependant, leurs coordonnées partielles sur les différents groupes ne sont pas aussi proche Sur le groupe Education, forte coordonnée pour la ville de Talence et faible coordonnée pour la ville de Cenon Amaury Labenne Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix 16 / 19

CONCLUSION La méthode MFAmix a permis de faire de l AFM avec des variables mixtes à l intérieur des groupes, ce qui était nécessaire afin d analyser nos données La méthode a permis de mettre en évidence les thématiques importantes de la Qualité de vie et de caractériser les communes en fonction des différentes thématiques Poursuivre les applications sur un autre domaine d étude plus étendu Code et sorties graphiques inspirées de FactoMineR Méthode PCAmix et MFAmix intégrée dans le package PCAmixdata (disponible auprès des auteurs) Amaury Labenne Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix 17 / 19

Bibliographie Chavent M, Kuentz-Simonet V, Saracco J, (2012), Orthogonal rotation in PCAMIX, Advances in Data Analysis and Classification, 6 : 131-146. Escofier B (1979), Traitement simultané de variables qualitatives et quantitatives en analyse factorielle, Cahiers de l Analyse des données, 4(2) : 137-146. Escofier B et Pagès J (1983), Méthode pour l analyse de plusieurs groupes de variables. Application à la caractérisation des vins rouges du Val de Loire, Revue de statistique appliquée, 31(2) : 43-59. Escofier B et Pagès J (1998), Analyses factorielles simples et multiples, Dunod, 3e ed. Husson F, Josse J, Lê S et Mazet J (2012). FactoMineR: Multivariate Exploratory Data Analysis and Data Mining with R, R package version 1.20. http://cran.r-project.org/package=factominer. Pagès J (2002), Analyse factorielle multiple appliquée aux variables qualitatives et aux données mixtes, Revue de statistique appliquée, 50(4) : 5-37. Pagès J (2004), Analyse factorielle de données mixtes, Revue de statistique appliquée, 52(4) : 93-111. Amaury Labenne Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix 18 / 19

MERCI DE VOTRE ATTENTION... Amaury Labenne Une extension de l analyse factorielle multiple pour des groupes de variables mixtes : MFAmix 19 / 19