Analyse simultanée de variables quantitatives et qualitatives. à l aide de l analyse factorielle multiple



Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Analyse des correspondances avec colonne de référence

Extraction d informations stratégiques par Analyse en Composantes Principales

Analyse en Composantes Principales

La classification automatique de données quantitatives

1 Complément sur la projection du nuage des individus

Séries Statistiques Simples

Chapitre 3. Les distributions à deux variables

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Statistique Descriptive Multidimensionnelle. (pour les nuls)

REVUE DE STATISTIQUE APPLIQUÉE

Introduction. Préambule. Le contexte

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

L'analyse des données à l usage des non mathématiciens

Logiciel XLSTAT version rue Damrémont PARIS

DURÉE DE VIE ET DE. Michel JAMBU, Centre National d'etudes des Télécommunications France Direction scientifique

FORMULAIRE DE STATISTIQUES

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Ricco.Rakotomalala

Introduction à l approche bootstrap

INF6304 Interfaces Intelligentes

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

La place de SAS dans l'informatique décisionnelle

Relation entre deux variables : estimation de la corrélation linéaire

Quelques éléments de statistique multidimensionnelle

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Mémo d utilisation de ADE-4

Statistiques Descriptives à une dimension

Scénario: Données bancaires et segmentation de clientèle

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Statistique : Résumé de cours et méthodes

Initiation à l analyse en composantes principales

I. Polynômes de Tchebychev

YANN ROUDAUT - Professeur de l Ecole Française de Poker - roudaut@ecolefrancaisedepoker.fr

Aide-mémoire de statistique appliquée à la biologie

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

Data mining 1. Exploration Statistique

Licence Economie-Gestion, 1ère Année Polycopié de Statistique Descriptive. Année universitaire :

Mesure agnostique de la qualité des images.

Statistique Descriptive Élémentaire

ESIEA PARIS

Optimisation Discrète

MATHÉMATIQUES ET SCIENCES HUMAINES

Théorie des sondages : cours 5

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

LES DIFFERENTS TYPES DE MESURE

Avant-après, amont-aval : les couples de tableaux totalement appariés

Feuille TD n 1 Exercices d algorithmique éléments de correction

Définition d un Template

Localisation des fonctions

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Correction de l examen de la première session

1 - PRESENTATION GENERALE...

Chapitre 3 : INFERENCE

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Cours d analyse numérique SMI-S4

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Cycle de formation certifiante Sphinx

Portrait statistique de la population de représentant en épargne collective au Québec

Cours de Mécanique du point matériel

ACP Voitures 1- Méthode

Individus et informations supplémentaires

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

COURS DE DATA MINING 4 : MODELISATION NON-SUPERVISEE CLASSIFICATIONS AUTOMATIQUES

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

EXERCICES DE REVISIONS MATHEMATIQUES CM2

1 Importer et modifier des données avec R Commander

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Le modèle de régression linéaire

Classe de première L

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

MANIPULATION ET VISUALISATION DE GROSSES BASES DE DONNÉES AVEC R

SIG ET ANALYSE EXPLORATOIRE

Nathalie Barbary SANSTABOO. Excel expert. Fonctions, simulations, Groupe Eyrolles, 2011, ISBN :

Enjeux mathématiques et Statistiques du Big Data

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Filière «Économie et Entreprise» 2015/2016

VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES

LES GENERATEURS DE NOMBRES ALEATOIRES

Analyse de la variance Comparaison de plusieurs moyennes

LA QUALITE DU LOGICIEL

Exemple 4.4. Continuons l exemple précédent. Maintenant on travaille sur les quaternions et on a alors les décompositions

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Gestion de Projet. Génie Logiciel. Renaud Marlet. LaBRI / INRIA. (d'après A.-M. Hugues) màj 19/04/2007

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

Baccalauréat ES Amérique du Nord 4 juin 2008

Biostatistiques : Petits effectifs

Le suivi de la qualité. Méthode MSP : généralités

Gestion obligataire passive

Satisfaction des stagiaires de BRUXELLES FORMATION Résultats 2013

Simulation centrée individus

Raisonnement par récurrence Suites numériques

Transcription:

Analyse simultanée de variables quantitatives et qualitatives à l aide de l analyse factorielle multiple Jérôme Pagès Laboratoire de mathématiques appliquées Agrocampus France

Analyse Factorielle Multiple (AFM) Un ensemble d individus décrit par plusieurs groupes de variables Exposé en deux étapes ) Un groupe de variables incluant à la fois des variables quantitatives et qualitatives 2) Plusieurs groupes de variables, quantitatives, qualitatives ou des deux types (données mixtes) 2

Données K variables quantitatives (centrées réduites) Q variables qualitatives k K q Q Individus i x ik x iq I 3

Données K variables quantitatives (centrées réduites) Q variables qualitatives =K 2 indicatrices (codage disjonctif complet) q Q k q K 2 k K k q K q Individus i x ik x ikq I 4

Objectifs Mettre en œuvre une analyse factorielle dans laquelle les deux types de variables jouent un rôle actif Solution classique Diviser l intervalle de variation des variables quantitatives Coder les variables quantitatives en qualitatives Mettre en œuvre une Analyse des Correspondances Multiples (ACM) Benzécri J.-P., Cazes P., Lebart L., etc. Excellente solution en pratique Deux cas «limite» I petit Q <<K 5

Autres solutions, moins connues Introduction de variables quantitatives en ACM Via un codage particulier B. Escofier CAD 979 (PUR 2003) Introduction d indicatrices dans une ACP via une métrique particulière G. Saporta in Revue Soc. ital. de stat. 990 AFM de données mixtes B. Escofier & J. Pagès (Dunod 988-997) J. Pagès RSA 2002 idée : une variable = un groupe Abascal E. et al. Carme 2003 6

Représentation des variables dans R I Variables quantitatives en ACP normée R I k O 7

Représentation des variables dans R I Variables qualitatives en ACM R I E q O E q sous-espace engendré par les indicatrices de la variable q L inertie des indicatrices de la variable q est égale à dans toutes les directions de E q 8

Critère Cas de l ACP normée R I k 2 cos θ kv r 2 ( k, v) k k v O θ kv 9

Critère Cas de l ACM R I q 2 cos θ qv η 2 ( qv, ) q v E q O θ qv 0

Méthode proposée par B. Escofier (979) Critère R I k cos θ + cos 2 2 kv q θ qv k v E q θ kv O θ qv

Méthode proposée par B. Escofier (979) En pratique Les variables quantitatives sont codées par deux colonnes et juxtaposées au tableau disjonctif complet L ensemble est traité par ACM K variables quantitatives (centrées réduites) Q variables qualitatives = K 2 indicatrices (codage disjonctif complet) q Q k K k q k q K q K 2 i I x ik + x ik 2 2 x ik q 2

Méthode proposée par G. Saporta (990) Critère k 2 2 r k v + η q v (, ) (, ) q En pratique Les indicatrices sont juxtaposées aux variables quantitatives L ensemble est traité par une ACP avec une métrique particulière Même méthode vue dans le cadre de l ACM (B. Escofier) dans le cadre de l ACP (G. Saporta) Analyse factorielle de données mixtes (AFDM) 3

AFDM à l aide d une ACP Codage des indicatrices pour garder, en ACP, leurs propriétés en ACM Q variables qualitatives = K 2 indicatrices q i k q K k q K q x ik p q k q I p kq fréquence de la modalité k de la variable q 4

Représentations fournies par l AFDM F2 F2 k individu modalité k 3 i2 i F C A B F k 2 5

AFM appliquée à plusieurs groupes de variables : quantitatifs, qualitatifs ou mixtes J groupes quantitatifs J 2 groupes qualitatifs (codage disjonctif complet) Groupes j J j J 2 Var. kk j q Q j k K q Ind. i x ik x ik I 6

Données : exemple Perception de 5 outils pédagogiques par des étudiants Cours en ligne : Livres ) texte 4) cours 2) animations 5) exercices 3) film sur logiciels Chaque outil est noté par chaque étudiant sur une échelle en 5 points de = inutile à 5 = très utile Tableau : 25 étudiants x 5 outils avec x ik la note donnée par l étudiant i à l outil k Analyse exploratoire Les variables peuvent être considérées comme quantitatives (ACP) ou qualitatives (ACM) Double objectif Comparaison ACP - ACM Introduction des deux points de vue dans une analyse unique 7

Données : exemple 5 outils = variables quantitatives (centrées-réduites) 5 outils = 25 indicatrices (codage disjonctif complet) q 5 k 25 k 5 k 5 Individus i x ik x ik I 8

Pondération des groupes de variables Plusieurs groupes de variables actives dans une analyse unique Question Comment équilibrer leur influence? 9

Pondération des groupes de variables Exemple de référence : deux groupes de variables quantitatives R I groupe : 2 var. groupe 2 : 3 var. 20

Pondération des groupes de variables ACP des 5 variables, sans considérer les groupes R I ère composante principale Groupe : 2 var. Groupe 2 : 3 var. 2

Exemple de référence Pondération des groupes dans l AFM Equilibrer l inertie axiale maximum R I.5.5 Groupe : 2 var. Groupe 2 : 3 var. Chaque variable du groupe j est pondérée par /λ j λ j : ère valeur propre de l ACP séparée du groupe j. 22

Le cœur de l AFM est une analyse factorielle de tous les groupes actifs Les groupes de variables peuvent être : quantitatifs (centrés-réduits ou non) qualitatifs mixtes Critère (cas de 2 groupes : K variables quantitatives + Q 2 variables qualitatives) r ( k, v) + η ( q, v) λ 2 2 2 k K λq 2 q Q 2 Equivalences en AFM quand chaque groupe contient une seule variable Variables quantitatives Variables qualitatives Données mixtes ACP normée ACM AFDM 23

Le cœur de l AFM est une analyse factorielle de tous les groupes actifs L AFM fournit : ) : les résultats classiques de l analyse factorielle Soit, pour chaque axe : Coordonnées, contributions et Cos² des individus Coefficient de corrélation entre facteurs et variables continues Coordonnées des modalités (au barycentre de leurs individus) F2 F2 k individu modalité k 3 i2 i F C A B F k 2 24

Valeurs propres des analyses séparées F F2 F3 F4 F5 MCA 0,637 0,67 0,454 0,48 0,369 PCA 2,837,870 0,48 0,08 0,063 Valeurs propres des analyses séparées (% cumulés) F F2 F3 F4 F5 MCA 5,92 3,33 42,68 53,2 62,35 PCA 56,75 94,6 97,2 98,74 00,00 Décomposition de l inertie dans l AFM F F2 F3 F4 F5 MFA,942,455 0,826 0,694 0,62 24,4% 8,09% 0,27% 8,63% 7,6% MCA 0,950 0,864 0,78 0,689 0,597 PCA 0,992 0,59 0,045 0,005 0,05 25

F2-8.09 % Les 25 étudiants 2 i2 i3 i4 i5 i8 i9 i3 i5 i4 i6i7 i9 0 i i20 F - 24.4 % i0 i8 i2 - i22 i7 i24 i25 i23-2 i6 i i2-2 - 0 2 26

F2-8.09 % 0.8 0.4 Films sur logiciels Animations F - 24.4 % Texte -0.8-0.4 0.4 0.8-0.4-0.8 Livre d exercices Livre du cours 27

.50 F2-8.09 % 0.75 Lco Lex Fil3 Tex3 Ani3 Lex2 Lco2 0 Tex2 Ani2 Lex3 Films sur logiciels Lco3 Tex4 Fil4 Ani4 F - 24.4 % Texte Fil2 Fil5-0.75 Fil Tex animations Lco4 Livre cours Lex4 Livre exercices Ani5 Tex5 Ani -.50 Lco5 Lex5 -.50-0.75 0 0.75.50 28

Axes des analyses séparées F2-8.09 % ACMF ACPF2 0.4 F - 24.4 % Films logiciels Animations -0.8-0.4 0.4 0.8 ACPF Texte ACMF2-0.4-0.8 Livre exercices Livre cours 29

Représentation globale des groupes de variables j J i K K j K J i i j i J I R K i N I j R K j i j N I j R K J N I J i J N I j : nuage partiel (des individus ; associé au groupe j) 30

6. Représentation des groupe Etudier les ressemblances globales entre les N j i? R K R Kj N I j N I j R K J N I J i i j i J j J l I l I l I i W (i,l) i W j (i,l) i W J (i,l) I I I matrices des produits scalaires entre individus pour chaque groupe j Wj = X jx j 3

Données Produits scalaires K j l I i i x ik W j (i,l) I I R I R I² N K j W j N J 32

N J : nuage des groupes R I² W j N J Etudier le nuage N J Méthode de référence : STATIS (Escoufier Y., Lavit C.) Axes principaux de N J Interprétation de ces axes difficile 33

Etudier N J avec l AFM Données Produits scalaires K j l I i i x ik W j (i,l) I I R I R I² N K j W j w s v s N J w s : W associé à v s inertie de N K j projeté sur v s coordonnée de W j sur w s 34

Carré des liaisons Lg ( v, K j ) groupe K j K j quantitatif 0 0 Lg ( v, K j ) Lg v K = r k v 2 ( s, j) (, ) j s λ k K K j qualitatif Lg v K = q v 2 ( s, j) η (, ) j s λq 2 q Q 2 35

.00 F2-8.09 % 0.75 Livre cours (quali.) Livre exercices(quali.) Livre cours (quanti.) Livre exercices (quanti.) Group (ACM) Group 2 (ACP) 0.50 Texte (quali.) 0.25 Animations (quali.) Films logiciels (quali.) 0 Animations (quanti.) Films logiciels (quanti.) F - 24.4 % Texte (quanti.) 0 0.25 0.50 0.75.00 36

Conclusion L AFM est une méthode factorielle dédiée aux tableaux multiples dans lesquels Un groupe d individus est décrit par plusieurs groupes de variables Les groupes de variables peuvent être quantitatifs, qualitatifs ou mixtes Le cœur de la méthode est une analyse factorielle pondérée ; elle fonctionne comme une ACP pour les variables quantitatives comme une ACM pour les variables qualitatives Elle fournit des résultats classiques de l analyse factorielle représentation des individus, des variables, etc. spécifiques de la structure des variables en groupes représentation des groupes, des axes des analyses séparées, etc. 37

Ces analyses sont disponibles dans Un package R dédié à l analyse exploratoire des données http://www2.agrocampus-ouest.fr/math/ 38