Séance 10 : Analyse factorielle des correspondances



Documents pareils
Séance 11 : Typologies

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

SAS de base : gestion des données et procédures élémentaires

Logiciel XLSTAT version rue Damrémont PARIS

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Mémo d utilisation de ADE-4

Scénario: Données bancaires et segmentation de clientèle

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Statistiques Descriptives à une dimension

Statistique Descriptive Multidimensionnelle. (pour les nuls)

LES DIFFERENTS TYPES DE MESURE

Analyse des correspondances avec colonne de référence

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

La classification automatique de données quantitatives

TD d économétrie appliquée : Introduction à STATA

L export de SAS vers Excel expliqué à ma fille

Localisation des fonctions

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

1 Complément sur la projection du nuage des individus

Résultats d Etude. L étude de marché. Résultats d Etude N 1889 : Conciergerie privée. Testez la fiabilité de votre projet.

Le chi carré. Le sommaire. Approche quantitative

Séries Statistiques Simples

Traitement des données avec Microsoft EXCEL 2010

Web Mining. YOUSSOUF Kamal LACHAAL Rafik. [Tapez le résumé du document ici. Il s agit généralement d une courte synthèse du document.

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

Introduction. Préambule. Le contexte

T de Student Khi-deux Corrélation

Logiciel Le Sphinx Plus 2 version 5. Le Sphinx Développement Chavanod

Crédit Scoring. Master 2 SRO. Année scolaire 2009/2010. Professeur : RICHARD EMILION. Réalisé par : MAHAMAT OUMAR ALHABO et OULD EL HADDAD CHEIKH

SPHINX Logiciel de dépouillement d enquêtes

INF6304 Interfaces Intelligentes

Chapitre 3. Les distributions à deux variables

Individus et informations supplémentaires

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Initiation à l analyse en composantes principales

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

Introduction aux Statistiques et à l utilisation du logiciel R

Introduction à la statistique descriptive

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Scénario: Score d appétence de la carte visa premier

23. Interprétation clinique des mesures de l effet traitement

TP - Alarme de voiture / Approche fonctionnelle

Gestion de comptes. - Rapport d étude. Auteur Pôle Banque Finance et Assurance. N étude Février Gestion de comptes

L analyse des données par les graphes de similitude

Statistique Descriptive Élémentaire

EXCEL et base de données

Animer des séances pratiques et/ou des laboratoires

Portrait statistique de la population de représentant en épargne collective au Québec

Aide-mémoire de statistique appliquée à la biologie

SEANCE DU CONSEIL COMMUNAUTAIRE DU JEUDI 25 JUIN 2009

TD : Codage des images

Biostatistiques : Petits effectifs

Gestion des données avec R

Cours 9 : Plans à plusieurs facteurs

HIVER 2004 MÉTHODOLOGIE DE LA RECHERCHE EN MARKETING MRK

Cycle de formation certifiante Sphinx

Les salariés de l économie sociale et solidaire

La crise économique vue par les salariés français

FPSTAT 2 í La dçecision statistique. 1. Introduction ça l'infçerence. 1

Evaluation de la typicité des vins liés au terroir : proposition de méthodes pour les professionnels de la filière

Les ateliers du Resclin. Préparation des données issues d Epi-Info en utilisant le tableur Excel

Compte- rendu de la table ronde 2 «L autonomie des universités au Vietnam» 1. Introduction

Collecter des informations statistiques

Analyse en Composantes Principales

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

L'analyse des données à l usage des non mathématiciens

SUPERTOTO TERMES & CONDITIONS. Table des Matières

Chapitre 1. La démarche statistique appliquée au management. Minicas. Questions :

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

- Le Diagramme de Gantt. - Le Diagramme de Pert - La Méthode QQCQCCP - La Méthode MOSI - Cahier des charges fonctionnel

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

LE HARCÈLEMENT PSYCHOLOGIQUE AU TRAVAIL AU QUÉBEC

CHAPITRE 2. Les variables

Introduction à l approche bootstrap

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

ODS : organiser et diffuser des sorties

LES MODES D ADAPTATION ET DE COMPENSATION DU HANDICAP : Les personnes handicapées motrices à domicile (enquête HID 1999)

Statistique : Résumé de cours et méthodes

SEMINAIRE INTERNATIONAL «Risques de crédit bancaire en Afrique» Ouagadougou du 23 au 26 octobre 2012 Hôtel Laïco Ouaga 2000

MATHÉMATIQUES ET SCIENCES HUMAINES

TP SAS initiation IUP MIAGE L3

La mobilité professionnelle revêt

Le profil des acheteurs à distance et en ligne

Mode d emploi ALTO MONITOR PROCESSEUR D ÉCOUTE. Version 1.0 Juillet 2003 Français

Exemple PLS avec SAS

1 - Salaires nets tous secteurs confondus

Transcription:

Séance 10 : Analyse factorielle des correspondances Sommaire Proc CORRESP : Analyse de tableaux d effectifs... 2 Exemple 1 :... 6 L analyse en composantes principales traite des variables quantitatives. L analyse factorielle des correspondances (AFACO) traite des données de fréquences avec différentes variantes - Un tableau croisé (X1 * X2 - Un tableau croisé multiple (X1, X2, X3) * (X1, X2, X3) - Un tableau disjonctif (un individu par ligne. Pierre Desmet 1

Proc CORRESP : Analyse de tableaux d effectifs Principe : L analyse factorielle des correspondances reconstitue la distance entre des «profils» sur les lignes et sur les colonnes. La différence fondamentale avec l analyse factorielle réside dans la distance utilisée : ici la distance du Khi² (Chi²) qui va pondérer l écart au carré entre les deux profils pour chaque variable par les effectifs. Nature des variables et de la distance : - Variables discrète (Nominale ou ordinale dégradée en nominale) - Attention à ne pas laisser des modalités trop «rares» du fait d un poids inverse aux effectifs. - Possibilité de prendre en compte des observations additionnelles en jouant sur le poids (w : mettre le poids à 0) Utilisations : - Analyse de la proximité de variables nominale (ou binaires) - Profil des marques connues ou appréciées - Profil des réponses à des variables non quantitatives (la plupart des variables sociodémographiques : sexe, csp, ) options nocenter formdlim="-" ; data in ; input Y w X1 X2 X3 @@; ID = put(_n_,$2.) ; /* récupérer le numéro de la ligne qui est dans _N_ */ cards ; 0 8 1 2 3 0 6 1 2 2 0 9 2 3 3 1 4 2 1 1 1 5 2 2 1 1 3 2 2 2 1 15 3 1 1 0 8 1 1 1 1 9 1 3 3 0 7 1 1 3 1 6 1 3 1 1 3 3 2 1 1 3 3 3 1 ; proc format ; value x1_f 1="X11" 2="X12" 3="X13"; value x2_f 1="X21" 2="X22" 3="X23"; value x3_f 1="X31" 2="X32" 3="X33"; title1 'Etude des fréquences lignes ' ; ods graphics on ; proc freq data=in ; weight w ; table X1*X2 / nopercent nocol cellchi2; format x1 x1_f. x2 x2_f. ; title1 'Etude des fréquences colonnes ' ; proc freq data=in ; weight w ; table X1*X2 / nopercent norow cellchi2; * AFC simple X1 * X2 ; title1 'Tableau C1*C2 ' ; proc tabulate data=in; var w; class X1 X2; table (X1 all),(x2 all)*w*sum*f=3.0/ RTS=10; run; Pierre Desmet 2

title1 'AFC simple ligne x colonne x1*x2 (SCA)' ; Proc corresp data=in OUTC=dat_coord1 DIMENS=2 plots=all; weight w; Tables X1, X2 ; /* SCA : mettre une virgule entre les variables */ format x1 x1_f. x2 x2_f. ; proc print data=dat_coord1 ; run; * AFC multiple X1 * X2 *X3 ; title1 'Tableau des correspondances multiples (x1,x2,x3)*(x1,x2,x3) ' ; proc tabulate data=in; weight w; class X1 X2 X3; table (X1 X2 X3), (X1 X2 X3)*n*F=3.0/ RTS=10; format x1 x1_f. x2 x2_f. x3 x3_f. ; Run; title1 'AFCM Correspondances multiples (x1,x2,x3)*(x1,x2,x3) (MCA)' ; Proc corresp data=in mca OUTC=dat_coord2 DIMENS=2 ; weight w; Tables X1 X2 X3 ; format x1 x1_f. x2 x2_f. x3 x3_f. ; proc print data=dat_coord2 ; Run; * AFC disjonctif : ID X1 X2 X3 ; title1 'Tableau disjonctif complet ' ; proc tabulate data=in; var w; class ID X1 X2 X3; table (ID all),(w*sum*f=3.0 (X1 X2 X3)*N*F=3.0)/ RTS=10; format x1 x1_f. x2 x2_f. x3 x3_f. ; Run; title1 'AFC Tableau disjonctif complet ' ; Proc corresp data=in OUTC=dat_coord3 DIMENS=3 ; weight w ; Tables id, X1 X2 X3 ; format x1 x1_f. x2 x2_f. x3 x3_f. ; Run ; proc print data=dat_coord3 ; Run; Décisions à prendre : - (1) Quel tableau analyser? o Tableau croisé simple : (table X1, X2) o Tableaux croisés multiples : (table X1 X2 X3) (tableau de Burt) Pierre Desmet 3

o Tableau disjonctif (individus en ligne) : (table ID, X1 X2 X3) Tests et Expérimentation - (2) Quelles variables éliminer? - La qualité de la reconstitution de la variable est maintenant exprimée par le carré du «Cosinus» (la somme sur les axes fera 1). Un tableau donne la «qualité» de la reconstitution de la variable - On éliminera les variables mal représentées - - (3) Signification des axes? - L inertie est décomposée en axes qui ont une valeur singulière et représentent un % de l inertie totale. - Du fait du nombre des modalités, la contribution d un axe est plus faible qu en ACP. - Les contributions des variables aux axes sont présentées o D abord pour les colonnes (variables) o Puis pour les individus (lignes) Cas 1 : tableau croisé Les % lignes et les % colonnes montrent bien qu il y a une différence de profil pour la première ligne et la première colonne (en fait au croisement) L AFACO retrouve bien cette spécificité Pierre Desmet 4

Cas 2 : ACM analyse des correspondances multiples Le tableau à analyser : croisement de toutes les variables entre elles La reconstitution de l inertie demande un beaucoup plus grand nombre d axes. Avec 2 axes on est à peine à 57% On observe bien les profils atypiques (X13, X21, X31). Et l opposition X22,/X32 et X23/X33 Cas 3 : analyse disjonctive Pierre Desmet 5

Le tableau à analyser est bien un tableau «classique» (individu en lignes, variables en colonnes). On peut directement interpréter la proximité des lignes (individus) et des colonnes. Ainsi on remarque que les profils 3 et 9 qui représentent (9+9 = 18 répondants) ont une modalité préférée pour la variable X2 (X23) et pour la variable X3 (X33). De même les individus du profil 7 (n=15) se caractérisent par la fréquence de la modalité X13 Exemple 1 : Contexte : Analyse du tableau croisé entre la CSP et le mode d hébergement pendant les vacances. Procédez à une analyse dans les deux sens : qui va à l hôtel? en camping? Pour une catégorie de CSP donnée, quels sont les modes d hébergement privilégiés? (données du professeur BESSE) Pierre Desmet 6

Tableau brut à analyser Khi² par cellule. Deux axes reconstituent 77% de l inertie Pierre Desmet 7

Pierre Desmet 8