PASW/SPSS : Analyse en composantes principales (ACP)

Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Extraction d informations stratégiques par Analyse en Composantes Principales

ACP Voitures 1- Méthode

La classification automatique de données quantitatives

L'analyse des données à l usage des non mathématiciens

Logiciel XLSTAT version rue Damrémont PARIS

Traitement des données avec Microsoft EXCEL 2010

Statistique : Résumé de cours et méthodes

Analyse en Composantes Principales

Statistique Descriptive Multidimensionnelle. (pour les nuls)

1 Complément sur la projection du nuage des individus

O, i, ) ln x. (ln x)2

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

DÉRIVÉES. I Nombre dérivé - Tangente. Exercice 01 (voir réponses et correction) ( voir animation )

Logistique, Transports

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Initiation à LabView : Les exemples d applications :

Mémo d utilisation de ADE-4

Cours d Analyse. Fonctions de plusieurs variables

PROGRAMME (Susceptible de modifications)

Pourquoi l apprentissage?

Electricité : caractéristiques et point de fonctionnement d un circuit

OLYMPIADES ACADÉMIQUES DE MATHÉMATIQUES

Analyse des correspondances avec colonne de référence

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

Utiliser un tableau de données

Ricco.Rakotomalala

4 Statistiques. Les notions abordées dans ce chapitre CHAPITRE

Initiation à l analyse en composantes principales

avec des nombres entiers

Formation > Développement > Internet > Réseaux > Matériel > Maintenance

RECUPEREZ DES FICHIERS SUPPRIMES AVEC RECUVA

PROGRAMMATION DES ACTIVITÉS D ATHLETISME DU CYCLE 1 AU CYCLE 3

Relation entre deux variables : estimation de la corrélation linéaire

Généralités. Sans copie de sauvegarde sur support externe, vous ne pourrez jamais récupérer vos multiples encodages. 1.1 Sauvegarde des données

EXEMPLE DE PAGE : FORMAT A4 (210X297)

a) b)

Microsoft Excel : tables de données

Deux disques dans un carré

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

1. Se rendre sur le site du service des bibliothèques et archives de l Université de Sherbrooke :

La place de SAS dans l'informatique décisionnelle

ESIEA PARIS

Baccalauréat ES Amérique du Nord 4 juin 2008

Introduction. Préambule. Le contexte

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

Cycle de formation certifiante Sphinx

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

Introduction à l approche bootstrap

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Calcul des pertes de pression et dimensionnement des conduits de ventilation

SPHINX Logiciel de dépouillement d enquêtes

Statistiques Descriptives à une dimension

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

HEITZ X Pro GESTION CLIENTÈLE

Activité 11 : Nuage de points ou diagramme de dispersion

données en connaissance et en actions?

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Scénario: Données bancaires et segmentation de clientèle

CREATION D UNE EVALUATION AVEC JADE par Patrick RUER (

DISQUE DUR. Figure 1 Disque dur ouvert

Base élèves : des étiquettes avec OpenOffice 2.0

SINE QUA NON. Découverte et Prise en main du logiciel Utilisation de bases

Programmation linéaire

ATRIUM. Logiciel V3.0 (jusqu à 100 portes) Le choix de l installateur cdvigroup.com

CRÉATION MODIFICATION

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Fonctions de deux variables. Mai 2011

Bases de données. Chapitre 1. Introduction

Université de Montréal. département de sociologie. L'analyse factorielle et l'analyse de fidélité. notes de cours et exemples

Manuel d utilisation du logiciel

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Le Logiciel de Facturation ultra simplifié spécial Auto-Entrepreneur

Évaluation de la régression bornée

Sommaire. BilanStat manuel de présentation et d utilisation Page 2

COURS EULER: PROGRAMME DE LA PREMIÈRE ANNÉE

Leçon N 4 : Statistiques à deux variables

Structure financière et performance économique des PME : Étude empirique sur les entreprises belges

Calc 2 Avancé. OpenOffice.org. Guide de formation avec exercices et cas pratiques. Philippe Moreau

Dimensionnement d une roue autonome pour une implantation sur un fauteuil roulant

de gestion de stock Inventaire, achats

LE PRODUIT SCALAIRE ( En première S )

Cours d analyse numérique SMI-S4

Python - introduction à la programmation et calcul scientifique

Avenir Concept Monaco

TP 7 : oscillateur de torsion

Commun à tous les candidats

Fonctions homographiques

L évaluation des résultats

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Questions fréquemment posées par les candidats externes

FORMULAIRE DE STATISTIQUES

Office 365/WIFI/Courrier. Guide pour les étudiants

L Edition Pilotée XL

LA FEUILLE DE MATCH ELECTRONIQUE(F.D.M.E)

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Transcription:

PASW/SPSS : Analyse en composantes principales (ACP) Vincent Jalby 3 octobre 009 Analyse > Réduction des dimensions > Analyse factorielle 1 Mise en œuvre 1.1 Descriptives Statistiques - Caractéristiques univariées : Donne l espérance et l écart-type de chaque variable. Statistiques - Structure initiale : Affiche la totalité de la solution (toutes les valeurs propres). Matrice des corrélations - Coefficients : Affiche la matrice des corrélations Matrice des corrélations - Indice KMO et test de Bartlett : Calcule le KMO et effectue le test de Bartlett. Ils permettent de déterminer, a priori, l adéquation de l ACP. Matrice des corrélations - Anti-image : Permet de déterminer les variables à supprimer dans le cas d un KMO trop faible. 1. Extraction Méthode : Composantes principales correspond à l ACP classique. Analyser - Matrice de corrélation/covariance : fait une ACP normée ou non-normée. Afficher - Structure factorielle sans rotation : Résultat avant rotation [Laisser cocher supprimer éventuellement si rotation]. Affiche les coordonnées des composantes,... Afficher - Diagramme des valeurs propres : Scree plot. Permet de déterminer le nombre de composantes à retenir en repérant le coude. Extraire : Permet de préciser le nombre de composantes (ou facteurs) que l on souhaite retenir : Basé sur la valeur propre : La règle de Kaiser ne retient que les composantes dont la valeur propre est supérieure à 1 (réglage par défaut). Extraire - Nombre de facteurs : Nombre de composante à retenir. 1.3 Rotation Méthode - Aucune/Varimax/Quartimax/Equamax : Effectue une rotation dans le plan factoriel. Ne change pas l inertie expliquée par le plan. Aucune : Pas de rotation. Les composantes correspondent aux valeurs propres par ordre de grandeur décroissante. Varimax : simplifie l interprétation des composantes Quartimax : simplifie l interprétation des variables Equamax : combinaison de Varimax et Quartimax Afficher - Structure après rotation : Affiche les coordonnées des composantes après rotation,... Afficher - Carte(s) factorielle(s) : Graphique des variables dans le plan factoriel. 1.4 Facteurs Enregistrer dans des variables (Méthode Régression) : Permet d enregistrer (les coordonnées des individus dans) les nouvelles variables. Permet de faire une représentation du nuage des individus. Afficher la matrice des coefficients factoriels : Coordonnées des composantes dans les variables initiales. Résultats.1 Statistiques descriptives Affiche la moyenne, l écart-type et le nombre d observations pour chaque variable. Permet donc de Faculté de Droit et de Sciences Économiques, Université de Limoges. E-mail: vincent.jalby@unilim.fr 1

juger de l hétérogénéité des variables ; repérer les variables ayant des valeurs manquantes.. Matrices de corrélation Permet de déceler rapidement les variables fortement corrélées et/ou de juger de l existence de corrélations suffisantes entre les variables. À confirmer par le test de Bartlett..3 Test de sphéricité de Bartlett Ce test consiste à comparer la matrice des corrélations X 0 X avec l identité (pas de corrélation entre les variables) en utilisant un test du. Une valeur élevée avec une signification proche de 0 permet de rejeter la non-corrélation globale des variables, c est-à-dire, assure que les variables sont suffisamment corrélées entre-elles pour permettre une réduction significative de la dimension. Condition indispensable pour faire une ACP..4 Test Kaiser-Mayer-Olkin Le KMO, rapport de la somme des corrélations au carré par la somme des corrélations partielles au carré, est un réel compris entre 0 et 1. Un KMO assez élevé (> 0:6) assure que les corrélations partielles ne sont pas trop importantes par rapport aux corrélations simples. Indispensable pour obtenir une ACP intéressante. Dans la négative, il peut être nécessaire de supprimer certaines variables..5 Graphique des valeurs propres Repérer dans le Scree plot, le «coude» des valeurs propres. Il faudrait retenir toutes les valeurs propres (et donc les composantes associées) jusqu au coude..6 Qualité de représentation Repérer les variables ayant un taux d extraction (de variance) faible, en dessous de 60 %. L interprétation de ces variables devra être faite avec prudence. Cette étape peut être une confirmation des observations faites sur le graphe..7 Variance totale expliquée Déterminer le nombre de composantes à retenir pour avoir plus de 70 % de variance (cumulée) expliquée. Si le nombre de composantes est supérieur à, il faudra étudier plusieurs schémas. L importance de chaque composante est donnée par le % de variance expliquée (par chaque composante)..8 Matrice des composantes (après rotation) Coordonnées des variables dans les composantes..9 Matrice de transformation Rotation des composantes par rapport aux composantes principales théoriques..10 Matrice des coefficients des coordonnées des composantes Coordonnées des composantes dans les variables initiales..11 Matrice des covariances des composantes Identité car orthogonales (non corrélées). 3 Analyse de l ACP 3.1 Intérêt de l ACP : KMO and Bartlett s Test / Correlation Matrix Vérifier que le Chi- du Bartlett s Test est suffisamment grand avec une signification quasi nulle : les variables sont suffisamment corrélées. La matrice des corrélation peut confirmer cela. Vérifier que le KMO est supérieur à 0,6 ou 0,5 : pas de corrélations partielles trop importantes. Sinon, supprimer une ou plusieurs variables de l analyse.

3. Qualité de l ACP : Variance totale expliquée / Graphique des valeurs propres Déterminer le nombre de composantes à retenir pour avoir plus de 70 % de variance (cumulée) expliquée. Si le nombre de composantes est supérieur à, il faudra étudier plusieurs schémas. L importance de chaque composante est donnée par le % de variance expliquée (par chaque composante). Repérer dans le Scree plot, le «coude» des valeurs propres. Il faudrait retenir toutes les valeurs propres (et donc les composantes associés) jusqu au coude. Cela doit correspondre au nombre de composantes déterminé précédemment. 3.3 Qualité de représentation des variables : Qualité de représentation Repérer les variables ayant un taux d extraction (de variance) faible, en dessous de 60 %. L interprétation de ces variables devra être faite avec prudence. Cette étape peut être une confirmation des observations faites sur le graphe. 3.4 Interprétation des composantes / Contribution des variables : Matrice des composantes Repérer les variables ayant une forte contribution (positive ou négative) sur chaque composante. Ces variables donneront un sens aux composantes. Deux (groupes de) variables avec des contributions de signes opposés représenteront des oppositions. Cette étape peut être une confirmation des observations faites sur le graphe. 3.5 Interprétation graphique : Diagramme des composantes L étude graphique ne doit porter que sur les variables se trouvant proches du cercle (bord du disque) des corrélations, c est-à-dire celles qui sont suffisamment représentées. Repérer les groupes de variables et interpréter leurs regroupements. Des variables proches représentent des variables fortement corrélées. Des variables «à angle droit» représentent des variables non corrélées. Les variables proches des axes permettent de donner un sens aux composantes, en mettant éventuellement en valeur des oppositions. 4 Nuage des individus 4.1 Coordonnées des individus Pour obtenir le nuage des individus (dans le plan factoriel), il faut faire une ACP en ayant coché l option Facteurs > Enregistrer dans des variables. Deux (ou plus) nouvelles variables sont générées. Elles portent le nom facx_y où x représente le numéro du facteur, et y le numéro de l analyse. 4. Diagramme des individus Faire alors un diagramme de dispersion simple (Graphe > Boites... > Dispersion/Points > Dispersion simple). Mettre le premier facteur sur l axe X et le second sur l axe Y. Étiqueter les observations par la variable contenant le nom des individus, et ne pas oublier de cocher dans Options... l option Afficher le diagramme avec les étiquettes d observations. 4.3 Interprétation du nuage des individus L origine des axes.0; 0/ correspond à la moyenne sur l échantillon. La signification des axes est celle obtenue dans l analyse duale (des variables). Il convient de mettre en valeur : les groupes d individus (ayant donc un comportement identique) ; les individus isolés ; la position relative des (groupe d ) individus par rapport aux axes. Attention, ce graphique ne permet pas de connaître la qualité de représentation des individus. 4.4 Contribution La contribution d un individu X i à la détermination de l axe U est donnée par CTR.i/ D m if.i/ Les points les plus éloignés de l origine ont les plus fortes contributions. 3

4.5 Qualité de représentation des individus Il n est pas possible de l obtenir automatiquement. Les formules théoriques sont : QLT.i/ D X CO.i/ CO.i/ D F.i/ kx i Gk où représente les valeurs propres des composantes retenus, X i l individu i, G le barycentre des individus, F.i/ la coordonnée de X i sur l axe associé à, CO.i/ le taux de représentation de X i par l axe associé à, QLT.i/ la qualité de représentation de X i dans les axes associés aux. Pour appliquer ces formules dans SPSS, il faut tenir compte que les calculs sont faits sur des données centrées-réduites (X i D X 0 i, G D 0) les coordonnées données par SPSS (facx_y) sont données dans un système d axes orthonormaux. Pour appliquer les formules précédentes, il faut donc centrer et réduire les variables originales et multiplier les coordonnées sur les axes principaux par p. 4.5.1 Normalisation des variables Utiliser Analyse > Statistiques descriptives > Descriptives en cochant enregistrer des valeurs standardisées dans des variables sur les variables originales. 4.5. Norme de chaque point Définir une nouvelle variables norm via Transformer > Calculer en utilisant la formule : 4.5.3 Calcul des CO norm D z_variable_1 C C z_variable_ Définir les nouvelles variables CO_1, CO_ pour chacun des axes via Transformer > Calculer en utilisant la formule : CO_- D.fac-_1 / =norm 4.5.4 Calcul de QLT Définir une nouvelle variable QLT, via Transformer > Calculer en utilisant la formule : 4.5.5 Cas de la rotation QLT D CO_1 C CO_ C : : : En cas de rotation, il n est pas possible d utiliser les formules précédentes. En effet, la rotation est effectuée dans l espace des variables ; lorsqu on l applique à l espace des individus, il s agit d une rotation composée avec une homotéthie sur chacune des variables. Soit.f 1 ; f / les coordonnées d un individus X dans les axes factoriels avant rotation, 1 ; les valeurs propres associées à chaque axe. Alors les coordonnées de cet individus dans l espace des individus sont.x 1 ; x / D. p 1 f 1 ; p f /. a b Soit R D la matrice de rotation. Après rotation, les coordonnées de l individu X sur les axes b a factoriels sont.f1 0; f 0/ D.af 1 C bf ; bf 1 af /, mais ses coordonnées dans l espace des individus sont.x1 0 ; x0 / D.ap 1 f 1 C b p f ; b p 1 f 1 a p f /. Il n existe pas d expression simple de.x1 0 ; x0 0 / en fonction de.f1 ; f 0/. Les CO après rotation sont donc (pour la première composante) CO_R 1 D jx0 1 j kxk D a f1 1 C b f kxk Il n est donc pas possible d exprimer simplement les CO après rotation en fonction de.f 0 1 ; f 0 /. En dimension, on peut facilement déduire les CO après rotation de ceux avant rotation via les formules : CO_1_R D a CO_1 C b CO_ et CO R D b CO_1 C a CO_ où a et b sont les coefficients (des colonnes) de la matrice de rotation. Bien sûr, les QLT ne changent pas. (Ces formules se généralisent simplement aux dimensions supérieures, en lisant en colonne les coefficients de la matrice de rotation.) 4

5 Amélioration de l ACP 5.1 Rotation Si l interprétation des composantes n est pas convaincante, utilisez une rotation pour obtenir une nouvelle analyse : Varimax : simplifie l interprétation des composantes en minimisant le nombre de variables ayant de fortes contributions sur une même composante Quartimax : simplifie l interprétation des variables en minimisant le nombre de composantes nécessaires à l explication de chaque variable Equamax : compromis entre Varimax et Quartimax. 5. Suppression de variables 5..1 Test de Bartlett Si le test de Bartlett échoue (variables insuffisamment corrélées), il y a peu d espoir d améliorer l ACP. 5.. Amélioration du KMO Si l indice KMO est trop faible (< 0:5), cela signifie qu il y a trop de corrélations partielles. Il convient donc de supprimer la (ou les) variables ayant le plus d influence sur les corrélations partielles. Pour cela, demander le calcul de la matrice des corrélations «anti-image». La diagonale de cette matrice correspond au KMO pour chaque variable (quotient de la somme des corrélations au carré de cette variable avec les autres variables, par la même chose plus la somme des corrélations partielles au carré de cette variable.) Il convient donc de supprimer la variable ayant le KMO le plus faible. 5..3 Contributions excessives Si une variable (ou un individu) a une contribution trop importante sur (la détermination d ) une composante principale, il peut être intéressant de supprimer cette variable (ou cet individu) de l étude pour tenter de mieux expliquer les autres variables. 5