Atelier N 6 : Analyse en composantes principales (ACP) Présentation des méthodes d analyses multivariées



Documents pareils
Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Logiciel XLSTAT version rue Damrémont PARIS

Présentation du Programme PHARE. Direction générale de l offre de soins - DGOS

Traitement des données avec Microsoft EXCEL 2010

SPHINX Logiciel de dépouillement d enquêtes

ACP Voitures 1- Méthode

Recettes de fonctionnement et capacité d'épargne

Observatoire de l équipement audiovisuel des foyers

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

café, restaurant & salon de thé DOSSIER DE CANDIDATURE franchise

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

ISF et intermédiation : Collecte 2009

La régie de la radio en ligne. Offre commerciale 2013

BILANS REGIONAUX DE L EMPLOI

Extraction d informations stratégiques par Analyse en Composantes Principales

La Gestion Prévisionnelle des Emplois et des Compétences dans votre entreprise

Evolution de la collecte des RPU Réseau OSCOUR

FICHE CANDIDATURE. Ain de mieux vous connaître, nous vous remercions de compléter soigneusement toutes les rubriques de ce document.

Un dispositif d appui aux très petites entreprises

ETAT DES LIEUX DE LA FORMATION INITIALE EN METALLERIE. Atelier de 14h30 16h00

Le Fonds spécial des pensions des ouvriers des établissements industriels de l Etat PRESENTATION GENERALE

Apps Sage : les 10 étapes pour publier vos données dans le Cloud.

Activité 11 : Nuage de points ou diagramme de dispersion

Construction de logements

La Population des Exploitants agricoles en 2011

Séries Statistiques Simples

Livret. du professeur OBJECTIF TRAVAUX PUBLICS. Le programme Le site Internet La visite Le concours photo

Initiation à LabView : Les exemples d applications :

La Banque Postale Présentation de l activité Secteur Public Local. Bruges, le 3 juillet 2013

La classification automatique de données quantitatives

IBM SPSS Direct Marketing 21

1985 / 2009 : 25 ANS DE CONCOURS DU CREDIT-BAIL AU FINANCEMENT DE L IMMOBILIER D ENTREPRISE

LES INSUFFISANCES EN MATIERE D EQUIPEMENTS D IMAGERIE MEDICALE EN FRANCE : ETUDE SUR LES DELAIS D ATTENTE POUR UN RENDEZ-VOUS IRM EN 2013

Panorama des formations post-baccalauréat en Transport et Logistique

Online Workflow. Approbation factures

3 e partie L OFFRE D HÉBERGEMENT

Guide abrégé d IBM SPSS Statistics 21

Vous pouvez à présent à reconfigurer votre messagerie en cliquant ici.

Emplois. Votre épargne a le pouvoir de créer des emplois!

Prêt de série et création de groupes d emprunteurs

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

21 ème Observatoire des Taux meilleurtaux.com. C O N F É R E N C E D E P R E S S E 3 f é v r i e r

Règlement du concours de dessin «Mon éolienne est la plus originale»

Logiciel DELF-DALF - Mise à jour vers la version (septembre 2014)

OTT Observatoire du Travail Temporaire. L intérim dans le secteur du BTP

La preuve par. Principaux enseignements du bilan des PRT et. du recensement des projets télémédecine 2013

NOTICE TELESERVICES : Signaler un changement d adresse

Relation entre deux variables : estimation de la corrélation linéaire

9,8 % de l emploi 2,1 millions de salariés établissements employeurs

Création d un petit livre Avec le logiciel «Didapages» Version Didapages 1.1 PC

Séquence 4. Statistiques. Sommaire. Pré-requis Médiane, quartiles, diagramme en boîte Moyenne, écart-type Synthèse Exercices d approfondissement

TABLEAU CROISE DYNAMIQUE

INTRODUCTION GENERALE...1 LA CONNEXION ODBC :...1. CONNEXION AU TRAVERS D EXCEL(tm)...6. LOGICIEL QUANTUM GIS (Qgis)... 10

Quelles sont les banques de détail françaises les plus performantes? 110 établissements à la loupe. Octobre 2013

Création d un petit livre Avec le logiciel «Didapages 1.1»

La Caisse d Epargne, acteur de référence du capital investissement en région. - Juillet

Le Sphinx Millenium Modes opératoires Préparer, administrer, Dépouiller les enquêtes

Edition février CEGEDIM CD, droits réservés : GDR_201502

Utiliser un tableau de données

Les prélèvements d eau en France en 2009 et leurs évolutions depuis dix ans

Dossier de Presse. Contact : Luc Petit Tél. : lpetit@forces.fr. FORCES 90, avenue Maurice Berteaux BP Sartrouville

Dossier de Presse Contact : Raphael Alibert ralibert@forces.fr FORCES 90, avenue Maurice Berteaux BP Sartrouville

Réglages du module de sauvegarde de Biblionet (Monoposte)

Corrélation entre deux classements. ρ Le coefficient de rang de Spearman

Optimisation des ressources des produits automobile première

Guide de développement de «WorkFLows» avec SharePoint Designer 2013

Présentation du Programme PHARE

Panorama. de l économie sociale et solidaire

Sauvegarder sa messagerie Outlook 2010

IBM SPSS Statistics Base 20

Petit memo rapide pour vous guider dans la gestion des engagements de vos compétitions FFM

AQUITAINE. Suivi de la Demande touristique ~

ACCÈS AUX COMPTES EN LIGNE : VOTRE GUIDE D UTILISATION. pour un accès à votre portefeuille partout et en tout temps

CRÉATION MODIFICATION

Arbres binaires de décision

Observatoire de l équipement audiovisuel 2 ond semestre Département Télécom et Equipement Novembre 2014

Lancement de la mise à jour de la feuille de route nationale «Infrastructures de Recherche»

INTRODUCTION AU DATA MINING

Chaque mois, IMS Health propose une vue de son référentiel ENTREPRISES, constitué à partir du répertoire SIRENE (source INSEE) valorisé

Cycle de formation certifiante Sphinx

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Allegroupe. Système de gestion des paiements préautorisés

Bases de données. Table des matières. Introduction. (ReferencePlus.ca)

MUNIA Manuel de l'utilisateur

MEGA ITSM Accelerator. Guide de Démarrage

Integration à un domaine AD SOMMAIRE

3 : créer de nouveaux onglets dans Netvibes Cliquer sur le bouton «+» et renommer le nouvel onglet (par exemple Encyclopédies en ligne)

Mode d emploi Télésauvegarde de données SecureSafe

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

GUIDE D UTILISATION. [Réunions en ligne] [Conférences téléphoniques] [Conférences vidéo]

Localisation des fonctions

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

EXCEL Les tableaux croisés dynamiques

Politique européenne de cohésion Etat d avancement des programmes européens

DEMANDE D'INSCRIPTION SECONDAIRE AU TABLEAU DE L'ORDRE

données en connaissance et en actions?

IBM SPSS Regression 21

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Le modèle de données

Transcription:

Atelier N 6 : Analyse en composantes principales (ACP) Contenu : Présentation des méthodes d analyses multivariées Présentation des méthodes d analyses multivariées Classification des méthodes : Les méthodes d analyse multivariées sont classées selon deux critères : l objectif de l analyse : on distingue les méthodes descriptives ; qui fournissent une information synthétisée ou résumée ; des méthodes explicatives qui permettent qui permettent de déceler des relations entre les différents variables. Nature des variables : le type de mesure (nominale, ordinale ou échelle) conditionne le choix d une méthode. Objectif de l analyse Réduire Simplifier Synthétiser Méthodes descriptives (Toutes les variables sont analysées ensemble.) Expliquer Identifier Méthodes explicatives (les variables sont scindées en deux groupes : variables à expliquer et variables explicatives) Nature des variables Nominale Analyse des Analyse discriminante correspondances Ordinale Analyse des similarités Analyse des mesures conjointes Métrique Analyse en composantes Analyse de régression multiple principales Analyse en composante principale : Objectifs : L ACP a pour objectif de simplifier un tableau de données initiales en passant d un grand nombre de variables à un petit nombre de nouvelles variables obtenues en regroupant les variables initiales présentant un coefficient de corrélation relativement important. Page 1/7

Etapes de l analyse en composantes principales : Exemple : Une entreprise multinationale souhaite implanter en France l une de ses unités de production. Elle réalise une étude pour évaluer l attractivité économique des 22 régions françaises. Objectif de l analyse : Est il possible de résumer les 7 variables en 2 ou 3 variables maximum avec un minimum de perte d information, de manière à pouvoir interpréter plus facilement cette dernière? Etape 1 : Repérage des observations aberrantes : Les individus présentant des valeurs extrêmes sur les variables risquent de fausser les analyses, de même pour les individus qui ont beaucoup d informations manquantes. Il est donc préférable de ne pas tenir compte de ces deux catégories. Pour la Corse quatre informations sur sept sont manquantes, donc cette région sera écartée de l analyse. Le croisement des variables POPUL et SUPERF montre que la région Île de France est très en dehors du nuage de points, il en va de même pour le croisement des autres variables. Les statistiques univariées pour les 7 variables confirment la situation extrême de la région Île de France, elle sera donc également écartée de l analyse. 1200000 Île-de-France Hte-Norm. 1000000 Fr.-Comté Corse 800000 Champ.-Ard. Centre 600000 Bretagne 400000 Bourgogne Basse-Norm. POPUL 200000 0 0 1000000 2000000 3000000 4000000 5000000 Auvergne Aquitaine Alsace SUPERF Remarque : Pour afficher dans SPSS les légendes des points dans un diagramme de dispersion: Menu Graphe ; Commande Diagramme de dispersion ; Choisir Simple et cliquez sur Définir ; dans la fenêtre diagramme de dispersion simple faites les choix suivants : Axe des Y : POPUL Axe des X : SUPERF Définir les marques par : région Région POPUL TACT SUPERF NBENTR NBBREV CHOM TELEPH Alsace 162400 3914 828000 3597600 24100 520 70000 Aquitain 279500 3662 4130800 8553100 25600 1020 130000 Auvergne 132000 3748 2601300 4049400 12900 930 60000 Basse-No 139000 3863 1758900 3588800 9100 900 60000 Bourgogn 160000 3826 3158200 4071400 22300 810 75000 Page 2/7

Bretagne 279500 3662 2720800 7376300 29600 950 130000 Centre 237000 3878 3915100 5675300 22900 790 110000 Champ.-A 134000 3785 2560600 2406000 15500 930 55000 Corse 24000, 868000 827300,,, Fr.-Comt 109000 3727 1620200 2748100 15900 710 45000 Hte-Norm 173000 3780 1231700 3746100 18100 1080 75000 Île-de-F 1066000 4604 1201200 27360400 672200 730 580000 Lang.-Ro 211000 3212 2737600 6220200 17900 1320 100000 Limousin 72000 3806 1694200 2172100 7300 790 35000 Lorraine 230000 3434 2354700 4835300 18500 860 95000 Midi-Pyr 243000 3714 4534800 7877100 23700 900 110000 Nord.PdC 396000 3205 1241400 7850400 27800 1260 160000 P. de Lo 306000 3793 3208200 7202700 33900 960 130000 Picardie 181000 3439 1939900 3628500 13900 980 75000 Poit.-Ch 159000 3682 2580900 4459800 13300 1010 75000 Pr.-Cte 426000 3496 3140000 13255200 61000 1100 230000 Rh.-Alpe 535000 3944 4869800 15963400 147400 740 250000 Légende : POPUL : Population de la région en milliers d individus. TACT : Taux d activité (population active /population totale de la région) en %. SUPERF : superficie de la région NBENTR : nombre d entreprises NBNREV : Nombre de brevets déposés au cours de l année CHOM : Taux de chômage, en %. TELEPH : Nombre de lignes téléphoniques en place dans la région, en milliers. Etape 2 : Calcul d une matrice de corrélation entre variables initiales Les différentes corrélations entre les variables initiales doivent être calculées et regroupées dans une matrice afin de savoir si le calcul d une ACP a un sens ou non. En effet l ACP crée les nouvelles variables en groupant les variables initiales selon leur corrélation, et chaque groupe de variables initiales corrélées est remplacé par une nouvelle variable (qui est définie comme une combinaison linéaire des variables corrélées de ce groupe). Donc si les initiales sont totalement indépendantes les unes des autres (non corrélées), l ACP ne peut pas être appliqué dans ce cas là. Procédure de calcul de la matrice des corrélations : Page 3/7

Dans le menu Analyse Choisir la commande Corrélations/Indice. Sélectionner les sept variables et déplacer les dans la zone Variables. Dans la zone Calcul des indices choisir Entre variables. Dans la, zone Mesure sélectionner Similarités. Cliquer sur Mesures. Dans la zone Mesure sélectionner Intervalle et Corrélation de Pearson. Dans la zone Transformer les valeurs Sélectionner la standardisation Centrer-réduire : Pour transformer les variables de sorte à ce que leurs moyennes soient égales à 0 (variables centrées) et leurs variances égales à 1 (variables réduites). En utilisant des variables centrées et réduites aucune variable n aura un poids plus important que les autres dans la construction des nouvelles variables. Cliquer successivement sur Poursuivre et OK. Page 4/7

Dans la matrice des corrélations (appelée Matrice de proximité) ci-dessus on peut distinguer trois cas : des corrélations élevées proches de 0,8-0,9 indiquant le premier groupe de variables corrélées (qui va constituer la première nouvelle variable appelée facteur ou dimension). Deux variables faiblement corrélées avec les autres (CHOM et TACT) mais assez corrélées entre elles (r=0,76), qui constituent la deuxième dimension. Enfin la variable SUPERF est corrélée avec le premier groupe, mais plus faiblement (r entre 0,5 et 06), elle pourrait constituer la troisième dimension. Etape 3 : Calcul des facteurs (nouvelles variables) L ACP construit des combinaisons linéaires des variables de départ, en regroupant les variables corrélées. Procédure de calcul de l ACP avec SPSS : Dans le menu Factorisation sélectionner la commande Analyse factorielle ( L ACP est une méthode d analyse factorielle, on appelle ainsi les méthodes descriptives qui créent de nouvelles variables appelées facteurs en calculant des combinaisons linéaires des variables de départ). Sélectionner toutes les variables et déplacer les dans la zone V variables. Cliquer sur le bouton Caractéristiques et cocher la case Coefficients dans la zone Matrice des corrélations ( Pour avoir la matrice des coefficients de corrélation dans la fenêtre des résultats de l ACP, qui sera identique à celle obtenue dans l étape précédente) Cliquer sur le bouton Extraction. Page 5/7

Sélectionner la méthode Composantes principales Dans la zone Extraire on fixe la manière dont SPSS doit sélectionner les nouvelles variables appelées composantes ou facteurs. Le premier choix valeurs propres supérieures à nous offre la possibilité de sélectionner uniquement les composantes dont la variance est supérieure à une valeur, dans le second choix on fixe le nombre de nouvelles variables à retenir. Dans la zone Afficher sélectionner Graphique des valeurs propres (pour afficher un graphique représentant la variance des composantes). Interprétation des résultats de l ACP : La matrice de corrélation : Cette matrice est identique à celle obtenue dans l étape 2 (appelée Matrice de proximité). Variance des composantes principales ou facteurs SPSS a calculé 7 composantes principales ou facteurs, la première par exemple a une valeur propre ( variance) de 4,158 qui représente 59,39 % de la variance des variables initiales, les trois premières composantes représentent donc 95% de la variance des variables initiales Page 6/7

Il faut choisir un nombre de composantes suffisant pour résumer les variables avec une perte d information minimale. Pour le choix du nombre des composantes à retenir il existe deux critères : Valeur propre ou (critère de Kaiser) : les variables initiales ont une variance égale à 1, puisqu elles sont réduites. On retient les composantes dont la variance est supérieure à 1, parce qu elles apportent plus d information (variance) que les variables de départ. Utilisation du graphique des valeurs propres (Scree-test): On relier par une droite les points presque alignés, en partant de la dernière composante, le nombre de composantes à retenir est alors représenté par les points ne figurant pas sur la droite. En utilisant le critère de Kaiser SPSS a retenu 2 composantes : qui restituent 86,521 % de la variance des variables de départ. En utilisant le critère du Scree-Test d après le graphique des valeurs propres les composantes 4,5,6 et 7 peuvent être considérées comme alignés sur une même droite, donc les composantes à retenir sont les composantes 1,2 et 3 qui restituent 95% de la variance des valeurs initiales. Donc si vous voulez opter pour l utilisation du Scree-Test, il faut refaire l ACP et dans la fenêtre Extraction il faut sélectionner Nombre de facteurs : 3 ( et non l option valeurs propres supérieures à : 1). Page 7/7