Analyse en Composantes Principales avec XLSTAT



Documents pareils
Logiciel XLSTAT version rue Damrémont PARIS

Gestion de projets. avec. Microsoft Office PROJECT 2003

Date de diffusion : Rédigé par : Version : Mars 2008 APEM 1.4. Sig-Artisanat : Guide de l'utilisateur 2 / 24

Les tableaux croisés dynamiques

LE TABLEUR OPENOFFICE CALC : CONTRÔLES DE FORMULAIRES ACCÈS AUX BASES DE DONNÉES

Automatisation d'une Facture 4. Liste Déroulante Remises Case à cocher Calculs

GUIDE D UTILISATION DE L ISU SEPTEMBRE 2013 GUIDE D UTILISATION DU NAVIGATEUR UIS.STAT (VERSION BÊTA)

Publipostage avec Calc

Valeur cible et solveur. Les calculs effectués habituellement avec Excel utilisent des valeurs numériques qui constituent les données d'un problème.

OSIRIS/ Valorisation des données PORTAIL BO MANUEL UTILISATEUR

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

LibreOffice Calc : introduction aux tableaux croisés dynamiques

La gestion des boîtes aux lettres partagées

Exemples de Projets SAFI

1 Gestionnaire de Données WORD A4 F - USB / / 6020 Alco-Connect

Affectation standard Affectation modifiée (exemple)

YAPBA M. Logiciel libre de suivi de vos comptes

Table of contents 2 / 58

Affichage de la date d'exigibilité sur les documents FAQ INV 011

1. Introduction Création d'une macro autonome Exécuter la macro pas à pas Modifier une macro... 5

Freeway 7. Nouvelles fonctionnalités

Utilisation de GalaxShare

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

OneDrive, le cloud de Microsoft

Guide d utilisation de fonctionnalités avancées de Beyond 20/20 (application à des données départementales issues de Sit@del2)

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

MS PROJECT Prise en main. Date: Mars Anère MSI. 12, rue Chabanais PARIS E mail : jcrussier@anere.com Site :

Table des matières. Table des matières

les Formulaires / Sous-Formulaires Présentation Créer un formulaire à partir d une table...3

1- Enregistrer le nouveau planning

1 Presentation du bandeau. 2 Principe de création d un projet : C2 industrialisation Apprendre Gantt project Ver 2.6 planifier

POUR ALLER UN PEU PLUS LOIN SUR UN TABLEUR. Version EXCEL

1 - Clients 2 - Devis 3 - Commandes 4 - Livraisons 5 - Factures 6 - Avoirs 7 - Modèles

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Evaluation de la variabilité d'un système de mesure

Guide d'utilisation de l'accès Web SAP BusinessObjects Financial Consolidation

Qlik Sense Cloud. Qlik Sense Copyright QlikTech International AB. Tous droits réservés.

MEDIAplus elearning. version 6.6

1. Création d'un état Création d'un état Instantané Colonnes Création d'un état Instantané Tableau... 4

Navigation dans Windows

PREMIERS PAS SUR PUBMED

INTRODUCTION GENERALE...1 LA CONNEXION ODBC :...1. CONNEXION AU TRAVERS D EXCEL(tm)...6. LOGICIEL QUANTUM GIS (Qgis)... 10

Business Intelligence simple et efficace

REPUBLIQUE TUNISIENNE MINISTERE DE L EDUCATION ET DE LA FORMATION. 4 ème année de l enseignement secondaire Section : Economie et Gestion.

MANUEL TBI - STARBOARD

A. Introduction. Chapitre 7

Guide de l'utilisateur : Surveillance MédiaSource Analytique

Google Drive, le cloud de Google

Le transfert de fichiers avec Filezilla Initiation à l'utilisation d'un client FTP

Cours Access 1) INTRODUCTION AU SGBD...4 2) LES TABLES...4

Statistiques descriptives sous Excel. Lætitia Perrier Bruslé Cours de statistique descriptive sous Excel

Le service d'agenda en ligne SOGo

Guide de démarrage Janvier 2012

Uniformiser la mise en forme du document. Accélère les mises à jour. Permets de générer des tables de matières automatiquement.

Utiliser un tableau de données

L'assistance à distance

Livret Cours Microsoft office 2007 Tableur Excel Perfectionnement

WHS ProRealTime. édition

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

GUIDE DE DEMARRAGE RAPIDE:

MODE OPERATOIRE OPENOFFICE BASE

Université de Picardie - Jules Verne UFR d'economie et de Gestion

Installation et utilisation de Cobian Backup 8

BADPLUS V5 MANUEL D'UTILISATION. Imports de données joueurs à partir de la base fédérale en ligne Poona. Stéphan KIEFFER - Dominique BOSSERT

Traitement par lot redimensionner des images

Il se peut que certains sites Web ne s'affichent pas correctement ou ne fonctionnent pas dans Internet Explorer 8 ou Internet Explorer 9 Bêta :

Le générateur d'activités

Travaux pratiques avec RapidMiner

Manuel utilisateur logiciel Salles. Version 1.1

Grain Tracker Manuel d'utilisation

Guide d'utilisation. Centre des ressources Demande électronique de matériel publicitaire. Juin 2005

Formation à l'administration de votre site E-commerce Page 1 sur 15

Création d'un site neutre et présentation des éléments de la page d'accueil

Le modèle de données

MUNIA Manuel de l'utilisateur

SIG ET ANALYSE EXPLORATOIRE

Comment Utiliser les Versions, les Modification, les Comparaisons, Dans les Documents

Tutorial et Guide TeamViewer

Tutoriel Adobe Acrobat Pro (version 9.0.0) Créer les fichiers PDF de la thèse. Service Commun de la Documentation Service des thèses

Analyse tarifaire en ligne (TAO) de l'omc

Utilisation du logiciel ModellingSpace

INSERER DES OBJETS - LE RUBAN INSERTION... 3 TABLEAUX

McAfee Security-as-a-Service

Tutoriel Inscription et utilisation basique d'un blog hébergé chez Blogger.com

Gérer ses fichiers et ses dossiers avec l'explorateur Windows. Février 2013

C RÉATION DE PDF (1) Cours SEM 205 Mieux utiliser le format PDF

Java 7 Les fondamentaux du langage Java

GUIDE D UTILISATION DU BROWSER DE BEYOND 20/20

Tutoriel TYPO3 pour les rédacteurs

Netissime. [Sous-titre du document] Charles

Activité 11 : Nuage de points ou diagramme de dispersion

Cours Modélisation et Programmation avec tableur

Partager la connexion Internet de son te le phone portable

Alfresco Guide Utilisateur

Qlik Sense Desktop. Qlik Sense Copyright QlikTech International AB. Tous droits réservés.

Installation et paramétrage. Accès aux modèles, autotextes et clip- art partagés

Trier les ventes (sales order) avec Vtiger CRM

Transcription:

Analyse en Composantes Principales avec XLSTAT Une feuille Excel contenant à la fois les données et les résultats peut-être téléchargée en cliquant ici. Les données proviennent du US Census Bureau (le fichier original peut-être obtenu sur http://eire.census.gov/popest/states_dataset.csv). Elles correspondent à la mesure de paramètres démographiques dans 51 Etats des Etats-Unis en 2000 et 2001. Dans le cadre de ce tutoriel, seules les données de l'année 2001 ont été conservées, et afin de supprimer les effets d'échelle, les variables initiales ont été converties en taux pour 1000 habitants. Le but est ici d'analyser les corrélations entre les variables et d'identifier des états se différenciant fortement des autres. Ces données sont aussi utilisées pour le tutoriel de la Classification Ascendante Hiérarchique (CAH). L'ACP est une méthode très efficace pour l'analyse de données quantitatives (continues ou discrètes) se présentant sous la forme de tableaux à M observations / N variables. Elle permet de : visualiser et analyser rapidement les corrélations entre les N variables, visualiser et analyser les M observations initialement décrites par N variables sur un graphique à deux ou trois dimensions, construit de manière à ce que la dispersion entre les données soit aussi bien préservée que possible, construire un ensemble de P facteurs non corrélés (P<=N) qui peuvent ensuite être réutilisés par d'autres méthodes (la régression par exemple). Les limites de l'acp viennent du fait que c'est une méthode de projection, et que la perte d'information induite par la projection peut entraîner des interprétations erronées. Des astuces permettent cependant d'éviter ces inconvénients. Une fois qu'xlstat-pro est activé, cliquez sur le menu XLSTAT/Analyse de données/analyse en Composantes Principales, ou cliquez sur le bouton correspondant de la barre "Analyse de données" (voir cidessous). Une fois le bouton cliqué, la boîte de dialogue correspondant à l'analyse en composantes principales apparaît. Vous pouvez alors sélectionner les données sur la feuille Excel. Il y a plusieurs façon de sélectionner les données dans la boîtes de dialogue XLSTAT (voir le tutoriel sur le sujet). Dans l'exemple étudié ici les données commencent dès la première ligne; il est donc plus rapide de choisir le mode de sélection par colonnes. C'est pourquoi dans la boîte de dialogue ci-dessous, les sélections apparaissent sous forme de colonnes. Toutes les options par défaut de la boîte de dialogue sont laissées telles quelles. L'option "Libellés présents" est activée, car la première ligne de données contient le nom des variables. Le "Type" choisi ici est "Obs/Variables" car c'est le bien le format des données de départ. Les autres possibilités sont "Matrice des corrélations" ou "Matrice de covariance". Le "Type de matrice " choisi est Pearson, ce qui signifie que les calculs seront basés sur une matrice composée des coefficients de corrélations de Pearson, qui est le coefficient de corrélation communément utilisé.

Les calculs commencent lorsque vous cliquez sur le bouton "OK". Si vous avez choisi dans le panneau des options XLSTAT l'option "saisie assistée", XLSTAT vous demande de confirmer le nombre de lignes et de colonnes. Ensuite une boîte de dialogue vous présente les options pour l'affichage des graphiques. Nous choisissons ici d'afficher les libellés sur l'ensemble des graphiques. Lorsqu'il y a beaucoup d'individus (de lignes), l'affichage des libellés peu être considérablement ralentir l'affichage des résultats. Vous avez cependant la possibilité dans ce cas de n'afficher qu'un sous-ensemble des individus. Puis une nouvelle boîte vous permet de choisir. Dans notre cas, le % de variabilité représenté par les deux premiers facteurs n'est pas particulièrement élevé (67.72%) ; pour éviter une mauvaise interprétation des graphiques, un affichage sur les axes 1 et 3 est donc demandé. Le premier résultat intéressant à analyser est la matrice des corrélations. On remarque le résultat évident que les taux de la proportion de gens étant agés de plus et moins de 65 ans sont parfaitement corrélés (r = -1). Les deux variables sont donc redondantes. On remarque l'immigration provenant d'autres états des USA est très peu corrélée avec les autres variables, y compris avec l'immgration provenant de pays étrangers. Cela indique que les raisons d'immigration sont sûrement différentes pour les deux populations concernées.

Le tableau suivant et le graphique associé sont liées à un objet mathématique, les valeurs propres, qui sont heureusement liées à un concept très simple : la qualité de la projection lorsque l'on passe de N dimensions (N étant le nombre de variables, ici 7) à un nombre plus faible de dimensions. Dans notre cas, on voit que la première valeur propre vaut 3.567 et représente 51% de la variabilité. Cela signifie que si l'on représente les données sur un seul axe, alors on aura toujours 51% de la variabilité totale qui sera préservée. A chaque valeur propre correspond un facteur. Chaque facteur est en fait une combinaison linéaire des variables de départ. Les facteurs ont la particularité de ne pas être corrélés entre eux. Les valeurs propres et les facteurs sont triés par ordre décroissant de variabilité représentée. Idéalement, les deux premières valeurs propres correspondent à un % élevé de la variabilité, si bien que la représentation sur les deux premiers axes factoriels est de bonne qualité. Dans notre exemple, cela n'est pas tout à fait le cas, d'où la nécessité de valider les hypothèse formulées par l'utilisation des graphiques sur les facteurs F1 et F2 d'une part, et F1 et F3 d'autre part. Nous voyons ici que le nombre de facteurs est 6, alors que nous avions au départ 7 variables. Cela est dû aux deux variables redondantes. On comprend bien que l'information puisse être synthétisée sur 6 dimensions. Le nombre de dimensions "utiles" maximum est automatiquement détecter par la méthode utilisée. Le premier graphique particulier à la méthode est le cercle des corrélations (voir ci-dessous le cercle sur les axes F1 et F2). Il correspond à une projection des variables initiales sur un plan à deux dimensions constitué par les deux premiers facteurs. Lorsque deux variables sont loin du centre du graphique, alors si elles sont : proches les unes par rapport aux autres, alors elles sont significativement positivement corrélées (r proche de 1), orthogonales les unes par rapport aux autres, alors elles sont significativement non-corrélées (r proche de 0), symétriquement opposées par rapport au centre, alors elles sont significativement négativement corrélées (r proche de -1). Lorsque les variables sont relativement proches du centre du graphique, alors toute interprétation est hasardeuse, et il est nécessaire de se réferrer à la matrice de corrélations à d'autres plans factoriels pour

interpréter les résultats. Dans notre exemple, nous pourrions déduire du graphique ci-dessous que les variables Immigration domestique, et Immigration Internationale sont corrélées, alors qu'elles ne le sont pas, ce que l'on peut voir sur la matrice des corrélations ou sur le cercle des corrélations sur les axes F1 et F3. En revanche, on voit bien la forte corrélation entre le taux de mortalité et le taux de personnes dont l'âge est supérieur à 65 ans. Le cercle des corrélations est aussi utile pour interpréter la signification des axes. Dans notre cas, l'axe F1 est clairement lié à l'âge de la population et à son renouvellement, alors que l'axe F2 est essentiellement lié à l'immigration domestique. Ces tendances sont particluièrement intéressantes à dégager pour l'interprétation du graphique des individus (voir ci-dessous). Pour confirmer le fait qu'une variable est fortement liée à un facteur, il suffit de consulter la table des cosinus : plus le cosinus est élevé (en valeur absolue), plus la variable et liée à l'axe. Plus le cosinus est proche de zéro, moins la variable est liée à l'axe. Dans notre cas, nous voyons que ce qui concerne l'immigration internationale sera mieux interprétée sur les F2/F3. Le graphique ci-dessous correspond à l'un des objectifs de l'acp. Il permet de représenter les individus sur une carte à deux dimensions, et ainsi d'itenfier des tendances. On voit dans notre exemple que sur la base des variables démographiques dont on dispose, le Nevada et la Floride sont assez particuliers, de même que l'utah et Alaska qui semblent partager des caractéristiques : en regardant les données, on s'aperçoit que ces deux états ont une population nettement plus jeune que la moyenne, et une natalité très élevée.

L'Analyse en Composantes Principales est souvent utilisée avant une régression car elle permet d'éviter d'utiliser des variables redondantes, ou avant une classification car elle permet d'identifier la structure de la population et éventuellement de déterminer le nombre de groupes à construire. Les données utilisées dans ce tutoriel sont aussi utilisées dans le tutoriel sur la Classification Ascendante Hiérarchique. En tenant compte des remarques faites ci-dessus, la variable "pop >65" a été supprimée afin de ne pas rendre le poids des variables liées à l'âge trop important pour le regroupement des états.