Analyse de données avec R Complémentarité des méthodes d'analyse factorielle et de classification. 2 L'analyse de données avec R

Documents pareils
La classification automatique de données quantitatives

SIG ET ANALYSE EXPLORATOIRE

Les marchés de l immobilier à l international. Évolutions, structures et performances

L'analyse de données. Polycopié de cours ENSIETA - Réf. : Arnaud MARTIN

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Introduction à l'analyse multivariée (factorielle) sous R. Stéphane CHAMPELY

Optimiser le. succès. de vos nominations grâce à une solution. fiable, indépendante et globale

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

REQUEA. v PD 20 mars Mouvements d arrivée / départ de personnels Description produit

Conditions : stage indemnisé, aide au logement possible, transport CEA en Ile-de-France gratuit.

L immobilier de bureaux en Europe 2010 : une parenthèse dans la crise

PRODIGE V3. Manuel utilisateurs. Consultation des métadonnées

(VM(t i ),Q(t i+j ),VM(t i+j ))

ESIEA PARIS

BASE. Vous avez alors accès à un ensemble de fonctionnalités explicitées ci-dessous :

MS PROJECT Prise en main. Date: Mars Anère MSI. 12, rue Chabanais PARIS E mail : jcrussier@anere.com Site :

La stabilité des prix : pourquoi est-elle importante pour vous? Brochure d information destinée aux élèves

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Types de REA produites dans le cadre de la séquence pédagogique

ProSimPlus HNO3 Résumé des nouvelles fonctionnalités, décembre 2008

Introduction. Préambule. Le contexte

La segmentation à l aide de EG-SAS. A.Bouhia Analyste principal à la Banque Nationale du Canada. Chargé de cours à l UQAM

Logiciel XLSTAT version rue Damrémont PARIS

MODELISATION UN ATELIER DE MODELISATION «RATIONAL ROSE»

Spécifications, Développement et Promotion. Ricco RAKOTOMALALA Université Lumière Lyon 2 Laboratoire ERIC

La place de SAS dans l'informatique décisionnelle

KOMPAS Groupe international

Contrôle parental NetAddictFree 8 NetAddictFree 8 - Guide d utilisation

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Mémo d utilisation de ADE-4

Business Intelligence avec SQL Server 2012

TEXT MINING von 7

Etudes des nuages et de la convection autour des dépressions intenses des moyennes latitudes

Introduction à Business Objects. J. Akoka I. Wattiau

1 TD 2 : Construction d'une chier Acrobat et envoi par

LE CONSEIL EN STRATÉGIE

MABioVis. Bio-informatique et la

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

SAP BusinessObjects Web Intelligence (WebI) BI 4

Algorithmes d'apprentissage

GUIDE DE DÉMARRAGE SOMMAIRE INTRODUCTION 1. SUIVI DE CAISSE PRÉSENTATION DU CALENDRIER PRINCIPES DE SAISIE N GESTIONSAISIE D'UNE JOURNÉE DE CAISSE

MEGA Application Portfolio Management. Guide d utilisation

Date de diffusion : Rédigé par : Version : Mars 2008 APEM 1.4. Sig-Artisanat : Guide de l'utilisateur 2 / 24

SweetyPix, mode d'emploi

Artica. La déduplication. Révision Du 08 Février 2011 version

Travaux pratiques avec RapidMiner

LibreOffice Calc : introduction aux tableaux croisés dynamiques

CONSTRUIRE SES CARTES: LE DÉVELOPPEMENT D'OUTILS STATISTIQUES INTERACTIFS INTÉGRÉS À UN SYSTÈME D'INFORMATION GÉOGRAPHIQUE

Guide de démarrage Janvier 2012

Baccalauréat technologique

Tarifs. En vigueur à partir du 1 janvier 2015

Gestionnaire de procédure Guide rapide

Gestion de projets. avec. Microsoft Office PROJECT 2003

BANQUES DE DONNÉES PÉDAGOGIQUES

Analyse des correspondances avec colonne de référence

Documentation sur l importation en lot d utilisateurs sur la plateforme Via

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

Extraction d informations stratégiques par Analyse en Composantes Principales

Premiers pas sur e-lyco

IFT2255 : Génie logiciel

FileMaker Server 13. Guide de configuration de l'installation réseau

«Vous éditez, nous archivons!»

Les tarifs T.T.C. Les salles. Les forfaits séjours séminaires. La restauration. Les conditions générales de vente

COPENHAGUE, AVANT ET APRÈS ENJEUX ET PERSPECTIVES POUR LES ENTREPRISES. Novembre 2009

Aider à la décision. - La matrice d Eisenhower - Le diagramme de Pareto - Les arbres d objectifs - Le diagramme d affinités - La méthode Philips 6.

Stages ISOFT : UNE SOCIETE INNOVANTE. Contact : Mme Lapedra, stage@isoft.fr

La Clé informatique. Formation Excel XP Aide-mémoire

1 - PRESENTATION GENERALE...

Université de Bangui. Modélisons en UML

Cours Langage C/C++ Programmation modulaire

Personnalisation Fiche Annuaire

Installation et prise en main

Litera. Caisson Universel. La meilleure manière de ranger tout ce dont vous avez besoin au bureau. steelcase.com

Scénario: Données bancaires et segmentation de clientèle

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Introduction : présentation de la Business Intelligence

Sybase PowerAMC 16. Guide des nouvelles fonctionnalités générales. DOCUMENTATION

Bien programmer. en Java ex. couleur. Avec plus de 50 études de cas et des comparaisons avec C++ et C# Emmanuel Puybaret.

RÉALISATION DE GRAPHIQUES AVEC OPENOFFICE.ORG 2.3

CLAVIER VoIP IP-TALKY Modèle : KIP-800 Réf. : KT540

Guide de démarrage rapide

«ACTopen» ... La solution dans sa globalité vous permettra d'administrer et de piloter votre entreprise de manière optimale.

CAP BOX Note utilisateurs

LA RECHERCHE DOCUMENTAIRE

Qu'est-ce que le BPM?

Table des matières. 10 Gimp et le Web. Option de traitement d'images Mémento pour la séance N o Création d'animation

Hay Group Spectrum. La nouvelle génération de solutions en RH

Manuel d utilisation. Copyright 2012 Bitdefender

Agrégation des portefeuilles de contrats d assurance vie

Solutions Décisionnelles SPAD. La maîtrise des données, l'art de la décision

OSIRIS/ Valorisation des données PORTAIL BO MANUEL UTILISATEUR

Utiliser le logiciel CALIBRE pour gérer vos documents et les convertir au format epub

- Le Diagramme de Gantt. - Le Diagramme de Pert - La Méthode QQCQCCP - La Méthode MOSI - Cahier des charges fonctionnel

Planification financière

Deuxième partie. Approche globale d'implémentation d'un projet PLM

Transcription:

Analyse de données avec R Complémentarité des méthodes d'analyse factorielle et de classification François Husson, Julie Josse & Jérôme Pagès Laboratoire de mathématiques appliquées - 65 rue de St-Brieuc - 35042 Rennes cedex husson@agrocampus-ouest.fr Mots-clés : Analyse factorielle, ACP, ACM, AFM, classication, partitionnement Keywords: Exploratory Data Analysis, PCA, MCA, MFA, classication, clustering 1 Introduction L'objectif de cet exposé est de présenter les fonctionnalités disponibles sur R en analyse de données. R est un langage [3] gratuit en pleine expansion et de plus en plus utilisé tant par le monde de l'entreprise, de l'enseignement et de la recherche. La spécicité de l'analyse des données à la française est présente dans ce logiciel grâce à plusieurs bibliothèques de fonctions. Dans une première partie de l'exposé, on montrera comment mettre en uvre, sous R, des méthodes d'analyses factorielles classiques (ACP, AFC ou ACM) et plus avancées (Analyse factorielle Multiple ou AFM Hiérarchique) à partir du package FactoMineR. Dans une seconde partie, on se focalisera sur la complémentarité des méthodes d'analyses factorielles et de classication pour visualiser des données. 2 L'analyse de données avec R 2.1 Le package FactoMineR Le package FactoMineR est dédié à l'analyse de données. Les méthodes les plus classiques d'analyse de données y sont programmées: Analyse en Composantes Principales (fonction PCA), Analyse Factorielle des Correspondances (CA), Analyse Factorielle des Correspondances Multiples (MCA) et construction ascendante d'une hiérarchie (HCPC). Des méthodes plus avancées sont également disponibles et permettent de prendre en compte une structure sur les variables ou sur les individus: Analyse Factorielle Multiple ( MFA), Analyse Factorielle Multiple Hiérarchique (HMFA) ou Analyse Factorielle Multiple Duale (DMFA). Dans chaque méthode, il est possible d'ajouter des éléments supplémentaires: individus, variables quantitatives et/ou qualitatives. Pour chacune de ces analyses, de nombreuses aides à l'interprétation sont fournies: qualité de représentation, contribution pour les individus et les variables. Les représentations graphiques sont au centre de chacune des analyses et de nombreuses options graphiques sont disponibles: colorier les individus en 1

fonction d'une variable qualitative, ne représenter que les variables les mieux projetées sur les plans factoriels, etc. Des fonctions permettent d'aider à l'interprétation des dimensions factorielles (dimdesc ou à l'interprétation des classes catdes). Le site http://factominer.free.fr est dédié à FactoMineR et le livre Analyse de données avec R [2] détaille ces méthodes et présente de nombreuses études de cas. Le menu déroulant. Toutes les méthodes peuvent être mises en uvre à l'aide d'une interface graphique qui s'installe grâce à la ligne de code suivante: > source("http://factominer.free.fr/install-facto.r") Ce menu déroulant permet une mise en uvre instantanée des méthodes, sans connaissances préalables du logiciel R. Il permet aussi de s'approprier le langage en fournissant les lignes de code associées à chaque action. Figure 1: Menu de FactoMineR et fenêtre principale de l'acp. La gure 1 présente le menu de FactoMineR et celui de l'acp. Des choix par défaut sont faits, mais ils peuvent être modiés: aucun variable qualitative et quantitative supplémentaire, aucun individu supplémentaire, les résultats sur les 5 premières dimensions sont fournis (objet res), les variables sont normées et les graphiques sont fournis pour 2

le plan principal (axes 1 et 2). L'onglet Apply lance l'analyse en conservant la fenêtre ouverte, ce qui permet de modier certaines options sans refaire le paramétrage (cf. [1] ou [2] pour plus de détails). De nombreuses options graphiques sont également disponibles. 2.2 Quelques autres packages De nombreux packages permettent de faire de l'analyse des données. Ils sont listés ainsi que leurs principales caractéristiques à l'adresse suivante: http://cran.r-project.org/ web/views/multivariate.html. Citons les principaux: ade4 contient de nombreuses fonctions pour le traitement de données écologiques; ca est focalisée sur l'analyse des correspondances; cluster est dédiée aux méthodes de classication. 3 Classication et analyse factorielle Classication automatique et analyse factorielle s'inscrivent dans une même perspective (l'analyse exploratoire d'un tableau rectangulaire) et dièrent selon le mode de représentation (nuage euclidien, hiérarchie indicée ou partition). D'où l'idée de combiner les approches pour obtenir une méthodologie riche, qualité essentielle en statistique exploratoire car le fait de disposer de plusieurs points de vue ne peut que renforcer la solidité des conclusions. Dans ce cas, on utilise pour chaque méthode la même distance (euclidienne) entre individus. 3.1 L'analyse factorielle comme prétraitement de la classication Cas de variables quantitatives. L'ACP permet d'obtenir des composantes principales qui sont des variables synthétiques (dimensions) orthogonales. Elle peut aussi être présentée comme la décomposition des données en un signal plus du bruit, les premières dimensions correspondant au signal et les dernières au bruit. De ce fait, l'acp peut servir de prétraitement à la classication: seules les premières dimensions sont conservées pour calculer de nouvelles distances entre individus. Sans le bruit, la classication est plus robuste que celle obtenue sur les distance initiales. Ainsi, la forme du haut de l'arbre hiérarchique est plus stable. Cas de variables qualitatives ou mixtes. La classication d'individus décrits par des variables qualitatives est un vaste domaine d'étude et de nombreuses mesures de ressemblance existent. Cependant, ces méthodes sont diciles à mettre en uvre et en pratique il est courant d'utiliser l'acm comme prétraitement: les variables qualitatives 3

sont transformées en composantes principales, c-à-d en variables quantitatives. La classication est construite à partir des (premières) dimensions factorielles. De même, si des variables quantitatives et qualitatives sont disponibles simultanément, elles peuvent être prétraitées par l'analyse Factorielle de Données Mixtes. Prise en compte d'une structure sur les variables. Dans certaines situations, les variables sont structurées en groupes ou il existe une hiérarchie sur les variables. C'est le cas, par exemple, des questionnaires structurés en thèmes (et sous-thèmes). L'Analyse Factorielle Multiple (AFM) et l'afm Hiérarchique (AFMH) permettent d'équilibrer l'inuence des groupes (voire des sous-groupes à l'intérieur d'un groupe). Une classication eectuée sur les composantes factorielles de l'afm ou de l'afmh prend alors en compte l'équilibre des groupes dans le calcul de la distance entre individus. 3.2 Choix du nombre de classes à partir de l'arbre hiérarchique Un arbre hiérarchique peut être considéré comme une séquence de partitions emboîtées, de la plus précise (un individu par classe) à la plus grossière (une seule classe). Ainsi, une hiérarchie est extrêmement utile pour déterminer le nombre de classes. Ce choix peut être fait à partir de l'allure générale de l'arbre, du niveau des n uds (ces niveaux peuvent être représentées par un diagramme en barres), du nombre de classes (qui doit être ni trop faible ni trop grand) et de l'interprétabilité des classes. La fonction HCPC propose un niveau de coupure "optimal" de l'arbre hiérarchique (Fig. 2). 3.3 Complémentarité des trois méthodes pour la visualisation La complémentarité consiste à représenter la hiérarchie ou la partition sur le plan factoriel. Avec une partition, on se limite à la projection du centre de gravité des classes. Une telle représentation enrichit l'interprétation principalement sous deux aspects: on dispose à la fois d'une vision continue (les tendances matérialisées par les axes factoriels) et discontinue (les classes de la classication) du même ensemble de données, le tout dans un cadre unique; le plan factoriel ne fournit aucune information sur la position des points dans les autres dimensions; les classes, établies à partir de l'ensemble des dimensions, apportent sur le plan un peu d'information extérieure au plan ; deux points proches sur le plan pouvant être dans la même classe (et donc pas trop éloignés l'un de l'autre le long des autres dimensions) ou dans deux classes diérentes (parce qu'ils sont éloignés l'un de l'autre le long des autres dimensions). Dans la présentation de l'arbre hiérarchique (Fig. 2), le premier axe de l'acp permet de trier les individus ou les groupes d'individus. Cela facilite la lecture de l'arbre car les individus sont ainsi triés selon leur principale dimension de variabilité. 4

0 1 2 3 4 5 6 7 Hierarchical Clustering Click to cut the tree 0 1 2 3 4 5 6 inertia gain Reykjavik Helsinki Oslo Stockholm Moscou Minsk Kiev Cracovie Copenhague Berlin Prague Sarajevo Sofia Budapest Dublin Londres Amsterdam Bruxelles Paris Madrid Rome Lisbonne Athènes Figure 2: Arbre hiérarchique (individus triés selon leur coordonnée sur la 1 e composante). 4 Exemple: les données de températures On s'intéresse aux températures moyennes mensuelles de 23 capitales européennes. L'ACP normée réalisée sur ces données résume 97 % de l'inertie totale sur les deux premières dimensions (voir graphe des variables, Fig. 3). La classication est réalisée grâce à la Dim 2 (15.4%) -1.0-0.5 0.0 0.5 1.0 Latitude Amplitude Longitude Juin Juillet Mai Août Septembre Avril Moyenne Octobre Novembre Mars Février Décembre Janvier -1.0-0.5 0.0 0.5 1.0 Dim 1 (82.9%) Figure 3: Représentation des variables sur le premier plan factoriel. 5

fonction HCPC: > library(factominer) > temperature <- read.table("http://factominer.free.fr/livre/temperat.csv", header=true, sep=";", dec=".", row.names=1) > res.pca <- PCA(temperat[1:23,1:12], scale.unit=true) > HCPC(res.pca,conso=0) Hierarchical clustering on the factor map height 0 1 2 3 4 5 6 7 cluster 1 cluster 2 cluster 3 Moscou Kiev Minsk PragueSofia Madrid Helsinki OsloCracovie Budapest Athènes Stockholm Berlin Sarajevo Reykjavik Copenhague Paris Rome Bruxelles Dublin Amsterdam Lisbonne Londres -6-4 -2 0 2 4 6 8 Dim 1 (82.9%) -1-2 -3 0 1 2 3 Dim 2 (15.4%) Figure 4: Représentation 3D de l'arbre hiérarchique sur le premier plan factoriel. L'arbre hiérarchique est représenté en trois dimensions sur le plan principal de l'acp (Fig. 4). La fonction ayant proposé un découpage en trois classes, les individus sont colorés en fonction de leur classe d'appartenance. Les classes sont ensuite décrites par les variables quantitatives et/ou qualitatives du jeu de données par la fonction catdes. Bibliographie [1] Cornillon, PA., Guyader, A., Husson, F., Jégou, N., Josse, J., Kloareg, M., Matzner- Løber, E. et Rouvière, L. (2008) Statistique avec R, Edition PUR, Rennes. [2] Husson, F., Lê, S. et Pagès, J. (2009) Analyse de données avec R, Edition PUR, Rennes. [3] R Core Team (2009) R: A Language and Environment for Statistical Computing. 6