Analyses factorielles avec R

Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Statistique Descriptive Multidimensionnelle. (pour les nuls)

MAP 553 Apprentissage statistique

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Statistique : Résumé de cours et méthodes

Analyse des correspondances avec colonne de référence

ESIEA PARIS

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Logiciel XLSTAT version rue Damrémont PARIS

Extraction d informations stratégiques par Analyse en Composantes Principales

ACP Voitures 1- Méthode

L'analyse des données à l usage des non mathématiciens

Filière «Économie et Entreprise» 2015/2016

Maintenabilité d un parc applicatif

La place de SAS dans l'informatique décisionnelle

Installation et utilisation de Cobian Backup 8

1 Complément sur la projection du nuage des individus

Initiation à l analyse en composantes principales

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

La classification automatique de données quantitatives

Cycle de formation certifiante Sphinx

Premiers pas avec SES-Pegase (version 7.0) SES : Un Système Expert pour l analyse Statistique des données. Premiers pas avec SES-Pegase 1

MRK A : Méthodes d Analyse de Données en Marketing Automne 2010

Relation entre deux variables : estimation de la corrélation linéaire

McGILL UNIVERSITY MARTLET CLASSIC UNIVERSITE McGILL CLASSIQUE MARTLET

Analyse en Composantes Principales

PLAN. Ricco Rakotomalala Tutoriels Tanagra - 2

Scénario: Données bancaires et segmentation de clientèle

Chapitre 3. Les distributions à deux variables

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Data mining 1. Exploration Statistique

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

1 Modélisation d être mauvais payeur

Étude de cas Assurance (d après une étude de Philippe Périé, CISIA)

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Aide-mémoire de statistique appliquée à la biologie

Analyse de la variance Comparaison de plusieurs moyennes

SPHINX Logiciel de dépouillement d enquêtes

Statistiques Descriptives à une dimension

Python - introduction à la programmation et calcul scientifique

Exercice du cours Gestion Financière à Court Terme : «Analyse d un reverse convertible»

Probabilités III Introduction à l évaluation d options

SIG ET ANALYSE EXPLORATOIRE

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

La transition école travail et les réseaux sociaux Monica Del Percio

Statistique Descriptive Élémentaire

Introduction à l approche bootstrap

POLICY: FREE MILK PROGRAM CODE: CS-4

Mémo d utilisation de ADE-4

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Introduction à l'analyse multivariée (factorielle) sous R. Stéphane CHAMPELY

AIDE à l utilisation du cédérom «L athlétisme à l école» Niveau Primaire SOMMAIRE

Leçon N 4 : Statistiques à deux variables

CHALLENGE NATIONAL ÉQUIP ATHLÉ

Retrouvez l ensemble des productions et services Gipen sur Ferme comble perdu (EV : avec débord queue de vache) Ferme comble habitable

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Publications, ressources, liens, logiciels,

Avant-après, amont-aval : les couples de tableaux totalement appariés

Gérer sa e-reputation

Exo7. Calculs de déterminants. Fiche corrigée par Arnaud Bodin. Exercice 1 Calculer les déterminants des matrices suivantes : Exercice 2.

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

Exercices Corrigés Premières notions sur les espaces vectoriels

Biostatistiques : Petits effectifs

FORMULAIRE DE STATISTIQUES

INITIATION AU LOGICIEL SAS

Lire ; Compter ; Tester... avec R

Temps forts départementaux. Le calcul au cycle 2 Technique opératoire La soustraction

Syllabus Dossiers d études

TD d économétrie appliquée : Introduction à STATA

GROOBAX. cliquer sur le «G» Cliquer sur «options» Sélectionner le dossier qui contiendra les paramètres => Cliquer A chercher le dossier créé en 2/

4.2 Unités d enseignement du M1

Chapitre 3: TESTS DE SPECIFICATION

L entreprise virtuelle

PARTIE NUMERIQUE (18 points)

Découverte du tableur CellSheet

Introduction. Préambule. Le contexte

En résumé. Un superbe emplacement dans le quartier de Kensington, au centre de Londres, zone 1

Tutoriel Infuse Learning. Créer des quizzes multimédias sur ordinateur ou tablette

Horaire athlétisme mixte Caisses populaires acadiennes (12-13 ans, ans et para 17 ans et moins)

Ricco.Rakotomalala

Lois de probabilité. Anita Burgun

La méthode des scores, particulièrement de la Banque de France

BACHELOR'S DEGREE IN ECONOMICS AND MANAGEMENT

DESCRIPTIF DE MODULE S4 ADG : Mathématique pour la Gestion

Christophe SANNIER

ZOTERO. Installation. Bibliothèque de Pharmacie. Service Formation

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

Enjeux mathématiques et Statistiques du Big Data

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

NEC Virtual PC Center

Manuel d Utilisateur - Logiciel ModAFi. Jonathan ANJOU - Maud EYZAT - Kévin NAVARRO

Logistique, Transports

Projet de Traitement du Signal Segmentation d images SAR

Ce cours introduit l'électrodynamique classique. Les chapitres principaux sont :

Transcription:

Analyses factorielles avec R

Principes généraux Méthodes multivariées : permettent d analyser les relations entre un grand nombre de variables (par opposition aux statistiques univariées et bivariées) Résumer un ensemble de variables par des variables synthétiques Représentations géométriques qui transforment en distance euclidienne des ressemblances statistiques entre profils Source :Escofier, Pagès, 1998

Trois techniques classiques ACP : tableau croisant des individus et des variables numériques ACF : tableaux de fréquence ACM : tableaux croisant des individus et des variables qualitatives Un même principe : on construit 2 nuages de point, l un représentant les lignes (les individus), l autre représentant les colonnes (les variables) Il ya bien sur une association très forte entre ces deux nuages Source :Escofier, Pagès, 1998

Analyses en Composantes Principales (ACP) S applique à des tableaux à 2 dimensions croisant individus et variables Individus en ligne, variable en colonnes A propos de 2 individus, on essaie d évaluer leur ressemblance : deux individus se ressemblent d autant plus qu ils possèdent des valeurs proches pour l ensemble des variables A propos de 2 variables, on évalue leur liaison à partir du coefficient de corrélation linéaire Source :Escofier, Pagès, 1998

Objectifs Bilan des relations entre individus Quels sont les individus qui se ressemblent? Peut-on mettre en évidence une typologie des individus? Bilan des relations entre variables Quelles variables sont corrélées entre elles? Peut on mettre en évidence une typologie des variables? Résumer l ensemble des variables par des variables synthétiques appelées composantes principales Source :Escofier, Pagès, 1998

Nuage des individus (1) Impossible de représenter le nuage (nb de dimensions bien supérieure à 3) On cherche à fournir des images planes On cherche des axes factoriels qui pris 2 à 2 vont former des axes factoriels Chaque direction est orthogonale aux axes précédents On parle aussi des principaux facteurs de variabilité, dans la mesure où ils rendent compte le plus possible de la diversité des individus Source :Escofier, Pagès, 1998

Nuage des individus (2) Les axes rendent minimum l écart entre le nuage des individus et sa projection La projection ne pouvant que réduire la distance entre points, les axes factoriels apparaissent comme les directions telles que les distances entre les points projetés ressemblent le plus possibles aux distances entre les points homologues de NI Source :Escofier, Pagès, 1998

Nuage des variables (1) Ce sont les angles entre les vecteurs représentant les variables qui sont peu déformés par les projections et non pas les distances entre les points On met en évidence une suite de variables synthétiques, les composantes principales, non corrélées entre elles, qui résument au mieux l ensemble de variables initiales Source :Escofier, Pagès, 1998

Nuage des variables (2) Deux individus situés à une même extrémité d un axe sont proches car ils ont tous deux généralement de fortes valeurs pour les variables situées du même côté qu eux et de faibles variables situées à l opposé Source :Escofier, Pagès, 1998

Applications sur R Utilisation du plugin FactomineR de Rcmdr Développé par le département de mathématiques de l agrocampus de Rennes Installation source("http://factominer.free.fr/install-facto-fr.r") Lancer FactoMineR puis Rcommander

Tutoriel http://factominer.free.fr/classicalmethods/analyse-en-composantesprincipales.html Tutoriel: http://factominer.free.fr/classical-methods/analysedes-correspondances-multiples.html data(decathlon) data(tea)

Dim 2 (17.37%) -1.0-0.5 0.0 0.5 1.0 Variables factor map (PCA) X400m Discus X1500m Javeline X100m X110m.hurdle Rank Pole.vault Shot.put High.jump Points Long.jump -1.0-0.5 0.0 0.5 1.0 Dim 1 (32.72%)

Dim 2 (17.37%) -4-2 0 2 4 Individuals factor map (PCA) Casarsa Korkizoglou YURKOV Parkhomenko Zsivoczky Smith Macey Pogorelov MARTINEAUHERNU SEBRLE KARPOV BOURGUIGNON Turi Terek CLAY Uldal Barras BARRAS McMULLEN Schoenbeck Hernu Bernard Karlivans Qi BERNARD Ojaniemi ZSIVOCZKY Smirnov Schwarzl Gomez Lorenzo Averyanov WARNERS Nool NOOL Warners Sebrle Clay Karpov Drews -6-4 -2 0 2 4 6 Dim 1 (32.72%)

Shot put : lancer de poids Discuss throw : lancer de disque Pole vault : saut à la perche

Les deux premières dimensions contiennent 50% de la variance. La variable "X100m" est négativement corrélée à la variable "long.jump". Quand un ahtlète réalise un temps faible au 100m, il peut sauter loin. Il faut faire attention ici qu'une petite valeur pour les variables "X100m", "X400m", "X110m.hurdle" et"x1500m" correspond à un score élevé : plus un athlète court rapidement, plus il gagne de points. Le premier axe oppose les athlètes qui sont "bons partout" comme Karpov pendant les Jeux Olympiques à ceux qui sont "mauvais partout" comme Bourguignon pendant le Décastar. Le deuxième axe oppose les athlètes qui sont forts (variables "Discus" et "Shot.put") à ceu qui ne le sont pas. Les variables "Discus", "Shot.put" et "High.jump" ne sont pas très corrélées aux variables "X100m", "X400m", "X110m.hurdle" et "Long.jump". Cela signifie que force et vitesse ne sont pas très corrélées. A l'issue de cette première approche, on peut diviser le premier plan factoriel en quatre parties : les athlètes rapides et puissants (comme Sebrle), les athlètes lents (comme Casarsa), les athlètes rapides mais faibles (comme Warners) et les ahtlètes ni forts ni rapides, relativement parlant (comme Lorenzo). Source: http://factominer.free.fr/classical-methods/analyse-encomposantes-principales.html

Analyse des Correspondances Multiples La technique favorite de Pierre Bourdieu S applique sur des variables qualitatives Elle est donc beaucoup plus fréquente en sociologie et dans la plupart des sciences sociales

Etude des variables L étude de la liaison entre des variables qualitative implique de se situer au niveau des modalités plus que des variables On analysera ainsi le nuage des modalités plutôt que des variables On résume l ensemble de variables qualitatives par un petit nombre de variables numériques

Etude des individus L ACM doit permettre de réaliser une typologie des individus. Les individus sont d autant plus proche qu ils possèdent un grand nombre de modalités en commun Des classes d individus se ressemblent d autant plus que leurs profils de répartition sur l ensemble des modalités sont proches Source :Escofier, Pagès, 1998

Application sur FactominerR res.mca = MCA(tea, quanti.sup=19, quali.sup=c(20:36)) plot.mca(res.mca, cex=0.5) plot.mca(res.mca, invisible=c("var","quali.sup"), cex=0.5) plot.mca(res.mca, invisible=c("ind","quali.sup"), cex=0.6) plot.mca(res.mca, invisible=c("ind", "var"),cex=0.6)

Dim 2 (8.10%) -1 0 1 2 MCA factor map tea shop unpackaged p_upscale green dinner black lemon tearoom Not.f riends Not.resto Not.breakf No.sugar ast Not.tea time Not.ev ening Not.work chain store+tea shop alway s Not.pub Not.lunch other Not.home alone ev ening Not.alway s home f riends tea bag+unpackaged Not.tearoom Not.dinner tea time pub p_cheap sugar breakf ast p_v ariable chain store tea bag Earl Grey work milk resto p_branded lunch p_priv ate label p_unknown -1 0 1 2 Dim 1 (9.88%)

La première dimension oppose "tea room", "chain store+tea shop", "tea bag+unpackaged", "pub", "resto", "work" à "n ot friends", "not resto", "not work", "not home". Elle oppose les buveurs de thé réguliers aux buveurs occasionnels. La deuxième dimension oppose «tea shop», "unpackaged" et "upscale price" aux autres modalités.

Dim 2 (8.10%) -0.4-0.2 0.0 0.2 0.4 0.6 MCA factor map +60 middle workman 1 to 2/week Not.f riendliness 1/day non-worker M ef f ect on health 45-59 25-34 iron absorption 35-44 No.relaxing sophisticated Not.escape-exoticism 3 to 6/week No.exciting Not.sportsman Not.f eminineno.slimming Not.spirituality diuretic other worker sportsman Not.healthy Not.iron absorption healthy spirituality Not.diuretic f riendliness f eminine exciting relaxingno.ef f ect on health escape-exoticism F slimming employ ee +2/day senior Not.sophisticated student 15-24 -0.6-0.4-0.2 0.0 0.2 0.4

Obtenir les contributions et les coordonnées sur les axes dimdesc(res.mca) res$eig res$var res$ind

Bibliographie Escofier Brigitte, Pagès Jérôme, Analyses factorielles simples et multiples, objectifs, méthodes et interprétation, Dunod, 1998.