ANALYSE FACTORIELLE MULTIPLE PROCRUSTEENNE



Documents pareils
1 Complément sur la projection du nuage des individus

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Principe de symétrisation pour la construction d un test adaptatif

Filtrage stochastique non linéaire par la théorie de représentation des martingales

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Natixis Asset Management Response to the European Commission Green Paper on shadow banking

L'analyse des données à l usage des non mathématiciens

Extraction d informations stratégiques par Analyse en Composantes Principales

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Modélisation géostatistique des débits le long des cours d eau.

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Forthcoming Database

MapReduce. Malo Jaffré, Pablo Rauzy. 16 avril 2010 ENS. Malo Jaffré, Pablo Rauzy (ENS) MapReduce 16 avril / 15

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

La classification automatique de données quantitatives

RAPID Prenez le contrôle sur vos données

Instructions Mozilla Thunderbird Page 1

AGROBASE : un système de gestion de données expérimentales

: Machines Production a créé dès 1995, le site internet

Analyse des correspondances avec colonne de référence

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Improving the breakdown of the Central Credit Register data by category of enterprises

Analyse en Composantes Principales

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

Photoactivatable Probes for Protein Labeling

Calculation of Interest Regulations. Règlement sur le calcul des intérêts CONSOLIDATION CODIFICATION. Current to August 4, 2015 À jour au 4 août 2015

L informatique en BCPST

Theme Sensorial marketing, from stores to Internet : retailers and sensorial marketing integration in multichannel distribution management.

Bourses d excellence pour les masters orientés vers la recherche

Fonctions de plusieurs variables

Once the installation is complete, you can delete the temporary Zip files..

Interest Rate for Customs Purposes Regulations. Règlement sur le taux d intérêt aux fins des douanes CONSOLIDATION CODIFICATION

Public and European Business Law - Droit public et européen des affaires. Master I Law Level

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Exemple PLS avec SAS

Bill 69 Projet de loi 69

Stéphane Lefebvre. CAE s Chief Financial Officer. CAE announces Government of Canada participation in Project Innovate.

F411 - Courbes Paramétrées, Polaires

PIB : Définition : mesure de l activité économique réalisée à l échelle d une nation sur une période donnée.

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

INVESTMENT REGULATIONS R In force October 1, RÈGLEMENT SUR LES INVESTISSEMENTS R En vigueur le 1 er octobre 2001

Exercices sur SQL server 2000

Editing and managing Systems engineering processes at Snecma

Manuel d utilisation 26 juin Tâche à effectuer : écrire un algorithme 2

I. Programmation I. 1 Ecrire un programme en Scilab traduisant l organigramme montré ci-après (on pourra utiliser les annexes):

Differential Synchronization

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Logiciel XLSTAT version rue Damrémont PARIS

APPENDIX 6 BONUS RING FORMAT

MODERN LANGUAGES DEPARTMENT

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Supervision et infrastructure - Accès aux applications JAVA. Document FAQ. Page: 1 / 9 Dernière mise à jour: 15/04/12 16:14

Exercices Corrigés Premières notions sur les espaces vectoriels

INTERVENIR SUR LE TRAVAIL D ENCADREMENT ET L ORGANISATION

COMPTABILITÉ. PCG : provisions pour grosses réparations vs amortissements par composants. Cette étude a pour objet. reflexion. Résumé de l article

Modélisation aléatoire en fiabilité des logiciels

Introduction à MapReduce/Hadoop et Spark

Modèles bi-dimensionnels de coques linéairement élastiques: Estimations de l écart entre leurs solutions.

If the corporation is or intends to become a registered charity as defined in the Income Tax Act, a copy of these documents must be sent to:

DOCUMENTATION - FRANCAIS... 2

An Ontology-Based Approach for Closed-Loop Product Lifecycle Management

Avant-après, amont-aval : les couples de tableaux totalement appariés

Thank you for choosing the Mobile Broadband USB Stick. With your USB Stick, you can access a wireless network at high speed.

Get Instant Access to ebook Cest Maintenant PDF at Our Huge Library CEST MAINTENANT PDF. ==> Download: CEST MAINTENANT PDF

INTRODUCTION AU DATA MINING

Support Orders and Support Provisions (Banks and Authorized Foreign Banks) Regulations

Programmes des classes préparatoires aux Grandes Ecoles

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Stage Ingénieur en développement logiciel/modélisation 3D

1.The pronouns me, te, nous, and vous are object pronouns.

ÉVALUATION DE L UTILISABILITÉ D UN SITE WEB : TESTS D UTILISABILITÉ VERSUS ÉVALUATION HEURISTIQUE

Introduction. Préambule. Le contexte

Cours de Mécanique du point matériel

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

ACP Voitures 1- Méthode

Évaluation de la régression bornée

POLICY: FREE MILK PROGRAM CODE: CS-4

Introduction au Data-Mining

Analyse fonctionnelle Théorie des représentations du groupe quantique compact libre O(n) Teodor Banica Résumé - On trouve, pour chaque n 2, la classe

FOURTH SESSION : "MRP & CRP"

La base de données dans ArtemiS SUITE

Mon Service Public - Case study and Mapping to SAML/Liberty specifications. Gaël Gourmelen - France Telecom 23/04/2007

Tex: The book of which I'm the author is an historical novel.

L ESPACE À TRAVERS LE REGARD DES FEMMES. European Economic and Social Committee Comité économique et social européen

Introduction à MATLAB R

Bigdata et Web sémantique. les données + l intelligence= la solution

Motivations (many2many) Motivations (many2one) Sur le thème de la Version. La gestion de version. La gestion de configuration.

Application Form/ Formulaire de demande

Entreposage de données complexes pour la médecine d anticipation personnalisée

Credit Note and Debit Note Information (GST/ HST) Regulations

Paxton. ins Net2 desktop reader USB

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Communication Master AgroFood Chain

Folio Case User s Guide

Représentation des Nombres

RISK-BASED TRANSPORTATION PLANNING PRACTICE: OVERALL METIIODOLOGY AND A CASE EXAMPLE"' RESUME

Contents Windows

Transcription:

ANALYSE FACTORIELLE MULTIPLE PROCRUSTEENNE Elisabeth Morand & Jérôme Pagès Agrocampus Rennes Laboratoire de mathématiques appliquées CS 425 3542 Rennes cedex Résumé Pour comparer deux nuages de points homologues, la méthode de référence est l analyse procrustéenne et, dans le cas de plus de deux nuages, l analyse procrustéenne généralisée (GPA). L analyse factorielle multiple (AFM) fournit aussi une représentation superposée de nuages de points homologues. Cette dernière représentation bénéficie, par rapport à celle issue de la GPA, d avantages (elle s inscrit dans le cadre d une analyse factorielle riche en aides à l interprétation) et d inconvénients (les nuages à comparer subissent des déformations autres que les seules proections et rotations). Il est possible de compléter l AFM par un austement procrustéen de chacun des nuages initiaux sur le nuage moyen de l AFM. On obtient ainsi une représentation de ces nuages qui à la fois respecte le modèle procrustéen et s inscrit dans le cadre de l AFM. D où le nom d analyse factorielle multiple procustéenne (AFMP). Nous présentons ici quelques unes de ses propriétés. Cette nouvelle représentation est précieuse lorsque les nuages initiaux sont bidimensionnels. Une application dans ce cas particulier est présentée. Mots-clés : Analyse Procrustéenne Généralisée, Analyse Factorielle Multiple, Analyse Factorielle Multiple Procrustéenne. Abstract To compare two homologous clouds of points, the method mainly used is the procrustes analysis and in the case of more than two clouds of points, the Generalized Procrustes Analysis (GPA). The Multiple Factor Analysis (MFA) also provides a superposed representation of several homologous clouds of points. This latter representation gets, against the one stemmed from, advantages (it is included in the framework of a factor analysis rich in viewpoints in analysis of several clouds of points) and drawbacks (the clouds to compare experience different distortions than the only proections and rotations) We can complement the MFA by a procrustes adustment of each initial cloud on the average cloud of the MFA. We thus get representation of those clouds which both respect the procrustes pattern and is included into the framework of the MFA. Hence the name of procrustes multiple factor analysis (PMFA). We present here its properties. This new representation is very useful when the initial clouds are two-dimensional. An application of this particular case is presented. Key words : Generalized Procrustes Analysis, Multiple Factor Analysis, Procrustes Multiple Factor Analysis.

Données et notations Les données sont constituées d un ensemble d individus, {i ; i=, I}, décrits par plusieurs groupes de variables. Ces données peuvent être regroupées sous forme d un tableau unique structuré en sous-tableaux. On note : (figure ) le tableau complet ; K l ensemble des variables ; J l ensemble des sous-tableaux ; K l ensemble des variables du groupe ; le tableau associé au groupe. K K K J individus i J I Figure. Structure des données. Au tableau correspond le nuage des individus, N I, situé dans l espace R K. A chaque groupe de variables, correspond un nuage d individus, dit partiel et noté N i, situé dans un espace de dimension K. Si l on plonge le nuage N I dans l espace R K les coordonnées de chacun des individus de ce nuage se trouvent aein du tableau, noté K), dans lequel est complété par des. ~, de dimensions (I, Problématique L étude simultanée de plusieurs tableaux présente de nombreux aspects. L un d entre eux est la représentation superposée des nuages partiels. L analyse procrustéenne (dans le cas où J = 2) ou l Analyse Procrustéenne Généralisée (GPA) (dans le cas où J > 2) est la méthode de référence pour obtenir une telle représentation. L Analyse Factorielle Multiple (AFM) propose aussi une représentation superposée des nuages partiels. Le cœur de cette analyse est constitué par une ACP effectuée sur le tableau complet, dont les variables sont pondérées. La pondération utilisée consiste à diviser le poids initial de chaque variable du groupe par λ (en notant λ l inertie proetée sur le premier axe de l analyse séparée du groupe ). On obtient ainsi une représentation du nuage N I, comme dans toute ACP. A cette représentation, on superpose les nuages N I en introduisant les tableaux ~ en supplémentaires dans l ACP du tableau complet. Cette représentation a au moins deux propriétés intéressantes : - elle s inscrit dans une méthode générale qui fournit de nombreux points de vue sur l analyse simultanée de plusieurs tableaux en particulier de nombreuses aides à l interprétation ; - il existe pour cette représentation des relations de transition dites partielles (détaillées ci-après). 2

La coordonnée, sur l axe principal de rang s, de l individu i vu par le groupe, notée F s (i ), s exprime comme combinaison linéaire des coordonnées des seules variables du groupe sur ce même axe. Ceci se traduit par la formule de transition suivante, dans laquelle on reconnaît la restriction au groupe de la relation de transition classique : Fs ( i ) = Fs ( i) = xikgs ( k) λs λ k K en notant : F s (i )proection de l individu i sur l axe principal de rang s du nuage des individus N I ; G s (k) proection sur l axe de rang s de la variable k ; λ s est l inertie proetée du nuage N I. En contrepartie de cette précieuse propriété, cette représentation présente des déformations autres que celles induites par les proections. En effet, chaque nuage partiel est proeté sur deux axes n appartenant pas à son sous-espace initial (figure 2). R K = R K i R K Figure 2. Proection de l individu i du nuage dans N I θ s : axe principal de rang s du nuage des individus : composante de dans l espace du nuage partiel. i, i ème ligne de ~ et appartenant à R K, est dans un premier temps proeté sur puis, en multipliant les coordonnées par cos( θ ), sur i s Nous proposons ci-après une représentation procrustéenne à la fois intégrée à l AFM, d où la dénomination d analyse factorielle multiple procrustéenne (AFMP), et telle que les nuages initiaux ne subissent aucune autre déformation que celles résultant des proections. Toutefois, il est à noter que dans le cas où les nuages partiels sont dans un espace à plus de deux dimensions, la représentation procrustéenne, bien que non déformée dans l espace total, le sera lors de sa représentation finale en deux dimensions, par proection sur un espace de dimension inférieure. Méthode Principe Chaque nuage partiel N I est austé, à l aide d une rotation procrustéenne, sur le nuage moyen N I de l AFM. Du point de vue de l algorithme, on utilise les S premières composantes de la représentation moyenne de l AFM. Le choix de la dimension, S, est à discuter 3

suivant les cas. Le tableau ainsi obtenu, de dimension (I, S), est noté F ~. On considère ensuite, pour chaque groupe, les tableaux pondérés comme en AFM, soit les tableaux. Nous cherchons à les rapprocher de F ~ par une λ rotation procrustéenne de transformation géométrique T tel que ~ ~ Trace F T F λ et ce sous la contrainte T T =I. On obtient alors les tableaux procrustéanisés, λ ˆ sur F ~. Cela revient donc à chercher une = λ T ' T soit minimum λ ˆ par les relations suivantes. Où T =V U avec : V la matrice orthogonale des vecteurs propres normés de la matrice : ' ~~ ' FF λ U la matrice orthogonale des vecteurs propres normés de la matrice : ~ ' ' ~ F F λ Ce calcul revient à effectuer la dernière boucle de l algorithme de Gower (975) en prenant comme consensus le nuage moyen issu de l AFM. Propriétés Pour la représentation des nuages partiels ainsi obtenue, il n y a plus de relations de transition partielles. En contrepartie, les nuages partiels n ont subi aucune déformation autre que les rotations orthogonales. Remarque. Cette représentation est particulièrement intéressante dans le cas bidimensionnel, puisque la représentation des nuages partiels n est absolument pas déformée. Exemple On présente ici un exemple dans le cadre bidimensionnel pour illustrer l intérêt de la nouvelle méthode par rapport à la représentation superposée usuelle de l AFM. Données On a demandé à dégustateurs de fournir chacun une représentation euclidienne de vins blancs de Val de Loire (5 Chenins, numérotés de à 5, et 5 Sauvignons, numérotés de 6 à ) en les positionnant sur une nappe. On dispose alors de J= représentations euclidiennes. Ainsi, des vins proches sur une nappe sont des vins qui paraissent similaires au uge. Les données analysées sont les coordonnées (i) et Y (i) de chaque vin i, mesurées sur la nappe du uge. 4

Juge Juge Juge Y Y Y vins i (i) Y (i) (i) Y (i) (i) Y (i) I= Résultats A titre d exemple, nous représentons ici la nappe fournie par le uge 9. Remarquons en particulier sur cette nappe les vins 7 et relativement excentrés. 37.5 Y9 3 T Trotignon 3. 22.5 6 V Aub. Silex 2 T Renaudie 4 T Buisse Domaine V Font. Domaine 5. V Font Coteaux 7 V Aub. Marigny 5 T Buisse Cristal 7.5 9 V Font. Brûlés T Michaud 9 5 3 45 6 Figure 3 : Représentation des vins par le uge 9 Ces données sont traitées par une AFM dans laquelle chaque nappe constitue un groupe de deux variables non réduites. Facteur 2-26.6 % Facteur 2-26.6 % 4 3 2 9 4 5 6 7 4 3G9 G9 G9 9G9 5G9 4G9 2G9 6G9 G9 7G9-4 -4-4 4 Facteur - 39.39 % Figure 4a. Représentation du nuage moyen de l AFM -4 4 Facteur - 39.39 % Figure 4b. Représentation du nuage partiel du uge 9 pour l AFM Sur la représentation moyenne des individus ainsi obtenue (figure 4a) il est commode d orienter les commentaires selon les deux bissectrices. La première bissectrice sépare les Sauvignons (vins à 5) des Chenins (vins 6 à ). La 5

seconde bissectrice sépare les 5 Chenins entre eux en mettant en évidence la particularité des vins 7 et. La représentation du nuage partiel du uge 9 (figure 4b) est étirée essentiellement le long de la seconde bissectrice. Cette représentation ne distingue pas les Sauvignons des Chenins. On retrouve comme dans le nuage moyen la variabilité des Chenins où les vins et 9 s opposent aux vins 7 et. Toutefois cette représentation partielle est relativement différente de la nappe du uge 9. Comp..2 afmp 9 3..5 G9 9G9 5G9 6 4 5 -.5 3G9 G9 4G9 2G9 6G9 G9 7G9 7 3 2-3. -.5.5 3. Comp.. afmp Figure 5. Représentation superposée du nuage moyen et du nuage partiel du uge 9 en AFMP Sur ces mêmes données, une AFMP a été appliquée en utilisant les deux premières dimensions du nuage moyen. Ici encore, nous limitons le commentaire aeul uge 9 (figure 3). Par rapport à la représentation précédente, celle-ci est exactement la configuration fournie par le uge 9. Cette représentation (voir figure 5) met en évidence, parallèlement à la représentation moyenne, le caractère particulier des vins 7 et et leur opposition aein des Chenins aux vins et 9. En revanche, le uge 9 a clairement séparé le vin et le vin 9 alors que dans la configuration moyenne ces vins sont regroupés. Les distinctions faites par le uge 9, par exemple l opposition {,9,5} {3,,4}, apparaissent par construction dans l AFMP mais n apparaissent pas dans l AFM. Conclusion La représentation superposée de nuages de points homologues décrite ici est un compromis entre les représentations usuelles de la GPA et de l AFM. Elle est particulièrement précieuse dans le cas bidimensionnel. En effet dans ce cas précis les nuages partiels ne sont absolument pas déformés. Ceci permet donc un enrichissement de la représentation moyenne de l AFM par une représentation des nuages partiels contenant toute la spécificité de la configuration partielle initiale. Bibliographie [] Escofier B. et Pagès J., (99) Analyses factorielles simples et multiples ; obectifs méthodes et interprétation, 24p, Dunod, Paris. [2] Gower, J.C (975) Generalized Procrustes Analysis, Psychometrika, 4() : 33-5. 6