ANALYSE FACTORIELLE MULTIPLE PROCRUSTEENNE Elisabeth Morand & Jérôme Pagès Agrocampus Rennes Laboratoire de mathématiques appliquées CS 425 3542 Rennes cedex Résumé Pour comparer deux nuages de points homologues, la méthode de référence est l analyse procrustéenne et, dans le cas de plus de deux nuages, l analyse procrustéenne généralisée (GPA). L analyse factorielle multiple (AFM) fournit aussi une représentation superposée de nuages de points homologues. Cette dernière représentation bénéficie, par rapport à celle issue de la GPA, d avantages (elle s inscrit dans le cadre d une analyse factorielle riche en aides à l interprétation) et d inconvénients (les nuages à comparer subissent des déformations autres que les seules proections et rotations). Il est possible de compléter l AFM par un austement procrustéen de chacun des nuages initiaux sur le nuage moyen de l AFM. On obtient ainsi une représentation de ces nuages qui à la fois respecte le modèle procrustéen et s inscrit dans le cadre de l AFM. D où le nom d analyse factorielle multiple procustéenne (AFMP). Nous présentons ici quelques unes de ses propriétés. Cette nouvelle représentation est précieuse lorsque les nuages initiaux sont bidimensionnels. Une application dans ce cas particulier est présentée. Mots-clés : Analyse Procrustéenne Généralisée, Analyse Factorielle Multiple, Analyse Factorielle Multiple Procrustéenne. Abstract To compare two homologous clouds of points, the method mainly used is the procrustes analysis and in the case of more than two clouds of points, the Generalized Procrustes Analysis (GPA). The Multiple Factor Analysis (MFA) also provides a superposed representation of several homologous clouds of points. This latter representation gets, against the one stemmed from, advantages (it is included in the framework of a factor analysis rich in viewpoints in analysis of several clouds of points) and drawbacks (the clouds to compare experience different distortions than the only proections and rotations) We can complement the MFA by a procrustes adustment of each initial cloud on the average cloud of the MFA. We thus get representation of those clouds which both respect the procrustes pattern and is included into the framework of the MFA. Hence the name of procrustes multiple factor analysis (PMFA). We present here its properties. This new representation is very useful when the initial clouds are two-dimensional. An application of this particular case is presented. Key words : Generalized Procrustes Analysis, Multiple Factor Analysis, Procrustes Multiple Factor Analysis.
Données et notations Les données sont constituées d un ensemble d individus, {i ; i=, I}, décrits par plusieurs groupes de variables. Ces données peuvent être regroupées sous forme d un tableau unique structuré en sous-tableaux. On note : (figure ) le tableau complet ; K l ensemble des variables ; J l ensemble des sous-tableaux ; K l ensemble des variables du groupe ; le tableau associé au groupe. K K K J individus i J I Figure. Structure des données. Au tableau correspond le nuage des individus, N I, situé dans l espace R K. A chaque groupe de variables, correspond un nuage d individus, dit partiel et noté N i, situé dans un espace de dimension K. Si l on plonge le nuage N I dans l espace R K les coordonnées de chacun des individus de ce nuage se trouvent aein du tableau, noté K), dans lequel est complété par des. ~, de dimensions (I, Problématique L étude simultanée de plusieurs tableaux présente de nombreux aspects. L un d entre eux est la représentation superposée des nuages partiels. L analyse procrustéenne (dans le cas où J = 2) ou l Analyse Procrustéenne Généralisée (GPA) (dans le cas où J > 2) est la méthode de référence pour obtenir une telle représentation. L Analyse Factorielle Multiple (AFM) propose aussi une représentation superposée des nuages partiels. Le cœur de cette analyse est constitué par une ACP effectuée sur le tableau complet, dont les variables sont pondérées. La pondération utilisée consiste à diviser le poids initial de chaque variable du groupe par λ (en notant λ l inertie proetée sur le premier axe de l analyse séparée du groupe ). On obtient ainsi une représentation du nuage N I, comme dans toute ACP. A cette représentation, on superpose les nuages N I en introduisant les tableaux ~ en supplémentaires dans l ACP du tableau complet. Cette représentation a au moins deux propriétés intéressantes : - elle s inscrit dans une méthode générale qui fournit de nombreux points de vue sur l analyse simultanée de plusieurs tableaux en particulier de nombreuses aides à l interprétation ; - il existe pour cette représentation des relations de transition dites partielles (détaillées ci-après). 2
La coordonnée, sur l axe principal de rang s, de l individu i vu par le groupe, notée F s (i ), s exprime comme combinaison linéaire des coordonnées des seules variables du groupe sur ce même axe. Ceci se traduit par la formule de transition suivante, dans laquelle on reconnaît la restriction au groupe de la relation de transition classique : Fs ( i ) = Fs ( i) = xikgs ( k) λs λ k K en notant : F s (i )proection de l individu i sur l axe principal de rang s du nuage des individus N I ; G s (k) proection sur l axe de rang s de la variable k ; λ s est l inertie proetée du nuage N I. En contrepartie de cette précieuse propriété, cette représentation présente des déformations autres que celles induites par les proections. En effet, chaque nuage partiel est proeté sur deux axes n appartenant pas à son sous-espace initial (figure 2). R K = R K i R K Figure 2. Proection de l individu i du nuage dans N I θ s : axe principal de rang s du nuage des individus : composante de dans l espace du nuage partiel. i, i ème ligne de ~ et appartenant à R K, est dans un premier temps proeté sur puis, en multipliant les coordonnées par cos( θ ), sur i s Nous proposons ci-après une représentation procrustéenne à la fois intégrée à l AFM, d où la dénomination d analyse factorielle multiple procrustéenne (AFMP), et telle que les nuages initiaux ne subissent aucune autre déformation que celles résultant des proections. Toutefois, il est à noter que dans le cas où les nuages partiels sont dans un espace à plus de deux dimensions, la représentation procrustéenne, bien que non déformée dans l espace total, le sera lors de sa représentation finale en deux dimensions, par proection sur un espace de dimension inférieure. Méthode Principe Chaque nuage partiel N I est austé, à l aide d une rotation procrustéenne, sur le nuage moyen N I de l AFM. Du point de vue de l algorithme, on utilise les S premières composantes de la représentation moyenne de l AFM. Le choix de la dimension, S, est à discuter 3
suivant les cas. Le tableau ainsi obtenu, de dimension (I, S), est noté F ~. On considère ensuite, pour chaque groupe, les tableaux pondérés comme en AFM, soit les tableaux. Nous cherchons à les rapprocher de F ~ par une λ rotation procrustéenne de transformation géométrique T tel que ~ ~ Trace F T F λ et ce sous la contrainte T T =I. On obtient alors les tableaux procrustéanisés, λ ˆ sur F ~. Cela revient donc à chercher une = λ T ' T soit minimum λ ˆ par les relations suivantes. Où T =V U avec : V la matrice orthogonale des vecteurs propres normés de la matrice : ' ~~ ' FF λ U la matrice orthogonale des vecteurs propres normés de la matrice : ~ ' ' ~ F F λ Ce calcul revient à effectuer la dernière boucle de l algorithme de Gower (975) en prenant comme consensus le nuage moyen issu de l AFM. Propriétés Pour la représentation des nuages partiels ainsi obtenue, il n y a plus de relations de transition partielles. En contrepartie, les nuages partiels n ont subi aucune déformation autre que les rotations orthogonales. Remarque. Cette représentation est particulièrement intéressante dans le cas bidimensionnel, puisque la représentation des nuages partiels n est absolument pas déformée. Exemple On présente ici un exemple dans le cadre bidimensionnel pour illustrer l intérêt de la nouvelle méthode par rapport à la représentation superposée usuelle de l AFM. Données On a demandé à dégustateurs de fournir chacun une représentation euclidienne de vins blancs de Val de Loire (5 Chenins, numérotés de à 5, et 5 Sauvignons, numérotés de 6 à ) en les positionnant sur une nappe. On dispose alors de J= représentations euclidiennes. Ainsi, des vins proches sur une nappe sont des vins qui paraissent similaires au uge. Les données analysées sont les coordonnées (i) et Y (i) de chaque vin i, mesurées sur la nappe du uge. 4
Juge Juge Juge Y Y Y vins i (i) Y (i) (i) Y (i) (i) Y (i) I= Résultats A titre d exemple, nous représentons ici la nappe fournie par le uge 9. Remarquons en particulier sur cette nappe les vins 7 et relativement excentrés. 37.5 Y9 3 T Trotignon 3. 22.5 6 V Aub. Silex 2 T Renaudie 4 T Buisse Domaine V Font. Domaine 5. V Font Coteaux 7 V Aub. Marigny 5 T Buisse Cristal 7.5 9 V Font. Brûlés T Michaud 9 5 3 45 6 Figure 3 : Représentation des vins par le uge 9 Ces données sont traitées par une AFM dans laquelle chaque nappe constitue un groupe de deux variables non réduites. Facteur 2-26.6 % Facteur 2-26.6 % 4 3 2 9 4 5 6 7 4 3G9 G9 G9 9G9 5G9 4G9 2G9 6G9 G9 7G9-4 -4-4 4 Facteur - 39.39 % Figure 4a. Représentation du nuage moyen de l AFM -4 4 Facteur - 39.39 % Figure 4b. Représentation du nuage partiel du uge 9 pour l AFM Sur la représentation moyenne des individus ainsi obtenue (figure 4a) il est commode d orienter les commentaires selon les deux bissectrices. La première bissectrice sépare les Sauvignons (vins à 5) des Chenins (vins 6 à ). La 5
seconde bissectrice sépare les 5 Chenins entre eux en mettant en évidence la particularité des vins 7 et. La représentation du nuage partiel du uge 9 (figure 4b) est étirée essentiellement le long de la seconde bissectrice. Cette représentation ne distingue pas les Sauvignons des Chenins. On retrouve comme dans le nuage moyen la variabilité des Chenins où les vins et 9 s opposent aux vins 7 et. Toutefois cette représentation partielle est relativement différente de la nappe du uge 9. Comp..2 afmp 9 3..5 G9 9G9 5G9 6 4 5 -.5 3G9 G9 4G9 2G9 6G9 G9 7G9 7 3 2-3. -.5.5 3. Comp.. afmp Figure 5. Représentation superposée du nuage moyen et du nuage partiel du uge 9 en AFMP Sur ces mêmes données, une AFMP a été appliquée en utilisant les deux premières dimensions du nuage moyen. Ici encore, nous limitons le commentaire aeul uge 9 (figure 3). Par rapport à la représentation précédente, celle-ci est exactement la configuration fournie par le uge 9. Cette représentation (voir figure 5) met en évidence, parallèlement à la représentation moyenne, le caractère particulier des vins 7 et et leur opposition aein des Chenins aux vins et 9. En revanche, le uge 9 a clairement séparé le vin et le vin 9 alors que dans la configuration moyenne ces vins sont regroupés. Les distinctions faites par le uge 9, par exemple l opposition {,9,5} {3,,4}, apparaissent par construction dans l AFMP mais n apparaissent pas dans l AFM. Conclusion La représentation superposée de nuages de points homologues décrite ici est un compromis entre les représentations usuelles de la GPA et de l AFM. Elle est particulièrement précieuse dans le cas bidimensionnel. En effet dans ce cas précis les nuages partiels ne sont absolument pas déformés. Ceci permet donc un enrichissement de la représentation moyenne de l AFM par une représentation des nuages partiels contenant toute la spécificité de la configuration partielle initiale. Bibliographie [] Escofier B. et Pagès J., (99) Analyses factorielles simples et multiples ; obectifs méthodes et interprétation, 24p, Dunod, Paris. [2] Gower, J.C (975) Generalized Procrustes Analysis, Psychometrika, 4() : 33-5. 6