Analyse factorielle des correspondances de Benzécri One Pager Décembre 2013 Vol. 8 Num. 011 Copyright Laréq 2013 http://www.lareq.com Analyse Factorielle des Correspondances de Benzécri Une illustration à l aide de la métrique de Chi deux «L incompréhension vient de trois déficits majeurs, à savoir : le manque de pré requis ; la non maîtrise du jargon ;...» Jean Paul Tsasa Résumé Ce papier présente un outil d analyse des données, l analyse factorielle des correspondances, en se basant sur la notion de la métrique de Chi deux. Mots clé : métrique de chi deux, analyse factorielle des correspondances Abstract This paper focuses on the correspondence analysis, based on the notion of chi-squared distance metric. Introduction L analyse en composantes principales [ACP] permet de produire dans un espace de faible dimension une ou plusieurs représentations graphiques cherchant à mettre en vedette les principales caractéristiques des données initiales [Mavita, 2013, One pager vol.8, num. 11]. De ce fait, son efficacité dépend fortement de la nature des données, dans le sens où cette méthode devient inappropriée en face des données qualitatives. C est sous cet angle que ce papier propose un outil alternatif de l analyse factorielle, l analyse factorielle des correspondances [AFC], permettant de trancher sur l analyse des données qualitatives. Contrairement à l ACP, l AFC s intéresse plus au lien entre ces variables qu à leur intensité. Précisons d ores et déjà que cette méthode des correspondances, permettant la visualisation et la hiérarchisation de l information a été mise au point dès 1941 par Louis Guttman. Cependant, c est en 1962 que le statisticien français Jean Paul Benzécri 1 développa une analyse des correspondances particulière sur base de la métrique de Chi deux. Depuis lors, cette méthode est devenue très pratique du fait de sa particularité de faire recours à une distribution classique. L objet de ce papier est de procéder à une présentation succincte et pratique de l AFC et plus particulièrement de l AFC de Benzécri. A cet effet, deux sections seront retenues dont la première rappelle la métrique de Chi deux et la seconde expose la méthode AFC. 1 Jean Paul Benzécri est un statisticien français né en 1932 et il est le fondateur de l école française d analyse des données. 101
Métrique de Chi - deux Cette section fournit un aperçu global de la métrique de Chi deux, mise au point par le statisticien britannique Karl Pearson en 1900. Pour une présentation et une démonstration plus rigoureuses, nous renvoyons à Tombola [2013]. S agissant de variables qualitatives, il sied de noter qu une variable qualitative est une variable dont les valeurs ne sont pas numériquement mesurables. Selon la hiérarchisation des modalités, ces variables peuvent être ordinales, si les états de la variable ou modalités peuvent être hiérarchisés ou ordonnés ; ou nominales si les modalités peuvent être ordonnées. Selon la variabilité des modalités, on distingue généralement la variable binaire (dichotomique) et la variable polytomique, selon qu elle prend respectivement deux ou modalités. Ainsi, c est à la recherche de l explication de liaison entre deux variables qualitatives que Pearson a pu proposer la métrique de Chi deux. Ce test est connu sous le nom d indépendance des caractères étudiés dans un tableau de contingence.. Nous en présentons la démarche. Considérons un tableau de contingence 1 de deux variables polytomiques X et Y sur un échantillon de taille T et des modalités respectives et. Tableau 1 Modalités de Y Total Modalités de X Total Ainsi, on peut présenter ce tableau sur base des fréquences qui sont déterminées par : où et représentent les fréquences marginales. 1 Pour plus de détails sur le tableau de contingence, nous pensons à Tombola (2013, p. 55). 102
En cherchant à éliminer l incidence des effets marginaux ou conditionnels, on détermine les fréquences relatives. Pour les colonnes, on obtient le tableau des profils colonnes avec : la probabilité conditionnelle. Il convient de noter que l avantage de cette transformation est qu elle autorise une pondération de chaque fréquence par la fréquence marginale de sorte que la comparaison entre deux lignes ne soit pas influencée par la différence de leurs effectifs. Tableau 2 : Tableau des profils colonnes Modalités de Y Distribution Modalités de X marginale selon X Total 1 1 1 1 Par analogie, on trouve le tableau des profils lignes. Présentation de la méthode AFC L intérêt de la méthode AFC réside dans le fait que la méthode de l ACP apparaît inopérante en face des données qualitatives. Aussi, le niveau élevé de la fréquence des analyses des faits intrinsèquement qualitatifs ont poussés les scientifiques à réfléchir sur une méthode pratique traitant des données qualitatives, la méthode de l AFC. Cette méthode base son analyse sur la comparaison des modalités de deux variables Le choix sur l AFC de Benzécri se justifie par le simple fait que dans son approche, Benzécri fait appel une notion connue et pratique concernant les données qualitatives, la métrique de Chi deux. Mise en œuvre de l AFC 1 La méthode de l AFC suit la même démarche que la méthode de l ACP, de la transformation des données à l interprétation en passant par l analyse de chaque nuage des points. 1 Pour question de détails et d applications numériques sur la méthode AFC, lire Delgado (2001) et Zouhhad (2002). 103
Transformation des données en profils : la première démarche consiste à transformer les données en tableaux des profiles lignes et profiles colonnes. Analyse des nuages des points Représentation graphique des profils colonnes Les profils lignes peuvent être représentés dans et les axes du système représentant les catégories. Chaque profil ligne donne un point de coordonnées, les probabilités conditionnelles de chaque colonne du tableau des profils colonnes. Ces points ont un barycentre noté et les coordonnées sont calculées par : Figure 1 F 2 j 2 j n B j F 1 j 3 j 1 Cette carte factorielle indique que les modalités j 1 et j 2 sont voisines, la modalité j n est proche du barycentre tandis que la modalité j 3 est un point extrême et opposé à tous les autres. Représentation graphique des profiles lignes Cependant, l AFC en tant une des méthodes d analyse factorielle cherche des axes principaux en projetant tous ces points sur un même plan. Le premier axe factoriel est déterminé par la droite des moindres carrés qui ajuste tous points. Cette droite est dans ce plan de projection, suit naturellement la direction d inertie maximale de tous ces points, passe par et l équation est déterminée dans. Le deuxième axe factoriel est déterminé par une perpendiculaire abaissée du barycentre par rapport à. Comme les profiles colonnes, les profiles lignes peuvent être également représentés dans et n axes représentant les catégories. Chaque profil ligne donne un point de coordonnées les probabilités conditionnelles de chaque ligne du tableau des profils lignes. 104
Ces points ont un barycentre noté dont les coordonnées sont trouvées par : En projetant ces points sur un même plan, le premier axe factoriel F 3 est donné par la droite des moindres carrés qui ajuste ces points. Cette droite est dans ce plan de projection, suit naturellement la direction d inertie maximale de tous ces points, passe par et l équation est déterminée dans. Le deuxième axe factoriel est déterminé par une perpendiculaire abaissée du barycentre par rapport à. Figure 2 F 4 i 2 B i i n i 3 i 1 F 3 Cette carte factorielle montre que les modalités i 1 et i 2 sont voisines, la modalité i n est proche du barycentre tandis que la modalité i 3 est un point extrême et opposé à tous les autres. Dualité des profils lignes et des profils - colonnes Il s agit de représenter sur même graphique les deux cartes factorielles précédentes. Figure 3 F 2 F 4 j 1 i 1 B j F 1 j 3 i 3 B i i 2 F 3 j 2 M 105
Les zones encerclées selon les proximités montrent les correspondances entre les modalités. La figure indique que la zone M fait apparaître deux sous zones particulières avec évidemment deux correspondances particulières. Somme toute, le présent papier a donné une vision plus ou moins simplifiée de la méthode d analyse factorielle des correspondances (AFC). Par ailleurs, il reste une série de méthodes d analyse factorielle qui seront abordées dans des publications ultérieures, et ce sera également de fournir des illustrations plus pratiques à l aide des logiciels appropriés. 106
Références bibliographiques DELGADO Jean pierre, 2001, Mathématiques appliquées, ESKA, 2è Edition, Paris, 165p. DENIZET Frédéric, 2008, Algèbre et géométrie, Edition Nathan, Paris, 501p. ESCH Louis, 1992, Mathématiques pour économistes et gestionnaires, Edition De Boeck, Bruxelles, 697p. KLOTZ Gérard, 2000, Mathématiques pour les sciences économiques et sociales, Edition Presses universitaires de France, Paris, 344p. MALU Raїssa, 2010, L indispensable des Mathématiques, Collection savoirs et découvertes, Louvain-la-Neuve, 116p. MAVITA Yannick, 2013, «Analyse en composantes principales», One pager (septembre), 8 (11): 92 100. MICHEL Philippe, 1989, Cours de mathématiques pour économistes, Economica, 2è Edition, Paris, 748p. MONIER Jean Marie, 1993, Géométrie, Editions Dunod, Paris, 347p. PEARSON, Karl, 1901, «On Lines and Planes of Closest Fit to Systems of points in Space, Philosophical Magazine, 2 (6): 559 572. TOMBOLA Cédrick et Jean Paul TSASA, 2013, «Analyse de la Structure d Espaces Vectoriels», One Pager Laréq (février), 5 (15): 93 99. TOMBOLA Cédrick, «Au délà de la corrélation linéaire : Métrique de Khi deux et rapport de corrélation», One Pager (février), 5 (9):, 54 59. ZOUHHAD Rachid, Jean Laurent VIVIANI et Françoise BOUFFARD, 2002, Mathématiques appliquées, Dunod, 5è ed, Paris, 335p. 107