Analyse factorielle des correspondances de Benzécri



Documents pareils
TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Corps des nombres complexes, J Paul Tsasa

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Extraction d informations stratégiques par Analyse en Composantes Principales

Chapitre 3. Les distributions à deux variables

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Logiciel XLSTAT version rue Damrémont PARIS

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Analyse des correspondances avec colonne de référence

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

A quels élèves profite l approche par les compétences de base? Etude de cas à Djibouti

INF6304 Interfaces Intelligentes

Annexe commune aux séries ES, L et S : boîtes et quantiles

MATHÉMATIQUES FINANCIÈRES

SPHINX Logiciel de dépouillement d enquêtes

TABLE DES MATIERES. C Exercices complémentaires 42

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Relation entre deux variables : estimation de la corrélation linéaire

Rappels sur les suites - Algorithme

Introduction au datamining

Introduction. Préambule. Le contexte

Programmation linéaire

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

1- Enregistrer le nouveau planning

Leçon N 4 : Statistiques à deux variables

Enoncé et corrigé du brevet des collèges dans les académies d Aix- Marseille, Montpellier, Nice Corse et Toulouse en Énoncé.

Résumé du Cours de Statistique Descriptive. Yves Tillé

UNE FORMATION POUR APPRENDRE À PRÉSENTER DES DONNÉES CHIFFRÉES : POUR QUI ET POURQUOI? Bénédicte Garnier & Elisabeth Morand

Statistique Descriptive Élémentaire

1- Enregistrer le nouveau planning

Structure du cours : Il existe de nombreuses méthodes intéressantes qui couvrent l Analyse des Données

Aide-mémoire de statistique appliquée à la biologie

PHYSIQUE 2 - Épreuve écrite

Analyse en Composantes Principales

M. F. PITA Departamento de Geografía Física. Universidad de Sevilla. C/ María de Padilla s.n SEVILLA (Espagne).

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Logique binaire. Aujourd'hui, l'algèbre de Boole trouve de nombreuses applications en informatique et dans la conception des circuits électroniques.

Découverte du logiciel ordinateur TI-n spire / TI-n spire CAS

1. Vocabulaire : Introduction au tableau élémentaire

Comment évaluer une banque?

Coup de Projecteur sur les Réseaux de Neurones

Fonction inverse Fonctions homographiques

MATHÉMATIQUES FINANCIÈRES I

L'analyse des données à l usage des non mathématiciens

Sites web éducatifs et ressources en mathématiques

F1C1/ Analyse. El Hadji Malick DIA

THOT - Extraction de données et de schémas d un SGBD

TP 7 : oscillateur de torsion

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

VISIOPROD - un projet Endesa France. Gestion de la production électrique. Logiciel de supervision

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

INTRODUCTION AU DATA MINING

La classification automatique de données quantitatives

Systèmes de transmission

Table des matières. I Mise à niveau 11. Préface

Le chi carré. Le sommaire. Approche quantitative

VI. Tests non paramétriques sur un échantillon

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

Fonctions de plusieurs variables

Si un quadrilatère a. Si un quadrilatère a. Si un quadrilatère a. Si un quadrilatère a. ses côtés opposés. ses côtés opposés de. deux côtés opposés

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

1 Complément sur la projection du nuage des individus

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

L analyse des données par les graphes de similitude

Catalogue des connaissances de base en mathématiques dispensées dans les gymnases, lycées et collèges romands.

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Questions d Entretiens en Finance de Marché Retour 2011/2012

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

Localisation des fonctions

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES

SOMMAIRE OPÉRATIONS COURANTES OPÉRATIONS D INVENTAIRE

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Principe et règles d audit

Catalogue des formations.

Découverte du tableur CellSheet

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

Chapitre 11. Séries de Fourier. Nous supposons connues les formules donnant les coefficients de Fourier d une fonction 2 - périodique :

Contenu pédagogique des unités d enseignement Semestre 1(1 ère année) Domaine : Sciences et techniques et Sciences de la matière

GRIFES. Gestion des risques et au-delà. Pablo C. Martinez. TRMG Product Leader, EMEA Symantec Corporation

Cours de Mécanique du point matériel

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

LES DIFFERENTS TYPES DE MESURE

Algèbre binaire et Circuits logiques ( )

PRINCIPES DE LA CONSOLIDATION. CHAPITRE 4 : Méthodes de consolidation. Maître de conférences en Sciences de Gestion Diplômé d expertise comptable

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE

REER, CELI ou prêt hypothécaire : comment faire le bon choix?

LES LOIS PHYSIQUES APPLIQUÉES AUX DEUX-ROUES : 1. LA FORCE DE GUIDAGE

DURÉE DE VIE ET DE. Michel JAMBU, Centre National d'etudes des Télécommunications France Direction scientifique

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Étude sur les taux de revalorisation des contrats individuels d assurance vie au titre de 2013 n 26 mai 2014

Capital économique en assurance vie : utilisation des «replicating portfolios»

Gestion de projet et. «Second précepte: diviser chacune des difficultés que j examinerois, en autant de. qu il seroit requis pour les mieux

Statistiques Descriptives à une dimension

TRAITEMENT AUTOMATIQUE DES LANGUES. Licence d'informatique 2ème Année Semestre 1. Département d'informatique Université de Caen Basse-Normandie

EXERCICES - ANALYSE GÉNÉRALE

Transcription:

Analyse factorielle des correspondances de Benzécri One Pager Décembre 2013 Vol. 8 Num. 011 Copyright Laréq 2013 http://www.lareq.com Analyse Factorielle des Correspondances de Benzécri Une illustration à l aide de la métrique de Chi deux «L incompréhension vient de trois déficits majeurs, à savoir : le manque de pré requis ; la non maîtrise du jargon ;...» Jean Paul Tsasa Résumé Ce papier présente un outil d analyse des données, l analyse factorielle des correspondances, en se basant sur la notion de la métrique de Chi deux. Mots clé : métrique de chi deux, analyse factorielle des correspondances Abstract This paper focuses on the correspondence analysis, based on the notion of chi-squared distance metric. Introduction L analyse en composantes principales [ACP] permet de produire dans un espace de faible dimension une ou plusieurs représentations graphiques cherchant à mettre en vedette les principales caractéristiques des données initiales [Mavita, 2013, One pager vol.8, num. 11]. De ce fait, son efficacité dépend fortement de la nature des données, dans le sens où cette méthode devient inappropriée en face des données qualitatives. C est sous cet angle que ce papier propose un outil alternatif de l analyse factorielle, l analyse factorielle des correspondances [AFC], permettant de trancher sur l analyse des données qualitatives. Contrairement à l ACP, l AFC s intéresse plus au lien entre ces variables qu à leur intensité. Précisons d ores et déjà que cette méthode des correspondances, permettant la visualisation et la hiérarchisation de l information a été mise au point dès 1941 par Louis Guttman. Cependant, c est en 1962 que le statisticien français Jean Paul Benzécri 1 développa une analyse des correspondances particulière sur base de la métrique de Chi deux. Depuis lors, cette méthode est devenue très pratique du fait de sa particularité de faire recours à une distribution classique. L objet de ce papier est de procéder à une présentation succincte et pratique de l AFC et plus particulièrement de l AFC de Benzécri. A cet effet, deux sections seront retenues dont la première rappelle la métrique de Chi deux et la seconde expose la méthode AFC. 1 Jean Paul Benzécri est un statisticien français né en 1932 et il est le fondateur de l école française d analyse des données. 101

Métrique de Chi - deux Cette section fournit un aperçu global de la métrique de Chi deux, mise au point par le statisticien britannique Karl Pearson en 1900. Pour une présentation et une démonstration plus rigoureuses, nous renvoyons à Tombola [2013]. S agissant de variables qualitatives, il sied de noter qu une variable qualitative est une variable dont les valeurs ne sont pas numériquement mesurables. Selon la hiérarchisation des modalités, ces variables peuvent être ordinales, si les états de la variable ou modalités peuvent être hiérarchisés ou ordonnés ; ou nominales si les modalités peuvent être ordonnées. Selon la variabilité des modalités, on distingue généralement la variable binaire (dichotomique) et la variable polytomique, selon qu elle prend respectivement deux ou modalités. Ainsi, c est à la recherche de l explication de liaison entre deux variables qualitatives que Pearson a pu proposer la métrique de Chi deux. Ce test est connu sous le nom d indépendance des caractères étudiés dans un tableau de contingence.. Nous en présentons la démarche. Considérons un tableau de contingence 1 de deux variables polytomiques X et Y sur un échantillon de taille T et des modalités respectives et. Tableau 1 Modalités de Y Total Modalités de X Total Ainsi, on peut présenter ce tableau sur base des fréquences qui sont déterminées par : où et représentent les fréquences marginales. 1 Pour plus de détails sur le tableau de contingence, nous pensons à Tombola (2013, p. 55). 102

En cherchant à éliminer l incidence des effets marginaux ou conditionnels, on détermine les fréquences relatives. Pour les colonnes, on obtient le tableau des profils colonnes avec : la probabilité conditionnelle. Il convient de noter que l avantage de cette transformation est qu elle autorise une pondération de chaque fréquence par la fréquence marginale de sorte que la comparaison entre deux lignes ne soit pas influencée par la différence de leurs effectifs. Tableau 2 : Tableau des profils colonnes Modalités de Y Distribution Modalités de X marginale selon X Total 1 1 1 1 Par analogie, on trouve le tableau des profils lignes. Présentation de la méthode AFC L intérêt de la méthode AFC réside dans le fait que la méthode de l ACP apparaît inopérante en face des données qualitatives. Aussi, le niveau élevé de la fréquence des analyses des faits intrinsèquement qualitatifs ont poussés les scientifiques à réfléchir sur une méthode pratique traitant des données qualitatives, la méthode de l AFC. Cette méthode base son analyse sur la comparaison des modalités de deux variables Le choix sur l AFC de Benzécri se justifie par le simple fait que dans son approche, Benzécri fait appel une notion connue et pratique concernant les données qualitatives, la métrique de Chi deux. Mise en œuvre de l AFC 1 La méthode de l AFC suit la même démarche que la méthode de l ACP, de la transformation des données à l interprétation en passant par l analyse de chaque nuage des points. 1 Pour question de détails et d applications numériques sur la méthode AFC, lire Delgado (2001) et Zouhhad (2002). 103

Transformation des données en profils : la première démarche consiste à transformer les données en tableaux des profiles lignes et profiles colonnes. Analyse des nuages des points Représentation graphique des profils colonnes Les profils lignes peuvent être représentés dans et les axes du système représentant les catégories. Chaque profil ligne donne un point de coordonnées, les probabilités conditionnelles de chaque colonne du tableau des profils colonnes. Ces points ont un barycentre noté et les coordonnées sont calculées par : Figure 1 F 2 j 2 j n B j F 1 j 3 j 1 Cette carte factorielle indique que les modalités j 1 et j 2 sont voisines, la modalité j n est proche du barycentre tandis que la modalité j 3 est un point extrême et opposé à tous les autres. Représentation graphique des profiles lignes Cependant, l AFC en tant une des méthodes d analyse factorielle cherche des axes principaux en projetant tous ces points sur un même plan. Le premier axe factoriel est déterminé par la droite des moindres carrés qui ajuste tous points. Cette droite est dans ce plan de projection, suit naturellement la direction d inertie maximale de tous ces points, passe par et l équation est déterminée dans. Le deuxième axe factoriel est déterminé par une perpendiculaire abaissée du barycentre par rapport à. Comme les profiles colonnes, les profiles lignes peuvent être également représentés dans et n axes représentant les catégories. Chaque profil ligne donne un point de coordonnées les probabilités conditionnelles de chaque ligne du tableau des profils lignes. 104

Ces points ont un barycentre noté dont les coordonnées sont trouvées par : En projetant ces points sur un même plan, le premier axe factoriel F 3 est donné par la droite des moindres carrés qui ajuste ces points. Cette droite est dans ce plan de projection, suit naturellement la direction d inertie maximale de tous ces points, passe par et l équation est déterminée dans. Le deuxième axe factoriel est déterminé par une perpendiculaire abaissée du barycentre par rapport à. Figure 2 F 4 i 2 B i i n i 3 i 1 F 3 Cette carte factorielle montre que les modalités i 1 et i 2 sont voisines, la modalité i n est proche du barycentre tandis que la modalité i 3 est un point extrême et opposé à tous les autres. Dualité des profils lignes et des profils - colonnes Il s agit de représenter sur même graphique les deux cartes factorielles précédentes. Figure 3 F 2 F 4 j 1 i 1 B j F 1 j 3 i 3 B i i 2 F 3 j 2 M 105

Les zones encerclées selon les proximités montrent les correspondances entre les modalités. La figure indique que la zone M fait apparaître deux sous zones particulières avec évidemment deux correspondances particulières. Somme toute, le présent papier a donné une vision plus ou moins simplifiée de la méthode d analyse factorielle des correspondances (AFC). Par ailleurs, il reste une série de méthodes d analyse factorielle qui seront abordées dans des publications ultérieures, et ce sera également de fournir des illustrations plus pratiques à l aide des logiciels appropriés. 106

Références bibliographiques DELGADO Jean pierre, 2001, Mathématiques appliquées, ESKA, 2è Edition, Paris, 165p. DENIZET Frédéric, 2008, Algèbre et géométrie, Edition Nathan, Paris, 501p. ESCH Louis, 1992, Mathématiques pour économistes et gestionnaires, Edition De Boeck, Bruxelles, 697p. KLOTZ Gérard, 2000, Mathématiques pour les sciences économiques et sociales, Edition Presses universitaires de France, Paris, 344p. MALU Raїssa, 2010, L indispensable des Mathématiques, Collection savoirs et découvertes, Louvain-la-Neuve, 116p. MAVITA Yannick, 2013, «Analyse en composantes principales», One pager (septembre), 8 (11): 92 100. MICHEL Philippe, 1989, Cours de mathématiques pour économistes, Economica, 2è Edition, Paris, 748p. MONIER Jean Marie, 1993, Géométrie, Editions Dunod, Paris, 347p. PEARSON, Karl, 1901, «On Lines and Planes of Closest Fit to Systems of points in Space, Philosophical Magazine, 2 (6): 559 572. TOMBOLA Cédrick et Jean Paul TSASA, 2013, «Analyse de la Structure d Espaces Vectoriels», One Pager Laréq (février), 5 (15): 93 99. TOMBOLA Cédrick, «Au délà de la corrélation linéaire : Métrique de Khi deux et rapport de corrélation», One Pager (février), 5 (9):, 54 59. ZOUHHAD Rachid, Jean Laurent VIVIANI et Françoise BOUFFARD, 2002, Mathématiques appliquées, Dunod, 5è ed, Paris, 335p. 107