But de l Analyse Factorielle des Correspondances: généralisation de l ACP pour le traitement de données qualitatives.



Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Statistique Descriptive Multidimensionnelle. (pour les nuls)

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

1 Complément sur la projection du nuage des individus

Chapitre 3. Les distributions à deux variables

La classification automatique de données quantitatives

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Statistiques Descriptives à une dimension

Cours d Analyse. Fonctions de plusieurs variables

Analyse en Composantes Principales

Introduction. Préambule. Le contexte

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Principe de symétrisation pour la construction d un test adaptatif

Introduction à l approche bootstrap

Analyse des correspondances avec colonne de référence

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Natixis Asset Management Response to the European Commission Green Paper on shadow banking

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Leçon N 4 : Statistiques à deux variables

INF6304 Interfaces Intelligentes

Probabilités sur un univers fini

Probabilités sur un univers fini

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Exemple PLS avec SAS

Angles orientés et trigonométrie

Extraction d informations stratégiques par Analyse en Composantes Principales

Statistique Descriptive Élémentaire

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Relation entre deux variables : estimation de la corrélation linéaire

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

I. Ensemble de définition d'une fonction

T de Student Khi-deux Corrélation

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Improving the breakdown of the Central Credit Register data by category of enterprises

Chapitre 2 Le problème de l unicité des solutions

Data mining 1. Exploration Statistique

Instructions Mozilla Thunderbird Page 1

3 Approximation de solutions d équations

Logiciel XLSTAT version rue Damrémont PARIS

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Cours 9 : Plans à plusieurs facteurs

LES TYPES DE DONNÉES DU LANGAGE PASCAL

NON-LINEARITE ET RESEAUX NEURONAUX

Statistique : Résumé de cours et méthodes

Seconde Généralités sur les fonctions Exercices. Notion de fonction.

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

I. Polynômes de Tchebychev

Les indices à surplus constant

Analyse de la variance Comparaison de plusieurs moyennes

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Exercices - Polynômes : corrigé. Opérations sur les polynômes

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

REVUE DE STATISTIQUE APPLIQUÉE

VI. Tests non paramétriques sur un échantillon

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LE PRODUIT SCALAIRE ( En première S )

Calcul différentiel sur R n Première partie

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Formulaire de candidature pour les bourses de mobilité internationale niveau Master/ Application Form for International Master Scholarship Programme

PEUT-ON «VOIR» DANS L ESPACE À N DIMENSIONS?

Cheque Holding Policy Disclosure (Banks) Regulations. Règlement sur la communication de la politique de retenue de chèques (banques) CONSOLIDATION

RAPID Prenez le contrôle sur vos données

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Formulaire de candidature pour les bourses de mobilité internationale niveau Master/ Application Form for International Master Scholarship Program

LES GENERATEURS DE NOMBRES ALEATOIRES

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

Complément d information concernant la fiche de concordance

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Évaluation de la régression bornée

Collecter des informations statistiques

Suites numériques 3. 1 Convergence et limite d une suite

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Correction de l examen de la première session

Limites finies en un point

La Routine Quotidienne. Le docteur se lave les mains

1 radian. De même, la longueur d un arc de cercle de rayon R et dont l angle au centre a pour mesure α radians est α R. R AB =R.

Construction d un cercle tangent à deux cercles donnés.

NORME INTERNATIONALE INTERNATIONAL STANDARD. Dispositifs à semiconducteurs Dispositifs discrets. Semiconductor devices Discrete devices

Géométrie dans l espace Produit scalaire et équations

CALCUL DE LA CONTRIBUTION - FONDS VERT Budget 2008/2009

Principe d un test statistique

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Représentation géométrique d un nombre complexe

Corrigé du baccalauréat S Pondichéry 12 avril 2007

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

1S Modèles de rédaction Enoncés

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Résumé du Cours de Statistique Descriptive. Yves Tillé

Small Businesses support Senator Ringuette s bill to limit credit card acceptance fees

Transcription:

Chapitre Analyse Factorielle des correspondances binaires (ACOBI). Introduction But de l Analyse Factorielle des Correspondances: généralisation de l ACP pour le traitement de données qualitatives. Se divise en 2 aires: Analyse des correspondances binaires (ACOBI): tableau de contingence (2 variables) Analyse des correspondances multiples (AFCM): tableau Individus variables ( > 2 variables).

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)2 Origine: chez Procter & Gamble: - Richardson & Kuder (933) Formalisation mathématique: - ACOBI: Hirschfeld, (935), A connection between correlation and contingency., Proc. Camb. Phil. Soc., 3, 520-524. - AFCM: Guttman, (94), The quantification of a class of attributes: a theory and method of a scale construction. In: The prediction of personal adjustement (Horst P., Ed.), 25-264, SSCR New York. Essor: Benzecri, (973), L analyse des données. Tome : La taxinomie. Tome 2: L analyse des correspondances (2 de. éd. 976). Dunod, Paris.

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)3 Objectif de l ACOBI: Mise en évidence sous forme de graphique des liaisons entre X et Y à partir du tableau de contingence Etape : ACP du tableau des profils-lignes Etape 2: ACP du tableau des profils-colonnes Etape 3: Etude des liens entre les deux ACP Etape 4: Construction de graphiques mettant en évidence les proximités entre les profilslignes, proximités entre les profils-colonnes et nature de la liaison entre les lignes et les colonnes.

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)4.2 Rappels Exemple: Enquête auprès de 200 étudiants Variable X: Choix de la Faculté à l université (3 modalités): A =Sciences Humaines, A 2 =Sciences, A 3 =Médecine. Variable Y : Orientation en humanités (3 modalités): B =Latin-Grec, B 2 =Math Sciences, B 3 =Latin-Math. n jk B B 2 B 3 n j. A 28 73 29 30 A 2 0 2 8 20 A 3 2 25 2 50 n.k 40 00 60 200

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)5 Formalisation 2 variables qualitatives (nominales) X et Y : - X prend J modalités: A,..., A J - Y prend K modalités: B,..., B K. X et Y sont observés sur un échantillon de taille n = Tableau de contingence (N): X Y B... B k... B K Kk= A n... n k... n K n. A j n j... n jk... n ip n j. A J n J... n Jk... n JK n J. Jj= n.... n.k... n.k n où les effectifs n jk représentent le nombre d individus ayant simultanément les modalités A j et B k. Notons que n j. = K k= n jk et n.k = J j= n jk.

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)6 Analyse exploratoire du tableau de contingence Tableau des fréquences relatives F Proportion d individus possédant simultanément les modalités A j et B k : f jk = n jk n (j =..., J; k =,..., K). Les fréquences relatives marginales sont: et f j. = n j. n f.k = n.k n (j =..., J) (k =,..., K).

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)7 Remarquons que: f jk est une estimation de π jk = P (X A j, Y B k ) f j. est une estimation de π j. = P (X A j ) f.k est une estimation de π.k = P (Y B k ) Exemple. f jk B B 2 B 3 f j. A 0.4 0.365 0.45 0.65 A 2 0 0.00 0.090 0.0 A 3 0.06 0.25 0.065 0.25 f.k 0.20 0.50 0.30

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)8 Tableaux des fréquences conditionnelles. Tableau des profils-lignes: Proportion des individus présentant la modalité B k parmi les individus ayant la modalité A j : f k j = n jk n j. = n jk/n n j. /n = f jk f j. (j = fixé; k =,..., K). = estimation de la probabilité conditionnelle: Exemple : P (Y B k X A j ) f jk f j. B B 2 B 3 Totaux A 0.25 0.562 0.223 A 2 0 0.00 0.900 A 3 0.240 0.500 0.260 f.k 0.200 0.500 0.300

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)9 2. Tableau des profils-colonnes: Proportion des individus présentant la modalité A j parmi les individus ayant la modalité B k : f j k = n jk n.k = n jk/n n.k /n = f jk f.k (j =,..., J; k = fixé). = estimation de la probabilité conditionnelle: Exemple : P (X A j Y B k ) f jk f.k B B 2 B 3 f j. A 0.700 0.730 0.483 0.65 A 2 0 0.020 0.300 0.0 A 3 0.300 0.250 0.27 0.25 Totaux

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)0 Situation d indépendance Si 2 variables aléatoires X et Y sont indépendantes, alors j {,..., J} et k {,..., K}: a)p (X A j, Y B k ) = P (X A j )P (Y B k ) b)p (Y B k X A j ) = P (Y B k ) c)p (X A j Y B k ) = P (X A j ) L échantillon de taille n nous permet d estimer ces quantités, dès lors sous l hypothèse d indépendance, on devrait avoir: a )f jk f j. f.k j {,..., J} k {,..., K} b )f k j = f jk f j. f.k j, k c )f j k = f jk f.k f j. j, k. Ainsi tous les profils-lignes (b) et les profilscolonnes (c) sont pratiquement égaux.

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI) Nous allons donc définir les fréquences (relatives) théoriques vérifiant l hypothèse d indépendance: f jk = f j.f.k et n jk = nf jk = n j.n.k n Exemple. Effectifs et effectifs théoriques: n jk B B 2 B 3 n j. A 28 73 29 30 A 2 0 2 8 20 A 3 2 25 2 50 n.k 40 00 60 200 n jk B B 2 B 3 n j. A 26 65 39 30 A 2 4 0 6 20 A 3 0 25 5 50 n.k 40 00 60 200

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)2 Fréquences et fréquences théoriques: f jk B B 2 B 3 f j. A 0.4 0.365 0.45 0.65 A 2 0 0.00 0.090 0.0 A 3 0.06 0.25 0.065 0.25 f.k 0.20 0.50 0.30 fjk B B 2 B 3 f j. A 0.3 0.325 0.95 0.65 A 2 0.02 0.050 0.030 0.0 A 3 0.05 0.25 0.075 0.25 f.k 0.20 0.50 0.30

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)3 Indice d attraction/répulsion L élément jk de la matrice D d attraction/répulsion (J K) est défini par: d jk = n jk n jk = f jk f jk = f jk f j. f.k. Interprétations: d jk > f jk > f j. f.k f jk > f j. f.k f k j > f.k et f j k > f j. les modalités A j et B k s attirent d jk < f jk < f j. f.k f jk < f j. f.k f k j < f.k et f j k < f j. les modalités A j et B k se repoussent.

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)4 Exemple. f jk B B 2 B 3 fjk B B 2 B 3 A 0.4 0.365 0.45 R 0.3 0.325 0.95 A 2 0 0.00 0.090 R 2 0.02 0.050 0.030 A 3 0.06 0.25 0.065 R 3 0.05 0.25 0.075 = d jk U U 2 U 3 R.08.2 0.74 R 2 0.00 0.20 3.00 R 3.20.00 0.87 Donc on peut remarquer que les modalités Sciences et Latin Math s attirent fortement alors que les modalités Sciences et Latin Grec se repoussent fortement.

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)5 Mesures d association La statistique du χ 2 : Conditions d application: n 30 n jk j, k au moins 80% des n jk 5 Si les conditions ne sont pas rencontrées = regrouper des classes. J K χ 2 (n jk n jk = )2. j= k= n jk On rejette l hypothèse d indépendance entre X et Y avec une erreur de ère espèce de α% si χ 2 > χ 2 (J )(K ); α.

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)6 La statistique du φ 2 = χ2 n : φ 2 = J j= K k= (f jk f jk )2 f jk = J j= K k= ( n jk n n jk n )2 n jk n Rem: Pondérons les indices d attraction-répulsion par les fréquences ( J j= Kk= f jk = ): d = = s 2 d = J j= J j= J j= K k= K k= K k= f jk d jk = f jk = J j= K k= fjk f jk fjk f jk (d jk ) 2 = χ2 n = φ2 = Mesure de la dispersion des indices d attractionrépulsion autour de leur moyenne (égale à ):

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)7.3 Etude du nuage des profils-lignes Le nuage ℵ l des profils-lignes A chaque ligne A j du tableau des profilslignes, on associe un point L j de IR K ayant comme coordonnées: l = (f j j,..., f k j,..., f K j ). Au profil-ligne l j (j {,..., J}), on associe le poids f j. (% d individus ayant la modalité A j ) = Le nuage ℵ l de points de IR K formé par les J profils-lignes pondérés: ℵ l = {(L ; f. ), (L 2 ; f 2. ),..., (L J ; f J. )}.

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)8 Centre de gravité de ℵ l Les coordonnées du centre de gravité sont calculées comme une moyenne pondérée des J profilslignes: g l = J f j. l j j= La kème coordonnée de g l est donnée par: J f j. f k j = j= J j= f j. f jk f j. = donc ḡ l = (f.,..., f.k ). J f jk = f.k j= = les coordonnées du centre de gravité G l du nuage des J profils-lignes (pondérés) sont données par le profil-ligne marginal (% d individus prenant les modalités B k ).

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)9 La métrique du khi-deux dans IR K Définition: La distance du khi-deux entre les points X et Y de coordonnées (x,..., x K ) et (y,..., y K ) est donnée par: K d 2 (x χ 2 (X, Y ) = k y k ) 2 k= f.k Accorde la même importance à toutes les colonnes (quelles que soient leurs fréquences relatives) dans le calcul de la distance entre deux profilslignes.

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)20 Inertie totale du nuage ℵ l Inertie totale tenant compte du poids de chaque profil-ligne et de la distance du χ 2 dans IR K : J I χ 2(ℵ l, G l ) = f j. d 2 χ 2 (L j, G l ) = = = = j= J K f j. j= k= J K f j. j= J j= J j= K k= K k= k= f.k (f k j f.k ) 2 f.k ( f jk f j. f.k ) 2 f j. f.k ( f jk f j. f.k f j. ) 2 (f jk f.k f j. ) 2 f j. f.k = φ 2 = χ2 n = justification du nom de la distance!

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)2 Interprétation de l inertie totale: Mesure de la dépendance qui existe entre les variables qualitatitives X et Y Indépendant de l effectif total n Si I χ 2(ℵ l, G l ) = 0 cela signifie que tous les profils-lignes L,..., L J sont confondus avec le centre de gravité G l : k {,..., K} et j {,..., J} f k j = f.k f jk f j. = f.k f jk = f j. f.k donc inertie nulle = indépendance parfaite entre lignes et colonnes du tableau de contingence.

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)22.4 ACP du nuage ℵ l des profils-lignes (Etape ) Démarche similaire avec 2 adaptations: Tous les individus n ont plus le même poids: le poids de l individu A j vaut f j. La distance utilisée pour mesurer les proximités entre deux individus n est plus la distance euclidienne, mais bien la distance du χ 2. L ACP ne va pas être effectuée sur le nuage: ℵ l = {(L, f. ),..., (L J, f J. )} mais sur le nuage de points transformés: ℵ = {(L, f.),..., (L J, f J.)} où L j a pour coordonnées: f j l j = ( f.,..., f j. f. f jk f j. f.k f.k ) NB: Nuage de point centré à l origine.

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)23 Premier Axe Principal Le premier axe principal du nuage ℵ l est la droite passant par l origine ajustant le mieux possible le nuage de points au sens du critère de l inertie: I(ℵ l, ) = min :droite passant par l origine I(ℵ l, ) où I(ℵ l, ) = J j= f j. d 2 (L l, P (L j )). Problème: Chercher l axe engendré par le vecteur normé u qui maximise I(0, P (L j )): J max j= sous la contrainte f j. d 2 (0, P (L j )) u =

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)24 = Problème de maximisation sous contrainte. Solution: Recherche des valeurs et vecteurs propres de la matrice: V = J j= f j. l j (l j ) = u est le vecteur propre normé associé à la plus grande valeur propre λ = I(0, P (L j )). Remarque: La matrice V (K K) a comme élément (k, k ): ( ) ( ) J fjk f j. f.k fjk f j. f.k v kk = fj. f.k fj. f.k j= donc ceci nous permet d écrire: V = X X où la matrice X(J K) a comme élément: x jk = f jk f j. f.k fj. f.k

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)25 Première Composante Principale étant connu, le nuage de points-individus ℵ l est projeté sur celui-ci: P (ℵ l ) = {P (L ),..., P (L J )}. ce qui nous permet de définir j =,..., J: K φ,j = OP (L j ) =< OL j, u >= u,k (l j ) k k= j ) K = u, (l j ) + u,2 (l j ) 2 +... + u,k (l où φ,j correspond à la valeur de la première composante principale pour le jème profil-ligne. On peut démontrer (exercice) que la composante principale φ - est centrée J j= f j. φ,j = 0 - de variance λ.

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)26 Qualité globale de la première composante principale: taux d inertie = % d inertie expliqué par : λ φ 2 puisque, I(ℵ l, 0) = I(ℵ l, )+I(0, P (L j )) Contribution des modalités A j, j =,..., J Sachant que λ = s 2 φ = J J f j. φ 2,j = f j. d 2 (0, P (L j )) j= j= la contribution de la modalités A j à la variance de φ est donnée par: CT R λ (A j ) = f j.φ 2,j λ. = L interprétation de φ repose en priorité sur les modalités A j à contributions élevées.

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)27 Qualité de représentation des modalités La qualité de la représentation des profils-lignes L j sur l axe est mesurée par le cosinus carrés de l angle entre le vecteur OL j et l axe : cos 2 (OL j, ) = ( < OL j, u > OL j u ) 2 = φ2,j OL j 2. Le poids f j. n intervient pas dans cette formule = un point peut dès lors être très: - proche de l axe et donc bien représenté (points expliqués) - sans contribuer fortement à sa construction à cause d un f j. faible (points non explicatifs)

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)28 Etude des autres dimensions Le deuxième axe principal 2 est déterminé par le vecteur normé u 2 tel que: - u 2 u - l inertie par rapport à l origine du nuage projeté sur l axe principal 2 est maximale = u 2 est le vecteur propre normé de la matrice V associé à la deuxième plus grande valeur propre λ 2. On peut chercher, suivant les mêmes critères, les axes principaux 3, 4,...

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)29 Combien d axes principaux peut-on construire? ℵ l est contenu dans un hyperplan de dimension H min(j, K ) où H est égal au rang de la matrice V center au plus H axes principaux

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)30.5 Analyse en composantes principales du nuage ℵ c des profils-colonnes (Etape 2) Les définitions et résultats de l analyse du nuage ℵ l des profils-lignes se transposent immédiatement à l analyse du nuage ℵ c des profils-colonnes. Le nuage ℵ c des points de IR J des K profilscolonnes: ℵ c = {(C ; f. ), (L 2 ; f.2 ),..., (C K ; f.k )} où le point C k de IR J a comme coordonnées: c = (f k k,..., f j k,..., f J k ).

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)3 Transformation des profils-colonnes pour utiliser la distance euclidienne et travailler par rapport à l origine dans IR J : ℵ c = {(C, f. ),..., (C K, f.k )} ℵ c = {(C, f.),..., (C K, f.k)} où C j a pour coordonnées c j = ( f k f.,..., f J k f J. ) f. fj.

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)32 Axes principaux du nuage ℵ c Les axes principaux Γ,..., Γ H du nuage ℵ c: -passent par l origine -sont engendrés par les vecteurs propres orthonormés v,..., v H de la matrice W = XX associés aux H(= min(j, K )) valeurs propres non nulles λ,..., λ H rangées par ordre décroissant. La matrice X(J K) a comme élément: x jk = f jk f j. f.k fj. f.k Remarque: Les valeurs propres de W sont identiques à celles de V

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)33 Composantes Principales Les composantes principales ψ,..., ψ H fournissent les coordonnées des profils-colonnes dans le nouveau repère (orthonormé) v,..., v H de l hyperplan de dimension H dans lequel est contenu le nuage ℵ c: k =,..., K: ψ h,k = OP Γh (C k ) =< OC k, v h >= = v h, (c k ) + v h,2 (c J j= k ) J k ) 2 +... + v h,j (c v h,j (c k ) j Notons que ψ, ψ 2,..., ψ H sont h {,..., H}: - centrées J j= f j. ψ h,j = 0 - de variance λ h (inertie par rapport à l origine du nuage projeté) - non corrélées.

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)34 Qualité globale des Γ h % d inertie expliqué par la hème composante principale: λ h φ 2 Contribution des modalités B k, j =,..., J Sachant que λ h = s 2 ψ h = K f.k ψh,k 2 k= la contribution de la modalités B k à la variance de ψ h est donnée par: CT R λh (B k ) = f.kψ 2 h,k λ h. Qualité de représentation du profil-colonne C k sur l axe Γ h cos 2 (OC k, Γ h) = ( < OC k, v h > OC k v h ) 2 = ψ2 h,k OC k 2.

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)35.6 Lien entre les 2 analyses (Etape 3) L analyse du nuage de points ℵ c se déduit de celle sur ℵ l et vice versa. = Richesse de l ACOBI provient des relations entre les analyses des 2 nuages de points.

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)36 Profils-lignes ℵ l : IRK Profils-colonnes ℵ c: IR J (λ h, u h ) où h =,..., H (λ h, v h ) où h =,..., H sont couples propres de la matrice V = X X W = XX ce qui veut dire: V u h = λ h u h X Xu h = λ h u h Ainsi on a: W v h = λ h v h XX v h = λ h v h XX Xu h = λ h Xu h X XX v h = λ h X v h W Xu h = λ h Xu h Xu h vect. propre de W = V X v h = λ h X v h X v h vect. propre de V La norme de ces vecteurs étant donnée par Xu h = λ h X v h = λ h les vecteurs propres normés associés à λ h sont: Xu h X v h λh λh En conclusion on a les relations: v h = Xu h u h = X v h λh λh

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)37 Ceci mène (après plusieurs calculs et démonstrations) à une égalité donnant la manière dont les coordonnées des composantes principales φ h et ψ h traduisent l écart à l indépendance de la cellule (j, k) du tableau de contingence: f jk f j. f.k = + d jk = + H h= H h= λh φ h,j ψ h,k λh φ h,j ψ h,k

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)38.7 Représentations graphiques.7. Représentation pseudo-barycentrique Superposition des cartes - (, 2 ) représentant la projection sur le er plan principal du nuage de points ℵ l - (Γ, Γ 2 ) représentant la projection sur le er plan principal du nuage de points ℵ c. = Représentation simultanée des ensembles de modalités {A,..., A J } et {B,..., B K }. La modalité A j est représentée par le point A j de coordonnées (φ,j, φ 2,j ) et la modalité B k est représentée par le point Bk de coordonnées (ψ,k, ψ 2,k ).

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)39 Interprétation des projections sur le premier axe Si cos 2 (OL j, ) grand = le profil L j est proche de sa projection P (L j ) sur l axe H = l j = h= φ h,j ū h = l j φ,jū Ceci implique donc que k {,..., K}: d jk = f jk f j. f.k + λ φ,j ψ,k. En conclusion: - Les modalités A j et B k s attirent (d jk > ) si φ,j > 0 et ψ,k > 0 si φ,j < 0 et ψ,k < 0 - Les modalités A j, B k se repoussent (d jk < ) si φ,j > 0 et ψ,k < 0 si φ,j < 0 et ψ,k > 0

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)40 Interprétation pour le er plan (, 2 ) Si cos 2 (OL j, (, 2 )) grand = le profil L j est proche de sa projection P (, 2 ) (L j ) H = l j = h= φ h,j ū h = l j φ,jū + φ 2,j ū 2 Ceci implique donc que k {,..., K}: d jk = f jk f j. f.k + λ φ,j ψ,k + λ2 φ 2,j ψ 2,k. En conclusion: - Les modalités A j et B k s attirent (d jk > ) si A j et B k au même quadrant - Les modalités A j, B k se repoussent (d jk < ) si A j et B k à des quadrants opposés - On ne peut rien conclure si A j et B k à des quadrants adjacents

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)4 Attraction (d_{jk} > ) RØpulsion (d_{jk} < ) Gamma2, Delta2-2 - 0 2 Aj* Bj* Gamma2, Delta2-2 - 0 2 Bj* Aj* -2-0 2 Gamma, Delta -2-0 2 Gamma, Delta Pas de conclusion Gamma2, Delta2-2 - 0 2 Bj* Aj* -2-0 2 Gamma, Delta Pour une modalité bien représentée sur le premier plan principal, on peut conclure que celle-ci est attirée ou repoussée par certaines modalités B k :

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)42.7.2 Représentation barycentrique Conclusions plus fines dans les cas d incertitude. On sait que: d jk = + H h= λh φ h,j ψ h,k = on va projetter les composantes principales ψ h réduite: ψ h = ψ h λh. = Représentation simultanée des ensembles de modalités {A,..., A J } et {B,..., B K } sur un plan où: - la modalité A j est représentée par le point A j de coordonnées (φ,j, φ 2,j ) - la modalité B k est représentée par le point B k de coordonnées ( ψ,k, ψ 2,k ) = ( ψ,k, ψ 2,k ). λ λ2

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)43 Interprétation pour le er plan Pour une modalité A j bien représentée dans le plan, 2, on a: d jk + φ,j ψ,k + φ 2,j ψ2,k + < OA j, O B k > où <.,. > est le produit scalaire usuel dans IR 2. En conclusion: Les modalités A j et B k s attirent (d jk > ) - si l angle entre OA j et O B k est aigu puisque alors < OA j, O B k > est positif Les modalités A j, B k se repoussent (d jk < ) - si l angle entre OA j et O B k est obtu puisque alors < OA j, O B k > est négatif

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)44 Attraction (angle aigu) RØpulsion (angle obtus) Gamma2, Delta2-2 - 0 2 Aj* Bj* Gamma2, Delta2-2 - 0 2 Bj* Aj* -2-0 2 Gamma, Delta -2-0 2 Gamma, Delta Exemples de cas d incertitude pour la représentation pseudo-barycentrique mais où avec une représentation barycentrique, on a une réponse: Règle générale: la droite A j et orthogonale au vecteur OA j passant par l origine partage les modalités B k en 2 groupes: celles du même coté que A j donc attirées par A j et celles repoussées par A j.

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)45.7.3 Biplot Pour plus de lisibilité du graphique, et puisque nous nous intéressons uniquement aux angles, on va diviser les coordonnées relatives aux profilslignes par λ : = Représentation simultanée des ensembles de modalités {A,..., A J } et {B,..., B K } sur un plan où: - la modalité A j est représentée par le point à j de coordonnées ( φ,j, φ 2,j ) = ( φ,j λ, φ 2,j λ ). - la modalité B k est représentée par le point B k de coordonnées ( ψ,k, ψ 2,k ) = ( ψ,k, ψ 2,k ). λ λ2 Cette représentation s appelle un BIPLOT.

CHAPITRE. ANALYSE FACTORIELLE DES CORRESPONDANCES BINAIRES (ACOBI)46.8 Exercices Pratiques Exemple: Elections Présidentielles de 98 en France

47 Chapitre 2 Analyse Factorielle des correspondances multiples (AFCM) But de l AFCM: généralisation de l ACP (variables quantitatives) pour le traitement d un tableau individus variables qualitatitives. Procédure: effectuer une ACOBI (comparaison de 2 variables qualitatives) sur le tableau disjonctif complet.

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)48 2. Données, Tableaux et Distances 2.. Tableaux binaires et tableau disjonctif complet Exemple 4 individus: n = 4 3 variables: P = 3 Y : sexe 2 modalités donc K = 2 (masculin=, féminin=2) Y 2 : état-civil 3 modalités donc K 2 = 3 (célibataire=, marié=2, divorcé ou veuf=3) Y 3 : niveau d étude 2 modalités: K 3 = 2 (primaire ou sec=, sup ou universitaire=2) K = 2 + 3 + 2 = 7.

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)49 Tableau logique condensé (les valeurs des modalités sont codées) n P Y Y 2 Y 3 2 2 2 2 3 3 2 4 2 2 Tableau disjonctif complet (TDC) X X 2 X 3 X X 2 X 2 X 22 X 23 X 3 X 32 P 0 0 0 0 3 2 0 0 0 0 3 3 0 0 0 0 3 4 0 0 0 0 3 n pl 3 2 2 2 2

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)50 Notations: - n individus, P variables: Y,..., Y P - la variable Y p prend K p modalités = K = P p= K p nombre total - n pl effectif observé de la modalité l de Y p - x ipl = si l individu i prend l pour Y p, 0 sinon - X pl variable indicatrice de la modalité l de Y p - X p = (X p,..., X pkp ) vecteurs des indicatrices de Y p Bien évidemment, on que K p l= n pl = n et P p= K p l= n pl = np

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)5 = tableau binaire X p associé à la variable Y p :... l... K p Kp l= x p... x pl... x pkp...... i x ip... x ipl... x ipkp...... n x np... x npl... x npkp ni= n p... n pl... n pkp n - Tableau disjonctif complet: X = (X,..., X P ) x... p... P P p= Kp l=...... P.... i x (n K )... x p (n K p )... x P (n K P ) P.... n...... P n i=.... np

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)52 2..2 Profils-lignes, profils-colonnes, profils marginaux et indice d attraction/répulsion AFCM sur Y,..., Y P = ACOBI sur le TDC. Il faut donc construire le tableau des fréquences relatives du TDC: Y... Y p... Y P... l... K...... l... K p...... l... K P...... n....... n i... f ipl = x ipl np... n....... n n...... n... f.pl = n pl np... où les fréquences relatives marginales sont: f i.. = n et f.pl = n pl np

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)53 Profil-ligne L i de l individu i: l i ( K) la plème composante du ième profil-ligne: p =,..., P ; (l i) pl = f ipl = x ipl/np f i.. /n l =,..., K p = x ipl P Profil-colonne C pl de la modalité l de Y p : c pl (n ) la ième composante du plème profil-colonne: i =,..., n. (c pl) i = f ipl f.pl = x ipl/np n pl /np = x ipl n pl Notation (l i) pl : plème composante du ième profil-ligne (c pl) i : ième composante du plème profil-colonne

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)54 Exemple Tableau des profils-lignes: 0 3 2 0 3 X X 2 X 3 X X 2 X 2 X 22 X 23 X 3 X 32 3 0 0 3 0 3 0 0 0 3 3 3 0 0 0 3 0 3 4 0 3 0 3 0 P. Ligne M. 2 3 2 2 2 2 2 3 0 2 2 2 2 Tableau des profils-colonnes: X X 2 X 3 X X 2 X 2 X 22 X 23 X 3 X 32 P. colonne M. 0 3 2 0 3 2 0 0 2 0 0 0 2 3 0 0 0 0 2 2 0 4 4 4 4 0 3 0 0 2 0 4

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)55 Indice d attraction/répulsion entre individu i et modalité l de Y p : d i,pl = f ipl f i.. f.pl = x ipl np n pl nnp = x ipl n pl /n Donc comme x ipl = {0, } et n pl /n, on a d i,pl = 0 si x ipl = 0 d i,pl = n n pl si x ipl = Interprétation: Si l individu i possède la modalité l de la variable Y p, alors l indice d attraction/répulsion d i,pl est d autant plus élevé que la modalité l de la variable Y p est rare (n pl petit)

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)56 2..3 Nuages de points et distances des profils-lignes Etude du nuage - des n profils-lignes L,..., L n - dans IR K où K = P p= K p - avec comme poids /n - et la métrique du χ 2. Le centre de gravité G l a comme plème coordonnées (p =,..., P ; l =,..., K p ): n n (l i) pl = n x np ipl = n pl np i= i= = G l = profil-ligne marginal (fréquence relative marginal)

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)57 Quelques Propriétés Distance entre individus (profils-lignes) d 2 χ 2 (L i, L i2 ) = = Interprétation: = n P P p= P p= K p l= K p l= P p= f.pl ((l i ) pl (l i 2 ) pl ) 2 n pl ( x i pl P np K p l= x i 2 pl P )2 n pl (x i pl x i2 pl) 2 2 individus sont d autant plus proche qu ils prennent les mêmes modalités

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)58 Exemple Calculons la distance entre individus et 2: K 3 d 2 p χ 2 (L, L 2 ) = ((l ) f pl (l 2) pl ) 2.pl p= l= = 2(0 0) 2 + 2 3 ( 3 3 )2 + 2 2 ( 3 3 )2 + 2 2 (0 0)2 + 2(0 0) 2 + 6( 3 0)2 + 6(0 3 )2 = 4 3 =.33 Autre possibilité pour calculer les distances: d 2 χ 2 (L, L 2 ) = n P 3 p= K p l= n pl (x i pl x i2 pl) 2 = 4 3 ((0 0)2 + ( )2 3 + 2 ( )2 + (0 0) 2 + (0 0) 2 + 2 ( 0)2 + 2 (0 )2 ) = 4 3 =.33

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)59 Matrice des distances au carré et des distances entre individus (profils-lignes) d 2 χ 2 (L i, L j ) L L 2 L 3 L 4 L -.33 5. 2.00 L 2.33-3.78 3.33 L 3 5. 3.78-5.78 L 4 2.00 3.33 5.78 - d χ 2(L i, L j ) L L 2 L 3 L 4 L -.5 2.26.4 L 2.5 -.94.83 L 3 2.26.94-2.40 L 4.4.83 2.40 - Conclusions individus et 2 proches (assez similaires) individus et 3 ainsi que 3 et 4 très différents

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)60 Distance du profil-ligne L i au centre de gravité: d 2 χ 2 (L i, G l ) = = = = n P = n P = n P P p= P p= P p= K p l= K p l= K p l= P p= P p= P p= f.pl ((l i) pl n pl np )2 np n pl ( x ipl P n pl np )2 ( ) n x 2 ipl + n2 pl P n pl n 2x n pl 2 ipl n K p l= K p l= K p l= x ipl + n pl np P p= K p l= x ipl + n pl np np 2 P P x ipl n pl n pl 2 P P p= K p l= x ipl = Plus un individu prend des modalités rares (x ipl = et n pl petit), plus il est éloigné de G l.

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)6 Inertie totale du nuage ℵ l autour de G l : n I χ 2(ℵ l, G l ) = f i.. d 2 χ 2 (L i, G l ) où K P variable = = P = P i= n i= n P p= P p= = K P n P K p l= K p l= P p= n i= K p l= n pl n pl n x ipl x ipl n pl n n pl n i= n i= est le nombre moyen de modalités par

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)62 Cette inertie dépend uniquement du nombre de modalités et de variables et non des liaisons entre les variables. C est une quantité qui, dans le cadre de l AFCM (comme dans celui de l ACP normé), n a pas de signification statistique i {,..., n} le profil-ligne l i vérifie les P contraintes linéaires: K p (l i ) pl = l= K p l= x ipl P = P p =,..., P = le nuage ℵ l se trouve dans un espace de dimension au plus égale à K P.

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)63 2..4 Nuages de points et distances des profils-colonnes Le nuage des - K = P p= K p profils-colonnes C pl - dans IR n - avec comme poids f.pl = n pl np - et la métrique du χ 2. Le centre de gravité G c a comme ième coordonnées (i =,..., n): P p= K p l= f.pl (c pl) i = P p= K p l= n pl np x ipl n pl = n = G c = profil-colonne marginal (fréquence relative marginale)

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)64 Quelques Propriétés Distance entre modalités (profils-colonnes) Distance du χ 2 entre la modalité l de la variable Y p et la modalité l 2 de Y p2 est: n d 2 χ 2 (c pl, c p2l2 ) = ((c pl) f i (c p2l2) i ) 2 i.. Interprétation: = = n i= n i= n n p=i ( x ipl n pl x ip2l2 n p2l2 ) 2 ( x ipl n pl x ip2l2 n p2l2 ) 2-2 modalités sont d autant plus proche que les mêmes individus les prennent - modalité rare est éloignée des autres.

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)65 Exemple Distance entre modalités de Y et 2 de Y 2 : n d 2 χ 2 (c, c 22 ) = ((c f ) i (c 22 ) i ) 2 i= i.. = 4 ((0 0) 2 + (0 0) 2 + ( 0) 2 + (0 ) 2) = 8 d χ 2(, ) 2 2 22 23 3 32-2.3 2.45 2.83 0 2.45 2-0.67 0.94 2.3 0.67.37 2-2.45 2.45.4.4 22-2.83 2.45 23-2.45 3-2 32 - - 2 et 2 sont assez proches (50% des individus ont choisis ces 2 modalités)

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)66 Distance du profil-colonne C pl au centre de gravité: d 2 χ 2 (C pl, G c ) = = = n n((c pl) i n )2 i= n i= n i= = n n 2 pl n( x ipl n pl n )2 n x2 ipl n 2 pl n i= = n n pl + n n n n 2 2 i= x ipl + 2 n pl n i= = Plus la modalité l de la variable Y p i= est rare (effectif n pl petit), plus le profil colonne associé est éloigné de G c. x ipl x ipl n pl

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)67 Inertie totale du nuage ℵ c autour de G c : I χ 2(ℵ c, G c ) = = = = P p= P p= P p= P p= K p l= K p l= K p l= f.pl d 2 χ 2 (C pl, G c ) n pl np ( n n pl ) P ( n pl n ) P (K p ) = P (K P ) = K P Remarque: I χ 2(ℵ c, G c ) = si toutes les variables ont 2 modalités. L inertie totale dépend uniquement du nombre de variables et de modalités, et non des liaisons entre les variables.

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)68 Contribution de la modalité l de la variable Y p à l inertie totale du nuage ℵ c : f.pl d 2 χ 2 (C pl, G c ) = n pl np ( n ) n pl = P n pl np = P ( n pl n ) = Une modalité a une contribution à l inertie totale d autant plus forte que sa fréquence est faible (donc elle est rare) La contribution de la variable Y p (somme des contributions des modalités) vaut: K p l= P ( n pl n ) = P (K p ) = Une variable a une contribution à l inertie totale d autant plus forte que son nombre de modalités est élévé

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)69 Si on veut faire jouer le même rôle à toutes les variables et à toutes les modalités, il est préférable dans la pratique, d utiliser des variables ayant plus ou moins le même nombre de modalités à fréquences relativement équilibrées.

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)70 2.2 AFCM 2.2. Recherche des axes principaux (Résultats similaires à l ACOBI) Profils-lignes ℵ l = {(L ; n ),..., (L n; n )} muni de la distance χ 2 dans IR K où L i a comme coordonnées: l = x ipl i P p =,..., P ; l =,..., K p Profils-colonnes ℵ c = {(C pl ; f.pl = n pl n ) où p =,..., P et l =,..., K p } muni de la distance χ 2 dans IR n où C pl a comme ième coordonnées pl c = x ipl n pl i =,..., n

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)7 Profils-lignes ℵ l : IRK Profils-colonnes ℵ c: IR n (λ h, u h ) où h =,..., H (λ h, v h ) où h =,..., H sont couples propres de la matrice V = T T W = T T V u h = λ h u h Ainsi on a: W v h = λ h v h où T est une matrice n K avec coordonnées: t i,pl = f ipl f i.. f.pl fi.. f.pl = x ipl n pl n P npl Construction des composantes principales (projection des profils-lignes* et colonnes* sur les axes): φ h,j = OP h (L j ) =< OL j, u h >= ψ h,pl = OP Γh (C pl ) =< OC pl, v h >= K k= n i= u h,k (l j ) k v h,j (c pl ) i

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)72 Nombre de dimensions à garder En ACP, on utilise comme règle de ne retenir une composante principale que si la valeur propre correspondante est supérieure à la moyenne des valeurs propres, c est-à-dire. En AFCM, cette règle devient: Ne retenir une composante principale que si la valeur propre associée est supérieur à P En effet, supposons que H = K P (cas le plus fréquent), alors la moyenne de toutes les valeurs propres non nulles vaut: des valeurs propres non nulles K P = K P inertie totale du nuage ℵ l autour de G l = K P (K P ) = P d où la règle proposée.

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)73 2.2.2 Qualité de représentation des modalités La qualité de la représentation de la modalité l de la variable Y p sur l axe principal Γ h est: cos 2 ( angle entre le vecteuroc pl et l axe Γ h) cos 2 ( β h,pl ) = ψ2 h,pl OC pl 2 On peut démontrer qu on a la relation suivante: cos(β h,pl ) = r Xpl,φ h Donc comme en ACP où on construit le cercle des corrélations des variables, en AFCM on construit celui des modalités.

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)74 2.2.3 Contribution des modalités Contribution de la modalité l de Y p à la variance de ψ h : CT R Γh (X pl ) = f.plψ 2 h,pl λ h = n pl np λ h ψ 2 h,pl Contribution d autant plus forte que X pl est corrélée avec φ h et que la modalité est rare (n pl petit) Contribution globale d une variable (toutes les modalités) à la variance de ψ h : CT R Γh (Y p ) = K p l= CT R Γh (X pl )

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)75 2.2.4 Formules de reconstitution Les formules introduitent en ACOBI deviennent: H f ipl = f i.. f.pl ( + φ h,i ψ h,pl ) λh h= = x ipl np = n H pl nnp ( + h= = x ipl = n pl n ( + H h= λh φ h,i ψ h,pl ) λh φ h,i ψ h,pl ) L écart entre la probabilité observée que l individu i possède la modalité l de Y p (x ipl ) et la probabilité globale de posséder cette modalité ( n pl n ) s exprime en fonction des composantes principales Comparaison entre un indicidu i et une modalité l associée à la variable Y p

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)76 Deux autres formules de décomposition peuvent être introduite: La fréquence absolue d association n pl,p l = nombre d individus ayant la modalité l pour Y p et la modalité l pour Y p est: n pl,p l = = n x ipl x ip l i= n i= n pl n ( + H h= λh φ h,i ψ h,pl ) n p l H n ( + φ h,i ψ h,p l ) λh h= =... = n pln p l H ( + ψ n h,pl ψ h,p l ) h= = Comparaisons entre modalités

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)77 Or l indice d attraction/répulsion d pl,p l entre la modalité l de Y p et la modalité l de Y p est égal à: d pl,p l = n pl,p l /n n pl n = n pl,p l p l n pl n p l n n n H = d pl,p l = + ψ h,pl ψ h,p l h= La proximité entre 2 individus i et i peut être définie par: p i,i = + H φ h,i φ h,i h= Deux individus sont proches s ils se ressemblent, c est-à-dire s ils ont choisi globalement les mêmes modalités

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)78 2.3 Représentations graphiques Deux types de représentations graphiques: Représentation standard (pseudo-barycentrique) Représentation biplot (barycentrique) 2.3. Représentation standard Nous nous restreignons au er plan principal mais d autres dimensions peuvent également être envisagées ( suivre la règle concernant le choix du nombre de dimensions à conserver). La carte des individus est construite en projettant les 2 ACP, c est-à-dire on projette: - les points individus A i (i =,..., n) de coordonnées (φ,i, φ 2,i ) - les points modalités Bpl (p =,..., P ; l =,..., K p ) de coordonnées (ψ,pl, ψ 2,pl )

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)79 Delta 2,Gamma 2 -.0-0.5 0.0 0.5.0 B_p l * A_i * A_i* B_pl* -.0-0.5 0.0 0.5.0 Delta, Gamma Cette représentation donne l image la plus fidèle dans un plan des nuages ℵ l et ℵ c

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)80 Interprétations: Comparaison des modalités bien représentées dans le er plan principal entre elles en utilisant l approximation de la formule d attraction/répulsion: 2 d pl,p l + ψ h,pl ψ h,pl h= = + < 0B pl, 0B p l > = + 0B pl 0B p l cos(0b pl, 0B p l ) Le plan est partagé en 2 partie par l axe B pl : - du coté de Bpl : modalités attirées par la modalité l de Y p - du coté opposé à Bpl : modalités repoussées par la modalité l de Y p. L attraction/répulsion sera d autant plus forte que < 0B pl, 0B p l > est grand.

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)8 Gamma 2 -.0-0.5 0.0 0.5.0 B_pl,perp* B_p l * B_p l * B_pl* -.0-0.5 0.0 0.5.0 Gamma Si les modalités pl, p l et p l sont bien représentées dans le plan (pas de condition sur les individus), on peut conclure que les modalités pl et p l s attirent, alors que les modalités pl et p l se repoussent

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)82 Comparaison des individus bien représentés dans le premier plan principal entre eux en utilisant l approximation de la formule de proximité entre individus: 2 p i,i + φ h,i φ h,i h= = + < 0A i, 0A i > = + 0A i 0A i cos(0a i, 0A i ) Le plan est partagé en 2 partie par l axe A i : - coté de A i où les individus ont tendance à avoir des modalités communes avec l individu i et cela d autant plus que < 0A i, 0A i > est elevé - coté opposé de A i où l interprétation est inverse

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)83 Delta 2 -.0-0.5 0.0 0.5.0 A_i * A_iperp* A_i * A_i* -.0-0.5 0.0 0.5.0 Delta Si les individus i, i et i sont bien représentés dans le plan (pas besoin de critères sur les modalités), on peut conclure que i ressemble à i et a peu de caractéristiques communes avec i

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)84 Comparaison individus bien représentés dans le er plan et modalités bien représentées dans le er plan en utilisant la formule de reconstitution des données: x ipl n pl n ( + 2 h= λh φ h,i ψ h,pl ) La présence des coefficients λh nous empêche de conclure aussi directement que précédemment. Si A i et B pl sont bien représentés et dans le même quadrant, l individu i aura tendance à posséder la modalité pl. Si A i et Bpl sont bien représentés et dans des quadrants opposés, il est probable que l individu i ne possédera pas la modalité pl. Mais on ne peut pas conclure lorque A i et Bpl sont dans des quadrants adjacents.

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)85 2.3.2 Représentation Biplot Dans la représentation standard, les individus et les modalités ont un rôle similaire. Dans la représentation biplot, il sera plus facile d interpréter les comparaisons entre les individus et les modalités. Les individus seront représentés par les points à i de coordonnées: ( φ,i, φ 2,i ) = ( φ,i λ, φ 2,i λ2 ) Les modalités seront représentés par les points B pl (p =,..., P ; l =,..., K p ) de coordonnées (ψ,pl, ψ 2,pl ).

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)86 Pour comparer individus et variables, on utilise: x ipl n pl n ( + 2 h= φ h,i ψ h,pl ) = n pl n (+ < 0Ã i, 0B pl >) = n pl n ( + 0Ã i 0B pl cos(0ã i, 0B pl )) Donc on déduit que l axe Bpl partage le biplot en 2 parties: - du coté de Bpl se trouve les individus ayant probablement la modalité pl (plus < A i, 0B pl > est grand en valeur absolue, plus on peut conclure avec confiance que i possède ou non la modalité pl) - du coté opposé c est exactement le contraire

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)87 Axe 2 -.0-0.5 0.0 0.5.0 B_pl,perp* ~A_ip * ~A_i* B_pl* -.0-0.5 0.0 0.5.0 Axe Si la modalité pl est bien représentée dans le plan, alors l individu i possède probablement la modalité pl et l individu i ne la possède pas

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)88 Remarques: codages des variables L ACOBI et l AFCM concernent le traitement des variables qualitatives. Donc, s il y a des variables quantitatives dans l étude, il est courant de les regrouper en classes pour les transformer par codage en variable qualitatives. Le nombre de classe ne doit pas être trop grand ni petit (généralement entre 3 et 8) Si le choix n est pas dicté par des considérations pratiques (facilité de l obtention des données, maintien d un choix antérieur, etc), il est conseillé de prendre des classes qui contiennent approximativement le même nombre d individus pour éviter les modalités rares. Si une des variables projettées sur les graphiques est ordonnée, il peut être utile de tracer la trajectoire qui relie les modalités ordonnées.

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)89 2.4 Le tableau de Burt (TB) Quand utiliser le TB au lieu du TDC? Si n est très grand (plusieurs centaines), la représentation simultanée des individus et des modalités est illisible. Si les individus sont anonymes, les données ne présentent de l intérêt que par l intermédiaire de leurs caractéristiques. Tableau de contingence (symétrique) obtenu en croissant 2 à 2 les K = K +...+K P modalités des P variables.

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)90 Y... Y p... Y P... K...... K p...... K P n 0...... P n Y..... n l,pl. n l,p l. K 0 n K...... P n K....... n p 0... P n p Y p. n pl,l..... n pl,p l. K p... 0 n pkp... P n pkp....... n P l,pl... n P 0 P n P Y p. n P l,l...... K p...... 0 n P KP P n P KP P n... P n K... P n p... P n pkp... P n P... P n P KP np 2 Au lieu de faire une ACOBI sur le tableau disjonctif complet (TDC), on peut la faire sur le tableau de Burt. NB: Les profils-colonnes sont identiques aux profilslignes puisque le tableau de Burt est symétrique.

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)9 2.4. Liens entre l AFCM réalisée sur le TDC et celle réalisée sur le tableau de Burt Les inerties associées au TB sont les carrés de celles associées au TDC, et donc: λ T B,h = λ 2 h h =,..., H Notons les composantes principales associées au TB ψ T B,h, nous avons les relations suivantes: s 2 ψ = λ h h et s 2 Ψ = λ T B,h T B,h = λ 2 h On peut également montrer h =,..., H: ψ T B,h = λ h ψ h

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)92 2.5 Example: What are the characteristics of socialist voters? Other question: Are the Muslims behaviors different from Catholics and Non-beleivers? Database: Votes for the PS in the regional elections of June 2004 in the Brussels Region

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)93 2.5. Society-oriented questions: Mail services should be privatized; Trade Unions should weigh heavily in major economic decisions; Homosexual couples should be allowed to adopt children; Consumption of cannabis should be forbidden; People don t feel at home in Belgium anymore; Abolishing the death penalty was the right decision. The answers proposed to these questions are: Total agreement (), Rather in agreement (2), Rather opposed (3), Totally opposed (4), No opinion (5).

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)94 2.5.2 χ 2 independence test Analyze of each society-oriented question separately by testing its dependency with respect to the belief variable using a χ 2 independence test. χ 2 Mail Trade Union Homosexual Test 26.78 27.3 44.82 p-value (0.00) (0.00) (0.00) χ 2 Cannabis Home D. Penalty Test 86.98 27.94.75 p-value (0.00) (0.00) (0.6) The assumption of independence between the society-oriented questions and belief-oriented question is rejected for all of the questions (at the 5% level) except for the question on the death penalty (very small variation inside the question).

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)95 2.5.3 Attraction-repulsion indexes Links between each pair of modalities of two variables with the attraction-repulsion indexes d jk defined as d jk = f jk f j. f.k where f jk is the observed frequency and f j. f.k is the theoretical frequency under the independence hypothesis. Interpretation: d jk > the two modalities attract each others d jk < the two modalities push each other away d jk the two modalities are close to being. independent

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)96 Mail services should be privatized Mail services should be privatized Attraction Index Non-believer Catholic Muslim Total agreement 0.72.4.96 Rather in agreement.055 0.707.3 Rather opposed.080.00 0.866 Totally opposed.9.062 0.757 No opinion 0.779 0.857.472 Proportion of Muslim PS-voters who declare having no opinion on the subject is much higher than the corresponding proportions of Catholic and Non-believer PS-voters. Proportion of Catholics who are in total agreement to a privatization of mail services is much higher.

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)97 Trade Unions should weigh heavily in major economic decisions Trade Unions Attraction Index Non-believer Catholic Muslim Total agreement 0.878 0.920.26 Rather in agreement.7 0.930 0.853 Rather opposed.203.02 0.588 Totally opposed 0.953.779 0.534 No opinion 0.847 0.953.290

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)98 Homosexual couples should be allowed to adopt children Homosexual couples should be allowed to adopt children Attraction Index Non-believer Catholic Muslim Total agreement.3 0.886 0.558 Rather in agreement.470 0.959 0.240 Rather opposed.0.220 0.676 Totally opposed 0.468.04.82 No opinion.240 0.674 0.825 Very clear-cut. Non-believers are proportionally much more in agreement with the assertion than others Catholics generally seem to oppose or totally oppose it. A vast majority of Muslims declare themselves totally opposed to the proposition.

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)99 Consumption of cannabis should be forbidden Consumption of cannabis should be forbidden Attraction Index Non-croyant Catholique Musulma Total agreement 0.626.6.548 Rather in agreement 0.748.76.300 Rather opposed.34 0.948 0.463 Totally opposed.37 0.680 0.60 No opinion.024.86 0.830 Majority of Muslims agree with the proposal, Majority of Non-believers declare themselves opposed to it.

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)00 People don t feel at home in Belgium anymore People don t feel at home in Belgium anymore Attraction Index Non-believer Catholic Muslim Total agreement 0.786.433.056 Rather in agreement 0.677.330.3 Rather opposed 0.937.207 0.962 Totally opposed.78 0.738 0.885 No opinion 0.867.082.66 Strong opposition between Non-believers and Catholics. Muslims also seem to agree on the fact that they don t feel at home in Belgium anymore.

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)0 Abolishing the death penalty was the right decision Abolishing the death penalty was the right decision Attraction Index Non-believer Catholic Muslim Total agreement.069 0.88 0.967 Rather in agreement.020 0.926.09 Rather opposed 0.735.486.05 Totally opposed 0.762.390.27 No opinion 0.932.78 0.989 High number of totally in agreement with abolishing it Muslims don t really show a tendency one way or another with respect to the others. Catholics seem to be more prone than Nonbelievers to be against the abolishment of the death penalty.

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)02 2.5.4 Multiple correspondance analysis (AFCM) Multivariate vision of the set of society-oriented questions (active variables) First factorial plan CAN4 POSTE4 0.5 HOMO POL OG BEL4 Second factor 0 PM NON BELIEVER POL2 HOMO2 CAN3 OG2 POL3 MUSLIM POL4 CATHOLIC HOMO4 CAN POL5 OG4 BEL2 POSTE2 PM4 PM3 BEL 0.5 POSTE3 CAN3 OG3 POL6 POL7 POSTE BEL3 HOMO3 PM2 0.5 0 0.5.5 First factor Figure 2.: Multiple Correspondence Analysis on society-oriented questions. Belief and the political scale are added as illustrative variables. Two illustrative variables: belief and the political scale The first axis represents a left-right dimension.

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)03 Inertia explained by the first plane: 20% Contributors on first factorial axis: 24.8% feeling at home in Belgium 22.7% the death penalty 7.9% adoption by homosexual couples 7% prohibition of cannabis consumption 0.4% privitization of mail services 7.2% Trade Unions in political decisions Contributors on second factorial axis: 24.2% privitization of mail services 9.3% adoption by homosexual couples 6.5% prohibition of cannabis consumption 4.7% the death penalty 3.6% feeling at home in Belgium.8% Trade Unions in political decisions

CHAPITRE 2. ANALYSE FACTORIELLE DES CORRESPONDANCES MULTIPLES (AFCM)04 2.5.5 Econometric Model Multivariate data analysis doesn t take into account the influence of other variables which may strongly influence the results Dependent variable: the left-right indicator built on the basis of the six society-oriented questions Regression Regression 2 Variable Coefficient Std. Error Coefficient Std. Error C -0.66*** (0.027) -0.457*** (0.078) NONCROYANT -0.39*** (0.050) -0.225*** (0.048) MUSULMAN 0.089 (0.055) 0.52*** (0.055) AGE 0.008*** (0.00) AUCUN 0.37*** (0.2) PRIMAIRE 0.42*** (0.094) PROFESSIONNEL 0.30*** (0.083) SECINF 0.46*** (0.068) SECSUP 0.274*** (0.053) SUPNONUNIV 0.63*** (0.054) TECHNIQUE 0.5 (0.096) R-squared: 2.6 % R-squared: 24.4 % Sample size: 676, *Statistically different from zero at 0%,