Analyse Factorielle des Correspondances (AFC)

Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Analyse des correspondances avec colonne de référence

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Extraction d informations stratégiques par Analyse en Composantes Principales

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Analyse en Composantes Principales

Chapitre 3. Les distributions à deux variables

Programmation linéaire

Statistique : Résumé de cours et méthodes

Statistique Descriptive Multidimensionnelle. (pour les nuls)

LE TABLEAU DE BORD DE SUIVI DE L ACTIVITE

1 Complément sur la projection du nuage des individus

Logiciel XLSTAT version rue Damrémont PARIS

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

PRIX DE VENTE À L EXPORTATION GESTION ET STRATÉGIES

Associations Dossiers pratiques

Introduction. Préambule. Le contexte

ACP Voitures 1- Méthode

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Créer le schéma relationnel d une base de données ACCESS

Compression Compression par dictionnaires

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Introduction à l approche bootstrap

1. Les comptes de dépôt et d épargne

Une implantation nationale Grâce à un réseau de 3 agences (Caen, Tours, Lyon), vous bénéficiez ou conservez un interlocuteur de proximité.

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

ECOLE DES HAUTES ETUDES COMMERCIALES CORRIGÉ TYPE DE L EXAMEN

Mémo d utilisation de ADE-4

UNE EXPERIENCE, EN COURS PREPARATOIRE, POUR FAIRE ORGANISER DE L INFORMATION EN TABLEAU

Localisation des fonctions

La classification automatique de données quantitatives

Les quatre chantiers :

Associations Dossiers pratiques

D où que vous soyez, accédez à la gestion de votre entreprise

Annexe 1 au règlement Sporttip

Les Français et le chauffage. Résultats de l étude menée

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

GUIDE PRATIQUE. Du provisionnement des emprunts à risques

SUPERTOTO TERMES & CONDITIONS. Table des Matières

Temps forts départementaux. Le calcul au cycle 2 Technique opératoire La soustraction

Evaluation de la typicité des vins liés au terroir : proposition de méthodes pour les professionnels de la filière

Relation entre deux variables : estimation de la corrélation linéaire

majuscu lettres accent voyelles paragraphe L orthographe verbe >>>, mémoire préfixe et son enseignement singulier usage écrire temps copier mot

I. Polynômes de Tchebychev

COMPTABILITÉ DE GESTION

Quelles sont les principales formules utiles pour l étude de cas de vente?

FORMULAIRE DE STATISTIQUES

Statistiques Descriptives à une dimension

Cours d analyse numérique SMI-S4

Éclairage naturel L5C 2009/2010. Aurore BONNET

Gestion des Clés Publiques (PKI)

Durée de L épreuve : 2 heures. Barème : Exercice n 4 : 1 ) 1 point 2 ) 2 points 3 ) 1 point

FORMULES DE CALCUL. Prix = PV TTC = PV HT x (1 + taux de TVA) TVA = PV HT x taux de TVA PV HT = PV TTC 1 + taux de TVA

Excel Avancé. Plan. Outils de résolution. Interactivité dans les feuilles. Outils de simulation. La valeur cible Le solveur

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Étude des résultats des investisseurs particuliers sur le trading de CFD et de Forex en France

Etape 1 : paramétrage et choix du modèle d organisation

Plus courts chemins, programmation dynamique

Corrigé du baccalauréat S Pondichéry 12 avril 2007

1- Enregistrer le nouveau planning

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

1- Enregistrer le nouveau planning

COMMUNICATEUR BLISS COMMANDE PAR UN SENSEUR DE POSITION DE L'OEIL

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

Les salariés de l économie sociale et solidaire

Université du Québec à Chicoutimi. Département d informatique et de mathématique. Plan de cours. Titre : Élément de programmation.

7. ECONOMIE 7.3. COMMERCE GESTIONNAIRE DE TRES PETITES ENTREPRISES

WILOG ERP Terroir. Gestion commerciale. Solution Cloud Solution Réseau Solution Monoposte. 136 boulevard de Finlande Pompey - France

DOSSIER DE CANDIDATURE

Pratique des options Grecs et stratégies de trading. F. Wellers

Analyse de la variance Comparaison de plusieurs moyennes

Analyse des Systèmes Asservis

Chp. 4. Minimisation d une fonction d une variable

café, restaurant & salon de thé DOSSIER DE CANDIDATURE franchise

INTRODUCTION A L ELECTRONIQUE NUMERIQUE ECHANTILLONNAGE ET QUANTIFICATION I. ARCHITECTURE DE L ELECRONIQUE NUMERIQUE

Exemple 4.4. Continuons l exemple précédent. Maintenant on travaille sur les quaternions et on a alors les décompositions

DataCar CRM V2.5.1 Gamme Expert Release Notes. DataCar CRM v Release Notes

GUIDE DES PROCEDURES APPEL A PROJETS 2013 DE RECHERCHE-ACTION

La méthode des scores, particulièrement de la Banque de France

Accompagnement personnalisé 6e

Cours 9 : Plans à plusieurs facteurs

Un essai de mesure de la ponction actionnariale note hussonet n 63, 7 novembre 2013

Résolution de systèmes linéaires par des méthodes directes

Programmation linéaire

Collecter des informations statistiques

La consolidation à une date ultérieure à la date d acquisition

L'analyse des données à l usage des non mathématiciens

PRINCIPES DE LA CONSOLIDATION. CHAPITRE 4 : Méthodes de consolidation. Maître de conférences en Sciences de Gestion Diplômé d expertise comptable

Chapitre 5 LE MODELE ENTITE - ASSOCIATION

Microsoft Excel : tables de données

La consolidation comptable

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

DataCar CRM V2.5.1 Gamme Expert Release Notes. DataCar CRM v Release Notes

CHAPITRE 3 LA SYNTHESE DES PROTEINES

INF6304 Interfaces Intelligentes

Correction du Baccalauréat S Amérique du Nord mai 2007

Le potentiel phénolique du Cabernet franc

Transcription:

Analyse Factorielle des Correspondances (AFC) Jérôme Pagès (& François Husson) Laboratoire de mathématiques appliquées - Agrocampus Rennes husson@agrocampus-ouest.fr / 43

Analyse Factorielle des Correspondances (AFC) Données 2 Modèle d indépendance 3 Les nuages et leur ajustement 4 Pourcentages d inertie et inertie en AFC 5 Représentation simultanée des lignes et des colonnes 6 Aides à l interprétation 2 / 43

Analyse Factorielle des Correspondances (AFC) Données 2 Modèle d indépendance 3 Les nuages et leur ajustement 4 Pourcentages d inertie et inertie en AFC 5 Représentation simultanée des lignes et des colonnes 6 Aides à l interprétation 3 / 43

Tableau de correspondances Ensemble J Tableau de correspondances Ensemble I i j J x ij x ij : nombre d individus appartenant à l élément i de l ensemble I Nombre d individus appartenant à l élément i de l ensemble I à l élément j de l ensemble J à l élément x ij j de l ensemble J I Personnages de Mots Nombre de fois que le personnage Phèdre (Racine) Lignes Colonnes i a utilisé le mot xj ij Parfums Descripteur Nombre de fois où le parfum i a Personnages de Phèdre Mots Nombre de fois que le personnage i (Racine) été décrit a utilisé par le mot le mot j j Milieux Vins Espèces Mots Abondance Nombre de fois l espèce que le vin ij a été dans associé le milieu iau mot j = Exemples où le test d indépendance du χ 2 peut être appliqué Bureau de vote Candidat Nombre de voix obtenues par le candidat j dans le bureau de vote i 4 / 43

Données historiques Enquête du CREDOC (N. Tabard, 974) Etude de la liaison entre deux variables qualitatives 5 / 43

Données n individus et 2 variables qualitatives V V 2 Modalités de V 2 j J Individus l i j Modalités de V i n I n Distribution des n individus dans les I J cases du tableau 6 / 43

Du tableau de contingences au tableau de probabilités Modalités de V 2 Marge colonne (probabilité marginale) j J Σ f ij = x ij n Modalités de V i Marge ligne Σ (probabilité marginale) I f f ij f. j =. j f ij i= I f i. J = = f i. f ij j= Liaison entre V et V2 : écart entre les données observées et le modèle d indépendance 7 / 43

Analyse Factorielle des Correspondances (AFC) Données 2 Modèle d indépendance 3 Les nuages et leur ajustement 4 Pourcentages d inertie et inertie en AFC 5 Représentation simultanée des lignes et des colonnes 6 Aides à l interprétation 8 / 43

Liaisons et indépendance entre deux variables qualitatives Modèle d indépendance : Evènements indépendants : P(A et B) = P(A) P(B) Variables qualitatives indépendantes : i, j, f ij = f i. f.j Probabilité conjointe = produit des probabilités marginales Autres écritures : f ij f ij = f.j = f i. f i. f.j Probabilité conditionnelle = probabilité marginale 9 / 43

Liaisons entre deux variables qualitatives Ecart entre données obs (f ij ) et modèle d indépendance (f i. f.j ) Significativité de la liaison (de l écart) : test du χ 2 χ 2 obs = I J (eff. observé eff. théorique) 2 effectif théorique i= j= = I J (n f ij n f i. f.j ) 2 n f i. f.j i= j= χ 2 obs = I J n i= j= (probabilité observée probabilité théorique)2 probabilité théorique = n Φ 2 2 Intensite de la liaison = Φ 2 = écart entre probabilités théoriques et observées 3 Nature de la liaison = association entre modalités L AFC travaille sur le tableau des probabilités ne dit rien sur la significativité visualise la nature de la liaison entre les deux variables 0 / 43

Comment l AFC appréhende l écart à l indépendance? Analyse par lignes : f ij = f.j f i. Modalités de V 2 j J Σ Profil ligne i = distribution conditionnelle Modalités de V i I G I f f ij i. f.j L AFC compare les profils lignes au profil moyen Profil ligne moyen = distribution marginale Profil de l ensemble des individus étudiés Approche multidimensionnelle de l écart à l indépendance / 43

Comparaison du profil ligne au profil moyen rester au foyer trav. à mi-temps trav. à plein temps 2 conj. tr. également 4.98 54.4 40.6 trav. mari + absorbant 5.4 73.5 2.08 seul le mari travaille 26.54 63. 0.35 marge ligne 6.47 65.4 8.39 rester au foyer trav. à mi-temps trav. à plein temps 2 conj. tr. également Trav. mari + absorb. seul le mari travail Marge ligne 0 20 40 60 80 00 Les femmes qui répondent seul le mari travaille répondent-elles de façon particulière à la question sur l activité d une mère de famille? 2 / 43

Comment l AFC appréhende l écart à l indépendance? Analyse par colonnes : f ij f.j = f i. Modalités de V 2 j J G J Modalités de V i f ij f. j f i. I Σ Profil colonne j = distribution conditionnelle Profil colonne moyen = distribution marginale Profil de l ensemble des individus étudiés Comparaison des profils colonnes au profil moyen Approche multidimensionnelle de l écart à l indépendance 3 / 43

yer mps temps Comparaison du profil ligne au profil moyen 2 conj. tr. également Trav. mari + absorb. seul le mari travail rester trav. à trav. à marge au foyer mi-temps plein temps colonne Marge ligne 2 conj. tr. également 4.58 2.64 33.44 5.4 trav. mari + absorbant 0.56 36.33 36.9 32.9 20 40 60 80 00 seul le mari travaille 84.86 5.02 29.65 52.67 00 2 conj. tr. également trav. mari + absorbant seul le mari travaille 0 20 40 60 80 Les femmes qui répondent travailler à mi-temps répondent-elles de façon particulière à la question sur la famille idéale? 4 / 43

Analyse Factorielle des Correspondances (AFC) Données 2 Modèle d indépendance 3 Les nuages et leur ajustement 4 Pourcentages d inertie et inertie en AFC 5 Représentation simultanée des lignes et des colonnes 6 Aides à l interprétation 5 / 43

Le nuage des (profils) lignes J RI d χ 2 ( i, i' ) Modalités de V 2 j J Σ i i ( poids f i.) N I G I Modalités de V i f f ij i. I G I f. j f. j f i' j f i'. f f ij i. Modalité j de V 2 Distance entre deux profils : d 2 χ 2 (i, i ) = Distance au profil moyen G I : d 2 χ 2 (i, G I ) = J f j=.j J ( fij f i. f i j f j=.j f i. ( fij f i. f.j ) 2 ) 2 6 / 43

Le nuage des (profils) colonnes Modalités de V 2 j J G J J RI I d χ 2 ( j, j' ) G J j j ( poids f ). j Modalités i de V f ij f. j f i. I Σ fi. f ij' f. j' f f ij. j Modalité i de V Distance entre deux profils : d 2 χ 2 (j, j ) = Distance au profil moyen G J : d 2 χ 2 (j, G J ) = I f i= i. I ( fij f i= i. ) 2 f ij f.j f.j ( fij f i. f.j ) 2 7 / 43

Que se passe-t-il s il y a indépendance? Pour tout i, f ij f i. = f.j les profils sont confondus avec le profil moyen N I réduit à G I L inertie du nuage est nulle RI J i N I G I f. j f f ij i. Modalité j de V 2 Idem pour les colonnes : pour tout j, f ij f.j = f i. 30 8 / 43

Ecart à l indépendance et inertie Plus les données s écartent de l indépendance et plus les profils s écartent de l origine I I Inertie(N I /G I ) = Inertie(i/G I ) = f i. dχ 2 2 (i, G I ) = = i= I J f i. f i= j=.j I J i= j= φ 2 mesure l intensité de la liaison ( fij f i. f.j (f ij f i. f.j ) 2 f i. f.j i= ) 2 = χ2 n = φ2 Etudier l inertie de N I revient à étudier l écart à l indépendance Idem pour N J : Inertie(N J /G J ) = Inertie(N I /G I ) (dualité) 9 / 43

Représentation du nuage des lignes (ou des colonnes) Décomposition de l inertie de N I par analyse factorielle Projection de N I sur une suite d axes orthogonaux d inertie maximum RI J M i u N I O = G I H i projection de M i sur P u 2 P I Trouver P tel que f i. (OH i ) 2 est maximum i= u axe d inertie maximum u 2 axe d inertie maximum avec u 2 u Inertie associée à l axe s : I f i. (OHi s )2 = λ s i= 20 / 43

Règles d interprétation sur l exemple Dim 2 (3.7%) -0.2 0.0 0.2 0.4 0.6 2 conj. tr. également rester au foyer trav. plein temps seul le mari trav. trav. mi-temps trav. mari + absorbant -0.6-0.4 er axe : attitude à l égard du travail féminin (lignes et colonnes) Dualité -0.6-0.4-0.2 0.0 0.2 0.4 0.6 Dim (86.29%) rester trav. à trav. à O = G J au foyer mi-temps plein temps 2 conj. tr. également 4.58 2.64 33.44 5.4 trav. mari + absorbant 0.56 36.33 36.9 32.9 seul le mari travaille 84.86 5.02 29.65 52.67 2 / 43

Analyse Factorielle des Correspondances (AFC) Données 2 Modèle d indépendance 3 Les nuages et leur ajustement 4 Pourcentages d inertie et inertie en AFC 5 Représentation simultanée des lignes et des colonnes 6 Aides à l interprétation 22 / 43

Pourcentages d inertie Qualité de représentation de N I par l axe de rang s I ( ) inertie projetée de N I sur u s i= = f i. OH s 2 i inertie totale de N = λ s Pourcentages d inertie (comme I dans toute analyse I i= f i. (OM i ) 2 K factorielle). La qualité de représentation est mesurée par le rapport : inertie projetée/inertie i=k λ k totale 2. Les inerties projetées s additionnent d un axe à l autre (axes orthogonaux) Inertie Inertie (%) F 0.7 3. La décroissance 86.292 des inerties (en fonction du Ecart rang s) suggère à l indépendance le nombre d axes bien à conserver résumé F2 par le premier axe (86 %) 0.09 0 vins blancs 3.708 de Loire décrits par 30 mots Somme 0.35 00j 30 2 Inerties projetées s additionnent d un axe à l autre (axes orthogonaux) K k= λ k = Inertie (N I ) = Φ 2 Ici nφ 2 = 724 0.35 i = χ 2 x = 233.43 0 3 La décroissance desx ij inerties : nombre suggère de fois quele nombre d axes à conserver le mot j a été associé au vin i. N axe Val. propre % % cumulé 0.436 28.932 28.932 2 0.37 24.666 53.598 3 0.8 2.055 65.653 4 0.56 0.348 76.00 5 0. 6.645 82.646 x ij Proba. critique = 0 49 % d'inertie 0 5 0 5 20 25 AFC sur 0 vins blancs de Loire décrits par 30 mots 2 3 4 5 6 7 8 9 Rang de l'axe 23 / 43

Inerties (= valeurs propres). Inerties (= valeurs propres). Très particulières en AFC. En AFC 0 λ s En AFC : 0 λ s En ACP λ En ACP (normée) : λ s A quelle structure des données correspond le maximum? A quelle structure correspond une valeur propre de? J J 2 λ s = I I 2 0 0 J I J 2 I 2 Axe s Partition en deux classes des lignes et des colonnes Association exclusive des classes Partition en deux classes des lignes des colonnes Associations exclusives des classes 24 / 43

Données Données : reconnaissance : reconnaissance de trois de trois saveurs saveurs (sucré, (sucré, acide, acide, amer) amer) Pour Pour chaque chaque saveur, Inerties saveur, on a on demandé (= a demandé valeurs à dix à personnes propres) dix personnes de reconnaître de reconnaître la saveur la saveur d une d une solution solution qui leur qui était leur était présentée. présentée. Données : reconnaissance de trois saveurs (sucré, acide, amer) Pour chaque saveur, on a demandé à dix personnes de reconnaître la saveur d une solution qui leur était présentée Perçu Perçu Perçu Perçu Perçu Perçu sucré sucré acide acide amer amer Sucré Sucré 0 0 0 00 0 Acide Acide 0 0 9 9 Amer Amer 0 0 3 37 7 AFC AFCV. Propre V. Propre % % Axe Axe 72,727 72,727 Axe 2 Axe 20,375 0,375 27,273 27,273 Somme Somme,375,375 00 00 Perçu Perçu Perçu Perçu Perçu Perçu sucré sucré acide acide amer amer Sucré Sucré0 00 0 0 Acide Acide 0 0 7 37 3 Amer Amer 0 0 5 5 5 AFC AFC V. Propre V. Propre % % Axe Axe 96 96 Axe 2 Axe 20,042 0,042 4 4 Somme Somme,042,042 00 00 Dim 2 (27.27%) -.0-0.5 0.0 0.5.0 Dim 2 (27.27%) -.0-0.5 0.0 0.5.0 Perçu.amer Perçu.amer Amer Amer Perçu.sucré Perçu.sucré Sucré Sucré Perçu.acide Perçu.acide Acide Acide Dim 2 (4.00%) -.0-0.5 0.0 0.5.0 -.0-0.5 0.0 0.5.0 Perçu.amer Perçu.amer Amer Amer Sucré Sucré Perçu.sucré Perçu.sucré Acide Acide Perçu.acide Perçu.acide Dim 2 (4.00%) -0.5 0.0-0.5 0.5 0.0.0 0.5.5.0.5-0.5 0.0-0.5 0.50.0.00.5.5.0.5 Dim (72.73%) Dim (72.73%) Dim (96.00%) Dim (96.00%) 25 / 43

Inerties (= valeurs propres) Inertie Inertie (%) F 0.7 86.292 F2 0.09 3.708 Somme 0.35 00 λ = 0.7 on est loin d une association exclusive entre une ligne et une colonne Φ 2 = 0.35 2 on est loin d une liaison parfaite, i.e. d une association exclusive entre les modalités des deux variables 26 / 43

Analyse Factorielle des Correspondances (AFC) Données 2 Modèle d indépendance 3 Les nuages et leur ajustement 4 Pourcentages d inertie et inertie en AFC 5 Représentation simultanée des lignes et des colonnes 6 Aides à l interprétation 27 / 43

Représentation simultanée des lignes et colonnes Relation de transition = propriétés barycentriques F s (i) = λs J f ij f i. G s (j) j= }{{} F s(i) : coord. de la ligne i sur l axe de rang s f ij : jème élément du profil i f i. G s(j) : coord. de la colonne j sur l axe de rang s λ s : inertie associée à l axe s (en AFC λ s ) Le long de l axe de rang s, on calcule le barycentre de toutes les colonnes, chaque colonne j étant affectée du poids f ij /f i. Le barycentre est ensuite d autant plus écarté de l origine que λ s est petit : / λ s G s (j) = λs I i= f ij f.j F s (i) 28 / 43

tation simultanée u Perçu e amer 0 3 5 Représentation f simultanée et inertie ij Gs ( j) = Fs ( i) λ i f s. j G s (j) = λs Perçu Perçu Perçu sucré acide amer Sucré 0 0 0 Acide 0 9 Amer 0 3 7 Inerties et représentation simultanée I f ij F s (i) f.j i= Perçu Perçu Perçu sucré acide amer Sucré 0 0 0 Acide 0 7 3 Amer 0 5 5 Sucré Acide Amer % 96 4 00 AFC V. Propre % Axe 72,727 Axe 2 0,375 27,273 Somme,375 00 AFC V. Propre % Axe 96 Axe 2 0,042 4 Somme,042 00 AFC Axe Axe 2 Somm Sucré çu.sucré Dim 2 (27.27%) -.0-0.5 0.0 0.5.0 Perçu.amer Amer Perçu.acide Acide Perçu.sucré Sucré Dim 2 (4.00%) -.0-0.5 0.0 0.5.0 Perçu.amer Amer Acide Perçu.acide Sucré Perçu.sucré Dim 2 (27.27%) -.0-0.5 0.0 0.5.0 Perç Ame Perç Acide.0.5-0.5 0.0 0.5.0.5-0.5 0.0 0.5.0.5-0.5 Dim (72.73%) Dim (96.00%) 36 29 / 43

u Perçu Perçu ré acide amer 0 0 7 3 5 5.amer ( ) 5/8 5 8 = f f 33.3.acide 3/83 8 = f f ( ) 23.3 -.0-0.5 0.0 0 0.5.0 Représentation simultanée et inertie Perçu.amer G s (j) = λs ( ) Amer 7 8 = f f 33 Perçu Perçu Perçu sucré acide amer Sucré 0 0 0 Acide 0 9 Amer 0 3 7 Perçu.acide 4.9 Acide /8 42 = 8 = f23 f = =. 6 λ 0.375 2.3 ( ).3 I i= -.0-0.5 0.0 0.5.0 f ij f.j F s (i) Perçu Perçu Perçu sucré acide amer Sucré 0 0 0 Acide 0 7 3 Amer 0 5 5 = λ 2 Perçu.amer ( ) Amer 5/8 5 8 = f f 33 Perçu.acide Acide 3/83 8 = f f 0.042 = 4.9.3 ( ) 23.3 -.0-0.5 0.0 0 0.5.0 Perçu Amer Sucré Acide Amer Perçu Acide = λ 0 2 30 / 43

Propriété barycentrique Dim 2 (3.7%) -0.2 0.0 0.2 0.4 0.6 2 conj. tr. également rester au foyer 26,54 seul le mari trav. 63, trav. mi-temps trav. mari + absorbant trav. plein temps 0,35-0.6-0.4-0.6-0.4-0.2 0.0 0.2 0.4 0.6 Dim (86.29%) rester au foyer trav. à mi-temps trav. à plein temps Σ 2 conj. tr. également 4.98 54.4 40.6 00 trav. mari + absorbant 5.4 73.5 2.08 00 seul le mari travaille 26.54 63. 0.35 00 O = G I 6.47 65.4 8.39 00 3 / 43

Propriété barycentrique Dim 2 (3.7%) 2 0.0 0.2 0.4 0.6-0.6-0.4-0.2 2 conj. tr. également rester au foyer trav. plein temps seul le mari trav. trav. mi-temps trav. mari + absorbant -0.6-0.4-0.2 0.0 0.2 0.4 0.6 Dim (86.29%) Le er axe classe les modalités (des deux questions) depuis la plus défavorable au travail féminin jusqu à la plus favorable 4 32 / 43

Retour aux données Pourquoi rester au foyer est plus défavorable à l égard du travail féminin que seul le mari travaille? Dans R I, d 2 χ 2 (rester au foyer, G J ) = 0.46 Dans R J, d 2 χ 2 (seul le mari travaille, G I ) = 0.097 33 / 43

Analyse Factorielle des Correspondances (AFC) Données 2 Modèle d indépendance 3 Les nuages et leur ajustement 4 Pourcentages d inertie et inertie en AFC 5 Représentation simultanée des lignes et des colonnes 6 Aides à l interprétation 34 / 43

Aides à l interprétation : qualité de représentation Indicateur de qualité de représentation d un point (idem nuage) : inertie projetée de M i sur u s inertie totale de M i = f i.(oh s i )2 f i. (OM i ) 2 = cos2 ( OM i, u s ) N I RI O = G I J M i s H i u s vecteur unitaire de l axe de rang s projection de M i sur u s Indicateur montre dans quelle mesure l écart d un profil au profil moyen est complètement représenté par l axe (ou par un plan) 35 / 43

Axe Axe 2 Données Acide Modèle0 d indépendance 9 Les nuages Inertie Représentation Sucré simultanée Sucré.000.000 Aides 0.000 à0.000 l interprétation Amer 0 3 7 Perçu.sucré Sucré Acide Acide 0.667 0.47 0.3330.529 AFC V. Propre % Amer 0.667 0.333 Axe 72,727 Amer 0.47 0.529 Qualité de représentation Perçu.acide : exemple Axe 2 0,375 27,273 Perçu.sucré.000.000 0.000 0.000 Somme,375 00 Acide Perçu.acide 0.750 0.250 Perçu.acide 0.57 0.429 Perçu.amer 0.57 0.429 Dim 2 (27.27% -.0-0.5 0.0-0.5 0.0 0.5.0.5 Dim (72.73%) Perçu.amer 0.372 0.628 Perçu Perçu Perçu sucré acide amer Sucré 0 0 0 Acide 0 7 3 Amer 0 5 5 Dim 2 (4.00%) -.0-0.5 0.0 0.5.0 Perçu.amer Amer Acide Perçu.acide AFC V. Propre % Axe 96 Axe 2 0,042 4 Somme,042 00-0.5 0.0 0.5.0.5 Dim (96.00%) Sucré Perçu.sucré Qualité de représentation Qualité de (cos²) représentation (cosinus²) Axe Axe2 Axe Axe 2 Sucré.000 0.000 Sucré.000 0.000 Acide Acide 0.889 0.889 0. 0. Amer Amer 0.889 0.889 0. 0. Perçu.sucré.000.000.000.000 Perçu.acide 0.923 0.923 0.077 0.077 Perçu.amer Perçu.amer 0.842 0.842 0.58 0.52 Interprétation des graphes basée sur points remarquables ayant une bonne qualité de représentation 36 / 43

Aides à l interprétation : contribution Indicateur brut : inertie projetée de M i sur u s = f i. (OH s i )2 Indicateur relatif : inertie proj. de M i sur u s inertie de l axe s = f i.(oh s i )2 λ s On peut additionner les contributions de plusieurs éléments Elles indiquent dans quelle mesure on peut considérer qu un axe est dû à un élément ou à quelques éléments Compromis opérationnel entre distance à l origine et poids Utiles pour les grands tableaux pour sélectionner un sous-ensemble d éléments au début de l interprétation (conjointement à la qualité de représentation) 37 / 43

Contributions : exemple Contribution : exemple X X2 X3 X4 a 0 0 b 5 0 0 0 c 0 0 0 5 d 0 0 Dim 2 (.54%) 0.0 0.5.0.5-0.5 a X b d Inertie % Axe 0.258 83.50 Axe 2 0.036.538 Axe 3 0.05 4.96 X4 Axe Axe2 a 8.879 46.296 X2 X3 c b 3.2 3.704 c 3.2 3.704 d 8.879 46.296 Σ 00 00 -.0-0.5 0.0 0.5.0 Dim (83.50%) Les points extrêmes ne sont pas nécessairement ceux qui contribuent le plus à la construction des axes 52 38 / 43

Equivalence distributionnelle Equivalence distributionnelle : si plusieurs lignes ayant le même profil sont regroupées en une seule, les résultats de l AFC sont strictement équivalents (idem pour le regroupement de colonnes) Application en analyse textuelle : Grâce à l équivalence distributionnelle, si 2 mots (ou plus) sont employés dans les mêmes circonstances, leurs coordonnées sont proches et faire l analyse avec les deux termes ou avec un terme unique qui regroupe ces deux notions est strictement équivalent notion très utile (regroupement des singuliers et pluriels, des conjugaisons des verbes, etc.) 39 / 43

Nombre maximum d axes et V de Cramer Nuage des lignes : I points dans un espace à J dimensions J dim. mais contrainte (profils) S J I points évoluent dans au plus I dim. S I = Φ 2 = min(i,j ) k= λ k min(i, J ) d où l idée d un indicateur borné de la liaison entre 2 variables : V de Cramer = Φ 2 [0; ] min(i, J ) } S min(i, J ) Travail féminin V = 0.35/2 = 0.0675 AFC V. Propre % Axe 0,7 86,292 Axe 2 0,09 3,708 Somme 0,35 00 Trois saveurs V =.375/2 = 0.6875 AFC V. Propre % Axe 72,727 Axe 2 0,375 27,273 Somme,375 00 Trois saveurs V =.042/2 = 0.52 AFC V. Propre % Axe 96 Axe 2 0,042 4 Somme,042 00 40 / 43

Bilan sur l exemple Dim 2 (3.7%) -0.4-0.2 0.0 0.2 0.4 0.6 2 conj. tr. également rester au foyer trav. plein temps seul le mari trav. trav. mi-temps trav. mari + absorbant -0.6-0.6-0.4-0.2 0.0 0.2 0.4 0.6 Dim (86.29%) L AFC apporte une visualisation synthétique de l écart à l indépendance qui aide la compréhension du tableau (a fortiori avec de grands tableaux) Sur ces données L essentiel de l écart à l indépendance est structuré par l attitude à l égard du travail féminin La position des modalités le long de l échelle d attitude éclaire leur signification Exemple : la proximité de travailler à mi-temps avec le profil moyen suggère que cette modalité est «neutre», à la différence de l autre modalité moyenne (plutôt favorable au travail féminin) 4 / 43

Conclusion Pour étudier la liaison entre deux variables qualitatives, on construit un tableau de contingence Cette liaison réside dans l écart entre le tableau de contingence et le modèle d indépendance L analyse des correspondances : construit un nuage des lignes (et un nuage des colonnes) dont l inertie totale mesure l intensité de l écart à l indépendance décompose cette inertie totale sur une suite d axes d importance décroisante représentant chacun un aspect synthétique de la liaison entre les deux variables fournit une représentation des lignes et des colonnes dans laquelle la position d un point reflète sa participation à l écart à l indépendance 42 / 43

Bibliographie Pour approfondir l analyse des correspondances dans le même esprit que cette vidéo : Escofier B. & Pagès J. (2008) Analyses factorielles simples et multiples ; objectifs, méthodes et interprétation. 4e édition. 38 p., Dunod, Paris. Husson F., Lê S. & Pagès J. (2009) Analyse des données avec R. 224 p., Presses Universitaires de Rennes. 43 / 43