L Analyse Factorielle des Correspondences (AFC)

Documents pareils
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

La classification automatique de données quantitatives

Statistique Descriptive Multidimensionnelle. (pour les nuls)

Analyse en Composantes Principales

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Analyse des correspondances avec colonne de référence

1 Complément sur la projection du nuage des individus

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

ACP Voitures 1- Méthode

Introduction. Préambule. Le contexte

INF6304 Interfaces Intelligentes

Extraction d informations stratégiques par Analyse en Composantes Principales

L'analyse des données à l usage des non mathématiciens

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Algorithmique quantique : de l exponentiel au polynômial

Mesurer la pauvreté dans un pays en développement

ISFA 2 année Les questions sont en grande partie indépendantes. Merci d utiliser l espace imparti pour vos réponses.

Eléments de l imprimante

Cours 9 : Plans à plusieurs facteurs

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Analyses multivariées avec R Commander (via le package FactoMineR) Qu est ce que R? Introduction à R Qu est ce que R?

Théorie des sondages : cours 5

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

Logiciel XLSTAT version rue Damrémont PARIS

Récépissé de depôt d une demande de permis de construire ou de permis d aménager

Statistique Descriptive Élémentaire

Statistiques Descriptives à une dimension

Récépissé de depôt d une demande de permis de construire ou de permis d aménager

Récépissé de depôt d une déclaration préalable

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Récépissé de depôt d une demande de permis de construire une maison individuelle et/ou ses annexes

Mémo d utilisation de ADE-4

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

Individus et informations supplémentaires

Une variable binaire prédictrice (VI) et une variable binaire observée (VD) (Comparaison de pourcentages sur 2 groupes indépendants)

Récépissé de depôt d une déclaration préalable

Chapitre 6 Test de comparaison de pourcentages χ². José LABARERE

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Approche d'évaluation pour les problèmes d'ordonnancement multicritères : Méthode d'agrégation avec direction de recherche dynamique

T de Student Khi-deux Corrélation

Relation entre deux variables : estimation de la corrélation linéaire

Analyse discriminante et régression logistique: application au cas de l innovation pour les entreprises du Canton du Tessin

Chapitre 1 Cinématique du point matériel

TSTI 2D CH X : Exemples de lois à densité 1

Correction du Baccalauréat S Amérique du Nord mai 2007

Scénario: Données bancaires et segmentation de clientèle

Chapitre 3. Les distributions à deux variables

Data mining 1. Exploration Statistique

3 Approximation de solutions d équations

Statistique : Résumé de cours et méthodes

Historique. Architecture. Contribution. Conclusion. Définitions et buts La veille stratégique Le multidimensionnel Les classifications

JUNIOR MBA ECOFI MANAGEMENT DES ORGANISATIONS ET DE S PROJETS

Calcul intégral élémentaire en plusieurs variables

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Cours d Analyse. Fonctions de plusieurs variables

SPHINX Logiciel de dépouillement d enquêtes

Quelques contrôle de Première S

Depuis quelques années, les

REVUE DE STATISTIQUE APPLIQUÉE

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 04/04/2008 Stéphane Tufféry - Data Mining -

MAP 553 Apprentissage statistique

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

EVALUATION DE LA SANTÉ FINANCIÈRE D UNE MUNICIPALITÉ VIA UNE APPROCHE STATISTIQUE MULTIVARIÉE.

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Corrigé des TD 1 à 5

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Cours de Mécanique du point matériel

1S Modèles de rédaction Enoncés

Corrigé du baccalauréat S Asie 21 juin 2010

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

Projet 2. Gestion des services enseignants CENTRE D ENSEIGNEMENT ET DE RECHERCHE EN INFORMATIQUE. G r o u p e :

Le contrat d apprentissage

ETUDE DE PERCEPTION PRODUIT

Localisation des fonctions

TS 35 Numériser. Activité introductive - Exercice et démarche expérimentale en fin d activité Notions et contenus du programme de Terminale S

Introduction à l approche bootstrap

Manuel utilisateur estat Clics

Problème 1 : applications du plan affine

Cours d analyse numérique SMI-S4

Classification non supervisée

VISUALISATION DES DISTANCES ENTRE LES CLASSES DE LA CARTE DE KOHONEN POUR LE DEVELOPPEMENT D'UN OUTIL D'ANALYSE ET DE REPRESENTATION DES DONNEES

L indice de SEN, outil de mesure de l équité des systèmes éducatifs. Une comparaison à l échelle européenne

COMPTE-RENDU «MATHS EN JEANS» LYCEE OZENNE Groupe 1 : Comment faire une carte juste de la Terre?

Pratique de l analyse de données SPSS appliqué à l enquête «Identités et Capital social en Wallonie»

FORMULAIRE DE STATISTIQUES

PLAN. Ricco Rakotomalala Tutoriels Tanagra - 2

Projet de traitement d'image - SI 381 reconstitution 3D d'intérieur à partir de photographies

Quelques éléments de statistique multidimensionnelle

Guide de stage. Nom... Prénom... Classe...

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

Guide technique des pneumatiques agricoles

Licence STS mention Mathématiques Parcours Ingénieur Télécom Bretagne (ITB)

La structure de la base de données et l utilisation de PAST. Musée Royal de l Afrique Centrale (MRAC Tervuren)

Le Modèle Linéaire par l exemple :

Corrigé Problème. Partie I. I-A : Le sens direct et le cas n= 2

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Transcription:

Université de Bordeaux - Master MIMSE - 2ème année L Analyse Factorielle des Correspondences (AFC) Marie Chavent http://wwwmathu-bordeauxfr/ machaven/ 204-205 Le but est l analyse des relations entre deux variables ualitatives L AFC s appliue au tableau de contingence K obtenu à partir du croisement de deux variables ualitatives X et X 2 sur un échantillon de taille n : s m K = i n is n i n s Rappels et notations Matrice des fréuences F : s m F = i f is = n is n f i f s On note : r = (f,, f i,, f ) t R c = (f,, f s,, f m ) t R m D r =diag(r) D c =diag(c)

Matrice des profil-lignes L : s m L = i f is /f i c f s On a : L = D r F Profil ligne moyen : c Matrice des profil-lignes centrés L : s m L = i f is f i f s f i On a : L = D r (F rc t ) Profil-ligne moyen : origine de R m Matrice des profil-colonnes C : s m r C = i f is /f s f i On a : C = FD c Profil colonne moyen : r 2

Matrice des profil-colonnes centrés C : s m C = i f is f i f s f s On a : C = (F rc t )D c Profil-colonne moyen : origine de R Deux nuages de points pondérés : Le nuage des profil-lignes centrés de R m avec : r comme pondération, D r comme métriue sur R (métriue des poids), D c comme métriue sur R m (distance du χ 2 ) Le nuage des m profil-colonnes centrés de R avec : c comme pondération, D r comme métriue sur R (distance du χ 2 ), D c comme métriue sur R m (métriue des poids) Les inerties de ces deux nuages de points avec ces métriues et pondérations vérifient la propriétée suivante : I(L) = I(C) = χ 2 /n Objectif de l AFC et plan du cours : Il s agira d analyser les deux nuages de points pondérés c est à dire le nuage des profil-lignes (les lignes de la matrice L) et le nuage des profil-colonnes (les colonnes de la matrice C) On va donc analyser les lignes et les colonnes de deux matrices différentes (alors u en ACP, on analyse les lignes et les colonnes de la même matrice de données uantitatives Z) Pour cela, on va projeter au mieux : les profil-lignes (les modalités de X ) dans une sous-espace vectoriel (sev) de R m, les profil-colonnes (les modalités de X 2 ) dans une sous-espace vectoriel (sev) de R Dans ce cours nous allons présenter l AFC comme une double ACP (ACP de L et ACP de C) Puis nous montrerons ue les résultats de cette double ACP peuvent être obtenus à partir de l ACP d une seule et même matrice c est à dire à partir de la décomposition en valeurs 3

singulières (DVSG) de la matrice dîte des écarts à l indépendance Nous utiliserons ce résultat pour démontrer les propriétés barycentriues ui sont fondamentale pour l interpétation des résultats 2 ACP de la matrice des profil-lignes centrés Les modalités de la variable X sont décrites par les lignes de la matrice des profil-lignes centrés L = D r (F rc t ) Les profil-lignes centrés sont des points de R m : Ces points sont pondérés par les poids des lignes (vecteur r) On utilise comme métriue pour comparer deux profil-ligne la distance du χ 2 définie par D c On veut projeter au mieux les modalités de X sur un sev de R m de dimension k (pour k=2 on projette sur un plan par exemple) : on veut ue les distances entre les modalités projetées soient aussi proche ue possible des distances entre les modalités dans leur espace d origine Ce sev est définit par k axes,, k, tels ue pour chaue axe, la variance des D c -projections (projections D c orthogonales) des profil-lignes soit maximale (D r norme maximale) Ces axes sont engendrés par des vecteurs v,, v k de R m Ces vecteurs doivent être D c -normés à (vαd t c v α =, α =,, k) et D c -orthogonaux (vαd t c v α = 0, α α ) On note x α = LD c v α le vecteur de R des projections des modalités sur l axe α avec v α ui maximise Var(x α ) Les vecteurs v α sont les colonnes d une matrice notée V k de dimension m k On note enfin X = LD c V k la matrice de dimension k des coordonnées des profillignes projetés sur,, k : X est la matrice des coordonnées factorielles des profil-lignes x α est la αème composante principale des profil-lignes L ACP du triplet (L, D r, D c ) donne les résultats suivant : a) X = LD c V k où V k est la matrice dont les colonnes sont les k vecteurs propres associés aux k plus grandes valeurs propres λ,, λ k de L t D r LD V k est D c -orthonormée : Vk t D c V k = I k b) Var(x α ) = λ α et x α = 0 c) Si k = rang(l) alors I(X) = λ + + λ k = I(L) = χ 2 /n Remarue notation : En ACP, on notait Ψ la matrice des coordonnées factorielles des lignes d une matrice uantitative Z et Φ la matrice des coordonnées factorielles des colonnes de cette même matrice Ici X correspond à la matrice Ψ des coordonnées factorielles de L On ne s interrèsse pas à la matrice Φ des coordonnées factorielles des colonnes de L Exercice : Démontrer a) b) et c) en vous aidant du poly Rappels sur l ACP avec métriue Exemple c 4

3 ACP de la matrice des profil-colonnes centrés Les m modalités de la variable X 2 sont décrites par les colonnes de la matrice des profilcolonnes centrés C = (F rc t )D c Les profil-colonnes centrés sont de points de R : Ces points sont pondérés par les poids des colonnes (vecteur c) On utilise comme métriue pour comparer deux profil-colonnes la distance du χ 2 définie par D r On veut maintenant projeter au mieux les m modalités de X 2 sur un sev de R dimension k Ce sev est définit par k axes G,, G k, tels ue pour chaue axe, la variance des D r -projections des profil-colonnes soit maximale (D c norme maximale) Ces axes sont engendrés par des vecteurs u,, u k de R Ces vecteurs doivent être D r -normés à et D r -orthogonaux On note y α = C t D r u α le vecteur de R m des projections des m modalités sur l axe G α avec u α ui maximise Var(y α ) Les vecteurs u α sont les colonnes de la matrice U k de dimension k On note enfin Y = C t D r U k la matrice de dimension m k des coordonnées des profil-lignes projetés sur G,, G k : Y est la matrice des coordonnées factorielles des profil-colonnes y α est la αème composante principale des profil-colonnes L ACP du triplet (C, D r, D c )) donne les résultats suivant : a) Y = C t D r U k où les colonnes de la matrice U k sont les k vecteurs propres associés aux k plus grandes valeurs propres λ,, λ k de la matrice CD c C t D U k est D c -orthonormée : U t k D r U k = I k b) Var(y α ) = λ α et ȳ α = 0 c) Si k = rang(c) alors I(X) = λ + + λ k = I(C) = I(L) = χ 2 /n Remarue notation : Ici Y correspond à la matrice Φ des coordonnées factorielles des colonnes de C On ne s intéresse pas à la matrice Ψ des coordonnées factorielles des lignes de C Exemple r de 4 AFC : la SVD généralisée d une seule matrice Les matrices X et Y des coordonnées factorielles des profil-lignes et des profil-colonnes obtenus dans les deux sections précédentes à partir de l ACP de deux triplets, peuvent être obtenus à partir de l ACP du seul triplet (Z, N, M) avec : Z = D r (F rc t )D c la matrice des écarts à l indépendance N = D r M = D c On effectue donc la DVS de Z avec les métriues N et M : Z = UΛV t 5

où Λ = diag( λ,, λ r ) est la matrice des valeurs singulières de ZNZ t M et Z t NZM U est la matrice de dimension n r dont les colonnes sont les vecteurs propres de ZMZ t N et U t NU = I r (les vecteurs propres sont N-orthonormés) V est la matrice de dimension p r dont les colonnes sont les vecteurs propres de Z t NZM et V t MV = I r (les vecteurs propres sont M-orthonormés) On a alors { X = ZMV k Y = Z t NU k et on en déduit { X = U k Λ k Y = V k Λ k En pratiue, pour effectuer la SVD généralisée d une matrice Z avec les métriues N et M, on effectue la SVD de Z = N /2 ZM /2 avec les métriues I n et I p (implémentée dans les logiciels comme R) On trouve Z = Ũ ΛṼt et on a ensuite : U = N /2 Ũ V = M /2 Ṽ Λ = Λ 5 Propiétés barycentriues Une composante principale standardisée est une composante divisée par son écart-type : x α / λ α ou y α / λ α La matrice Λ k étant la matrice diagonale des racines carrés des valeurs propres, les matrices X et Y des coordonnées factorielles standardisés s écrivent : { { X = XΛ k X = U k donc Y = YΛ k Y = V k On a les relations suivantes : Exercice 2 : Retrouvez ces relations { X = D r (F rc t )Y Y = D c (F rc t ) t X Ces deux relations s interprètent aussi en terme de moyennes réciproues : la coordonée factorielle d une modalité d une variable est la moyenne (pondérée) des coordonnées factorielles (standardisées) des modalités de l autre variable En effet on a les relations barycentriues suivantes : m f is x iα = ysα f s= i f is y sα = x iα f s i= 6

Et on en déduit les relations uasi-barycentriues suivantes : x iα = m f is y sα λα f s= i y sα = f is x iα λα f s Exercice 3 : Retrouvez ces relations i= Interprétations et conséuences de ces relations : Au coefficient de dilatation λα près, les coordonnées factorielles d un nuage de points sont, sur un axe, les barycentres des coordonnées factorielles de l autre nuage Les relations uasi-barycentriues justifient la représentation simultanée des profillignes et des profil-colonnes sur un même graphiue Mais attention, la distance entre un profil-ligne et un profi-colonne sur ce graphiue s interpète en terme de liaison La coordonnée de la modalité i est la moyenne des coordonnées des modalités s de Exemple l autre variable, pondérée par les fréuences conditionnelles de s sachant i 6 Interprétation des résultats d une AFC Les nuages des profil-lignes et des profil-colonnes sont représentés dans les plans de projection formés par les axes factoriels pris deux à deux La lecture de ces graphiues nécessite des règles d interpétation 6 Inertie et test d indépendance En ACP normée, l inertie totale du nuage des point-individus est égale à p le nombre de variables En AFC, on a vu ue l inertie totale du nuage des profil-lignes est égale à l inertie totale du nuage des profil-colonnes, et est égale au χ 2 d indépendance entre les deux variables ualitatives : I(L) = I(C) = χ 2 (X, X 2 )/n La valeur de l inertie est donc un indicateur de la dispertion des nuages de points et une mesure de liaison entre les deux variables ualitatives encore appellée mesure d écart à l indépendance De plus, on a vu ue l inertie des nuages de points est égale à l inertie des matrices des coordonnées factorielles X et Y complètes (lorsue k = r) En AFC, il y a au plus r = min(, m ) valeurs propres non nulles et l inertie totale vaut λ + + λ r Chaue composante principale expliue donc une partie de l inertie mesurée par : λ α λ + + λ r 00 7

ui s interprète comme : le pourcentage de l inertie totale expliuée par l axe α, la part de la liaison entre X et X 2 expliuée par cet axe En pratiue : On peut d abord réaliser un test du χ 2 pour conclure ou non à l indépendance entre X et X 2 On ne réalisera à priori une AFC ue si l on conclue ue X et X 2 ne sont pas indépendantes pour savoir combien d axes retenir, on peut comme en ACP utiliser l une des règles suivantes : On peut utiliser le pourcentage d inertie expliuée par les k premiers axes et choisir le nombre k d axes tel ue cette inertie expliuée dépasse un certain seuil (75% par exemple) Attention, il reste néanmoins la nécessité de ne retenir ue des axes principaux utiles pour l interprétation, c est à dire interprétable On peut ne retenir ue les valeurs propres supérieures à leur moyenne (règle empiriue de Kaiser) On peut utiliser la règle du coude : i) calculer les différence premières : ɛ = λ λ 2, ɛ 2 = λ 2 λ 2, ii) calculer les différence secondes : δ = ɛ ɛ 2, δ 2 = ɛ 2 ɛ 2, iii) retenir le nombre k tel ue δ,, δ k soient toutes positives et ue δ k soit négative D autres critères peuvent être trouvés p209 du livre de G Saporta (2006) Remarue : les valeurs propres sont toujours inférieures ou égales à Exemple 62 Contributions La contribution d une modalité i de X et d une modalité s de X 2 à l inertie de l axe α sont : Ctr α (i) = f ix 2 iα λ α Ctr α (s) = f sy 2 sα λ α La contribution Ctr α (i) est la part de la variance de l axe α expliuée par la modalité i Ce coefficient permet de connaître les modalités responsables de la construction de l axe α, et permet de trouver une eventuelle signification aux axes Attention : En AFC, les points les plus excentrés sur les axes ne sont pas nécessairement ceux ui contribuent le plus (à cause des poids f i et f s ) Exercice 4 : Dans l exemple, retrouvez le calcul de la contribution de la modalité marron à l axe 8

63 Cosinus carrés Le cosinus carré de l angle entre le profil-ligne l i et l axe α mesure la ualité de la projection de ce profil sur cet axe : cos 2 α(i) = x2 iα d 2 (l i, c) où d 2 (l i, c) = m s= f s (f is /f i f s ) 2 est la distance du χ 2 entre le profil-ligne l i et le profilligne moyen c De même pour les modalités s de la variablex 2, on calcule le cosinus carré de l angle entre le profil-colonne c s et l axe G α pour mesurer la ualité de la projection de ce profil sur cet axe : cos 2 α(s) = y2 sα d 2 (c i, r) où d 2 (c i, r) = m s= f i (f is /f s f i ) 2 est la distance du χ 2 entre le profil-ligne c i et le profilcolonne moyen r Pour analyser les proximités entre les points sur les graphiues factoriels, on s intéresse surtout aux points bien projetés (ayant un cos2 élevé) car les proximités entre ces points observée sur le graphiue est proche de celle dans l espace d origine Exercice 5 : Dans l exemple, retrouvez le calcul du cos2 de la modalité marron sur l axe Attention : Pour interpéter des proximités entre deux points sur un graphiue il faut prendre des précautions : Si deux modalités d une même variable sont proches et bien projetées (bien représentées), cela signifie ue leurs profils sont semblables Par contre, la proximité entre une modalité d une variable et une modalité de l autre, est plus délicate à interpréter Elle s interprète avec les relations barycentriues 7 Références Statistiue exploratoire multidimensionnelle, Lebart & al, Dunod Probabilité, analyse des données, statistiue, G Saporta, Technip 9