Université de Bordeaux - Master MIMSE - 2ème année L Analyse Factorielle des Correspondences (AFC) Marie Chavent http://wwwmathu-bordeauxfr/ machaven/ 204-205 Le but est l analyse des relations entre deux variables ualitatives L AFC s appliue au tableau de contingence K obtenu à partir du croisement de deux variables ualitatives X et X 2 sur un échantillon de taille n : s m K = i n is n i n s Rappels et notations Matrice des fréuences F : s m F = i f is = n is n f i f s On note : r = (f,, f i,, f ) t R c = (f,, f s,, f m ) t R m D r =diag(r) D c =diag(c)
Matrice des profil-lignes L : s m L = i f is /f i c f s On a : L = D r F Profil ligne moyen : c Matrice des profil-lignes centrés L : s m L = i f is f i f s f i On a : L = D r (F rc t ) Profil-ligne moyen : origine de R m Matrice des profil-colonnes C : s m r C = i f is /f s f i On a : C = FD c Profil colonne moyen : r 2
Matrice des profil-colonnes centrés C : s m C = i f is f i f s f s On a : C = (F rc t )D c Profil-colonne moyen : origine de R Deux nuages de points pondérés : Le nuage des profil-lignes centrés de R m avec : r comme pondération, D r comme métriue sur R (métriue des poids), D c comme métriue sur R m (distance du χ 2 ) Le nuage des m profil-colonnes centrés de R avec : c comme pondération, D r comme métriue sur R (distance du χ 2 ), D c comme métriue sur R m (métriue des poids) Les inerties de ces deux nuages de points avec ces métriues et pondérations vérifient la propriétée suivante : I(L) = I(C) = χ 2 /n Objectif de l AFC et plan du cours : Il s agira d analyser les deux nuages de points pondérés c est à dire le nuage des profil-lignes (les lignes de la matrice L) et le nuage des profil-colonnes (les colonnes de la matrice C) On va donc analyser les lignes et les colonnes de deux matrices différentes (alors u en ACP, on analyse les lignes et les colonnes de la même matrice de données uantitatives Z) Pour cela, on va projeter au mieux : les profil-lignes (les modalités de X ) dans une sous-espace vectoriel (sev) de R m, les profil-colonnes (les modalités de X 2 ) dans une sous-espace vectoriel (sev) de R Dans ce cours nous allons présenter l AFC comme une double ACP (ACP de L et ACP de C) Puis nous montrerons ue les résultats de cette double ACP peuvent être obtenus à partir de l ACP d une seule et même matrice c est à dire à partir de la décomposition en valeurs 3
singulières (DVSG) de la matrice dîte des écarts à l indépendance Nous utiliserons ce résultat pour démontrer les propriétés barycentriues ui sont fondamentale pour l interpétation des résultats 2 ACP de la matrice des profil-lignes centrés Les modalités de la variable X sont décrites par les lignes de la matrice des profil-lignes centrés L = D r (F rc t ) Les profil-lignes centrés sont des points de R m : Ces points sont pondérés par les poids des lignes (vecteur r) On utilise comme métriue pour comparer deux profil-ligne la distance du χ 2 définie par D c On veut projeter au mieux les modalités de X sur un sev de R m de dimension k (pour k=2 on projette sur un plan par exemple) : on veut ue les distances entre les modalités projetées soient aussi proche ue possible des distances entre les modalités dans leur espace d origine Ce sev est définit par k axes,, k, tels ue pour chaue axe, la variance des D c -projections (projections D c orthogonales) des profil-lignes soit maximale (D r norme maximale) Ces axes sont engendrés par des vecteurs v,, v k de R m Ces vecteurs doivent être D c -normés à (vαd t c v α =, α =,, k) et D c -orthogonaux (vαd t c v α = 0, α α ) On note x α = LD c v α le vecteur de R des projections des modalités sur l axe α avec v α ui maximise Var(x α ) Les vecteurs v α sont les colonnes d une matrice notée V k de dimension m k On note enfin X = LD c V k la matrice de dimension k des coordonnées des profillignes projetés sur,, k : X est la matrice des coordonnées factorielles des profil-lignes x α est la αème composante principale des profil-lignes L ACP du triplet (L, D r, D c ) donne les résultats suivant : a) X = LD c V k où V k est la matrice dont les colonnes sont les k vecteurs propres associés aux k plus grandes valeurs propres λ,, λ k de L t D r LD V k est D c -orthonormée : Vk t D c V k = I k b) Var(x α ) = λ α et x α = 0 c) Si k = rang(l) alors I(X) = λ + + λ k = I(L) = χ 2 /n Remarue notation : En ACP, on notait Ψ la matrice des coordonnées factorielles des lignes d une matrice uantitative Z et Φ la matrice des coordonnées factorielles des colonnes de cette même matrice Ici X correspond à la matrice Ψ des coordonnées factorielles de L On ne s interrèsse pas à la matrice Φ des coordonnées factorielles des colonnes de L Exercice : Démontrer a) b) et c) en vous aidant du poly Rappels sur l ACP avec métriue Exemple c 4
3 ACP de la matrice des profil-colonnes centrés Les m modalités de la variable X 2 sont décrites par les colonnes de la matrice des profilcolonnes centrés C = (F rc t )D c Les profil-colonnes centrés sont de points de R : Ces points sont pondérés par les poids des colonnes (vecteur c) On utilise comme métriue pour comparer deux profil-colonnes la distance du χ 2 définie par D r On veut maintenant projeter au mieux les m modalités de X 2 sur un sev de R dimension k Ce sev est définit par k axes G,, G k, tels ue pour chaue axe, la variance des D r -projections des profil-colonnes soit maximale (D c norme maximale) Ces axes sont engendrés par des vecteurs u,, u k de R Ces vecteurs doivent être D r -normés à et D r -orthogonaux On note y α = C t D r u α le vecteur de R m des projections des m modalités sur l axe G α avec u α ui maximise Var(y α ) Les vecteurs u α sont les colonnes de la matrice U k de dimension k On note enfin Y = C t D r U k la matrice de dimension m k des coordonnées des profil-lignes projetés sur G,, G k : Y est la matrice des coordonnées factorielles des profil-colonnes y α est la αème composante principale des profil-colonnes L ACP du triplet (C, D r, D c )) donne les résultats suivant : a) Y = C t D r U k où les colonnes de la matrice U k sont les k vecteurs propres associés aux k plus grandes valeurs propres λ,, λ k de la matrice CD c C t D U k est D c -orthonormée : U t k D r U k = I k b) Var(y α ) = λ α et ȳ α = 0 c) Si k = rang(c) alors I(X) = λ + + λ k = I(C) = I(L) = χ 2 /n Remarue notation : Ici Y correspond à la matrice Φ des coordonnées factorielles des colonnes de C On ne s intéresse pas à la matrice Ψ des coordonnées factorielles des lignes de C Exemple r de 4 AFC : la SVD généralisée d une seule matrice Les matrices X et Y des coordonnées factorielles des profil-lignes et des profil-colonnes obtenus dans les deux sections précédentes à partir de l ACP de deux triplets, peuvent être obtenus à partir de l ACP du seul triplet (Z, N, M) avec : Z = D r (F rc t )D c la matrice des écarts à l indépendance N = D r M = D c On effectue donc la DVS de Z avec les métriues N et M : Z = UΛV t 5
où Λ = diag( λ,, λ r ) est la matrice des valeurs singulières de ZNZ t M et Z t NZM U est la matrice de dimension n r dont les colonnes sont les vecteurs propres de ZMZ t N et U t NU = I r (les vecteurs propres sont N-orthonormés) V est la matrice de dimension p r dont les colonnes sont les vecteurs propres de Z t NZM et V t MV = I r (les vecteurs propres sont M-orthonormés) On a alors { X = ZMV k Y = Z t NU k et on en déduit { X = U k Λ k Y = V k Λ k En pratiue, pour effectuer la SVD généralisée d une matrice Z avec les métriues N et M, on effectue la SVD de Z = N /2 ZM /2 avec les métriues I n et I p (implémentée dans les logiciels comme R) On trouve Z = Ũ ΛṼt et on a ensuite : U = N /2 Ũ V = M /2 Ṽ Λ = Λ 5 Propiétés barycentriues Une composante principale standardisée est une composante divisée par son écart-type : x α / λ α ou y α / λ α La matrice Λ k étant la matrice diagonale des racines carrés des valeurs propres, les matrices X et Y des coordonnées factorielles standardisés s écrivent : { { X = XΛ k X = U k donc Y = YΛ k Y = V k On a les relations suivantes : Exercice 2 : Retrouvez ces relations { X = D r (F rc t )Y Y = D c (F rc t ) t X Ces deux relations s interprètent aussi en terme de moyennes réciproues : la coordonée factorielle d une modalité d une variable est la moyenne (pondérée) des coordonnées factorielles (standardisées) des modalités de l autre variable En effet on a les relations barycentriues suivantes : m f is x iα = ysα f s= i f is y sα = x iα f s i= 6
Et on en déduit les relations uasi-barycentriues suivantes : x iα = m f is y sα λα f s= i y sα = f is x iα λα f s Exercice 3 : Retrouvez ces relations i= Interprétations et conséuences de ces relations : Au coefficient de dilatation λα près, les coordonnées factorielles d un nuage de points sont, sur un axe, les barycentres des coordonnées factorielles de l autre nuage Les relations uasi-barycentriues justifient la représentation simultanée des profillignes et des profil-colonnes sur un même graphiue Mais attention, la distance entre un profil-ligne et un profi-colonne sur ce graphiue s interpète en terme de liaison La coordonnée de la modalité i est la moyenne des coordonnées des modalités s de Exemple l autre variable, pondérée par les fréuences conditionnelles de s sachant i 6 Interprétation des résultats d une AFC Les nuages des profil-lignes et des profil-colonnes sont représentés dans les plans de projection formés par les axes factoriels pris deux à deux La lecture de ces graphiues nécessite des règles d interpétation 6 Inertie et test d indépendance En ACP normée, l inertie totale du nuage des point-individus est égale à p le nombre de variables En AFC, on a vu ue l inertie totale du nuage des profil-lignes est égale à l inertie totale du nuage des profil-colonnes, et est égale au χ 2 d indépendance entre les deux variables ualitatives : I(L) = I(C) = χ 2 (X, X 2 )/n La valeur de l inertie est donc un indicateur de la dispertion des nuages de points et une mesure de liaison entre les deux variables ualitatives encore appellée mesure d écart à l indépendance De plus, on a vu ue l inertie des nuages de points est égale à l inertie des matrices des coordonnées factorielles X et Y complètes (lorsue k = r) En AFC, il y a au plus r = min(, m ) valeurs propres non nulles et l inertie totale vaut λ + + λ r Chaue composante principale expliue donc une partie de l inertie mesurée par : λ α λ + + λ r 00 7
ui s interprète comme : le pourcentage de l inertie totale expliuée par l axe α, la part de la liaison entre X et X 2 expliuée par cet axe En pratiue : On peut d abord réaliser un test du χ 2 pour conclure ou non à l indépendance entre X et X 2 On ne réalisera à priori une AFC ue si l on conclue ue X et X 2 ne sont pas indépendantes pour savoir combien d axes retenir, on peut comme en ACP utiliser l une des règles suivantes : On peut utiliser le pourcentage d inertie expliuée par les k premiers axes et choisir le nombre k d axes tel ue cette inertie expliuée dépasse un certain seuil (75% par exemple) Attention, il reste néanmoins la nécessité de ne retenir ue des axes principaux utiles pour l interprétation, c est à dire interprétable On peut ne retenir ue les valeurs propres supérieures à leur moyenne (règle empiriue de Kaiser) On peut utiliser la règle du coude : i) calculer les différence premières : ɛ = λ λ 2, ɛ 2 = λ 2 λ 2, ii) calculer les différence secondes : δ = ɛ ɛ 2, δ 2 = ɛ 2 ɛ 2, iii) retenir le nombre k tel ue δ,, δ k soient toutes positives et ue δ k soit négative D autres critères peuvent être trouvés p209 du livre de G Saporta (2006) Remarue : les valeurs propres sont toujours inférieures ou égales à Exemple 62 Contributions La contribution d une modalité i de X et d une modalité s de X 2 à l inertie de l axe α sont : Ctr α (i) = f ix 2 iα λ α Ctr α (s) = f sy 2 sα λ α La contribution Ctr α (i) est la part de la variance de l axe α expliuée par la modalité i Ce coefficient permet de connaître les modalités responsables de la construction de l axe α, et permet de trouver une eventuelle signification aux axes Attention : En AFC, les points les plus excentrés sur les axes ne sont pas nécessairement ceux ui contribuent le plus (à cause des poids f i et f s ) Exercice 4 : Dans l exemple, retrouvez le calcul de la contribution de la modalité marron à l axe 8
63 Cosinus carrés Le cosinus carré de l angle entre le profil-ligne l i et l axe α mesure la ualité de la projection de ce profil sur cet axe : cos 2 α(i) = x2 iα d 2 (l i, c) où d 2 (l i, c) = m s= f s (f is /f i f s ) 2 est la distance du χ 2 entre le profil-ligne l i et le profilligne moyen c De même pour les modalités s de la variablex 2, on calcule le cosinus carré de l angle entre le profil-colonne c s et l axe G α pour mesurer la ualité de la projection de ce profil sur cet axe : cos 2 α(s) = y2 sα d 2 (c i, r) où d 2 (c i, r) = m s= f i (f is /f s f i ) 2 est la distance du χ 2 entre le profil-ligne c i et le profilcolonne moyen r Pour analyser les proximités entre les points sur les graphiues factoriels, on s intéresse surtout aux points bien projetés (ayant un cos2 élevé) car les proximités entre ces points observée sur le graphiue est proche de celle dans l espace d origine Exercice 5 : Dans l exemple, retrouvez le calcul du cos2 de la modalité marron sur l axe Attention : Pour interpéter des proximités entre deux points sur un graphiue il faut prendre des précautions : Si deux modalités d une même variable sont proches et bien projetées (bien représentées), cela signifie ue leurs profils sont semblables Par contre, la proximité entre une modalité d une variable et une modalité de l autre, est plus délicate à interpréter Elle s interprète avec les relations barycentriues 7 Références Statistiue exploratoire multidimensionnelle, Lebart & al, Dunod Probabilité, analyse des données, statistiue, G Saporta, Technip 9