1 Analyse factoielle disciminante (AFD) Analyse factoielle disciminante (AFD) Résumé Méthode factoielle de éduction de dimension pou l exploation statistique de vaiables quantitatives et d une vaiable qualitative Constuction du modèle statistique associé, estimation Repésentation gaphique optimale des classes des individus, liens avec d autes définitions de l AFD Tavaux patiques de complexité coissante pa l études de données socio-économiques Retou au plan du cous 1 Intoduction 11 Données Les données sont constituées de p vaiables quantitatives X 1,, X p jouant le ôle de vaiables explicatives comme dans le modèle linéaie, une vaiable qualitative T, à m modalités {T 1,, T m }, jouant le ôle de vaiable à explique La situation est analogue à celle de la égession linéaie multiple mais, comme la vaiable à explique est qualitative, on aboutit à une méthode tès difféente Les vaiables sont obsevées su l ensemble Ω des n individus affectés des poids w i > 0, ( n i=1 w i = 1), et l on pose D = diag(w i ; i = 1,, n) La vaiable T engende une patition {Ω l ; l = 1,, m} de l ensemble Ω des individus dont chaque élément est d effectif n l On note T (n m) la matice des indicatices des modalités de la vaiable T ; son teme généal est { t l i = t l 1 si T (ωi ) = T (ω i ) = l 0 sinon En posant il vient 1 Objectifs w l = w i, D = T DT = diag(w 1,, w m ) Deux techniques cohabitent sous la même appellation d analyse disciminante : desciptive : cette méthode echeche, pami toutes les ACP possibles su les vaiables X j, celle dont les epésentations gaphiques des individus disciminent au mieux les m classes engendées pa la vaiable T (eg echeche de facteus de isque en statistique médicale) ; décisionnelle : connaissant, pou un individu donné, les valeus des Y j mais pas la modalité de T, cette méthode consiste à affecte cet individu à une modalité (eg econnaissance de fomes) Cette méthode est décite dans la patie modélisation de ce cous Remaque Losque le nombe et les caactéistiques des classes sont connues, il s agit d une discimination ; sinon, on pale de classification ou encoe, avec des hypothèses su les distibutions, de econnaissance de mélanges 13 Notations On note X la matice (n p) des données quantitatives, G la matice (m p) des baycentes des classes : G = D 1 T DX = g 1 g m où g l = 1 w i x i, w l et X e la matice (n p) dont la ligne i est le baycente g l de la classe Ω l à laquelle appatient l individu i : X e = TG = PG ;
Analyse factoielle disciminante (AFD) P = TD 1 T D est la matice de pojection D-othogonale su le sous-espace engendé pa les indicatices de T ; c est encoe l espéance conditionnelle sachant T avec Deux matices centées sont définies de sote que X se décompose en X = X + X e X = X X e et X e = X e 1 n x On note également G la matice centée des baycentes : G = G 1 m x On appelle alos vaiance intaclasse (within) ou ésiduelle : S = X DX = et vaiance inteclasse (between) ou expliquée : S e = G DG = X edx e = w i (x i g l )(x i g l ), m w l (g l x)(g l x) PROPOSITION 1 La matice des covaiances se décompose en Définition 1 Modèle S = S e + S Dans l espace des individus, le pincipe consiste à pojete les individus dans une diection pemettant de mette en évidence les goupes À cette fin, Il faut pivilégie la vaiance inteclasse au détiment de la vaiance intaclasse considéée comme due au buit En ACP, pou chaque effet z i à estime, on ne dispose que d une obsevation x i ; dans le cas de l AFD on considèe que les éléments d une même classe Ω l sont les obsevations épétées n l fois du même effet z l pondéé pa w l = w i Le modèle devient donc : {x i ; i = 1,, n}, n vecteus indépendants { de E, E(εi ) = 0, va(ε l, i Ω l, x i = z l + ε i avec i ) = Γ, Γ égulièe et inconnue, A q, sous-espace affine de de dimension q de E tel que l, z l A q, (q < min(p, m 1)) Remaque Soit z = m w lz l Le modèle entaîne que z A q Soit E q le sous-espace de dimension q de E tel que A q = z + E q Les paamètes à estime sont E q et {z l ; l = 1,, m} ; w l est un paamète de nuisance qui ne sea pas considéé Estimation L estimation pa les moindes caés s écit ainsi : min E q,z l Comme on a { m w i x i z l M = w i x i z l M ; dim(e q) = q, z l z E q w i x i g l M + } (1) m w l g l z l M, on est conduit à ésoude : { m } w l g l z l M ; dim(e q) = q, z l z E q min E q,z l La covaiance σ Γ du modèle (1) étant inconnue, il faut l estimée Ce modèle stipule que l ensemble des obsevations d une même classe Ω l suit une loi (inconnue) de moyenne z e ll et de vaiance Γ Dans ce cas paticulie, la matice de covaiances intaclasse ou matice des covaiances ésiduelles empiiques S founit donc une estimation optimale de la métique de éféence : M = Γ 1 = S 1
3 Analyse factoielle disciminante (AFD) PROPOSITION L estimation des paamètes E q et z l du modèle 1 est obtenue pa l ACP de (G, S 1, D) C est l Analyse Factoielle Disciminante (AFD) de (X T, D) 3 Réalisation de l AFD Les expessions maticielles définissant les epésentations gaphiques et les aides à l intepétation découlent de celles de l ACP 31 Matice à diagonalise L ACP de (G, S 1 -symétique : S 1, D) conduit à l analyse spectale de la matice positive G D GS 1 = S e S 1 Comme S 1 est égulièe, cette matice est de même ang que S e et donc de même ang que G qui est de dimension (m p) Les données étant centées los de l analyse, le ang de la matice à diagonalise est h = ang(s e S 1 ) inf(m 1, p), qui vaut en généal m 1 c est-à-die le nombe de classes moins un On note λ 1 λ h > 0 les valeus popes de S e S 1 vecteus popess 1 -othonomés associés On pose Λ = diag(λ 1,, λ h ) et V = [v 1,, v h ] et v 1,, v h les Les vecteus v k sont appelés vecteus disciminants et les sous-espaces vectoiels de dimension 1 qu ils engendent dans R p les axes disciminants 3 Repésentation des individus L espace des individus est (R p, b c, S 1 ) Une epésentation simultanée des individus x i et des baycentes g l des classes pa appot aux mêmes axes disciminants est obtenue dans cet espace au moyen des coodonnées : C = XS 1 V pou les individus et C = GS 1 V = D 1 T DC pou les baycentes Les individus initiaux sont pojetés comme des individus supplémentaies dans le système des axes disciminants Comme en ACP, on peut calcule des cosinus caés pou pécise la qualité de epésentation de chaque individu Il est utile de difféencie gaphiquement la classe de chaque individu afin de pouvoi appécie visuellement la qualité de la discimination 33 Repésentation des vaiables L espace des vaiables est (R m, b c, D) Chaque vaiable X j est epésenté pa un vecteu dont les coodonnées dans le système des axes factoiels est une ligne de la matice VΛ 1/ 34 Intepétations Les intepétations usuelles : la nome est un écat-type, un cosinus d angle est un coefficient de coélation, doivent ête faites en temes d écats-types et de coélations expliquées pa la patition La epésentation des vaiables est utilisée pou intepétée les axes en fonction des vaiables initiales conjointement avec la matice des coélations expliquées vaiables facteus : Σ 1 e VΛ 1/ La matice Σ 1 e étant la matice diagonale des écats-types expliqués σe j c est-à-die des acines caées des éléments diagonaux de la matice S e Le point patique essentiel est de savoi si la epésentation des individusbaycentes et des individus initiaux pemet de faie une bonne discimination ente les classes définies pa la vaiable T Si ce n est pas le cas, l AFD ne set à ien, les X j n expliquent pas T Dans le cas favoable, le gaphique des individus pemet d intepéte la discimination en fonction des axes et, celui des vaiables, les axes en fonction des vaiables initiales La synthèse des deux pemet l intepétation de T selon les X j 4 Vaiantes de l AFD 41 Individus de mêmes poids L AFD peut ête définie de difféentes façon Dans la littéatue anglosaxonne, et donc dans la vesion standad d AFD du logiciel SAS (pocédue candisc), ce sont les estimations sans biais des matices de vaiances inta
4 Analyse factoielle disciminante (AFD) (within) et inte (between) qui sont considéées dans le cas d individus de mêmes poids 1/n Dans ce cas paticulie, D = 1 n I n et D = 1 n diag(n 1,, n m ) où n l = cad(ω l ) et les matices de covaiances empiiques ont alos pou temes généaux : (S) k j = 1 n (x j i n xj )(x k i x k ), (S e ) k j = 1 n (S ) k j = 1 n i=1 m n l (g j l xj )(gl k x k ), (x j i gj l )(xk i g k l ) Du point de vue de le Statistique inféentielle, on sait que les quantités calculées ci-dessus ont espectivement (n 1), (m 1) et (n m) degés de libeté En conséquence, ce point de vue est obtenu en emplaçant dans les calculs S pa S = n n 1 S, S e pa S e = B = n m 1 S e, S pa S = W = n n m S Les ésultats numéiques de l AFD se touvent alos modifiés de la façon suivante : matice à diagonalise : S es 1 = n m m 1 S es 1, valeus popes : Λ = n m m 1 Λ, vecteus popes : V = epésentation des baycentes : C = epésentation des vaiables : V Λ 1/ = n n m V, n m n C, n m 1 VΛ1/, coélations vaiables-facteus : Σ 1 e V Λ 1/ = Σ 1 e VΛ 1/ Ainsi, les epésentations gaphiques sont identiques à un facteu d échelle pès tandis que les pats de vaiance expliquée et les coélations vaiables-facteus sont inchangées 4 Métique de Mahalanobis L AFD est souvent intoduite dans la littéatue fancophone comme un cas paticulie d Analyse Canonique ente un ensemble de p vaiables quantitatives et un ensemble de m vaiables indicatices des modalités de T La poposition suivante établit les elations ente les deux appoches : PROPOSITION 3 l ACP de (G, S 1, D) conduit aux mêmes vecteus pincipaux que l ACP de (G, S 1, D) Cette denièe est l ACP des baycentes des classes losque l espace des individus est muni de la métique dite de Mahalanobis M = S 1 et l espace des vaiables de la métique des poids des classes D Les ésultats numéiques de l AFD se touvent alos modifiés de la façon suivante : matice à diagonalise : S e S 1, valeus popes : Λ(I + Λ) 1, vecteus popes : V(I + Λ) 1/, epésentation des baycentes : C(I + Λ) 1/, epésentation des vaiables : VΛ 1/, coélations vaiables-facteus : Σ 1 e VΛ 1/ Les epésentations gaphiques des individus (voi ci-dessus) ne diffèent alos que d une homothétie et conduisent à des intepétations identiques, les coélations vaiables-facteus ainsi que les epésentations des vaiables sont inchangées 5 Exemples 51 Les insectes de Lubitsch Cette méthode est illustée pa une compaaison des soties gaphiques issues d une ACP et d une AFD Les données décivent tois classes d insectes
5 Analyse factoielle disciminante (AFD) 3 1 A x e 0-1 - - 3-4 - 4-3 - - 1 0 1 3 4 A x e 1 FIGURE 1 Insectes : pemie plan factoiel de l ACP su lesquels ont été éalisées 6 mesues anatomiques On cheche à savoi si ces mesues pemettent de etouve la typologie de ces insectes Ce jeu de données scolaie, comme les fameux iis de Fishe conduit à une discimination assez évidente La compaaison ente l ACP et l AFD met claiement en évidence le ôle de la distance S 1 R que la fome des nuages de chaque classe en analyse disciminante 5 Données génomiques Les données génomiques pose évidemment des poblèmes à l analyse disciminante ; le gand nombe de gènes/vaiables pa appot au nombe de souis/individus end impossible l invesion de la matice des covaiances intaclasses Aussi, en s aidant de la sélection de vaiables suggéée pa l analyse en composantes pincipales, une analyse factoielle disciminante a été calculée su les seules souis sauvages (WR) pou qui les égimes appaaissaient déjà bien difféenciés su l ACP Les vaiables ne sont pas epésentées mais les appochements déjà évoqués pou l ACP sont confimés et pécisés A x e 5 4 3 1 0-1 - - 3-4 - 8-7 - 6-5 - 4-3 - - 1 0 1 3 4 5 6 7 A x e 1 FIGURE Insectes : pemie plan factoiel de l AFD
6 Analyse factoielle disciminante (AFD) Dim (1555 %) 4 0 4 sol 3 9 15 dha 4 18 5 14 tounesol 0 1 1110 13 8 lin ef 17 7 19 efad 1 16 6 6 4 0 4 6 Dim 1 (4491 %) FIGURE 3 Souis : Les souis de génotype WT dans le pemie plan factoiel de l AFD calculée avec une sélection de vaiables d expession de gènes conditionnellement au égime