Analyse factorielle discriminante (AFD)

Documents pareils
où «p» représente le nombre de paramètres estimés de la loi de distribution testée sous H 0.

Serveur vidéo IP. caméras analogiques PC serveur. PC Client 1. Serveur de stockage ( optionnel )

M F. F O Unité: [m. N] La norme du moment de force peut se calculer en introduit le bras de levier d

11.5 Le moment de force τ (tau) : Production d une accélération angulaire

CIRCULAIRE N 02/04. Elle précise les méthodes de valorisation des titres de capital et des titres de créances contenus dans les actifs de l OPCVM.

Chapitre 6: Moment cinétique

Créer un observatoire de la concurrence. Créer un observatoire de la concurrence. Démarche. ntérêt. C aractéristiques.

TRAVAUX DIRIGÉS DE M 6

FINANCE Mathématiques Financières

Informations Techniques A7 A141. Roulements à Billes à Gorge Profonde. Roulements à Billes à Contact Oblique. Roulements à Billes Auto-Aligneurs

DiaDent Group International

CHAPITRE VI : Le potentiel électrique

Roulements à rotule sur deux rangées de rouleaux en deux parties

tudes & documents ÉCONOMIE ET ÉVALUATION L assurance habitation dans les départements d Outre Mer n 24 Juin 2010

A la mémoire de ma grande mère A mes parents A Mon épouse A Mes tantes et sœurs A Mes beaux parents A Toute ma famille A Mes amis A Rihab, Lina et

Mécanique du point : forces Newtoniennes (PCSI)

Moments partiels crédibilistes et application à l évaluation de la performance de fonds spéculatifs

Évaluation de l'incertitude de mesure par une méthode statistique ("méthode de type A") Voir cours d'instrumentation

( Codes : voir verso du feuillet 3 ) SPECIMEN

Validation CFD axisymétrique de modèle zonal des écoulements gazeux de chambre de combustion de moteur Diesel

Mémoire de DEA. Modélisation opérationnelle des domaines de référence

Guide de l acheteur de logiciel de Paie

Roulements à billes et à rouleaux

DEUXIEME ANNEE TRONC COMMUN TECHNOLOGIE TRAVAUX DIRIGES DE PHYSIQUE VIBRATIONS ONDES

Permis de feu. Travail par point chaud. r Soudage r Brasage. r Découpage r Tronçonnage. r Meulage r Autres. r Poste à souder r Tronçonneuse

Po ur d o nne r un é lan à vo tre re traite

( Mecanique des fluides )

CONSTANTES DIELECTRIQUES

Les déterminants de la diffusion d Internet en Afrique

SYSTÈME D ALARME ET PRODUITS TRANSMETTEURS

LE LOGEMENT AU NUNAVIK

Quelques éléments d écologie utiles au forestier

PHYSIQUE DES SEMI-CONDUCTEURS

GESTION DES RELATIONS HUMAINES ET COMPÉTENCES

CIGI 2011 Job shop sous contraintes de disponibilité des ressources : modèle mathématique et heuristiques

RAISONNER L INVESTIGATION EN RHUMATOLOGIE

GESTION DE LA SAUVEGARDE DES DONNÉES (SÉCURITÉ ET STOCKAGE)

CLOUD CX263 MÉLANGEUR

Chapitre 1.5a Le champ électrique généré par plusieurs particules

SOMMAIRE. ATRACOM-Centrafrique Manuel de Procédures Administratives Financiers et Comptables

D'CLICS CONSO. ayez les bons réflexes! Logement, téléphonie, mobilité, budget : soyez acteur de votre consommation!

Magister en : Electrotechnique

Univ. Béjaia, Faculté de la Technologie, Département d électronique

Guide 2005 GESTION. des solutions partenaires logiciels. IBM Software. commerciale (CRM) comptable et financière logistique marketing de la qualité

Les pertes de charge dans les installations. Le dimensionnement des mitigeurs. octobre 2005

Physique quantique. Dans l UF Physique Quantique et Statistique. 3ème année IMACS. Pierre Renucci (cours) Thierry Amand (TDs)

RESOLUTION PAR LA METHODE DE NORTON, MILLMAN ET KENNELY

Amélioration des performances des aérogénérateurs

Rencontrez votre filleul... au Bangladesh

UNIVERSITE JOSEPH FOURIER GRENOBLE I THESE. présentée par. Ioana - Cristina MOLDOVAN. pour obtenir le grade de DOCTEUR. Spécialité : Physique

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Cours de. Point et système de points matériels

DEMANDE D OUVERTURE D UN COMPTE EPARGNE REMUNERE (Réservé aux particuliers) Exemplaire Client (à conserver)

Probabilités sur un univers fini

MAISON DE L ARSLA 75 AVENUE DE LA REPUBLIQUE PARIS 28/03/2014

MODE D EMPLOI ENFANT MINEUR MONFINANCIER LIBERTE VIE

THÈSE. présentée pour obtenir le titre de. DOCTEUR de L ÉCOLE NATIONALE SUPÉRIEURE D ARTS ET MÉTIERS. Spécialité: Génie Electrique.

ANNALES SCIENTIFIQUES DE L É.N.S.

Considérations sur les contraintes liées à la gestion des données thermodynamiques en vue de la création de la base de données THERMODDEM

2. De la Grâce à l action de Grâces Ph 1.3-7

Préface. Le programme d électricité du S2 se compose de deux grandes parties :

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Probabilités sur un univers fini

Résolution de systèmes linéaires par des méthodes directes

Dossier Partenaires. Contact : Anne-Laurence Loubigniac

1 Complément sur la projection du nuage des individus

couleurs... Laquenexy de nouvelles l unique Jardin des Premières Nations réalisé en dehors de l Amérique du Nord.

Mouvement d'une particule chargée dans un champ magnétique indépendant du temps

Flux Réseau et Sécurité

Corrigé Problème. Partie I. I-A : Le sens direct et le cas n= 2

4. Un regard différent sur les circonstances Ph

- Cours de mécanique - STATIQUE

Feuille d exercices 2 : Espaces probabilisés

Programmes des classes préparatoires aux Grandes Ecoles

CARACTERISTIQUES DES SECTIONS PLANES

Equations aux dérivées partielles

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Statistique Descriptive Multidimensionnelle. (pour les nuls)

J EMMENE MA CLASSE A LA PISCINE

Régression linéaire. Nicolas Turenne INRA

Première promotion de l école de police de Repentigny Six cadets-policiers ont officiellem ent été assermentés

Commande Prédictive Non Linéaire à un pas de la Machine Asynchrone (1) Université de Djelfa (2)

FONCTION DE DEMANDE : REVENU ET PRIX

CONDUCTEURS EN EQUILIBRE ELECTROSTATIQUE

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

Coefficients binomiaux

Annexe II. Les trois lois de Kepler

Corrigé du baccalauréat S Pondichéry 12 avril 2007

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

1. Les comptes de dépôt et d épargne

L exclusion mutuelle distribuée

Correction de l examen de la première session

1 Première section: La construction générale

Classification non supervisée

NOTATIONS PRÉLIMINAIRES

3 Approximation de solutions d équations

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Algorithmique et programmation : les bases (VBA) Corrigé

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Transcription:

1 Analyse factoielle disciminante (AFD) Analyse factoielle disciminante (AFD) Résumé Méthode factoielle de éduction de dimension pou l exploation statistique de vaiables quantitatives et d une vaiable qualitative Constuction du modèle statistique associé, estimation Repésentation gaphique optimale des classes des individus, liens avec d autes définitions de l AFD Tavaux patiques de complexité coissante pa l études de données socio-économiques Retou au plan du cous 1 Intoduction 11 Données Les données sont constituées de p vaiables quantitatives X 1,, X p jouant le ôle de vaiables explicatives comme dans le modèle linéaie, une vaiable qualitative T, à m modalités {T 1,, T m }, jouant le ôle de vaiable à explique La situation est analogue à celle de la égession linéaie multiple mais, comme la vaiable à explique est qualitative, on aboutit à une méthode tès difféente Les vaiables sont obsevées su l ensemble Ω des n individus affectés des poids w i > 0, ( n i=1 w i = 1), et l on pose D = diag(w i ; i = 1,, n) La vaiable T engende une patition {Ω l ; l = 1,, m} de l ensemble Ω des individus dont chaque élément est d effectif n l On note T (n m) la matice des indicatices des modalités de la vaiable T ; son teme généal est { t l i = t l 1 si T (ωi ) = T (ω i ) = l 0 sinon En posant il vient 1 Objectifs w l = w i, D = T DT = diag(w 1,, w m ) Deux techniques cohabitent sous la même appellation d analyse disciminante : desciptive : cette méthode echeche, pami toutes les ACP possibles su les vaiables X j, celle dont les epésentations gaphiques des individus disciminent au mieux les m classes engendées pa la vaiable T (eg echeche de facteus de isque en statistique médicale) ; décisionnelle : connaissant, pou un individu donné, les valeus des Y j mais pas la modalité de T, cette méthode consiste à affecte cet individu à une modalité (eg econnaissance de fomes) Cette méthode est décite dans la patie modélisation de ce cous Remaque Losque le nombe et les caactéistiques des classes sont connues, il s agit d une discimination ; sinon, on pale de classification ou encoe, avec des hypothèses su les distibutions, de econnaissance de mélanges 13 Notations On note X la matice (n p) des données quantitatives, G la matice (m p) des baycentes des classes : G = D 1 T DX = g 1 g m où g l = 1 w i x i, w l et X e la matice (n p) dont la ligne i est le baycente g l de la classe Ω l à laquelle appatient l individu i : X e = TG = PG ;

Analyse factoielle disciminante (AFD) P = TD 1 T D est la matice de pojection D-othogonale su le sous-espace engendé pa les indicatices de T ; c est encoe l espéance conditionnelle sachant T avec Deux matices centées sont définies de sote que X se décompose en X = X + X e X = X X e et X e = X e 1 n x On note également G la matice centée des baycentes : G = G 1 m x On appelle alos vaiance intaclasse (within) ou ésiduelle : S = X DX = et vaiance inteclasse (between) ou expliquée : S e = G DG = X edx e = w i (x i g l )(x i g l ), m w l (g l x)(g l x) PROPOSITION 1 La matice des covaiances se décompose en Définition 1 Modèle S = S e + S Dans l espace des individus, le pincipe consiste à pojete les individus dans une diection pemettant de mette en évidence les goupes À cette fin, Il faut pivilégie la vaiance inteclasse au détiment de la vaiance intaclasse considéée comme due au buit En ACP, pou chaque effet z i à estime, on ne dispose que d une obsevation x i ; dans le cas de l AFD on considèe que les éléments d une même classe Ω l sont les obsevations épétées n l fois du même effet z l pondéé pa w l = w i Le modèle devient donc : {x i ; i = 1,, n}, n vecteus indépendants { de E, E(εi ) = 0, va(ε l, i Ω l, x i = z l + ε i avec i ) = Γ, Γ égulièe et inconnue, A q, sous-espace affine de de dimension q de E tel que l, z l A q, (q < min(p, m 1)) Remaque Soit z = m w lz l Le modèle entaîne que z A q Soit E q le sous-espace de dimension q de E tel que A q = z + E q Les paamètes à estime sont E q et {z l ; l = 1,, m} ; w l est un paamète de nuisance qui ne sea pas considéé Estimation L estimation pa les moindes caés s écit ainsi : min E q,z l Comme on a { m w i x i z l M = w i x i z l M ; dim(e q) = q, z l z E q w i x i g l M + } (1) m w l g l z l M, on est conduit à ésoude : { m } w l g l z l M ; dim(e q) = q, z l z E q min E q,z l La covaiance σ Γ du modèle (1) étant inconnue, il faut l estimée Ce modèle stipule que l ensemble des obsevations d une même classe Ω l suit une loi (inconnue) de moyenne z e ll et de vaiance Γ Dans ce cas paticulie, la matice de covaiances intaclasse ou matice des covaiances ésiduelles empiiques S founit donc une estimation optimale de la métique de éféence : M = Γ 1 = S 1

3 Analyse factoielle disciminante (AFD) PROPOSITION L estimation des paamètes E q et z l du modèle 1 est obtenue pa l ACP de (G, S 1, D) C est l Analyse Factoielle Disciminante (AFD) de (X T, D) 3 Réalisation de l AFD Les expessions maticielles définissant les epésentations gaphiques et les aides à l intepétation découlent de celles de l ACP 31 Matice à diagonalise L ACP de (G, S 1 -symétique : S 1, D) conduit à l analyse spectale de la matice positive G D GS 1 = S e S 1 Comme S 1 est égulièe, cette matice est de même ang que S e et donc de même ang que G qui est de dimension (m p) Les données étant centées los de l analyse, le ang de la matice à diagonalise est h = ang(s e S 1 ) inf(m 1, p), qui vaut en généal m 1 c est-à-die le nombe de classes moins un On note λ 1 λ h > 0 les valeus popes de S e S 1 vecteus popess 1 -othonomés associés On pose Λ = diag(λ 1,, λ h ) et V = [v 1,, v h ] et v 1,, v h les Les vecteus v k sont appelés vecteus disciminants et les sous-espaces vectoiels de dimension 1 qu ils engendent dans R p les axes disciminants 3 Repésentation des individus L espace des individus est (R p, b c, S 1 ) Une epésentation simultanée des individus x i et des baycentes g l des classes pa appot aux mêmes axes disciminants est obtenue dans cet espace au moyen des coodonnées : C = XS 1 V pou les individus et C = GS 1 V = D 1 T DC pou les baycentes Les individus initiaux sont pojetés comme des individus supplémentaies dans le système des axes disciminants Comme en ACP, on peut calcule des cosinus caés pou pécise la qualité de epésentation de chaque individu Il est utile de difféencie gaphiquement la classe de chaque individu afin de pouvoi appécie visuellement la qualité de la discimination 33 Repésentation des vaiables L espace des vaiables est (R m, b c, D) Chaque vaiable X j est epésenté pa un vecteu dont les coodonnées dans le système des axes factoiels est une ligne de la matice VΛ 1/ 34 Intepétations Les intepétations usuelles : la nome est un écat-type, un cosinus d angle est un coefficient de coélation, doivent ête faites en temes d écats-types et de coélations expliquées pa la patition La epésentation des vaiables est utilisée pou intepétée les axes en fonction des vaiables initiales conjointement avec la matice des coélations expliquées vaiables facteus : Σ 1 e VΛ 1/ La matice Σ 1 e étant la matice diagonale des écats-types expliqués σe j c est-à-die des acines caées des éléments diagonaux de la matice S e Le point patique essentiel est de savoi si la epésentation des individusbaycentes et des individus initiaux pemet de faie une bonne discimination ente les classes définies pa la vaiable T Si ce n est pas le cas, l AFD ne set à ien, les X j n expliquent pas T Dans le cas favoable, le gaphique des individus pemet d intepéte la discimination en fonction des axes et, celui des vaiables, les axes en fonction des vaiables initiales La synthèse des deux pemet l intepétation de T selon les X j 4 Vaiantes de l AFD 41 Individus de mêmes poids L AFD peut ête définie de difféentes façon Dans la littéatue anglosaxonne, et donc dans la vesion standad d AFD du logiciel SAS (pocédue candisc), ce sont les estimations sans biais des matices de vaiances inta

4 Analyse factoielle disciminante (AFD) (within) et inte (between) qui sont considéées dans le cas d individus de mêmes poids 1/n Dans ce cas paticulie, D = 1 n I n et D = 1 n diag(n 1,, n m ) où n l = cad(ω l ) et les matices de covaiances empiiques ont alos pou temes généaux : (S) k j = 1 n (x j i n xj )(x k i x k ), (S e ) k j = 1 n (S ) k j = 1 n i=1 m n l (g j l xj )(gl k x k ), (x j i gj l )(xk i g k l ) Du point de vue de le Statistique inféentielle, on sait que les quantités calculées ci-dessus ont espectivement (n 1), (m 1) et (n m) degés de libeté En conséquence, ce point de vue est obtenu en emplaçant dans les calculs S pa S = n n 1 S, S e pa S e = B = n m 1 S e, S pa S = W = n n m S Les ésultats numéiques de l AFD se touvent alos modifiés de la façon suivante : matice à diagonalise : S es 1 = n m m 1 S es 1, valeus popes : Λ = n m m 1 Λ, vecteus popes : V = epésentation des baycentes : C = epésentation des vaiables : V Λ 1/ = n n m V, n m n C, n m 1 VΛ1/, coélations vaiables-facteus : Σ 1 e V Λ 1/ = Σ 1 e VΛ 1/ Ainsi, les epésentations gaphiques sont identiques à un facteu d échelle pès tandis que les pats de vaiance expliquée et les coélations vaiables-facteus sont inchangées 4 Métique de Mahalanobis L AFD est souvent intoduite dans la littéatue fancophone comme un cas paticulie d Analyse Canonique ente un ensemble de p vaiables quantitatives et un ensemble de m vaiables indicatices des modalités de T La poposition suivante établit les elations ente les deux appoches : PROPOSITION 3 l ACP de (G, S 1, D) conduit aux mêmes vecteus pincipaux que l ACP de (G, S 1, D) Cette denièe est l ACP des baycentes des classes losque l espace des individus est muni de la métique dite de Mahalanobis M = S 1 et l espace des vaiables de la métique des poids des classes D Les ésultats numéiques de l AFD se touvent alos modifiés de la façon suivante : matice à diagonalise : S e S 1, valeus popes : Λ(I + Λ) 1, vecteus popes : V(I + Λ) 1/, epésentation des baycentes : C(I + Λ) 1/, epésentation des vaiables : VΛ 1/, coélations vaiables-facteus : Σ 1 e VΛ 1/ Les epésentations gaphiques des individus (voi ci-dessus) ne diffèent alos que d une homothétie et conduisent à des intepétations identiques, les coélations vaiables-facteus ainsi que les epésentations des vaiables sont inchangées 5 Exemples 51 Les insectes de Lubitsch Cette méthode est illustée pa une compaaison des soties gaphiques issues d une ACP et d une AFD Les données décivent tois classes d insectes

5 Analyse factoielle disciminante (AFD) 3 1 A x e 0-1 - - 3-4 - 4-3 - - 1 0 1 3 4 A x e 1 FIGURE 1 Insectes : pemie plan factoiel de l ACP su lesquels ont été éalisées 6 mesues anatomiques On cheche à savoi si ces mesues pemettent de etouve la typologie de ces insectes Ce jeu de données scolaie, comme les fameux iis de Fishe conduit à une discimination assez évidente La compaaison ente l ACP et l AFD met claiement en évidence le ôle de la distance S 1 R que la fome des nuages de chaque classe en analyse disciminante 5 Données génomiques Les données génomiques pose évidemment des poblèmes à l analyse disciminante ; le gand nombe de gènes/vaiables pa appot au nombe de souis/individus end impossible l invesion de la matice des covaiances intaclasses Aussi, en s aidant de la sélection de vaiables suggéée pa l analyse en composantes pincipales, une analyse factoielle disciminante a été calculée su les seules souis sauvages (WR) pou qui les égimes appaaissaient déjà bien difféenciés su l ACP Les vaiables ne sont pas epésentées mais les appochements déjà évoqués pou l ACP sont confimés et pécisés A x e 5 4 3 1 0-1 - - 3-4 - 8-7 - 6-5 - 4-3 - - 1 0 1 3 4 5 6 7 A x e 1 FIGURE Insectes : pemie plan factoiel de l AFD

6 Analyse factoielle disciminante (AFD) Dim (1555 %) 4 0 4 sol 3 9 15 dha 4 18 5 14 tounesol 0 1 1110 13 8 lin ef 17 7 19 efad 1 16 6 6 4 0 4 6 Dim 1 (4491 %) FIGURE 3 Souis : Les souis de génotype WT dans le pemie plan factoiel de l AFD calculée avec une sélection de vaiables d expession de gènes conditionnellement au égime