5- Analyse discriminante



Documents pareils
Remboursement d un emprunt par annuités constantes

Les jeunes économistes

Mesure avec une règle

Montage émetteur commun

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire

Editions ENI. Project Collection Référence Bureautique. Extrait

Exercices d Électrocinétique

Fiche n 7 : Vérification du débit et de la vitesse par la méthode de traçage

Plan. Gestion des stocks. Les opérations de gestions des stocks. Les opérations de gestions des stocks

LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régime») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF

Chapitre 3 : Incertitudes CHAPITRE 3 INCERTITUDES. Lignes directrices 2006 du GIEC pour les inventaires nationaux de gaz à effet de serre 3.

BTS GPN 2EME ANNEE-MATHEMATIQUES-MATHS FINANCIERES MATHEMATIQUES FINANCIERES

COMPARAISON DE MÉTHODES POUR LA CORRECTION

Dirigeant de SAS : Laisser le choix du statut social

GENESIS - Generalized System for Imputation Simulations (Système généralisé pour simuler l imputation)

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations

1.0 Probabilité vs statistique Expérience aléatoire et espace échantillonnal Événement...2

MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES

STATISTIQUE AVEC EXCEL

Chapitre IV : Inductance propre, inductance mutuelle. Energie électromagnétique

GEA I Mathématiques nancières Poly. de révision. Lionel Darondeau

Q x2 = 1 2. est dans l ensemble plus grand des rationnels Q. Continuons ainsi, l équation x 2 = 1 2

Économétrie. Annexes : exercices et corrigés. 5 e édition. William Greene New York University

ÉLÉMENTS DE THÉORIE DE L INFORMATION POUR LES COMMUNICATIONS.

Corrections adiabatiques et nonadiabatiques dans les systèmes diatomiques par calculs ab-initio

BUREAU D'APPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES

Grandeur physique, chiffres significatifs

CHAPITRE 14 : RAISONNEMENT DES SYSTÈMES DE COMMANDE

1 Introduction. 2 Définitions des sources de tension et de courant : Cours. Date : A2 Analyser le système Conversion statique de l énergie. 2 h.

Généralités sur les fonctions 1ES

DES EFFETS PERVERS DU MORCELLEMENT DES STOCKS

hal , version 1-14 Aug 2009

IDEI Report # 18. Transport. December Elasticités de la demande de transport ferroviaire: définitions et mesures

TD 1. Statistiques à une variable.

TRAVAUX PRATIQUES SPECTRO- COLORIMETRIE

CREATION DE VALEUR EN ASSURANCE NON VIE : COMMENT FRANCHIR UNE NOUVELLE ETAPE?

La Quantification du Risque Opérationnel des Institutions Bancaires

UNIVERSITÉ DU QUÉBEC À MONTRÉAL L ASSURANCE AUTOMOBILE AU QUÉBEC : UNE PRIME SELON LE COÛT SOCIAL MARGINAL MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE

I. Présentation générale des méthodes d estimation des projets de type «unité industrielle»

Les prix quotidiens de clôture des échanges de quotas EUA et de crédits CER sont fournis par ICE Futures Europe

Pratique de la statistique avec SPSS

La théorie classique de l information. 1 ère partie : le point de vue de Kolmogorov.

PREMIERS PAS en REGRESSION LINEAIRE avec SAS. Josiane Confais (UPMC-ISUP) - Monique Le Guen (CNRS-CES-MATISSE- UMR8174)

INTRODUCTION. Jean-Pierre MAGNAN Chef de la section des ouvrages en terre Département des sols et fondations Laboratoire central

Page 5 TABLE DES MATIÈRES

En vue de l'obtention du. Présentée et soutenue par Meva DODO Le 06 novembre 2008

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D ACCIDENTS

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

santé Les arrêts de travail des séniors en emploi

L enseignement virtuel dans une économie émergente : perception des étudiants et perspectives d avenir

Paquets. Paquets nationaux 1. Paquets internationaux 11

Corrigé du problème de Mathématiques générales Partie I

Calculer le coût amorti d une obligation sur chaque exercice et présenter les écritures dans les comptes individuels de la société Plumeria.

Interface OneNote 2013

MODÈLE D ISING À UNE ET DEUX DIMENSIONS.

Pour plus d'informations, veuillez nous contacter au ou à

Stéganographie Adaptative par Oracle (ASO)

Prêt de groupe et sanction sociale Group lending and social fine

Pro2030 GUIDE D UTILISATION. Français

EH SmartView. Identifiez vos risques et vos opportunités. Pilotez votre assurance-crédit. Services en ligne Euler Hermes

Terminal numérique TM 13 raccordé aux installations Integral 33

Integral T 3 Compact. raccordé aux installations Integral 5. Notice d utilisation

TABLE DES MATIERES CONTROLE D INTEGRITE AU SEIN DE LA RECHERCHE LOCALE DE LA POLICE LOCALE DE BRUXELLES-CAPITALE/IXELLES (DEUXIEME DISTRICT) 1

Le Prêt Efficience Fioul

Thermodynamique statistique Master Chimie Université d Aix-Marseille. Bogdan Kuchta

RAPPORT DE STAGE. Approcher la frontière d'une sous-partie de l'espace ainsi que la distance à cette frontière. Sujet : Master II : SIAD

LA SURVIE DES ENTREPRISES DÉPEND-ELLE DU TERRITOIRE D'IMPLANTATION?

Ecole Polytechnique de Montréal C.P. 6079, succ. Centre-ville Montréal (QC), Canada H3C3A7

CHAPITRE DEUX : FORMALISME GEOMETRIQUE

GUIDE D ÉLABORATION D UN PLAN D INTERVENTION POUR LE RENOUVELLEMENT DES CONDUITES D EAU POTABLE, D ÉGOUTS ET DES CHAUSSÉES

Prise en compte des politiques de transport dans le choix des fournisseurs

P R I S E E N M A I N R A P I D E O L I V E 4 H D

Be inspired. Numéro Vert. Via Caracciolo Milano tel fax

Une analyse économique et expérimentale de la fraude à l assurance et de l audit

1. Les enjeux de la prévision du risque de défaut de paiement

VIELLE Marc. CEA-IDEI Janvier La nomenclature retenue 3. 2 Vue d ensemble du modèle 4

Professionnel de santé équipé de Médiclick!

METHODE AUTOMATIQUE POUR CORRIGER LA VARIATION LINGUISTIQUE LORS DE L INTERROGATION DE DOCUMENTS XML DE STRUCTURES HETEROGENES

En vue de l'obtention du. Présentée et soutenue par Elayeb Bilel Le 26 juin 2009

Pourquoi LICIEL? Avec LICIEL passez à la vitesse supérieure EPROUVE TECHNICITE CONNECTE STABILITE SUIVIE COMMUNAUTE

Système solaire combiné Estimation des besoins énergétiques

Projet de fin d études

II - Notions de probabilité. 19/10/2007 PHYS-F-301 G. Wilquet 1

Impôt sur la fortune et investissement dans les PME Professeur Didier MAILLARD

THESE. Khalid LEKOUCH

Comparative performance for isolated points detection operators: application on surface defects extraction

GATE Groupe d Analyse et de Théorie Économique DOCUMENTS DE TRAVAIL - WORKING PAPERS W.P Préférences temporelles et recherche d emploi

Evaluation de performances d'ethernet commuté pour des applications temps réel

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE. MEMOIRE Présentée à

Avez-vous vous aperçu cette drôle de trogne? Entre nature et histoire autour de Mondoubleau

Performances de la classification par les Séparateurs à Vaste Marge (SVM): application au diagnostic vibratoire automatisé

MEMOIRE. Présenté au département des sciences de la matière Faculté des sciences

Réseau RRFR pour la surveillance dynamique : application en e-maintenance.

LICENCE DE SCIENCES PHYSIQUES UV 3LSPH50. Année MODÉLISATION. Recherche des paramètres d'une représentation analytique J.P.

Dynamique du point matériel

INTERNET. Initiation à

Des solutions globales fi ables et innovantes.

Chapitre 1.5a Le champ électrique généré par plusieurs particules

Calcul de tableaux d amortissement

Transcription:

5. ANALYSE DISCRIMINANTE... 5. NOTATION ET FORMULATION DU PROBLÈME... 5. ASPECT DESCRIPTIF...3 5.. RECHERCHE DU VECTEUR SÉPARANT LE MIEUX POSSIBLE LES GROUPES...4 5.. Cas partculer de deu groupes...7 5.3 ASPECT CLASSEMENT...7 5.3. Approche géométrque du classement...8 5.3. Approche probablste (smplfée)...9 5.3.3 Évaluaton de la qualté de l'analyse dscrmnante...0 5.3.4 Test d égalté des matrces de covarances ntra-groupes...3 5.4 PROCÉDURES DE SÉLECTION DES VARIABLES...3 5.4. Eemple d analyse dscrmnante ( groupes)...4 5.5 EXEMPLE D'APPLICATION: INDICE DE PROSPECTION GÉOCHIMIQUE...5

5. Analyse dscrmnante L'analyse dscrmnante étude des données provenant de groupes connus à pror. Elle vse deu buts prncpau:. Descrpton: Parm les groupes connus, quelles sont les prncpales dfférences que l'on peut détermner à l'ade des varables mesurées?. Classement: Peut- on détermner le groupe d'appartenance d'une nouvelle observaton unquement à partr des varables mesurées? La fgure (tré de Davs, 973, p. 444) llustre une AD pour le cas de deu groupes, dans un espace à varables. La dscrmnaton entre les deu groupes est moyenne auss ben sur la ère que sur la e varable. On note un chevauchement non-néglgeable des groupes. Par contre, s on projetat les observatons sur la drote égale à 0.5 +0.5, on aurat une dscrmnaton parfate entre les deu groupes. C'est ce que cherche à fare l'ad dans le contete plus général où l'on dspose de pluseurs varables et pluseurs groupes. Les domanes d'applcaton de l'analyse dscrmnante sont nombreu en géologe: défnton d'ndces de prospecton géochmque, analyse d'mages, caractérsaton géochmque de types de roches, etc. L'analyse dscrmnante se rattache au champ plus vaste de la reconnassance des formes. Par ses objectfs, elle s'apparente également au réseau neuronau, sujet très à la mode en recherche nformatque. 5. Notaton et formulaton du problème Sot: n: nombre total d'observatons. p: nombre de varables mesurées. k: nombre de groupes. n k : nombre d'observatons dans le groupe k. T: matrce de varablté totale. T * : matrce de covarances totale: T/(n-) E: matrce de varablté entre les groupes. E * : matrce de covarances entre les groupes: E/(k-) D: matrce de varablté dans les groupes. D * : matrce de covarances dans les groupes : D/(n-k). T, E et D sont des matrces p p. T et D sont habtuellement de rang p. E est de rang k-. X: matrce n p des observatons où les observatons sont placées un groupe à la sute de l'autre. C: matrce n p des moyennes des p varables dans les k groupes répétées n k fos. y : vecteur p des moyennes des p varables pour le groupe. On a donc:

3 X =.. p... p....... n n n p.. p... p....... n n n p............ k k p k... k p k..... k k.. n n k k k nk p C = y y.. y p y... yp..... y y.. yp y y.. y p y... yp..... y y.. yp.......... yk yk.. y kp yk... y kp..... yk y k.. y kp 5. Aspect descrptf Sot un vecteur u. On chosra u de telle sorte que les projectons des moyennes des groupes sur u soent le plus espacées possble et que, smultanément, les projectons des observatons d'un même groupe soent le plus rapprochées possble de la projecton de la moyenne du groupe. Bref, sur ce vecteur u on cherche à observer des groupes compacts et dstants les uns des autres. La matrce X centrée par rapport au moyennes calculées avec toutes les observatons (sans tenr compte du groupe) est donnée par: X c = X - 'X/n De même, la matrce C centrée (.e. la matrce contenant les moyennes de chaque groupe centrées par rapport à la moyenne globale) s'écrt: C c = C - 'X/n On pourrat également centrer chaque observaton de la matrce X par rapport à la moyenne du groupe correspondant:

4 X g = X - C Ben sûr, on a: X c = C c + X g La matrce de varablté (totale) s'écrt alors: T = X c 'X c T = C c 'C c + X g 'X g car X g 'C c = 0 T = E + D Le premer membre de drote représente la matrce de varablté entre les centres des groupes (E pour "Entre"). Le second membre représente la matrce de varablté à l'ntéreur des groupes (D pour "Dans"). Les groupes seront d'autant plus facles à dscrmner (à séparer) que E sera grand par rapport à D (où à T). En effet, s E est grand, cec sgnfe que les centres des groupes sont élognés. S D est pett, cec sgnfe que les observatons d'un même groupe sont proches de leur centre. S on a smultanément E grand et D pett alors les groupes sont élognés les uns des autres et compacts, la stuaton déale. 5.. Recherche du vecteur séparant le meu possble les groupes. Sot un vecteur u sur lequel seront effectuées les projectons des observatons. Effectuons les "projectons" sur u: X c u La varablté de ces projectons est donnée par: On a: u'tu u'tu = u'du + u'eu Le vecteur u recherché est le vecteur qu mamse le rapport: ueu udu ou ueu utu Nous chosrons le premer rapport parce qu'l est utlsé plus souvent (les deu sont admssbles et donnent des résultats dentques).

Il est équvalent de mamser u'eu/u'du ou de mamser u'eu sujet à u'du = (en effet sot u le vecteur obtenu en solutonnant drectement le rapport; s u'du = c on n'a qu'à poser u* = / c u et on a le même mamum avec la contrante respectée). Comme déja vu en ACP, on a un problème de mamsaton sous contrante qu est résolu par la technque de Lagrange. On trouve u est soluton de D - Eu = λu u'du = On reconnaît un problème de vecteurs propres et de valeurs propres. Le vecteur recherché est le vecteur propre assocé à la plus grande valeur propre de D - E. Les autres vecteurs propres de cette matrce seront successvement les vecteurs, orthogonau au précédents (.e. u' Du j =0) donnant la melleure séparaton entre les groupes. On aura, au plus, k- valeurs propres non-nulles car le rang de la matrce E est de k- (k groupes centrés). Ans deu groupes centrés défnssent une drote passant par l'orgne (dmenson ), tros groupes défnssent un plan (dmenson ), etc... 5 Ben que D - et E soent des matrces symétrques, le produt D - E ne donne pas une matrce symétrque. On pourrat donc crandre que les valeurs propres et les vecteurs propres ne soent pas réels et que les vecteurs propres ne soent pas orthogonau. On peut démontrer que les valeurs propres et les vecteurs propres sont effectvement réels. La relaton d'orthogonalté entre les vecteurs propres est légèrement modfée; on a en effet: u 'Du j =0 ; u 'Eu j =0 ; u 'Tu j = 0 s est dfférent de j. Cec entraîne que les projectons de X sur les vecteurs propres u ne sont pas corrélées. S l'on a plus de groupes que de varables (et donc que la matrce E est nversble), alors les projectons des observatons sur les vecteurs propres représentent des dstances de Mahalanobs. En effet, sot deu observatons et y (vecteurs colonnes p). La projecton de sur l'ensemble des vecteurs propres est U. La projecton de y est y U. La dstance (au carré) entre les deu projectons est (-y) UU (-y). Or U'DU=I (condton de normalsaton que l on a mposée au départ de l AD), ce qu mplque que UU'=D - (en effet prémultplant U DU par U et postmultplant par U, on trouve UU DUU =UU ; postmultplant par (UU ) - D -, on trouve UU =D - ). La dstance (au carré) entre les deu projectons est : (y) UU (-y )=(-y) D - (-y). Lorsqu'l y a mons de groupes que de varables, UU' D et les dstances ne sont plus des dstances de Mahalanobs au sens strct. En fat on montre (vor annee) que dans ce cas UU =D - - M (où M = EUΛ U et Λ est une matrce dagonale avec / λ sur la dagonale pour λ > 0 et 0 s λ = 0 ). M est une matrce dempotente (donc de projecton) non symétrque, l espace de projecton étant défn par les centres des groupes (matrce E). On se trouve alors à calculer la porton de la dstance de Mahalanobs contenue dans l espace défn par les centres des groupes. C est ben la seule dstance qu mporte pusque le complément est orthogonal à cet espace. Mesurer les dstances avec la métrque D - revent à effectuer une rotaton selon les aes prncpau (vor ACP) de la matrce D et une normalsaton pour que la dsperson ntragroupe sot. Par la sute on calcule la dstance eucldenne habtuelle. Bref, on calcule V tel que DV=VS (où S est la matrce dagonale contenant les valeurs propres de D). On

projette les observatons centrées sur V (rotaton) : X c V, (note V V=I) on normalse :XV*S -0.5. La dstance (au carré entre observatons transformées est alors : (*-y*)(*-y*) =(-y)vs - V (-y) =(-y)d - (-y). La dernère égalté provent du fat que : DV=VS => DVV =D=VSV => D - =(VSV ) - =VS - V. Bref, on peut nterpréter l AD comme une nouvelle façon de mesurer les dstances dans l espace orgnal ou plutôt comme une transformaton préalable à fare subr au données avant de calculer la dstance eucldenne. La transformaton préalable vse à rendre les nouvelles varables non-corrélées et de dsperson (dans les groupes) untare. 6 Après avor centré X, on calcule les coordonnées des observatons sur les vecteurs propres en fasant Co=X c U. S l on calcule la matrce des produts crosés des coordonnées, on obtent : Co Co=U X c X c U=U TU=U (D+E)U=U DU+U EU= I+ Λ On vot que les coordonnées sur les dfférents vecteurs propres ne sont pas corrélées et que la dsperson sur chaque vecteur propre vaut + λ pour le ème vecteur propre. λ est valeur propre de D - E.

7 5.. Cas partculer de deu groupes C'est un cas qu se présente très fréquemment et pour lequel la soluton est partculèrement smple pusqu'on a alors un seul vecteur dscrmnant (vecteur propre de D - E). On peut montrer que le vecteur propre est donné par: La valeur propre assocée est: nn u = D (y y ) nλ λ = (y -y )'D - (y -y ) n n /n=u'eu Dans le cas de deu groupes, on n'a donc aucune recherche de valeurs propres et vecteurs propres à effectuer. 5.3 Aspect classement On a de nouvelles observatons que l'on veut classer dans un des groupes connus unquement à partr des valeurs mesurées. Eemple: Eemple: Vous prélevez un certan nombre de roches volcanques en Abtb pour lesquelles vous analysez les éléments majeurs. Vous formez deu groupes selon qu'l este ou non un gsement connu stué à promté de l'observaton. Dans une nouvelle zone d'eploraton, vous mesurez les mêmes varables et vous classez l'observaton. S celle-c est classée dans le groupe "promal", alors c'est que cette roche présente une sgnature géochmque plus smlare au roches rencontrées à promté des gsements qu'au roches "dstales". Il s'agt donc d'une zone favorable. Vous dsposez d'mages satelltes dans pluseurs bandes de fréquences. Vous voulez utlser cette nformaton pour dentfer les types de roches sur l'mage. En quelques endrots (pels), vous connassez le type de roche pour l'avor dentfé sur le terran. Vous formez des groupes avec ces pels connus et vous cherchez à classer les autres pels de l'mage. Le classement est partculèrement ndqué lorsque les groupes sont dffcles à détermner pour une rason ou une autre (coût, naccessblté,...). Nous traterons de deu approches dfférentes; une approche géométrque et une approche probablste (smplfée).

8 5.3. Approche géométrque du classement L'dée de base est très smple. Il s'agt de calculer la dstance (défne par D - ) entre la nouvelle observaton et le centre de chacun des groupes. On classera la nouvelle observaton dans le groupe pour lequel cette dstance est mnmale. La dstance entre une observaton (p ) et un groupe s'écrt d (,y ) = ( - y )' D - ( - y ) où y est le vecteur p des moyennes des p varables pour le groupe. Développant le produt on trouve: d (,y ) = 'D - - 'D - y + y 'D - y Le terme ' D - ne dépend pas du groupe consdéré. On veut classer dans le groupe pour lequel la dstance est mnmale. On peut tout auss ben classer dans le groupe pour lequel g est mamal avec: g =[ 'D - y - / y' D - y ] * (n-k) = [ 'D* - y - / y' D* - y ] Les g sont ce que l'on appelle des "fonctons de classfcaton" ou encore des "fonctons lnéares dscrmnantes". On en possède autant qu'l y a de groupes et on affecte la nouvelle observaton au groupe pour lequel sa foncton de classfcaton est mamale. Le facteur (n-k) est ntrodut pour pouvor utlser D* au leu de D. En effet, D* est la matrce de covarances nécessare pour pouvor calculer les probabltés d appartenance à chaque groupe (vor secton 5.3.) 5.3.. Cas de deu groupes On affecte l'observaton au groupe s g > g ou g -g > 0 Or g - g s'écrt Cec devent: 'D* - y - /y 'D* - y - 'D* - y + /y 'D* - y > 0 (' - /(y +y )') D* - (y -y ) > 0 ou 'D* - (y -y ) > /(y +y )' D* - (y -y ) Comparant ces résultats au vecteur propre trouvé dans l'approche descrptve, on constate que le résultat du classement s'observe drectement sur le premer vecteur propre. L'observaton est classé dans le groupe dont le centre se projette du même côté par rapport au pont mleu séparant les deu groupes.

9 5.3. Approche probablste (smplfée) L'dée est de classer une observaton dans le groupe pour lequel la probablté condtonnelle d'appartenr à ce groupe étant données les valeurs observées est mamale. En pratque on ne peut calculer ces probabltés que s les observatons provennent d'une lo multnormale. S tel n'est pas le cas on devra au préalable transformer les données pour s'en rapprocher le plus possble. (La pratque a toutefos prouvée que l'ad état très robuste face à l'hypothèse de multnormalté). La foncton de densté multnormale est: f() = (π) -p/ Σ -/ ep(-/( - y) Σ - ( - y)) S provent du groupe alors sa foncton de densté est estmée par: N(y, D* ). De la défnton de probablté condtonnelle, s l'observaton appartent nécessarement à un des k groupes, et s l on suppose qu à pror chaque groupe a une probablté égale d être observé, on a: P(groupe )= S l'on suppose de plus que les k groupes ont même matrce de covarances D alors on a: k j= f f () j () P(groupe ) = - ( - y )D (-y ) ep * ep - ( - y j )D * (-y j ) k j= Après quelques manpulatons, cette epresson peut s'écrre: - k P(groupe ) = ep( g j- g ) j= où les g sont les fonctons de classfcaton décrtes à la secton précédente. Cette probablté est mamale quand g est mamale (ou quand la dstance d'un pont au centre du groupe est mnmale). Concluson: Les approches géométrques et probablstes sont strctement équvalentes lorsque l'on a k populatons multnormales avec mêmes matrces de covarances. Dans l'approche probablste, on peut nclure des probabltés à pror de rencontrer chaque groupe. Dans le cas de deu groupes, cec revent d'un pont de vue géométrque à déplacer le pont mleu de façon à favorser le groupe ayant la plus grande probablté à pror d'être rencontrée. Également, on peut nclure des pénaltés relées au mauvas classement d'une observaton. Toutefos, tous ces résultats ne sont valdes que s l'hypothèse de multnormalté est respectée.

Lorsqu'on permet que les matrces de varances-covarances D * varent d'un groupe à l'autre, on se trouve alors à effectuer une dscrmnaton non-lnéare. Les zones attachées à chaque groupe ne sont plus délmtées par des plans (hyperplans) comme c'état le cas précédemment, mas plutôt par des surfaces courbes. On donne le nom de dscrmnaton quadratque à cette approche. Elle est rarement utlsée. D'autres varantes estent encore pour l'ad. L'étude de celles-c dépasse toutefos le cadre de ce cours. 0 5.3.3 Évaluaton de la qualté de l'analyse dscrmnante Il este pluseurs façons de vérfer la qualté d'une analyse dscrmnante; certanes font appel à des hypothèses probablstes, d'autres non. Les résultats présentés dans les sectons suvantes le sont prncpalement pour référence car ces statstques sont fréquemment utlsées dans les logcels commercau. 5.3.3. Pourcentage de ben classés C'est la statstque la plus utlsée et auss la plus "parlante" tout en étant la plus smple. L'dée est la suvante: on a une procédure de classement, alors pourquo ne pas l'applquer au observatons dont on connaît le vértable groupe et vérfer ans s l'on effectue un bon classement. Eemple: Groupe AD Groupe 50 0 vértable 30 0 Ic on aurat 60/00 = 80% des observatons de ben classées. C'est un fort pourcentage s l'on consdère qu'un classement fat entèrement de façon aléatore donnerat en moyenne 50% de ben classés. De plus on note que les observatons du groupe sont ben classées dans une proporton de 83% alors que les observatons du groupe sont ben classées dans une proporton de 78%. Le groupe est donc légèrement plus homogène que le groupe. Notons que ce pourcentage de ben classés est trop optmste, surtout lorsque le nombre d'observatons est fable. En effet, s l'on forme deu groupes provenant d'une même populaton et que l'on applque l'analyse dscrmnante, on devrat trouver un pourcentage légèrement supéreur à 50% car les fonctons de classfcaton s'ajustent au varatons échantllonnales. Une façon d'obtenr un estmé plus réalste consste à mettre de côté une certane proporton des observatons ntales de chaque groupe, de trouver les fonctons de classfcaton avec les autres observatons pus d'effectuer le classement des observatons mses de côté (échantllon test). Une autre varante consste à mettre de côté une observaton à la fos et de répéter l'analyse et le classement n fos.

Pusque le tableau de classement (appelé auss matrce de confuson) est une forme de tableau de contngences, on peut tester le caractère sgnfcatf du classement à l'ade d'un test d'ndépendance du Kh. 5.3.3. Lambda de Wlks Cette statstque est défne comme étant le rapport des détermnants des matrces D et T. L = D / T = T - D où γ est une valeur propre de T - D. L = p γ = La relaton suvante rele les valeurs propres λ et γ: γ = λ + Sous hypothèse de multnormalté et d'égalté des matrces de covarances, on peut montrer que -[ n - (p+k)/ - ] Ln L où n est le nombre total d'observatons. p est le nombre de varables. k est le nombre de groupes. est appromatvement dstrbuée suvant une lo Kh avec p(k-) degrés de lberté. Lorsque l'on a pluseurs groupes (k > ) et que l'on veut vérfer le caractère sgnfcatf des vecteurs propres qu restent après en avor accepté q, on peut formuler le test suvant: H 0 : les vecteurs propres q+, q+... k- n'ajoutent ren à la dscrmnaton des k groupes. H : non H 0 alors où L * est donné par: -[ n - (p+k)/ - ] Ln L * k- L * = γ =q+

est appromatvement dstrbué selon une lo Kh avec (p-q)(k-q-) degrés de lberté. Un autre test smlare à ce derner utlse le fat que (n-k) λ q est appromatvement dstrbué suvant une lo Kh avec (p+k-q) degrés de lberté. On vérfe successvement s la ère (q=) valeur propre est sgnfcatve, pus la e (q=), et ans de sute. Ces deu derners tests sont utles surtout pour des fns de descrpton. Ces résultats ne peuvent pas être ncorporés dans l'étape classement. 5.3.3.3 Le "V" de Rao. La statstque V mesure la somme des dstances entre les centres des groupes et la moyenne globale. La dstance est normalsée par la matrce D *- (généralsaton de la dstance de Mahalanobs). Elle est défne comme étant: V = k = n ( y - y) -( y - y) D * où y : vecteur moyenne du groupe (p) y : vecteur moyenne totale D* : matrce de varance-covarance ntra-groupe (.e. D/(n-k) ou k est le nombre de groupes et D est la matrce des produts crosés ntra-groupes) n est le nombre d observatons dans le groupe, n est le nombre total d observatons. On peut démontrer que sous hypothèse de multnormalté et d'égalté des matrces de covarances, V est dstrbuée suvant une Kh avec p(k-) degrés de lberté. Également s on effectue la dscrmnaton avec p varables pus avec p+ varables, on peut vérfer le caractère sgnfcatf de l'ajout de la varable. En effet, le changement de V (.e. V fn -V n ) est alors dstrbué suvant une Kh avec (k-) degrés de lberté. 5.3.3.4 Corrélaton canonque ou pouvor dscrmnant d'un vecteur propre Sot le rapport: α = ueu utu Par un développement smlare à ce qu a été vu précédemment, on montre que α est valeur propre de T - E. Cette valeur propre est relée au valeurs propres λ de D - E par: λ α = + λ

3 Ce rapport α eprme la proporton de la varablté totale mputable au dfférences entre les centres des groupes. Cette quantté est donc analogue au R en régresson. Pour cette rason, on défnt α / comme le coeffcent de corrélaton canonque ou pouvor dscrmnant. Le nom corrélaton canonque fat référence à une méthode appelée analyse canonque. Cette méthode étude deu ensembles de varables mesurées sur un même ensemble d'observatons. Elle cherche les combnasons lnéares des deu ensembles de varables qu seront le plus corrélées entre elles. En AD, les deu ensembles de varables sont d'une part les p varables mesurées et d'autre part, les (k-) varables ndcatrces permettant d'dentfer les groupes. La corrélaton mamale que l'on peut obtenr entre ces deu ensembles de varables est précsément α / 5.3.4 Test d égalté des matrces de covarances ntra-groupes Le calcul des probabltés ans que les dfférents tests présentés précédemment pour le V de Rao et le Lambda de Wlks nécesstent la multnormalté des observatons et l égalté des matrces de covarances à l ntéreur de chaque groupe. On peut tester cette dernère hypothèse par le test appromatf suvant (test de Kullback (959)) nécesstant auss la multnormalté des observatons : χ = k = n ln D * D * est appromatvement dstrbué suvant une lo Kh avec (k-)*n*(n+)/ d.l.. On rejette l hypothèse d égalté des matrces de varance-covarance lorsque la statstque ecède le seul lu dans une table Kh. D* est la matrce de varance-covarance ntra-groupes D * est la matrce de varance-covarance pour le groupe n est le nombre d observatons dans le groupe n est le nombre total d observatons sgnfe le détermnant 5.4 Procédures de sélecton des varables On est souvent ntéressé à obtenr la melleure dscrmnaton possble avec le mnmum de varables, possblement pour des rasons d'nterprétaton, de robustesse des résultats, de fablté, sûrement pour des rasons économques. En effet avec des analyses géochmques, par eemple, s on obtent une auss bonne (et parfos melleure) dscrmnaton avec tros varables qu'avec hut, on vent d'économser un coût consdérable. Les mêmes procédures vues en régresson peuvent être utlsées c,.e. sélecton avant, élmnaton arrère et "stepwse". La secton 5.3.3 a été consacrée à la défnton de statstques qu peuvent toutes servr de crtère d'ncluson ou d'élmnaton. D'autres crtères sont présentés dans certans programmes d'analyse dscrmnante (e. SPSS). Certans de ces crtères permettent de vérfer s l'ajout d'une varable supplémentare est sgnfcatf (e. V de Rao) d'autres ne le permettent pas (Lambda de Wlks, pourcentage de ben classés, corrélaton canonque). Kullback, 959, Informaton theory and statstcs, Wley, 395p.

4 Malgré la dversté des méthodes, la pratque montre que le sous-ensemble de varables retenues est relatvement robuste au cho du crtère d'ncluson. De plus, même s deu sous-ensembles dffèrent quant au varables retenues, très souvent l'nterprétaton est dentque et les performances (classement) très comparables. Tout cec est fnalement rassurant pour l'utlsateur. 5.4. Eemple d analyse dscrmnante ( groupes) Voc un eemple smulé avec 00 observatons et 6 varables. Le groupe est formé en prenant toutes les observatons telles que +-3-4<0. La fgure suvante montre que la dscrmnaton n est pas parfate sur tous les dagrammes bnares des varables à 4. -5 0 5-4 - 0 4-0 - 0 3 groupes, groupe : +-3-4<0; -5 0 5-4 - 0 4 4-5 0 5-4 - 0 4 3-5 0 5-4 - 0 4 4-5 0 5-4 - 0 4 3 4 Les crtères % de ben classés, lambda de Wlks et V de Rao sélectonnent les varables à 4 en premer. Le vecteur propre dscrmnant est [ 0.09 0. 0.088 0.07]. Les projectons sur ce vecteur sont représentées sur la fgure suvante. L on constate que : Le vecteur dscrmnant forme un angle de seulement 7.3 o avec l équaton réelle de formaton des groupes. Le % de ben classés est de 98%, nettement meu que ce que l on pouvat accomplr vsuellement sur les dagrammes bnares.

5 0 9 Résultats de l'ad; % ben classés 98% v.p. dscrmnant: -0.09X -0.X +0.088X 3 +0.07X 4 Gr. Gr. 8 7 Classé gr. Classé gr. 6 5 4 3 0-0.4-0.3-0. -0. 0 0. 0. 0.3 0.4 0.5 5.5 Eemple d'applcaton: ndce de prospecton géochmque. En Abtb, les gsements de cuvre et de znc sont, la plupart, consdérés comme étant d'orgne volcanogène. Ce mode de formaton mplque la crculaton d eau marne à l'ntéreur des emplements volcanques. En crculant, cette eau altère la roche en lessvant certans éléments (tels le Na O et le CaO et en enrchssant d'autres éléments tels le MgO et le K O. Ces sgnatures géochmques assocées au gsements volcanogènes consttuent des cbles de prospecton des plus propces pusque leur étendue est ben plus grande que celle du gsement lu même. Ces sgnatures peuvent toutefos varer de gsement en gsement auss ben par les éléments les plus affectés que par l'étendue du halo d'altératon. Afn de défnr un ndce de prospecton unque pour les gsements volcanogènes de l'abtb, Marcotte et Davd (98) ont utlsé l'analyse dscrmnante. Les données, 574 analyses géochmques, provenaent de la lttérature et les varables mplquées étaent les prncpau éléments majeurs. Seules des analyses provenant de roches volcanques décrtes comme roches à gran fn et ayant plus de 60% de SO ont été utlsées. Pour l'ad, deu groupes ont été formés selon un crtère de dstance. On fat un seul de dstance par rapport au gsement le plus près et on format un groupe promal et un groupe dstal. L'analyse dscrmnante état ensute applquée à ces deu groupes. En fasant varer le crtère de dstance de 0.5 mlle à.5 mlles par pas de 0.5 mlle, on a pu détermner, pour chaque gsement, quelle semblat être l'etenson du halo d'altératon. Cette etenson état consdérée comme étant la dstance à laquelle les résultats de l'ad étaent optmau pour le gsement consdéré. On a par la sute reprs l'ad en adoptant cette fos comme crtère de dstance l'etenson estmée du halo pour chaque gsement. L'AD effectuée avec ces groupes a donné plus de 80% de ben classés, un résultat jugé ntéressant. L'équaton lnéare dscrmnante retenue ndquat un lesssvage en Na O, en CaO et en FeO et un enrchssement en MgO, résultats compatbles avec ce qu état décrt dans la lttérature. Indce=.9-0.63 Na O - 0.6 CaO - 0.8 FeO + 0.30 MgO +.44 TO Applqué au gsement de Normétal (qu n'état pas nclus dans l'analyse précédente), l'ndce a su détecter la présence du gsement. Une zone favorable stuée plus au nord-ouest est également ndquée. Quelques anomales sont relées à l'ntruson grantque stuée au nord-ouest.