Université de Bordeaux - Master MIMSE - 2ème année. Scoring. Marie Chavent http://www.math.u-bordeaux.fr/ machaven/ 2014-2015

Documents pareils

Statistique descriptive bidimensionnelle

SÉRIES STATISTIQUES À DEUX VARIABLES

II LES PROPRIETES DES ESTIMATEURS MCO 1. Rappel : M1 LA REGRESSION : HYPOTHESES ET TESTS Avril 2009

Statistiques appliquées à la gestion Cours d analyse de donnés Master 1

STATISTIQUE AVANCÉE : MÉTHODES

Chapitre 3 : Fonctions d une variable réelle (1)

. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1

FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI

Séquence 5. La fonction logarithme népérien. Sommaire

UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4

Exo7. Déterminants. = 4(b + c)(c + a)(a + b). c + a c + b 2c Correction. b + a 2b b + c. Exercice 2 ** X a b c a X c b b c X a c b a X

[ édité le 10 juillet 2014 Enoncés 1. Exercice 6 [ ] [correction] Si n est un entier 2, le rationnel H n =

Cours 5 : ESTIMATION PONCTUELLE

LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil.

Statistique Numérique et Analyse des Données

STATISTIQUE : TESTS D HYPOTHESES

Groupe orthogonal d'un espace vectoriel euclidien de dimension 2, de dimension 3

UNIVERSITÉ DE SFAX École Supérieure de Commerce

Limites des Suites numériques

1 Mesure et intégrale

Exercice I ( non spé ) 1/ u 1 = u / Soit P la propriété : u n + 4. > 0 pour n 1. P est vraie au rang 1 car u 1

20. Algorithmique & Mathématiques

EXERCICES : DÉNOMBREMENT

Dénombrement. Chapitre Enoncés des exercices

Dénombrement. Introduction. 1 Cardinaux d'ensembles nis. ECE3 Lycée Carnot. 12 novembre Quelques dénitions

Séries réelles ou complexes

Intégration et probabilités ENS Paris, TD (20)13 Lois des grands nombres, théorème central limite. Corrigé :

Cours de Statistiques inférentielles

Principes et Méthodes Statistiques

4 Approximation des fonctions

Initiation à l analyse factorielle des correspondances

Processus géométrique généralisé et applications en fiabilité

Comportement d'une suite

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

14 Chapitre 14. Théorème du point fixe

TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 )

Université Victor Segalen Bordeaux 2 Institut de Santé Publique, d Épidémiologie et de Développement (ISPED) Campus Numérique SEME

Chap. 5 : Les intérêts (Les calculs financiers)

Convergences 2/2 - le théorème du point fixe - Page 1 sur 9

2 ième partie : MATHÉMATIQUES FINANCIÈRES

c. Calcul pour une évolution d une proportion entre deux années non consécutives

CHAPITRE 2 SÉRIES ENTIÈRES

Probabilités et statistique pour le CAPES

Deuxième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES

Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES. 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.

Module 3 : Inversion de matrices

Les Nombres Parfaits.

Réseaux d ondelettes et réseaux de neurones pour la modélisation statique et dynamique de processus

Etude Spéciale SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT?

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

x +1 + ln. Donner la valeur exacte affichée par cet algorithme lorsque l utilisateur entre la valeur n =3.

55 - EXEMPLES D UTILISATION DU TABLEUR.

Exercices de mathématiques

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

Université Pierre et Marie Curie. Biostatistique PACES - UE

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Formation d un ester à partir d un acide et d un alcool

Etude de la fonction ζ de Riemann

Polynésie Septembre Exercice On peut traiter la question 4 sans avoir traité les questions précédentes.

DETERMINANTS. a b et a'

Chapitre 3 : Transistor bipolaire à jonction

Consolidation. C r é e r un nouveau classeur. Créer un groupe de travail. Saisir des données dans un groupe

PROMENADE ALÉATOIRE : Chaînes de Markov et martingales

Suites et séries de fonctions

3.1 Différences entre ESX 3.5 et ESXi 3.5 au niveau du réseau. Solution Cette section récapitule les différences entre les deux versions.

Baccalauréat S Asie 19 juin 2014 Corrigé

Tempêtes : Etude des dépendances entre les branches Automobile et Incendie à l aide de la théorie des copulas Topic 1 Risk evaluation

Examen final pour Conseiller financier / conseillère financière avec brevet fédéral. Recueil de formules. Auteur: Iwan Brot

Processus et martingales en temps continu

Logiciel de synchronisation de flotte de baladeurs MP3 / MP4 ou tablettes Androïd

Tests non paramétriques de spécification pour densité conditionnelle : application à des modèles de choix discret

MESURE DE L'INFORMATION

UV SQ 20. Automne Responsable d Rémy Garandel ( m.-el. remy.garandel@utbm.fr ) page 1

Des résultats d irrationalité pour deux fonctions particulières

Gérer les applications

Chaînes de Markov. Arthur Charpentier

La France, à l écoute des entreprises innovantes, propose le meilleur crédit d impôt recherche d Europe

RECHERCHE DE CLIENTS simplifiée

La fibre optique arrive chez vous Devenez acteur de la révolution numérique

Renseignements et monitoring. Renseignements commerciaux et de solvabilité sur les entreprises et les particuliers.

capital en fin d'année 1 C 0 + T C 0 = C 0 (1 + T) = C 0 r en posant r = 1 + T 2 C 0 r + C 0 r T = C 0 r (1 + T) = C 0 r 2 3 C 0 r 3...

Sommaire Chapitre 1 - L interface de Windows 7 9

Terminale S. Terminale S 1 F. Laroche

Compte Sélect Banque Manuvie Guide du débutant

Échantillonnage et estimation

Neolane Leads. Neolane v6.0

La tarification hospitalière : de l enveloppe globale à la concurrence par comparaison

Tableaux Croisés et Diagrammes en Mosaïque : Pour Voir Les Probabilités Marginales et Conditionnelles.

RÈGLES ORDINALES : UNE GÉNÉRALISATION DES RÈGLES D'ASSOCIATION

Mécanique non linéaire

Faites prospérer vos affaires grâce aux solutions d épargne et de gestion des dettes

Lorsque la sécurisation des paiements par carte bancaire sur Internet conduit à une concurrence entre les banques et les opérateurs de réseau

Les algorithmes de tri

Le marché du café peut être segmenté en fonction de deux modes de production principaux : la torréfaction et la fabrication de café soluble.

Introduction : Mesures et espaces de probabilités

Risque de longévité et détermination du besoin en capital : travaux en cours

Mécanismes de protection contre les vers

POLITIQUE ECONOMIQUE ET DEVELOPPEMENT

One Office Voice Pack Vos appels fixes et mobiles en un seul pack

Donnez de la liberté à vos données. BiBOARD.

Transcription:

Uiversité de Bordeaux - Master MIMSE - 2ème aée Scorig Marie Chavet http://www.math.u-bordeaux.fr/ machave/ 2014-2015 1 Itroductio L idée géérale est d affecter ue ote (u score) global à u idividu à partir de otes partielles. A partir de cette ote, o affectera cet idividu à u groupe. U score peut être défiit comme u outil statistique ou probabiliste de detectio de risque. O peut citer etre autre : Les scores de risque de type : risque de credit ou credit scorig : prédire le retard de remboursemet de crédit. risque fiacier : prédire la boe ou mauvaise saté d ue etreprise. risque médical. Les scores e marketig : score d attritio (chur e aglais) : prédire le risque qu u cliet passe à la cocurrece ou résilie so aboemet. score d appétece : prédire l appétece d u cliet à acheter tel ou tel type de produit. Les pricipales étapes de la costructio d u score sot : 1. Choix de la variable à expliquer Y. O parle aussi de critère à modéliser ou ecore de variable cible. La variable Y sera qualitative gééralemet biaire à deux modalités. Chaque modalité défiit u groupe. 2. Choix d u vecteur de variables explicatives X = (X 1,..., X p ). Les p variables explicatives X j, j = 1... p, peuvet être quatitatives ou qualitatives. 3. Choix des doées et de l échatillo. L échatillo doit être représetatif de la populatio. O dispose alors d u échatillo de taille (ombre d idividus) sur lequel 1

sot mesurées simultaémet les p variables explicatives X 1,..., X p et la variable à expliquer Y. 4. Choix de la méthode de costructio du score. Ue foctio score S(X) doe ue ote à u idividu e foctio de ses valeurs sur X = (X 1,..., X p ). Parmi les méthodes classiques de costructio de scores, o peut citer : L aalyse factorielle discrimiate (AFD) : variables explicatives quatitatives. outil descriptif de visualisatio des doées. L aalyse discrimiate géométrique : variables explicatives quatitatives. affectatio d u ouvel idividu au groupe le plus proche. L aalyse discrimiate probabiliste : variables explicatives quatitatives Y et X = (X 1,..., Xp) aléatoires. affectatio d u ouvel idividu au groupe le plus probable. aalyse discrimiate liéaire (ADL) ou discrimiate liear aalysis (LDA) : cas homoscédastique gaussie. aalyse quadratique discrimiate (AQD) ou quadratic discrimiat aalysis (QDA) : cas hétéroscédastique gaussie. La régressio logistique : variables explicatives quatitatives ou qualitatives. Y biaire et aléatoire et X = (X 1,..., X p ) o aléatoire. 5. Costructio d ue règle de décisio. Das le cas où Y est biaire, ses deux modalités formet deux groupes d idividus et o peux fixer u seuil c pour obteir la règle suivate : S(X) c l idividu est affecté au groupe 1 S(X) > c l idividu est affecté au groupe 2 6. Evaluatio du score (courbe ROC, AUC,...) et évaluatio de la règle de décisio (taux d erreur, sesibilité, spécificité...) e utilisat les méthodes de l échatillo test, de validatio croisée... O distigue doc deux problèmes : 2

1. costruire u score, 2. costruire ue règle de décisio. Exemples des fichiers ifarctus.xls, farms.xls, credit.xls Quelques lies. http://cedric.cam.fr/~saporta/scorig.pdf http://www.modulad.fr/archives/umero-38/bardos-38/bardos-38.pdf "Aalyse discrimiate, Applicatio au risque et scorig fiacier", M. Bardos, Duod. http://www.betley.edu/ceters/sites/www.betley.edu.ceters/files/csbigs/desbois.pdf http://www.modulad.fr/archives/umero-30/desbois-30/desbois-30.pdf 2 Notatios et défiitios Les outils statistique de scorig retret das le cadre de la modélisatio d ue variable Y qualitative à K modalités à partir de p variables explicatives X = (X 1,..., X p ) quatitatives ou qualitatives. O parle gééralemet das ce cadre de classificatio (d appretissage) supervisée, chaque modalité de Y représetat ue classe (u groupe) d idividus. Nous supposos disposer d u échatillo de observatios de Y et de X : sur les idividus de l échatillo, o a mesuré ue variable qualitative à K modalités et p variables quatitatives. E effet, das ce cours, o e se place das le cas où toutes les variables explicatives sot umériques. E otat y i la valeur de la variable à expliquer mesurée sur les ième idividu, o obtiet le vecteur y = (y 1,..., y ) {1,..., K}. E otat x j i à la valeur de la jème variable explicative mesurée sur le ième idividu, o obtiet aisi la matrice de doées de dimesio p suivate : 1... j... p 1.. X = i... x j i..... Notos : 3

x i = (x 1 i,..., x p i ) R p ue lige de X décrivat le ième idividu. x j = (x j 1,..., x j ) R ue coloe de X décrivat la jème variable. E k est le groupe des idividus des l échatillo qui possèdet la modalité k. k = card(e k ) est le ombre d idividus qui possèdet la modalité k. Si les idividus sot affectés des poids p 1,..., p, (tels que i = 1,...,, p i 0 et i=1 p i = 1) alors le poids de chaque groupe E k est : P k = i E k p i E gééral, o pred p i = 1 et doc P k = k. O a alors les défiitios suivates : Le cetre de gravité global est le vecteur de R p défii par : g = p i x i = 1 i=1 x i. i=1 Le cetre de gravité du groupe E k est le vecteur de R p défii par : g k = 1 p i x i = 1 x i. P k k i E k i E k La matrice p p de variace-covariace globale est défiie par : V = p i (x i g)(x i g) = 1 i=1 (x i g)(x i g). i=1 La matrice p p de variace-covariace du groupe E k est défiie par : V k = 1 p i (x i g k )(x i g k ) = 1 (x i g k )(x i g k ). P k k i E k i E k La matrice p p de variace-covariace itra-groupe est défiie par : W = P k V k = k V k. La matrice p p de variace-covariace iter-groupe est défiie par : B = P k (g k g)(g k g) = k (g k g)(g k g). Cette matrice est la matrice de variace-covariace des p cetres de gravités g k podérés par P k (e gééral k ). 4

Remarque : e règle géérale, W est iversible tadis que B est pas iversible. E effet, les K cetres de gravité g k sot das u sous-espace de dimesio K 1 de R p, et si K 1 < p (ce qui est gééralemet le cas), alors la matrice B (qui est de dimesio p p) est pas iversible. O a les relatios suivates classiques suivates : g = P k g k = k g k, (1) et V = W + B. (2) Les expressios doées e (1) et (2) sot de ature assez usuelles e statistique : moyee totale (globale) = moyee (podérée) des moyees margiales, variace totale = moyee (podérée) des variaces margiales + variace des moyees margiales. Exercice : démotrez (1) et (2). 3 L aalyse factorielle discrimiate L aalyse factorielle discrimiate (AFD) est essetiellemet descriptive. L objectif est ici de chercher quelles sot les combiaisos liéaires des variables quatitatives qui permettet de séparer le mieux possible les k catégories et de doer ue représetatio graphique (comme pour les méthodes factorielles telles que l aalyse e composates pricipales) qui rede au mieux compte de cette opératio. Cette visualisatio sur le ou les plas factoriels appropriés permet aussi de décrire les liaisos etre la variable à expliquer et les p variables explicatives. 3.1 Cetrage des doées E AFD comme e aalyse e composates pricipales (ACP), o suppose que g = 0 p, c est à dire que les doées sot cetrées. Cela reviet à traslater le uage de poits de g (acie cetre de gravité) vers l origie. La structure du uage de poits est pas modifiée, 5

mais les calculs ultérieurs serot simplifiés. L écriture des matrices de variace-covariace globale et iter-groupe sot simplifiées : V = i=1 1 x ix i et B = k g kg k, et o obtiet l écriture matricielle V = 1 X X. 3.2 Axes, facteurs et variables discrimiates L AFD cosiste à rechercher de ouvelles variables, qui serot appelées variables discrimiates, correspodat à des directios de R p qui séparet le mieux possible e projectio les K groupes d idividus. L objectif. Il s agit de trouver ue ouvelle variable, combiaiso liéaire des variables explicatives, qui discrimie au mieux les groupes défiis par les modalités de la variable à expliquer. Cette variable otée s est défiie ici comme u vecteur de R, combiaiso liéaire des vecteurs x 1,..., x p (coloes de X) : s = Xu = u 1 x 1 +... + u p x p, où u = (u 1,..., u p ) R p est le vecteur des coefficiets de cette combiaiso liéaire. Il va doc falloir défiir : commet mesurer que s discrimie bie, commet trouver u pour que s = Xu discrimie au mieux. Défiitios. E AFD, o mui R p d ue métrique M et o projette les poits de R p x 1,..., x (les liges de X) sur u axe de vecteur directeur a. O effectue des projectios M-orthogoales et a est M-ormé à 1. La liste des coordoées s i = x ima des idividus sur forme la ouvelle variable s et o a doc : s = (s 1,..., s ) = XMa = Xu, où a R p est appelé l axe discrimiat (a Ma = 1), u R p est appelé le facteur discrimiat (u M 1 u = 1), s est appelé la variable discrimiate. 6

Exemple. 3.2.1 Le critère à optimiser O défiit maiteat le critère qui mesurat la capacité d u axe à discrimier les groupes. U axe sera discrimiat si les groupes sot bie séparés e projectio. Pour cela, o utilise la variace itra-groupe et la variace iter-groupe de la variable discrimiate s costituée des coordoées des projectios des idividus sur l axe. O a les défiitios suivates : La variace de s est défiie par : où s est la moyee de s. V ar(s) = 1 (s i s) 2 i=1 La variace itra-groupe de s est défiie par : Itra(s) = = u Vu (3) k où s k est la moyee de s das le groupe k. La variace iter-groupe de s est défiie par : Exercice : Démotrez (3) (4) et (5). i E k 1 k (s i s k ) 2 = u Wu (4) Iter(s) = k ( s s k) 2 = u Bu (5) O a doc la relatio classique V ar(s) = Itra(s) + Iter(s) qui s écrit : u Vu = u Wu + u Bu (6) 7

La quatité u Vu état idépedate des groupes, miimiser u Wu est équivalet à maximiser u Bu. O aura ue boe discrimiatio des groupes si : les cetres de gravité projetés sot bie éloigés i.e. Iter(s) = u Wu est maximum, les groupes projetés e sot pas trop dispersés i.e. Itra(s) = u Bu est miimum. Le critère à maximiser, u Bu u Vu [0, 1], (7) est la proportio de la variace de s expliquée par y ecore appelé le rapport de corrélatio etre s et y. Ce critère désige égalemet le pouvoir discrimiat de l axe. Das le cadre de la discrimiatio parfaite, ce rapport serait égal à 1. Plus gééralemet, la discrimiatio est d autat meilleure que le ratio est proche de 1. 3.2.2 Solutio du problème d optimisatio O veut maximiser le rapport etre la variace iter-groupe et la variace totale. La première variable discrimiate s = Xu est telle que le facteur discrimiat u vérifie : u Bu max u R p u Vu. (8) Rappels sur la maximisatio du quotiet de deux formes quadratiques. Soiet A et B deux matrices symétriques de même dimesio, B état supposée iversible. Alors, le rapport u Au u Bu est maximal pour u 1 vecteur propre de B 1 A associé à la plus grade valeur propre otée λ 1, la valeur du maximum état λ 1. Exercice : Démotrez le résultat ci-dessus. O déduit du rappel ci-dessus que, pour otre problème d optimisatio (8), le vecteur u solutio est le vecteur propre de V 1 B associé à la plus grade valeur propre λ 1. E pratique, si o utilise la métrique M = V 1 par exemple, o peut choisir parmi tous les vecteurs propres coliéaires, celui qui est V-ormé à 1 (u Vu = V ar(s) = 1). Si o utilise ue autre métrique M, l axe discrimiat a = M 1 u est modifié mais le facteur discrimiat u est le même (à ue costate près) et la variable discrimiate s = XMa = Xu (coordoées des projectios des idividus sur la droite egedrée par l axe discrimiat) est doc égalemet la même (à ue costate près). La valeur du maximum, c est à dire le pouvoir discrimiat, 8

quad à lui est ichagé. Le choix de la métrique M est doc idifférete pour la costructio de variables et des facteurs discrimiats, seule la orme chage. Avec la métrique M = W 1 par exemple, si u est W-ormé à 1, alors u Wu = Itra(s) = 1. O a alors les défiitios suivates : Le premier facteur discrimiat est u 1, le premier vecteur propre de V 1 B. La première variable discrimiate est s 1 = Xu 1. Le pouvoir discrimiat est λ 1 = u 1 Bu 1 u 1 Vu 1. Remarques : Cas où λ 1 = 1 : e projectio sur la droite discrimiate, les dispersios itragroupe sot ulles ; cela correspod au fait que les K sous-uages sot doc chacu das des hyperplas orthogoaux à. Il y a alors évidemmet discrimiatio parfaite si les cetres de gravités se projettet e des poits différets sur la droite. Cas où λ 1 = 0 : ici le meilleur axe discrimiat e permet pas de séparer les K cetres de gravité g k. C est par exemple le cas si ces deriers sot cofodus ; cela peut correspodre au cas de figure où les K sous-uages sot cocetriques et doc aucue séparatio liéaire est possible. Remarquos qu il peut cepedat exister ue possibilité de discrimiatio o liéaire (du type quadratique par exemple, si l o pese à la distace au cetre de gravité qui permet de séparer les groupes das le cas de sous-uages cocetriques). Notos efi que la valeur propre λ est u mesure pessimiste du pouvoir discrimiat. E effet, même s il est possible de discrimier parfaitemet les groupes, o peut avoir λ < 1. La décompositio spéctrale de V 1 B doe aussi les autres axes discrimiats de l AFD. E effet, o cherche esuite s 2 = Xu 2, o corrélée à s 1, telle que u 2 Bu 2 u 2 Vu 2 soit maximum et aisi de suite. O peux motrer que les vecteurs propres de V 1 B sot les facteurs discrimiats et les valeurs propres λ 1,..., λ K 1 sot les pouvoirs discrimiats. O pourra costruire K 1 axes discrimiats car le rag de V 1 B est au plus mi(p, K 1) et o suppose que K 1 < p. Remarques : Il faut que la matrice de variace-covariace V soit iversible et que doc la matrice de doées X soit de plei rag. Il faudra doc faire attetio e AFD, comme e 9

régressio liéaire multiple, au problème de la multicoliéarité des coloes de X. L AFD peut être vue comme ue ACP (Aalyse e composate pricipale) des cetres de gravités g k avec la métrique V 1. L AFD est aussi u cas particulier de l aalyse caoique. Elle correspod e effet à l aalyse caoique des tableaux A et X, où A (de dimesio K) représete l esemble des variables idicatrices associées à la variable qualitative à expliquer. 3.2.3 Les aglo-saxos E AFD, d autres critères ot été utilisés pour défiir les facteurs discrimiats et doc les variables discrimiates. Les aglo-saxos utiliset souvet comme critère pour mesurer la qualité de la discrimiatio d ue variable discrimiate s = XMa = Xu : Le problème d optimisatio s écrit : u Bu u Wu = Iter(s) Itra(s). max u R p u Bu u Wu. (9) La solutio est le vecteur propre u de W 1 B associé à la plus grad valeur propre µ. Ce problème d optimisatio est équivalet e terme de facteurs discrimiats au problème (8) mais les maximums sot différets. E d autres termes, les matrices W 1 B et V 1 B ot les mêmes vecteurs propres et µ = Prevue : O suppose W iversible. λ. 1 λ u vecteur propre de V 1 B V 1 Bu = λu Bu = λvu = λ(b + W)u (1 λ)bu = λwu Bu = λ 1 λ Wu W 1 Bu = λ 1 λ u u vecteur propre de W 1 B et λ 1 λ est la valeur propre µ O retrouve doc les mêmes variables discrimiates qu avec l autre critère (au sige et à ue costate près). E revache le critère λ varie etre 0 et 1 et s iterprète facilemet tadis que le critère µ varie etre zero et l ifii et s iterprète doc mois bie. 10

3.2.4 Le cas particulier de deux groupes E pratique, o étudie souvet le cas particulier où K = 2 (bo cliet/mauvais cliet, sai/malade...). O e recherche ici qu ue seule variable discrimiate puisque K 1 = 1. Nous allos voir qu il est possible de défiir aalytiquemet l expressio de l uique valeur propre de V 1 B et du vecteur propre associé. Das u premier temps, o motre que : a) B = 1 2 2 (g 1 g 2 )(g 1 g 2 ). b) V 1 (g 1 g 2 ) est vecteur propre de V 1 B, λ = 1 2 2 (g 1 g 2 ) V 1 (g 1 g 2 ) est la valeur propre de W 1 B. Exercice : Motrez les résultats ci-dessus. O e déduit qu avec la métrique M = V 1 et le critère u Bu = Itra(s) o a : u Vu V ar(s) u = V 1 (g 1 g 2 ) est le facteur discrimiat, a = (g 1 g 2 ) est l axe discrimiat, s = XV 1 (g 1 g 2 ) est la variable discrimiate, λ = 1 2 d 2 2 V (g 1 1, g 2 ) est le pouvoir discrimiat Itra(s). V ar(s) où d 2 V 1 (g 1, g 2 ) = (g 1 g 2 ) V 1 (g 1 g 2 ) est le carré de la distace etre g 1 et g 2. Remarque : Il existe ue ifiité de vecteurs propres coliéaires à u. Le carré de la V-orme de u = V 1 (g 1 g 2 ) est : V 1 (g 1 g 2 ) 2 V = (g 1 g 2 ) V 1 (g 1 g 2 ) = d 2 V 1(g 1, g 2 ). O e déduit qu e divisat u, a et s par d V 1(g 1, g 2 ), le facteur discrimiat est V-ormé à 1 (u Vu = 1), l axe discrimiat est V 1 -ormé à 1 (a V 1 a = 1), et la variace de la variable discrimiate est égale à 1 (V ar(s) = 1). De la même maière, avec la métrique est M = W 1 et le critère u Bu = Itra(s) o a : u Wu Iter(s) u = W 1 (g 1 g 2 ) est le facteur discrimiat, a = (g 1 g 2 ) est l axe discrimiat, s = s = XW 1 (g 1 g 2 ) est la variable discrimiate, µ = 1 2 d 2 2 W (g 1 1, g 2 ) est le pouvoir discrimiat Itra(s). Iter(s) où d 2 W 1 (g 1, g 2 ) = (g 1 g 2 ) W 1 (g 1 g 2 ) est le carré de la distace etre g 1 et g 2. 11

Remarque : Il faut diviser u, a et s par d W 1(g 1, g 2 ) pour que le facteur discrimiat soit W-ormé à 1, l axe discrimiat soit W 1 -ormé à 1 et la variace itra-groupe de la variable discrimiate soit égale à 1 (Itra(s) = 1). Fialemet, das le cas particulier de deux groupes, tout se calcule aalytiquemet à partir des cetres de gravité g 1 et g 2 et l axe discrimiat egedre la droite reliat g 1 et g 2. Ceci a rie de surpreat vu que l o a précoisé que l axe discrimiat doit être tel qu e projectio sur, les K cetres de gravité doivet être aussi séparés que possible. Le choix de la métrique M = V 1 (ou M = W 1 ) a ue iterprétatio géométrique. E effet, o projette le uage des idividus sur la droite (passat par g 1 et g 2 ) e teat compte de l orietatio des uages par rapport à cette droite. La règle de Fisher (1936). La première variable discrimiate peut être utilisée comme score pour costruire ue règle de décisio simple e fixat u seuil c. O fixe comme seuil c le milieu des scores des deux cetres de gravité g 1 et g 2 sur la première (et uique...) variable discrimiate (les coordoées de leur projectio sur l axe discrimiat). E d autre termes, le seuil c est le milieu des moyees des 2 groupes sur la variable discrimiate s = Xu. O ote s 1 et s 2 ces deux moyees et o utilise ici la métrique M = W 1 (mais ce serait équivalet d utiliser M = V 1 ). O a : s 1 = 1 1 s i = g 1W 1 a i E 1 projectio W 1 orthogoale de g 1 sur, s 2 = 1 s i = g 2W 1 a 2 i E 2 projectio W 1 orthogoale de g 2 sur, avec ici a = (g 1 g 2 ). O pred alors comme seuil : c = s 1 + s 2 2 = 1 2 (g 1W 1 a + g 2W 1 a) = 1 2 (g 1 + g 2 ) W 1 (g 1 g 2 ) O peut alors défiir la règle de décisio : s i c l idividu i est affecté au groupe 1, s i < c l idividu i est affecté au groupe 2. 12

Cette règle se réécrit doc : x iw 1 (g 1 g 2 ) 1 2 (g 1 + g 2 ) W 1 (g 1 g 2 ) 0 l idividu i est affecté au groupe 1, x iw 1 (g 1 g 2 ) 1 2 (g 1 + g 2 ) W 1 (g 1 g 2 ) < 0 l idividu i est affecté au groupe 2. O retrouve la règle de Mahalaobis-Fisher das le cas de deux groupes. 4 Aalyse discrimiate géométrique O va préseter ici ue approche puremet géométrique (sas aucue hypothèse probabiliste) de l aalyse discrimiate décisioelle. Ayat trouvé la meilleure représetatio de la séparatio e K groupes des idividus, o va chercher ici à affecter ue ouvelle observatio à l u de ces groupes. Notos x le vecteur des valeurs des p variables quatitatives mesurées sur ce ouvel idividu. La règle géométrique cosiste à calculer les distaces de cette observatio à chacu des K cetres de gravité et à affecter aturellemet cette observatio au groupe le plus proche. Pour cela, il faut préciser la métrique à utiliser das le calcul des distaces. La règle la plus utilisée est celle de Mahalaobis-Fisher qui cosiste à predre la métrique W 1 (ou V 1 ce qui est équivalet). La distace du ouvel idividu au groupe k est alors : d 2 (x, g k ) = (x g k ) W 1 (x g k ). (10) 4.1 Foctios liéaires discrimiates La règle géométrique classe la ouvelle observatio x das le groupe k tel que : k = arg mi,...,k d2 (x, g k ), (11) ce qui se réécrit : où k = arg max,...,k L k(x), (12) L k (x) = x W 1 g k 1 2 g kw 1 g k. (13) L k (x) est la foctio liéaire discrimiate du groupe k (ecore appelée foctio liéaire de classemet). 13

Preuve : W 1 état symétrique o a : d 2 (x, g k ) = (x g k ) W 1 (x g k ) = x } W{{ 1 x} +g kw 1 g k 2x W 1 g k idépedat de k Doc miimiser d 2 est équivalet à maximiser 2x W 1 g k g k W 1 g k 2 = L k (x). Chaque foctio liéaire discrimiate défiie ue foctio score qui doe ue ote à l observatio x das chaque groupe. Cette observatio est doc affectée au groupe pour lequel le score est le plus grad. 4.2 Le cas particulier de deux groupes O peut das ce cas particulier où K = 2, calculer la différece etre les foctios liéaires discrimiates du groupe 1 et du groupe 2 pour défiir ue ouvelle foctio score que l o comparera à zero pour affecter ue ouvelle observatio. O défiit aisi la ouvelle foctio liéaire discrimiate (foctio score) : 1/2 (x) = L 1 (x) L 2 (x) = x W 1 (g 1 g 2 ) 1 2 (g 1 + g 2 ) W 1 (g 1 g 2 ) (14) Preuve : L 1 (x) L 2 (x) = x W 1 g 1 1 2 g 1W 1 g 1 (x W 1 g 2 12 ) g 2W 1 g 2 = x W 1 (g 1 g 2 ) 1 g 2 1W 1 g 1 g 2W 1 g } {{ } 2 (g 1 +g 2 ) W 1 (g 1 g 2 ) O retrouve alors la règle de Mahalaobis-Fisher itroduite e AFD : x W 1 (g 1 g 2 ) 1 2 (g 1 + g 2 ) W 1 (g 1 g 2 ) 0 l idividu i est affecté au groupe 1, x W 1 (g 1 g 2 ) 1 2 (g 1 + g 2 ) W 1 (g 1 g 2 ) < 0 l idividu i est affecté au groupe 2. 14

Das le cas particulier de 2 groupes, la règle géométrique reviet doc à projeter l observatio x avec la métrique W 1 sur le premier axe discrimiat (calcule du score x W 1 (g 1 g 2 )) et à classer x selo u seuil c qui est le milieu des moyees des groupes sur ce score (c = 1(g 2 1 + g 2 ) W 1 (g 1 g 2 )). De plus, 1/2 (x) s écrit : 1/2 (x) = (x g 1 + g 2 ) W 1 (g 1 g 2 ). (15) 2 Doc la frotière etre les groupes 1 et 2 (aussi appelée frotière de décisio) est l hyperpla d équatio : x g 1 + g 2, g 1 g 2 W 1 = 0. 2 L hyperpla séparateur est doc l hyperpla W 1 -orthogoal à la droite reliat les poits g 1 et g 2 et passat par le milieu de g 1 et g 2. 4.3 Isuffisaces de la règle géométrique L utilisatio de la règle d affectatio géométrique que l o viet de préseter peut coduire à des affectatios icorrectes lorsque les dispersios des groupes sot très différetes etre elles. E fait das ce cadre-là, rie e justifie l utilisatio de la même métrique pour les différets groupes. Exemple. La solutio pour pallier ce problème peut être d utiliser des métriques locales M k à chaque sous-uage E k, proportioelles à V 1 k et de calculer les distaces d 2 k (x, g l) = (x g k ) M k (x g k ). La questio de l optimalité de la règle géométrique d affectatio e peut être résolue sas référece à u modèle probabiliste. E effet, ue questio est de savoir commet se comportera cette règle pour de ouvelles observatios, ce qui va imposer de faire des hypothèses distributioelles sur la répartitio des idividus das l espace. 15

Cette première approche de l aalyse discrimiate décisioelle atteit doc ici clairemet ses limites, d où la écessité de passer à la sectio suivate das laquelle serot présetées des méthodes probalistes d affectatio qui coduirot à des règles optimales (e u certai ses). 5 Aalyse discrimiate probabiliste Das la sectio précédete, o disposait d u échatillo de taille sur lequel étaiet mesurées simultaémet les p variables explicatives quatitatives et la variable qualitative à expliquer. Gééralemet cet échatillo est appelé échatillo d appretissage. O a vu que, lorsque l o dispose d u ouvel idividu sur lequel o a mesuré uiquemet les p variables explicatives (et dot o e coaît pas sa valeur de la variable qualitative), o doit décider du groupe k auquel appartiet ce ouvel idividu. O a alors défii ue règle de décisio (d affectatio) fodée seulemet sur des argumets géométriques (calcul des distaces de cet idividu aux cetres de gravité de chaque groupe et affectatio au groupe le plus proche ). Das cette sectio, o va défiir des règles de décisio bayésiee qui vot permettre d affecter le ouvel idividu à la classe la plus probable. Pour cela, il va être écessaire de faire des hypothèses probabilistes sur les doées, d où l appellatio de méthodes probabilistes (par oppositio aux méthodes puremet géométriques). 5.1 Le cadre probabiliste O suppose maiteat que l échatillo d appretissage est issu d ue populatio e K groupes G 1,..., G k et que : Y est ue variable aléatoire qui pred ses valeurs das {1,..., K}. X = (X 1,..., X p ) est u vecteur de variables aléatoires réelles. O otera : (p 1,..., p K ) la distributio de Y où p k = P (Y = k) est la proportio théorique de G k ecore appelée probabilité à priori de G k. f k : R p [0, 1] la desité de X das le groupe k. Exemple : 2 groupes et p=1 16

la desité de X est ue desité de mélage : X p k f k (x) O supposera que l o dispose d ue échatillo i.i.d. (X 1, Y 1 ),..., (X, Y ) de même moi que (X, Y ). 5.2 Règle du maximum à posteriori La règle du MAP (maximum à posteriori) affecte ue ouvelle observatio x das le groupe k le plus probable sachat x : k = arg max,...,k P (G k x), (16) où P (G k x) = P (Y = k X = x) est la probabilité coditioelle appelée la probabilité à posteriori de G k. Les probabilités à posteriori P (G k x) sot parfois qualifiées de scores (otes) et o affecte doc ue ouvelle observatio au groupe pour lequel le score est le plus grad. Cette règle se réécrit : O parle alors souvet de règle de Bayes. Preuve : O utilise le théorème de Bayes qui doe : k = arg max,...,k p kf k (x). (17) P (G k x) = P (Y = k X = x) = f k(x)p (Y = k) f X (X) = f k(x)p k f X (X) Or f X (x) est idépedate de k doc il suffit de maximiser f k (x)p k. Plusieurs approches sot possibles. a) Les approches paramétriques : O peut supposer que f k (x) a ue forme paramétrique et estimer les paramètres sur l échatillo d appretissage. Par exemple, f k (x) est ue desité N (µ k, Σ k ) pour les méthodes LDA et QDA. O peut supposer que la probabilité à posteriori P (G k x) a ue expressio paramétrique et l estimer directemet. Par exemple P (G 1 x) = exp(β 0+β x) 1+exp(β 0 +β x) pour la régressio logistique (pour K = 2). 17

b) Les approches o paramétriques : o cherche à estimer directemet à partir des doées les desités f k. O parle d estimatio o paramétrique (ou estimatio foctioelle) lorsque le ombre de paramètres à estimer est ifii. L objet à estimer est alors ue foctio que l o supposera par exemple cotiue et dérivable. Cette approche très souple a doc l avatage de e pas écessiter d hypothèses particulières sur la desité f k (seulemet la régularité de f k pour avoir de boes propriétés de covergece). E revache, elle est applicable d u poit de vue pratique qu avec des échatillos de grade taille d autat plus que la dimesio p augmete. Exemple : méthodes à oyaux. Ici o se place das le cadre paramétrique gaussie. 5.3 Le cas gaussie O suppose maiteat que X N (µ k, Σ k ) das chaque groupe G k : ( 1 f k (x) = exp 1 ) (2π) p/2 (det(σ k )) 1/2 2 (x µ k) Σ 1 k (x µ k), (18) avec µ k R p le vecteur des moyees théoriques et Σ k la matrice p p des variacescovariaces théoriques. Das ce cas, la règle de Bayes se réécrit : où k = arg mi,...,k D2 k(x), (19) D 2 k(x) = (x µ k ) Σ 1 k (x µ k) 2 l(p k ) + l(det Σ k ), (20) est appelé le carré de la distace de Mahalaobis théorique gééralisée das SAS. Preuve : Maximiser p k f k (x) est équivalet à maximiser l(p k f k (x)) et l(p k f k (x)) = l(p k ) + l(f k (x)), = l(p k ) p 2 l(2π) 1 2 l(det(σ k)) 1 2 (x µ k) Σ 1 k (x µ k). Doc avec p 2 l(2π) qui est idépedat de k, maximiser l(p kf k (x)) est équivalet à miimiser 2 ( l(p k ) 1 2 l(det(σ k)) 1 2 (x µ k) Σ 1 k (x µ k) ) = D k (x) 2. 18

5.3.1 Estimatio des paramètres A partir de l échatillo d appretissage, o veut estimer le paramètre θ = (p 1,..., p K, µ 1,..., µ K, Σ 1,..., Σ K ). La méthode du maximum de vraisemblace peut être utilisée. La vraisemblace s écrit : L(θ) = K f X (x i ) = i=1 x i E k p k f k (x i ), et o e déduit que la log-vraissemblace s écrit : l(l(θ)) = x i E k ( l(p k ) p 2 l(2π) 1 2 l(det(σ k)) 1 ) 2 (x i µ k ) Σ 1 k (x i µ k ). O obtiet alors les estimateurs du maximum de vraisemblace suivat : ˆp k = k ˆµ k = 1 k i E k x i ˆΣ = ˆΣ 1 k = K i E k (x i µ k )(x i µ k ) das le cas homoscédastique, ˆΣ k = 1 k i E k (x i µ k )(x i µ k ) das le cas hétéroscédastique. Les estimateurs de ˆΣ k état biaisé, o a les estimateurs sas biais suivats : ˆΣ = 1 K ˆΣ k = 1 k 1 (x i µ k )(x i µ k ), i E k (x i µ k )(x i µ k ). i E k 5.3.2 Aalyse discrimiate quadratique (QDA e aglais) O se place das le cas où k k tel que Σ k Σ k appelé cas hétéroscédastique. O estime alors les paramètres sur l échatillo d appretissage et e repreat les otatios de la sectio 2 : µ k est estimée par g k = 1 k i E k x i, Σ k est estimée par V k = 1 k i E k (x i g k )(x i g k ) ou ecore par sa versio sas biais : p k est estimée par π k = k. V k = 1 (x i g k )(x i g k ), k 1 i E k 19

Avec ces estimateurs, la règle de Bayes se réécrit : k = arg mi Q k(x), (21),...,K où Q k (x) = (x g k ) V 1 k (x g k) 2 l(π k ) + l(det(v k )), (22) est la foctio quadratique discrimiate du groupe k (ecore appelée foctio quadratique de classemet). Chaque foctio quadratique discrimiate défiie ue foctio score et ue ouvelle observatio sera affectée au groupe pour lequel le score sera le plus petit. 5.3.3 Aalyse discrimiate liéaire (LDA e aglais) O se place das le cas où Σ 1 =... = Σ K = Σ appelé cas homoscédastique. Das ce cas, la règle de Bayes se réécrit : k = arg max,...,k x Σ 1 µ k 1 2 µ kσ 1 µ k + l(p k ). (23) Preuve : Σ k = Σ pour tout k = 1,..., K doc D 2 k(x) = (x µ k ) Σ 1 (x µ k ) 2 l(p k ) + l(det Σ), = x } Σ{{ 1 x} idép. de k 2x Σ 1 µ k } {{ } car Σ 1 sym. +µ kσ 1 µ k 2 l(p k ) + l(det(σ)). } {{ } idép. de k Doc miimiser D 2 k (x) est équivalet à maximiser 1 2 (2x Σ 1 µ k + µ k Σ 1 µ k 2 l(p k )). O estime alors les paramètres sur l échatillo d appretissage et e repreat les otatios de la sectio 2 : µ k est estimée par g k = 1 k i E k x i, la matrice de variaces-covariaces Σ commue aux différets groupes est estimée par W = 1 i E k (x i g k )(x i g k ) ou ecore par la versio sas biais : W = 1 (x i g k )(x i g k ), K i E k p k est estimée par π k = k. Avec ces estimateurs, la règle de Bayes se réécrit : k = arg max,...,k L k(x), (24) 20

où L k (x) = x W 1 g k 1 2 g kw 1 g k + l(π k ), (25) est la foctio liéaire discrimiate du groupe k (ecore appelée foctio liéaire de classemet). Chaque foctio liéaire discrimiate défiie ue foctio score et ue ouvelle observatio sera affectée au groupe pour lequel le score sera le plus grad. Remarque : O retrouve la foctio liéaire discrimiate (13) de l aalyse discrimiate géométrique avec le terme l(π k ) e plus. Das le cas où l o fait l hypothèse d égalité des probabilités à priori (p 1 =... = p K ), la règle de l aalyse discrimiate liéaire (LDA) est équivalete à la règle de l aalyse discrimiate géométrique. 5.3.4 Estimatio des probabilités à posteriori O peut motrer que das le cas gaussie, o a : P (G k x) = exp( 1 2 D2 k (x)) K l=1 exp( 1 2 D2 l (x)) (26) où Dk 2 (x) est le carré de la distace de Mahalaobis théorique gééralisée du logiciel SAS défiie e (20). Preuve : D après le théorème de Bayes : P (G k x) = p kf k (x) K l=1 p lf l (x), (27) et o a l(p k f k (x)) = 1 2 D2 k (x) p l(2π), d où : 2 p k f k (x) = exp( 1 2 D2 k p 2 l(2π)) = exp( 1 2 D2 k) (2π) p 2. Doc e mettat (2π) p 2 e facteur au déomiateur de (27), le terme se simplifie au umérateur et o retrouve (26). E pratique, o estime les probabilités à posteriori par : ˆP (G k x) = exp( 1 ˆD 2 2 k (x)) K l=1 exp( (28) 1 2 D2 l (x)), où ˆD 2 k(x) = (x ˆµ k ) ˆΣ 1 k (x ˆµ k) + g 1 (x) + g 2 (x), (29) 21

et g 1 (x) = g 2 (x) = l(ˆσ k ) das le cas hétéroscédastique (quadratique), 0 das le cas homoscédastique (liéaire). 2 l(ˆp k ) si toutes les probabilités à priori e sot pas égales, 0 si elles sot toutes égales (equiprobabilité). Preuve : Das le cas homoscedastique, ˆΣ k = ˆΣ est idépedat de k, doc exp(l(det(ˆσ))) = det(ˆσ) se met e facteur au déomiateur et s aule avec le umérateur das (27). O predra ˆµ k = g k, ˆp k = k et ˆΣ k = V k W das le cas hétéroscédastique (quadratique), das le cas homoscédastique (liéaire). Remarques. Das le logiciel SAS : la matrice W (sa versio corrigée) est appelée pooled covariace matrix, 1 ˆD 2 2 k (x) est appelé score discrimiat. 5.3.5 Cas particulier de deux groupes O se place das le cadre liéaire (homoscédastique) et das le cas où K = 2. O défiit alors la ouvelle foctio liéaire discrimiate (foctio score) : 1/2 (x) = L 1 (x) L 2 (x) = x W 1 (g 1 g 2 ) 1 2 (g 1 + g 2 ) W 1 (g 1 g 2 ) + l( π 1 π 2 ). (30) que l o compare à 0 pour affecter u ouvel idividu à l u des deux groupes. La règle de Bayes (versio estimée) se réécrit alors : x W 1 (g 1 g 2 ) 1 2 (g 1 + g 2 ) W 1 (g 1 g 2 ) + l( π 1 π 2 ) 0 l idividu i est affecté au groupe 1, x W 1 (g 1 g 2 ) 1 2 (g 1 + g 2 ) W 1 (g 1 g 2 ) + l( π 1 π 2 ) < 0 l idividu i est affecté au groupe 2. 22

Remarques. Das le cas particulier de deux groupes avec hypothèse d égalité des matrices de variaces-covariaces des groupes : La règle de bayes reviet à projeter l observatio x avec la métrique W 1 sur le premier axe discrimiat (calcule du score x W 1 (g 1 g 2 )) et à classer x selo u seuil c qui est le milieu des moyees des groupes sur ce score - l( π 1 π 2 ). Cela veut dire qu o décale le seuil vers la moyee du groupe 2 si π 1 > π 2 et vers la moyee du groupe 1 das le cas cotraire. Exemple : O peut motrer que ˆP (G 1 x) = exp( 1/2)(x) 1 + exp( 1/2 (x)) (31) O dit que ˆP (G 1 x) est ue foctio logistique du score 1/2 (x) qui s écrit aussi : 1/2 = ˆβ 0 + ˆβ x, (32) où et ˆβ 0 = 1 2 (g 1 + g 2 ) W 1 (g 1 g 2 ) + l( π 1 π 2 ) R, (33) ˆβ = ( ˆβ 1,..., ˆβ p ) = W 1 (g 1 g 2 ) R p. (34) 5.4 Régressio logistique O suppose que l échatillo d appretissage est issu d ue populatio e 2 groupes G 1 et G 2 et que : Y est ue variable aléatoire biaire (Y = 1 ou Y = 0). X = (X 1,..., X p ) est u vecteur de variables réelles supposées cette fois o aléatoires. Le modèle de régressio logistique est alors : Y = f(β 0 + β X) + ɛ, (35) et f est la foctio logistique f(x) = exp(x) 1+exp(x) de R das [0, 1]. E supposat que le terme d erreur ɛ est cetré, o aura E(ɛ) = 0 et doc E(Y X) = exp(β 0 + β X) 1 + exp(β 0 + β X). 23

Et comme E(Y X) = 1 P (Y = 1 X = x) + 0 P (Y = 0 X = x) = P (G 1 x), o modélise la probabilité à postériori par : P (G 1 x) = exp(β 0 + β X) 1 + exp(β 0 + β X). (36) Les paramètres β 0 et β sot estimés par maximum de vraisemblace sur u échatillo i.i.d. pour obteir ˆβ 0 et ˆβ et doc ˆP (G 1 x) = exp( ˆβ 0 + ˆβ X) 1+exp( ˆβ 0 + ˆβ X). Les avatages : Les variables explicatives peuvet être qualitatives. O cosidère alors les variables idicatrices des modalités. De plus, les coefficiets s iterprètet comme des logarithmes épéries d odds ratio. E régressio logistique, o utilisera gééralemet la règle de classemet : ˆP (G 1 x) 0.5 x est affecté au groupe 1, ˆP (G 1 x) < 0.5 x est affecté au groupe 2. 6 Mesures d efficacité 6.1 Qualité d ue règle de décisio O suppose maiteat que l o a u prédicteur (classifieur) c est à dire ue règle de décisio de type régressio logistique, aalyse discrimiate, classificatio oparamétrique... O mesure souvet l efficacité d ue règle de décisio e terme de taux d erreurs de classemet. O va décrire ici les trois méthodes courates d estimatio de ce taux d erreur. 6.1.1 La méthode de resubstitutio Cette méthode cosiste à appliquer la règle d affectatio choisie sur l échatillo d appretissage. O calcule esuite le taux de mal-classés à partir de la matrice de cofusio. Ce taux s appelle le taux apparet d erreurs. Cette méthode présete l avatage d être peu coûteuse e temps de calcul. Mais, elle possède u grave défaut : elle sous-estime souvet (voire systématiquemet) le taux d erreurs vu que l o utilise les mêmes observatios pour le calculer que celles qui ot servi à trouver les foctios discrimiates. 24

Remarque. Le taux d erreur est d autat plus faible que le modèle est complexe (surparamétrisatio) et que la taille de l échatillo est faible. Cette méthode est doc peu recommadée. 6.1.2 La méthode de l échatillo-test Cette méthode cosiste à partager l échatillo e deux parties : ue partie (de l ordre de 80%) sert d échatillo d appretissage de la règle de décisio, l autre partie sert d échatillo-test et permet de tester la règle d affectatio et doc de calculer le taux d erreurs. Cette méthode est plus fiable mais écessite u échatillo plus importat. Remarque E effectuat plusieurs tirages aléatoires d échatillos d appretissage (et doc d échatillos-test), o peut améliorer l estimatio du taux d erreurs e calculat la moyee (et l écart-type) des valeurs des taux d erreurs obteues à chaque tirage. 6.1.3 La méthode de validatio croisée Cette méthode est la plus lourde e terme de temps de calcul mais coviet mieux aux petits échatillos. Pour tout i = 1,...,, o va cosidérer les échatillos d appretissage costitués e élimiat la ième observatio. La règle de décisio qui e découle est utilisée pour affecter cette ième observatio. A l issu de ces aalyses discrimiates, le taux d erreurs est estimé e divisat le ombre de mal-classés par. O parle de méthode LOO (Leave Oe Out). Pour des échatillos plus importat, o peut égalemet utiliser la méthode de validatio croisée K-fold qui cosiste à découper aléatoiremet le jeu de doées e K sous-échatillos de même taille. Pour tout k = 1,..., K, o va cosidérer comme échatillo d appretissage les K 1 sous-échatillos costitués e élimiat le kème. La règle de décisio qui e découle est utilisée pour affecter les idividus du kème sous-échatillo. A l issu de ces K aalyses discrimiates, le taux d erreurs est estimé e divisat le ombre de mal-classés par. La ecore, e effectuat plusieurs tirages aléatoires de découpages e K échatillos aléatoires, o peut améliorer l estimatio du taux d erreurs e calculat la moyee (et l écart-type)des valeurs des taux d erreurs obteues à chaque tirage. 25

6.1.4 Idicateurs aifs Il semble raisoable de comparer les taux d erreurs obteu avec u prédicteur au taux d erreurs de classemet obteu avec ue règle aive de décisio : Le critère MCC (maximum chace criterio) est le taux d erreur que l o obtiet lorsque la règle de décisio cosiste à affecter ue observatio au groupe la plus probable à priori. E pratique, o estime ces probabilités par les fréqueces des groupes et o affecte doc toutes observatios au même groupe. Das le cas de deux groupes, le taux apparet d erreur est 1 k où k est la classe la plus fréquete. Le critère PCC (proportioal chace criterio) est le taux d erreur que l o obtiet Exemple. lorsque la règle cosiste à affecter aléatoiremet ue observatio à l u des groupes selo les probabilités à priori des groupes. La probabilité d affecter ue observatio au groupe k est estimée par k et le ombre de bie classés das le groupe k est 2 k. Das le cas de deux groupes, le taux d erreur apparet est 1 2 1 +2 2 2. 6.1.5 Idicateurs das le cas biaire O suppose ici que l o a costruit (gééralemet sur u échatillo d appretissage) u règle de décisio (ou ecore u prédicteur) d ue variable Y preat deux valeurs 0 et 1. Par covetio o ote gééralemet : 1 = positif = oui = groupe 1, 0 = égatif = o = groupe 2. O dispose doc que pour chaque idividu i observé das l échatillo (gééralemet l échatillo test), ue valeur observée sur y i et ue valeur prédite ŷ i. O peut alors costruire la matrice de cofusio qui est simplemet le tableau de cotigece suivat : 26

valeur prédite valeur observée Y = 1 Y = 0 total Ŷ = 1 TP FP ˆP Ŷ = 0 FN TN ˆN total P N où TP désige les vrais positifs (true positive), TN les vrais égatifs (true egative), FP désige les faux positifs (false positive) et FN désige les faux égatifs (false egative). A partir de ce tableau de cotigece, ue batterie d idicateurs permettat de juger de la qualité du prédicateur peuvet être costruits : 1. Le taux de bo classemet aussi appelé accuracy (ACC) : ACC = TP + TN, ou ecore le taux de mauvais classemet aussi appelé l erreur de classemet (err) : err = TP + TN = 1 ACC. 2. Les idicateurs du tableau des fréqueces lige sot : Ŷ = 1 Y = 1 Y = 0 PPV= TP ˆP FDR= FPˆP Ŷ = 0 FOR= FṊ N NPV=TṊ N tous P où PPV désige la valeur prédictive positive (positive predictive value), NPV désige la valeur prédictive egative (egative predictive value), FDR correspod à false discovery rate et FOR correspod à false omissio rate. La valeur prédictive positive VPP, ecore appelée Précisio, doit être comparée à P épidémiologie). Exemple. N ( appelée la prévalece e 27

3. Les idicateurs du tableau des fréqueces coloe sot : Y = 1 Y = 0 Ŷ = 1 TPR= TP P FPR= FP N Ŷ = 0 FNR= FN P TNR= TN N où TPR désige le taux de vrais positifs (true positive rate), FPR désige le taux de faux positifs (false positive rate), FNR désige le taux de faux égatifs (false egative rate) et TNR désige le taux de vrais égatifs (true egative rate). E pratique, o s itéresse plus particulièremet aux deux idicateurs TPR et TNR avec : TPR, aussi appelé la sesibilité (Se) ou ecore Recall, qui idique la proportio de 1 bie prédits, TNR, aussi appelé la spécificité (Sp) qui idique la proportio de 0 bie prédits, FPR=1-TPR=1-Spécificité est aussi appelé Fall-out. Ue boe règle de décisio doit être à la fois sesible et spécifique. Exemple. Quelques lies : http://e.wikipedia.org/wiki/f1_score#diagostic_testig http://cedric.cam.fr/~saporta/sesibilite_specificitesta201.pdf 6.2 Qualité d u score La prédictio Ŷ est gééralemet obteue e comparat le score d u idividu à u seuil. Das le cas biaire (K = 2), ous avos vu deux types de foctio score S qui permettet de doer ue ote à ue observatio x R p : Le score S(x) = ˆP (G 1 x) que l o compare gééralemet au seuil s = 0.5. Ces probabilités à posteriori peuvet être estimée par régressio logistique, par les méthodes LDA, QDA... Le score S(x) = ˆβ 0 + ˆβ x que l o compare gééralemet au seuil s = 0. Par exemple, ˆβ 0 et ˆβ sot défiis e (33) et (34) pour la méthode LDA ou ecore obteus par maximum de vraisemblace e régressio logistique. 28

La règle de décisio est alors : 1 si S(x i ) s, ŷ i = 0 si S(x i ) < s, Si l o modifie le seuil s, o modifie la règle de décisio, la matrice de cofusio, et doc tous les idicateurs présetés précédemmet (taux d erreur, spécificité, sesibilité...). O mesure souvet visuellemet de l efficacité d u score S idépedammet du choix du seuil à partir de la courbe ROC (Receiver Operatig Characteristic) et umériquemet à partir de l AUC (area uder the curve). 6.2.1 Courbe ROC et AUC La sesibilité et la la spécificité dépedet doc du seuil s choisi. O peut doc défiir ue foctio de sesibilité Se(s) = T P R(s) et ue foctio de spécificité Sp(s) = T N R(s) et la courbe ROC représete l atispécificité (1-Sp(s)) e abscisse et la sesibilité e ordoée Se(s). La courbe ROC est alors la courbe {(1 Sp(s), Se(s)) s } Si cette courbe coïcide avec la diagoale, c est que le score est pas plus performat qu u modèle aléatoire (où o attribue la classe au hasard). Plus la courbe ROC s approche du coi supérieur gauche, meilleur est le modèle, car il permet de capturer le plus possible de vrais positifs avec le mois possible de faux positifs. E coséquece, l aire sous la courbe ROC (AUC) peut être vu comme ue mesure de la qualité du score. Ce critère AUC varie etre 0 (cas le pire) et 1 (cas le meilleure...). Exemple. Quelques lies : http://rocr.bioif.mpi-sb.mpg.de/ 29

http://blogperso.uiv-rees1.fr/arthur.charpetier/idex.php/post/2010/04/08/ De-la-qualit%C3%A9-d-u-score-de-classificatio 6.2.2 Choix d u seuil O utilise parfois la courbe ROC pour choisir u seuil. E pratique, o peut predre le seuil correspodat au poit de la courbe la plus éloigé de la première bissectrice et le plus prêt du poit supérieur gauche (0, 1). Ou ecore le seuil correspodat au poit où la pete de la courbe est la plus proche de 0. Mais o peut égalemet choisir le seuil qui miimise le taux d erreur (ou u autre idicateur) sur l esemble d appretissage. Exemple. 6.2.3 Courbe lift et idice de Gii 7 Aexe Exercice 1. Démotrez (1) et (2). Preuve de (1) : K k g k = K k 1 i E k k x i = g. Preuve de (2) : V = 1 (x i g)(x i g) = 1 (x i g)(x i g), i=1 i E k = 1 (x i g k + (g k g))(x i g k + (g k g)), i E k [ = 1 K (x i g k )(x i g k ) + (g k g)(g k g) + 2 i E k i E k i E k (x i g k )(g k g) ]. 30

et 1 1 (x i g k )(x i g k ) = W i E k (g k g)(g k g) = 1 k (g k g)(g k g) = B i E k (x i g k )(g k g) = 0 i E k Exercice 2. Démotrez (3) (4) et (5). Preuve de (3) : la variable s = Xu est ue combiaiso liéaire des coloes de X cetrées doc s cetrée et s = 0. Doc V ar(s) = 1 i=1 s 2 i = 1 s s = 1 u X Xu = u Vu Preuve de (4) : Exercice 2. u Wu = u ( = = = = k k u k k k k u V k u, V k)u = [ 1 (x i g k )(x i g k ) k i E k i E k 1 k u (x i g k )(x i g k ) u, i E k 1 k [x iu g ku] 2, i E k 1 k (s i s k ) 2 = Itra(s). Motrer que le rapport u Au u Bu est maximal pour u 1 vecteur propre de B 1 A associé à la plus grade valeur propre otée λ 1, la valeur du maximum état λ 1. Preuve : f(u) = u Au u Bu R et f u Au u = u (u Bu) (u Au) u Bu u. (u Bu) 2 ] u, 31

O a u Mu = u D où : 2Mu si M est symétrique, (M + M )u sio. Exercice 3. Démotrez : a) B = 1 2 2 (g 1 g 2 )(g 1 g 2 ). f u u=u1 = 0, 2Au(u Bu) (u Au)2Bu = 0, Au = u Au u Bu Bu, B 1 Au = u Au u Bu u. b) V 1 (g 1 g 2 ) est vecteur propre de V 1 B, Preuves : λ = 1 2 2 (g 1 g 2 ) V 1 (g 1 g 2 ) est la valeur propre de W 1 B. a) O sait que g = 1 g 1 + 2 g 2 doc g 2 = 1 g 1 et g 1 g 2 = g 1 + 1 2 g 1 = 1+ 2 2 g 1 = 2 g 1. D où 1 2 (g 2 1 g 2 )(g 1 g 2 ) = 1 2 2 2 g 1 2 g 1 = 1 2 g 1 g 1. De plus o a : b) O a : B = 1 g 1g 1 + 2 g 2g 2 = 1 g 1g 1 + 2 1 1 g 1 g 1 2 2 = 1 g 1g 1 + 2 1 2 g 1 g 1 = 1 1 + 2 1 2 g 1 g 1 = 1( 1 + 2 ) 2 g 1 g 1 = 1 2 g 1 g 1 V 1 BV 1 (g 1 g 2 ) = V 1 1 2 2 (g 1 g 2 )(g 1 g 2 ) V 1 (g 1 g 2 ) = V 1 (g 1 g 2 ) 1 2 2 (g 1 g 2 )V 1 (g 1 g 2 ) } {{ } scalaire 32