Chapitre 5: Méthdes supervisées 2. Descriptin succincte de quelques méthdes de classificatin et de régressin STAT-H-400 Classificatin et régressin 1
Analyse Discriminante Particularités: 2 frmes/utilisatins cmplémentaires: méthde factrielle (au même sens que l'acp): descriptin "gémétrique" de la séparatin inter-classe (encre appelée analyse discriminante factrielle u analyse discriminante linéaire de Fisher) interprétatin bayesienne: classificateur bayesien (ptimum au sens de la prba. de l'erreur) dans des cnditins particulières pur les dnnées. (encre appelée analyse discriminante décisinnelle, linéaire u quadratique) => apprche paramétrique Restrictins d'applicatin: Tutes les variables descriptives X 1, X 2,... X p divent être quantitatives STAT-H-400 Classificatin et régressin 2
Analyse discriminante factrielle: principes de base Objectif: Mise en évidence des différences entre les bservatins appartenant à des classes différentes => descriptin des liaisns entre la variable "classe" et les variables quantitatives: les q classes diffèrent-elles sur l'ensemble des variables numériques? => recherche de facteurs (de directins, d'axes) dans les dnnées mettant en évidence/exacerbant ces différences Méthde: Déterminer un/des facteur(s), cmbinaisn(s) linéaire(s) des variables descriptives, qui prenne(nt) des valeurs les prches pssible pur des éléments de la même classe, et les élignées pssible entre éléments de classes différentes. (= facteurs discriminants) STAT-H-400 Classificatin et régressin 3
Exemple: Y axe discriminant X STAT-H-400 Classificatin et régressin 4
Décmpsitin de l'inertie (variance) ttale et de la matrice variance-cvariance S Ensemble des dnnées séparé en q classes n bservatins x i (à p dimensins) q "sus-nuages" (classes ω ) d'effectif n centre de gravité g q centres de gravité (u centrïdes) g 1 g = xi n i ω matrice variance-cvariance S q matrices variance-cvariance S Suivant le raisnnement dévelppé dans la méthde K-means: Pur tute décmpsitin d'un ensemble de dnnées en sus-ensembles, (ici les classes cnnues a priri) n a: Inertie ttale = Inertie inter-classe Inertie intra-classe Similairement (nn démntré ici), S se décmpse en la smme de 2 matrices S = B etween W ithin STAT-H-400 Classificatin et régressin 5
avec B = matrice de variance inter-classes = matrice variance-cvariance pndérée des centrïdes g : B = 1 n q n T ( g g)( g g) 14424 3 p p 4 = 1 matrice C ( ) ( p p) avec rend cmpte de la dispersin (variance) des centrïdes des classes autur du centre glbal g. c ( ) jj' = ( g j m j )( g j' m j' ) et W = matrice de variance intra-classe = myenne des matrices variance-cvariance des classes: S W p p = 1 n q = 1 n S STAT-H-400 Classificatin et régressin 6
Recherche des facteurs discriminants Cmme en ACP, n travaille en dnnées centrées (g est ramené à l'rigine) Le 1 er facteur discriminant (F 1 ) est une nuvelle variable, cmbinaisn linéaire des variables descriptives (centrées), dnt la variance inter-classe est maximum (u variance intra-classe minimum). Gémétriquement: le 1 er facteur détermine un axe dans le nuage de pints (passant par l'rigine) tel que les prjectins π(x) des pints sur cet axe aient une variance inter-classe max. c - à - d maximise Le 2 ème facteur (F2) est nn crrélé (perpendiculaire) au 1 er et de variance inter-classe max. etc pur le 3 ème... q SS B = n = 1 [ π ( g ) π ( g) ] F 1 F 2 x x x x x xx x x x x xx x x x STAT-H-400 Classificatin et régressin 7 2
Par un raisnnement similaire à celui péré en ACP (nn détaillé ici): Opérateur de prjectin sur un axe: La variance des prjectins se décmpse: s v 2 v T = s S v On a : 2 v( Between) = s v T s B v 2 v( Between) 2 sv 2 v( Within) W v Afin de déterminer v tel que : v T s 2 v( Within) 2 sv = 1 et 0 < Max v v v 2 v( Between) 2 sv B v S v n est ramené à une équatin au valeur prpre : T T s S < 1 1 B v = λ v STAT-H-400 Classificatin et régressin 8
Prpriétés: Les facteurs snt les vecteurs prpres de la matrice S -1 B Il y a au plus (q 1) valeurs prpres λ j nn nulles => le n bre maximum de facteurs discriminants = q 1 La part de variance inter-classe expliquée est décrissante entre les facteurs successifs. Tutes ces prpriétés snt à relier au fait suivant: une analyse discriminante = ACP sur le nuage des q centrïdes, pndérés par l'effectif des classes n, dans un espace R p avec S -1 cmme métrique! Représentatin graphique: Si 2 grupes => 1 seul facteur = axe de prjectin ù la séparatin interclasse est la mieux exprimée => crdnnées sur cet axe = scres discriminants. Si de 2 grupes => 1 er plan discriminant (F 1, F 2 ) = plan de prjectin u la variance inter-classe sera la mieux représentée. STAT-H-400 Classificatin et régressin 9
Interprétatin des facteurs: Cmme en ACP: crrélatins facteurs aux variables initiales cercle des crrélatins avec les 2 premiers facteurs (q > 2) Analyse discriminante décisinnelle => méthde de classificatin: 1) règle gémétrique (règle de Fisher): Les facteurs discriminants dnnent la meilleure représentatin de la séparatin des q centrïdes de classe (dans un espace rthnrmé). => pur un individu x prjeté dans l'espace des facteurs: attribuer la classe dnt le centrïde est le plus prche (au sens de la distance euclidienne): => surfaces de séparatin linéaires = hyperplans médians entre les centrïdes: R 1 R 2 R 3 prjectin de g 2 déterminatin de 3 régins de décisin (R 1, R 2, R 3 ) délimitant les pints 'sensés' appartenir aux différentes classes STAT-H-400 Classificatin et régressin 10
Traductin dans l'espace de départ (variables descriptives): allcatin au centrïde g le plus prche au sens de la métrique S -1 (distance de Mahalanbis) d 2 M (x, g ) = (x - g ) T S -1 (x - g ) Prblèmes: La métrique S -1 est évaluée sur l'ensemble des dnnées => prblème si les classes ne snt pas de même "frme" (dispersin). une classe est représentée par sn centrïde => prblème si le centrïde n'est pas représentatif d'une classe (cas des classes nn ellipsïdales u cmpsées de sus-nuages différents => séparatin frtement nn linéaire). ω 1 ω 1 g 1 x g 2 ω 2 g 1 ω ω 2 g2 2 ω 1 x purra être jugé plus prche de ω 1 que de ω 2 STAT-H-400 Classificatin et régressin 11
2) Interprétatin bayesienne La règle de Fisher crrespnd à un classificateur bayesien (minimisatin de la prba. de l'erreur) dans les cnditins suivantes: chaque classe suit une distributin gaussienne (multivariée) de même matrice variance-cvariance S (les nuages de pints nt la même 'frme'), les classes snt équidistribuées: mêmes prba. a priri En effet: Lrsque les distributins de classes snt gaussiennes de même matrice variancecvariance S, n a: P( ω ) Max P( x y = ω ) = P( ω ) ( 2π ) 1 p / 2 1/ 2 2 T 1 ( x g ) S ( x g ) STAT-H-400 Classificatin et régressin 12 S 1 exp fnctin de densité d'une gaussienne N(g, S) de dim. p [ P( ω ) P( x y = ω )] Max [ ln( P( ω )) ln( P( x y = ω ))] Max ln T 1 ( P( ω )) ( x g ) S ( x g ) 1 2
D'ù, dans ces cnditins, un classificateur bayesien se définit cmme suit: avec: x allué à ω si y (x) > y j (x) pur tut j y (x) = (x - g ) T S -1 (x - g ) 2 ln (P(ω )) <=> x allué à ω si d 2 M (x, g ) 2 ln (P(ω )) est minimum => Règle de Fisher généralisée favrise les classes frtement représentées La règle de Fisher riginale minimise la prbalilité d'erreur myenne par classe (dans les mêmes cnditins) STAT-H-400 Classificatin et régressin 13
3) Généralisatin au cas nn-linéaire Si les matrices variance-cvariance S des classes ne snt pas égales, les fnctins discriminantes du classif. bayesien deviennent: y (x) = ln S (x - g ) T S -1 (x - g ) 2 ln (P(ω )) Dans ce cas, les surfaces de séparatin entre 2 classes définies par y (x) = y j (x) ne snt plus linéaires => analyse discriminante quadratique Cnclusins: L'analyse discriminante est un classificateur bayésien de type paramétrique STAT-H-400 Classificatin et régressin 14
En pratique: La matrice S, u les matrices S, est/snt à évaluer à partir des exemples dispnibles pur chaque classe Idem pur les P(ω ), sauf si cnnaissance sur la prévalence des classes dispnible Lrsqu'n fait l'hypthèse d'égalité des matrices S, la matrice S est btenue par estimatin 'plée': S pl = (n 1 S 1 n 2 S 2... n q S q )/N (N = effectif ttal) L'usage et l'estimatin de matrices particulières S demande des effectifs de classe suffisamment imprtants. Pur des faibles effectifs l'existence de S () -1 n'est pas tjrs assurée, de même S () peut être nul! STAT-H-400 Classificatin et régressin 15
Régressin lgistique Avantages: Recherche directe de séparatins linéaires entre les classes (sans se baser sur les centrïdes et les matrices variances-cvariances). Si les classes snt linéairement séparables (quelque sit leur "frme"), la méthde truvera les séparatins. Si ce n'est pas le cas, la méthde truve la meilleure séparatin linéaire pssible au sens du "maximum de vraissemblance" (cf. ci-après) Surpassée par l'analyse discriminante linéaire uniquement si les distributins de classe snt gaussiennes avec des matrices variance-cvariance très similaires et pur lesquelles de bnnes estimatins snt dispnibles. Permet d'intégrer des variables indépendantes (prédicteurs) qualitatives => l'une des meilleures méthdes de séparatin linéaire! STAT-H-400 Classificatin et régressin 16
Principes de base: apprche semi-paramétrique 1) Mdélisatin des prbabilités a psteriri P(ω x) ( = 1,, q) Utilisatin de fnctins expnentielles nrmalisées, dépendant d'un certain nmbre de paramètres représentés par le vecteur w = (w 0, w 1, w 2,..., w p ) T. Les fcts discriminantes du mdèle, estimant les P(ω x), snt définies par: P(ω x) y (x) = exp(w T x') q j =1 exp(w j T x') ù x'=(1, x 1,x 2,...,x p ) T pur intrduire un terme indépendant Les valeurs de y 1 (x),..., y (x),..., y q (x) (pur tut x fixé) définissent une distributin de prbabilité appelée distributin lgistique. On a effet: 0 y (x) 1 et y (x) = 1 pur chaque x: degrés divers d'appartenance aux différentes classes STAT-H-400 Classificatin et régressin 17
Cnséquences: La régressin lgistique sépare les classes par des hyperplans: T ( w w ) x' = l 0 est l'équatin d'un hyperplan centré à l'rigine. x est du côté de l'hyperplan ù le prduit scalaire est psitif pur tut l STAT-H-400 Classificatin et régressin 18
2) Définitin des vecteurs de valeurs désirées et répnses Valeurs désirées (cf. intrductin): y * (x) = 1 si x appartient à ω et y * (x) = 0 sinn => vecteurs des valeurs désirées: y * i = (y* 1 (x i ),..., y* (x i ),..., y* q (x i ))T => y * i = vecteur (binaire) indicateur de la classe de x i De même: vecteurs répnses: y i = (y 1 (x i ),..., y (x i ),..., y q (x i )) T 3) Déterminatin des valeurs des paramètres w : But: Déterminer les w tels que les y i sient le plus prche pssible des y * i sur l'ensemble d'apprentissage: {x i, y * i ; i:1,..., n}. Méthde: Maximisatin du critère de vraisemblance ('lielihd') calculé sur l'ensemble d'apprentissage {x i, y* i } (sus l'hypthèse d'indépendance des cas d'apprentissage): STAT-H-400 Classificatin et régressin 19
Vraisemblance: n L(x 1,...,x n ;y * 1,...,y * n ) = P( x i,y * i ) = P( y * i x i )P(x i ) i =1 Sus l'hypthèse d'indépendance, et si y (x i ) = P(ω x), n cnsidère n q L' = y i= 1 = 1 En pratique, maximisatin de la frme lgarithmique: ln L' c-à-d n recherche les w qui rendent ln L' maximum Rmq: lnl' est une fnctin strictement cncave => un seul maximum glbal Différents algrithmes peuvent être utilisés, dnt celui de Newtn-Raphsn n i =1 y { ( )} * ( x ) x i car P( x) ne dépend pas des classes n q * = y ( xi )ln( y ( xi )) ù y ( x) = q i= 1 = 1 i exp( w j= 1 T exp( w x') T j x') STAT-H-400 Classificatin et régressin 20
Intégratin de variables qualitatives dans le mdèle: Pas d'hypthèse sur les variables pssibilité de cnsidérer des variables binaires dans le vecteur x intégratin pssible de variables qualitatives (cf. ACM) Remarques: La mdélisatin des P(ω x) par une distributin lgistique est beaucup mins cntraignante que des cnditins de nrmalité avec des matrices var.- cvar. égales apprche plus générale (mais limitée à une séparatin linéaire). exp(w T x') = exp( i w i x' i ) fct expnentielle d'une cmbinaisn linéaire des valeurs des variables. Le pids attribué à une variable renseigne sur l'imprtance de la variable dans le mdèle: s'il est faible => cette variable intervient peu => peut être retirée du mdèle (dans certaines cnditins, il existe des tests statistiques pur statuer sur le fait que w i 0). STAT-H-400 Classificatin et régressin 21
Méthde des plus prches visins Principes de base: -N-N ( nearest neighburs) Règle de classificatin simple sans ajustement d'un mdèle (pas d'apprentissage): utilisatin directe des dnnées d'apprentissage. Règle des plus prches visins ( fixé, généralement impair): Tut vecteur x est allué à la classe majritairement représentée parmi les bservatins les plus prches de x. En cas d'ex æqu entre 2 (u plusieurs) classes, n utilise généralement la smme des distances aux visins de chaque classe cncurrente pur les départager. besin d'une métrique apprpriée àla nature des dnnées (cf méthdes de regrupement). STAT-H-400 Classificatin et régressin 22 '' '' x? x? x? x? x? x?
Avantages () / désavantages ( ): simplicité de la méthde, facilité de mise en euvre, séparatin nn-linéaire (linéaire par mrceaux si = 1, cf. illustratins), apprche gémétrique lcale (s'adapte aux irrégularités du nuage de pints), identificatin de pints 'aberrants' (enturés de pints issus d'autres classes), prpriété assympttique* déterminatin de la valeur de, dépendance des résultats à la métrique, sensible aux prblèmes d'échelle et à la présence de variables irrelevantes (=> travailler sur dnnées standardisées et/u sur les facteurs d'une ACP/M), stcage et temps de calcul pur de grandes bases d'exemples. * Optimalité au sens bayesien (minimisatin de P e ) asympttique: lrsque n (nbre d'exemples de référence) et (nbre de visins) avec /n 0 STAT-H-400 Classificatin et régressin 23
STAT-H-400 Classificatin et régressin 24 Extensins: (pur répndre aux limitatins) méthdes d'éditin / de cndensatin: sélectinner les exemples les plus représentatifs pur maintenir les perfrmances tut en diminuant la base de référence champs de recherche de l' "Instance-based learning" recherche de prttypes: générer de nuveaux vecteurs de référence synthétiques, appelés prttypes (au lieu de sélectinner des exemples de référence), et applicatin de la règle 1-N-N => gain en temps de calcul et en généralisatin (perfrmances). Illustratins: règle 1-N-N 1-N-N sur prttypes
Régressin linéaire multiple Principe de base: ajustement linéaire (cf. rappels sur la Régressin simple) Prblématique: Expliquer u prévir les valeurs d'une variable Y à partir de celles de p variables X 1, X 2,..., X p (variables explicatives u prédicteurs). On pse le mdèle: Y = β 0 β 1 X 1 β 2 X 2... β p X p ε ù les β j snt les paramètres incnnus du mdèle et ε est le terme d'erreur u résidu (partie de Y nn expliquée par les X j ) suppsé aléatire. Objectif: truver les valeurs des paramètres du mdèle qui minimisent l'erreur au sens d'un certain critère. En pratique: n dispse d'un ensemble d'apprentissage {(x i, y * i ); i = 1 à n}. déterminer les valeurs b j des paramètres qui minimisent les résidus e i, Sit ˆ la valeur prédite par le mdèle sur base de x i, n a: y i ˆ y i = b 0 p b j x ij et e i = y * i ˆ y i j =1 STAT-H-400 Classificatin et régressin 25
Critères d'ajustement les plus usités (à minimiser): critère des mindres carrés: i e i2 (critère le plus utilisé: calculs simples, prpriétés gémétriques et statistiques) critère des mindres valeurs abslues: i e i dnne mins de pids aux résidus imprtants => rbuste Ajustement par la méthde des mindres carrés: L'ensemble d'apprentissage (valeurs de Y cnnues) définit un système de n équatins : y * i = b 0 j b j x i j e i En ntatin matricielle, n a: y * nx1 = X nx(p1) b (p1)x1 e 1xn ù b = (b 0, b 1,..., b p ) T X = 1 1 M x ij 1 matrice des bservatins x ij augmentée d'une 1 ere cl. de '1' (prise en cmpte du terme indépendant, cf. régressin lgistique) STAT-H-400 Classificatin et régressin 26
Calcul des cefficients: Déterminer b qui rendent i e i2 = e T e minimum c-à-d (y * Xb) T (y * Xb) minimum b [(y * Xb) T (y * Xb)] = 0 X T Xb= X T y * (p équatins à p incnnues) Une slutin exacte existe si X T X est inversible: On a alrs: b = (X T X) -1 X T y * X T X est inversible si 1) n p (plus d'équatins que d'incnnues) 2) les variables X j snt linéairement indépendantes c-à-d r ij2 << 1 (i j) STAT-H-400 Classificatin et régressin 27
Remarques: Si les X j snt frtement crrélées: l'inversin de X T X est difficile (résultats imprécis et instables) une slutin: réaliser la régressin sur les q premières cmpsantes principales (de variances nn négligeables) extraites de X et réinterpréter le mdèle en fct des variables initiales. Si les variables X j snt centrées: X = matrice des valeurs (x ij m j ) matrice var.-cvar.: S = X T X / (n -1) b 0 = 0 et les autres cefficients b j restent identiques. STAT-H-400 Classificatin et régressin 28
Cefficient de crrélatin multiple et qualité de l'ajustement On a (cf. régressin linéaire simple): n i= 1 n n p * 2 2 * 2 ( yi y) = ( yˆ i y) ( yi yˆ i ) avec yˆ i = b0 i= 1 SS tt = SS reg SS res SS 2 reg Cefficient de déterminatin: R = SStt % de variatin de Y expliquées par la dépendance de Y aux X i i= 1 j= 1 b j x ij! Cefficient de crrélatin multiple: Cmme: Min. i e i 2 Max. R 2. * * cr ( y, yˆ ) = cr( y, Xb) = R => L'ajustement des mindres carrés détermine la cmbinaisn linéaire des variables X j de crrélatin maximale avec Y Rmq.: Ajuter une variable explicative X p1 augmente i e i2 et dnc R => R n'est pas une mesure abslue de qualité d'ajustement (à cmparer à nbre de var. égal) 2 STAT-H-400 Classificatin et régressin 29
Mdèle statistique (inférence) Cmme en régressin simple, n suppse une dépendance linéaire en myenne de Y par rapprt aux valeurs x ij (suppsées fixées) des X j Le mdèle cmplet est déterminé par les n bservatins indépendantes de Y et les valeurs x ij assciées: Y 1 = β 0 β 1 x 11 β 2 x 12... β p x 1p ε 1 Y 2 = β 0 β 1 x 21 β 2 x 22... β p x 2p ε 2 Y n = β 0 β 1 x n1 β 2 x n2... β p x np ε n ù les différents résidus ε i snt suppsés être des variables aléatires: de myenne nulle (E(ε i ) = 0) de même variance (E(ε i2 ) = σ 2 ) nn crrélées (cv(ε i, ε ) = 0 i ) Seuls ces résidus snt respnsables des variatins des Y i (x ij fixés), cnsidérées dnc cmme des variables aléatires. STAT-H-400 Classificatin et régressin 30
En ntatin matricielle: Y nx1 = X nx(p1) β (p1)x1 ε 1xn avec E(ε) = 0 et S ε = σ 2 I (matrice var.-cv. des résidus), et dnc E(Y) = X β et S Y = σ 2 I (généralisatin de la régres. simple) Sus ces hypthèses, les cefficients de régressin b j déterminés par la minimisatin du critère des mindres carrés snt les "meilleurs" estimateurs des cefficients incnnus β j : E(b j ) = β j (estimateurs nn biaisés) et Var(b j ) minimales. Dépendance entre les matrices var-cv: S b = σ 2 (X T X) -1 (= σ 2 S X -1 si n travaille en var. centrées) => la structure des dnnées x ij influence la qualité des ceff. de régressin (cf rmq sur la crrélatin des X i ). STAT-H-400 Classificatin et régressin 31
Tests d'hypthèse et intervalles de cnfiance sur les cefficients β j Prpriété requise: distributin nrmale des résidus: ε ~ N(0, σ 2 I), tests (nn détaillés ici) identifiant: des valeurs β j 0 => variable explicative X j cntributive des valeurs de R 0 => % de variance expliquée nn nul I.C. sur les valeurs de β j et R I.C. pur la valeur de Y intervalle de prédictins (étant dnné les valeurs fixées des variables explicative) STAT-H-400 Classificatin et régressin 32
Analyse des résultats: Objectif: détecter de pssibles anmalies dans le mdèle (par rapprt aux hypthèses de base) Outils: représentatins graphiques pur l'analyse des résidus (erreurs): vérifier la nrmalité des résidus e i (histgramme test): si pas vérifiée, n peut créer le mdèle mais n ne peut pas faire d'inférence! représenter les e i an fnctin des estimatins y ˆ i : permet de vérifier si la variance reste cntante, si une dépendance apparaît et la présence de pints extrêmes ("utliers"). Ex: e e e ˆ y ˆ y ˆ y dépendance => prblèmes de calcul variance nn c ste => demande une transf. des dnnées situatin idéale: pas de dépendance et variance c ste STAT-H-400 Classificatin et régressin 33
autre représentatin pssible: les estimatins en fct des valeurs bservées. Idéalement les pints se distribuent autur de la 1 ere bissectrice: ˆ y y * permet de repérer les "utliers" et les znes ù le mdèle est mins bien ajusté aux dnnées (par ex. à tendance nnlinéaire) => znes de mins bnne perfrmance STAT-H-400 Classificatin et régressin 34