Méhdes de classificain suervisées Les méhdes de segmenain u les arbres de décisin Yves Lechevallier INRIA-Rcquencur 78153 Le Chesnay Cedex E_mail : Yves.Lechevallier@inria.fr Yves Lechevallier Maser-ISI 1
Prcessus Daa Mining Phase A : Enreô de dnnées Enreô de dnnées Phase B : Exlrain Ensemble d arenissage Ensemble validain Ensemble de es Phase C Mdélisain Ensemble de règles Classifieurs Dnnées Oérainnelles Phase D: Chix du mdèle Phase E: Prédicin / Scring Scres Règles Yves Lechevallier Maser-ISI 2
Méhdes de classemen Discriminain Les méhdes de classemen n ur bje d idenifier la classe d aarenance d bjes définis ar leur descriin Un bje à classer es une enié aarenan à une ulain hérique Π cnsiuan l ensembles des bjes susceibles d avir à êre classés. Cee ulain es susée cnnue de façn exhausive. Yves Lechevallier Maser-ISI 3
Nains Π es muni d une ariin Π 1,,Π K. G{1,,K} Y la fncin de classemen D X esace de descriin suven R Un cule x,y ù x rerésene sa descriin e y l indice de sa classe d aarenance. Yves Lechevallier Maser-ISF 4
cule «descriin, classe» Π X Y D X G Un cule x,y ù x rerésene sa descriin e y l indice de sa classe d aarenance. Yves Lechevallier Maser-ISF 5
Objecif des méhdes de classemen Truver une rcédure de classemen Yˆ, die fncin de décisin, qui à ue descriin de D X furni l indice d une classe de Π. Π X Y D X G Y^ Cee rcédure devra êre aussi bnne que ssible e furnir le classemen des bjes de à arir de leur descriin. Yves Lechevallier Maser-ISF 6
Fncin de décisin Tue fncin de décisin indui sur une ariin en classes R 1,..., R,..., R K aelées régin d'affecain de Yˆ { x D / Yˆ x } R Yˆ 1 X Pur un descrieur X e une fncin de décisin n eu définir sur Π une ariin en K classes d'affecain. Yˆ Yves Lechevallier Maser-ISF 7
Fncin de décisin Yˆ Tus les bjes aarenan à une même classe d'affecain sn aribués de la même façn ar Yˆ 1 1 Yˆ ˆ 1 X X R Π D X X ^ Y Π Y G Πˆ,..., Πˆ,..., ˆ Π 1 K Π1,..., Π,..., Π K Yves Lechevallier Maser-ISF 8
Esace de descriin D X élémen de E valeur dans D X X X X j X Π X 1 D X Yves Lechevallier Maser-ISF 9
Classes a riri élémen de E valeur dans D X Π 1 X, Y X, Y X j X Π 2 Π X 1 D X Yves Lechevallier Maser-ISF 10
Fncin de décisin Yˆ élémen de E valeur dans D X X j Yˆ R X Yˆ ˆ 1 1 1 X X R Π Πˆ,..., Πˆ,..., Πˆ 1 K X 1 D X Yves Lechevallier Maser-ISF 11
Tableau de dnnées Tableau de dnnées mdèle «vecriel» Rerésenain dans R de ris Iris. Web Sie : h://www.ics.uci.edu/~mlearn/mlsummary.hml Yves Lechevallier Maser-ISF 12
Visualisain des iris On sélecinne deux variables: Sealwidh e Seallengh Les ris classes sn rerésenées ar 3 culeurs différenes Yves Lechevallier Maser-ISF 13
Erreur de classemen A chaque fncin de décisin n a une règle de décisin Si Yˆ x alrs x Πˆ La erfrmance glbale RYˆ de la fncin de décisin Yˆ es la myenne des rbabiliés d'erreur de cee fncin de décisin sur l'esace de descriin. Π I Πˆ 1 Pr Π I Πˆ. R Yˆ Pr[ Yˆ Y ] Pr h h * La règle d'affecain Yˆ es la règle de bayes d'erreur minimale si elle es vérifie : Y R Yˆ ˆ * R Yˆ Yves Lechevallier Maser-ISF 14
Arche Bayésienne Prbabiliés a riri des classes π Les lis de rbabilié L x du veceur x dans chaque classe a riri. Une fncin C de cû du classemen d un bje de la classe a riri P dans la classe d affecain P h cû Ch/ Une fncin de décisin Y*. Yves Lechevallier Maser-ISF 15
Règle de Bayes d erreur minimale x Y * x ù es elquepr / x maxpr h / x Cee définiin es eu érainnelle, en effe, n cnnaî raremen la rbabilié d'un classemen sachan une descriin. Thérème de Bayes π L Pr[ Y ] x Pr[ X x / Y Pr / x π L x L x ] es la densié de la classe x Y * x ù es elquepr / x max L x π Yves Lechevallier Maser-ISF 16
Les descriins suiven une li nrmale Le descrieur X des exemles es cnsiué de descrieurs numériques e que sa disribuin, cndiinnellemen aux classes, sui une li nrmale mulidimensinnelle cenrée sur le veceur μ e de marice de variance-cvariance Σ. La vraisemblance cndiinnelle de X ur la classe s'écri alrs L x 2 de 1 ex 1 2 1 π Σ x μ Σ x μ 2 Yves Lechevallier Maser-ISF 17
Exemle 1 L x Pr / x π L x L x 1.0 0.8 densié de deux lis nrmales de variances égales mu 1.67, sigma 0.1 F mu 1.76, sigma 0.1 H 1.0 rbabilié a seriri seriri F seriri H 0.8 densié -> 0.6 0.4 densié -> 0.6 0.4 0.2 0.2 0.0 12.0 13.0 14.0 15.0 16.0 17.0 18.0 19.0 20.0 x -> 0.0 12.0 13.0 14.0 15.0 16.0 17.0 18.0 19.0 20.0 x -> Les variances e les rbabiliés a riri sn égales Yves Lechevallier Maser-ISF 18
Exemle 2 L x Pr / x π L x L x 1.0 densié de deux lis nrmales de variances # mu 1.67, sigma 0.07 F mu 1.76, sigma 0.1 H 1.0 rbabilié a seriri seriri F seriri H 0.8 0.8 densié -> 0.6 0.4 densié -> 0.6 0.4 0.2 0.2 0.0 0.0 12.0 13.0 14.0 15.0 16.0 17.0 18.0 19.0 20.0 12.0 13.0 14.0 15.0 16.0 17.0 18.0 19.0 20.0 x -> x -> Les variances sn inégales égales Les rbabiliés a riri sn égales Yves Lechevallier Maser-ISF 19
Généralisain Caacié de bien affecer de nuvelles dnnées Mdèle simle Yves Lechevallier 20 Maser-ISF
Généralisain Mdèle un eu r flexible Cmlexié du mdèle : Cmmen adaer au mieux le mdèle aux dnnées sachan que l n ne ssède qu un échanilln? Yves Lechevallier Maser-ISF 21
Cmlexié du mdèle Analyse discriminane linéaire Percern Yves Lechevallier Maser-ISF 22
Cmmen amélirer cee sluin? X2 b a X1 Yves Lechevallier Maser-ISF 23
Les arbres de décisin Un arbre de décisin es un enchaînemen hiérarchique de règles lgiques u de rducin cnsruies de manière aumaique à arir de E. La cnsrucin de l arbre de décisin cnsise à uiliser les descrieurs, ur les subdiviser rgressivemen l ensemble E en sus-ensembles de lus en lus fins. Yves Lechevallier Maser-ISF 24
Exemle d arbre binaire Grge nn irriée Bien-rans 91 Malades 1 Teméraure < 37.5 Bien-rans 97 Malades 38 Grge irriée Bien-rans 100 Malades 100 Bien-rans 6 Malades 37 Teméraure > 37.5 Bien-rans 3 Malades 62 Malade "Malade" Règle1 Règle 2 "Bien-ran" Règle 3 Bien-ran Malade Règle 1 : [eméraure > 37.5] Règle 2 : [eméraure < 37.5] ET [grge irriée]: Règle 3 : eméraure < 37.5] ET NON[grge irriée] Yves Lechevallier Maser-ISF 25
Segmenain/arbres de décisin Décuage successif de E à l aide d une séquence de règles de rducin. Dans chaque sus-ensemble, une nuvelle évaluain es faie, celle-ci va ermere un nuveau décuage. Les ensembles erminaux sn aelés feuilles e les ensembles inermédiaires sn aelés nœuds. Yves Lechevallier Maser-ISF 26
Cnsrucin d'un arbre de décisin un mde d'écriure des quesins binaires, une règle d'éiqueage de chacun des segmens erminaux, un crière d'évaluain de la qualié d'une subdivisin ur déerminer la meilleure subdivisin d'un nœud inermédiaire, un crière d arrê ermean d'arrêer la cnsrucin de l'arbre e décider si un nœud es une feuille. Yves Lechevallier Maser-ISF 27
Définiin d'un arbre binaire Un arbre binaire es défini ar un rile T, g, d cnsiué d'un ensemble T nn vide d'eniers siifs e de deux fncins g e d définies sur T. Les fncins g e d resecen les deux rriéés caracérisiques : g 0 d 0 g > 0 d > 0 Aure que le lus ei enier de T, il exise ur chaque un élémen unique s de T el que g s d s Les élémens de T sn les nœuds de l'arbre e le lus ei élémen de T la racine de l'arbre. Yves Lechevallier Maser-ISF 28
Définiins si s g s d alrs le nœud es aelé ère de s. si si s g s d alrs s es aelé fils gauche du nœud alrs s es aelé fils dri de Si g 0 d 0 le nœud n'a as de fils alrs il es aelé nœud erminal. Dans le cas cnraire es aelé nœud nn erminal de T. On ne T ~ l'ensemble des segmens erminaux de T. A chaque segmen erminal n eu asscier une régin de D X Yves Lechevallier Maser-ISF 29
Sus-arbre Sus-arbre élagué 1 2 3 4 5 6 7 9 8 Sus-arbre quelcnque T es aelé sus-arbre de T si les ris élémens T, g' e d' définissen un arbre Un sus-arbre es di «élagué» s il ssède la racine e dans ce cas l ensemble des segmens erminaux frme une ariin de D X Yves Lechevallier Maser-ISF 30
Quesin binaire variable cninue [X > 3.5]? Q 0 Q 1 g Dans le cas d une variable cninue n évalue ues cuures ssibles c es-à-dire au maximum n-1 Pur une variable qualiaive rdnnée Y, n évalue ainsi au maximum m-1 biariins Dans le cas d'une variable qualiaive nn rdnnée, n se heure vie à un rblème de cmlexié, le nmbre de dichmies du dmaine d'bservain éan alrs égal à 2 m-1-1. d Variable qualiaive [ X { m,..., m }]? 1 h Yves Lechevallier Maser-ISF 31
Règle imale d'éiqueage d'un segmen erminal Une règle d'éiqueage d'un arbre T es une alicain définie sur l'ensemble T des segmens erminaux de l'arbre T dans G h G / h C / C Pr h / La erfrmance glbale es mesurée ar le risque asscié à sn uilisain C C Yˆ * Cˆ / h G Yˆ *.Pr ~ T À arir des fréquences emiriques C / h υ Cˆ Cˆ Yˆ Yˆ υ ~ T υ Yves Lechevallier Maser-ISF 32 n
Chix d'un crière d'évaluain Il y a K éiqueages ssibles ur. La myenne ndérée des risques assciés à ces différenes éiquees s'écri sus la frme. C G C / Pr / G h G C / hpr h / Pr / Cee quanié rerésene égalemen l'esérance mahémaique du risque encuru à affecer aléairemen les descriins de suivan la li Pr Y ˆ x / x Pr / Le gradien Δ du risque, indui ar une quesin Q au nœud Δ C g Pr g / C d Pr d / [ C ] Q, C Rechercher Δ C Q *, max Δ Q C Q, Yves Lechevallier Maser-ISF 33
Cas ù les cûs d'un mauvais classemen sn ideniques Si les cûs d'un mauvais classemen sn us ideniques alrs le risque asscié au segmen rend la frme de l'indice d'imureé de Gini uilisé dans CART i Pr / Pr h / G h G h La nin d'imureé a éé inrduie ar Breiman e al. [BRE84] e elle caracérise un cnce rès uile dans les méhdes de segmenain. Yves Lechevallier Maser-ISF 34
Imureé Pur mesurer la qualié d une cuure au nœud e le uvir discriminan de l arbre n va uiliser la nin d imureé qui caracérisera le degré de mélange du nœud. Un nœud es di ur si le segmen qui lui es asscié ne cnien que des descriins d'élémens d'une même classe. Inversemen un segmen es d'imureé maximum quand les K classes sn équirbables dans ce segmen. Yves Lechevallier Maser-ISF 35
i : imureé d un nœud n 1, n 2,, n n 1d, n 2d,, n d n 1g, n 2g,, n g d g Cuure du nœud L algrihme cnsise à maximiser de diminuin de l imureé [ ] d d g g i i i i Δ K K N n 1 1 /, / avec / n n g g e Yves Lechevallier 36 Maser-ISF
Prriéés de l imureé i Φ 1/, 2 /,..., K / êre une fncin symérique des / êre minimum si le nœud es ur 1/,,K/1,0,..,0 u 0,1,..,0 u 0,..,1 Êre maximum si le mélange es idenique à la disribuin de déar arfai 1/,,K/n 1 /n, n 2 /n,.., n K /n Êre une fncin cncave afin que la diminuin d imureé si ujurs siive u nulle La diminuin es nulle si quel que si n a : // g Yves Lechevallier Maser-ISF 37
Quelques définiins de l imureé Indice de diversié de Gini CART L enrie de Shannn ID3 K r K r K r K r s s r r s r i 1 2 2 1 1, 1 / / / / [ ] K r r r i i 1 / lg / Yves Lechevallier 38 Maser-ISF
Imureé de l arbre es l ensemble des nœuds erminaux, l imureé de l arbre T es: T ~ ~ ~ i I T I T T On a : i T I T I T I d g Δ Δ Minimiser l imureé à chaque cuure revien à minimiser l imureé ale de l arbre Yves Lechevallier 39 Maser-ISF
Règle de décisin Règle d affecain d un nœud Le nœud es affecé à la classe j si j/ es suérieur à us les / K j r r r j r 1; / / 1 / max 1 r es le aux aaren de mauvais classemen du nœud Taux aaren de mauvais classemen de l arbre T r T R ~ Yves Lechevallier 40 Maser-ISF
Crières d arrê de l arbre On arrêe le décuage du nœud si: es ur l imureé es au dessus d un seuil s variain de l imureé r faible nmbre d individus dans es r faible es resque ur On bien ainsi l arbre maximal Tmax Yves Lechevallier Maser-ISF 41
Validain de l arbre La crissance de l arbre erme de faire cnverger l esimaeur de / vers /x quand le nmbre de nœuds crî Au nœud / n n E il y une réducin du biais une augmenain de la variance / 1 / 1 n n n Var Cmrmis biais/variance Yves Lechevallier 42 Maser-ISF
Le cmrmis biais/variance la cmlexié du mdèle es elle suffisane ur réaliser une arximain crrece de la fncin de décisin Y*? L erreur d esimain réalisée sur l échanilln es un bn indicaeur de la erfrmance du mdèle sur les dnnées fuures? L esimain de Y* es elle rès déendane de l échanilln? Yves Lechevallier Maser-ISF 43
Recherche de l arbre imal Élagage de l arbre: L arbre maximal Tmax es cnsrui en minimisan l imureé. L arbre es r dévelé ur êre rbuse En élaguan rgressivemen l arbre maximal, n cnsrui une suie de sus-arbres qui sn us embîés avec l arbre maximal Yves Lechevallier Maser-ISF 44
Crière de réducin de la cmlexié ~ R T R T α T α α es un cefficien de énalié Pur α dnné, n chisi l arbre élagué T α imal en minimisan, sur l échanilln es u ar validain crisée, le risque myen R α T. Puis, armi ces arbres, le meilleur es reenu. Exise--il armi ces sus-arbres un arbre T qui minimise ce risque? Es-il ssible de cnsruire un algrihme d élagage efficace? Yves Lechevallier Maser-ISF 45
Avanages des arbres Avanages Méhde es nn aramérique e insensible aux valeurs exrêmes Elle erme de raier de variables de naures différenes Elle cmre une sélecin des variables Elle déermine des sus-ulains définies ar des règles facilemen inerréables. On eu isler cerains nœuds e définir des classes de risque Yves Lechevallier Maser-ISF 46
Incnvéniens des arbres Incnvéniens La méhde eu êre eu rbuse car elle sélecinne as à as les variables Elle es liée à la définiin de seuils dnc elle es sensible à de légères erurbains sur les dnnées La cnsrucin es assez délicae en ariculier au mmen de l élagage. Il es difficile de sélecinner l arbre imal Yves Lechevallier Maser-ISF 47