Système de classfcaton à deux nveaux de décson combnant approche par modélsaton et machnes à vecteurs de support Jonathan Mlgram Robert Sabourn Mohamed Cheret Laboratore d'imagere, de Vson et d'intellgence Artfcelle École de Technologe Supéreure de Montréal mlgram@lvaetsmtlca - {robertsabourn, mohamedcheret}@etsmtlca Résumé : Il est possble de dstnguer deux types de données pouvant causer des problèmes à un classfeur : les données ambguës et les données aberrantes Or, les algorthmes de classfcaton peuvent être séparés en deux grandes catégores Les approches agssant par séparaton ont pour objectf de mnmser le premer type d erreur, mas ne permettent pas de rejeter effcacement le deuxème type de données Par contre, les approches agssant par modélsaton sont adaptées à ce type de rejet, mas s avèrent généralement peu dscrmnantes Dans cet artcle nous proposons donc de combner approche par modélsaton et machne à vecteurs de support () au sen d un système de classfcaton à deux nveaux de décson En outre, cette combnason présente l avantage de rédure la complexté de calcul assocée à la prse de décson des Ans, nos expérences sur la base MNIST montrent qu l est possble de mantenr les performances assocées aux, tout en rédusant sgnfcatvement la complexté et en rendant possble la détecton de données aberrantes Mots-clés : Système de classfcaton, combnason de classfeurs, machne à vecteurs de support, approche par modélsaton, détecton de données aberrantes 1 Introducton Lors de la concepton d'un système de reconnassance de formes, l'objectf prncpal est de mnmser les erreurs de classfcaton Cependant, un autre crtère mportant est la capacté à estmer une mesure de confance dans la décson prse par le système En effet, une telle mesure est essentelle pour permettre de ne pas prendre de décson lorsque le résultat de la classfcaton est ncertan Ans, l est mportant de dfférenter deux types de rejet, correspondant à deux catégores de données délcates Le rejet d'ambguïté consste, comme son nom l'ndque, à fltrer les exemples ambgus Le second type de rejet concerne les données aberrantes qu ne correspondent à aucune des classes du problème On parle alors de détecton d «outlers», de rejet d'gnorance ou de rejet de dstance Or, parm l ensemble des technques de classfcaton, l est possble de dstnguer deux catégores d approches, celles agssant par modélsaton et celles agssant par séparaton (a) par modélsaton (b) par séparaton FIG 1 Deux catégores d'approches de classfcaton Le premer type d'approche cherche à détermner un modèle le plus fdèle possble de chacune des classes, alors que l'objectf du second type est d'optmser des frontères de décson de manère à séparer au meux les classes La décson est alors prse dans le second cas en se basant sur la poston de l'exemple par rapport aux frontères et dans le premer cas en utlsant une mesure de smlarté pour comparer la donnée à classfer à chacun des modèles Ans, comme l est montré dans [LIU 02], de part leur nature dscrmnante, les approches par séparaton sont plus performantes pour trater les données ambguës, mas peu aptes à gérer les outlers Par contre, les approches par modélsaton permettent la détecton de ces données aberrantes, mas s'avèrent peu dscrmnantes A partr de ces constatatons, les auteurs proposent deux optons : sot fusonner les deux approches de manère nterne au sen d'un système hybrde, sot les combner de manère externe Ans, dans un artcle plus récent [LIU 03], les mêmes auteurs présentent un système hybrde qu utlse un apprentssage dscrmnant pour amélorer les performances de leur approche par modélsaton Mas, ben que très satsfasants les taux de reconnassance obtenus restent nféreurs à ceux rendus possble par l'utlsaton de machnes à vecteurs de support () Par conséquent, nous proposons de combner approche par modélsaton et au sen d'un système de classfcaton à deux nveaux de décson L'dée consste alors à utlser dans un premer nveau de décson une approche par modélsaton pour rejeter les outlers, classer les données ne présentant aucune ambguïté et soler les classes en conflts Le second nveau de décson, utlsera ensute les approprés pour
permettre une melleure classfcaton De plus, cette combnason présente l'avantage de rédure le prncpal fardeau des : la complexté de calcul nécessare à la prse de décson Ben qu'un certan nombre d'dées smlares aent été ntrodutes dans des artcles récents [BEL 03][PRE 03][VUU 03], notre système reste dfférent et orgnal En effet, une premère combnason entre approche par modélsaton et approche par séparaton a été proposée dans [PRE 03], mas les auteurs n'utlsent alors que quelques MLP pour amélorer les performances de leur premer classfeur et ne s'ntéressent pas à la noton d'outler D'autre part, s le problème de la complexté lée aux est traté dans [BEL 03], le système proposé ne possède qu'un seul nveau de décson En effet, le MLP qu est utlsé comme premer classfeur sélectonne automatquement ce qu lu semble être le «bon» De plus, l'utlsaton de deux approches par séparaton ne permet pas le rejet d'outlers Pour résoudre ce problème, les auteurs proposent d'utlser un autre Mas cec nécesste alors de dsposer d'une base conséquente d'outlers et rsque de s'avérer très coûteux en terme de complexté Enfn, pluseurs méthodes de détecton de conflts ne se lmtant pas à deux classes sont proposées dans [VUU 03] Or, le premer nveau de décson utlse un ensemble de classfeurs qu s'avère partculèrement lourd Ans, l est possble de se demander s'l ne serat pas préférable dans ce cas d'utlser drectement l'ensemble des 2 Approche par modélsaton 21 Caractérsaton du problème de classfcaton Ben que peu dscrmnante, ce type d approche peut servr de premer nveau de décson et permettre de caractérser le problème de classfcaton Le degré d appartenance à chacune des classes peut être évalué ndépendamment par le bas de la dstance entre l exemple traté et le classe consdérée Tros cas de fgure sont alors envsageables : Toutes les dstances sont très grandes Il s agt alors vrasemblablement d un outler qu pourra être rejeté Une seule dstance s avère fable Il s agt d une donnée facle à classer La décson peut donc être prse drectement Pluseurs dstances sont fables Il s agt d une donnée ambguë Le conflt sera alors réglé dans un second temps par le ou les approprés Un exemple smple est présenté FIG 2 Les dstances à chacun des modèles des deux classes sont représentées par des lgnes de nveaux en (a) et (b), alors que la combnason de ces deux mesures montre en (c) comment l est possble d'soler les outlers en utlsant le maxmum des deux dstances et en (d) comment détecter les cas d'ambguïté en utlsant le mnmum (a) d 1 (b) d 2 (c) max(d 1, d 2 ) (d) mn(d 1, d 2 ) FIG 2 Utlsaton d'une approche par modélsaton pour caractérser le problème de classfcaton D'autre part, la modularté de ce type d'approche présente l'avantage de permettre de trater effcacement des problèmes où le nombre de classes est très grand En effet, comme l est montré dans [OH 02] l'utlsaton d'une approche globale tel qu'un réseau MLP s'avère neffcace lorsque le nombre de classes augmente comme dans le cas des 352 caractères coréens utlsés dans les adresses postales 22 Modélsaton à l'ade d'hyperplans Afn de modélser les dfférentes classes, nous avons chos une méthode smple qu consste à utlser des hyperplans Chaque classe ω est alors modélsée par l hyperplan défn par les k premers vecteurs propres extrats de la matrce de covarance Σ et passant par la moyenne µ des données de la classe Le prncpal avantage d'une telle méthode résde dans sa capacté à nterpoler les données de manère à obtenr des modèles très compacts et donc extrêmement légers en terme de complexté de calcul Ans, pour tout pont x de l'espace de représentaton, le degré d appartenance à une classe ω peut être évalué en calculant la dstance d entre le pont x consdéré et sa projecton P sur l'hyperplan modélsateur La FIG 3 llustre cec à travers un exemple en deux dmensons d ( x) = x P ( x) [1]! T ( x " µ )!! + P ( x) = µ [2] où représente la matrce contenant les k premers vecteurs propres
FIG 3 Exemple de modélsaton d'un problème à deux dmensons Les hyperplans modélsateurs sont alors défns par l axe prncpal (k = 1) des données En outre, cette approche ne nécesste que l'optmsaton du paramètre k correspondant à la dmenson des hyperplans modélsateurs Toutefos, comme nous le verrons expérmentalement, l est mportant de ne pas néglger ce paramètre qu joue un rôle mportant dans la qualté de la modélsaton En effet, s k est trop pett, la perte d'nformaton est mportante et la modélsaton peu précse S l'on consdère le cas extrême où k = 0, la classe n'est alors modélsée que par le prototype µ correspondant à la moyenne Par contre, s k est trop grand le modèle engendré ne sera plus dscrmnant S l'on consdère l'autre cas extrême où k = d, d étant le nombre de caractérstques, l'hyperplan englobe alors tous les ponts de l'espace de représentaton et la dstance de projecton sera donc nulle quelque sot le pont x 3 Combnason avec une approche par séparaton 31 Détecton de conflts La premère étape consste donc à détecter les données ambguës Il nous semble alors préférable d'utlser un nombre p de classes en conflt qu pourra varer dynamquement suvant le cas de fgure La procédure que nous proposons pour détermner la lste L ω des classes en conflt consste à normalser les dstances d à l'ade d'une foncton «softmax» [4] de manère à obtenr des mesures s d'appartenance aux classes ω Pus, les dfférentes classes ω seront ordonnées de manère décrossante en foncton de leur valeur s Enfn, on détermnera le nombre mnmum p de classe nécessare pour vérfer le crtère suvant : p " s = 1 1 # <! [3] e "# d s =! " # d j e j [4] Le seul ε contrôle donc la tolérance du premer nveau de décson Plus sa valeur est pette, plus le nombre p de classes en conflt aura tendance à être grand et plus la décson sera reportée sur le second nveau de décson Ans, une valeur de ε trop grande aura pour effet de ne quasment jamas fare appel à l approche dscrmnante Par contre, une valeur trop pette entraînera une utlsaton superflue du second nveau de classfcaton et donc des temps de tratement excessfs 32 Utlsaton de machnes à vecteurs de support L objectf du second nveau de décson est de retrater les données ambguës à l ade de classfeurs dscrmnants de manère à prendre la décson parm les p classes en conflts Il semble donc préférable d adopter une approche modulare tel que la stratége «parwse» qu consste à décomposer un problème à n classes en n(n-1)/2 sous problèmes bnares Dans ce contexte, l est donc partculèrement ntéressant d utlser des machnes à vecteurs de support En effet, les sont des classfeurs bnares très dscrmnants Les algorthmes que nous avons alors utlsés pour l apprentssage et le test des sont décrts dans [CHA 01] Ans, nous avons entraîné les correspondant à toutes les pares de classes Mas, lors de la classfcaton seuls les p(p- 1)/2 classfeurs défns par la lste L ω seront utlsés La décson sera alors prse en effectuant un vote majortare et en cas d égalté nous chosrons la classe ayant la plus pette dstance d 4 Résultats expérmentaux De manère à tester l'approche proposée, nous avons chos de nous ntéresser à un problème de reconnassance de formes très classque : la reconnassance d'mages de chffres manuscrts solés 41 Base de données Nos expérences ont été réalsées sur la base de données MNIST [LEC 98] Il s'agt d'une base publque couramment utlsée et dont les résultats pour de nombreux classfeurs sont dsponbles Les mages ont été normalsées en dmenson (20 20) pus centrées dans une rétne 28 28 en fasant coïncder le centre de gravté du caractère avec le centre géométrque de la rétne Les 50 000 premers exemples de la base d'apprentssage seront utlsés pour l'entraînement de nos classfeurs et les 10 000 suvants pour la valdaton Enfn, la base de test qu est composée de 10 000 exemples sera exclusvement réservée à l'évaluaton des résultats fnaux 42 Approche par modélsaton Dans un premer temps, l est nécessare de fxer la dmenson k des hyperplans modélsateurs Pour ce fare, nous avons utlsé la base de valdaton pour estmer l'effet de k sur les performances en classfcaton (vor FIG 4) Le melleur résultat en valdaton (382 %) est alors obtenu pour k = 25 et a perms d'obtenr un taux d'erreur de 409 % sur la base de test
valeur mnmsant l'erreur quadratque moyenne sur la base de valdaton FIG 4 Effet de la dmenson k des hyperplans modélsateurs sur les performances en classfcaton D'autre part, comme nous pouvons le constater TAB 1, le label de l'exemple traté ne se trouve pas nécessarement parm les deux premères solutons solées par l'approche par modélsaton Cec justfe donc l'utlsaton d'une valeur dynamque du nombre p de classes en conflt poston du bon label 1 2 3 >3 % de la base de test 9591 282 072 055 TAB 1 Résultats de l'approche par modélsaton sur la base de test Ans, ben que peu dscrmnante, cette approche très smple devrat permettre de classfer de manère fable une grande parte des données et de rédure le nombre de classes à trater par les dans les cas ambgus 43 Machnes à vecteurs de support L'apprentssage et le test des ont été réalsés à l'ade du logcel LIB dont les algorthmes sont décrts dans [CHA 01] Nous avons chos d utlser le x! y C- avec un noyau gaussen : K( x, y) = e " Les hyper paramètres γ et C ont été détermnés emprquement en cherchant à mnmser le taux d'erreur sur la base de valdaton Les valeurs retenues (C = 10 et γ = 00185) ont perms d'obtenr un taux d'erreurs de 147 % sur la base de valdaton Cet ensemble de utlse 11 118 vecteurs de support et permet d'obtenr un taux d'erreur de 154 % sur la base de test Notons que ce résultat a été obtenu sans utlser de connassances a pror sur le type d nvarances des données 44 Système de classfcaton à deux nveaux de décson Lors de l mplantaton d un système de classfcaton, l peut être nécessare de fare un comproms entre fablté et complexté Le seul de tolérance ε permet alors de contrôler ce type de comproms (vor FIG 5) Ans, la base de valdaton pourra être utlsée pour fxer ce paramètre en foncton des contrantes lées à l applcaton Notons que la complexté relatve à la procédure de test est évaluée par le bas de la valeur moyenne du nombre de vecteurs de support dstncts utlsés pour classfer les exemples de la base de données Par alleurs, la valeur du paramètre α de la foncton «softmax» a été fxée à 60, ce qu correspond à la! 2 FIG 5 Utlsaton de la base de valdaton pour évaluer l'effet du seul ε A partr des résultats obtenus sur la base de test (vor TAB 2 et FIG 6) l est possble de dégager un certan nombre de conclusons Premèrement, l est ntéressant de constater qu en agssant seulement sur envron 10 % des données, l est déjà possble d amélorer grandement les performances de l approche par modélsaton En effet, lors de l utlsaton d un seul ε de 10-1, le taux d erreur passe de 409 % à 203 % en n utlsant en moyenne que 018 Deuxèmement, l est mportant de constater qu l est possble de mantenr les performances obtenues en utlsant tous les «parwse» en utlsant mons de 10 % de la complexté ntale Effectvement, s l on fxe ε = 10-3, la moyenne du nombre de vecteurs de support utlsé est alors de 1 0543 contre 11 118 ntalement Seul ε 10-1 10-2 10-3 10-4 Taux d erreur (%) 203 162 153 15 # utlsés 018 081 238 513 # VS utlsés 1082 4160 1 0543 2 0265 TAB 2 Résultats sur la base de test de notre système de classfcaton à deux nveaux de décson Ans, le nombre de utlsés lors du test vare dynamquement L'hstogramme correspondant est présenté FIG 6 On peut alors constater qu'l est parfos nécessare d'utlser ben plus d'un pour résoudre les conflts Cec prouve donc que notre approche par modélsaton n'est pas assez précse FIG 6 Effet du seul ε sur la dstrbuton du nombre de utlsés
5 Conclusons et perspectves Nous avons présenté dans cet artcle une nouvelle archtecture qu présente pluseurs proprétés ntéressantes pour la reconnassance de caractères Elle possède tout d'abord l'avantage d'être parfatement modulare et donc de pouvor être applquée à des problèmes où le nombre de classes est très grand De plus, le système proposé combne les avantages des approches par modélsaton, tel que la possblté de détecter les outlers, avec l'mportant pouvor dscrmnant des tout en rédusant énormément le temps de tratement lé aux Dans le futur, l sera ntéressant de tester la capacté du système à effectuer les deux types de rejet Les dstances d pourront alors être utlsées pour le rejet d'gnorance D'autre part, le schéma de vote majortare utlsé par le deuxème nveau de décson sera remplacé par une méthode d'estmaton de probabltés, ce qu permettra d'effectuer effcacement le rejet d'ambguïté Enfn, la prncpale lmtaton de notre système se stue au nveau du premer nveau de décson De part sa lnéarté, l'approche par modélsaton que nous utlsons s'avère peu précse En effet, la présence d'allographes de caractères peut condure à ce que la dstrbuton des données sot multmodale Il semble donc préférable d'utlser plus d un hyperplan par classe Ans, en amélorant le premer nveau de décson, l devrat être possble de rédure d'avantage la complexté du système Références [BEL 03] BELLILI A, GILLOUX M, GALLINARI P, «An MLP- combnaton archtecture for offlne handwrtten dgt recognton», Internatonal Journal on Document Analyss and Recognton, 2003, p 244-252 [CHA 01] CHANG C-C, LIN C-J, «LIB: a lbrary for support vector machnes», rapport technque, natonal tawan unversty, 2001 Logcel dsponble en lgne (http://wwwcsentuedutw/~cjln/lbsvm/) [LEC 98] LECUN Y, BOTTOU L, BENGIO Y, HAFFNER P, «Gradent-based learnng appled to document recognton», Proceedngs of IEEE, vol 86, n 11, 1998, p 2278-2324 Base de données Mnst dsponble en lgne (http://yannlecuncom/exdb/mnst/) [LIU 02] LIU C-L, SAKO H, FUJISAWA H, «Performance evaluaton of pattern classfers for handwrtten character recognton», Internatonal Journal on Document Analyss and Recognton, 2002, p 191-204 [LIU 03] LIU C-L, SAKO H, FUJISAWA H, «Handwrtten dgt recognton: benchmarkng of state-of-the-art technques», Pattern Recognton, 2003, p 2271-2285 [OH 02] OH I-S, SUEN C, «A class-modular feedforward neural network for handwrtng recognton», Pattern Recognton, vol 35, 2002, p 229-244 [PRE 03] PREVOST L, MICHEL-SENDIS C, MOISES A, OUDOT L, MILGRAM M, «Combnng model-based and dscrmnatve classfers: applcaton to handwrtten character recognton», Int Conference on Document Analyss and Recognton, 2003, p 31-35 [VUU 03] VUURPIJL L, SCHOMAKER L, VAN ERP M, «Archtectures for detectng and solvng conflcts: twostage classfcaton and support vector classfers», Internatonal Journal on Document Analyss and Recognton, 2003, p 213-223 approche par modélsaton Rejet d'gnorance classe! 0 d 0 s 0 classe! 1 d 1 softmax s 1 observaton x classe! 9 d 9 dstance de projecton s 9 mesures d'appartenance CONFLIT? OUI NON Décson! 0 vs! 1! 0 vs! 2 vote majortare! 8 vs! 9 approche par séparaton FIG 7 Vue d'ensemble de notre système de classfcaton à deux nveaux de décson