Introducton aux réseaux de neurones artfces A. Introducton Le cerveau capabe d apprendre et de réaser des rasonnements compexes est consttué d un très grand nombre de neurones (envron 10 15 ) reés entre eux (entre 10 3 et 10 4 connexons par neurones). Les réseaux de neurones artfces ont été déveoppés avec pour obectfs prncpaux d une part a modésaton et compréhenson du fonctonnement du cerveau et d autre part pour réaser des archtectures ou des agorthmes d ntegence artfcee. I exste de nombreuses appcatons pratques de ces réseaux. Nous nous mtons c à ntroducton des prncpes de fonctonnement de queques exempes de réseaux et à deux appcatons mportantes pour anayse de données, à savor a cassfcaton et approxmaton de fonctons. Commençons par éément de base : e neurone. A.1. Neurone artfce Le prncpe de fonctonnement d un neurone artfce peut être résumé par e schéma suvant : Fg. 7-1 : Schéma d un neurone artfce Un neurone artfce est une unté de tratement qu dspose de n entrées {x } =1,,n et d une sorte y. Cette sorte correspond à a transformaton par une foncton d une somme pondérée des entrées : y f (v) avec n v w0 w x 1 Les quanttés {w } =0,,n sont es pods du neurone. La foncton f est appeée foncton d actvaton ou foncton de transfert du neurone. Les fonctons es pus communément utsées sont a foncton écheon unté ou Heavsde, a foncton sgne, a foncton néare ou sem-néare, a foncton tangente hyperboque, ou a foncton sgmoïde. S. Tsserant Eéments de Statstque 2009 7-1
La foncton sgmoïde, dont aure est présentée sur a fgure 7-2, est défne par : 1 f (x) 1 e x Fg. 7-2 : Sgmoïde A.2. Premer exempe de cassfcaton à ade d un neurone Reprenons exempe de anayse dscrmnante néare rencontrée dans e chaptre 5. Nous consdérons des événements caractérsés par un ensembe de p mesures (nombres et types de partcues, mpusons, énerges, etc.) que nous notons {x } =1,,p. Nous souhatons casser ces événements entre deux casses. Nous avons vu avec a méthode de Fsher qu est possbe de détermner un hyperpan séparant au meux es deux casses dans espace de mesures. Un hyperpan peut être défn par une équaton néare : p a x b 1 La cassfcaton des événements par rapport à cet hyperpan est donnée par e sgne de : p f (x1,..., x p ) a x b 1 Ee peut donc être réasée par un neurone artfce, te que présenté dans e paragraphe précédent, avec p entrées s es coeffcents {a } =1,,p et b sont choss comme pods et avec, par exempe a foncton écheon pour actvaton. La sorte de ce neurone est bnare. La méthode du dscrmnant de Fsher nous permet de cacuer es pods à partr d un ot d événements d apprentssage pour esques a casse d appartenance est connue. Mas des méthodes d apprentssage tératves smpes ont été déveoppées pour es réseaux de neurones. C est une de eurs forces. S. Tsserant Eéments de Statstque 2009 7-2
Présentons une de ces méthodes pour exempe qu nous ntéresse dans ce paragraphe. Nous supposons que nous dsposons d un échanton d apprentssage de n événements dont nous connassons a casse d appartenance ans que es mesures. Pour chaque événement d apprentssage nous notons x ensembe de ses mesures et d sa casse (0 ou 1). Le prncpe de apprentssage peut être décrt par agorthme suvant : 1. Chox aéatore des pods 2. Présentaton d un événement d apprentssage en entrée et cacu de a sorte y(x) 3. Modfcaton des pods : w' w [d y( x)]x 4. Retour à étape 2 w' 0 w 0 [d y( x)] On peut montrer que s es deux casses sont séparées e processus converge, snon y a oscaton autour d une poston d équbre. La fgure suvante ustre e résutat obtenu avec cette méthode pour des événements d apprentssage reatvement ben séparés. La drote en pontés ndque hyperpan de séparaton. Fg. 7-3 : Exempe de cassfcaton obtenue avec un neurone L ordre de présentaton des événements d apprentssage est mportant. Le résutat précédent a été obtenu avec un chox aéatore des événements. Les deux résutats présentés sur a fgure suvante ont été obtenus en présentant d abord es événements d une casse pus ceux de autre casse. La drote de séparaton est vsbement sensbe à ordre de ce chox. Ceu-c peut ans prvéger une casse. S. Tsserant Eéments de Statstque 2009 7-3
Fg. 7-4 : Importance de ordre de présentaton des événements d apprentssage. A gauche es événements rouges sont présentés avant es beus. A drot c est nverse. Même s ce premer exempe nous a perms d ustrer effcacté d un seu neurone bnare, ne peut cependant pas trater tous es probèmes de cassfcaton. Pour cea faut assocer des neurones en un réseau. B. Perceptron mutcouches I exste de nombreuses archtectures de réseaux. Nous abordons c une organsaton des neurones en couches sans bouce n rétroacton. Les perceptrons mutcouches sont utsés dans envron 50 % des appcatons pratques de réseaux de neurones. B.1. Archtecture en couches L archtecture qu nous ntéresse est présentée sur a fgure 7-5. Les neurones sont groupés en couches (tros sur a fgure). Les données se propagent de a gauche vers a drote, de couche en couche. Les entrées sont transmses en paraèe aux neurones de a premère couche. Les sortes de ceux-c sont connectées en paraèe aux neurones de a deuxème couche et ans de sute. I n y a aucune connexon vers des couches précédentes, n à ntéreur d une même couche. La dernère couche est souvent appeée couche de sorte aors que es autres consttuent es couches cachées du réseau de neurones. Le réseau représenté sur a fgure 7-5 a deux couches cachées. Chaque neurone dspose de son propre eu de pods. Les neurones d une même couche ont tous a même foncton d actvaton. Cee-c est en généra une sgmoïde pour es couches cachées. Seon es appcatons, pour a couche de sorte ce peut être égaement une sgmoïde ou une foncton néare. S. Tsserant Eéments de Statstque 2009 7-4
Fg. 7-5 : Perceptron à tros couches B.2. Apprentssage L obectf de apprentssage est d optmser ensembe des pods. I repose sur un ot de données d apprentssage pour esquees on connaît es sortes à obtenr. L optmsaton consste à mnmser un coût. Dans nos appcatons ce coût est généraement une erreur quadratque. Consdérons un réseau dont a couche de sorte est consttuée de n neurones. Pour un événement d apprentssage notons d e vecteur sorte attendu et y e vecteur sorte cacué par e réseau de neurone. L erreur quadratque à mnmser est défne comme : E 1 2 n y d 1 où y et d représentent es composantes des vecteurs y et d. L optmum étant mpossbe à détermner anaytquement on utse des technques numérques. La pus smpe correspond à a descente de gradent présentée en annexe. Nous aons déveopper dans a sute de ce paragraphe cette méthode appquée à un réseau à deux couches. Pour mter es rsques de confuson, commençons par expcter nos notatons : - n0 : nombre d entrées - n1 : nombre de neurones de a couche cachée - n2 : nombre de neurones de a couche de sorte - x : entrées du réseau avec = 0,,n0-1 - h : sortes de a couche cachée avec = 0,,n1-1 - y : sortes du réseau avec = 0,,n2-1 - w 1 : pods de a couche cachée avec = 0,,n1-1 et = 0,,n0 - w 2 : pods de a couche de sorte avec = 0,,n2-1 et = 0,,n1 2 S. Tsserant Eéments de Statstque 2009 7-5
- f1 : foncton d actvaton de a couche cachée - f2 : foncton d actvaton de a couche de sorte - v 1 : sommes pondérées de a couche cachée avec = 0,,n1-1 - v 2 : sommes pondérées de a couche de sorte avec = 0,,n2-1 - d : sortes attendues pour un événement d apprentssage avec = 0,,n2-1 Avec ces notatons nous avons pour es sortes de a couche cachée (0 < n1) : et n0 v1 w1 x avec xn0 0 h f1 v1 1 De même pour es sortes du réseau (0 < n2) : et L erreur quadratque s écrt : n1 v2 w2 h avec hn 1 1 0 E y f 2 v2 1 2 n2 1 2 y d 0 Commençons par optmsaton des pods de a couche de sorte. Cacuons e gradent de E par rapport à ces pods : Or : Avec : Ce qu nous donne : v 2 n2 1 E y y d w2 w2 0 y v2 y f 2 v2 f 2' v2 w2 w2 n1 0 w2 h v2 w2 v2 w2 0 h s S. Tsserant Eéments de Statstque 2009 7-6
Ce que nous pouvons écrre : E w2 E w2 2 h y d f 2' v2 h avec 2 y d f 2' v2 Cette dérvée s écrt comme e produt d une entrée (pour a couche de sorte) h et d un terme 2 fasant ntervenr écart entre es sortes obtenue et attendue ans que a dérvée de a foncton d actvaton de a couche de sorte. La correcton à appquer à chacun des pods de cette couche est aors : w2 E w2 2 h où e paramètre est e paramètre d apprentssage. Cacuons mantenant e gradent par rapport aux pods de a couche cachée : Or : n2 1 E y y d w1 w1 0 y v2 y f 2 v2 f 2' v2 w1 w1 n1 n1 v2 h v 2 w2 h w2 w1 0 w1 0 Avec : v 1 h v1 h f1 v1 f1' v1 w1 w1 n0 m 0 w1 m x m v1 w1 v1 w1 0 x s En reportant dans es expressons précédentes vent : S. Tsserant Eéments de Statstque 2009 7-7
Ce qu donne : Donc : Sot pour e gradent : E w1 E w1 h w1 h w1 v2 w1 y f 2' w1 n2 1 0 n2 1 0 0 s f1' v1 w2 x f1' v1 x v2 w2 f1' v1 x y d f 2' v2 w2 f1' v1 x y d f 2' v2 w2 f1' v1 x Nous retrouvons es quanttés 2 ntrodutes pus haut dans expresson du gradent par rapport aux pods de a couche de sortes. Ce qu nous permet d écrre : E w1 n2 1 0 2 w2 f1' v1 x Nous pouvons écrre cette dérvée sous une forme smare à cee obtenue pour a couche de sorte : n2 1 E 1 x avec 1 2 w2 f1' v1 w1 0 Nous en dédusons a correcton à appquer à chacun des pods de a couche cachée : w1 E w1 1 x La méthode se générase à un nombre queconque de couches cachées. Les correctons des pods peuvent ans se cacuer de couche en couche en commençant par a couche de sorte. Cet agorthme est souvent appeé rétropropagaton des erreurs. S. Tsserant Eéments de Statstque 2009 7-8
B.3. Un exempe de cassfcaton non néare Pour ustrer es capactés d un réseau de neurone nous avons réasé une smuaton smpe. Cee-c consste en un trage unforme sur une surface carrée au centre de aquee nous avons défn deux cerces concentrques. A ntéreur du cerce de pus pett rayon es événements sont de type 1 aors qu s sont du type 2 à extéreur de autre cerce. Dans a couronne ntermédare e type de chaque événement est aéatore avec une probabté varant néarement en foncton du rayon, pour assurer une contnuté entre es deux zones pures. La fgure 7-6 vsuase e ot d apprentssage comptant 6000 trages. Fg. 7-6 : Lot d apprentssage Ces événements ont été utsés pour entraner un réseau de neurones artfces comprenant une couche cachée de 10 neurones et un neurone de sorte. Ces onze neurones ont tous pour foncton d actvaton une sgmoïde. Les entrées du réseau correspondent évdemment aux deux coordonnées dans e pan. La sorte attendue est 1 pour des événements de type 1 et 0 pour e type 2. La phase d apprentssage a perms de défnr tous es pods. Ceux-c peuvent ensute être utsés pour prédre e type de tout événement. La fgure 7-7 présente a sorte du réseau de neurones après apprentssage en foncton des coordonnées dans e pan. Le code de coueur ndqué sur a drote de a fgure correspond à a sorte du réseau de neurone. Les deux cerces utsés ors du trage sont ndqués, ce qu permet de vérfer e bon fonctonnement même s es zones ne sont pas parfatement crcuares. La cassfcaton pourra se fare en défnssant un seu sur a sorte du réseau de neurones. La fgure 7-8 présente es dstrbutons de cette sorte pour es événements d apprentssage. Ces dstrbutons sont reatvement ben pquées, vers 1 pour es événements de type 1 et vers 0 pour autre type. Le seu peut être défn à ade de ces dstrbutons en chosssant par exempe d un nveau de confance pour un type d événements. S. Tsserant Eéments de Statstque 2009 7-9
Fg. 7-7 : Sorte du réseau de neurone en foncton des coordonnées. Fg. 7-8 : Dstrbuton de a sorte du réseau de neurone pour es événements d apprentssage de type 1 en rouge et de type 2 en beu. Lorsque es événements se répartssent dans Q casses est possbe d utser un réseau comportant Q-1 neurones en sorte pour es casser. Chacune des sortes sert à dentfer (dépassement d un seu) une casse. Les événements pour esques aucune sorte ne dépasse son seu sont rangés dans a dernère casse. I exste un autre type d appcatons des réseaux de neurones artfces qu nous concerne en anayse de données, s agt de approxmaton de fonctons. S. Tsserant Eéments de Statstque 2009 7-10
C. Approxmaton de fonctons Le prncpe de approxmaton de fonctons avec un réseau de neurones repose sur e théorème de Cybeno. Pour toute foncton f(x) réee défne sur un compact de R n et pour tout rée postf exste une foncton F(x) défne par : tee que : F( x ) N 1 w T f ( x ) F( x) x sur e domane de défnton de f. La foncton désgne une sgmoïde et es paramètres, w et sont des rées. Ans queque sot a précson recherchée est possbe de représenter toute foncton par un réseau de neurones artfces ayant une couche cachée, a foncton d actvaton étant une sgmoïde pour ces neurones et néare pour e neurone de sorte. Le théorème ne permet pas de précser a pror e nombre de neurones dans a couche cachée. Fg. 7-9 : Approxmaton d une foncton par un réseau de neurones. La fgure 7-9 correspond à approxmaton de a foncton snus cardna entre 0 et 20. La courbe verte représente snc(x) et es cerces matérasent es ponts utsés pour apprentssage. Le réseau utsé c comporte 10 neurones dans a couche cachée. La courbe nore vsuase a sorte du réseau de neurones. Ee se superpose parfatement à a courbe théorque. S. Tsserant Eéments de Statstque 2009 7-11