Réseaux d ondelettes et réseaux de neurones pour la modélisation statique et dynamique de processus

Transcription

1 Réseaux d odelettes et réseaux de euroes pour la modélisatio statique et dyamique de processus Yacie Oussar To cite this versio: Yacie Oussar. Réseaux d odelettes et réseaux de euroes pour la modélisatio statique et dyamique de processus. domai other. Uiversité Pierre et Marie Curie - Paris VI, Frech. <pastel > HAL Id: pastel Submitted o 23 Apr 2004 HAL is a multi-discipliary ope access archive for the deposit ad dissemiatio of scietific research documets, whether they are published or ot. The documets may come from teachig ad research istitutios i Frace or abroad, or from public or private research ceters. L archive ouverte pluridiscipliaire HAL, est destiée au dépôt et à la diffusio de documets scietifiques de iveau recherche, publiés ou o, émaat des établissemets d eseigemet et de recherche fraçais ou étragers, des laboratoires publics ou privés.

2 THÈSE de DOCTORAT de l UNIVERSITÉ PIERRE ET MARIE CURIE Spécialité : ROBOTIQUE présetée par Yacie OUSSAR pour obteir le titre de DOCTEUR de l UNIVERSITÉ PARIS VI Sujet de la thèse : Réseaux d odelettes et réseaux de euroes pour la modélisatio statique et dyamique de processus. Souteue le 06 Juillet 1998 devat le jury suivat : Mme S. THIRIA Rapporteur M. S. CANU Rapporteur M. G. DREYFUS Examiateur M. P. GALLINARI Examiateur M. S. KNERR Examiateur M. L. PERSONNAZ Examiateur

3 A mo Père, ma Mère et Zia.

4 Me teat comme je suis, u pied das u pays et l autre e u autre, je trouve ma coditio très heureuse, e ce qu elle est libre. Reé Descartes (Lettre à la pricesse Elisabeth de Bohême, Paris 1648).

5 Avat d itégrer le laboratoire d Électroique de l ESPCI, je coaissais Mosieur le Professeur Gérard DREYFUS de réputatio. Je e savais pas alors que j aurais u jour la chace de meer mo travail de thèse au sei de so équipe. Mes plus vifs remerciemets sot doc adressés au Professeur Gérard DREYFUS qui m a témoigé de sa cofiace e m accueillat das so laboratoire. Au cours de ces aées de thèse, sa dispoibilité sas faille, so suivi, so souci de la valorisatio des travaux accomplis, so calme iébralable devat les difficultés, ot beaucoup cotribué à l aboutissemet de ce travail de thèse. Qu il trouve ici toute ma recoaissace. Mosieur Léo PERSONNAZ, Maître de Coféreces, a guidé mes premiers pas das la recherche e ecadrat mes deux premières aées de thèse. Je resterai toujours impressioé par sa rigueur et so ses de la critique. Je ties à lui exprimer mes remerciemets pour ses relectures de mo mémoire et ses remarques. Pedat ces aées de thèse, Mademoiselle Isabelle RIVALS, Maître de Coféreces, et moi avos partagé le même bureau, ce qui m a permis à plusieurs reprises de bééficier de ses coaissaces. Je dois la remercier pour sa grade dispoibilité. J adresse de vifs remerciemets à Madame le Professeur Sylvie THIRIA, qui a accepté d examier mo mémoire de thèse, et qui a maifesté so itérêt pour mo travail. Je ties à exprimer ma recoaissace à Mosieur le Professeur Stéphae CANU pour avoir examié mo mauscrit avec beaucoup d attetio. Ses remarques costructives m ot permis d améliorer la versio fiale de mo mémoire. Je suis très hooré que Mosieur le Professeur Patrick GALLINARI ait accepté de cosacrer u peu de so temps, e cette période chargée de l'aée, pour faire partie de mo jury. Je ties à remercier égalemet Mosieur Stefa KNERR d avoir égalemet accepté d être membre de mo jury, effectuat aisi u "retour aux sources" e dépit de ses ombreuses activités. Au cours de ces aées de thèse au laboratoire d Électroique, j ai eu la chace de côtoyer Brigitte QUENET, Maître de Coféreces, dot l amitié et le

6 soutie m ot beaucoup apporté. Mo travail a bééficié de ses coseils et de ses ecouragemets. Commet aurais-je pu m iitier aux systèmes iformatiques e réseau sas la précieuse aide de Pierre ROUSSEL, Maître de Coféreces, qui grâce à so admiistratio rigoureuse des ressources iformatiques du laboratoire, ous assure ue boe dispoibilité des statios de travail? J ai beaucoup apprécié so ses de l humour et sa covivialité. Au travers de ombreuses discussios avec Hervé STOPPIGLIA, j ai beaucoup appris sur les techiques de sélectio utilisées das ce mémoire. Je l e remercie vivemet. Je voudrais adresser ici ma profode recoaissace à u acie membre du laboratoire d électroique qui par sa sympathie, so aide et ses ecouragemets a suscité e moi u véritable setimet fraterel. C est de Domiique URBANI que je veux parler... Merci Doumé! J adresse efi ma plus vive recoaissace à Moique et Fraçois Zwobada qui sot deveus ma famille fraçaise.

7 TABLE DES MATIÈRES Itroductio 1 CHAPITRE I. Modélisatio de processus et estimatio des paramètres d u modèle 5 CHAPITRE II. Réseaux de foctios dorsales 27 CHAPITRE III. Réseaux d odelettes (approche fodée sur la trasformée cotiue) 46 CHAPITRE IV. Réseaux d odelettes (approche fodée sur la trasformée discrète) 88 CHAPITRE V. Étude de quelques exemples 115 Coclusio 137 Bibliographie 141 Aexe A 151 Aexe B 166

8 TABLE DES MATIÈRES DÉTAILLÉE Itroductio 1 CHAPITRE I. Modélisatio de processus et estimatio des paramètres d u modèle 5 I. INTRODUCTION. 6 II. DÉFINITION D UN PROCESSUS ET D UN MODÈLE. 6 II.1 Processus. 6 II.2 Modèles. 6 II.2.1 Qu est ce qu u modèle? 6 II.2.2 Buts d ue modélisatio. 6 II.2.3 Classificatio des modèles. 7 II Classificatio selo le mode de coceptio. 7 II Classificatio selo l utilisatio. 8 III. LES ÉTAPES DE LA CONCEPTION D UN MODÈLE. 9 III.1 Choix d u modèle-hypothèse. 9 III.2 Du modèle-hypothèse au prédicteur ou au simulateur. 11 III.3 Présetatio de quelques modèles-hypothèses et de leurs prédicteurs associés. 11 III.3.1 Modèle-hypothèse détermiiste. 12 III.3.2 Modèles-hypothèses o détermiistes. 12 III L hypothèse Bruit de sortie. 13 III L hypothèse Bruit d état. 13 IV. FONCTIONS PARAMÉTRÉES POUR LA MODÉLISATION "BOÎTE NOIRE". 14 IV.1 Les foctios paramétrées liéaires par rapport aux paramètres. 14 IV.2 Les foctios paramétrées o liéaires par rapport aux paramètres. 15 IV.2.1 Les réseaux de euroes. 15 IV.2.2 Les réseaux de foctios radiales (RBF pour Radial Basis Fuctios). 16 IV.2.3 Les réseaux d odelettes. 17 V. ESTIMATION DES PARAMÈTRES D UN MODÈLE. 17

9 V.1 Positio du problème et otatios. 17 V.2 Les algorithmes de miimisatio de la foctio de coût. 18 V.2.1 Méthode des moidres carrés ordiaires. 18 V.2.2 Pricipe des algorithmes de gradiet. 19 V.2.3 La méthode du gradiet simple. 21 V Présetatio de la méthode. 21 V Techiques de réglage du pas. 21 V.2.4 Les méthodes de gradiet du secod ordre. 21 V L algorithme de BFGS. 22 V L algorithme de Leveberg Marquardt. 23 V.3 Commetaire. 26 VI. CONCLUSION 26 CHAPITRE II. Réseaux de foctios dorsales 27 I. INTRODUCTION. 28 II. NEURONES FORMELS À FONCTIONS DORSALES ET RÉSEAUX. 28 II.1 Qu est ce qu u euroe formel? 28 II.2 Qu'est-ce qu'u euroe formel à foctio dorsale? 28 II.3 Qu est ce qu u réseau de euroes? 29 II.4 Réseaux o bouclés et réseaux bouclés. 30 II.4.1 Les réseaux o bouclés. 30 II.4.2 Les réseaux bouclés. 30 II.5 Réseaux o bouclés complètemet coectés et réseaux à couches. 31 II.5.1 Les réseaux o bouclés complètemet coectés. 31 II.5.2 Les réseaux o bouclés à couches. 31 II.5.3 Les réseaux mis e œuvre das ce travail. 35 III. CHOIX DE LA FONCTION D ACTIVATION ET PROPRIÉTÉ D APPROXIMATION UNIVERSELLE. 33 III.1 La foctio sigmoïde. 34 III.2 La foctio gaussiee. 34 IV. APPRENTISSAGE DES RÉSEAUX DE FONCTIONS DORSALES. 35

10 IV.1 Appretissage de réseaux o bouclés. 35 IV.2 Appretissage de réseaux bouclés. 36 IV.3 Iitialisatio du réseau et miima locaux. 36 IV.4 Autres schémas d appretissage pour les réseaux de foctios dorsales. 37 V. ANALYSE D UN RÉSEAU DE FONCTIONS DORSALES. 37 V.1 Pricipe. 37 V.2 Élagage de poids syaptiques. 37 V.3 Ue procédure pour la détectio de euroes à foctios gaussiees mal utilisés. 38 V.4 Étude d u exemple. 41 VI. MODÉLISATION DYNAMIQUE DE PROCESSUS À L AIDE DE RÉSEAUX DE FONCTIONS DORSALES. 43 VI.1 Modélisatio etrée sortie. 43 VI.1.1 Prédicteurs o bouclé. 43 VI.1.2 Prédicteur bouclé. 44 VI.2 Modélisatio d état. 44 VII. CONCLUSION. 45 CHAPITRE III. Réseaux d odelettes (approche fodée sur la trasformée cotiue) 46 I. INTRODUCTION. 47 II. RÉSEAUX ISSUS DE LA TRANSFORMÉE EN ONDELETTES CONTINUE. 48 II.1 La trasformée e odelettes cotiue. 48 II.2 De la trasformée iverse aux réseaux d odelettes. 50 III. DÉFINITION DES ONDELETTES MULTIDIMENSIONNELLES ET DES RÉSEAUX D'ONDELETTES. 51 III.1 Odelettes multidimesioelles. 51 III.2 Réseaux d'odelettes. 51 III.3 Réseaux d'odelettes et réseaux de euroes. 54

11 IV. APPRENTISSAGE DES RÉSEAUX D ONDELETTES NON BOUCLÉS. 55 IV.1 Calcul du gradiet de la foctio de coût. 55 IV.2 Iitialisatio des paramètres du réseau. 57 IV.3 Exemple de modélisatio statique. 59 IV.3.1 Présetatio du processus simulé. 59 IV.3.2 Modélisatio avec 100 exemples. 59 IV.3.3 Modélisatio avec 300 exemples. 61 IV.3.4 Ifluece des termes directs 62 IV.3.5 Quelques figures. 63 V. MODÉLISATION DYNAMIQUE ENTRÉE SORTIE ET RÉSEAUX D ONDELETTES. 64 V.1 Appretissage de réseaux de type etrée-sortie. 65 V.1.1 Appretissage de prédicteurs o bouclés. 65 V.1.2 Appretissage de prédicteurs bouclés. 65 V.1.3 Calcul du gradiet par rétropropagatio. 67 V.1.4 Calcul du gradiet das le ses direct. 68 V.2 Exemple. 70 V.2.1 Présetatio du processus. 70 V.2.2 Étude du gai statique. 70 V.2.3 Modélisatio du processus. 71 VI. MODÉLISATION D ÉTAT ET RÉSEAUX D ONDELETTES. 72 VI.1 Modèles d'état sas bruit, avec états o mesurables. 73 VI.2 Appretissage de réseaux d état bouclés. 73 VI.2.1 Structure du réseau d état. 73 VI.2.2 Calcul du gradiet par rétropropagatio. 76 VI Calcul du gradiet de J par rapport à la sortie et aux variables d état. 76 VI Calcul du gradiet de J par rapport aux paramètres du réseau. 77 VI Commetaire sur le choix des variables d état. 79 VI.2.3 Calcul du gradiet das le ses direct. 79 VI.2.4 Iitialisatio des paramètres du réseau. 81 VII. LE PROBLÈME MAÎTRE ÉLÈVE ET LES RÉSEAUX D'ONDELETTES. 82 VII.1 Miima locaux de la foctio de coût. 83 VII.2 Choix de la séquece d appretissage. 84

12 VII.3 Choix du domaie des etrées et des paramètres du réseau maître. 84 VII.4 Choix de l algorithme et de l iitialisatio du réseau. 85 VII.5 Approche adoptée pour l étude du problème. 85 VII.6 Résultats et commetaires. 85 VIII. CONCLUSION. 86 CHAPITRE IV. Réseaux d odelettes (approche fodée sur la trasformée discrète) 88 I. INTRODUCTION. 89 II. RÉSEAUX ISSUS SUR LA TRANSFORMÉE EN ONDELETTES DISCRÈTE. 89 II.1 Structures obliques et bases d odelettes orthoormales. 90 II.1.1 Odelettes à variables cotiues. 90 II.1.2 Odelettes à variables discrètes. 92 II.1.3 Choix de l'odelette mère. 93 II.2 Réseaux fodés sur la trasformée discrète. 94 III. TECHNIQUES DE CONSTRUCTION DE RÉSEAUX D ONDELETTES. 95 III.1 Impossibilité d utiliser les techiques de gradiet. 95 III.2 Différetes approches pour costruire u réseau d odelettes fodé sur la trasformée discrète. 95 III.2.1 Approches utilisat pas de procédure de sélectio. 95 III Techique fodée sur l aalyse fréquetielle. 95 III Techique fodée sur la théorie des odelettes orthogoales. 96 III Réseaux d odelettes pour u système adaptatif. 96 III.2.2 Approches utilisat ue procédure de sélectio. 97 III Techique fodée sur la costructio de structures obliques étroites. 97 IV. PROPOSITION D UNE PROCÉDURE DE CONSTRUCTION DE RÉSEAUX ET D'INITIALISATION DE L'APPRENTISSAGE. 97 IV.1 Descriptio de la procédure de costructio de la bibliothèque. 98 IV.1.1 Famille egedrat la bibliothèque pour u modèle à ue etrée. 98 IV.1.2 Cas des bibliothèques pour modèles à plusieurs etrées. 100 IV.2 La méthode de sélectio. 100

13 IV.2.1 Pricipe de la méthode de sélectio par orthogoalisatio. 100 IV.2.2 Cas des termes directs. 102 IV.3 La procédure de costructio du réseau. 102 IV.3.1 Présetatio de la procédure de costructio. 102 IV.3.2 Avatages et icovéiets de cette approche. 103 IV.4 Autre applicatio de la procédure : iitialisatio des traslatios et dilatatios pour l appretissage de réseaux d'odelettes à paramètres cotius. 104 IV.4.1 Pricipe de la procédure d iitialisatio. 104 IV.4.2 Avatages et icovéiets de cette méthode d iitialisatio. 105 V. ÉTUDE D EXEMPLES. 105 V.1 Exemple de costructio de réseaux à l'aide de la procédure de sélectio. 105 V.1.1 Présetatio du processus. 105 V.1.2 Costructio d u modèle dyamique à l aide de la procédure. 106 V Modélisatio dyamique sas bruit du processus simulé. 107 V Modélisatio dyamique avec bruit du processus simulé. 107 V Coclusio. 108 V.2 Exemple d'iitialisatio des traslatios et des dilatatios de réseaux à l'aide de la procédure de sélectio. 108 V.2.1 Processus V Présetatio du processus. 108 V Iitialisatio de réseaux à l aide de la procédure de sélectio. 109 V.2.2 Processus VI. CONCLUSION. 113 CHAPITRE V. Étude de quelques exemples 115 I. INTRODUCTION. 116 II. MODÉLISATION DE PROCESSUS SIMULÉS. 117 II.1 Présetatio du processus simulé sas bruit. 117 II.2 Modélisatio du processus simulé o bruité. 118 II.2.1 Réseau prédicteur à foctios odelettes. 119 II Appretissage avec l algorithme de BFGS. 119 II Appretissage avec l algorithme de Leveberg Marquardt. 120

14 II.2.2 Réseau prédicteur à foctios dorsales. 120 II Appretissage avec l algorithme de BFGS. 121 II Appretissage avec l algorithme de Leveberg Marquardt. 121 II.3 Modélisatio du processus simulé avec bruit. 122 II.3.1 Modélisatio du processus simulé avec bruit additif de sortie. 123 II.3.2 Modélisatio du processus simulé avec bruit d état additif. 124 II.4 Coclusio. 124 III. MODÉLISATION D UN PROCESSUS RÉEL. 124 III.1 Présetatio du processus. 125 III.2 Modélisatio etrée sortie. 126 III.2.1 Réseau prédicteur à foctios odelettes. 126 III Appretissage avec l algorithme de BFGS. 126 III Appretissage avec l algorithme de Leveberg Marquardt. 127 III Fréquece d'occurrece du meilleur résultat. 128 III.2.2 Réseau prédicteur à foctios dorsales. 129 III Appretissage avec l algorithme de BFGS. 129 III Appretissage avec l algorithme de Leveberg Marquardt. 130 III Fréquece d'occurrece du meilleur résultat. 130 III.2.3 Coclusio de la modélisatio etrée sortie. 131 III.3 Modélisatio d état. 132 III.3.1 Réseau prédicteur d'état à foctios d odelettes. 133 III.3.2 Réseau prédicteur d'état à foctios dorsales. 134 III.3.3 Réseau prédicteur d état à foctios dorsales dot la sortie est l u des états. 134 III.3.4 Coclusio de la modélisatio d état. 135 IV. CONCLUSION. 136 Coclusio 137 Bibliographie 141 Aexe A 151 Aexe B 166

15 Itroductio

16 Itroductio Grâce aux résultats théoriques et pratiques obteus au cours des derières aées, les réseaux de euroes sot deveus u outil de plus e plus utilisé das divers domaies (idustrie, baque, services). Ils demeuret toutefois u sujet d u grad itérêt pour les chercheurs qui désiret améliorer les performaces de ces réseaux et étedre leur champ d applicatios. La propriété fodametale des réseaux de euroes, l approximatio uiverselle parcimoieuse, fait de ceux-ci ue représetatio mathématique très avatageuse pour la modélisatio statique et dyamique o liéaire de processus. L'utilisatio de euroes sigmoïdaux était iitialemet justifiée par ue aalogie biologique ; mais celle-ci est deveue caduque pour la coceptio de systèmes de traitemet de sigaux ou de modélisatio de processus. Il est doc légitime d'explorer les possibilités d'utilisatio d'autres types de euroes [Sotag93]. Cet effort de recherche d ue alterative aux réseaux de euroes "classiques" s est tout d abord dirigé vers les réseaux de foctios radiales, e particulier gaussiees. Ils ot otammet été mis e œuvre e Automatique o liéaire : modélisatio de processus et commade. Les techiques de costructio de ces réseaux aboutisset gééralemet à des modèles peu parcimoieux. E revache, ils possèdet des propriétés plus itéressates que les réseaux de euroes pour la sythèse de lois de commades stables [Saer92]. Récemmet, des familles de foctios, issues du traitemet du sigal et de l image, appelées odelettes ot été utilisées pour résoudre des problèmes d approximatio de foctios [Pati93, Zhag92]. Ces odelettes sot plus compliquées que les foctios utilisées pour les réseaux de euroes classiques. E revache, elles possèdet quelques propriétés prometteuses pour la modélisatio de processus. L objectif pricipal de ce travail était doc l étude de la mise e œuvre des foctios odelettes pour la modélisatio statique (qui avait déjà été abordée par d'autres auteurs), et pour la modélisatio dyamique de processus (qui, à otre coaissace, 'avait jamais été étudiée). Nous avos cosidéré deux approches issues de la trasformée e odelettes : L approche fodée sur la trasformée cotiue, très proche de celle des réseaux de euroes classiques, dot ous ous ispiros pour mettre au poit ue méthodologie de costructio de réseaux 2

17 Itroductio d odelettes. Elle permet d evisager des réseaux bouclés (que ous proposos das ce mémoire) et o bouclés. L approche fodée sur la trasformée discrète, propre aux foctios odelettes, qui permet de tirer parti des propriétés et des spécificités de ces foctios pour la mise au poit de procédures origiales pour l appretissage de réseaux d odelettes. Parmi les résultats théoriques cocerat les bases de foctios odelettes, il a été prouvé que cette famille de foctios possède la propriété d approximatio uiverselle. E revache, il existe pas de résultat équivalet à celui des réseaux de euroes cocerat la propriété de parcimoie. De ce fait, et sur la base des exemples que ous étudios cojoitemet avec des réseaux d odelettes et de euroes sigmoïdaux, ous ous proposos de faire ue évaluatio de la parcimoie des réseaux d odelettes. De plus, ous avos systématiquemet utilisé, pour l'estimatio des paramètres des réseaux que ous avos mis e œuvre, deux algorithmes d optimisatio du secod ordre : l algorithme de BFGS et celui de Leveberg Marquardt. Le premier a été largemet utilisé pour l appretissage de réseaux bouclés et o bouclés. E revache, des résultats sur l utilisatio du secod pour l appretissage de réseaux bouclés sot, à otre coaissace, totalemet absets de la littérature cosacrée aux réseaux de euroes. Nous avos doc systématiquemet cherché à comparer les résultats obteus à l'aide de ces algorithmes, sous divers poits de vue. Le chapitre I du préset mémoire est cosacré à des défiitios et rappels cocerat la modélisatio, statique et dyamique de processus ; ous présetos otammet des cosidératios méthodologiques pour la costructio de modèles "boîte oire", que ous avos mises e œuvre tout au log de ce travail. Cette approche s'iscrit das la cotiuité de travaux atérieurs effectués au sei du laboratoire [Nerrad92, Rivals95a, Urbai95]. Nous décrivos esuite les algorithmes d optimisatio employés pour l estimatio des paramètres des réseaux de foctios, qu'il s'agisse de euroes à foctios dorsales ou d odelettes fodées sur la trasformée cotiue. Le chapitre II présete les réseaux de euroes classiques que ous avos mis e œuvre pour la modélisatio statique et dyamique de processus. Nous cosidéros deux types de foctios dorsales : la foctio tagete hyperbolique, exemple de sigmoïde (qui est la brique des réseaux classiques), et la foctio gaussiee. 3

18 Itroductio Pour cette derière, ous proposos ue procédure agissat e cours d appretissage, qui permet d améliorer l utilisatio de chacu des euroes. Ces cosidératios sot illustrées par u exemple. Le chapitre III est cosacré aux réseaux d odelettes fodés sur la trasformée cotiue. Après ue brève présetatio des foctios odelettes, ous proposos des algorithmes d appretissage de réseaux d odelettes bouclés pour ue modélisatio etrée sortie et d état. Les résultats présetés das ce chapitre ot été publiés partiellemet das u article accepté pour publicatio das la revue Neurocomputig [Oussar98], reproduit e aexe de ce mémoire. Le chapitre IV aborde la modélisatio de processus par des réseaux d odelettes fodés sur la trasformée discrète. La particularité des bases d odelettes utilisées das ce cotexte e permet pas d appretissage fodé sur ue techique de gradiet. De ce fait, la costructio de ces réseaux est effectuée à l aide de méthodes de sélectio das ue bibliothèque d odelettes. Nous proposos das ce chapitre ue procédure qui met e œuvre ces bases d odelettes pour iitialiser les coefficiets de réseaux fodés sur la trasformée cotiue, avat l'appretissage de ceux-ci. Les cosidératios développées das les chapitres précédets sot appliquées, das le chapitre V, à la modélisatio d u processus simulé, et d u processus réel. Nous présetos d abord les résultats obteus avec des réseaux bouclés de foctios dorsales et d odelettes. Esuite, ous cofrotos les performaces réalisées par deux algorithmes du secod ordre sur les deux types de réseaux. 4

19 CHAPITRE I Modélisatio de processus et estimatio des paramètres d u modèle

20 Modélisatio de processus et estimatio des paramètres d u modèle I. INTRODUCTION. Das la première partie de ce chapitre, ous rappelos les otios de processus et de modèle, aisi que divers termes utilisés fréquemmet das le cadre de la modélisatio. Das la secode partie, ous aborderos le problème de l estimatio des paramètres d u modèle et ous préseteros les algorithmes qui ot été utilisés das otre travail. II. DÉFINITION D UN PROCESSUS ET D UN MODÈLE. II.1 Processus. U processus est caractérisé par : ue ou plusieurs gradeurs de sortie, mesurables, qui costituet le résultat du processus, ue ou plusieurs gradeurs d'etrée (ou facteurs), qui peuvet être de deux types : - des etrées sur lesquelles il est possible d'agir (etrées de commade), - des etrées sur lesquelles il 'est pas possible d'agir (perturbatios) ; ces derières peuvet être aléatoires ou détermiistes, mesurables ou o mesurables. Les processus peuvet être de toutes atures : physique, chimique, biologique, écologique, fiacier, sociologique, etc. II.2 Modèles. II.2.1 Qu est ce qu u modèle? Nous ous itéressos ici aux modèles mathématiques, qui représetet les relatios etre les etrées et les sorties du processus par des équatios. Si ces équatios sot algébriques, le modèle est dit statique. Si ces équatios sot des équatios différetielles ou des équatios aux différeces récurretes, le modèle est dit dyamique, respectivemet à temps cotiu ou à temps discret. U modèle est caractérisé par so domaie de validité, c'est-à-dire par le domaie de l'espace des etrées das lequel l'accord etre les valeurs des sorties du processus calculées par le modèle, et leurs valeurs mesurées, est cosidéré comme satisfaisat compte teu de l'utilisatio que l'o fait du modèle. II.2.2 Buts d ue modélisatio. U modèle peut être utilisé soit 6

21 Modélisatio de processus et estimatio des paramètres d u modèle pour simuler u processus : à des fis pédagogiques, de détectio d'aomalies de foctioemet, de diagostic de paes, de coceptio assistée par ordiateur, etc., pour effectuer la sythèse d'ue loi de commade, ou pour être icorporé das u dispositif de commade. II.2.3 Classificatio des modèles. II Classificatio selo le mode de coceptio. O distigue trois sortes de modèles e foctio des iformatios mises e jeu pour leur coceptio : Les modèles de coaissace : les modèles de coaissace sot costruits à partir d ue aalyse physique, chimique, biologique (ou autre suivat le type du processus), e appliquat soit les lois géérales, fodées sur des pricipes (lois de la mécaique, de l'électromagétisme, de la thermodyamique, de la physique quatique, etc.), soit les lois empiriques (fiace, écoomie), qui régisset les phéomèes iterveat au sei des processus étudiés. Ces modèles e comportet gééralemet pas de paramètres ajustables, ou des paramètres ajustables e très petit ombre. Das la pratique, il est toujours souhaitable d'établir u modèle de coaissace des processus que l'o étudie. Néamois, il arrive fréquemmet que le processus soit trop complexe, ou que les phéomèes qui le régisset soiet trop mal cous, pour qu'il soit possible d'établir u modèle de coaissace suffisammet précis pour l'applicatio cosidérée. O est alors ameé à cocevoir des modèles puremet empiriques, fodés exclusivemet sur les résultats de mesures effectuées sur le processus. Les modèles boîte oire : les modèles boîte oire sot costruits essetiellemet sur la base de mesures effectuées sur les etrées et les sorties du processus à modéliser. La modélisatio cosiste alors à utiliser, pour représeter les relatios etre les etrées et les sorties, des équatios (algébriques, différetielles, ou récurretes) paramétrées, et à estimer les paramètres, à partir des mesures dispoibles, de maière à obteir la meilleure précisio possible avec le plus petit ombre possible de paramètres ajustables. Das ce mémoire, ous désigeros fréquemmet l'estimatio des paramètres sous le terme d'appretissage. 7

22 Modélisatio de processus et estimatio des paramètres d u modèle Le domaie de validité d'u tel modèle e peut pas s'étedre au-delà du domaie des etrées qui est représeté das les mesures utilisées pour l'appretissage. Les modèles boîte grise : lorsque des coaissaces, exprimables sous forme d'équatios, sot dispoibles, mais isuffisates pour cocevoir u modèle de coaissace satisfaisat, o peut avoir recours à ue modélisatio "boîte grise" (ou modélisatio semi-physique) qui pred e cosidératio à la fois les coaissaces et les mesures. Ue telle démarche peut cocilier les avatages de l'itelligibilité d'u modèle de coaissace avec la souplesse d'u modèle comportat des paramètres ajustables. II Classificatio selo l utilisatio. Idépedammet de la classificatio précédete, o peut distiguer deux types de modèles e foctio de l'utilisatio qui e est faite. Les modèles de simulatio (ou simulateurs) : u modèle de simulatio est utilisé de maière idépedate du processus qu il représete. Il doit doc posséder u comportemet aussi semblable que possible à celui du processus. De tels modèles sot utilisés pour valider la coceptio d'u système avat sa fabricatio (coceptio assistée par ordiateur e mécaique, e microélectroique,...), pour la formatio de persoels (simulateurs de vols), pour la prévisio à log terme, etc. Du poit de vue de la structure du modèle, les sorties passées, mesurées sur le processus à modéliser, e peuvet costituer des etrées du modèle. L'estimatio des paramètres et l'utilisatio du modèle costituet deux phases successives et distictes (appretissage o adaptatif). Les modèles de prédictio (ou prédicteurs) : u modèle de prédictio est utilisé e parallèle avec le processus dot il est le modèle. Il prédit la sortie du processus à ue échelle de temps courte devat les costates de temps du processus. Les prédicteurs sot utilisés pour la sythèse de lois de commade, ou das le système de commade lui-même (commade avec modèle itere). Du poit de vue de la structure du modèle, les sorties passées, mesurées sur le processus, peuvet costituer des etrées du modèle. L'estimatio des paramètres et l'utilisatio du modèle peuvet être effectuées simultaémet si écessaire (appretissage adaptatif, utile otammet si les caractéristiques du processus dérivet das le temps). 8

23 Modélisatio de processus et estimatio des paramètres d u modèle Ce mémoire présete la mise e oeuvre de plusieurs types de réseaux de foctios paramétrées pour la modélisatio dyamique de processus, et la comparaiso de leurs performaces respectives. Il s'agira doc exclusivemet de modèles de type boîte oire qui peuvet être utilisés idifféremmet comme simulateurs ou comme prédicteurs. III. LES ÉTAPES DE LA CONCEPTION D UN MODÈLE. Lors de la coceptio d u modèle de coaissace, la relatio etre les etrées et la (ou les) sortie(s) du modèle découlet directemet de la mise e équatio des phéomèes physiques (chimiques, ou autres) qui régisset le foctioemet du processus. Ue fois le modèle obteu sous forme aalytique, des approximatios peuvet être faites pour simplifier so expressio (par exemple "liéariser" le modèle pour passer d'u modèle o liéaire à u modèle liéaire) si ue telle approximatio est justifiée. Das le cas d ue modélisatio de type boîte oire, la costructio du modèle écessite les trois élemets suivats : Ue hypothèse sur l existece d ue relatio détermiiste liat les etrées à la (ou aux) sortie(s). Cette relatio est caractérisée par ue foctio appelée foctio de régressio (ou plus simplemet régressio). L'expressio formelle supposée adéquate pour représeter cette relatio est appelée modèlehypothèse. Ue séquece de mesures des etrées et de la sortie du processus. U algorithme d appretissage. Das la suite de ce paragraphe, ous présetos les différets aspects qui doivet être pris e cosidératio lors du choix d u modèle-hypothèse. III.1 Choix d u modèle-hypothèse. Les coaissaces dot o dispose a priori sur le processus doivet guider le cocepteur das le choix de la modélisatio la plus appropriée (statique ou dyamique, liéaire ou o liéaire,...). L élaboratio du modèle-hypothèse écessite d'effectuer les choix suivats : Modèle statique ou dyamique : lorsque l'o cherche à modéliser u processus physico-chimique ou biologique, il est gééralemet facile de savoir si l'applicatio evisagée écessite de modéliser la dyamique du processus (c'est-àdire si l'o doit cosidérer ue échelle de temps petite devat les costates de temps du processus) ou si ue modélisatio statique suffit. 9

24 Modélisatio de processus et estimatio des paramètres d u modèle Modèle liéaire ou o liéaire : il 'est pas douteux que la plupart des processus que l'o peut recotrer écessiteraiet des modèles o liéaires s'il fallait les décrire de maière précise das la totalité de leur domaie de foctioemet : la plupart des modèles liéaires costituet des approximatios valables das u domaie plus ou mois restreit. Il est doc importat de pouvoir élaborer u modèle o liéaire pour redre compte du comportemet d'u processus, o seulemet autour de ses poits de foctioemet "habituels", mais égalemet lors des passages d'u poit de foctioemet à u autre. Modèle etrée-sortie ou modèle d'état : das le cas où l'o opte pour ue modélisatio dyamique, deux représetatios sot possibles pour le modèle : il s agit de la représetatio d état ou de la représetatio etrée sortie. L état d u processus est défiit comme la quatité d iformatio miimale écessaire pour prédire so comportemet, état doées les etrées présetes et à veir. Il s agit gééralemet d u vecteur de gradeur égale à l ordre du modèle. La représetatio etrée sortie est u cas particulier de la représetatio d état où le vecteur des états est costitué par la sortie et ses valeurs retardées das le temps. Si le but de la modélisatio est de prédire le comportemet etrée sortie du processus, il existe gééralemet ue ifiité de représetatios d état (au ses d états ayat des trajectoires différetes) solutios du problèmes. E revache, la représetatio etrée sortie est uique. Présece de perturbatios détermiistes : lorsque l'o cherche à réaliser u modèle dyamique, les perturbatios détermiistes peuvet être modélisées par ue etrée supplémetaire (échelo, sigal carré, siusoïde). E particulier, si le modèle est costruit pour la sythèse d ue loi de commade, la prise e cosidératio de l existece d ue perturbatio pedat la phase de modélisatio peut améliorer les performaces de la commade pour le rejet de cette perturbatio. Par exemple, il est proposé das [Mukhopa93] ue approche qui cosiste à cosidérer la perturbatio comme la sortie d u processus. La modélisatio de ce processus a pour effet d'itroduire de ouvelles variables d'état, doc d'augmeter l'ordre du modèle. Présece d u bruit : lorsque l'o cherche à réaliser u modèle dyamique, ue perturbatio de type bruit est modélisée par ue séquece de variables aléatoires. U bruit peut agir de différetes maières sur u processus. O distigue otammet le bruit de sortie (bruit additif qui affecte la mesure de la sortie du processus), et le bruit d état (bruit additif qui affecte l'état du processus). Comme, e gééral, o e coaît pas avec précisio la ature du bruit qui 10

25 Modélisatio de processus et estimatio des paramètres d u modèle affecte le processus, o doit effectuer des hypothèses sur celle-ci ; o déduit de celles-ci la structure du modèle-hypothèse, et l'algorithme utilisé pour l'ajustemet des paramètres. Ue hypothèse erroée peut dégrader cosidérablemet les performaces du modèle. Ces problèmes ot été très largemet étudiés das le cas de la modélisatio liéaire [Ljug87]. Das le cadre de la modélisatio o liéaire par réseaux de euroes, ces cosidératios sot développées das [Nerrad94]. III.2 Du modèle-hypothèse au prédicteur ou au simulateur. U modèle-hypothèse ayat été choisi, l étape suivate cosiste à établir l'expressio du prédicteur théorique, c'est-à-dire l'expressio de la prédictio de la sortie du processus à l'istat +d e foctio des doées dispoibles à l'istat (etrées et sorties du processus et/ou du prédicteur à l'istat et aux istats atérieurs). Efi, la derière étape cosiste à établir l'expressio du prédicteur (ou du simulateur) propremet dit : das le cas d'ue modélisatio "boîte oire", ce prédicteur utilise ue foctio paramétrée, dot o estime les paramètres, à partir de mesures effectuées préalablemet sur le processus, de telle maière qu'il costitue la meilleure approximatio possible du prédicteur théorique. A l'issue de la procédure d estimatio des paramètres (appretissage), il faut évaluer la performace du prédicteur (ou du simulateur). Das le cadre de ce mémoire ous ous itéressos plus particulièremet à l étape d appretissage et doc aux caractéristiques du prédicteur (complexité, cotraites de mise e oeuvre) et aussi à l algorithme d appretissage (efficacité, robustesse). La plupart des exemples étudiées état des processus simulés, le problème du choix du modèle-hypothèse e se pose pas. E revache, la modélisatio d u processus réel (das le derier chapitre) sera l occasio d'examier ce problème. III.3 Présetatio de quelques modèles-hypothèses et de leurs prédicteurs associés. Nous présetos das ce paragraphe quelques exemples de modèleshypothèses aisi que les prédicteurs qui leurs sot associés, pour l'élaboratio d'u modèle dyamique etrée-sortie. L u des pricipaux paramètres qui itervieet das le choix d u modèle-hypothèse est la présece d u bruit et la maière dot il agit sur le processus. Pour ceci, ous allos cosidérer deux classes de modèles-hypothèses : le modèle-hypothèse détermiiste et des modèles-hypothèses o détermiiste (faisat iterveir u bruit das la modélisatio du processus). 11

26 Modélisatio de processus et estimatio des paramètres d u modèle III.3.1 Modèle-hypothèse détermiiste. O cosidère qu aucu bruit 'agit sur le processus. O propose u modèle-hypothèse détermiiste ayat l expressio suivate : y p = fy p ±1,..., y p ±N s, u±1,..., u±n e (1) où y p () est la sortie mesurée du processus à l istat, N s est l ordre du modèle et N e la mémoire sur l etrée extere u. f est ue foctio o liéaire dot o suppose qu'elle existe, et qu'elle costitue ue représetatio mathématique du comportemet du processus. La forme prédicteur théorique associée à ce modèle-hypothèse est la suivate : y = fy p ±1,..., y p ±N s, u±1,..., u±n e (2) où y(t) est la prédictio de la sortie du processus calculée par la forme prédicteur théorique. État doé que ous cosidéros que le processus est soumis à aucu bruit, la forme prédicteur théorique doit calculer à tout istat y(t) = y p (t). Le prédicteur dot o effectuera l appretissage aura pour expressio : y t = ψ y p t±1,..., y p t±n s, ut±1,..., ut±n e (3) où ψ est ue foctio paramétrée, dot les paramètres doivet être estimés pour qu'elle approche au mieux la foctio f das le domaie de foctioemet cosidéré. Cette optimisatio s eted au ses de la miimisatio de la foctio de coût empirique, que l o appellera doréavat foctio de coût et que l o otera par J. Cette miimisatio est réalisée à l'aide d'u algorithme d appretissage. Si l o est itéressé par la costructio d u modèle de simulatio, u autre prédicteur peut être cosidéré : y = ψ y±1,..., y±n s, u±1,..., u±n e (4) La seule différece avec la forme prédicteur de la relatio (3) réside das le fait que les etrées d état du modèle sot les sorties retardées du modèle, o celles du processus. III.3.2 Modèles-hypothèses o détermiistes. O désige par modèles-hypothèses o détermiistes des modèleshypothèses qui supposet l existece d u bruit agissat sur le processus à modéliser. O peut evisager plusieurs hypothèses cocerat la maière dot le bruit agit sur le processus. Nous e présetos deux, que ous cosidéreros lors de l étude d exemples das ce mémoire. 12

27 Modélisatio de processus et estimatio des paramètres d u modèle III L hypothèse Bruit de sortie. L hypothèse Bruit de sortie (Output Error e aglais) cosiste à cosidérer qu u bruit agit sur la sortie du processus. L expressio du modèlehypothèse est : x()=f(x(±1),..., x(±n s ), u(±1),..., u(±n e )) (5) y p ()=x()+w() où {w()} est ue séquece de variables aléatoires idépedates de moyee ulle et de variace σ 2. La forme prédicteur théorique associée à ce modèlehypothèse est doée par l expressio suivate : y() = fy±1, y±2,..., y±n s, u±1,..., u±n e (6) Le prédicteur réel associé a pour expressio : y()=ψ y±1, y±2,..., y±n s, u±1,..., u±n e (7) où ψ est ue foctio réalisée à l'aide d'ue foctio paramétrée, par exemple u réseau de euroes. C est doc u modèle dot les etrées d état sot ses propres sorties retardées, et o pas les sorties du processus. Si, après appretissage, la foctio ψ était idetique à la foctio f, l'erreur de prédictio commise par ce prédicteur serait ue séquece aléatoire de mêmes caractéristiques que w. Lorsque la foctio parmétrée ψ est réalisée par u réseau de euroes, celui-ci est u réseau bouclé, que ous décriros au paragraphe II.4.2 du chapitre suivat. III L hypothèse Bruit d état. L hypothèse Bruit d état (Equatio Error e aglais) cosiste à cosidérer qu u bruit agit sur l'état du processus. Ce modèle-hypothèse a la forme suivate : y p () = fy p ±1, y p ±2,..., y p ±N s, u±1,..., u±n e + w() (8) où {w()} est ue séquece de variables aléatoires idépedates de moyee ulle et de variace σ 2. La forme prédicteur théorique associée à ce modèlehypothèse est doée par l expressio suivate : y() = fy p ±1, y p ±2,..., y p ±N s, u±1,..., u±n e (9) Le prédicteur réel associé est de la forme : y()=ψ y p ±1, y p ±2,..., y p ±N s, u±1,..., u±n e (10) où ψ est ue foctio paramétrée. Si ψ était idetique à f, l'erreur de prédictio effectuée par ce prédicteur serait ue séquece de variables aléatoires de mêmes caractéristiques que le bruit w. Lorsque la foctio parmétrée ψ est réalisée par u réseau de euroes, celui-ci est u réseau o bouclé, que ous décriros au paragraphe II.4.1 du chapitre suivat. 13

28 Modélisatio de processus et estimatio des paramètres d u modèle IV. FONCTIONS PARAMÉTRÉES POUR LA MODÉLISATION "BOÎTE NOIRE". Comme idiqué ci dessus, ue modélisatio de type boîte oire est mise e œuvre das le cas où l'o dispose de peu de coaissace sur le processus étudié, ou si le modèle de coaissace établi est trop compliqué pour être exploité. Das les deux cas (et particulièremet das le secod) o a besoi d u outil fourissat u modèle précis, aussi simple que possible e termes de ombre de paramètres ajustables et de ombre de calculs à effectuer, pour prédire la sortie du processus. E gééral, u modèle boîte oire statique est ue combiaiso paramétrée de foctios, qui peuvet être elles-mêmes paramétrées. U modèle "boîte oire" dyamique est, comme ous l'avos vu ci-dessus, u esemble d'équatios différetielles (ou d'équatios aux différeces pour u modèle à temps discret) o liéaires, où la o-liéarité est réalisée, comme das le cas d'u modèle statique, par ue combiaiso paramétrées de foctios évetuellemet paramétrées. Des foctios paramétrées costituet ue famille d'approximateurs uiversels s'il est possible (sous certaies coditios de régularité) d approcher toute foctio cotiue, avec la précisio voulue, das u domaie de l'espace des etrées, par ue somme podérée d'u ombre fii de ces foctios. Cette coditio 'est éamois pas suffisate pour qu'ue famille de foctios soit utilisable de maière efficace pour la modélisatio "boîte oire" efficace. E effet, parmi tous les modèles possibles, o recherche toujours celui qui possède le plus petit ombre de coefficiets ajustables : c'est la propriété de parcimoie, dot ous verros qu'elle 'est pas partagée par tous les types de foctios paramétrées. A cet égard, il est importat de distiguer les modèles liéaires par rapport aux paramètres des modèles o liéaires par rapport aux paramètres. IV.1 Les foctios paramétrées liéaires par rapport aux paramètres. Ue foctio paramétrée est liéaire par rapport aux paramètres si elle est de la forme : ψ X = N Σ i =1 θ i Φ i X (11) où les Φ i (X) sot des foctios o paramétrées d'ue ou plusieurs variables groupées das le vecteur X, et où les θ i sot des paramètres. Les foctios Φ i (X) peuvet être quelcoques ; traditioellemet o utilise des moômes ; mais o peut égalemet utiliser d autres types de foctios : foctios splies, foctios gaussiees dot les cetres et les écarts types sot fixés, 14

29 Modélisatio de processus et estimatio des paramètres d u modèle foctios odelettes dot les traslatios et dilatatios sot fixées (ces derières serot présetées au chapitre IV de ce mémoire). IV.2 Les foctios paramétrées o liéaires par rapport aux paramètres. Das le préset travail, ous utiliseros essetiellemet des foctios o liéaires par rapport aux paramètres, qui sot de la forme ψ X = N Σ i =1 θ i Φ i X, Θ i (12) où Θ i est u vecteur de paramètres de la foctio Φ i. Aisi, la foctio réalisée est liéaire par rapport aux θ i, mais o liéaire par rapport aux paramètres costituat le vecteur Θ i : c'est ue combiaiso liéaire de foctios paramétrées. Les réseaux de euroes à ue couche cachée (présetés au chapitre II), les réseaux de foctios gaussiees radiales dot les cetres et les écarts-types sot ajustables, les réseaux d'odelettes (qui sot l'objet essetiel de ce travail) etret das cette catégorie de foctios. Toutes ces foctios sot des approximateurs uiversels [Horik89] mais leur itérêt, par rapport aux foctios liéaires par rapport aux paramètres, réside das le caractère parcimoieux des modèles qu ils permettet de réaliser [Horik94]. Comme ous le verros au paragraphe V.2, le prix à payer pour cela réside das le fait que les méthodes habituelles d'estimatio de paramètres (méthodes de moidres carrés) sot iutilisables, et que l'o doit avoir recours à des méthodes itératives (méthodes de gradiet) dot la mise e œuvre est plus lourde. Nous présetos brièvemet ci-dessous ces trois types de réseaux, dot deux serot repris e détail das les chapitres suivats. IV.2.1 Les réseaux de euroes. Das ce travail, ous réserveros le terme de réseau de euroes aux réseaux de la forme (12), où au mois ue des foctios Φ i (X) est ue foctio croissate borée, otammet sigmoïde (tagete hyperbolique), d'ue combiaiso liéaire des etrées ; certaies de ces foctios peuvet être l'idetité. L expressio de ces réseaux est : ψ(x)= N i=1 θ i Φ i Θ i T X Issus de travaux à cootatio biologique das les aées 1940, ces réseaux sot maiteat cosidérés comme des outils mathématiques, idépedammet de toute référece à la biologie. Ils sot utilisés pour la modélisatio et la commade (13) 15

30 Modélisatio de processus et estimatio des paramètres d u modèle de processus o liéaires, aisi que comme outils de classificatio, otammet pour la recoaissace de formes. Les pricipales étapes das l évolutio de la théorie et de la pratique des réseaux de euroes ot été la mise au poit d u algorithme, écoomique e temps de calcul, pour l'évaluatio du gradiet de la foctio de coût (défiie au paragraphe V), appelé algorithme de rétropropagatio [Rumelhart86], et la preuve de ses propriétés d approximateur uiversel [Horik89] et de parcimoie [Barro93, Horik94]. L ue des premières applicatios das le domaie de la modélisatio o liéaire de processus est présetée das [Naredra90]. IV.2.2 Les réseaux de foctios radiales (RBF pour Radial Basis Fuctios). Les foctios radiales ot été itroduites par [Powell85] das le cadre de l'iterpolatio, c'est-à-dire de la recherche de foctios passat exactemet par u ombre fii de poits (dits poits de collocatio). Das ce cotexte, la foctio recherchée est ue combiaiso liéaire de foctios de base, e ombre égal au ombre de poits de collocatio ; ue foctio de base Φ (x), relative au poit de collocatio x, est dite radiale si elle e déped que de la distace du poit courat x au poit de collocatio x. O peut utiliser diverses foctios radiales, otammet des foctios localisées (qui tedet vers zéro das toutes les directios de l'espace des variables) telles que des gaussiees cetrées aux poits de collocatio. Bie etedu, la recherche d'ue foctio passat exactemet par les poits 'a de ses que si ces poits e sot pas etachés de bruit. La référece [Broom88] semble être parmi les premières à proposer l idée d'utiliser des réseaux de RBF pour l'approximatio de foctios o liéaires. La foctio recherchée est toujours ue combiaiso liéaire de foctios radiales, mais leur ombre est beaucoup plus petit que le ombre de poits, et elles e sot doc pas forcémet cetrées e ces poits. So expressio est de la forme : N i=1 ψ(x)= θ i Φ i X ± M i, σ i 2 2 où M ι est le vecteur des cetres et σ i u scalaire (appelé variace das le cas d ue RBF gaussiee). La propriété d approximateurs uiversels pour ces réseaux a été que récemmet prouvée pour des gaussiees radiales [Hartma90] et plus gééralemet pour des RBF [Park91]. Ces réseaux ot été utilisés comme outil de modélisatio boîte oire das le domaie de l automatique. O les trouve à la base de modèles etrée sortie [Che90] et aussi de modèles d état [Elaayar94]. Certaies spécificités de ces réseaux permettet de les utiliser pour la sythèse de lois de commade adaptatives stables [Behera95, Saer92, Saer95]. Le fait que ces réseaux (14) 16

31 Modélisatio de processus et estimatio des paramètres d u modèle permettet de garatir la stabilité des correcteurs qu ils réaliset les red plus itéressats que les réseaux de euroes pour la résolutio des problèmes de commade o liéaire. E revache, cette propriété se fait au détrimet de la parcimoie du réseau. IV.2.3 Les réseaux d odelettes. Les foctios odelettes trouvet leur origie das des travaux de mathématicies dès les aées L idée de départ était de costruire ue trasformatio, pour l étude des sigaux, plus commode que la trasformatio de Fourier, otammet pour des sigaux de durée fiie. Les foctios odelettes ot subi ue évolutio au cours des aées : celles dot ous disposos aujourd hui sot plus complexes que leurs aîées, et possèdet des propriétés itéressates pour l approximatio de foctios. E particulier, elles possèdet la propriété d approximateurs uiversels, ce qui suggère leur utilisatio pour la costructio de modèles boîte oire. La otio de réseaux d odelettes existe depuis peu [Pati 93] et l étude de la propriété de parcimoie a pas été abordée. L u des objectifs de ce mémoire est l étude de la mise e oeuvre de cette classe de réseaux pour la modélisatio etrée sortie et d état de processus, aisi que la comparaiso, sur des exemples, de la parcimoie et des performaces de cette classe de réseaux par rapport à celle des réseaux de euroes (voir les chapitres III, IV et V). V. ESTIMATION DES PARAMÈTRES D UN MODÈLE. V.1 Positio du problème et otatios. État doées les iformatios dot o dispose sur le processus (c est à dire la séquece d appretissage) o détermie, das ue famille doée de foctios paramétrées ψ(x, θ) (où x est le vecteur regroupat toutes les etrées du modèle et θ le vecteur des paramètres icous de ψ) celle qui miimise ue foctio de coût qui, le plus souvet, est la foctio de coût des moidres carrés. Soit y p la sortie du processus à l istat (das le cas d ue modélisatio dyamique), ou la valeur mesurée pour le ème exemple de l'esemble d appretissage (das le cas d ue modélisatio statique). De même, y est la sortie calculée par le modèle à l'istat, ou pour le ème exemple de l'esemble d'appretissage. O défiit la foctio de coût des moidres carrés J(θ) par : J θ = 1 2 N y p ± y 2 =1 (15) 17

32 Modélisatio de processus et estimatio des paramètres d u modèle où N est le ombre de mesures (taille de la séquece). J(θ)déped du vecteur des paramètres, aisi que de la séquece d appretissage. Pour alléger les otatios, ous 'idiqueros pas explicitemet cette derière dépedace das la suite. O défiit l erreur quadratique moyee d appretissage (EQMA) comme ue la moyee de la foctio de coût calculée sur la séquece d appretissage. Elle est doée par : 2 J θ N. Lors de so exploitatio, le modèle reçoit des etrées différetes de celles de la séquece d appretissage. O peut estimer ses performaces e calculat diverses foctios ; celle que l'o utilise le plus fréquemmet est l'erreur quadratique moyee de performace EQMP dot la valeur est calculée sur ue séquece différete de celle utilisée pour l'appretissage. V.2 Les algorithmes de miimisatio de la foctio de coût. Das le cas où le modèle est liéaire par rapport aux paramètres à ajuster, la miimisatio de la foctio de coût, et doc l estimatio du vecteur des paramètres θ, peut se faire à l aide la méthode des moides carrés, qui ramèe le problème à la résolutio d u système d équatios liéaires. Nous présetos cette techique das ce qui suit. V.2.1 Méthode des moidres carrés ordiaires. Cette méthode est applicable pour l appretissage de modèles statiques ou de prédicteurs o bouclés dot la sortie est liéaire par rapport aux paramètres icous. Si cette sortie est liéaire par rapport aux etrées, le prédicteur associé a pour expressio : N i y = θ i x i (16) Σ i=1 Ce modèle prédictif peut se être mis sous forme d ue équatio matricielle. E effet, o peut l écrire Y = X θ avec : Y = y 1 y 2, X = x 1 1 x 2 1 x Ni 1, θ = θ 1 θ 2 (17) yn x 1 N x N N θ Ni L estimatio des paramètres est fodée sur la miimisatio de la foctio de coût des moidres carrés (relatio (15)). E utilisat la otatio matricielle présetée ci dessus, l expressio de la foctiode coût J θ deviet : 18

33 Modélisatio de processus et estimatio des paramètres d u modèle J θ = 1 2 Y P T Y P ±2θ T X T Y p + θ T X T Xθ (18) La foctio de coût état quadratique (par rapport au vecteur des paramètres à estimer), il atteit so miimum pour la valeur du vecteur des paramètres aulat sa dérivée. Soit θ mc cette valeur du vecteur des paramètres. Elle vérifie : J θ θmc =0 (19) Cette derière équatio fourit l équatio ormale : X T X θ mc = X T Y p (20) dot la solutio θ mc doée par : θ mc = X T X ±1 X T Y p (21) est l estimatio des moidres carrés du vecteur des paramètres θ p. Cette solutio existe à coditio que la matrice X T X soit iversible. Cette coditio est gééralemet vérifiée lorsque N (le ombres d exemples) est très grad devat N i (le ombre d etrées du modèle). La méthode des moidres carrés peut être utilisée plus gééralemet pour l estimatio des paramètres de tout modèle dot la sortie est liéaire par rapport aux paramètres à estimer ; c'est le cas, par exemple, pour l estimatio des paramètres du modèle suivat : y = N i θ i Φ i X (22) Σ i=1 où les Φ i sot des foctios o paramétrées du vecteur des etrées X. Plusieurs choix sot possibles pour les foctios Φ i (voir paragraphe IV.1). Les sorties des modèles boîte oire que ous utilisos das ce mémoire e sot pas liéaires par rapport aux paramètres à ajuster. Ue résolutio directe du problème comme das le cas de la solutio des moidres carrés est doc pas possible : o a doc recours à des algorithmes d appretissage qui recherchet ue solutio suivat ue procédure itérative. Ces algorithmes sot gééralemet applicables sauf das le cas où des restrictios sur les valeurs possibles pour les paramètres du modèle sot imposées par la ature des foctios paramétrées utilisées (voir le paragraphe III.1 du chapitre IV). Das ce qui suit, ous allos préseter les algorithmes que ous utilisos das ce mémoire pour la miimisatio de la foctio de coût. V.2.2 Pricipe des algorithmes de gradiet. Les algorithmes d appretissage fodés sur l'évaluatio du gradiet de la foctio de coût J(θ) par rapport aux paramètres procèdet à la miimisatio de 19

34 Modélisatio de processus et estimatio des paramètres d u modèle maière itérative. J(θ) est ue foctio scalaire à variable vectorielle (le vecteur θ des paramètres à ajuster). So gradiet est doc u vecteur défii par : J θ 1 J = (23) J θ M où M est le ombre de paramètres icous. Le pricipe des algorithmes de gradiet repose sur le fait qu u miimum de la foctio de coût est atteit si sa dérivée (so gradiet) est ul. Il existe plusieurs types d algorithmes ; ous préseteros ceux que ous utiliseros das la suite. Leur déroulemet suit le schéma suivat : A l itératio 0 : Iitialiser le vecteur des paramètres à θ 0. Cette iitialisatio de θ peut avoir ue grade ifluece sur l issue de l appretissage. Nous porteros ue attetio particulière à cette étape. Nous proposos ue techique d iitialisatio pour réseaux d odelettes au chapitre IV. A la k ème itératio : Calculer la foctio de coût et la orme du gradiet avec le vecteur des paramètres courat (obteu à l itératio précédete). Si J θ k-1 J max ou J ε ou k = k max (où J max est ue valeur maximale recherchée pour l EQMA, ou pour l EQMP si les performaces sot évaluées pedat l'appretissage), Alors arrêter l algorithme ; le vecteur θ k±1 est ue solutio, Sio calculer θ k à partir de θ k±1 par la formule de mise à jour des paramètres suivate : θ k = θ k-1 + µ k d k (24) où µ k est u scalaire positif appelé pas du gradiet et d k u vecteur calculé à partir du gradiet, appelé directio de descete. Les différeces etre les méthodes de gradiet résidet das le choix de la directio de descete et das le choix du pas. 20

35 Modélisatio de processus et estimatio des paramètres d u modèle V.2.3 La méthode du gradiet simple. V Présetatio de la méthode. La méthode du gradiet simple cosiste à la mise e œuvre de la formule de mise à jour des paramètres suivate : θ k = θ k-1 ± µ k J θ k-1 (25) La directio de descete est doc simplemet l opposée de celle du gradiet ; c'est e effet la directio suivat laquelle la foctio de coût dimiue le plus rapidemet. E pratique, la méthode du gradiet simple peut être efficace lorsque l o est loi du miimum de J. Quad o s e approche, la orme du gradiet dimiue et doc l algorithme progresse plus letemet. A ce momet, o peut utiliser ue méthode de gradiet plus efficace. U "réglage" du pas de gradiet µ k est écessaire : e effet, ue petite valeur de ce paramètre raletit la progressio de l algorithme ; e revache ue grade valeur aboutit gééralemet à u phéomèe d oscillatio autour de la solutio. Diverses heuristiques, plus ou mois efficaces, ot été proposées. V Techiques de réglage du pas. Techique du pas costat : elle cosiste à adopter u pas costat µ k = µ tout au log de l algorithme. Elle est très simple mais peu efficace puisqu'elle e pred pas e cosidératio la décroissace de la orme du gradiet. Techique du pas asservi : o peut asservir le pas à l aide de la orme du gradiet de sorte que le pas évolue e ses iverse de celle ci. A chaque étape, le pas peut être calculé par : µ µ k = (26) 1+ J où µ est u paramètre costat. Lors de l utilisatio de cette techique, ous avos adopté la valeur µ = 10-3 qui s est révélée très souvet satisfaisate. Le umérateur est augmeté du ombre 1 afi d éviter ue istabilité umérique au momet de la divisio das le cas où la orme du gradiet deviet très proche du zéro. Cette techique offre u bo compromis du poit de vue de la simplicité et de l efficacité. C est celle que ous avos utilisée chaque fois que ous avos mis e œuvre la méthode du gradiet simple. V.2.4 Les méthodes de gradiet du secod ordre. Les méthodes que ous veos de décrire sot simples mais e gééral très iefficaces. O a doc systématiquemet recours à l utilisatio de méthodes plus 21

36 Modélisatio de processus et estimatio des paramètres d u modèle performates (pour ue comparaiso umérique etre ces méthodes, voir [Battiti92]). Elles sot dites du secod ordre parce qu elles preet e cosidératio la dérivée secode de la foctio de coût. Nous présetos cidessous celles que ous avos mises e œuvre das otre travail, et dot ous comparos les performaces lors de l étude de os exemples. V L algorithme de BFGS. L algorithme de BFGS (du om de ses iveteurs : Broyde, Fletcher, Goldfarb et Shao) [Mioux83] fait partie des méthodes d optimisatio dites quasi ewtoiees. Ces méthodes sot ue gééralisatio de la méthode de Newto. La méthode de Newto cosiste à l applicatio de la règle suivate : θ k = θ k-1 ± H θ k-1 ±1 J θ k-1 (27) où H θ est le Hessie de la foctio J calculé avec le vecteur des paramètres dispoible à l étape courate. La directio de descete est das ce cas : d k =± H θ k-1 ±1 J θ k-1 (28) Le pas µ k est costat et égal à 1. Pour que le déplacemet soit e ses cotraire du gradiet, il est idispesable que la matrice du Hessie soit défiie positive. Sous cette coditio, et si la foctio de coût est quadratique par rapport aux paramètres, la méthode de Newto coverge vers l uique solutio e ue seule itératio. E gééral, et pour les problèmes d optimisatio auxquels ous sommes cofrotés das ce mémoire, la foctio de coût est gééralemet pas quadratique. Elle peut éamois l être localemet, à proximité d'u miimum de ses miima. Doc, la méthode de Newto e peut coverger e ue seule itératio. De plus, cette méthode écessite l iversio de la matrice du Hessie à chaque itératio (puisqu il apparaît que plusieurs sot écessaires), ce qui coduit à des calculs lourds. L algorithme de BFGS, aisi que l'algorithme de Leveberg-Marquardt préseté das le paragraphe suivat, sot des méthodes "quasi-ewtoiees" qui permettet de pallier ces icovéiets. L algorithme de BFGS est ue règle d ajustemet des paramètres qui a l expressio suivate : θ k = θ k-1 ± µ k M k J θ k-1 (29) où M k est ue approximatio, calculée itérativemet, de l'iverse de la matrice Hessiee. L approximatio de l iverse du Hessie est modifiée à chaque itératio suivat la règle suivate : 22

37 Modélisatio de processus et estimatio des paramètres d u modèle M k = M k±1 +1+ γ k-1 T M k-1 γ δ k-1 k-1 δ T γ k-1 δ k-1 k-1 T δ k-1 T γ k-1 ± δ k-1 γ k-1 T T M k-1 + M k-1 γ k-1 δ k-1 (30) δ T k-1 γ k-1 avec γ k-1 = J θ k ± J θ k-1 et δ k-1 = θ k ± θ k-. Nous preos pour valeur iitiale de M la matrice idetité. Si, à ue itératio, la matrice calculée est pas défiie positive, elle est réiitialisée à la matrice idetité. Reste la questio du choix du pas µ k. A cet effet, ous avos opté pour ue méthode écoomique e calculs, la techique de Nash [Nash80]. Cette techique recherche u pas qui vérifie la coditio de descete : J θ k-1 +µ k d k J θ k-1 + m 1 µ k d T k J θ k-1 (31) où m 1 est u facteur choisi très iférieur à 1 (par exemple m 1 = 10 3 ). E pratique, la recherche du pas se fait de maière itérative. O iitialise µ k à ue valeur positive arbitraire. O teste la coditio (31). Si elle est vérifiée, o accepte l ajustemet des paramètres. Sio, o multiplie le pas par u facteur iférieur à 1 (par exemple 0.2) et o teste à ouveau la coditio de descete. O répète cette procédure jusqu à ce qu ue valeur satisfaisate du pas soit trouvée. Au bout de 22 essais, le pas atteit ue valeur de l ordre de O peut cosidérer alors qu il est pas possible de trouver u pas satisfaisat. Ue méthode quasi ewtoiee, est efficace que si elle est appliquée au voisiage d u miimum. D'autre part, la règle du gradiet simple est efficace lorsqu o est loi du miimum et sa covergece raletit cosidérablemet lorsque la orme du gradiet dimiue (c est à dire lorsqu o s approche du miimum). Ces deux techiques sot doc complémetaires. De ce fait, l optimisatio s effectue e deux étapes : utilisatio de la règle du gradiet simple pour approcher u miimum, et de l'algorithme de BFGS pour l'atteidre. Le critère d arrêt est alors u des critères décrits au paragraphe V.2.2. V L algorithme de Leveberg Marquardt. L algorithme de Leveberg Marquardt [Leveberg44, Marquardt63] repose sur l applicatio de la formule de mise à jour des paramètres suivate : θ k = θ k-1 ± H θ k-1 + µ k I ±1 J θ k-1 (32) où H θ k-1 est le Hessie de la foctio de coût et µ k est le pas. Pour de petites valeurs du pas, la méthode de Leveberg Marquardt s approche de celle de Newto. Iversemet, pour de grades valeurs de µ k, l algorithme Leveberg Marquardt est équivalet à l applicatio de la règle du gradiet simple avec u pas de 1 µ k. 23

38 Modélisatio de processus et estimatio des paramètres d u modèle La première questio relative à cet algorithme est celle de l'iversio de la matrice H θ k -1 + µ k I. L expressio exacte du Hessie de la foctio J est : H θ k = N =1 e θ k e θ k T + N =1 2 e θ k θ k T e avec e = y p ± y. Le secod terme de l expressio état proportioel à l erreur, il est permis de le égliger e première approximatio, ce qui fourit ue expressio approchée : H θ k = N =1 e θ k e θ k T = N =1 Das le cas d u modèle liéaire par rapport aux paramètres, c est à dire si y est ue foctio liéaire de θ, le secod terme de l expressio de H est ul est l approximatio deviet exacte. Plusieurs techiques sot evisageables pour l iversio de la matrice H + µ k I. y θ k y θ k T (33) (34) Iversio idirecte. U lemme d iversio permet de calculer la matrice iverse suivat ue loi récurrete. E effet, soiet A, B, C et D quatre matrices. O a la relatio suivate : A + BCD -1 = A -1 ± A -1 B C -1 + DA -1 B -1 DA -1. D autre part, e posat X = y, l approximatio de la matrice H peut k θ être calculée à partir de la loi de récurrece suivate : H = H -1 + X X T avec =1,..., N De ce fait, o a H = H N. Si l'o applique le lemme d iversio à la relatio précédete e choisissat A = H, B = X, C = I et D = X T, o obtiet la relatio suivate : H -1 = H -1-1 ± H-1-1 X X T H X T H -1-1 X (35) E preat, à la première étape ( = 1), H 0 = µ k I, o obtiet, à l étape N : H N -1 = H + µ k I -1. Iversio directe. Plusieurs méthodes d iversio directes existet. État doé que l algorithme est itératif et que la procédure de recherche du pas écessite souvet plusieurs iversios de matrice, o a itérêt à utiliser ue méthode écoomique e ombre de calculs. 24

39 Modélisatio de processus et estimatio des paramètres d u modèle Le fait que l approximatio du Hessie augmetée de µ k reste ue matrice symétrique défiie positive ous permet d utiliser la méthode de Cholesky. De la même faço que das le cas de l algorithme de BFGS, ue recherche uidimesioelle doit être appliquée pour la recherche d u pas de descete et ceci à chaque itératio de l algorithme. Ue stratégie commuémet utilisée [Bishop95, Walter94] cosiste à appliquer la procédure suivate : soit r > 1 (gééralemet égal à 10) u facteur d'échelle pour µ k. Au début de l algorithme, o iitialise µ 0 à ue grade valeur ([Bishop95] propose 0.1). A l étape k de l algorithme : Calculer J θ k avec µ k détermié à l étape précédete. Si J θ k < J θ k-1, alors accepter le chagemet de paramètres et diviser µ k par r. Sio, récupérer θ k-1 et multiplier µ k par r. Répéter cette derière étape jusqu à ce qu ue valeur de µ k correspodat à ue décroissace de J soit trouvée. Cet exemple de procédure présete l avatage de écessiter peu d iversios de matrice à chaque itératio de l algorithme. E revache, le choix du pas iitial possède ue ifluece sur la vitesse de covergece de l algorithme. Ces observatios ous mèet à proposer la procédure suivate : Au début de l algorithme, iitialiser µ 0 à ue valeur positive quelcoque. E effet ce choix a pas d ifluece sur le déroulemet de l algorithme. A l étape k de l algorithme : 1. Calculer J θ k avec le µ k dispoible (le derier calculé). 2. Si J θ k < J θ k-1, alors récupérer θ k-1, diviser µ k par r et aller à l étape Sio récupérer θ k-1 et multiplier µ k par r. Répéter cette derière étape jusqu à ce qu ue valeur de µ k correspodat à ue décroissace de J soit trouvée. Cette procédure permet de s approcher de la méthode de Newto plus rapidemet que la méthode précédete. E revache, état doé que plusieurs ajustemets de paramètres sot testés, elle écessite u plus grad ombre d iversios de matrice. 25

40 Modélisatio de processus et estimatio des paramètres d u modèle V.3 Commetaire. Nous avos préseté das cette partie les algorithmes du secod ordre que ous utilisos das ce mémoire (c est à dire l algorithme de BFGS et celui de Leveberg Marquardt). La difficulté essetielle lors de l applicatio de l algorithme de BFGS réside das le choix de la coditio de passage du gradiet simple à la méthode de BFGS. Ce problème e se pose pas pour l'algorithme de Leveberg Marquardt, mais le volume de calculs écessaires à chaque itératio de cet algorithme croît rapidemet avec le ombre de paramètres. VI. CONCLUSION Das ce chapitre, ous avos préseté les pricipes de la modélisatio "boîte oire", les étapes de la coceptio d'u tel modèles, aisi que les foctios paramétrées utilisables, et les algorithmes qu'il coviet de mettre e œuvre pour l'ajustemet des paramètres. Les deux chapitres suivats serot cosacrés à la présetatio et à la mise e œuvre des deux catégories de foctios paramétrées que ous avos utilisées : les réseaux de euroes et les réseaux d'odelettes. 26

41 CHAPITRE II Réseaux de foctios dorsales

42 Réseaux de foctios dorsales I. INTRODUCTION. Le préset chapitre est cosacré à ue catégorie de réseaux utilisés pour la modélisatio o liéaire "boîte oire", à temps discret : les réseaux de foctios dorsales (ridge fuctio etworks). Cette appellatio proviet de la forme géométrique des foctios costituat ces réseaux. Das ce mémoire, ous utilisos idifféremmet les deux appellatios réseaux de euroes ou réseaux de foctios dorsales que ous cosidéros comme syoymes, par oppositio aux réseaux d'odelettes ou de foctios radiales. Nous présetos ici les euroes costituat ces réseaux, leurs propriétés aisi que l appretissage des réseaux. II. NEURONES FORMELS À FONCTIONS DORSALES ET RÉSEAUX. II.1 Qu est ce qu u euroe formel? U euroe formel est ue foctio paramétrée, o liéaire, de plusieurs variables appelées etrées du euroe ; la valeur de la foctio est dispoible e sortie du euroe. Par abus de lagage, ous utiliseros parfois, le terme de "euroe liéaire" pour désiger ue foctio liéaire ou affie. II.2 Qu'est-ce qu'u euroe formel à foctio dorsale? Pour u euroe formel à foctio dorsale, le calcul de la foctio est effectué e deux étapes : 1. Calcul d'ue somme podérée des etrées. Le résultat obteu est appelé potetiel du euroe. Il est doé par la relatio suivate : v i = c ij x j (1) j P i où P i est l esemble des idices {j} des etrées x j du euroe i. Les coefficiets c ij sot des coefficiets de podératio des etrées du euroes appelés (pour des raisos historiques) poids syaptiques ou plus simplemet poids. 2. Calcul d'ue foctio o liéaire du potetiel, souvet appelée foctio d activatio. La sortie du euroe est alors la valeur de cette foctio, appelée parfois activité du euroe : x i = fv i (2) Aisi, e tout poit d'u hyperpla de l'espace des etrées défii par v i = costate, la sortie du euroe est costate. Si le euroe est ue foctio 28

43 Réseaux de foctios dorsales de deux variables, les liges de iveau de la sortie sot des droites parallèles, d'où le terme de foctio dorsale. La sortie d u euroe à foctio dorsale est o liéaire par rapport aux etrées et par rapport aux coefficiets c ij. Cette caractéristique est importate puisque, comme ous l'avos vu das le chapitre précédet, elle est à l'origie de la propriété de parcimoie. Il est commode de représeter graphiquemet u euroe à foctio dorsale comme idiqué sur la Figure 1, où apparaisset les deux phases du calcul de la sortie. x i Sortie f Σ v i c i 1 x 1 c i 2 x 2 c ini x Ni Poids syaptiques Etrées Figure 1. Représetatio graphique d'u euroe. Différetes foctios d activatio sot evisageables. Cette questio est discutée plus amplemet, et des exemples sot présetés, das le paragraphe III de ce chapitre. II.3 Qu est ce qu u réseau de euroes? U euroe état ue foctio o liéaire paramétrée, u réseau de euroes réalise ue combiaiso, elle-même paramétrée, de telles foctios. O a coutume de représeter cette combiaiso sous la forme de euroes, comme représetés sur la Figure 1, reliés etre eux par des coexios qui représetet les poids. O distigue covetioellemet deux types de euroes das u réseau : les euroes cachés, caractérisés e ce que leurs sorties e costituet pas les sorties du réseau, mais sot combiées par le (ou les) euroe(s) de sortie pour costituer celle(s)-ci : ils sot dits cachés parce que leur sortie est pas ue sortie du réseau. 29

44 Réseaux de foctios dorsales les euroes de sortie combiet les sorties des euroes cachés pour costituer les sorties du réseau. Pour des réseaux destiés à la modélisatio, les euroes de sortie sot gééralemet des "euroes liéaires" (leur foctio d'activatio est l'idetité) : aisi, la sortie d u réseau de euroes destié à la modélisatio statique de processus est ue combiaiso liéaire paramétrée d e foctios o liéaires paramétrées des variables. II.4 Réseaux o bouclés et réseaux bouclés. II.4.1 Les réseaux o bouclés. U réseau de euroes o bouclé, appelé aussi réseau statique, est u réseau dot le graphe des coexios est acyclique; il réalise ue foctio algébrique o liéaire de ses etrées. Comme ous l'avos idiqué au paragraphe précédet, o utilise gééralemet, pour la modélisatio de processus, u réseau compreat u euroe de sortie liéaire ; u tel réseau réalise doc ue combiaiso liéaire paramétrée d e foctios o liéaires paramétrées des variables. Si ces derières sot les valeurs, décalées d'ue période d'échatilloage, d'u même sigal, u tel réseau costitue u filtre o liéaire trasverse à temps discret. II.4.2 Les réseaux bouclés. U réseau de euroes bouclé, appelé aussi réseau dyamique, est u réseau dot le graphe des coexios peut coteir des cycles. Das u réseau à temps discret, u retard (etier positif ou ul) est associé à chaque coexio; pour que le réseau soit causal, tout cycle du graphe des coexios doit être tel que la somme des retards associés à chacue des coexios du cycle soit o ul. U réseau bouclé à temps discret est régi par ue équatio aux différeces récursive. Il costitue u filtre trasverse o liéaire. Il a été motré das [Nerrad92, Dreyfus98] que tout réseau (statique ou dyamique) peut être mis sous ue forme particulière, appelée forme caoique, qui est ue représetatio d'état miimale. Elle est costituée d'u réseau o bouclé, et de coexios de retard uité rameat les sorties de ce réseau o bouclé vers les etrées de celui-ci. La forme caoique permet de mettre clairemet e évidece u esemble miimum de variables d'état, et, de plus, so utilisatio facilite la mise e oeuvre de l appretissage du réseau. État doé que, das le cadre de ce mémoire, ous ous itéressos à la modélisatio dyamique de processus, ous utiliseros, le plus souvet des réseaux bouclés. 30

45 Réseaux de foctios dorsales II.5 Réseaux o bouclés complètemet coectés et réseaux à couches. O distigues deux familles de réseaux o bouclés e foctio de la topologie des coexios etre les euroes. II.5.1 Les réseaux o bouclés complètemet coectés. Das u réseau complètemet coecté, chaque euroe reçoit les etrées du réseau et les sorties des euroes de uméro iférieur. La figure 2 illustre u réseau complètemet coecté ayat N i etrées, N c euroes cachés et ue sortie. Neuroes cachés Sortie N i +1 N i +2 N i +N c +1 f f f 1 2 N i Etrées exteres Figure 2. Réseau de euroes complètemet coecté. II.5.2 Les réseaux o bouclés à couches. C est sas doute l architecture de réseau de euroes la plus répadue. De tels réseaux sot appelés perceptros multi couches (ou MLP pour Multi-Layer Perceptros). Les euroes cachés sot orgaisés e ue (ou parfois plusieurs) couches. Ils reçoivet leurs etrées des euroes de la couche précédete (ou des etrées du réseau s il s agit de la première couche de euroes cachés) et trasmettet leur sortie à ceux de la couche suivate. La figure 3 illustre u réseau ayat N i etrées, costitué d ue couche de N c euroes cachés et d ue sortie. 31

46 Réseaux de foctios dorsales Sortie Ψ N i + N c + 1 Couche avec u euroe de sortie liéaire N i +1 f f N i +N c f Couche de euroes cachés 1 2 N i Etrées exteres (vecteur X des variables) Figure 3. Réseau de euroes avec ue couche de euroes cachés et u euroe de sortie liéaire. Das le cadre de ce mémoire, ous ous itéresseros uiquemet aux réseaux de euroes possédat ue seule couche cachée et u euroe de sortie liéaire. E effet, cette classe de réseaux possède la propriété d approximatio uiverselle que ous préseteros das le paragraphe III de ce chapitre. La foctio réalisée par u tel réseau est bie du type défii par la relatio (11) du chapitre précédet : ψ X = N C X, Θ i (3) Σ i =1 θ i Φ i où chaque foctio Φ i est réalisée par u euroe, où les θ i sot les poids de la couche de coexios etre les sorties des euroes cachés et le euroe de sortie, et où les Θ i sot les vecteurs des poids des coexios etre les etrées et le euroe caché i. II.5.3 Les réseaux mis e œuvre das ce travail. Das ce mémoire, et comme précisé plus haut das ce même chapitre, ous utiliseros uiquemet pour la modélisatio statique, des réseaux possédat ue seule couche de euroes cachés. Ce choix est motivé par le fait qu ue telle architecture possède la propriété d approximatio uiverselle. pour la modélisatio dyamique, des réseaux tels que la partie statique de leur forme caoique est costituée d'u réseau à ue couche cachée. 32

47 Réseaux de foctios dorsales Le euroe de sortie est choisi avec ue foctio d activatio idetité. Ce choix permet de e pas limiter les valeurs de la sortie à celle des bores de la foctio d activatio. Les réseaux que ous utiliseros possèdet ue etrée costate (appelée aussi biais), reliée à tous les euroes (y compris le euroe de sortie). D'autre part, ous utiliseros des coexios directes etre les etrées du réseau et le euroe de sortie (ces réseaux e sot doc pas de purs réseaux à couches). L expressio aalytique d u tel réseau est doée par la relatio suivate : N c N i N i ψ(x)= c j f c jk x k + a k x k (4) j=1 k=0 k=0 Cette relatio est u cas particulier de la relatio (11) du chapitre précédet, où N c foctios Φ i sot des foctios dorsales, et N i foctios Φ i sot les foctios idetité. L etrée d'idice k=0 correspod à l etrée costate (x 0 =0). La figure 4 illustre ce réseau. Sortie N i + N c + 1 N i +1 f c 1 f a 0 c Ni a Ni f N i +N c a 1 x 0 =1 x 1 x Ni Figure 4. Réseau de foctios dorsales o bouclé que ous utilisos comme modèle statique de processus. III. CHOIX DE LA FONCTION D ACTIVATION ET PROPRIÉTÉ D APPROXIMATION UNIVERSELLE. Comme idiqué das le chapitre précédet, la propriété d approximatio uiverselle est ue caractéristique très désirable pour ue foctio paramétrée destiée à réaliser des modèles "boîte oire". Das le cas des réseaux de foctios dorsales, cette propriété déped de la foctio d activatio choisie. Das le cadre 33

48 Réseaux de foctios dorsales de ce mémoire, ous ous itéressos à deux foctios : la foctio tagete hyperbolique (sigmoïde) et la foctio gaussiee. III.1 La foctio sigmoïde. Il a été motré das [Cybeko89] qu u réseau de foctios dorsales costitué d ue seule couche de euroes cachés et dot la foctio d activatio ted vers 0 e et vers 1 e + possède la propriété d approximateur uiversel. Par exemple, la foctio (à valeurs das {0, 1}) défiie par Φ(v)= 1 1+e ±v remplit ces deux coditios. Das [Fuahashi89], la propriété est prouvée pour des foctios strictemet croissates et borées. A cet effet, la foctio la plus utilisée est la foctio tagete hyperbolique : Φ(v)= ev ± e ±v (à valeurs das e v + e ±v { 1,1}). Ces deux foctios sot dérivables, ce qui, comme ous l'avos vu au chapitre précédet, est importat pour l'appretissage. Notos que cette foctio peut être vue comme ue forme dérivable de la foctio sige(x) qui a été utilisée comme foctio d activatio des premiers euroes formels. D autre part, ous avos sigalé plus haut que les réseaux de foctios dorsales sot o liéaires par rapport à leurs paramètres ; ceci cofère à ces réseaux la propriété de parcimoie [Barro93, Horik94] : l erreur d approximatio décroît comme l iverse du ombre de foctios sigmoïdes que cotiet le réseau et ceci quelque soit le ombre d etrées. De ce fait, pour ue précisio désirée, le ombre de paramètres du réseau est proportioel au ombre d etrées. Par oppositio, le ombre de paramètres est ue foctio expoetielle du ombre d'etrées pour des réseaux liéaires par rapport aux paramètres (polyômes par exemple). III.2 La foctio gaussiee. La foctio d activatio gaussiee a été proposée das [Girosi95] das u cotexte de gééralisatio des réseaux préalablemet proposés par ces auteurs. Elle est défiie par Φ(v)=e ±v2. Du poit de vue de la propriété d approximatio uiverselle, les réseaux de foctios dorsales gaussiees possèdet des propriétés équivaletes à celles des réseaux de foctios sigmoïdes [Girosi95]. 34

49 Réseaux de foctios dorsales IV. APPRENTISSAGE DES RÉSEAUX DE FONCTIONS DORSALES. IV.1 Appretissage de réseaux o bouclés. État doée ue foctio de régressio à approcher ou u processus statique à modéliser à l aide d u réseau o bouclé de foctios dorsales, la première étape cosiste à choisir ue architecture pour ce réseau. Puisque ous ous itéressos uiquemet aux réseaux costitués d ue seule couche de euroes cachés, ce choix d architecture reviet au choix (ou à la détermiatio) du ombre de euroes cachés à cosidérer. Ue fois que le ombre de euroes cachés a été fixé, le réseau costitue ue famille de foctios paramétrées. La phase d appretissage du réseau cosiste à trouver, parmi toutes ces foctios, celle qui miimise la foctio de coût N =1 J θ = 1 y 2 p ± y Θ 2 ; comme ous l'avos idiqué au chapitre I, cette foctio permet de mesurer l écart etre les sorties du processus et celles du réseau aux poits de la séquece d appretissage. Comme ous l'avos idiqué plus haut, la sortie d'u réseau de foctios dorsales est o liéaire par rapport aux poids syaptiques ; l appretissage doit doc être effectué e utilisat u algorithme de gradiet comme ceux présetés au chapitre I. Le vecteur gradiet de la foctio de coût est calculé e utilisat l algorithme de rétropropagatio [Rumelhart86]. Cette implémetatio judicieuse du calcul du gradiet est itéressate das la mesure où le ombre d opératios à effectuer est mois importat que das le cas du calcul du gradiet das le ses direct. E effet, le calcul du gradiet par rétropropagatio cosiste à décomposer la (i,j) ème composate du gradiet partiel J c ij e : J = J v i =±q c ij v i c i x j avec ij Θ i = c i0 c i1... c ini T. Pour calculer le vecteur gradiet de la foctio de coût, il suffit de coaître les N C dérivées q i. E revache, le calcul du gradiet de la foctio de coût das le ses direct est basé sur la décompositio suivate : J = J e =±y c ij e c p ±y y. Le calcul de y se fait à partir des dérivées des sorties de ij c ij c ij tous les euroes qui ifluet sur le euroe de sortie, e partat de celles des etrées : x j avec j = 1,..., N c i. Das cette derière phrase apparaît u avatage de ij cette techique par rapport à la rétropropagatio. E effet, la rétropropagatio cosidère implicitemet que les dérivées partielles par rapport aux etrées sot ulles. Si ce est pas le cas (e particulier pour les réseaux bouclés), il est 35

50 Réseaux de foctios dorsales écessaire d avoir recours au calcul das le ses direct. Nous discutos das le chapitre III, ue autre situatio où le calcul das le ses direct est plus approprié que celui par rétropropagatio. IV.2 Appretissage de réseaux bouclés. Nous avos idiqué plus haut que tout réseau de euroes bouclé à temps discret peut être mis sous ue forme caoique costituée d'u réseau o bouclé dot les etrées sot les etrées exteres et les variables d'état à l'istat, et dot les sorties sot les sorties du réseau et les variables d'état à l'istat +1. Cette mise e forme d u réseau bouclé facilite le calcul du gradiet de la foctio de coût, et ramèe l'appretissage d'u réseau bouclé à celui d'u réseau o bouclé, comme ous le verros das le chapitre III. Aisi, qu il s agisse d effectuer l'appretissage de réseaux o bouclés ou celui de réseaux bouclés, o est toujours ameé à miimiser ue foctio de coût par l ue des méthodes de gradiet décrites das le chapitre I. IV.3 Iitialisatio du réseau et miima locaux. Pour que l algorithme de rétropropagatio démarre, les paramètres du réseau doivet être iitialisés à des valeurs o ulles. Cette étape d iitialisatio est très importate car elle est susceptible de détermier e partie le résultat obteu e fi d appretissage, doc les performaces du modèle aisi coçu. E effet, des iitialisatios différetes peuvet coduire à trouver, das l'espace de paramètres, des miima différets, doc des valeurs de paramètres différetes. Das les exemples étudiés das ce mémoire, ous avos adopté ue techique d iitialisatio classique, qui cosiste à iitialiser les paramètres de telle sorte que, e début d appretissage, les valeurs des sorties des euroes cachés se situet das les parties liéaires des sigmoïdes pour l esemble des séqueces d appretissage. Pour chaque architecture de réseau, o effectue plusieurs appretissages avec des iitialisatios différetes, et l'o retiet le réseau qui correspod à la plus petite valeur de la foctio de coût. Au demeurat, pour les réseaux de foctios dorsales, des expérieces umériques atérieures meées au laboratoire [Stoppi97] ot motré que le problème des miima locaux 'est pas dramatique : lorsque la foctio géératrice des doées d'appretissage est u réseau de euroes (le réseau "maître") ayat plus de ciq etrées, et que l'o effectue l'appretissage d'u réseau de euroes de même architecture (le réseau "élève"), celui-ci, e fi d'appretissage, est idetique au réseau maître das la majorité des cas. Nous verros das le chapitre III que la situatio est très différete pour les réseaux d'odelettes. 36

51 Réseaux de foctios dorsales IV.4 Autres schémas d appretissage pour les réseaux de foctios dorsales. Le schéma d appretissage classique des réseaux de foctios dorsales que ous utilisos das ce mémoire cosiste à choisir u ombre de euroes cachés et à effectuer esuite l ajustemet de tous les poids syaptiques de tous les euroes simultaémet. Das des tetatives d apporter des réposes au problème des miima locaux, o trouve das la littérature des propositios d'autres procédures d appretissage. Citos la procédure de l appretissage icrémetal [Hirose91, Jutte95, Mohraz96] qui cosiste à démarrer l appretissage avec u seul euroe et à e itroduire d autres au fur et à mesure que l appretissage progresse. L'icovéiet gééral de ces procédures réside das le fait qu'elles aboutisset gééralemet à des réseaux largemet sur-dimesioés, doc o parcimoieux, car les erreurs, forcémet importates, commises au début avec u petit ombre de euroes, écessitet, pour être corrigées, l'itroductio d'u grad ombre de euroes. Das le même esprit, d'autres auteurs [Chetouf96] proposet ue procédure d appretissage icrémetal de réseaux où foctios dorsales et foctios radiales cohabitet. La projectio pursuit regressio [Friedma81, Huber85, Hwag94] peut être cosidérée comme ue procédure d appretissage particulière de réseaux de foctios dorsales, dot l origialité réside das le fait que les foctios d activatio des euroes e sot pas prédétermiées (sigmoïde ou gaussiee) mais recostruites à chaque itératio de l algorithme comme ue somme de polyômes ou de foctios splies. V. ANALYSE D UN RÉSEAU DE FONCTIONS DORSALES. V.1 Pricipe. A la fi de l appretissage d u réseau, o peut se poser la questio suivate : tous les poids syaptiques ou tous les euroes participet-ils effectivemet à la foctio réalisée par le réseau? Autremet dit, sot-ils tous utiles? Suivat que l o s itéresse aux poids syaptiques ou aux euroes, la faço d étudier la questio est sesiblemet différete. Les techiques permettat de répodre à cette questio sot dites des techiques d élagage. V.2 Élagage de poids syaptiques. O trouve das la littérature cosacrée aux réseaux de foctios dorsales plusieurs procédures d élagages. Des techiques telles que OBD (Optimal Brai Damage) [LeCu90] ou OBS (Optimal Brai Surgeo) [Hassibi93] commecet par 37

52 Réseaux de foctios dorsales effectuer l appretissage d u grad réseau. L élagage des poids syaptiques est alors fodé sur la sesibilité de la foctio de coût à la variatio des poids syaptiques : si la foctio de coût est peu sesible vis à vis d u poids syaptique, celui-ci est supprimé et u ouvel appretissage du réseau est effectué. E particulier, si u poids correspodat à la podératio de la sortie d u euroe est supprimé, ce euroe est alors supprimé. L u des pricipaux icovéiets de ces méthodes et qu u appretissage est écessaire à chaque suppressio d u poids. Ces techiques peuvet être cosidérées comme u moye de détermier l architecture miimale pour obteir ue performace désirée. D autres procédures d élagage de poids syaptiques existet et sot résumées das [Reed93]. Ue méthode de suppressio de euroes cachés a été proposée das [Stoppi97], pour des réseaux à couches avec u euroe liéaire de sortie. La méthode cosiste à ajouter u euroe caché dot la sortie est aléatoire. O classe les etrées de ce modèle (sorties des euroes cachés) par ordre de pertiece décroissat par la techique classique d'orthogoalisatio de Gram-Schmidt, et l'o supprime tout euroe caché dot la sortie est classée après le euroe aléatoire. V.3 Ue procédure pour la détectio de euroes à foctios gaussiees mal utilisés. Lors de l'appretissage de réseaux de foctios dorsales gaussiees, il arrive que les coefficiets syaptiques d'u euroe devieet très grads. Le potetiel v état très grad, cela a pour effet de redre la sortie du euroe ulle presque partout ; ce euroe est alors mal utilisé, car il e participe pas (ou très peu) à la foctio réalisée par le réseau. Das [Girosi95], les réseaux de foctios dorsales gaussiees sot utilisés avec u algorithme d appretissage o détermiiste [Caprile90]. Cet algorithme d appretissage (appelé radom step algorithm) effectue u ajustemet aléatoire des coefficiets suivat la procédure suivate : o effectue u tirage aléatoire des adaptatios à apporter à chacu des coefficiets das u itervalle [α, β] de logueur préalablemet choisie. Si cet ajustemet aboutit à ue décroissace du coût, o le retiet et o double la logueur de l itervalle. Sio, il est rejeté et o dimiue de moitié la logueur de [α, β]. Le fait que l o cotrôle la logueur de l itervalle permet de cotrôler l ajustemet qu o apporte aux coefficiets. E ce qui ous cocere, ous sommes cofrotés à ce problème de euroes mal utilisés parce que ous utilisos des algorithmes d optimisatio o liéaire 38

53 Réseaux de foctios dorsales qui imposet aucue cotraite sur les valeurs que peuvet predre les coefficiets du réseau. Ce phéomèe se maifeste très souvet par ue erreur quadratique moyee calculée sur l esemble de performace très supérieure à celle calculée sur l esemble d appretissage sas qu il y ait u réel surajustemet. Ceci est dû au fait que, si u exemple de la séquece de test appartiet à la partie o ulle de la gaussiee mal utilisée, il itroduit u terme importat das l'eqmp. La figure 5 illustre u exemple à ue dimesio Poit de l'esemble d'appretissage Erreur de modélisatio Poit de l'esemble de performace Erreur de modélisatio 0.8 Sortie du processus 0.8 Cotributio du euroe "mal utilisé" à la sortie du réseau Sortie du modèle Poit itroduisat u terme importat das l'eqmp Figure 5. Illustratio d u exemple de euroe mal utilisé par le réseau : ue des gaussiees est très "poitue", et u exemple de l'esemble d estimatio de la performace se trouve précisémet das le pic de cette gaussiee. Nous ous sommes doc itéressés plus particulièremet au traitemet de ces euroes plutôt qu'à celui de poids syaptiques cosidérés idividuellemet. Cet itérêt e s iscrit pas das la perspective de détermier le ombre optimal de euroes pour obteir ue performace désirée mais plutôt das l objectif de retabiliser tous les euroes présets das u réseau afi d'obteir la meilleure performace possible avec ue architecture doée. Ue première approche cosisterait à mettre au poit ue procédure qui, comme les techiques d élagage de poids syaptiques, iterviedrait e fi d appretissage et permettrait de détecter ces euroes et de les supprimer. Ue telle approche est pas ue répose à otre problème état doé qu elle e permet pas de mettre à profit ces euroes. Nous proposos de détecter automatiquemet ces euroes pedat la phase d appretissage, et à les "réiitialiser" afi de les réitégrer das le processus d appretissage. Voici la procédure proposée : 39

54 Réseaux de foctios dorsales Tester les valeurs des poids syaptiques de chacu des euroes. Si aucu euroe mal utilisé est détecté : e rie faire et aller à l itératio suivate de l algorithme d appretissage. Sio, réiitialiser ces euroes de maière adéquate et aller à l itératio suivate. Les étapes de détectio et de réiitialisatio des euroes se déroulet de la maière suivate : 1 ère étape : Détectio automatique des euroes mal utilisés. État doé que l o cosidère qu u euroe est mal utilisé si la foctio qu il réalise a u écart-type trop petit, o propose de foder la détectio de ces euroes sur l aalyse de leurs poids syaptiques qui sot équivalets à l iverse d u écart-type. E effet, l expressio de la sortie d u euroe j état c j exp ± N 2 i Σ c ji x i i =1 N 2 i x Σ i 1 cji i =1, peut être écrite de la maière suivate : c j exp ± où les 1 sot les largeurs de la gaussiee das chacue des c ji directios i défiies par les etrées. Le potetiel du euroe caché j est doé par : N i v j = c jk x k (6) k=1 Nous désigos par S j la somme des valeurs absolues de tous les poids du euroe j : N i S j = (7) k=1 O compare cette quatité à u seuil S préalablemet choisi : Si S j < S o cosidère que le euroe est bie utilisé par le réseau et o iterviet doc pas. L appretissage cotiue. Sio o cosidère que le euroe est mal utilisé et o le réiitialise. A chaque itératio de l algorithme d appretissage, ce test est appliqué à tous les euroes cachés du réseau. c jk À l'heure actuelle, le choix de la valeur du seuil S est effectué de maière empirique. Ue grade valeur du seuil red la procédure peu efficace puisque des 40

55 Réseaux de foctios dorsales euroes mal utilisés peuvet échapper au test de réiitialisatio. Iversemet, ue petite valeur de S aboutit à ue réiitialisatio de plusieurs euroes à chaque test, de sorte que l appretissage e s arrête pas. 2 ème étape : Réiitialisatio d u euroe mal utilisé. Les euroes mal utilisés ayat été détectés sot comme e début d appretissage : leurs poids syaptiques sot iitialisés à de petites valeurs aléatoires, suivat ue distributio uiforme (voir paragraphe IV.3). Ue attetio particulière doit être portée au cas des coefficiets de podératio des sorties de ces euroes. E effet, état doé que ces euroes participaiet peu au réseau, leur réiitialisatio peut itroduire ue augmetatio du coût e cours d appretissage. Pour éviter cette situatio, o iitialise ces podératios à de petites valeurs de telle sorte qu à la reprise de l appretissage leur cotributio soit très faible. V.4 Étude d u exemple. Afi de mettre e œuvre la procédure décrite plus haut sur u exemple, o se propose d approcher la foctio sius cardial sur l itervalle [ 7, 7] à l aide d u réseau de quatre foctios dorsales gaussiees comme celui de la figure 4. L esemble d appretissage est costituée de 50 exemples tirés suivat ue distributio uiforme sur l itervalle cosidéré. Afi d estimer correctemet la performace, o choisit 500 exemples régulièremet espacés sur l itervalle cosidéré. L appretissage débute par ue phase de gradiet simple sur 500 itératios puis ue phase de gradiet de secod ordre (algorithme de BFGS). L appretissage s arrête lorsque au mois u des critères d arrêt est satisfait (ces critères sot éocés das le paragraphe V.2.2 du chapitre I). Afi de mettre e évidece l apport de la procédure proposée, o effectue das ue première étape dix appretissages du réseau avec autat d'iitialisatios différetes. Das ue secode étape, o fait autat d appretissages e détectat cette fois les euroes mal utilisés et e les réiitialisat. Le tableau 1 illustre les résultats des appretissages sas utilisatio de la procédure. 41

56 Réseaux de foctios dorsales Appretissage EQMA EQMP 1 er ème ème ème ème ème ème ème ème ème Tableau 1. Résultats des appretissages sas applicatio de la procédure. Hormis deux appretissages, la performace est de l ordre de 10 5 ou de D autre part, o costate souvet u rapport de l ordre de 10 ou plus etre le critère de l'appretissage et celui d'évaluatio de la performace. Le tableau 2 présete les résultats des appretissages (utilisat les même iitialisatios des coefficiets du réseau) au cours desquels la procédure a été utilisée avec u seuil S = 1. La quatrième coloe du tableau idique le ombre de fois où la procédure a détecté u ou plusieurs euroes mal utilisés. Après chaque itervetio de la procédure, l algorithme d appretissage repart avec ue phase de gradiet simple avat celle de gradiet de secod ordre. Appretissage EQMA EQMP Procédure (s) 1 er ème ème ème ème ème ème ème ème ème Tableau 2. Résultats des appretissages avec applicatio de la procédure. 42

57 Réseaux de foctios dorsales Lors de la mise e oeuvre de cette procédure, o costate qu e début d appretissage il arrive très souvet qu u ou plusieurs euroes soiet réiitialisés. Au fur et à mesure que l algorithme progresse, le ombre de réiitialisatios dimiue et e fi d appretissage la procédure iterviet plus. Ue comparaiso des deux tableaux motre que les performaces obteues avec des appretissages utilisat la procédure sot très souvet meilleures que celle obteues avec u appretissage classique. D autre part, la différece etre l EQMA et l EQMP est souvet plus petite. Cela motre que la procédure apporte effectivemet ue meilleure utilisatio des euroes et évite l apparitio de surappretissage. O voit éamois sur l exemple du 9 ème appretissage que, l utilisatio de la procédure améliore pas toujours la performace du réseau. VI. MODÉLISATION DYNAMIQUE DE PROCESSUS À L AIDE DE RÉSEAUX DE FONCTIONS DORSALES. Les réseaux de foctios dorsales et particulièremet de foctios sigmoïdes ot été très étudiés comme outils de modélisatio dyamique boîte oire. O trouve das la littérature les deux approches classique de la modélisatio de processus abordées : modélisatio etrée sortie [Naredra90, Nerrad92] et modélisatio d état [Levi92, Rivals96]. VI.1 Modélisatio etrée sortie. Das u cotexte de modélisatio o liéaire dyamique de processus à l aide de réseaux de foctios dorsales, o peut être ameé à effectuer l appretissage d u réseau bouclé ou o bouclé. Le choix de l architecture déped de l hypothèse faite sur l existece ou o d u bruit qui agit sur le processus, et s'il existe, de la maière avec laquelle il agit. VI.1.1 Prédicteurs o bouclé. U prédicteur etrée-sortie o bouclé aura pour expressio : y = ψ y p ±1,..., y p ±N s, u±1,..., u±n (8) e où ψ est ue foctio réalisée à l aide d u réseau de foctios dorsales comme celui de la figure 4. Le vecteur des etrées est costitué par les N s valeurs de la sortie et les N e de l etrée extere. Nous avos doc N i =N e +N s. Ce réseau est représeté sur la figure 6. L appretissage d u prédicteur o bouclé s appuie sur ue approche idetique à celle adoptée pour des réseaux pour modélisatio statique. 43

58 Réseaux de foctios dorsales y() ψ u( 1) u( N e ) y p ( 1) y p ( N s ) Figure 6. Réseau etrée-sortie o bouclé. VI.1.2 Prédicteur bouclé. U prédicteur etrée-sortie bouclé aura pour expressio : y()=ψ y±1, y±2,..., y±n s, u±1,..., u±n e (9) où ψ est ue foctio réalisée à l aide d u réseau de foctios dorsales comme celui de la figure 4. Ce réseau est illustré par la figure suivate : y... ψ q u 1 u N e y( N s ) y( 1) Figure 7. Réseau etrée-sortie bouclé. L appretissage d u prédicteur bouclé diffère du cas précédet par le fait que le calcul du gradiet de la foctio de coût est redu plus compliqué état doé que les etrées d état dépedet des poids syaptiques du réseau. Ce calcul est préseté das [Nerrad93]. VI.2 Modélisatio d état. U prédicteur d état euroal a pour expressio : x = ψ 1 x±1,u±1 y = ψ 2 x±1,u±1 (10) 44

59 Réseaux de foctios dorsales où x() et le vecteur d état du modèle à l istat. ψ 1 et ψ 2 sot deux foctios, la première vectorielle et la secode scalaire réalisée à l aide d u réseau de foctios dorsales. Celui-ci est illustré par la figure suivate : Sortie Sorties d'état y() x 1 () x Ns ()... f f... q u( 1) u( N e ) x Ns ( 1) x 1 ( 1) Etrée extere Etrées d'état Figure 8. Réseau d état bouclé. Le calcul du gradiet de la foctio de coût pour l appretissage des réseaux d état fodés sur des foctios dorsales est préseté das [Rivals95a]. Nous cosidéros égalemet des réseaux d état pour lesquels la sortie est l u des états du modèle. U exemple est préseté das le paragraphe III.4 du chapitre V. V II. CONCLUSION. E raiso de leurs propriétés d approximatio uiverselle et de parcimoie, les réseaux de foctios dorsales sot bie adaptés à la modélisatio o liéaire de processus, aussi bie etrée sortie que d état. Ils peuvet costituer des outils de modélisatio o liéaire, statique ou dyamique, très efficaces. Le prix à payer réside das le fait que, la sortie 'état pas liéaire par rapport aux paramètres, l'estimatio de ceux-ci exige la miimisatio itérative de foctios de coût qui possèdet des miima locaux. Cepedat, cet icovéiet peut être aisémet surmoté e effectuat plusieurs appretissages, ce qui est redu possible par l'existece d'algorithmes de miimisatio très efficaces. 45

60 CHAPITRE III Réseaux d odelettes (approche fodée sur la trasformée cotiue)

61 Réseaux d'odelettes fodés sur la trasformée cotiue I. INTRODUCTION. Le terme odelette désige ue foctio qui oscille pedat u temps doé (si la variable est le temps) ou sur u itervalle de logueur fiie (si la variable est de type spatial). Au delà, la foctio décroît très vite vers zéro. Historiquemet, les premières odelettes (itroduites par Haar das les aées 1930) costituaiet ue base de foctios orthogoales. Les odelettes de Haar présetet la particularité de e pas être dérivables. Plus récemmet, de ouvelles foctios odelettes ot été itroduites [Meyer85, Meyer90], qui costituet égalemet ue base de foctios orthogoales, et qui, de plus, sot dérivables. Elles ot été otammet mises e œuvre das le cadre de l'aalyse multirésolutio de sigaux [Mallat89]. Ces odelettes e peuvet s exprimer sous ue forme aalytique simple. Pour cette raiso, elles sot peu adaptées pour l approximatio de foctios. Nous utiliseros doc pas les odelettes orthogoales das ce mémoire. Les structures obliques (frames e aglais) ot été itroduites par J. Morlet das le but de trouver des bases de foctios (o écessairemet orthogoales) pour représeter des sigaux. Ces structures obliques ot été esuite l objet des travaux de I. Daubechies [Daubechies90] qui a développé u support théorique aux résultats de J. Morlet. Les structures obliques ot des expressios aalytiques simples, et toute foctio de carré sommable peut être approchée, avec la précisio voulue, par ue somme fiie d odelettes issues d ue structure oblique. Cette propriété est équivalete à celle de l approximatio uiverselle pour les réseaux de foctios dorsales. Pour toutes ces raisos, ous ous sommes itéressés uiquemet, das otre travail, à des structures obliques d'odelettes. Das ce chapitre, ous présetos tout d abord les foctios odelettes et la trasformée e odelettes. Deux approches sot à cosidérer : la trasformée e odelettes cotiue et la trasformée e odelettes discrète, comme illustré par la Figure 1. 47

62 Réseaux d'odelettes fodés sur la trasformée cotiue Les odelettes Théorie de l'aalyse mutirésolutio Les structures obliques (frames) Théorie des odelettes orthogoales Trasformée e odelettes Trasformée cotiue Trasformée discrète Figure 1. Le préset chapitre est cosacré aux odelettes utilisées pour la trasformée cotiue et aux réseaux de telles odelettes. Nous décrivos e détail la techique de modélisatio statique par réseaux d'odelettes, et ous itroduisos la modélisatio dyamique par ces réseaux ; ous motros qu'il est possible de cosidérer soit des réseaux etrée-sortie, soit des réseaux d'état. II. RÉSEAUX ISSUS DE LA TRANSFORMÉE EN ONDELETTES CONTINUE. De maière aalogue à la théorie des séries de Fourier, les odelettes sot pricipalemet utilisées pour la décompositio de foctios. La décompositio d ue foctio e odelettes cosiste à l écrire comme ue somme podérée de foctios obteues à partir d opératios simples effectuées sur ue foctio pricipale appelée odelette mère. Ces opératios cosistet e des traslatios et dilatatios de la variable. Selo que ces traslatios et dilatatios sot choisies de maière cotiue ou discrète, o parlera d ue trasformée e odelettes cotiue ou discrète. II.1 La trasformée e odelettes cotiue. Ue trasformée e odelettes est dite cotiue lorsque les paramètres structurels des foctios utilisées (c'est-à-dire les traslatios et les dilatatios) peuvet predre importe quelle valeur de l esemble des réels R (les dilatatios doivet éamois être positives). Soit φ ue odelette mère, x la variable, m j le paramètre de traslatio et d j le paramètre de dilatatio. L odelette φ j de la famille de φ ayat pour paramètres m j et d j a pour expressio : φ j (x)= 1 φ x ± m j (1) d j d j 48

63 Réseaux d'odelettes fodés sur la trasformée cotiue avec m j R et d j R* +. O costitue aisi ue famille d odelettes egedrée à partir de l odelettemère. O la ote Ω. O a alors la défiitio suivate : Ω = 1d j φ x ± m j d j, m j R et d j R + * (2) Comme les réseaux d odelettes auxquels ous allos ous itéresser sot issus de la trasformée e odelettes cotiue, ous allos préseter brièvemet celle ci. Soiet f et g deux foctios ; o défiit leur produit scalaire par l itégrale suivate : <f, g>= R f(x) g(x) dx Pour que la trasformée e odelettes d ue foctio existe, il faut que cette foctio appartiee à l esemble des foctios de carré sommable que l o ote par L 2 (R). Autremet dit, il faut que so carré soit fii. Cette coditio se traduit par : f 2 (x) dx < (4) R Das ces coditios, la trasformée e odelette cotiue de la foctio f est défiie comme le produit scalaire de f et de φ [Cohe96] : W(m, d)= 1 f(x) φ x ± m dx (5) d d R La famille Ω doit costituer ue structure oblique de l esemble L 2 (R) et y être dese. Cette propriété est assurée par l existece de deux costates c > 0 et C < telles que, pour toute foctio f pour laquelle il existe ue trasformée e odelettes, o ait l iégalité suivate : c f 2 < φ j, f > 2 C f 2 (6) φ j Ω De ce fait, toute combiaiso liéaire d u ombre fii d élémets de la famille Ω est dese das L 2 (R). Ceci garatit égalemet que cette famille de foctios possède la propriété d approximatio uiverselle défiie das le chapitre I du préset mémoire [Zhag92]. La recostructio de la foctio f à partir de sa trasformée est possible das le cas où l itégrale suivate est covergete : (3) C φ = 0 φ(ω) 2 dω (7) ω 49

64 Réseaux d'odelettes fodés sur la trasformée cotiue où φ est la trasformée de Fourier de φ. Cette derière coditio est égalemet appelée critère d admissibilité pour ue odelette. Das ce cas, f peut être recostruite à partir de la relatio suivate : f(x)= 1 C φ W(m, d) R R + 1d φ x ± m d dd dm (8) La coditio (7) est très itéressate das la mesure où elle doe des iformatios sur les propriétés que doit vérifier ue odelette mère (si l'o souhaite que la recostructio de la foctio trasformée soit possible). E particulier, o doit avoir φ(0)= 0. E remplaçat ω par 0 das la défiitio de la trasformée de Fourier de φ, o voit que cette coditio est équivalete à : φ x dx =0 (9) R Doc, ue odelette est ue foctio à support de logueur fiie et d itégrale ulle. Aisi, les gaussiees radiales e peuvet pas être cosidérées comme des odelettes. II.2 De la trasformée iverse aux réseaux d odelettes. La relatio (8) doe l'expressio d'ue foctio f de carré sommable sous la forme d'ue itégrale sur toutes les dilatatios et toutes les traslatios possibles de l'odelette mère. Supposos que l'o e dispose que d'u ombre fii N w d'odelettes φ j obteues à partie de l'odelette mère φ. O peut alors cosidérer la relatio N w f(x) c j φ j x (10) j=1 comme ue approximatio de la relatio (8). La somme fiie de la relatio (10) est doc ue approximatio d ue trasformée iverse. Elle peut être vue aussi comme la décompositio d ue foctio e ue somme podérée d odelettes, où chaque poids c j est proportioel à W(m j, d j ). Si l'o cherche à réaliser ue approximatio d'ue foctio défiie sur u domaie fii (doc de carré sommable), la trasformée e odelette de cette foctio existe, et sa recostructio est possible. Das le cadre de la modélisatio boîte oire, la foctio que l'o veut approcher (la foctio de régressio de la gradeur à modéliser) 'est pas coue : o e dispose que des poits de mesure, e ombre fii. O peut alors chercher à obteir ue approximatio de la foctio de régressio sous la forme (10), où les coefficiets c j, aisi que les paramètres m j et d j des odelettes, doivet être estimés à partir des doées dispoibles. 50

65 Réseaux d'odelettes fodés sur la trasformée cotiue C est das cette perspective qu a été proposée l idée de réseaux d odelettes. Ces réseaux ot été itroduits pour la première fois à la même époque das [Zhag92, Pati93]. III. DÉFINITION DES ONDELETTES MULTIDIMENSIONNELLES ET DES RÉSEAUX D'ONDELETTES. III.1 Odelettes multidimesioelles. Das le paragraphe précédet, ous avos préseté les odelettes à ue dimesio. Das le cadre de la modélisatio, il est fréquet d'avoir affaire à des processus multivariables ; il est doc utile d'itroduire la otio d odelette multidimesioelle. O peut défiir ue odelette multidimesioelle comme le produit d'odelettes moodimesioelles : o dit alors que les odelettes sot séparables. Das ce cas, l'expressio d'ue odelette multidimesioelle est : N i Φ j (x)= φ(z jk ) avec z = x k ± m jk jk (11) d jk k=1 où x k est la k-ième composate du vecteur d'etrée x, et z jk la composate cetrée par m jk et dilatée d u facteur d jk. Il a été motré das [Kuga95] que ces odelettes multidimesioelles sot des structures obliques de L 2 (R Ni ). III.2 Réseaux d'odelettes. Das le préset travail, ous cosidéros des réseaux d odelettes de la forme suivate : N w N i y = ψ(x)= c j Φ j (x) + a k x k avec x 0 =1 (12) j=1 où y est la sortie du réseau et x = x 1,x 2,..., x Ni le vecteur des etrées ; il est souvet utile de cosidérer, outre la décompositio e odelettes propremet dite, que la sortie peut avoir ue composate affie par rapport aux variables, de coefficiets a k (k = 0, 1,..., N i ). Pour la simplicité de l'exposé, ous e cosidéreros que des réseaux à ue sortie ; la gééralisatio à des réseaux à plusieurs sorties e présete pas de difficulté. Par aalogie avec les réseaux de foctios dorsales discutés das le chapitre II, o peut représeter ue odelette de maière aalogue à u euroe, comme idiqué sur la figure 2. k=0 51

66 Réseaux d'odelettes fodés sur la trasformée cotiue Φ j (x) z j1 z jni 1 1 d d jn j1 i m j1 m jn x 1 x Ni Figure 2. Représetatio graphique d ue odelette multidimesioelle séparable. Le réseau peut être cosidéré comme costitué de trois couches. Ue première couche avec N i etrée(s), ue couche cachée costituée par N w odelettes et u sommateur (ou euroe liéaire) de sortie recevat les sorties podérées des odelettes multidimesioelles et la partie affie. Ce réseau est illustré par la figure 3. y Neuroe liéaire de sortie c 1 c 2 c N w Φ 1 Φ Φ N w Couche d'odelettes a 0 a a N i 1 x 1 x 2 x N i Figure 3. Représetatio graphique d u réseau d odelettes. 52

67 Réseaux d'odelettes fodés sur la trasformée cotiue Aisi, e se référat à la classificatio faite das le paragraphe IV du chapitre I, les réseaux d odelettes sot des réseaux de foctios o liéaires paramétrées, où le vecteur Θ i est costitué par les traslatios et les dilatatios de l odelette multidimesioelle. Plusieurs choix d odelettes sot possibles. E effet, plusieurs familles d odelettes existet. Les odelettes les plus coues (et aussi les plus aciees) sot certaiemet celles qui costituet le système de Haar que l o présetera das le chapitre suivat, das le cotexte d odelettes orthogoales. Les foctios du système de Haar état pas dérivables, il 'est pas possible d'appliquer aux réseaux de telles odelettes les algorithmes d'estimatio des paramètres présetés das le chapitre I. Les odelettes que ous allos utiliser pour la costructio de réseaux sot celles issues des travaux de I. Daubechies. O parle das ce cas d odelettes de la famille de Daubechies. Ces foctios sot dérivables et possèdet la propriété d approximatio uiverselle e vertu de la relatio (6). Ue odelette-mère que ous utilisos das ce mémoire et que l o retrouve das [Zhag92] est la dérivée première de la foctio gaussiee. C est l ue des odelettes les plus utilisées [Torré95]. Elle est défiie par : φ(x)=±xe x2 et φ j (x)=± 1 x ± m j exp ± 1 2 x ± m j (13) d j d j 2 Le graphe de cette foctio est représeté sur la figure suivate : d j Figure 4. Graphe d ue odelette. Cette odelette peut être cosidérée comme ue forme dérivable des odelettes du système de Haar, comme la tagete hyperbolique utilisée comme foctio d activatio des réseaux de euroes (présetés au chapitre II de ce mémoire) est ue forme dérivable de la foctio sige. 53

68 Réseaux d'odelettes fodés sur la trasformée cotiue Ue autre odelette-mère que l o recotre souvet das la bibliographie (par exemple das [Cao95, Baro97]) est la dérivée secode de la foctio gaussiee. So expressio est : φ(x)= x 2 ±1 e -1 2 x2 (14) Elle est appelée odelette chapeau mexicai. So graphe est le suivat : Figure 5. Graphe de l odelette chapeau mexicai. III.3 Réseaux d'odelettes et réseaux de euroes. La pricipale ressemblace etre les réseaux de euroes à foctios dorsales, étudiés au chapitre II du préset mémoire, et les réseaux d'odelettes, réside das le fait que les deux réseaux calculet ue combiaiso liéaire, à paramètres ajustables, de foctios o liéaires dot la forme déped de paramètres ajustables (traslatios et dilatatios). Les différeces essetielles etre ces deux types de réseaux sot les suivates : cotrairemet aux foctios dorsales, les odelettes sot des foctios qui décroisset rapidemet, et tedet vers zéro das toutes les directios de l'espace. Elles sot doc locales si d j est petit ; cotrairemet aux foctios dorsales, la forme de chaque odelette moodimesioelle est détermiée par deux paramètres ajustables (traslatio et dilatatio) qui sot des paramètres structurels de l'odelette ; chaque odelette moodimesioelle possède deux paramètres structurels, doc, pour chaque odelette multidimesioelle, le ombre de paramètres ajustables est le double du ombre de variables. Pour comparer la complexité des réseaux, deux élémets sot importats : le ombre de paramètres ajustables et le ombre d'opératios élémetaires à effectuer (tableau 1). Nous utiliseros les otatios suivates : 54

69 Réseaux d'odelettes fodés sur la trasformée cotiue Nombre d etrées : Nombre de foctios : Nombre de sorties : N i (etrée costate o comprise). N w (pour les odelettes), N c (pour les foctios dorsales). Ue. Nombre de foctios. Nombre de paramètres. Nombre d opératios pour le calcul de la sortie. Réseaux de foctios Réseaux de foctios dorsales odelettes N c N w N i +2 N c +1 ±1 2 N i N w + N w + N i +1 N c 2 N i +3 + N i +1 3 N w N i +2 + N i +1 Tableau 1. Ue comparaiso etre réseaux d odelettes et de foctios dorsales. O eted par opératio les opératios mathématiques élémetaires, c est-àdire ue additio, ue multiplicatio ou ue divisio. État doées les propriétés de la foctio expoetielle, et pour chacu des deux types de réseaux, il y a autat de foctios expoetielle à calculer que de euroes cachés ou d odelettes multidimesioelles das le réseau. Lequel des deux types de réseaux est plus écoomique e termes de ombre d opératios écessaires pour le calcul de la sortie? La répose peut être obteue e faisat la différece etre les deux résultats de la derière lige du tableau cidessus. E effet, à ombre de foctios égales (c est-à-dire N w = N c ), la différece etre les ombre d opératios pour les deux types de réseaux est égale à N w (N i + 3). Le ombre d opératios effectuées lors du calcul de la sortie avec u réseau d odelettes est doc toujours supérieur à celui effectué par u réseau de foctios dorsales ayat le même ombre d etrées et de foctios. IV. APPRENTISSAGE DES RÉSEAUX D ONDELETTES NON BOUCLÉS. IV.1 Calcul du gradiet de la foctio de coût. Les coefficiets du réseau peuvet être divisés e deux classes : les paramètres structurels des foctios, c est-à-dire les traslatios et les dilatatios ; les coefficiets de podératios c j et les coefficiets a k de la partie affie. 55

70 Réseaux d'odelettes fodés sur la trasformée cotiue Deux possibilités s offret à ous pour la costructio du réseau : choisir les paramètres structurels das u esemble de valeurs discrètes ; cosidérer ces paramètres comme ceux d u réseau de euroes classique et utiliser ue techique d optimisatio pour e faire ue estimatio. Discrétiser le domaie des traslatios et des dilatatios sigifie qu o effectue la costructio de réseaux d odelettes suivat ue approche fodée sur la trasformée e odelettes discrète. Cette questio sera étudiée e détail das le chapitre suivat. Das ce qui suit, ous allos adopter la secode possibilité, et faire appel aux techiques d optimisatio o liéaire décrite das le chapitre I de ce documet. Rappelos que l appretissage cosiste e la miimisatio de la foctio de coût suivate : avec y = ψ x, θ = J(θ)= 1 2 j=1 N =1 y p ± y 2 = 1 2 c j Φ j x, m j, d j N =1 e 2 (15) N w N i + a k x k avec x 0 =1 (16) où y p est la sortie désirée correspodat à l exemple, y est la sortie du réseau d odelettes pour l exemple, et x = x 1,..., x Ni est le vecteur des etrées. θ est le vecteur regroupat l'esemble des paramètres ajustables : θ = m jk, d jk, c j, a k, a 0 j =1,..., N w et k =1,..., N i (18) Les techiques d optimisatio utilisées écessitet le calcul du vecteur gradiet de la foctio de coût par rapport au vecteur des paramètres ajustables. So expressio est : N J θ =± y e (19) θ où y θ =1 est la valeur du gradiet de la sortie du réseau par rapport aux paramètres θ au poit x=x : y θ = y θ k=0 x = x (17) (20) 56

71 Réseaux d'odelettes fodés sur la trasformée cotiue Calculos à préset la dérivée de la sortie par rapport à chacu des paramètres du réseau. Pour les coefficiets directs {a k } : y = x a k k =1,..., Ni (21) k Pour les podératios des odelettes {c j } : y = Φ c j (x ) k =1,..., N i j et j =1,..., N w (22) Pour les traslatios {m jk } : y m jk =± c j d jk Φ j z jk x = x Pour les dilatatios {d jk } : y d jk =± c j d jk z jk Φ j z jk x = x k =1,..., N i et j =1,..., N w (23) k =1,..., N i et j =1,..., N w (24) Φ j z jk x = x est la valeur de la dérivée partielle de l odelette multidimesioelle par rapport à la variable z jk au poit x=x. État doé la relatio (11), cette dérivée partielle vaut : Φ j = φ z z j1 φ z j2... φ ' z jk... φ zjni (25) jk x = x avec φ ' z jk la dérivée au poit x=x de l odelette scalaire, c'est-à-dire : φ ' zjk = dφ z dz z = z jk (26) IV.2 Iitialisatio des paramètres du réseau. Ue foctio odelette moodimesioelle est défiie sur tout l esemble R, mais l essetiel de sa cotributio s éted sur u itervalle cetré autour de la valeur de la traslatio et dot la logueur déped du paramètre de dilatatio. Das le cas de réseaux de euroes à foctios dorsales, l iitialisatio des paramètres du réseau est gééralemet effectuée de maière aléatoire, de telle maière que le potetiel de chaque euroe caché soit suffisammet petit pour que les sorties des euroes se trouvet das la partie liéaire de la sigmoïde. Les odelettes état des foctios à décroissace rapide, ue iitialisatio aléatoire des paramètres de traslatio et de dilatatio serait très iefficace : e effet, si les traslatios sot iitialisées à l extérieur du domaie coteat les exemples, ou si les dilatatios choisies sot trop petites, la sortie de l odelette 57

72 Réseaux d'odelettes fodés sur la trasformée cotiue est pratiquemet ulle, de même que sa dérivée. L algorithme d adaptatio des paramètres état fodé sur ue techique de gradiet, il est iopérat. Ue attetio particulière doit doc être portée à cette phase d iitialisatio des paramètres. Nous proposos ici ue procédure d iitialisatio simple, qui pred e cosidératio le domaie où sot répartis les exemples de l esemble d appretissage. Soit α k, β k l itervalle coteat les k ème composates des vecteurs d etrée des exemples. O iitialise les traslatios m jk (j = 1,..., N w ) au cetre de l itervalle α k, β k : m jk = α k + β k avec j =1,..., N 2 w (27) Les paramètres de dilatatio sot choisis de telle maière que les variatios de l odelette s étedet sur tout l itervalle α k, β k. Cette coditio est remplie avec le choix suivat : d jk = 0,2 α k ± β k avec j =1,..., N w (28) Cette procédure est valable otammet pour l odelette mère illustrée par la figure 4 que ous allos utiliser das os exemples. Reste la questio de l iitialisatio des coefficiets de podératio des odelettes (c j avec j = 1,..., N w ) et ceux de la partie affie a k avec k = 1,..., N i. L iitialisatio de ces coefficiets est mois importate, pour le déroulemet de l appretissage, que celle des paramètres structurels ; ils sot iitialisés de maière aléatoire, uiformémet répartis das l itervalle[ 10 2 ; ]. Cette procédure e écessite pratiquemet pas de calcul ; elle est très simple à mettre e œuvre. Le fait que, pour j = 1,..., N w toutes les traslatios soiet iitialisées à la même valeur (aisi que les dilatatios) peut laisser peser qu elles vot évoluer de maière idetique si l'o effectue plusieurs appretissages successifs. Ue telle situatio est évitée par le fait que les podératios de chacue des odelettes du réseau sot iitialisées différemmet. Néamois, cette procédure d iitialisatio présete u icovéiet : elle utilise peu les propriétés des odelettes. E effet, o peut imagier que l o puisse mettre au poit ue techique d iitialisatio qui utilise plus l iformatio apportée par les paramètres structurels, afi que la foctio de coût soit au voisiage d u miimum avat d effectuer l appretissage propremet dit. Ue telle procédure est proposée das le chapitre suivat ; elle est utilisable pour des réseaux d odelettes issus de la trasformée e odelettes discrète. 58

73 Réseaux d'odelettes fodés sur la trasformée cotiue IV.3 Exemple de modélisatio statique. IV.3.1 Présetatio du processus simulé. Pour mettre e pratique les réseaux d odelettes o bouclés que ous veos de préseter, ous ous proposos d étudier la modélisatio statique d u processus à ue etrée. Le processus est simulé à partir de la foctio défiie sur l itervalle [ 10, +10] par : ±2,186 x ± 12,864 si x [±10, ±2[ f x = 4,246 x si x [±2, 0[ 10 exp ±0,05 x ± 0,5 si x 0,03 x + 0,7 si x [0, 10] (29) Le graphe de cette foctio est représeté sur la figure 6 : Figure 6. Sortie du processus pour l itervalle de l etrée cosidéré. IV.3.2 Modélisatio avec 100 exemples. La séquece d appretissage est costituée de 100 exemples choisis de maière aléatoire, uiformémet répartis, das l itervalle cosidéré. La séquece d estimatio de la performace du modèle est formée de 1000 exemples régulièremet répartis. O utilise les deux algorithmes de BFGS et de Leveberg Marquardt (présetés das le chapitre I de ce documet). Das le cas de l utilisatio de la procédure BFGS, ue phase de gradiet simple avec pas asservi est préalablemet appliquée. Pour chaque réseau, o effectue cet appretissages e modifiat à chaque fois le germe de l iitialisatio aléatoire des podératios {c j } des odelettes et des coefficiets {a k } de la partie affie du réseau. Rappelos que l iitialisatio des traslatios et des dilatatios est détermiiste (suivat la procédure exposée au paragraphe précédet) : elle est doc idetique pour tous les appretissages. Nous avos testé quatre architectures, à 4, 6, 8 et 10 odelettes. 59

74 Réseaux d'odelettes fodés sur la trasformée cotiue Le tableau 2 présete, pour chacue de ces quatre architectures : le meilleur EQMP obteu à l'issue de cet appretissages avec l'algorithme de BFGS, l'eqma correspodat. Nombre d odelettes. EQMA EQMP 4 7, , , , , , , , Tableau 2. Résultats obteus avec l algorithme de BFGS. La Figure 7 présete les histogrammes des EQMA et des EQMP, pour les 100 appretissages d'u réseau de 10 odelettes effectués avec l'algorithme de BFGS. O observe ue dispersio des EQMA et des EQMP, due à l'existece de miima locaux de la foctio de coût. Nous motreros das le paragraphe suivat que ce problème est très attéué si l'o utilise u plus grad ombre d'exemples pour l'appretissage. 35 Histogramme EQMA 35 Histogramme EQMP Figure 7. Histogrammes des EQMA et EQMP pour 100 appretissages. Les résultats obteus das les mêmes coditios e utilisat l algorithme de Leveberg Marquardt sot portés sur le tableau 3. Nombre d odelettes. EQMA EQMP 4 8, , , , , , , , Tableau 3. Résultats obteus avec l algorithme de Leveberg Marquardt. 60

75 Réseaux d'odelettes fodés sur la trasformée cotiue Les meilleurs résultats fouris par les deux algorithmes sot équivalets. IV.3.3 Modélisatio avec 300 exemples. Nous utilisos cette fois u esemble d'appretissage compreat 300 exemples uiformémet répartis das l itervalle [ 10, +10] et ous effectuos de ouveau 100 appretissages comme précédemmet. Le tableau 4 présete, pour chacue des quatre architectures cosidérées : le meilleur EQMP obteu à l'issue de cet appretissages avec l'algorithme de BFGS, l'eqma correspodat. Nombre d odelettes. EQMA EQMP 4 6, , , , , , , , Tableau 4. Résultats obteus avec l algorithme de BFGS. La Figure 8 présete les histogrammes des EQMA et des EQMP, pour les 100 appretissages d'u réseau de 10 odelettes effectués avec l'algorithme de BFGS. 80 Histogramme EQMA 80 Histogramme EQMP Figure 8. Histogrammes des EQMA et EQMP pour 100 appretissages. O costate que les résultats sot beaucoup mois dispersés que ceux qui sot présetés sur la Figure 7. Le fait que la distributio des miima locaux est d'autat plus large que le ombre d'exemples est petit 'est pas spécifique des odelettes ; il a fait l'objet d'ue étude das [Stoppi97]. 61

76 Réseaux d'odelettes fodés sur la trasformée cotiue Les résultats obteus das les mêmes coditios e utilisat l algorithme de Leveberg Marquardt sot portés sur le tableau 5. Nombre d odelettes. EQMA EQMP 4 7, , , , , , , , Tableau 5. Résultats obteus avec l algorithme de Leveberg Marquardt. Là ecore, les meilleurs résultats sot aalogues à ceux qui ot été obteus avec l'algorithme de BFGS. Les fréqueces d'obtetio des meilleurs miima sot voisies. Cet exemple sera repris das le chapitre IV, où ous illustreros la mise e œuvre d'ue procédure de sélectio pour l'iitialisatio des traslatios et dilatatios des odelettes. IV.3.4 Ifluece des termes directs Les résultats présetés das les deux paragraphes précédets étaiet relatifs à des réseaux décrits par la relatio (12), das laquelle apparaisset des "termes directs" (coefficiets {a k, k 0}) qui réaliset ue foctio liéaire des etrées du réseau. Pour évaluer l'ifluece de ces termes, ous présetos ici les résultats obteus par appretissage de réseaux sas termes directs (a k = 0, k = 1,... N i ). Nous cosidéreros uiquemet l'appretissage avec 300 exemples. Le tableau 6 présete les résultats obteus après appretissage par l'algorithme de BFGS, et le tableau 7 ceux obteus par l'algorithme de Leveberg-Marquardt. Nombre d odelettes. EQMA EQMP 4 4, , , , , , , , Tableau 6. Résultats obteus avec l algorithme de BFGS. Nombre d odelettes. EQMA EQMP 4 2, , , , , , , , Tableau 7. Résultats obteus avec l algorithme de Leveberg Marquardt. 62

77 Réseaux d'odelettes fodés sur la trasformée cotiue O observe que les EQM sot systématiquemet supérieures à celles que l'o obtiet avec des réseaux comportat des termes directs. IV.3.5 Quelques figures. La figure suivate illustre la dispositio des odelettes e fi d appretissage pour le réseau de 10 odelettes optimisé avec l algorithme de Leveberg Marquardt Figure 9. Odelettes e fi d appretissage. O peut observer que tous les cetres e sot pas à l itérieur du domaie où est défiie la foctio f, mais l itersectio du support de chacue des odelettes avec le domaie est o ulle. Afi d utiliser ue seule échelle, les odelettes sot représetées avec leurs sorties o podérées par les coefficiets c j Modèle Processus (a) (b) Figure 10. Erreur de modélisatio (a) et détail de la sortie du modèle et du processus autour du poit aguleux (b). 63

78 Réseaux d'odelettes fodés sur la trasformée cotiue La figure 10 illustre l erreur de modélisatio (a) commise par le réseau de 10 odelettes. L erreur est pricipalemet commise au iveau du poit aguleux (b) qui est certaiemet la seule difficulté pour l approximatio de cette foctio. V. MODÉLISATION DYNAMIQUE ENTRÉE SORTIE ET RÉSEAUX D ONDELETTES. Comme ous veos de le voir, la costructio de réseaux d odelettes o bouclés pour la modélisatio statique de processus tire so origie de la trasformée e odelettes iverse. O se propose d étedre l utilisatio des réseaux d odelettes à la modélisatio dyamique de processus. Cosidéros u modèle-hypothèse de la forme : y p ()=f y p (-1),, y p (-N s ), u(-1),, u(-n e ), w(),, w(-n ) (30) où u est ue etrée extere appliquée au processus et y p sa sortie. N s est l ordre du modèle. {w()} est ue séquece de variables aléatoires de moyee ulle et de variace σ 2. f est ue foctio paramétrée icoue dot il s agit d estimer les paramètres à l aide d ue séquece d appretissage. Chaque exemple correspod à u istat de mesure. Pour ue séquece d appretissage de N exemples, ous avos = 1,..., N. Des hypothèses supplémetaires sot gééralemet faites sur la faço dot le bruit agit. U choix adéquat du prédicteur associé peut alors être effectué. Différets exemples de modèles-hypothèses aisi que les prédicteurs optimaux qui leur sot associés sot présetés das le paragraphe III.3 du chapitre I. Rappelos que : si l'hypothèse de l'existece d'u bruit additif de sortie a été reteue, ou si, e l'absece de bruit, o désire obteir u modèle de simulatio du processus, les etrées d'état du prédicteur, durat so appretissage, sot les sorties passées du prédicteur ; si le prédicteur est réalisé par u réseau, celui-ci est bouclé pedat l'appretissage ; si l'hypothèse de l'existece d'u bruit d'état additif a été reteue, ou si, e l'absece de bruit, o evisage d'utiliser le prédicteur pour prédire la sortie ue seule période d'échatilloage plus tard, les etrées d'état du prédicteur, durat so appretissage, sot les sorties du processus ; si le prédicteur est ue réseau de foctios, celui-ci est o bouclé pedat l'appretissage. A otre coaissace, les réseaux d odelettes bouclés ot jamais été étudiés auparavat. O trouve das la coclusio de la référece [Zhag92] (qui traite des réseaux d odelettes fodés sur la trasformée e odelette cotiue) 64

79 Réseaux d'odelettes fodés sur la trasformée cotiue u commetaire à ce propos. Les auteurs souliget qu ue ivestigatio des performaces de tels réseaux est ue voie à explorer. V.1 Appretissage de réseaux de type etrée-sortie. Le schéma d appretissage que ous adoptos est semblable à celui qui est utilisé das le cas de réseaux de euroes à foctios sigmoïdes. Nous utilisos la otio de copie du réseau. O désige par "copie uméro " la partie statique du réseau caoique qui calcule y(). V.1.1 Appretissage de prédicteurs o bouclés. Pour paramétrer u réseau costituat u prédicteur o bouclé pedat l appretissage, o se ramèe à la otatio utilisée pour les réseaux statiques. Soit x R N i le vecteur d etrée de la copie. Ses différetes composates sot les suivates : Pour k = 1,..., N e : x k = u± k sot les etrées exteres. N e est le ombre de ces etrées. Pour k = N e +1,..., N e + N s : x k = y p ± k + N e sot les etrées d état, qui sot les sorties mesurées sur le processus (etrées d état). Comme ous l'avos rappelé das le paragraphe précédet, les valeurs des etrées d état pour chaque copie sot forcées aux sorties correspodates du processus. Le prédicteur est dirigé par le processus, d où le om d appretissage dirigé [Nerrad92, Nerrad93] ou teacher forced [Jorda85]. Nous avos aisi N e + N s = N i, le ombre d etrées d u réseau d odelettes pour la modélisatio statique. L appretissage par la méthode du gradiet s effectue de la même maière que das le cas de la modélisatio statique. V.1.2 Appretissage de prédicteurs bouclés. Pour u prédicteur bouclé pour l appretissage, le calcul du gradiet de la foctio de coût doit teir compte du fait que le réseau est bouclé. Pour k = 1,..., N e : x k = u± k sot les etrées exteres. Pour k = N e +1,..., N e + N s : x k = y± k + N e sot les N s valeurs passées des sorties de la copie 1. Pour k = N e +N s +1,..., N e +2N s : x k = y( ± k + Ne + N s +1) sot les sorties de la copie. La figure 11 illustre la cofiguratio du réseau pour l exemple de l istat (c est-à-dire la copie uméro ). 65

80 Réseaux d'odelettes fodés sur la trasformée cotiue N s y = x N e+n s+1 valeurs de la sortie de la copie x N e+2ns.... c 1 c Nw..... Φ 1 Φ 2 Φ N w a a Ne +N s 1 x 1 x N e N e etrées exteres x N e +1 x N e+ns N s valeurs de la sortie de la copie 1 Figure 11. La copie uméro du réseau prédicteur etrée-sortie bouclé. Ici, seules les valeurs des etrées d état de la première copie sot prises égales aux valeurs correspodates de la sortie du processus. Pour les copies suivates, ces etrées preet les valeurs des variables d état e sortie de la copie précédete. Le prédicteur est semi-dirigé par le processus. Pour cette raiso, l algorithme est dit semi-dirigé [Nerrad92] ( backpropagatio through time [Rumelhart86]). Rappelos que la foctio de coût à miimiser au cours de l appretissage est la même que das le cas de la modélisatio statique, c'est-à-dire J(θ)= 1 2 N =1 y p ±y θ 2, où θ est le vecteur des paramètres ajustables. O désige par θ le vecteur des paramètres de la copie du réseau : θ = m jk, djk, cj, ak, a0 avec j =1,..., N w et k =1,..., N e +N s (31) ' Il est écessaire de distiguer les paramètres θ i et θi de deux copies différetes et ' bie qu'ils aiet les mêmes valeurs : e effet, les composates du gradiet J θ i et J θ i ' sot différetes. Rappelos que J θ = N Σ =1 J. θ Ces otatios état défiies, ous abordos le calcul du gradiet J pour les θ réseaux d odelettes bouclés. Deux approches sot possibles : 66

81 Réseaux d'odelettes fodés sur la trasformée cotiue calcul par rétropropagatio, calcul das le ses direct. V.1.3 Calcul du gradiet par rétropropagatio. Le vecteur gradiet est décomposé de la maière suivate : N N J θ = J J y =1 θ = =1 y θ (32) y La quatité θ est la dérivée de la sortie de la copie par rapport aux coefficiets de la même copie. Les expressios de cette dérivée pour chacue des composates du vecteur θ sot doées par les relatios (20) à (24). Reste doc à calculer J pour = 1,..., N. y Afi de préseter les expressios de faço plus claire, o itroduit des variables itermédiaires que l o ote par q k et que l o défiit par : J q k =± avec k = N e +1,..., N e +2N s (33) x k Ce sot les dérivées partielles de la foctio J par rapport aux variables d état e etrée et e sortie de la copie uméro. Pour la présetatio du calcul du gradiet par rétropropagatio, o cosidère séparémet la derière copie, de uméro N, celles dot le uméro est compris etre N 1 et 2, et efi la première copie. Pour la copie N, ous avos : Pour la sortie : ± J y N = q N N sortie = q Ne +N s +1 = e N (34) Pour les autres variables d état (e sortie du réseau) : q k N =0 avec k = N e +N s +2,..., N e +2N s (35) Pour les variables d état (e etrée du réseau) : ± J N x = q k N = a N k + k N w j =1 c j N d jk N Φ j N z jk N N q sortie avec k = N e +1,..., N e +N s (36) Pour les copies de = N 1 à 2, ous avos : Pour la sortie : 67

82 Réseaux d'odelettes fodés sur la trasformée cotiue ± J y = q sortie = e +1 + q Ne +1 (37) Pour les autres variables d état (e sortie du réseau) : q +1 k = q k±ns avec k = N e +N s +2,..., N e +2N s (38) Pour les variables d état e etrée du réseau : ± J x = q k = q k+ns +1 + a k + k N w j =1 c j d jk Φ j z jk q sortie avec k = N e +1,..., N e +N s (39) Pour la copie =1, ous avos : Pour la sortie : ± J y 1 = q 1 sortie = e q Ne +1 (40) V.1.4 Calcul du gradiet das le ses direct. L utilisatio de l algorithme de Leveberg Marquardt pour l appretissage de réseaux bouclés écessite la mise e oeuvre du calcul du gradiet das le ses direct. E effet, cet algorithme demade le calcul du Hessie de la foctio de coût J (ou d ue approximatio de celui-ci). Rappelos que cette approximatio s exprime de la faço suivate : H = N =1 e θ e θ T = N =1 Les dérivées partielles sot calculées à partir de : y θ = y (42) m=1 θ m Afi d obteir les quatités de la relatio (42) avec u calcul du gradiet par rétropropagatio, il est écessaire d effectuer N rétropropagatios. De ce fait, le calcul das le ses direct est plus écoomique. La relatio précédete exprime que le calcul du gradiet de la sortie de la copie uméro du réseau par rapport au vecteur des paramètres θ doit predre e cosidératio les dérivées de cette sortie par rapport à chacue des copies du vecteur des paramètres d idices iférieurs ou égaux. Décomposos l expressio (42) : y θ y θ T (41) 68

83 Réseaux d'odelettes fodés sur la trasformée cotiue ±1 y y m=1 θ m = m=1 θ m + y θ (43) Le deuxième terme est doé par les relatios (21) à (24) ; il suffit doc de calculer le premier. La quatité y θ peut s écrire de la maière suivate, où m y l est la variable d état uméro l e etrée de la ème copie : y N s ±l θ m = y y y ±l θ m avec m = 1,..., ±1 et ± l m (44) O obtiet aisi : ±1 l =1 N s ±1 m=1 y y y m=1 θ m = l=1 y ±l θ m avec ± l m (45) Remarquos que le secod facteur peut s écrire : ±1 m=1 y ±l θ m = ±l m=1 y ±l θ m = y±l θ E itroduisat ce derier résultat das la relatio (45), o obtiet : ±1 y y m=1 θ m = l=1 y ±l E repreat la relatio (43), o aboutit à : La quatité y y ±l N s N s y θ = y y ±l l=1 y ±l θ y ±l θ (46) (47) + y θ (48) est la dérivée de la sortie de la copie par rapport à la sortie calculée de la copie l, qui est doc la l ème variable d état e etrée de la copie. Elle est doée par : y N w y ±l = a c j Φ j N e +l + avec l=1,..., N s (49) j =1 d j,ne +l z j,ne +l La relatio (48) permet de calculer la dérivée de la sortie y de la copie par rapport à θ e foctio de celles calculées aux N s copies précédetes. 69

84 Réseaux d'odelettes fodés sur la trasformée cotiue V.2 Exemple. V.2.1 Présetatio du processus. O se propose d étudier u exemple de modélisatio dyamique à l aide d u réseau d odelettes bouclé afi de mettre e œuvre les algorithmes et procédures présetés au paragraphe précédet. Le processus est simulé à partir d ue équatio aux différeces ayat pour expressio : y p (k±1) y p (k±2) y p (k±3) u(k±2) y p (k±3) ± 1 + u(k±1) y p (k)= (50) 2 1+y p(k 2 ±2)+yp(k ±3) où u(.) est l etrée extere et y p (.) la sortie du processus. Afi de simuler le processus, il est idispesable de choisir ue séquece pour l etrée extere u. La séquece des etrées exteres est ue séquece pseudo-aléatoire de distributio uiforme etre 1 et 1. Les séqueces d appretissage et d estimatio de la performace sot costituées chacue de 1000 poits. État doé que le processus est pas bruité, o peut effectuer idifféremmet ue modélisatio avec u réseau bouclé ou o. O choisit la première possibilité. Das le domaie des etrées choisi, c'est-à-dire [ 1, +1], les sorties sot comprises das le même itervalle. V.2.2 Étude du gai statique. U régime statique est atteit si pour u(k 1)=u(k 2)=α costate, o a y p (k)=y p (k 1)=y p (k 2)=y p (k 2)=y p (k 3)=β costate. Le gai statique est le rapport de la sortie à l etrée : G statique = β α (51) E utilisat les égalités précédetes et le modèle du processus doé par la relatio (50), o obtiet pour expressio du gai statique e foctio de la sortie : G statique β = β3 β±1 +1 (52) 1+2β 2 Das le domaie des etrées que ous avos choisi pour la costructio de os deux séqueces, le graphe du gai statique est le suivat : 70

85 Réseaux d'odelettes fodés sur la trasformée cotiue Gai statique Sortie Figure 12. Gai statique das le domaie de sortie [-1 ; +1] y p O costate que pour de faibles amplitudes de la sortie (proches de zéro) le gai statique est proche de l uité. Précisos que cette étude e ous doe pas d iformatio sur la stabilité du modèle. E fait, des essais de simulatio motret que le modèle est istable si des etrées d amplitudes supérieures à 1 sot appliquées. V.2.3 Modélisatio du processus. O se propose d utiliser quatre architectures de réseaux formés respectivemet de 5, 10 et 15 odelettes. Ue modélisatio liéaire est égalemet effectuée (réseau e coteat aucue odelette). Pour chaque architecture, o effectue 50 appretissages e modifiat à chaque fois le germe de l iitialisatio aléatoire des paramètres. Le réseau reteu est celui dot performace estimée est la meilleure. Les résultats obteus e utilisat l algorithme de BFGS sot représetés das le tableau suivat : Nb. d odelettes. EQMA EQMP 0 8, , , , , , , , Tableau 8. Résultats obteus avec l algorithme de BFGS. O effectue égalemet des appretissages das les mêmes coditios e utilisat cette fois l algorithme de Leveberg Marquardt avec le calcul du gradiet das le ses direct (comme préseté plus haut das ce chapitre). Les résultats obteus sot reportés sur le tableau 9. 71

86 Réseaux d'odelettes fodés sur la trasformée cotiue Nb. d odelettes. EQMA EQMP 0 8, , , , , , , , Tableau 9. Résultats obteus avec l algorithme de Leveberg Marquardt. Les EQM obteues ici avec les grads réseaux (10 et 15 odelettes) sot plus faibles que celles obteues par l algorithme de BFGS. Sur cet exemple, ous avos doc u meilleur comportemet de l algorithme de Leveberg Marquardt au prix d u temps de calcul beaucoup plus importat. VI. MODÉLISATION D ÉTAT ET RÉSEAUX D ONDELETTES. L état d u modèle est l esemble miimal des N s valeurs écessaires à l istat k pour calculer sa sortie à l istat k+1, les valeurs des etrées état doées jusqu à k. N s est l ordre du modèle. La représetatio d état est la représetatio la plus géérale du comportemet dyamique d u processus. La représetatio etrée-sortie e est u cas particulier. U modèle d état à temps discret est costitué d u système de N s équatios récurretes du 1 er ordre exprimat l état à l istat k+1 e foctio de l état et des etrées à l istat k, d ue équatio d observatio, qui exprime la sortie e foctio de l état, ou plus gééralemet, de l état et des etrées. U modèle-hypothèse pred la forme suivate : x p k+1 = fx p k,uk (53) y p k = gx p k où x p (k) R N s est le vecteur d état à l istat k, u(k) R N e est le vecteur des etrées et y p (k) la sortie du processus à l istat k. f et g sot des foctios à variable vectorielle. Das le cadre de cette étude, o s itéressera aux cas où u(k) est ue etrée scalaire et où le modèle e possède qu ue sortie (modèles moo-etrée moosortie ou SISO pour Sigle Iput, Sigle Output). Das le cas d u modèle etrée-sortie, les variables d'état sot les sorties, doc elles sot écessairemet mesurées, ce qui 'est pas le cas pour u modèle d'état. Das la suite de la présete étude de modélisatio par réseaux d état, ous e cosidéros que des modèles sas bruit ou des modèles avec u bruit additif de sortie. 72

87 Réseaux d'odelettes fodés sur la trasformée cotiue VI.1 Modèles d'état sas bruit, avec états o mesurables. Si les états d u modèle boîte oire e sot pas mesurables, seul le comportemet etrée sortie peut être modélisé. Das ce cas, les états obteus ot pas forcémet ue sigificatio physique, cotrairemet au cas où ils sot mesurables. E chageat le ombre de foctios das le réseau, ou so iitialisatio, les modèles obteus peuvet posséder ue performace équivalete du poit de vue du comportemet etrée sortie, bie que les séqueces des variables d état soiet différetes. Le prédicteur associé est obligatoiremet bouclé et so expressio est la suivate : xk+1 = ψ 1 xk, uk (54) yk+1 = ψ 2 xk, uk Ce prédicteur est illustré par la figure suivate : y(k+1) x(k+1) ψ 1, ψ 2 q 1 u(k) x(k) Figure 13. Prédicteur d état bouclé. Das le cas où la sortie y(k) est pas foctio de u(k), u réseau associé comme celui de la figure 13 est evisageable e supprimat la coexio correspodate. Das les exemples que ous étudieros das la suite de ce mémoire, les états sot gééralemet o mesurables et les séqueces d appretissage et d estimatio de la performace dot o dispose sot formées uiquemet des mesures de l etrée extere et de la sortie du processus : seul l appretissage d u prédicteur d état bouclé est possible. Das la suite de ce mémoire, o e cosidérera doc que des prédicteurs d état bouclés comme celui illustré par la figure 13. VI.2 Appretissage de réseaux d état bouclés. VI.2.1 Structure du réseau d état. Le réseau o bouclé de la forme caoique d'u réseau d'odelettes bouclé compred : 73

88 Réseaux d'odelettes fodés sur la trasformée cotiue Ue couche d etrée possédat N e etrées exteres et N s variables d état. Le ombre total des etrées est alors N i = N e + N s. Ue couche cachée costituée par N w odelettes multidimesioelles. Ue couche de sortie comportat u euroe liéaire doat la sortie du réseau y() = y et N s euroes liéaires d état doat chacu la valeur de l état correspodat pour l istat cosidéré. La otio de copie de réseau utilisée das le cadre de la modélisatio etrée sortie est gééralisée. Ici, comme expliqué plus haut, seuls les réseaux d état bouclés serot utilisés et l appretissage met e jeu u grad réseau costitué par N copies e cascade (N est toujours la taille de la séquece d appretissage). Le vecteur d état e etrée de la copie uméro est le vecteur de sortie de la copie précédete. Pour la première copie : si les états sot mesurables le vecteur est idetique au vecteur des etrées du processus ; si les états e sot pas mesurables, et e l'absece de toute iformatio sur l'état iitial du processus, o force les etrées d'état de la première copie à zéro. Das les exemples que ous avos traités, ous ous trouvos das cette derière situatio. Suivat la descriptio doée plus haut sur la structure du réseau, le vecteur θ des paramètres est composé des élémets suivats : θ = m jk, d jk, c kj, c 0 (55) Les traslatios m jk et les dilatatios d jk avec k=1,..., N e + N s et j=1,..., N w. Les podératios et les coefficiets directs que l o ote par c kj. Ce choix d idices sigifie qu il s agit du coefficiet de la liaiso etre la foctio (ou le euroe d etrée) uméro j et le euroe de sortie (ou le euroe d état) uméro k. Pour les podératios ous avos : j= N e +N s +1,..., N e +N s +N w et k=n e +N s +N w +1,..., N e +2N s +N w +1. Pour les coefficiets directs, ous avos : j=1,..., N e +N s et k=n e +N s +N w +1,..., N e +2N s +N w +1. U terme costat sur le euroe liéaire de la sortie que l o ote par c 0. Le ombre de composates du vecteur θ est alors : 2N w (N e +N s )+(N s +1)(N e +N s +N w )+1. O ote par x k la variable d état uméro k e etrée de la copie uméro du réseau si k=n e +1,..., N e +N s et e sortie de cette copie si k=n e +N s +N w +2,..., 74

89 Réseaux d'odelettes fodés sur la trasformée cotiue N e +2N s +N w +1. La figure 14 motre l architecture de la copie. Notos que les oeuds sot umérotés das l ordre de 1 à N e +2N s +N w +1 alors que les odelettes le sot de 1 à N w. Sortie y = x Ne +N s +N w +1 N s x Ne +N s +N w +2 variables d'état e sortie x Ne +2N s +N w Φ 1 Φ j Φ Nw x 1 x Ne N e etrées exteres x Ne +1 x Ne +N s N s variables d'état e etrée Figure 14. Illustratio de la copie uméro du réseau d état. La sortie de la copie du réseau a pour expressio : N w N e +N s y = c α, j+ne +N Φ s j x + c x α,k k avec α =N e +N s +N w +1 et x 0 =1 (56) j=1? k=0 avec x = x 1,x 2,..., x Ne +N. s La variable d état uméro k e sortie du réseau est calculée à partir de la relatio suivate : N e +N s +N w N e +N s x k = c k, j Φ j x + c k, j x j avec k = N e +N s +N w +2,..., N e +2N s +N w +1 (57) j=n e +N s +1 j=1 Notos que ous avos omis les termes directs sur les euroes liéaires d état. E effet, ces termes ot ici mois d importace que pour le euroe liéaire de la sortie du réseau. La variable d état e etrée est prise égale à celle de la variable d'état correspodate e sortie de la copie précédete. O peut écrire pour la copie : x k = ±1 x k +Ns +N w +1 0si =1 si 2 avec k =N e +1,..., N e +N s (58) 75

90 Réseaux d'odelettes fodés sur la trasformée cotiue VI.2.2 Calcul du gradiet par rétropropagatio. De la même faço que pour les réseaux de type etrée sortie bouclés et o bouclés, ous devos calculer le gradiet de la foctio de coût par rapport au vecteur des paramètres. L appretissage est égalemet fodé sur des méthodes de gradiet telles que celles présetées au chapitre I de ce mémoire. Les deux approches déjà metioées (calcul du gradiet par rétropropagatio à travers les copies ou das le ses direct) sot evisageables. Nous les préseteros toutes les deux. Seule la première sera mise e œuvre. E effet, das le cas des réseaux d état, le calcul du gradiet das le ses direct implique u volume de calculs plus importat que le calcul par rétropropagatio. Ce derier se divise e deux étapes : calcul du gradiet de la foctio de coût J par rapport à la sortie et aux variables d état e etrée et e sortie de chacue des N copies, calcul du gradiet de J par rapport au vecteur θ des paramètres. VI Calcul du gradiet de J par rapport à la sortie et aux variables d état. La foctio de coût utilisée pour l appretissage est toujours : J(θ)= 1 2 N =1 y p ± y θ 2. O distigue trois calculs différets suivat qu il s agit de la première copie, de la derière ou des autres. Pour la copie N, ous avos : Pour la sortie : J y N =±en (59) Pour les variables d état e sortie, k=n e +N s +N w +2,..., N e +2N s +N w +1 : J =0 (60) x k N Pour les variables d état e etrée, k=n e +1,..., N e +N s : J N x = J N N w y c α, Ne +N k y N N x =±en s +j Φ j (x N ) c α, k + (61) d k jk z jk avec α= N e +N s +N w +1. j=1 Pour les copies de = N 1 à 2, ous avos : Pour la sortie : 76

91 Réseaux d'odelettes fodés sur la trasformée cotiue J y =±e (62) Pour les variables d état e sortie, k=n e +N s +N w +2,..., N e +2N s +N w +1 : J x = J (63) k +1 x k±ns ±N w ±1 Pour les variables d état e etrée, k=n e +1,..., N e +N s : J x = J N w y c α, Ne +N k y x =±e s +j Φ j (x N ) e +2N s +N w +1 c α,k + + c d k jk z j,k jk Pour la copie =1, ous avos : j=1 j=n e +N s +N w +2 J x j (64) Pour la sortie : J y 1 =±e1 (65) Pour les variables d état e sortie, k=n e +N s +N w +2,..., N e +2N s +N w +1 : J 1 x = J (66) 2 k x k±ns ±N w ±1 Pour les variables d état e etrée, k=n e +1,..., N e +N s : J le calcul des est pas utile. x k 1 VI Calcul du gradiet de J par rapport aux paramètres du réseau. Disposat des dérivées calculées précédemmet, il est à préset possible de détermier le gradiet de la foctio de coût par rapport à chacue des composates du vecteur des paramètres ajustables. Pour les coefficiets directs sur la sortie : N N J J y = c α j y =± e x j avec j =1,..., Ne +N s et α = N e +N s +N w +1 (67) =1 c α j =1 Pour les coefficiets directs sur les états : N =1 x k J J J = = c x j k,j x k c k,j =1 xk avec j = 1,..., N e +N s et k = N e +N s +N w +2,..., N e +2N s +N w +1 N (68) Pour les podératios sur la sortie : 77

92 Réseaux d'odelettes fodés sur la trasformée cotiue J c α,j+ne +N s = N =1 J y y c α,j+ne +N s N =1 avec j = 1,..., N w et α = N e +N s +N w +1 =± e Φ j (x ) (69) Pour les podératios sur les états : J c k,ne +N s +j = N =1 J x k x k c k,ne +N s +j N J = Φ j (x ) (70) =1 xk avec j = 1,..., N w et k = N e +N s +N w +2,..., N e +2N s +N w +1 Pour le terme costat sur le euroe de sortie : N N J J y = =± e c 0 y c 0 =1 =1 (71) Pour les traslatios, j= 1,... N w et k=1,..., N e +N s : J m jk = N J =1 mjk = N =1 J y y m + jk l=n e +2N s +N w +1 l=n e +N s +N w +2 J x l x l m jk (72) E remplaçat les dérivées par leurs expressios (déjà calculées), o obtiet : J m jk = N J =1 mjk N =1 ) c = e α,n e +N s +j Φ j (x ± d jk z jk N e +2N s +N w +1 J l=n e +N s +N w +2 x l c l,ne +N s +j z jk d jk Φ j (x ) (73) Efi, ue factorisatio permet d alléger cette expressio : N N J J 1 Φ j (x N ) e +2N s +N w +1 = = c m jk d jk z α,ne +N s +j e ± c l,ne +N s +j jk mjk =1 =1 l=n e +N s +N w +2 J x l (74) Pour les dilatatios, j=1,... N w et k=1,..., N e +N s : J d jk = N J =1 djk = N =1 J y y d + jk N e +2N s +N w +1 l=n e +N s +N w +2 J x l x l d jk (75) E remplaçat les dérivées par leurs expressios (déjà calculées), o obtiet : J d jk = N J =1 djk = N =1 z jk ) N e +2N s +N w +1 Φ j (x c d jk z α,ne +N s +j e ± c l,ne +N s +j jk l=n e +N s +N w +2 J x l (76) 78

93 Réseaux d'odelettes fodés sur la trasformée cotiue VI Commetaire sur le choix des variables d état. Lors de la coceptio d u modèle d état d u processus, il arrive que le cahier de charges exige qu ue des composates du vecteur d état soit la sortie du processus. Das u tel cas, le calcul du gradiet de J préseté ci-dessus se trouve légèremet modifié. La pricipale modificatio à apporter se situe au iveau du calcul du gradiet de J par rapport à la sortie du réseau. Suivat la otatio adoptée pour la présetatio des relatios ci dessus, si la sortie est cosidérée comme ue variable d état du modèle, o la otera de la maière suivate : y = x Ne +N s +N w +1 (77) La relatio (64) deviet das ce cas : J y = J x Ne +N s +N w +1 =±e + J +1 x Ne +1 (78) Remarquos que cette relatio est très semblable à la relatio (37) qui cocere le calcul du gradiet das le cas d u réseau etrée sortie. Nous présetos e aexe de ce mémoire les modificatios à apporter aux équatios précédetes (de 59 à 76). Le calcul du gradiet exposé das cette aexe permet aisémet le passage d u modèle où la sortie est ue variable d état au cas où tous les états sot idépedats de la sortie. VI.2.3 Calcul du gradiet das le ses direct. La motivatio pour le calcul du gradiet de la foctio coût das le ses direct est la même que das le cas de la modélisatio etrée-sortie : le calcul du Hessie approché écessite la coaissace de gradeurs qui e sot pas fouries par le calcul par rétropropagatio. Le pricipe du calcul de y e preat e cosidératio toutes les copies est θ doé par la relatio (42). O cosidère le problème de l'évaluatio du secod membre de la relatio (43) mais cette fois das le cadre d u réseau d état. O a : y N e +N s θ m = y x k θ m avec m < (79) k=n e +1 x k E faisat la sommatio de toutes les équatios de la forme de (79) pour m allat de 1 à 1, o obtiet : -1 y N e +N s y -1 x k m=1 θ m = (80) k=n x k m=1 θ m e +1 État doé que ous avos x ±1 k = x k+ns +N w +1, ous pouvos écrire les égalités suivates : 79

94 Réseaux d'odelettes fodés sur la trasformée cotiue ±1 x k θ m m=1 = ±1 m=1 ±1 x k+ns +N w +1 θ m = ±1 x k+ns +N w +1 E ijectat ce résultat das la relatio (80), o aboutit à : ±1 y N e +N s y ±1 x k+ns +N w +1 m=1 θ m = (82) k=n x k θ e +1 Ce derier résultat aboutit à l écriture de la relatio qui ous permet de calculer la dérivée de la sortie par rapport au vecteur θ : y θ = N e +N s k=n e +1 y x k ±1 x k+ns +N w +1 θ θ (81) + y θ (83) Nous allos aalyser sommairemet la complexité de ce calcul. y est la dérivée de la sortie par rapport au vecteur des paramètres de la même θ copie. Les différetes composates de ce vecteur sot doées par les relatios (20) à (24). y est la dérivée de la sortie par rapport à ue variable d état e etrée de la x k même copie. Le calcul est immédiat et est doé par la relatio suivate : y N w c α x =,Ne +N s +j Φ j x + c d k jk z α,k (84) jk j=1 où α= N e +N s +N w +1 est l idice du euroe de sortie. ±1 x k+ns +N w +1 est plus délicat à évaluer puisqu il s agit d ue quatité qui implique θ le calcul des dérivées par rapport à chacue des copies d idice iférieur ou égal. État doé que les variables d états sot idépedates de la sortie, il faut trouver ue relatio récurrete du type de (48) pour calculer à chaque copie les dérivées des états par rapport aux paramètres de maière écoomique. Par aalogie avec la relatio (48), ous proposos la relatio suivate : ±1 N x e +N s ±1 ±2 l θ = x l x k+ns +N e +1 + x l±1 (85) θ θ ±1 ±1 k=n e +1 x k avec 2etl = N e +N s +N w +2,..., N e +2N s +N w +1 E résumé, l algorithme de calcul du Hessie approché à l aide des relatios présetées ci-dessus est le suivat : Pour allat de 1 à N faire : Pour m allat de 1 à N s faire : 80

95 Réseaux d'odelettes fodés sur la trasformée cotiue Exécutio de la relatio (85) e utilisat les résultats de cette même relatio à l étape précédete. Fi de la boucle sur m. Exécutio de la relatio (83). Fi de la boucle sur. Costructio du Hessie approché à partir de la relatio (41). Commetaire. Les relatios que ous veos d'établir pour l'appretissage de réseaux d'odelettes écessitet u volume de calcul plus importat que les relatios équivaletes relatives aux réseaux de euroes à sigmoïdes. Pour l étude des exemples présetés das le chapitre V, ous avos mis e œuvre le calcul du gradiet par rétropropagatio. De ce fait, l appretissage de os réseaux d état e peut se faire qu à l aide de l algorithme de BFGS. VI.2.4 Iitialisatio des paramètres du réseau. U problème itéressat qui se pose est celui de l iitialisatio des paramètres du réseau d odelettes das le cas d ue modélisatio d état. Deux cas peuvet se préseter : les états sot mesurables, les états e sot pas mesurables. Das le cas où les états sot mesurables, la questio peut être résolue de la même faço que das le cas des réseaux pour la modélisatio statique. E effet, les domaies de toutes les etrées état cous (etrées exteres et états), le calcul des traslatios et des dilatatios iitiales est immédiat (suivat la procédure proposée). Das le cas où les états e sot pas mesurables, situatio que ous avos choisi d étudier das os exemples, le domaie des etrées du réseau (plus particulièremet les états) e sot pas cous avat l appretissage. Le calcul des traslatios et des dilatatios iitiales est doc redu délicat. Nous avos iitialisé ces paramètres e faisat l hypothèse que les états sot das u domaie de logueur comparable à celui de la sortie et cetré e zéro. E fait, le but de cette procédure et d éviter ue iitialisatio aléatoire et de placer les odelettes iitialemet das le domaie de la variable d etrée. État doé que les coefficiets des euroes d état sot iitialisés à de petites valeurs, cette coditio est vérifiée : e début d appretissage, les valeurs des états sot à l itérieur du support des odelettes. 81

96 Réseaux d'odelettes fodés sur la trasformée cotiue V II. LE PROBLÈME MAÎTRE ÉLÈVE ET LES RÉSEAUX D'ONDELETTES. Le problème dit maître élève cosiste à egedrer des doées à l'aide d'u réseau de foctios "maître" dot les poids sot fixés, puis à retrouver ce réseau par appretissage d'u réseau "élève" qui possède la même architecture. Aisi, o est assuré que la foctio de régressio recherchée (le réseau "maître") fait partie de la famille de foctios du modèle (le réseau "élève"). L'itérêt de ce problème est qu'il permet de tester l'efficacité des algorithmes d'appretissage, et otammet d'évaluer l'ifluece des miima locaux : e effet, si l'algorithme d'appretissage coverge e u temps raisoable, et s'il e trouve pas u miimum local, le réseau obteu après appretissage doit être le réseau maître, aux erreurs d'arrodi près. Le système d appretissage pour u tel problème peut être illustré de la maière suivate : Réseaux d'odelettes à paramètres fixes y p Vecteur des etrées e = y p y Réseaux d'odelettes à paramètres ajustables y Figure 15. Système d appretissage pour le problème du maître élève. Cotrairemet aux réseaux statiques présetés das ce chapitre, o a supprimé la partie affie du réseau (sauf le terme costat sur le euroe liéaire de sortie que l o coserve). La relatio (12) doat l expressio de la sortie du réseau est das ce cas doée par : N w y = c j Φ j (x) + a 0 (86) j=1 Nous allos tout d'abord établir le résultat suivat : l'existece des miima locaux de la foctio de coût e déped que de l'architecture du réseau maître, et e déped pas de la valeur des paramètres de celui-ci. Nous préciseros esuite les coditios des expérieces umériques que ous avos meées, puis ous e décriros et commeteros les résultats. 82

97 Réseaux d'odelettes fodés sur la trasformée cotiue VII.1 Miima locaux de la foctio de coût. Cosidéros u réseau maître réalisat la foctio f(x, θ 0 ), où x et θ 0 sot les vecteurs des variables et des paramètres respectivemet, et u réseau élève f(x, θ). La foctio de coût miimisée pedat l'appretissage est : J = 1 2 N Σ =1 fx, θ 0 ± fx, θ 2 où x désige le vecteur des variables pour l'exemple, et où N est le ombre d'élémets de l'esemble d'appretissage. Le gradiet de la foctio de coût a pour expressio : N J fx θ =±, θ Σ fx, θ 0 ± fx, θ (88) θ =1 Pour u miimum (local ou global), obteu pour u vecteur de paramètres θ m, o a doc : N J fx, θ = fx θ, θ 0 ± fx, θ m θ = θm Σ =0. (89) θ =1 θ = θ m Supposos que l'o fasse varier le vecteur des paramètres du réseau maître, et cherchos quelle variatio il faut faire subir au vecteur θ m pour qu'il correspode toujours à u miimum. Il suffit pour cela d'écrire la différetielle totale du gradiet : (87) d J θ θ = θm = N Σ =1 f x, θ θ θ = θ 0 fx, θ θ θ = θ m dθ 0 2 fx, θ f x, θ Σ N fx, θ 0 ± fx, θ m ± dθ θ 2 m = θ θ θ (90) O peut doc écrire : dθ m dθ 0 =± N Σ =1 N Σ =1 fx, θ 0 ± fx, θ m f x, θ fx, θ θ θ = θ 0 θ 2 fx, θ θ 2 θ = θ m ± θ = θ m f x, θ θ 2 θ = θ m (91) sous réserve que le déomiateur e soit pas ul (il est ul si la foctio f est costate). 83

98 Réseaux d'odelettes fodés sur la trasformée cotiue Pour les paramètres θ l dot f déped liéairemet, o a dθ l m / dθ l 0 = 1. Si le modèle est liéaire par rapport à tous les paramètres, il y a évidemmet u seul miimum θ m = θ 0. Aisi, si l'o coaît les miima de la foctio de coût pour ue valeur doée θ 0 des paramètres du réseau maître et pour u esemble d'appretissage doé, o peut, e pricipe, e déduire, par itégratio de l'équatio (91), les valeurs des miima pour toute autre valeur des paramètres du réseau maître. Chager les valeurs des paramètres du réseau maître e chage doc pas le ombre de miima locaux, mais seulemet leur positio das l'espace des paramètres. E coséquece, pour étudier l'ifluece des miima locaux sur l'appretissage, ous choisiros, pour ue architecture doée, ue seule valeur des paramètres. VII.2 Choix de la séquece d appretissage. Pour qu u appretissage soit efficace, il est écessaire que la séquece d appretissage soit suffisammet riche pour représeter le comportemet du processus. D autre part, le ombre d exemples costituat la séquece doit être très supérieur à celui des paramètres ajustables. Le réseau le plus volumieux que ous ayos cosidéré est costitué de 5 etrées et de 5 odelettes, soit 56 paramètres. Pour tous les exemples étudiés, ous avos cosidéré ue séquece d appretissage formée par 2000 exemples. Nous faisos l hypothèse que cette séquece représete suffisammet le processus (réseau maître) à appredre das le domaie des etrées choisi. VII.3 Choix du domaie des etrées et des paramètres du réseau maître. La questio du choix du domaie des etrées est très importate puisqu elle détermie le domaie das lequel o veut modéliser le processus. Das le cas de réseaux d odelettes, ce choix est très lié à celui des paramètres du réseau maître. E effet, si l'o fait u choix pour le domaie des etrées, il faut choisir les paramètres du réseau maître de telle maière que les supports des odelettes aiet ue itersectio o ulle avec ces domaies. Sio, la sortie y p sera partout ulle. Nous avos choisi pour les etrées des valeurs aléatoires suivat ue distributio gaussiee cetrée réduite (de moyee ulle et de variace 1). Ue aalyse simple des etrées obteues motre qu elles sot toutes comprises das u itervalle que l o peut ecadrer par [ 4, 4]. Cette iformatio est utile pour le choix des paramètres du réseau maître, comme ous le verros das le paragraphe suivat. 84

99 Réseaux d'odelettes fodés sur la trasformée cotiue O choisit les traslatios des odelettes du réseau maître de maière aléatoire (suivat ue distributio uiforme) das le domaie des etrées. Les dilatatios sot égalemet choisies de maière uiformémet distribuée mais cette fois-ci das le domaie [0.6, 2.6]. Cet itervalle est cetré autour de la valeur = 1.6. Or, e repreat la procédure d iitialisatio utilisée pour 2 l appretissage des réseaux d odelettes, o peut remarquer que cette valeur est celle des dilatatios iitiales (état doé l itervalle [ 4, 4]). Ce choix est motivé par le fait qu il correspod à des odelettes dot les supports sot de l ordre de la logueur de l itervalle compreat les etrées (c'est-à-dire [ 4, 4]). VII.4 Choix de l algorithme et de l iitialisatio du réseau. Comme ous l'avos idiqué plus haut, ous avos le choix etre l algorithme de BFGS et celui de Leveberg Marquardt, afi d'éviter d'itroduire, comme paramètre supplémetaire de otre étude, le ombre d'itératios de gradiet simple à effectuer avat le démarrage de l'algorithme du secod ordre. L iitialisatio du réseau s effectue sur la base de la procédure présetée au paragraphe IV.2 de ce chapitre. État doé que les termes directs ot été retirés (voir relatio 86), seules les podératios des odelettes et le terme costat sur le euroe liéaire de sortie sot iitialisés de maière aléatoire. VII.5 Approche adoptée pour l étude du problème. O se propose d étudier les performaces des réseaux d odelettes sur le problème maître élève e preat e cosidératio l ifluece du ombre des etrées et du ombre d odelettes das la couche cachée. Pour chaque architecture, ous choisissos u vecteur de paramètres pour le réseau maître, et ous effectuos vigt appretissages avec vigt iitialisatios différetes pour les podératios. Nous estimos qu u appretissage est u succès lorsque le vecteur des paramètres trouvé correspod exactemet à celui du réseau maître (aux erreurs d'arrodi près). VII.6 Résultats et commetaires. Le tableau 10 présete, pour chaque architecture utilisée (caractérisée par le ombre d'etrées et le ombre d'odelettes), le ombre d'appretissages effectués avec succès avec u esemble d'appretissage costitué d'exemples pour lesquels les etrées suivet ue loi gaussiee cetrée réduite. 85

100 Réseaux d'odelettes fodés sur la trasformée cotiue Nombre d'odelettes Nombre d'etrées Tableau 10. Résultats du problème maître élève sur les réseaux d odelettes. O observe que, au-delà de 3 etrées et 3 odelettes, il deviet pratiquemet impossible de retrouver le réseau maître : l'appretissage aboutit à des miima locaux de la foctio de coût. Les résultats obteus avec d'autres distributios des etrées sot tout-à-fait aalogues. Pour les réseaux à sigmoïdes, des expérieces similaires ot motré que, au cotraire, la probabilité de succès est d'autat plus grade que le réseau est plus grad [Stoppi97]. Les miima locaux semblet doc être plus gêats pour l'appretissage des réseaux d'odelettes que pour celui des réseaux de euroes. Il faut oter éamois que, das u problème pratique, les doées sot toujours etachées de bruit : o e cherche doc pas à auler l'erreur comme das le cas du problème maître-élève, mais à trouver u miimum tel que la variace de l'erreur de modélisatio soit égale à celle du bruit. V III. CONCLUSION. Das ce chapitre, ous avos préseté la modélisatio statique et dyamique de processus à l aide de réseaux d odelettes fodés sur la trasformée e odelette cotiue. Nous avos motré que les odelettes peuvet être cosidérées comme des foctios paramétrées (à paramètres cotius), et qu'ue combiaiso liéaire d'odelettes dot les cetres et les dilatatios sot ajustables peut, au même titre qu'u réseau de euroes, 86

101 Réseaux d'odelettes fodés sur la trasformée cotiue costituer u modèle o liéaire de processus. Les paramètres de ce modèle peuvet être estimés à partir d'observatios, de telle maière que la sortie du modèle approche la foctio de régressio de la gradeur à modéliser. La sortie du modèle 'état pas liéaire par rapport aux dilatatios et aux traslatios, l'estimatio des paramètres doit être effectuée à l'aide d'algorithmes itératifs. Les odelettes état locales, le problème de l'iitialisatio des dilatatios et traslatios est très importat. Nous avos proposé ue procédure d iitialisatio simple qui pred e cosidératio cette propriété. Nous avos égalemet motré que les réseaux d'odelettes peuvet être utilisés pour la modélisatio dyamique de processus, et peuvet costituer soit des modèles etrée-sortie, soit des modèles d'état. Pour ces deux types de modèles, ous avos établi les procédures de calcul du gradiet, par rétropropagatio et das le ses direct. Les expressios obteues ous ot motré que la complexité des calculs est plus importate que das le cas de réseaux à foctios dorsales. Efi, ous avos préseté ue étude du problème "maître-élève" pour des réseaux d'odelettes. Nous avos prouvé que, das u tel cas, le ombre de miima e déped pas de la valeur des paramètres du réseau maître, mais seulemet de so architecture et de l'esemble d'appretissage. Les résultats obteus motret que le ombre de miima locaux de la foctio de coût croît rapidemet avec le ombre d'odelettes et avec le ombre de variables du modèle. Nous préseteros das le chapitre V des exemples de modélisatio dyamique à l'aide de réseaux d'odelettes. 87

102 CHAPITRE IV Réseaux d odelettes (approche fodée sur la trasformée discrète)

103 Réseaux d'odelettes fodés sur la trasformée discrète I. INTRODUCTION. Das le chapitre précédet, ous avos préseté des procédures d appretissage pour des réseaux d odelettes fodés sur la trasformée e odelettes cotiue. L applicatio de ces procédures est possible, car les paramètres des foctios (et e particulier ceux des foctios odelettes) sot choisis de maière cotiue das l esemble des réels. Das le préset chapitre, ous proposos des procédures de costructio de réseaux d odelettes dot les paramètres sot à valeurs discrètes. O utilise doc ici la trasformée e odelettes discrète. Nous préseteros tout d'abord le pricipe de la trasformée e odelettes discrète. Nous examieros esuite les méthodes que l o peut mettre e œuvre pour la costructio de réseaux d odelettes à paramètres discrets pour la modélisatio de processus. Nous verros que, comme o peut le prévoir, cette restrictio doe mois de souplesse das le choix d u modèle que l approche fodée sur la trasformée cotiue ; de plus, pour des raisos ihéretes aux techiques utilisées, certais modèles-hypothèses possibles avec la trasformée e odelettes cotiue e sot pas evisageables das u cotexte de trasformée discrète. Comme pour les odelettes à paramètres cotius, ous proposeros das ce chapitre ue procédure d iitialisatio utilisat la trasformée discrète. L appretissage sera esuite effectué suivat les algorithmes présetés das le chapitre précédet. Aisi, les deux approches jouet u rôle complémetaire pour la costructio d u réseau d odelettes. II. RÉSEAUX ISSUS SUR LA TRANSFORMÉE EN ONDELETTES DISCRÈTE. Ue trasformée e odelettes est dite discrète lorsque les valeurs des (traslatios et des dilatatios) sot à valeurs discrètes (pas écessairemet etières). Soit φ ue odelette mère (qui peut être la même que celle utilisée pour la trasformée cotiue). Ue famille Ω de foctios obteue à partir de φ peut être exprimée de la maière suivate : Ωα,β, x = α m/2 φ α m x ± β, m, Z 2 (1) où Z est l esemble des etiers relatifs. Notos que α et β sot des paramètres réels fixes qui défiisset, avec φ, la famille Ω : α détermie l échelle des dilatatios et β détermie le pas des traslatios. Ue famille d'odelettes est doc etièremet coue par la doée du triplet (φ, α, β). U membre de cette famille (c est-à-dire ue foctio) est désigée par le 89

104 Réseaux d'odelettes fodés sur la trasformée discrète couple (m, ). Pour cette raiso, o désigera doréavat ue odelette de la famille de Ω ayat comme paramètres (m, ) par: φ m, x. Suivat la relatio (1), ous avos : φ m, x = α m /2 φ α m x ± β (2) qui peut être réécrite de la maière suivate : φ m, x = α m /2 φ x ± α±m β α ±m (3) Cette relatio est la même que la relatio (1) du chapitre précédet, qui doe l expressio d ue odelette das u cotexte de trasformée cotiue, avec : Traslatio : m j = α ±m β Dilatatio : d j = α ±m Ces relatios motret que la traslatio déped de la dilatatio, alors que ces quatités sot idépedates das le cas de la trasformée cotiue. II.1 Structures obliques et bases d odelettes orthoormales. II.1.1 Odelettes à variables cotiues. Il a été démotré das [Daubechies92] qu ue famille d odelettes φ m, (x) comme celles décrites plus haut possède la propriété de structure oblique de l esemble L 2 (R). Rappelos cette propriété (déjà citée pour la trasformée cotiue) : état doé ue foctio f de carré sommable, il existe deux costates c et C positives et de valeurs fiies telles que l iégalité suivate soit vérifiée : c f φ m, Ω 2 <φm,, f> 2 C Les valeurs de ces deux costates (dites "limites de la structure oblique") doet ue idicatio sur la qualité de l approximatio de la foctio f par la famille d odelettes Ω [Zhag92] : e particulier, pour ue somme fiie d élémets de Ω, plus ces costates sot proches de 1, meilleure est la qualité de l approximatio. A partir des structures obliques, o défiit les structures obliques étroites ( tight frames e aglais) de la maière suivate [Pati93] : f 2 (4) (a) Ue structure oblique ayat des limites égales (c est-à-dire c = C) est dite ue structure oblique étroite. (b) Ue structure oblique étroite dot les élémets sot ormés et ayat c = C = 1 est ue base orthoormale. 90

105 Réseaux d'odelettes fodés sur la trasformée discrète Nous allos maiteat préseter u exemple d'ue famille d'odelettes qui costitue ue base de foctios orthogoales. Avec α = 2, β = 1 et u choix adéquat de l odelette mère (c est-à-dire de φ) il est possible de costruire ue base d odelettes orthoormales. Elle peut s exprimer de la faço suivate : Ω 2, 1 = 2 m /2 φ 2 m x ±, m, Z 2 (5) Les traslatios et les dilatatios peuvet être obteues e utilisat la réécriture de la relatio (3). La famille d odelettes orthoormales la plus coue est ue base appelée Système de Haar. L odelette mère est ue foctio défiie par morceaux : 1six [0, 1 2 [ φ (x)= ±1 si x [ 1 2,1] (6) 0 ailleurs La figure 1 illustre trois odelettes de cette famille : φ 0,0 (x)=φ(x) (figure 1.a) φ ±1,0 (x)= 2 2 φ x 2 (figure 1.b) 2 φ ±1,1 (x)= 2 φ x ±2 (figure 1.c) 2 Notos que le cetre de la foctio (c est-à-dire le paramètre de traslatio) est pas le cetre de symétrie du graphe de la foctio mais la limite gauche de la partie o ulle de la foctio. Par exemple pour l odelette mère, le paramètre de traslatio est égal à 0 et o pas à (a) (b) 91

106 Réseaux d'odelettes fodés sur la trasformée discrète (c) Figure 1. Trois odelettes du Système de Haar. O peut facilemet vérifier que ces foctios possèdet bie la propriété d orthogoalité. La orme d ue foctio état so carré scalaire, elle est égale ici à φ m,, φ m, = α m α ±m =1. Le système de Haar est doc ue famille d odelettes orthoormales. Le système de Haar est l ue des rares familles orthoormales (dot l odelette mère possède ue expressio simple) que l o peut trouver das la littérature. Ceci est pricipalemet dû à la difficulté du choix de l odelette mère. II.1.2 Odelettes à variables discrètes. Das tout ce qui précède, ous avos cosidéré l'orthogoalité de foctios de variables cotiues, avec le produit scalaire défii par la relatio (7). Das le cas l'ue des foctios du produit scalaire est coue e u ombre fii de poits (typiquemet pour u problème d approximatio de foctio) la relatio (7) deviet ue sommatio discrète : N i =1 x i A φ m,, φ m ', ' = φ m, xi φ m ', ' xi où A désige l esemble des poits et N leur ombre. Le produit scalaire de deux foctios, doc leur évetuelle orthogoalité, déped aisi du choix des poits de A. Il est facile de vérifier (par exemple sur le système de Haar) qu u choix quelcoque du ombre de poits et de leur distributio e coduit pas à la coservatio de l orthogoalité. Par exemple, das [Yag96], des familles de foctios orthogoales sot utilisées pour l approximatio de foctios. Les séqueces de doées caractérisat les foctios sot costituées d u ombre impair de poits régulièremet espacés. Ces deux précautios ot été prises afi de préserver l orthogoalité des foctios utilisées. (8) 92

107 Réseaux d'odelettes fodés sur la trasformée discrète D autre part, das [Zhag95], ue famille d odelettes orthogoales (dot l odelette mère est pas précisée) est utilisée. L odelette mère appartiet à la famille de Daubechies. Les poits de l esemble d appretissage sot uiformémet répartis. Cette démarche se justifie par la quasi-orthogoalité des odelettes. Lorsque l'o cherche à approcher ue foctio coue, dot o peut calculer umériquemet la valeur e 'importe quel poit, la restrictio cocerat le choix des poits de l'esemble A 'est pas gêate. E revache, lorsque l'o veut modéliser u processus (c'est-à-dire approcher ue foctio de régressio hypothétique et icoue), le choix des poits d'échatilloage est raremet libre : le cocepteur du modèle e dispose souvet que d ue base de doées existate (par exemple des doées écoomiques relatives à des aées écoulées), ou bie le choix des mesures peut être cotrait par les coditios ormales de foctioemet du processus, que le modélisateur 'a pas le droit de modifier libremet (par exemple pour la modélisatio d'u processus idustriel opératioel). II.1.3 Choix de l'odelette mère. Comme ous l'avos souligé plus haut das ce paragraphe, la propriété d orthogoalité est obteue par u bo choix des paramètres α et β mais aussi de l odelette mère φ. E effet, toute odelette mère e permet pas la costructio de bases orthoormales. Le système de Haar costitue ue base de foctios orthogoales, mais ces foctios e sot pas régulières 1, ce qui red leur utilisatio malaisée e tat qu'approximateurs. E effet, que ce soit e approximatio de foctio ou e modélisatio de processus, o utilise des familles de foctios régulières. Comme il est souligé das [Cohe96], u des objectifs de la théorie des bases d odelettes est la costructio de systèmes ayat les mêmes propriétés que le système de Haar, mais dot l odelette mère serait régulière. Ceci permettrait aisi l utilisatio de ces bases pour résoudre des problèmes d approximatio de foctios. Pour costruire de maière systématique des odelettes orthogoales, il coviet de gééraliser le pricipe de l approximatio multirésolutio à celui de l aalyse multirésolutio [Meyer90]. Plusieurs mathématicies se sot pechés sur la costructio d odelettes orthogoales s appuyat sur la théorie de la multirésolutio. Les premières ot été proposées par [Meyer85]. 1 La otio de régularité d ue odelette ou plus gééralemet d ue foctio est liée à ses propriétés de dérivabilité. Ue odelette est dite régulière si elle est dérivable et sa dérivée cotiue. 93

108 Réseaux d'odelettes fodés sur la trasformée discrète Malheureusemet, ces odelettes mères orthogoales e possèdet pas d expressio aalytique simple, ce qui red difficile l utilisatio de ces foctios pour des problèmes d approximatio de foctios. O se cotetera doc, das la suite de cette étude, de faire appel uiquemet à des familles d odelettes costituat des structures obliques et particulièremet des structures obliques étroites, plutôt qu à des bases orthoormales. Les structures obliques peuvet être cosidérées comme des bases d odelettes redodates. Leur pricipal icovéiet, par rapport à des bases orthoormales propremet dites, réside das la perte de l uicité de la représetatio d ue foctio et la sigificatio que peut avoir la podératio das le cas d odelettes orthogoales. Das la suite de ce chapitre, ous allos ous itéresser aux familles d odelettes issues de la trasformée discrète e tat qu outil pour la modélisatio de processus, e défiissat des réseaux d odelettes fodés sur la trasformée discrète. II.2 Réseaux fodés sur la trasformée discrète. La trasformatio e odelettes discrète, lorsqu elle est effectuée de maière appropriée (choix adéquat de la discrétisatio des paramètres de traslatio et de dilatatio comme décrit ci-dessus), alors la trasformatio iverse existe. De ce fait, toute foctio f de L 2 (R) peut être représetée comme ue somme des élémets d ue base orthoormale ou d ue structure oblique d odelettes (comme celles décrites plus haut das ce chapitre) suivat la relatio: f(x)= c m φ m, (x) (10) m, Z 2 Nous défiissos u réseau d odelettes fodé sur la trasformée e odelettes discrète comme ue somme fiie de la forme de la relatio (10), à laquelle o ajoute des termes directs. La sortie d u tel réseau est doc doée par la relatio suivate : N w N i y = ψ(x)= c j Φ j (x) + a k x k (11) j =1 où N w est le ombre d odelettes et N i le ombre d etrées. Φ j (x) est ue odelette multidimesioelle obteue par produit de toutes les odelettes suivat chacue des etrées.. Ces réseaux sot, du poit de vue de leur structure, idetiques à ceux défiis avec la trasformée cotiue. La pricipale différece réside das les méthodes de détermiatio des traslatios et des dilatatios. k=0 94

109 Réseaux d'odelettes fodés sur la trasformée discrète III. TECHNIQUES DE CONSTRUCTION DE RÉSEAUX D ONDELETTES. III.1 Impossibilité d utiliser les techiques de gradiet. L architecture des réseaux d odelettes fodés sur la trasformée discrète ayat été défiie, ous ous posos la questio de la costructio d u modèle, costitué d'u réseau d'odelettes, d'u processus doé. Comme précédemmet, ous cosidéros que les seules coaissaces sur le processus à modéliser sot costituées d ue (ou plusieurs) séquece(s) d etrées et de sorties mesurées (si le processus est réel). Les paramètres à détermier pour la costructio du réseau sot le ombre d odelettes écessaires pour atteidre ue performace voulue, les valeurs à doer aux différets paramètres du réseau : paramètres structurels, podératios des odelettes et termes directs. Comme das toute méthode de modélisatio par des foctios paramétrées, la difficulté essetielle réside das la détermiatio des paramètres du réseau. Ceux-ci preat des valeurs discrètes, la miimisatio d u coût utilisat le gradiet est pas evisageable. E revache, o peut tirer profit du fait que les paramètres preet des valeurs discrètes pour cocevoir des méthodes de sélectio des odelettes das u esemble (bibliothèque) d'odelettes discrètes. La performace du modèle aisi coçu déped du choix iitial des odelettes de la bibliothèque, et d'ue sélectio judicieuse das cette bibliothèque. III.2 Différetes approches pour costruire u réseau d odelettes fodé sur la trasformée discrète. Cotrairemet aux techiques de gradiet qui e tiret pas parti des propriétés des odelettes, des techiques qui utiliset les propriétés de ces foctios et particulièremet le rôle de leurs paramètres structurels sot ici evisageables. Das ce paragraphe, ous allos passer e revue les différetes techiques qui ot été proposées pour costruire des réseaux d odelettes à partir de l esemble d appretissage. Pour chacue de ces techiques, ous préciseros les avatages et les icovéiets de chacue d'elles, das la perspective de la mise au poit d'ue méthode simple à appliquer et peu coûteuse e temps de calcul. O distigue deux classes de techiques, selo qu elles utiliset ou o ue procédure de sélectio. III.2.1 Approches utilisat pas de procédure de sélectio. III Techique fodée sur l aalyse fréquetielle. Cette techique a été proposée das [Pati93]. Elle repose sur l estimatio du spectre d éergie de la foctio à approcher. Le domaie de fréquece coteat 95

110 Réseaux d'odelettes fodés sur la trasformée discrète le spectre d éergie état cou (il est obteu e calculat la trasformée de Fourier de la foctio à approcher), aisi que le domaie des amplitudes des variables d'etrées couvert par la séquece d exemples, o peut alors détermier les odelettes correspodat à ce domaie amplitude fréquece. Cette techique présete l avatage de tirer parti des propriétés de localité des odelettes das les domaies spatial et fréquetiel. E revache, elles présetet u icovéiet majeur, otammet pour les modèles multivariables : le volume de calcul écessaire à l estimatio du spectre de fréquece. III Techique fodée sur la théorie des odelettes orthogoales. Cette approche utilisat des bases d odelettes orthogoales a été proposée das [Zhag95]. État doé le domaie des amplitudes des etrées de l esemble d appretissage, o choisit les odelettes ayat leur cetre à l itérieur de ce domaie. Le ombre de dilatatios différetes à cosidérer déped de la performace désirée. Cette techique présete l avatage de mettre à profit la propriété d orthogoalité des odelettes. E revache, sa mise e œuvre est malaisée, car, si l'o excepte le système de Haar (préseté plus haut das ce chapitre), o e coaît pas, à ce jour, d expressio aalytique simple pour les odelettes mères qui egedret des familles de foctios orthogoales. Das u cotexte de modélisatio de processus, où la simplicité des foctios utilisées et la parcimoie du réseau sot recherchées, cet icovéiet red cette techique peu efficace. III Réseaux d odelettes pour u système adaptatif. Cette techique a été proposée das [Cao95] pour la costructio de réseaux d odelettes e vue de leur utilisatio das u système adaptatif de commade. Ue bibliothèque d odelettes est costruite e cosidérat le domaie des valeurs des variables d état du modèle. Le paramètre α du triplet (φ, α, β), qui détermie l échelle des dilatatios, est estimé e utilisat le spectre d éergie de la foctio à approcher. Le réseau est costitué d odelettes de la bibliothèque sélectioées et podérées périodiquemet. Les podératios des odelettes sot comparées à u seuil. Ue foctio est gardée ou exclue du réseau suivat que sa podératio est supérieure ou iférieure à ce seuil. Cette techique de costructio de réseaux d odelettes peut être utilisée idifféremmet pour la costructio de modèles statiques ou dyamiques. Elle présete l icovéiet de écessiter l estimatio du spectre d éergie de la foctio à approcher. 96

111 Réseaux d'odelettes fodés sur la trasformée discrète III.2.2 Approches utilisat ue procédure de sélectio. III Techique fodée sur la costructio de structures obliques étroites. État doé les limites théoriques auxquelles o se heurte pour la costructio de réseaux d odelettes orthogoales (il existe pas d expressio aalytique simple pour des odelettes mères egedrat des bases orthoormales), o se propose ici d utiliser des structures obliques. La questio qui se pose alors est le choix des paramètres α et β. Pour éviter le calcul du spectre d éergie de la foctio à approcher, o costruit la bibliothèque à l aide d ue structure oblique étroite. Les paramètres α et β sot alors respectivemet égaux à 2 et à 1 [Juditsky94, Zhag97]. La bibliothèque est costruite avec quatre ou ciq dilatatios différetes. L odelette la plus large est celle dot le support a la taille du domaie des exemples. Les odelettes reteues sot celles dot les cetres sot à l itérieur de ce domaie. Ue méthode de sélectio costructive ou destructive est esuite appliquée aux odelettes reteues das la bibliothèque pour détermier celles qui sot les plus sigificatives pour modéliser le processus étudié. Das [Zhag93, Zhag97], o propose d appliquer ue première réductio de la bibliothèque e élimiat les odelettes comportat peu ou pas d exemples sur leurs supports. Ces situatios sot particulièremet fréquetes pour des modèles à plusieurs etrées où les exemples e sot pas répartis de maière uiforme. Cette techique présete l avatage de procéder à ue costructio de la bibliothèque de maière simple, qui écessite peu de calculs. IV. PROPOSITION D UNE PROCÉDURE DE CONSTRUCTION DE RÉSEAUX ET D'INITIALISATION DE L'APPRENTISSAGE. Das ce paragraphe, ous proposos ue méthode de sélectio d'odelettes que ous mettos e œuvre pour la costructio de réseaux d'odelettes fodés sur la trasformée discrète, pour l'iitialisatio, avat appretissage, des traslatios et des dilatatios de réseaux d'odelettes fodés sur la trasformée cotiue. Das les deux cas, la première étape cosiste e la costructio de la bibliothèque des odelettes qui sot soumises à la procédure de sélectio. L étape de la costructio de la bibliothèque est fodée sur la théorie des structures obliques étroites d odelettes. Elle est doc semblable à celle présetée das [Zhag97] excepté par le fait que, cotrairemet aux réseaux présetés das 97

112 Réseaux d'odelettes fodés sur la trasformée discrète cette référece, chaque odelette a des dilatatios différetes suivat différetes etrées. Ce choix présete l avatage d erichir la bibliothèque, et d obteir ue meilleure performace pour u ombre de foctios doé. L icovéiet itroduit par ce choix cocere la taille de la bibliothèque. Ue bibliothèque d odelettes ayat des dilatatios différetes pour chaque etrée est plus volumieuse que celle dot les odelettes possèdet la même dilatatio suivat toutes les etrées. Ceci implique u coût de calcul plus élevé pedat l étape de sélectio. Néamois, la sélectio d'odelettes est souvet plus courte que l'appretissage des dilatatios et traslatios par les techiques de gradiet utilisées pour les odelettes à paramètres cotius ; le coût supplémetaire itroduit par des dilatatios différetes peut doc être acceptable. Das ce qui suit, ous exposeros successivemet la costructio de la bibliothèque, la sélectio des odelettes das cette bibliothèque, puis les procédures de costructio et d'iitialisatio. O isistera particulièremet sur l étape de costructio de la bibliothèque. E effet, das la littérature, la descriptio des détails pratiques de cette étape est très raremet abordée e détail. IV.1 Descriptio de la procédure de costructio de la bibliothèque. Rappelos que l'o se propose de costruire ue bibliothèque d odelettes cadidates pour la modélisatio d u processus. O dispose d ue séquece d exemples répartis das l itervalle [a, b]. O cosidérera d'abord u modèle à ue seule etrée. La gééralisatio pour u modèle à N i etrées sera décrite au paragraphe IV.1.2. IV.1.1 Famille egedrat la bibliothèque pour u modèle à ue etrée. Rappelos que la bibliothèque est egedrée à partir de la famille suivate : Ωα, β = α m/2 φα m x ± β, m, Z 2 (12) État doé que la costructio est fodée sur ue structure oblique étroite, ous avos α = 2 et β = 1. Ue odelette de cette famille avec les paramètres m et s exprime e foctio de l odelette mère de la faço suivate : φ m, (x)=2 m/2 φ x ±2-m (13) 2 -m C est doc ue odelette ayat pour cetre 2 -m et pour dilatatio 2 -m. Choix des dilatatios. Plus m est grad, plus le ombre d odelettes écessaires est grad. Pour des raisos de taille de la bibliothèque, o se limite à trois dilatatios successives 98

113 Réseaux d'odelettes fodés sur la trasformée discrète (c est-à-dire trois valeurs etières successives du paramètre m). Il suffit doc de choisir la plus grade dilatatio, ou la plus petite, pour que les deux autres soiet détermiées. Pour l odelette mère que ous utilisos das os exemples φ x =±xe ±x2 2, la valeur de la dilatatio assurat que l odelette, cetrée au milieu de l itervalle (e a + b ), ait sa partie utile aussi large que le domaie [a, b] est : 0,2(b a). Cette 2 valeur de la dilatatio est obteue e estimat que la partie utile de l odelette coïcide avec le domaie où la sortie de l odelette est supérieure à 0.1 ou iférieure à 0.1. Elle est solutio d ue équatio o algébrique doée par : b ± a 2 d exp ± 1 2 b ± a = d Notos que cette propriété a été utilisée das le chapitre précédet pour l iitialisatio des réseaux fodés sur la trasformée cotiue. O cosidère que cette valeur est celle de la plus grade dilatatio. Les dilatatios suivates sot doc plus petites. Ceci peut se traduire par la relatio suivate : 2 ±m 0.2 b ± a, (14) ce qui est équivalet à : Log 0.2 b ± a m ± (15) Log 2 m est etier, alors que le secod membre de cette iégalité e l est probablemet pas. E pratique, la plus petite valeur de m à cosidérer (elle correspod à la plus grade dilatatio) sera : Log 0.2 b ± a ± +1 (16) Log 2 où l opérateur [ ] désige la foctio partie etière. Les trois valeurs du paramètre m que l o utilise pour la costructio de la bibliothèque sot doc : Log 0.2 b ± a ± Log 2 Log 0.2 b ± a +1, ± Log 2 Log 0.2 b ± a +2, ± Log 2 +3 (17) Choix des traslatios. Pour ue dilatatio doée, o retiet das la bibliothèque toutes les odelettes dot les cetres sot à l itérieur du domaie [a, b]. Pour ue valeur de m doée, cette coditio peut s exprimer de la maière suivate : a 2 ±m b (18) État doé que l o cherche ici à détermier les valeurs possibles pour, la coditio précédete est équivalete à : 99

114 Réseaux d'odelettes fodés sur la trasformée discrète 2 m a 2 m b (19) Là aussi, état doé que est u ombre etier, les valeurs possibles sot (avec [ ] l opérateur partie etière) : 2 m a +1, 2 m a +2,..., 2 m b (20) E pratique, chaque fois que m est augmeté d ue uité, le ombre d odelettes ajoutées par m+1 à la bibliothèque est double de celui apporté par m. La bibliothèque est doc costruite suivat u schéma pyramidal. IV.1.2 Cas des bibliothèques pour modèles à plusieurs etrées. Das le cas d u problème multidimesioel, ce calcul est effectué pour chacue des etrées. État doé qu ue odelette multidimesioelle est le produit des odelettes scalaires, le cardial de la bibliothèque est égal au produit du ombre d odelettes suivat chacue des etrées. IV.2 La méthode de sélectio. La bibliothèque état costruite, ue méthode de sélectio est esuite appliquée afi de détermier les odelettes les plus sigificatives pour modéliser le processus cosidéré. Soit M w le ombre d élémets das la bibliothèque et N w le ombre d odelettes das le réseau. Pour sélectioer les N w odelettes qui permettet de costituer le modèle dot l'eqma est la plus faible possible, l idéal serait de calculer les EQMA obteues avec tous les sous esembles de cardial N w qu o peut former à partir d u esemble de cardial M w. Ce ombre de sous esembles est gééralemet très grad. De ce fait, o a recours à ue méthode de sélectio qui présete u moidre coût du poit de vue du volume de calculs écessaires. La techique de sélectio qu o utilise effectue u classemet des odelettes de la bibliothèque sur la base de la procédure d orthogoalisatio de Gram Schmidt. Cette procédure est proposée das plusieurs référeces. Citos parmi elles [Che89, Zhag93] das le cadre de la costructio de réseaux d odelettes, et aussi [Urbai95] das u cotexte de sélectio d architectures euroales. IV.2.1 Pricipe de la méthode de sélectio par orthogoalisatio. Soit ue séquece d appretissage formée de N exemples. O cosidère ue bibliothèque coteat M W odelettes cadidates. A chaque odelette Φ j o associe u vecteur dot les composates sot les valeurs de cette foctio suivat les exemples de la séquece d appretissage. O costitue aisi ue matrice P dot l expressio est : 100

115 Réseaux d'odelettes fodés sur la trasformée discrète Φ 1 x 1 Φ 2 x 1 Φ Mw x 1 Φ 1 x 2 Φ 2 x 2 P = Φ 1 x 3 Φ 1 x N Φ 2 x N Φ Mw x N (21) O peut l écrire de la faço suivate : P = p 1 p 2 p Mw (22) Avec p i = Φ i x 1 Φ i x 2 Φ i x N T avec i =1,..., M w (23) Les vecteurs p i sot gééralemet liéairemet idépedats, (car N >> M W ) et o orthogoaux. Les vecteurs p i egedret doc u sous-espace vectoriel de dimesio M W. O estime que ces M W vecteurs sot suffisats pour expliquer la sortie du processus à modéliser avec ue précisio satisfaisate. E d autres termes, la projectio du vecteur des sorties du processus Y p das cette espace correspod à ue modélisatio satisfaisate. La procédure de sélectio cosiste, e premier lieu, à classer les etrées par ordre de "pertiece" décroissate. Pour cela, o détermie, à chaque étape, l odelette qui a la plus grade projectio sur la partie du vecteur des sorties qui 'est pas expliquée par les etrées précédemmet classées. La figure suivate propose ue iterprétatio géométrique de cette procédure pour u exemple de dimesio 2 (les odelettes sot représetées par des vecteurs). Y p Y p θ 2 Φ 2 θ 1 Φ 1 Figure 2. Iterprétatio géométrique de la sélectio par orthogoalisatio. Φ 1 101

116 Réseaux d'odelettes fodés sur la trasformée discrète Sur cette figure, l odelette Φ 2 est celle qui explique le mieux le vecteur des sorties Y p puisque l agle qu elle fait avec ce vecteur est plus petit que celui etre Φ 1 et Y p. Elle est doc classée e premier rag par la procédure. Pour supprimer la partie de Y p expliquée par Φ 2, o projette Y p et les vecteurs correspodats aux odelettes o ecore classées (ici Φ 1 ) das l espace orthogoal au vecteur que l o viet de classer (ici Φ 2 ). O a représeté ces projectios par Y p et Φ 1. IV.2.2 Cas des termes directs. État doé que l o s itéresse à la détermiatio des odelettes les plus sigificatives pour la modélisatio d u processus, la matrice P regroupe toutes les odelettes de la bibliothèque, mais pas tous les régresseurs coteus das le réseau doé par la relatio (11). E effet, il maque les etrées qui sot podérées par les termes directs. Ces régresseurs peuvet être ajoutés à la matrice P pour être sélectioés. Mais, puisque l o souhaite avoir des coefficiets directs das le réseau, ces régresseurs e sot pas soumis à la procédure de sélectio et sot systématiquemet admis das le réseau. Ce choix est motivé par le fait que la procédure de costructio des réseaux (présetée das le paragraphe suivat) sera égalemet utilisée pour l iitialisatio de réseaux fodés sur la trasformée cotiue, qui, comme ous l'avos vu au chapitre précédet, possèdet des termes directs. IV.3 La procédure de costructio du réseau. IV.3.1 Présetatio de la procédure de costructio. État doé que l o dispose des méthodes de costructio de la bibliothèque d odelettes et de leur sélectio, il reste à décrire les étapes de costructio du réseau. Nous proposos le schéma suivat : 1. Effectuer l appretissage du réseau coteat uiquemet les termes directs (la solutio est celle des moidres carrés).. 2. Déduire ue ouvelle séquece d appretissage dot les sorties sot défiies comme les erreurs du réseau affie. Cette séquece décrit doc la partie o modélisée par le réseau costitué par les termes directs. 3. Sélectioer u ombre N W d odelettes de la bibliothèque préalablemet costruite, sur la base de la ouvelle séquece d appretissage. 4. Effectuer l appretissage du réseau complet, avec la séquece iitiale, e ajustat les podératios des odelettes et les termes directs. 102

117 Réseaux d'odelettes fodés sur la trasformée discrète Lors du secod appretissage, o réajuste les termes directs pour e pas aboutir à ue solutio sous optimale. Ue comparaiso de leurs valeurs avat et après le secod appretissage motre qu ils e sot gééralemet pas modifiés. Das le cas où la taille du réseau est pas ue cotraite, le ombre d odelettes N w peut être augmeté tat qu o observe pas de surajustemet. E revache, si l'o cherche à atteidre ue performace doée, o augmete N w jusqu à ce que cette performace soit atteite. Das les deux cas, la recherche de N w se fait selo u processus itératif. La figure suivate illustre le schéma d applicatio de la procédure : Appretissage des termes directs Déduire la ouvelle séquece d'appretissage Appliquer la procédure de sélectio Iitialiser Nw Appretissage des podératios et des termes directs avec la séquece iitiale No Surajustemet ou Performace satisfaisate Oui Nw = Nw + 1 Fi Figure 3. Schéma d applicatio de la procédure. IV.3.2 Avatages et icovéiets de cette approche. Nous avos préseté cette procédure comme ue techique de costructio de réseaux d odelettes fodés sur la trasformée discrète. Les réseaux obteus sot plus volumieux, pour ue même EQMP, que ceux, fodés sur la trasformée cotiue, qui utiliset les techiques d optimisatio o liéaire (voir l'exemple préseté au paragraphe V.1). De plus, pour des modèles de trois etrées ou plus, le ombre des régresseurs das la bibliothèque deviet très grad. 103

118 Réseaux d'odelettes fodés sur la trasformée discrète E revache, cette approche présete l avatage d utiliser les spécificités de cette famille de foctios pour ue costructio de réseaux à moidre coût (temps de calcul très iférieur à celui d u appretissage utilisat ue techique d'optimisatio o liéaire). Cette approche est doc coseillée das le cas où l'o désire costruire u modèle rapidemet sas avoir recours à plusieurs appretissages. E revache, si la recherche d u modèle parcimoieux est ue priorité, ce type de réseaux 'est doc pas itéressat. Néamois, la procédure proposée peut être mise à profit d ue autre faço. C est l objet du paragraphe suivat. IV.4 Autre applicatio de la procédure : iitialisatio des traslatios et dilatatios pour l appretissage de réseaux d'odelettes à paramètres cotius. Ue autre applicatio de cette procédure est evisageable : l iitialisatio des traslatios et des dilatatios pour l appretissage de réseaux fodés sur la trasformée cotiue 2. IV.4.1 Pricipe de la procédure d iitialisatio. Nous avos vu das le chapitre précédet, lors de l étude de réseaux fodés sur la trasformée cotiue, que l'étape d'iitialisatio des paramètres du réseau fait iterveir la propriété de localité des odelettes. Ue procédure d iitialisatio simple fodée sur ue heuristique a été proposée. Cette heuristique utilise peu les propriétés de ces foctios et la théorie des structures obliques d odelettes. Nous proposos ici d utiliser la procédure qui viet d être proposée pour l iitialisatio des traslatios et des dilatatios. Le schéma d appretissage utilisat cette approche pour l iitialisatio du réseau se présete de la maière suivate : 1. Choisir le ombre N W d odelettes costituat le réseau. 2. Utiliser la procédure de costructio d ue bibliothèque et de sélectio des odelettes présetée ci-dessus pour sélectioer les N W meilleures odelettes expliquat la sortie du processus à modéliser. 2 Das [Lehtokagas95], ue techique d iitialisatio semblable a été proposée pour l appretissage de réseaux de euroes à foctios sigmoïdes. État doé qu il existe pas de théorie de costructio de bibliothèque de euroes à foctios sigmoïdes, cette bibliothèque est formée de euroes choisis aléatoiremet. E ce qui cocere les réseaux d odelettes, cette approche de l iitialisatio a été citée das [Zhag93] sas être mise e œuvre. 104

119 Réseaux d'odelettes fodés sur la trasformée discrète 3. Iitialiser le réseau utilisat pour traslatios et dilatatios celles des odelettes sélectioées. Les podératios sot iitialisées aléatoiremet. 4. Effectuer l appretissage du réseau suivat les algorithmes décrits das le cadre de réseaux fodés sur la trasformée cotiue. IV.4.2 Avatages et icovéiets de cette méthode d iitialisatio. Cette ouvelle méthode d iitialisatio présete l avatage d utiliser la séquece d appretissage pour iitialiser les traslatios et dilatatios des odelettes. La sélectio état fodée sur la miimisatio du critère des moidres carrés (le même que celui utilisé lors de l appretissage), cette procédure est de ature à rapprocher le réseau d u miimum de la foctio de coût e début d appretissage. La méthode de sélectio écessite que les valeurs des etrées soiet dispoibles : elle est doc pas applicable pour l iitialisatio de réseaux bouclés. Néamois, si les états sot mesurables, ou das le cas d ue modélisatio etrée sortie, l applicatio de cette techique pour des réseaux o bouclés est evisageable. V. ÉTUDE D EXEMPLES. O se propose de mettre e œuvre les procédures décrites ci-dessus pour la modélisatio de processus à l aide de réseaux d odelettes fodés sur, ou iitialisés à l aide de, la trasformée discrète. Nous présetos tout d'abord ue applicatio de la procédure de costructio, pour u modèle dyamique. Nous présetos esuite deux exemples d'applicatio de la procédure d'iitialisatio des dilatatios et traslatios d'odelettes à paramètres cotius. V.1 Exemple de costructio de réseaux à l'aide de la procédure de sélectio. V.1.1 Présetatio du processus. Le système à modéliser est u processus simulé avec ue équatio d ordre 1 : ±y p 2 (k)/ y p (k+1) = fy p k, uk = 1± 1+5y 2 p (k) y p (k)+ e 1+5y 2 p (k) u(k)±e±50 y p (k) u(k) (35) Les séqueces d appretissage et d évaluatio de la performace ot ue taille N=1000. Les séqueces d etrée sot aléatoires, de distributio uiforme das l itervalle 1, 1. L équatio ayat été préalablemet ormalisée, la sortie est comprise das le même itervalle. La figure suivate illustre la distributio des exemples de la séquece d appretissage das le pla (u(k), y p (k)). 105

120 Réseaux d'odelettes fodés sur la trasformée discrète Figure 4. Répartitio des exemples das le pla (u(k), y p (k)). O effectuera égalemet ue modélisatio du processus perturbé avec u bruit d état de distributio uiforme et de variace L équatio de simulatio est : y p (k+1) = f(y p (k), u(k)) + w(k) (36) {w(k)} est u bruit pseudo-blac de moyee ulle. Le choix d ue perturbatio bruit d état coïcide avec le fait que, le prédicteur optimal pour l appretissage état o bouclé, otre méthode d iitialisatio qui utilise ue procédure de sélectio est applicable. V.1.2 Costructio d u modèle dyamique à l aide de la procédure. O se propose doc de modéliser ce processus e utilisat u prédicteur pour l appretissage ayat l expressio : y(k+1) = ψ y p (k), u(k) (37) où la foctio ψ est réalisée par u réseau d odelettes comme das la relatio (11). Das ce cas, ous avos ue etrée extere (N e = 1) et ue etrée d état (N s = 1). Le ombre d etrées du réseau est doc N i = N e + N S = 2. Les deux etrées état das l itervalle [-1, +1], la costructio de la bibliothèque est relativemet simple puisque le calcul des dilatatios et des traslatios est le même pour chacue des etrées. O l effectue doc ue seule fois (e gééral, les etrées sot réparties das des itervalles différets ; pour se rameer à u seul itervalle et simplifier la costructio de la bibliothèque, ue ormalisatio des etrées peut être effectuée). O costruit la bibliothèque avec trois iveaux différets de dilatatio dot le plus petit est doé par la relatio (16) : m = 2. Les autres sot doés par la relatio (17), et sot doc 3 et 4. O aboutit à 31 odelettes ayat leurs cetres das l itervalle [-1, +1]. État doé que ous avos deux etrées, le ombre d odelettes multidimesioelles est doc de =

121 Réseaux d'odelettes fodés sur la trasformée discrète O s itéresse à la costructio de tous les réseaux formés de 1 à 40 odelettes. Au delà de cette valeur de N W la cotributio des odelettes sélectioées améliore peu les foctios de coût. O exécute la procédure de sélectio ue seule fois et, pour chaque réseau, o calcule uiquemet les podératios des odelettes et les coefficiets de la partie affie. V Modélisatio dyamique sas bruit du processus simulé. La figure suivate illustre l évolutio de l EQMA et de l EQMP e foctio du ombre d odelettes das le réseau _. _. EQMA EQMP Figure 5. EQMA et EQMP e foctio du ombre d odelettes (sas bruit). Ue performace de 10 3 est atteite avec u réseau de 19 odelettes. U tel réseau possède 98 paramètres, dot 76 (traslatios et dilatatios) sot détermiés par la procédure de sélectio et 22 (podératios des odelettes et termes directs) sot solutio de la méthode des moidres carrés. La valeur correspodate de l EQMA est Nous avos metioé, parmi les icovéiets de cette méthode de costructio de réseaux, so maque de parcimoie par comparaiso avec les réseaux o liéaires par rapport aux coefficiets ajustables. A titre d exemple, u réseau fodé sur la trasformée cotiue atteit cette performace avec 7 odelettes. E revache, le temps d appretissage reste plus importat. V Modélisatio dyamique avec bruit du processus simulé. O simule le processus avec u bruit d état comme décrit das le paragraphe V.1.1. La figure suivate illustre l évolutio des EQM e foctio du ombre de foctios das le réseau. 107

122 Réseaux d'odelettes fodés sur la trasformée discrète EQMA _. _. EQMP Figure 6. EQMA et EQMP e foctio du ombre d odelettes (avec bruit). Pour u réseau de 19 odelettes, les EQM d appretissage et d évaluatio de la performace sot égales à et Avec 40 odelettes, ous avos les chiffres suivats : et Comme le ombre d exemples est très grad par rapport aux ombres de paramètres, ous e sommes pas cofrotés au problème du surajustemet. V Coclusio. L étude de cet exemple ous a motré que la mise e œuvre de la procédure est simple et écessite peu de calculs (particulièremet la costructio de la bibliothèque). De plus, si ue ormalisatio des etrées est effectuée o peut costruire ue bibliothèque stadard. Le prix à payer reste la taille du réseau (plus importate que celle des réseaux présetés au chapitre III où tous les paramètres sot ajustables) et aussi la croissace très rapide du ombre d'élémets de la bibliothèque dès que le modèle possède plus de trois etrées. V.2 Exemple d'iitialisatio des traslatios et des dilatatios de réseaux à l'aide de la procédure de sélectio. La méthode d'iitialisatio par sélectio présetée das le paragraphe IV.4 de ce chapitre est illustrée ici par la modélisatio statique de deux processus. Le "processus 1" est u processus à deux etrées, tadis que le "processus 2" est le processus à ue etrée préseté das le chapitre III, paragraphe IV.3. V.2.1 Processus 1. V Présetatio du processus. Le processus simulé dot ous étudios la modélisatio statique a été utilisé das [Hwag94] pour l applicatio d u schéma d appretissage utilisat 108

123 Réseaux d'odelettes fodés sur la trasformée discrète la techique de la Projectio Pursuit Regressio (voir le chapitre II de ce mémoire pour u commetaire sur cette techique). Le processus possède deux etrées et ue sortie. Le comportemet statique est simulé par la foctio suivate : f x 1, x 2 = ± x 1 + exp 2 x 1 ±1 si 3 π x 1 ± exp 3 x 2 ± 0.5 si 4 π x 2 ± (34) O choisit pour les deux etrées le domaie [0,1]. La séquece d appretissage est costituée de 1000 poits répartis suivat ue distributio uiforme pour les deux etrées. La séquece d évaluatio de la performace est formée de 1600 poits répartis suivat ue grille régulière. V Iitialisatio de réseaux à l aide de la procédure de sélectio. O se propose d appliquer la procédure de sélectio pour l iitialisatio de réseaux d odelettes. Les podératios iitiales sot choisies suivat ue distributio uiforme das l itervalle [ 10-2,10 2 ]. Pour chaque réseau, o effectue cet appretissages, correspodat chacu à u tirage différet des podératios iitiales, à l'aide de l'algorithme de BFGS. O présetera l'histogramme des EQMA et des EQMP. L aalyse de ces résultats ous permettra de comparer la performace de chacue de ces deux techiques d iitialisatio et aussi d évaluer leur robustesse relative vis-à-vis de l iitialisatio aléatoire des podératios. O cosidère des réseaux costitués de 5, 10 et 15 odelettes. V Modélisatio du processus o bruité. La figure 7 présete les histogrammes des EQMA et des EQMP après appretissage du processus o bruité, avec itialisatio des traslatios et dilatatios par la procédure heuristique présetée das le chapitre III. La Figure 8 présete les résultats obteus, toutes choses égales par ailleurs, e utilisat la procédure d'iitialisatio par sélectio présetée das ce chapitre. La comparaiso etre ces deux figures motre clairemet que l'iitialisatio par sélectio permet d'obteir des résultats mois dispersés que l'iitialisatio heuristique. Les traslatios et dilatatios état, das les deux cas, les mêmes pour tous les appretissages, ous pouvos e coclure que l'iitialisatio par sélectio cofère à l'appretissage ue meilleure idépedace par rapport à l'iitialisatio aléatoire des podératios des odelettes. 109

124 Réseaux d'odelettes fodés sur la trasformée discrète 25 Histogramme EQMA 25 Histogramme EQMP odelettes Histogramme EQMA Histogramme EQMP odelettes Histogramme EQMA Histogramme EQMP odelettes x x 10-3 Figure 7. Histogrammes des EQMA et EQMP pour 100 appretissages iitialisés avec la procédure heuristique. 110

125 Réseaux d'odelettes fodés sur la trasformée discrète 80 Histogramme EQMA 80 Histogramme EQMP odelettes Histogramme EQMA Histogramme EQMP odelettes odelettes Histogramme EQMA Histogramme EQMP x x 10-3 Figure 8. Histogrammes des EQMA et EQMP pour 100 appretissages iitialisés avec la procédure de sélectio. V Modélisatio avec bruit du processus. Nous avos effectué les mêmes expérieces umériques pour l'appretissage du processus simulé avec u bruit additif de sortie, uiformémet distribué de moyee ulle et de variace Pour alléger la présetatio, ous e préseteros (Figure 9) que les résultats obteus avec u réseau de 10 odelettes, qui permet d'obteir ue EQMA et ue EQMP égales à la variace du bruit (qui, ici, est coue puisqu'il s'agit d'u processus simulé). 111

126 Réseaux d'odelettes fodés sur la trasformée discrète 80 Histogramme EQMA 80 Histogramme EQMP Sas sélectio Avec sélectio Histogramme EQMA Histogramme EQMP Figure 9. Histogrammes des EQMA et EQMP pour 100 appretissages pour la modélisatio avec bruit. O observe, comme pour l'appretissage du processus o bruité, que l'iitialisatio par sélectio permet d'obteir des résultats beaucoup mois dispersés, doc ue meilleure idépedace vis-à-vis des iitialisatios aléatoires des podératios. La valeur de l'eqma correspodat à la variace du bruit est obteue das 97 % des cas. V.2.2 Processus 2. Ce processus a déjà été étudié au chapitre III. Nous rappelos ici pour mémoire (Figure 10) l'histogramme des EQMA et EQMP obteues après appretissage d'u réseau de 10 odelettes par l'algorithme de BFGS, avec u esemble de 300 poits et iitialisatio à l'aide de la procédure heuristique. La Figure 11 représete les résultats obteus das les mêmes coditios, avec la procédure d'iitialisatio présetée das ce chapitre. Comme pour le processus précédet, l'utilisatio de l'iitialisatio par sélectio permet d'obteir, avec ue plus grade fréquece, les meilleures performaces. 112

127 Réseaux d'odelettes fodés sur la trasformée discrète 80 Histogramme EQMA 80 Histogramme EQMP Figure 10. Histogrammes de l EQMA et l EQMP pour 100 appretissages iitialisés avec la procédure heuristique. 90 Histogramme EQMA 90 Histogramme EQMP Figure 11. Histogrammes de l EQMA et l EQMP pour 100 appretissages iitialisés avec la procédure de sélectio. VI. CONCLUSION. Das ce chapitre, ous avos préseté les réseaux d odelettes fodés sur la trasformée e odelettes discrète. Il existe pricipalemet les structures obliques et les bases d odelettes orthogoales. Le fait que les odelettes mères orthogoales e possèdet pas d expressio aalytique simple les red peu pratiquet pour des problèmes d approximatio de foctios. Nous avos proposé ue procédure de modélisatio de processus fodée sur la costructio d ue structure oblique étroite et de la sélectio des odelettes les plus sigificatives. Cette procédure est égalemet applicable comme méthode d iitialisatio des réseaux fodés sur la trasformée cotiue, étudiés das le chapitre précédet. Les résultats obteus sur l étude d u exemple motret que la costructio de réseaux à l aide de la procédure proposée peut être ue solutio 113

128 Réseaux d'odelettes fodés sur la trasformée discrète itéressate si l o désire modéliser u processus sas cotraite de parcimoie, car sa mise e œuvre écessite peu de calculs. D autre part, l applicatio de cette procédure pour l iitialisatio des traslatios et dilatatios d'odelettes de réseaux fodés sur la traformée cotiue a motré que les EQMA et EQMP présetet ue dispersio plus faible que lors de l'utilisatio d'ue iitialisatio heuristique ; e d'autres termes, cette procédure permet ue plus grade idépedace vis-à-vis de l iitialisatio des podératios des odelettes. 114

129 CHAPITRE V Étude de quelques exemples

130 Étude de quelques exemples I. INTRODUCTION. Das ce chapitre, ous présetos deux exemples de mise e œuvre des réseaux et algorithmes présetés das ce mémoire pour la modélisatio de processus. Le premier est simulé à partir d ue équatio aux différeces. Le secod est u processus réel cou à partir d ue séquece de mesures. Les prédicteurs que ous cosidéreros serot des réseaux de foctios dorsales à sigmoïdes et des réseaux d odelettes fodés sur la trasformée cotiue ; ous avos vu que les premiers permettet de réaliser des approximateurs plus parcimoieux que les modèles liéaires par rapport aux paramètres ajustables. D autre part, il s agit de modélisatio dyamique de processus : o souhaite doc obteir des modèles de simulatio. Les prédicteurs costruits à l aide de réseaux d odelettes fodés sur la trasformée discrète e peuvet être cadidats das ce cas, comme ous l'avos vu das le chapitre IV. Nous préseteros, e premier lieu, u processus simulé. Il est e effet itéressat, d'u poit de vue académique, de tester de cette maière des méthodes d'appretissage ou des architectures de réseaux : le ombre d'exemples peut être arbitrairemet grad, l'amplitude et la ature du bruit sot parfaitemet coues, l'ordre du processus simulé est cou. O s'affrachit aisi des icertitudes, iévitables lorsque l'o modélise u processus réel, relatives au ombre et au choix des exemples, aisi qu'au choix du modèle-hypothèse. Nous préseteros esuite la modélisatio d'u processus réel, qui a été étudié e détail par d'autres auteurs. Nous ous itéresseros essetiellemet à l appretissage de réseaux bouclés. L algorithme utilisé sera doc semi-dirigé (paragraphe V.1.2 du chapitre III). Pour tous les réseaux, o effectue 50 appretissages correspodat chacu à ue iitialisatio différete des podératios et des termes directs das le cas des réseaux d odelettes (les traslatios et les dilatatios état iitialisées suivat la techique proposée das le paragraphe IV.2 du chapitre III) de tous les coefficiets das le cas d u réseau de foctios dorsales. Le résultat reteu est celui présetat l'erreur la plus petite sur l esemble d estimatio de la performace (EQMP). 116

131 Étude de quelques exemples Chaque fois que ous seros ameés à comparer l efficacité de deux algorithmes d appretissage, ous iitialiseros les réseaux de maière idetique avat applicatio de chaque algorithme. II. MODÉLISATION DE PROCESSUS SIMULÉS. II.1 Présetatio du processus simulé sas bruit. Le processus dot ous effectuos la modélisatio a été proposé das [Urbai95] pour la validatio d ue procédure de sélectio de modèles euroaux (réseaux de euroes à foctios dorsales). Il est simulé à partir de l équatio aux différeces etrée-sortie suivate : y p ()=f y p (-1), y p (-2), u(-1) = 24 + y p -1 u(-1) 2 y 30 p -1 ± u(-1) 2 y p u-1 (1) où y p () et u() sot respectivemet la sortie mesurée du processus et l etrée de commade à l istat. Pour de faibles amplitudes de l etrée de commade, comprises das l itervalle [ 0.1, 0.1], l équatio aux différeces ci-dessus est proche de l équatio liéaire du premier ordre suivate : y p = 0.8 y p ± u±1 (2) Le comportemet est alors celui d u filtre passe-bas du 1 er ordre de gai statique égal à 2.5. Lorsque l etrée de commade est de plus grade amplitude, le comportemet est o liéaire. Pour ue etrée variat das l itervalle [ 10, 10] le processus reste stable. O choisit de modéliser ce processus simulé à l aide de réseaux de foctios dorsales et d odelettes. Pour cela, o calcule ue séquece d appretissage et ue séquece d estimatio de la performace, compreat chacue 1000 exemples. L etrée est ue séquece de créeaux d amplitude aléatoire comprise das l itervalle [-5, +5] et de durées aléatoires variat de 1 à 20 périodes d échatilloage. La figure 1(a) motre les séqueces de l etrée de commade pour l appretissage (à gauche) et pour l estimatio de la performace (à droite), et la figure 1(b) les séqueces correspodates de la sortie, utilisées pour l appretissage (à gauche) et l évaluatio de la performace (à droite). 117

132 Étude de quelques exemples (a) (b) Figure 1. Séquece de l etrée de commade (a) et séquece de la sortie calculée (b) du processus pour l appretissage. II.2 Modélisatio du processus simulé o bruité. Nous allos chercher tout d'abord à modéliser le processus simulé à partir de l'équatio (1) sas itroduire de bruit. E l'absece de bruit, les performaces sot limitées par le ombre d'exemples (aisi que leur distributio) et par l'efficacité de l'algorithme d'appretissage. Das ce cas, comme ous l'avos idiqué das le chapitre I, o peut idifféremmet effectuer l'appretissage d'u réseau o bouclé ou celui d'u réseau bouclé. Das la mesure où ous sommes itéressés par la coceptio de modèles de simulatio, ous avos choisi de réaliser l'appretissage de réseaux bouclés. E effet, u modèle de simulatio est destié à prédire des séqueces de valeurs des sorties, doc c'est écessairemet u réseau bouclé. D autre part, il ous est possible de choisir u modèle etrée sortie ou u modèle d état. Pour ce processus, ous cosidéreros uiquemet sa modélisatio par des prédicteurs de type etrée-sortie. Ce choix est motivé par le fait que le processus est simulé à partir d ue équatio aux différeces de type 118

133 Étude de quelques exemples etrée sortie ; u exemple de modélisatio d état est préseté das le paragraphe III.3 à l occasio de la modélisatio d u processus réel. L'ordre du processus simulé état cou, aisi que la mémoire sur l'etrée de commade, ous cosidéros pour ce processus l appretissage d u prédicteur ayat l expressio suivate : y = ψ y(±1), y(±2), u(±1), θ (3) La foctio ψ est à approcher par u réseau de foctios dorsales ou d odelettes fodé sur la trasformée cotiue (puisque le réseau est bouclé) et θ est le vecteur des paramètres à ajuster. II.2.1 Réseau prédicteur à foctios odelettes. Nous cosidéros des réseaux d odelettes bouclés fodés sur la trasformée cotiue, présetés das le chapitre III de ce mémoire. Nous effectuos l appretissage de plusieurs architectures ayat u ombre d odelettes croissat afi de rechercher celle qui permet d'obteir la meilleure performace (EQMP). Les appretissages de ces réseaux sot effectués avec l algorithme de BFGS et celui de Leveberg Marquardt. II Appretissage avec l algorithme de BFGS. Le tableau 1 présete les résultats obteus lors de l appretissage de réseaux d odelettes bouclés à l aide de l algorithme de BFGS. Rappelos que, pour chaque architecture, 50 appretissages ot été effectués, avec, à chaque fois, ue iitialisatio aléatoire différete des podératios et des termes directs (coefficiets de la partie affie). Les paramètres de traslatio et de dilatatio sot iitialisés suivat la procédure présetée au chapitre III. Le résultat idiqué (pour chacue des architectures) est le meilleur obteu sur les 50 appretissages. Nombre d odelettes Nombre de paramètres EQMA Meilleure EQMP sur 50 appretissages , , , , , , , , , , , , Tableau 1. Résultats de la modélisatio du processus simulé sas bruit avec réseaux d odelettes ; appretissage à l'aide de l'algorithme de BFGS. 119

134 Étude de quelques exemples Au delà de 6 odelettes, les réseaux coteat plus de foctios e permettet pas d'obteir de meilleures performaces. II Appretissage avec l algorithme de Leveberg Marquardt. Comme précédemmet, ous ous itéressos à l appretissage de plusieurs architectures de réseaux d odelettes mais cette fois e utilisat l algorithme de Leveberg Marquardt pour l ajustemet des paramètres. Aisi que ous l'avos idiqué au chapitre III, le calcul du gradiet se fait das le ses direct. L iitialisatio des paramètres est la même que pour l algorithme de BFGS. Nombre d odelettes Nombre de paramètres EQMA Meilleure EQMP sur 50 appretissages , , , , , , , , , , , , , , Tableau 2. Résultats de la modélisatio du processus simulé sas bruit avec réseaux d odelettes ; appretissage à l'aide de l'algorithme de Leveberg Marquardt. Ces résultats sot équivalets à ceux obteus avec l algorithme de BFGS et représetés sur le tableau 1. Notos que das le cas de l utilisatio de l algorithme de Leveberg Marquardt, il est écessaire d utiliser u réseau de 7 odelettes pour atteidre ue performace de II.2.2 Réseau prédicteur à foctios dorsales. Afi d évaluer les performaces des réseaux d odelettes fodés sur la trasformée cotiue par rapport à celles que l o peut obteir avec ue classe de réseaux possédat de boes propriétés de parcimoie, o se propose d effectuer la modélisatio de ce processus à l aide de prédicteurs fodés sur des réseaux de foctios dorsales. O choisit pour foctio d activatio la foctio sigmoïde (qui est la brique élémetaire des réseaux de euroes covetioels) et l o effectue l appretissage de réseaux bouclés dot la partie statique est costituée d'ue couche de foctios dorsales et d'u euroe de sortie liéaire (figures 4 et 7 du chapitre II). 120

135 Étude de quelques exemples II Appretissage avec l algorithme de BFGS. Comme précédemmet, ous effectuos l appretissage de plusieurs architectures e augmetat à chaque fois le ombre de euroes. Le tableau 3 illustre les meilleurs résultats obteus pour chacue des architectures. Nombre de sigmoïdes Nombre de paramètres. EQMA Meilleure EQMP sur 50 appretissages 1 9 1, , , , , , , , , , , , Tableau 3. Résultats de la modélisatio du processus simulé sas bruit avec réseaux de sigmoïdes et algorithme de BFGS. Là ecore, ue augmetatio du ombre de foctios 'améliore pas la performace, au-delà de 6 euroes cachés. Les résultats, cocerat l'eqmp, portés das les tableaux 1 et 3, sot représetés graphiquemet sur la figure 2 qui illustre l évolutio de l EQMP e foctio du ombre de foctios pour les deux types de réseaux. O e costate pas de différece sigificative etre les deux types de réseaux. log(eqmp) Odelettes Sigmoïdes Nombre de foctios das le réseau Figure 2. Évolutio de la performace e foctio de l architecture du réseau (BFGS). II Appretissage avec l algorithme de Leveberg Marquardt. O effectue égalemet l appretissage de ces réseaux bouclés de sigmoïdes à l aide de l algorithme de Leveberg Marquardt. Les remarques faites das le 121

136 Étude de quelques exemples chapitre III cocerat la écessité de faire le calcul du gradiet de la foctio de coût das le ses direct s appliquet égalemet aux réseaux de foctios dorsales. Le tableau 4 illustre les meilleurs résultats obteus pour chacue des architectures. Nombre de sigmoïdes. Nombre de paramètres. EQMA Meilleure EQMP sur 50 appretissages 1 9 1, , , , , , , , , , , , , , Tableau 4. Résultats de la modélisatio du processus simulé sas bruit avec réseaux de sigmoïdes ; appretissage avec l'algorithme de Leveberg Marquardt. Les résultats, cocerat l'eqmp, portés das les tableaux 2 et 4, sot représetés graphiquemet sur la figure 3 qui illustre l évolutio de l EQMP e foctio du ombre de foctios pour les deux types de réseaux. Comme précédemmet, o e costate pas de différece sigificative etre les deux types de réseaux. log(eqmp) Odelettes Sigmoïdes Nombre de foctios das le réseau Figure 3. Évolutio de la performace e foctio de l architecture du réseau (Leveberg-Marquardt). II.3 Modélisatio du processus simulé avec bruit. Nous ous proposos à préset de modéliser u processus bruité. État doé que l o simule le processus, o a la possibilité de choisir la maière avec laquelle agit le bruit. Nous simuleros l'existece d'u bruit additif de sortie, puis celle d'u bruit additif d'état ; das chacu des cas, ous feros le choix du 122

137 Étude de quelques exemples modèle-hypothèse qui correspod au type de bruit qui est effectivemet mis e œuvre das les simulatios, car ous ous itéressos, das ce travail, à l'ifluece du choix des foctios utilisées pour costruire le modèle ; l'ifluece du choix du modèle-hypothèse (et otammet l'effet d'u choix erroé) a été étudiée das [Nerrad94]. II.3.1 Modélisatio du processus simulé avec bruit additif de sortie. Lorsque l o fait l hypothèse d u bruit additif e sortie (Output Error), le prédicteur optimal associé est bouclé. O cosidère u prédicteur d'ordre 2, dot la mémoire sur l'etrée de commade est de 1 période d'échatilloage.ce prédicteur peut être approché par u réseau de foctios réalisat le modèle suivat: y = ψ y(±1), y(±2), u(±1), θ (4) Si la séquece d appretissage est suffisammet riche et représetative du comportemet processus, si l algorithme d appretissage est efficace, et si la taille du réseau est suffisate pour approcher la partie détermiiste du processus avec ue boe précisio, alors les EQMA et EQMP obteues doivet être égales à la variace du bruit (c est à dire à la partie o prédictible du comportemet du processus). Nous simulos le processus avec u bruit pseudo-blac additif e sortie de distributio uiforme et de variace Les résultats de la modélisatio sas bruit motret qu u réseau costitué de ciq foctios permet d effectuer ue boe approximatio de la partie détermiiste du processus (performace iférieure à la variace du bruit). Nous avos doc effectué l appretissage de réseaux costitués de ciq foctios (sigmoïdes ou odelettes). Le tableau 5 illustre les meilleurs résultats obteus sur 20 appretissages. EQMA EQMP Réseaux d odelettes 1, , Réseaux de sigmoïdes 1, , Tableau 5. Résultats de la modélisatio avec bruit de sortie. Les deux types de réseaux permettet d obteir de faço quasimet idetique ue foctio de coût e fi d appretissage, et ue performace, très proches de la variace du bruit. 123

138 Étude de quelques exemples II.3.2 Modélisatio du processus simulé avec bruit d état additif. Nous cosidéros à préset la modélisatio du processus simulé avec u bruit d'état additif (Equatio Error) de variace Le prédicteur optimal associé est o bouclé. O effectue doc l appretissage de réseaux réalisat le modèle suivat : y = ψ y p (±1), y p (±2), u(±1), θ (5) O utilise des architectures de réseaux costitués de 5 foctios (sigmoïdes ou odelettes) et pour chaque architecture o retiet la meilleure performace obteue sur 20 appretissages. Les résultats sot illustrés sur le tableau 6. EQMA EQMP Réseaux d odelettes 9, , Réseaux de sigmoïdes 9, , Tableau 6. Résultats de la modélisatio avec bruit d état. Comme das le cas d u bruit de sortie additif, réseaux d odelettes et de foctios dorsales aboutisset à des prédicteurs optimaux avec des précisios quasimet idetiques. II.4 Coclusio. Das la première partie de ce chapitre, ous avos effectué ue modélisatio de type etrée sortie d u processus simulé moo-etrée-moosortie d'ordre 2. Nous avos utilisé, das des coditios idetiques, des réseaux d odelettes fodés sur la trasformée cotiue et des réseaux de foctios dorsales sigmoïdes. Lors de la modélisatio sas bruit puis avec brut, les deux types de réseaux motret des performaces équivaletes, que les appretissages soiet effectués à l aide de l algorithme de BFGS ou à l'aide de l'algorithme de Leveberg Marquardt. III. MODÉLISATION D UN PROCESSUS RÉEL. Les simulatios précédetes ot permis d étudier les performaces de réseaux de euroes et de réseaux d'odelettes e foctio du ombre de foctios présetes das ces réseaux, toutes choses égales et coues par ailleurs (ordre du modèle, mémoire sur l etrée de commade, variace du bruit). Das la plupart des applicatios réelles, o igore : l'ordre écessaire pour le modèle (c'est-à-dire la valeur du paramètre N S défii au chapitre I), la mémoire sur l etrée de commade (c'est-à-dire la valeur du paramètre N e défii au chapitre I) 124

139 Étude de quelques exemples la ature et la variace du bruit. Lorsque l'o cherche à modéliser u processus réel, il est doc écessaire, d'ue part, d'essayer plusieurs modèles-hypothèses et de reteir celui qui semble le mieux adapté, et, d'autre part, de recourir à des techiques de sélectio de modèles [Urbai95] pour trouver des valeurs satisfaisates de N s et N w. III.1 Présetatio du processus. Le processus dot ous ous proposos de faire la modélisatio das ce qui suit est l actioeur hydraulique d'u bras de robot articulé. La sortie d itérêt y p () est la pressio d huile de l actioeur qui détermie la positio du bras. L etrée de commade qui agit sur la pressio est l ouverture d ue vae u(). Les doées relatives à ce processus ot été fouries par l'uiversité de Liköpig ; ce processus a fait l'objet de modélisatios "boîtes oires" de la part de plusieurs équipes [Sjöberg95]. Le processus est cou par ue séquece de 1024 couples d etrées et de sorties {u(k), y p (k)} mesurées. La première moitié de ces doées (c est à dire 512 poits) est utilisée comme séquece d appretissage et la secode moitié comme séquece pour l estimatio de la performace. La figure 4 illustre la séquece de l etrée de commade (a) et celle de la sortie mesurée (b) dot ous disposos (a) Séquece d'appretissage Séquece de performace (b) Figure 4. Séqueces de l etrée de commade (a) et de la sortie (b). 125

140 Étude de quelques exemples O se propose das la suite d effectuer ue modélisatio de ce processus avec des prédicteurs etrée sortie et d état fodés sur des réseaux d odelettes et de euroes à foctios sigmoïdes. III.2 Modélisatio etrée sortie. Tout d abord, ous ous proposos d effectuer ue modélisatio etrée sortie du processus. Comme toute modélisatio, la première étape cosiste à choisir u modèle-hypothèse. Le prédicteur optimal pour l appretissage associé à ue hypothèse bruit d état est o bouclé. Ue étude atérieure de ce même processus[rivals95b] a motré que les modèles costruits à partir de l'hypothèse bruit d'état ot de mauvaises performaces. Nous avos doc opté pour l appretissage de prédicteurs bouclés. La deuxième questio à résoudre cocere le choix de l ordre du modèle et de la mémoire sur l etrée de commade. Nous avos adopté ue démarche qui cosiste à cosidérer d'abord le modèle le plus simple, puis à le redre plus complexe et à reteir celui qui présete la meilleure performace. Das ce cas, ous partos d u prédicteur avec N S = 2 (le caractère oscillatoire de la répose suggère que le modèle est au mois du secod ordre) et N e = 1. III.2.1 Réseau prédicteur à foctios odelettes. Nous commeços par préseter les résultats obteus pour des prédicteurs fodés sur des réseaux d odelettes bouclés, comme ceux présetés das le chapitre III. Comme pour les processus simulés, ous effectuos l appretissage de plusieurs réseaux e augmetat le ombre d odelettes. III Appretissage avec l algorithme de BFGS. Le tableau 7 présete les résultats obteus pour des appretissages utilisat l algorithme de BFGS. Comme pour le processus simulé, o effectue 50 appretissages pour chacue des architectures avec à chaque fois ue iitialisatio différete ; les résultats présetés correspodet aux appretissages présetat les meilleures EQMP. Nombre d odelettes. Nombre de paramètres. EQMA Meilleure EQMP sur 50 appretissages ,25 0, ,11 0, ,13 0,15 Tableau 7. Résultats de la modélisatio du processus réel avec réseaux d odelettes ; appretissage à l'aide de l'algorithme de BFGS. 126

141 Étude de quelques exemples Pour plus de 3 odelettes, la performace du modèle se dégrade. Le réseau présetat la meilleure performace est doc celui qui est costitué de deux odelettes. C'est d'ailleurs, à otre coaissace, le meilleur résultat publié, relatif à u prédicteur etrée-sortie de ce processus [Rivals95b, Pucar95, Sjöberg95]. III Appretissage avec l algorithme de Leveberg Marquardt. Das les mêmes coditios que précédemmet (mêmes séqueces, mêmes architectures de réseaux, mêmes iitialisatios), o effectue des appretissages de ces réseaux d odelettes e utilisat l algorithme de Leveberg Marquardt. Pour chaque réseau l appretissage présetat la meilleure EQMP sur les 50 est préseté sur le tableau 8. Nombre d odelettes Nombre de paramètres EQMA Meilleure EQMP sur 50 appretissages ,22 0, ,094 0, ,084 0, ,046 0,24 Tableau 8. Résultats de la modélisatio du processus réel avec réseaux d odelettes ; appretissage à l'aide de l'algorithme de Leveberg Marquardt. Comme avec l algorithme de BFGS, le réseau de 2 odelettes présete la meilleure performace. La figure suivate, qui motre l évolutio de l EQMA et de l EQMP e foctio du ombre d odelettes, met e évidece que pour ue architecture compreat 3 odelettes ou plus, o observe u phéomèe de surajustemet EQMA EQMP Nombre d'odelettes Figure 5. Évolutio de la meilleure EQMP sur 50 appretissages et de l EQMA correspodate (appretissages avec l'algorithme de Leveberg Marquardt). 127

142 Étude de quelques exemples III Fréquece d'occurrece du meilleur résultat. Les résultats présetés das les tableaux ci-dessus sot, pour chaque réseau, le meilleur appretissage obteu sur 50. La fréquece d occurrece du meilleur résultat, parmi tous les essais effectués, peut costituer u élémet de choix etre plusieurs algorithmes. Pour le réseau de 2 odelettes, ous avos représeté, sur la figure 6, les histogrammes d apparitio des différetes valeurs de la foctio de coût e fi d appretissage (a) et de l estimatio de la performace (b) obteues parmi les 50 appretissages e utilisat l algorithme de BFGS. La figure 7 illustre ces deux histogrammes das le cas de l utilisatio de l algorithme de Leveberg Marquardt Fréquece d'occurrece 10 5 Fréquece d'occurrece EQMA EQMP (a) (b) Figure 6. Histogrammes des EQMA (a) et des EQMP (b) de réseaux d odelettes avec appretissage à l'aide de l'algorithme de BFGS Fréquece d'occurrece Fréquece d'occurrece EQMA EQMP (a) (b) Figure 7. Histogrammes des EQMA (a) et des EQMP (b) de réseaux d odelettes avec appretissage à l'aide de l'algorithme de Leveberg Marquardt. 128

143 Étude de quelques exemples O observe que, du poit de vue cosidéré ici, l algorithme de Leveberg Marquardt possède, pour cet exemple qui met e jeu u petit ombre d'odelettes, ue efficacité supérieure à celle de la méthode de BFGS : ue des valeurs de l'eqmp (= 0.19) aisi que l EQMA (= 0.094) qui lui correspod sot obteues avec ue plus grade fréquece que les autres, et il s'agit précisémet du meilleur appretissage reteu das le tableau 8 pour le réseau à 2 odelettes. D autre part, les coefficiets de tous les réseaux présetat cette performace sot idetiques, ce qui prouve qu il s agit bie du même miimum de la foctio de coût. Cette comparaiso est égalemet effectuée, pour des réseaux à foctios dorsales sigmoïdes, das le paragraphe III III.2.2 Réseau prédicteur à foctios dorsales. Nous ous itéressos égalemet à la modélisatio de ce processus à l aide de réseaux de foctios sigmoïdes. D autres travaux [Rivals95b] ot abordé cette modélisatio. Nous la repreos ici à l aide de os outils (otammet avec l algorithme de Leveberg Marquardt écessitat le calcul du gradiet das le ses direct). III Appretissage avec l algorithme de BFGS. Das les mêmes coditios que les réseaux d odelettes (mêmes séqueces d'appretissage et d évaluatio de la performace, 50 appretissages par architecture, et utilisatio de l algorithme de BFGS), ous obteos les résultats présetés das le tableau 9. Nombre de Nombre de EQMA EQMP sigmoïdes paramètres 1 9 0,20 0, ,13 0, ,15 0, ,085 0,16 Tableau 9. Résultats de la modélisatio du processus réel avec réseaux de sigmoïdes ; appretissage à l'aide de l'algorithme de BFGS. La meilleure performace est doc obteue avec u réseau de 3 euroes à foctios sigmoïdes. Augmeter le ombre de euroes améliore l'eqma mais pas la performace. 129

144 Étude de quelques exemples III Appretissage avec l algorithme de Leveberg Marquardt. Le tableau suivat illustre les meilleures performaces obteues avec des réseaux de foctios sigmoïdes et des appretissages utilisat l algorithme de Leveberg Marquardt. Nombre de Nombre de EQMA EQMP sigmoïdes paramètres 1 9 0,23 0, ,11 0, ,092 0, ,086 0,15 Tableau 10. Résultats de la modélisatio du processus réel avec réseaux de sigmoïdes ; appretissage à l'aide de l'algorithme de Leveberg Marquardt. Les architectures à 3 et 4 euroes cachés réaliset ue performace égale. E reteat la plus parcimoieuse (réseau à trois euroes), o retrouve doc la même que das le cas d u appretissage avec l algorithme de BFGS. Les deux algorithmes permettet doc d aboutir à des modèles de précisio équivalete. III Fréquece d'occurrece du meilleur résultat. Das le paragraphe III de ce chapitre, ous avos comparé l efficacité des deux algorithmes du poit de vue de la fréquece d occurrece de la meilleure solutio (que l o retiet) et ceci das le cas de modèles fodés sur des réseaux d odelettes. Nous effectuos à ouveau cette comparaiso, avec cette fois les résultats obteus sur les modèles fodés sur des réseaux de foctios sigmoïdes. La figure 8 illustre les histogrammes du ombre d apparitios des différets critères d appretissages (a) et des performaces (b) obteus das le cas de l algorithme de BFGS. La figure 9 illustre ces deux histogrammes das le cas de l utilisatio de l algorithme de Leveberg Marquardt. 130

145 Étude de quelques exemples 5 3 Fréquece d'occurrece Fréquece d'occurrece EQMA EQMP (a) (b) Figure 8. Histogrammes des EQMA (a) et des EQMP (b) de réseaux de foctios dorsales avec appretissage à l'aide de l'algorithme de BFGS Fréquece d'occurrece Fréquece d'occurrece EQMA EQMP (a) (b) Figure 9. Histogrammes des EQMA (a) et des EQMP (b) de réseaux de foctios dorsales avec appretissage à l'aide de l'algorithme de Leveberg Marquardt. O fait ici ue costatatio semblable à celle que ous avos faite pour les réseaux d'odelettes : ue des valeurs de l'eqmp ( = 0.24) aisi que l EQMA correspodate ( = 0.11) sot obteues beaucoup plus fréquemmet que les autres lorsque l'o utilise l'algorithme de Leveberg-Marquardt. Néamois, ce 'est pas, cette fois, la valeur miimale de l'eqmp. D autre part, ue comparaiso des coefficiets des réseaux possédat cette performace motre qu ils sot das la plupart des cas idetiques. III.2.3 Coclusio de la modélisatio etrée sortie. Nous avos effectué ue modélisatio etrée-sortie d u processus réel à l aide de réseaux de euroes à sigmoïdes et d odelettes. Nous avos opté pour 131

146 Étude de quelques exemples l appretissage de prédicteurs bouclés afi d obteir des modèles de simulatio du processus. Cela reviet à cosidérer u modèle hypothèse de type bruit de sortie (Output Error). Du poit de vue des performaces obteues, les deux types de réseaux utilisés das les mêmes coditios aboutisset gééralemet à des modèles de précisio très proche. Ue comparaiso des deux algorithmes que ous utilisos sur l exemple de la modélisatio du processus réel, sur la base de la fréquece d occurrece de la meilleure solutio trouvée a motré que l algorithme de Leveberg Marquardt possède u avatage sur la méthode de BFGS. Cette tedace a été observée de faço similaire sur les réseaux d odelettes et sur les réseaux de foctios sigmoïdes. Il 'est évidemmet pas possible de gééraliser ce résultat à partir de ce seul exemple, qui a pour caractéristique de porter sur u réseau compreat u très petit ombre d'odelettes, mais il pourrait être itéressat de meer ue comparaiso plus systématique des deux algorithmes sous cet agle. III.3 Modélisatio d état. Nous ous proposos à préset de modéliser ce processus avec ue représetatio d état à variables d état libres (o mesurées). Nous coservos u ordre 2 (N s = 2) et ue mémoire de 1 sur l etrée de commade (N e = 1). L'état 'état pas mesuré, le prédicteur e peut être que bouclé. Ce prédicteur est optimal das le cas ou le processus est o bruité, ou si l'o est e présece d u bruit additif e sortie. Le prédicteur aisi costruit 'est pas u estimateur de l'état : so seul rôle est de modéliser le comportemet etrée sortie du processus. Nous effectuos l appretissage de réseaux réalisat les foctios suivates : x 1 (k+1) = ψ 11 x 1 (k), x 2 (k),u(k) x 2 (k+1) = ψ 12 x 1 (k), x 2 (k),u(k) y(k+1) = ψ 2 x 1 (k), x 2 (k),u(k) Les foctios ψ 11, ψ 12 et ψ 2 sot des foctios réalisées à l aide d u réseau d odelettes (figure 13 du chapitre III) ou d u réseau de foctios dorsales (figure 8 du chapitre II). Les appretissages ot été effectués à l aide de l algorithme de BFGS. E effet, ous avos vu das le chapitre III que le calcul du gradiet das le ses direct, écessaire pour la mise e œuvre de l'algorithme de Leveberg- Marquardt, est coûteux, d u poit de vue umérique, pour des réseaux d état. (6) 132

147 Étude de quelques exemples III.3.1 Réseau prédicteur d'état à foctios d odelettes. Nous effectuos l appretissage de plusieurs architectures de réseaux d odelettes, das les même coditios que précédemmet. L iitialisatio des réseaux d odelettes das le cas de l appretissage d u prédicteur d état bouclé présete ue difficulté particulière : e effet, les états 'état pas cous a priori, le domaie des etrées d état est pas cou. Or l applicatio de la procédure d iitialisatio proposée pour les réseaux d odelettes fodés sur la trasformée cotiue (chapitre III) écessite la coaissace de ces domaies. O peut éamois remarquer que, e début d appretissage, les valeurs des variables d état e sortie du réseau sot au maximum égales aux podératios, lesquelles sot uiformémet distribuées das l itervalle [ 10 2, 10 2 ]. Sous réserve que la sortie soit cetrée e zéro, la procédure d iitialisatio valable pour les réseaux de type etrée sortie reste doc applicable pour des réseaux d état. Le tableau 11 illustre les résultats obteus pour des réseaux costitués de 1 et 2 odelettes. Nombre d odelettes. Nombre de paramètres. EQMA Meilleure EQMP sur 50 appretissages ,38 0, ,091 0,15 Tableau 11. Résultats de la modélisatio du processus réel avec réseaux d état de foctios odelettes. La meilleure performace est doc obteue avec u réseau de 2 odelettes (comme pour le modèle de type etrée sortie). Cette performace est très proche de celle obteue avec u modèle etrée-sortie (voir tableau 7) mais ous e sommes pas arrivés à améliorer cette derière bie que les réseaux d état costituet ue représetatio plus géérale que les réseaux etrée-sortie. Ce phéomèe peut s expliquer par ue taille isuffisate de la séquece d appretissage. E effet, das les résultats obteus e modélisatio etrée-sortie, o remarque que les performaces se dégradet souvet pour des réseaux de plus de 25 coefficiets ; d'autre part, il faut au mois deux foctios o liéaires pour modéliser correctemet ce processus. État doé les réseaux d état d odelettes que ous utilisos, ces deux coditios (u réseau de mois de 25 coefficiets et costitué d au mois deux foctios) e peuvet être remplies simultaémet. 133

148 Étude de quelques exemples III.3.2 Réseau prédicteur d'état à foctios dorsales. Nous cosidéros à préset des modèles d état costitués de réseaux de euroes à ue couche de foctios sigmoïdes et u euroe de sortie liéaire. O peut faire la même remarque cocerat le ombre de paramètres. U réseau d état à deux foctios sigmoïdes cotiet 26 coefficiets ajustables. Das le cas d u réseau etrée sortie, ce ombre de paramètres aboutit gééralemet à u surajustemet comme le motret les résultats présetés plus haut. Le tableau 12 doe le meilleur résultat obteu pour des architectures costitués de 1 à 3 foctios sigmoïdes. Nombre de sigmoïdes Nombre de paramètres. EQMA Meilleure EQMP sur 50 appretissages ,24 0, ,091 0, ,058 0,18 Tableau 12. Résultats de la modélisatio du processus réel avec réseaux d état de foctios sigmoïdes. A partir d u réseau de 2 euroes, o obtiet u critère d appretissage meilleur que celui réalisé par u réseau d etrée sortie costitué par le même ombre de foctios. E revache, la performace est pas améliorée. Ceci ted à cofirmer l hypothèse cocerat l existece d u phéomèe de surajustemet pour des réseaux de plus de 24 coefficiets. III.3.3 Réseau prédicteur d état à foctios dorsales dot la sortie est l u des états. O se propose d utiliser pour la modélisatio du processus réel des modèles d état particuliers dot la sortie est cosidérée comme u état. Ce type de réseau a été itroduit à la fi du chapitre III et le calcul du gradiet de la foctio de coût das le cas de réseaux d odelettes est préseté e aexe de ce mémoire. Das la suite, ous présetos les résultats obteus e utilisat de tels réseaux fodés sur des euroes à foctios dorsales sigmoïdes. Ils réaliset des modèles de la forme : y(k+1)=x 1 (k+1) = ψ 1 x 1 (k), x 2 (k),u(k) (7) x 2 (k+1) = ψ 2 x 1 (k), x 2 (k),u(k) Le tableau 13 illustre les meilleurs résultats sur 50 appretissages effectués pour chaque réseau de 1 à 3 euroes cachés. L'utilisatio des réseaux coteat plus de euroes améliore pas la performace. 134

149 Étude de quelques exemples Nombre de sigmoïdes Nombre de paramètres. EQMA Meilleure EQMP sur 50 appretissages ,2 0, ,12 0, ,071 0,117 Tableau 13. Résultats de la modélisatio du processus réel avec réseaux d état de foctios sigmoïdes dot la sortie est u état. Le réseau à 3 euroes présete la meilleure performace que ous ayos obteue pour la modélisatio de ce processus réel, pour tous types de réseaux et de modèles. D autre part, ce réseau d état à 3 foctios sigmoïdes cotiet 26 paramètres ajustables soit mois qu u réseau à deux états libres ayat le même ombre de euroes cachés. La figure suivate motre l architecture de ce réseau : y(k+1)=x 1 (k+1) x 2 (k+1) f f f q 1 1 u(k) x 2 (k) y(k)=x 1 (k) Figure 10. Réseau d état à 3 foctios sigmoïdes dot la sortie est u état. III.3.4 Coclusio de la modélisatio d état. Du poit de vue de la représetatio mathématique, les réseaux d état costituet des modèles plus gééraux que ceux de type etrée sortie. Nous avos modélisé u processus réel à l aide de prédicteurs d état fodés sur des réseaux d odelettes et de foctios dorsales sigmoïdes. Les résultats obteus motret que, pour u même ombre de foctios, u appretissage avec u réseau d état présete ue meilleure précisio que celui avec u réseau etrée sortie. E revache, les performaces e sot pas meilleures. 135

150 Étude de quelques exemples Sur la base des observatios effectuées sur les résultats de la modélisatio etrée sortie, il est très probable que ceci est dû à u phéomèe de surajustemet. E effet, pour u même ombre de foctios, les réseaux d état présetet plus de paramètres ajustables que les réseaux etrée sortie. Les résultats obteus das le paragraphe précédet avec u réseau d état ayat mois de paramètres à ombre de euroes égal (ceci est possible e choisissat la sortie comme u état) sot cohérets avec cette hypothèse. IV. CONCLUSION. Nous avos étudié la modélisatio de deux processus à l aide de réseaux d odelettes (fodés sur la trasformée cotiue) et de réseaux de euroes bouclés. Les résultats obteus motret que les deux types de réseaux, pour u même ombre de foctios, permettet d obteir des modèles de performaces très souvet équivaletes. D autre part, ous avos effectué ue comparaiso des deux algorithmes d appretissage utilisés das ce mémoire. Cette comparaiso est fodée sur la fréquece d occurrece d ue solutio parmi plusieurs appretissages effectués pour ue même architecture de réseau. Il apparaît que, pour les exemples étudiés das ce mémoire, l algorithme de Leveberg-Marquardt possède ue meilleure robustesse vis-à-vis de l iitialisatio aléatoire des paramètres des réseaux. La modélisatio à l aide d u réseau d état dot la sortie est u état a permis d améliorer les performaces obteues pour le processus réel avec des réseaux etrée sortie et d état. Le résultat obteu avec u réseau de trois sigmoïdes et égal à celui réalisé das [Rivals95b] avec u réseau de euroes d état complètemet coecté à deux sigmoïdes. 136

151 Coclusio

152 Coclusio Le travail dot ous avos redu compte das le préset mémoire porte sur l'étude des réseaux d'odelettes pour la modélisatio de processus. Compte teu des succès recotrés au cours des derières aées par les réseaux de euroes, il était itéressat, das la perspective des travaux atérieurs du Laboratoire, d'étudier les possibilités de mise e œuvre des réseaux d'odelettes, tat pour la modélisatio statique que pour la modélisatio dyamique, et de comparer leurs performaces avec celles des réseaux de euroes classiques utilisat des foctios dorsales comme les sigmoïdes ou les gaussiees. Nous avos proposé ue procédure simple, pour l appretissage des réseaux de foctios dorsales gaussiees. Cette procédure, qui agit e cours d appretissage, permet ue mise e œuvre efficace des ressources dot dispose u réseau, c'est-à-dire de ses euroes cachés. Nous avos esuite proposé ue méthodologie de mise e œuvre des foctios odelettes pour la modélisatio statique et dyamique de processus. Nous avos séparé le problème e deux parties, correspodat chacue à u type de trasformée e odelettes. E effet, les paramètres des odelettes peuvet soit predre importe quelle valeur réelle (approche fodée sur la trasformée e odelettes cotiue), soit être choisis sur ue grille régulière (approche fodée sur la trasformée e odelettes discrète). L approche fodée sur la trasformée cotiue. Nous avos proposé ue méthodologie de mise e œuvre de réseaux d odelettes bouclés et o bouclés, das laquelle o peut cosidérer tous les paramètres des odelettes comme des paramètres ajustables : l appretissage de ces réseaux peut doc être effectué par miimisatio d'ue foctio de coût à l'aide de techiques de gradiet. Ue procédure d iitialisatio simple, écessitat très peu de calculs, permet de predre e cosidératio la propriété de localité des foctios. Les résultats obteus lors de l utilisatio de ces réseaux, pour la modélisatio de quelques processus (simulés et réels) possédat u petit ombre d'etrées, ot motré qu ils possèdet des propriétés de parcimoie équivaletes à celles des réseaux de euroes, si l'o cosidère le ombre de foctios utilisées par le réseau pour atteidre la précisio recherchée. E revache, pour le même ombre de foctios, u réseau d odelettes comporte plus de paramètres qu u réseau de foctio dorsales. De plus, les expérieces que ous avos effectuées cocerat le problème maître-élève ot motré que la capacité des réseaux d'odelettes à retrouver le réseau maître est très ifé- 138

153 Coclusio rieure à celle des réseaux de euroes dès que la dimesio du problème est supérieure à 3 ou 4. L approche fodée sur la trasformée discrète. Cette approche permet la costructio de réseaux tirat partie des propriétés spécifiques de ces bases de foctios. Les paramètres de ces foctios état à valeurs discrètes, il 'est pas possible d'utiliser des techiques de gradiet pour l'appretissage. La démarche que ous avos adoptée cosiste à costruire des réseaux par sélectio d'odelettes parmi celles d ue bibliothèque établie à cet effet. Ue telle démarche a été utilisée par d'autres auteurs pour des applicatios de modélisatio et de commade, mais elle coduit à des réseaux peu parcimoieux. Nous avos proposé d utiliser cette démarche pour l iitialisatio des appretissages des réseaux d odelettes fodés sur la trasformée cotiue. La modélisatio de processus simulés ous a permis de mettre e évidece l apport de cette procédure d iitialisatio. L optimisatio o liéaire est l'outil fodametal pour l appretissage de réseaux de foctios paramétrées. Afi de permettre l'utilisatio d ue famille d'algorithmes plus étedue pour l'appretissage de réseaux bouclés, etrée-sortie et d état, ous avos préseté le calcul du gradiet das le ses direct. La mise e œuvre de réseaux d'odelettes bouclés costitue u des apports origiaux de otre travail, qui a fait l'objet d'ue publicatio das ue revue iteratioale. Nous avos égalemet pu comparer les performaces de deux algorithmes du secod ordre courammet utilisés pour l'optimisatio de la foctio de coût lors de l'appretissage de réseaux, bouclés ou o : l'algorithme de Leveberg-Marquardt et l'algorithme BFGS. E résumé, deux coclusios ressortet de cette étude. Les réseaux d'odelettes, bouclés ou o, fodés sur la trasformée cotiue, peuvet costituer ue alterative itéressate aux réseaux de euroes covetioels, à foctio dorsale sigmoïdale, pour costituer des modèles, statiques ou dyamiques, de processus comportat u petit ombre d'etrées. Notre travail sur l'iitialisatio des coefficiets et sur les algorithmes d'appretissage du secod ordre ous a permis de proposer des procédures de mise e œuvre de complexité aalogue à celle des réseaux de euroes. E revache, l'accroissemet du ombre de paramètres e foctio du ombre d'etrées est plus rapide que pour des réseaux de sigmoïdes. Les réseaux d'odelettes fodés sur la trasformée discrète sot mois parcimoieux que les précédets ; e revache, la méthode de sélectio d'odelettes 139

154 Coclusio à paramètres discrets peut être mise à profit pour l'iitialisatio des traslatios et dilatatios de réseaux d'odelettes fodés sur la trasformée cotiue. 140

155 Bibliographie

156 Bibliographie [Battiti92] R. Battiti "First ad Secod Order Methods for Learig : Betwee Steepest Descet Methods ad Newto's Method. Neural Computatio, Vol. 4, No.2, pp , 1992 [Behera95] L. Behara, M. Gopal & S. Chaudhury "Iversio of RBF Networks ad Applicatios to Adaptive Cotrolof Noliear Systems." IEE Proceedigs, Cotrol Theory Appl., Vol. 142, No. 6, pp , 1995 [Bishop95] C. Bishop Neural Networks for Patter Recogitio. Claredo Press Oxford, New York, 1995 [Baro97] R. Baro Cotributio à l Étude des Réseaux d Odelettes. Thèse de Doctorat de l École Normale Supérieure de Lyo, 1997 [Barro93] A. R. Barro Uiversal Approximatio Bouds for Superpositios of a Sigmoidal Fuctio. IEEE Trasactios o Iformatio Theory IT-39, pp , 1993 [Broom88] D. S. Broomhead & D. Lowe "Multivariable Fuctioal Iterpolatio ad Adaptive Networks." Complex Systems, Vol. 2, pp , 1988 [Cao95] M. Cao & J. J. E. Slotie "Space-Frequecy Localized Basis Fuctio Networks for Noliear System Estimatio ad Cotrol." Neurocomputig Vol. 9, No. 3, pp , 1995 [Caprile90] B. Caprile & F. Girosi A o determiistic miimizatio algorithm. A.I. Memo 1254, Artificial Itelligece Laboratory, Massachusetts Istitute of Techology, Cambridge, MA,

157 Bibliographie [Che89] S. Che, S.A. Billigs, W. Luo Orthogoal Least Squares Methods ad Their Applicatio to No liear System Idetificatio. It. Joural of Cotrol, Vol. 50, No. 5, pp , 1989 [Che90] S. Che, A. Billigs, C. F. N. Cowa & P. M. Grat "Practical Idetificatio of NARMAX models usig Radial Basis Fuctios." It. Joural of Cotrol, Vol. 52, No. 6, pp , 1990 [Chetouf96] R. Chetouf & C. Jutte "Combiig Sigmoids ad Radial Basis Fuctios i Evolutive Neural Architectures." I Proceedigs of the Europea Symposium o Artificial Neural Networks (ESANN 96), Bruges, Belgium, Avril 1996 [Cohe96] A. Cohe & J. Kovacheckevic "Wavelets: The Mathematical Backgroud." Proceedigs of the IEEE, Vol. 84, No. 4, pp , 1996 [Cybeko89] G. Cybeko "Approximatio by Superpositio of a Sigmoidal Fuctio." Mathematics of cotrol, sigals ad systems, Vol. 2, pp , 1989 [Daubechies90] I. Daubechies "The Wavelet Trasform, Time-Frequecy Localizatio ad Sigal Aalysis. IEEE Trasactios o iformatio theory, Vol. 36, pp , 1990 [Daubechies92] I. Daubechies Te Lectures o Wavelets. CBMS-NSF regioal series i applied mathematics, SIAM, Philadelphia, 1992 [Dreyfus98] G. Dreyfus & Y. Ida The caoical form of discrete-time o-liear models. Neural Computatio, Vol.10, No. 1, pp ,

158 Bibliographie [Elaayar94] S. Elaayar & Y. C. Shi "Radial Basis Fuctio Neural Network for Approximatio ad Estimatio o f Noliear Stochastic Dyamic Systems." IEEE Trasactios O Neural Networks, Vol. 5, No. 4, pp , 1994 [Friedma81] J. H. Friedma & W. Stuetzle "Projectio Pursuit Regressio." Joural of the America Statistical Associatio. Theory ad Methods Sectio, Vol. 76, No. 376, pp , Decembre 1981 [Fuahashi89] K. Fuahashi "O the Approximate Realizatio of Cotiuous Mappigs by Neural Networks." Neural Networks, Vol. 2, pp , 1989 [Girosi95] F. Girosi, M. Joes & T. Poggio "Regularizatio Theory ad Neural Networks Architectures." Neural Computatio, Vol. 7, No. 2, pp , 1995 [Hartma90] E. J. Hartma & J. M. Kowalski "Layered Neural Networks with Gaussia Hidde Uits as Uiversal Approximatios." Neural Computatio, Vol. 2, pp , 1990 [Hassibi93] B. Hassibi & D. G. Stork "Secod Order Derivatives for Network Pruig: Optimal Brai Surgeo." I Advaces i Neural Iformatio Processig Systems, Vol 5, S.J. Haso, J.D. Cowa ad C.L. Giles, Eds., pp , Morga-Kaufma, Avril 1993 [Hirose91] Y. Hirose, K. Yamashita & S. Hijiya "Back-Propagatio Algorithm Wich Varies the Number of Hidde Uits." Neural Networks, Vol. 4, No. 1, pp.61-66, 1991 [Horik89] K. Horik, M. Stichcombe & H. White "Multilayer feedforward etworks are uiversal approximators." Neural Networks 2, pp ,

159 Bibliographie [Horik94] K. Horik, M. Stichcombe, H. White & P. Auer "Degree of Approximatio Results for Feedforward Networks Approximatig Ukow Mappigs ad Their Derivatives." Neural Computatio, Vol. 6, No. 6, pp , 1994 [Huber85] P. J. Huber "Projectio Pursuit." The Aals of Statistics, Vol. 13, No. 2, pp , 1985 [Hwag94] J-N. Hwag, S-R. Lay, M. Maechler, R. douglas Marti & J. Schimert "Regressio Modelig i Back-Propgatio ad Projectio Pursuit Learig." IEEE Trasactios o Neural Networks, Vol. 5, No. 3, pp , 1994 [Jorda85] M. I. Jorda, The Learig of Represetatios for Sequetial Performace. Thèse de Doctorat, Uiversity of Califoria, Sa Diego, 1985 [Juditsky94] A. Juditsky, Q. Zhag, B. Delyo, P. Y. Gloreec & A. Beveiste "Wavelets i Idetificatio: wavelets, splies, euros, fuzzies: how good for idetificatio?" Rapport INRIA No. 2315, Septembre 1994 [Jutte95] C. Jutte & R. Chetouf "A New Scheme For Icremetal Learig." Neural Processig Letters, Vol. 2, No. 1, 1995 [Kuga95] T. Kugarajah & Q. Zhag Mutidimesioal Wavelet Frames. IEEE Tras. o Neural Networks, Vol. 6, No. 6, pp , November 1995 [LeCu90] Y. Le Cu, J. S. Deker & S. A. Solla Optimal Brai Damage." I Proceedigs of the Neural Iformatio Processig Systems-2, D. S. Touretzky (ed.), pp , Morga-Kaufma

160 Bibliographie [Lehtokagas95] M. Lehtokagas, J. Saarie, K. Kaski, P. Huuhtae "Iitializig Weights of a Multilayer Perceptro Network by Usig the Orthogoal Least Squares Algorithm." Neural Computatio, Vol. 7, No. 5, pp , 1995 [Leveberg44] K. Leveberg A Method for the Solutio of Certai No liear Problems i Least Squares. Quarterly Joural of Applied Mathematics II (2), pp , 1944 [Levi92] A.U. Levi Neural Networks i Dyamical Systems. Thèse de Doctorat, Yale Uiversity, New Have (CT), 1992 [Ljug87] L. Ljug System Idetificatio ; Theory for the User. Pretice Hall, Eglewood Cliffs, New Jersey 1987 [Mallat89] S. Mallat "A Theory for Multiresolutio Sigal Decompositio: The Wavelet Trasform." IEEE Tras. Patter Aal. Machie Itell. Vol. 11, pp , 1989 [Marquardt63] D. W. Marquardt "A Algorithm For Least-Squares Estimatio of Noliear Parameters." Joural of Soc. Idust. Appl. Math, Vol. 11, No. 2, pp , Jue 1963 [Meyer85] Y. Meyer Pricipe d icertitude, bases hilbertiees et algèbres d opérateurs. Sémiaire Bourbaki, Numéro 662, [Meyer90] Y. Meyer Odelettes et Opérateurs I : Odelettes. Editios Herma,

161 Bibliographie [Mioux83] M. Mioux Programmatio Mathématique : Théorie et Algorrithmes. Editios Duod, 1983 [Mohraz96] K. Mohraz & Peter Protzel "FlexNet: A Flexible Neural Network Costructio Algorithm." I Proceedigs of the Europea Symposium o Artificial Neural Networks (ESANN 96), Bruges, Belgium 1996 [Mukhopa93] S. Mukhopadhyay & K. S. Naredra Disturbace Rejectio i Noliear Systems Usig Neural Networks. IEEE Tras. O Neural Networks Vol. 1, pp , 1993 [Naredra90] K. S. Naredra & K. Parthasarathy "Idetificatio ad Cotrol Of Dyamical Systems Usig Neural Networks." IEEE Tras. o Neural Networks Vol.1, pp. 4-27, 1990 [Nash80] J. C. Nash Compact Numerical Methods for Computers : Liear Algebra ad Fuctio Miimizatio. Adam Hilger Ltd, Bristol, 1980 [Nerrad92] O. Nerrad "Réseaux de Neuroes pour le Filtrage Adaptatif, l'idetificatio et la Commade de Processus." Thèse de Doctorat de l'uiversité Paris VI, 1992 [Nerrad93a] O. Nerrad, P. Roussel-Ragot, L. Persoaz & G. Dreyfus "Neural Networks ad No-liear Adaptive Filterig: Uifyig Cocepts ad New Algorithms." Neural Computatio, Vol. 5, pp , 1993 [Nerrad94] O. Nerrad, P. Roussel-Ragot, D. Urbai, L. Persoaz & G. Dreyfus "Traiig Recurret Neural Networks : Why ad How? A Illustratio i Process Modelig." IEEE Tras. o Neural Networks, Vol. 5, No. 2, pp ,

162 Bibliographie [Oussar98] Y. Oussar, I. Rivals, L. Persoaz & G. Dreyfus Traiig Wavelet Networks for Noliear Dyamic Iput-Output Modelig. Neurocomputig, i press. [Park91] J. Park & I. W. Sadberg "Uiversal Approximatio Usig Radial-Basis-Fuctio Networks." Neural Computatio Vol. 3, No. 2, pp , 1991 [Pati93] Y. C. Pati & P. S. Krishaprasad "Aalysis ad Sythesis of Feedforward Neural Networks Usig Discrete Affie Wavelet Trasformatios." IEEE Tras. o Neural Networks Vol. 4, No. 1, pp , 1993 [Powell85] M. J. D. Powell Radial Basis Fuctios for Multi variable Iterpolatio : A Review. IMA Coferece o Algorithms for the Approximatio of Fuctios ad Data, RMCS Shriveham, UK, 1985 [Pucar95] P. Pucar & M. Millert "Smooth Higig Hyperplaes - A Alterative to Neural Nets." Proceedigs of 3rd Europea Cotrol Coferece, Vol. 2, pp , Italy, September 1995 [Reed93] R. Reed "Pruig Algorithms - A Survey." IEEE Trasactios o Neural Networks, Vol. 4, No. 5, pp , 1993 [Rivals95a] I. Rivals "Modélisatio et Commade de Processus par Réseaux de Neuroes; Applicatio au Pilotage d'u Véhicule Autoome." Thèse de Doctorat de l'uiversité Paris 6,

163 Bibliographie [Rivals95b] I. Rivals, L. Persoaz, G. Dreyfus & J.L. Ploix Modélisatio, classificatio et commade par réseaux de euroes : pricipes fodametaux, méthodologie de coceptio et illustratios idustrielles. Das : Les réseaux de euroes pour la modélisatio et la commade de procédés, J.P. Corriou, coordoateur (Lavoisier Tec et Doc), 1995 [Rivals96] I. Rivals & L. Persoaz "Black Box Modelig With State Neural Networks." I Neural Adaptive Cotrol Techology I, R. Zbikowski ad K. J. Hut eds., World Scietific, 1995 [Rumelhart86] D. E. Rumelhart, ad J. L. McClellad Parallel Distributed Processig,. MIT Press, Cambridge, MA, 1986 [Saer92] R. Saer & J. J. E Slotie "Gaussia Networks for Direct Adaptive Cotrol." IEEE Trasactios o Neural Networks, Vol. 3, No. 6, pp , 1992 [Saer95] R. Saer & J. J. E Slotie "Stable Adaptive Cotrol of Robot Maipulators Usig Neural Networks." Neural Computatio, Vol. 7, No. 4, pp , 1995 [Söberg95] J. Sjöberg, Q. Zhag, L. Ljug, A. Beveiste, B. Delyo, Et Al Noliear Black Box Modelig i System Idetificatio: a Uified Overview. Automatica, Vol. 31, No. 12, pp , 1995 [Sotag93] Neural Networks for Cotrol. I Essays o Cotrol: perspectives i the theory ad its applicatios. H. L. Tretelma & J. C. Willems Editios, Birkhäuser, Bosto 1993 [Stoppi97] H. Stoppiglia Méthodes statistiques de sélectio de modèles euroaux; applicatios fiacières et bacaires. Thèse de Doctorat de l'uiversité Paris 6,

164 Bibliographie [Torré95] B. Torrésai Aalyse Cotiue par Odelettes. IterEditios / CNRS Editios, Paris 1995 [Urbai95] D. Urbai "Méthodes Statistiques de Sélectio d'architectures Neuroales: Applicatio à la Coceptio de Modèles de Processus Dyamiques." Thèse de Doctorat de l'uiversité Paris 6, 1995 [Walter94] E. Walter & L. Prozato Idetificatio de modèles paramétriques à partir de doées expérimetales. Editios Masso, Paris 1994 [Yag96] S. Yag & C. Tseg A Orthogoal Neural Network for Fuctio Approximatio. IEEE Trasactios o Systems, Ma ad Cyberetics Part B: Cyberetics. Vol. 26, No. 5, pp , 1996 [Zhag92] Q. Zhag & A. Beveiste "Wavelet Networks." IEEE Tras. o Neural Networks Vol. 3, No. 6, pp , 1992 [Zhag93] Q. Zhag Regressio Selectio ad Wavelet Network Costructio. Rapport itere de l INRIA N. 709, Projet AS, Avril 1993 [Zhag95] J. Zhag, G. G. Walter, Y. Miao & W. N. Waye Lee "Wavelet Neural Networks For Fuctio Learig." IEEE Tras. o Sigal Processig, Vol. 43, o. 6, pp , 1995 [Zhag97] Q. Zhag Usig Wavelet Network i Noparametric Estimatio. IEEE Tras. o Neural Networks, Vol. 8, No. 2, pp ,

165 Aexe A Traiig Wavelet Networks for Noliear Dyamic Iput- Output Modelig Article accepté pour publicatio das Neurocomputig

166 Neurocomputig, i press. Traiig Wavelet Networks for Noliear Dyamic Iput-Output Modelig. Y. Oussar, I. Rivals, L. Persoaz, G. Dreyfus Laboratoire d Électroique École Supérieure de Physique et Chimie Idustrielles 10, rue Vauqueli F PARIS Cedex 05, FRANCE. Phoe: Fax: [email protected] Abstract I the framework of oliear process modelig, we propose traiig algorithms for feedback wavelet etworks used as oliear dyamic models. A origial iitializatio procedure is preseted, that takes the locality of the wavelet fuctios ito accout. Results obtaied for the modelig of several processes are preseted; a compariso with etworks of euros with sigmoidal fuctios is performed. Keywords: Traiig, Wavelet etworks, Noliear dyamic modelig, Neural etworks, Feedback etworks, Recurret etworks. 1. INTRODUCTION. Durig the past few years, the oliear dyamic modelig of processes by eural etworks has bee extesively studied. Both iput-output [7] [8] ad state-space [5] [14] models were ivestigated. I stadard eural etworks, the o-liearities are approximated by superpositio of sigmoidal fuctios. These etworks are uiversal approximators [2] ad have bee show to be parsimoious [3]. Wavelets are alterative uiversal approximators; wavelet etworks have bee ivestigated i [17] i the framework of static modelig; i the preset paper, we propose a traiig algorithm for feedback wavelet etworks used as oliear dyamic models of processes. We first preset the wavelets that we use ad their properties. I sectio 3, feedforward wavelet etworks for static modelig are preseted. I sectio 4, the traiig systems ad algorithms for dyamic iput-output modelig with wavelet etworks, makig use of the results of sectio 3, are described. For illustratio purposes, the modelig of several processes by wavelet etworks ad by eural etworks with sigmoidal fuctios is preseted i sectio 5. 1

167 2. FROM ORTHOGONAL WAVELET DECOMPOSITION TO WAVELET NETWORKS. The theory of wavelets was first proposed i the field of multiresolutio aalysis; amog others, it has bee applied to image ad sigal processig [6]. A family of wavelets is costructed by traslatios ad dilatios performed o a sigle fixed fuctio called the mother wavelet. A wavelet φ j is derived from its mother wavelet φ by φ j (z) = φ x m j (1) d j where its traslatio factor m j ad its dilatio factor d j are real umbers (d j > 0). We are cocered with modelig problems, i.e. with the fittig of a data set by a fiite sum of wavelets. There are several ways to determie the wavelets for this purpose: From orthogoal wavelet decompositio theory, it is kow that, with a suitable choice of φ, ad if m j ad d j are itegers satisfyig some coditios, the family φ j forms a orthogoal wavelet basis. A weighted sum of such fuctios with appropriately chose m j ad d j ca thus be used; i this way, oly the weights have to be computed [18]. Aother way to desig a wavelet etwork is to determie the m j ad d j accordig to a spacefrequecy aalysis of the data; this leads to a set of wavelets which are ot ecessarily orthogoal [10] [1]. Alteratively, oe ca cosider a weighted sum of wavelets fuctios whose parameters m j ad d j are adjustable real umbers, which are to be traied together with the weights. I the latter approach, wavelets are cosidered as a family of parameterized oliear fuctios which ca be used for oliear regressio; their parameters are estimated through "traiig". The preset paper itroduces traiig algorithms for feedback wavelet etworks used for dyamic modelig, which are similar i spirit to traiig algorithms used for feedback eural etworks. Choice of a mother wavelet I the preset paper, we choose the first derivative of a gaussia fuctio, φ(x)=±x exp ± 1 2 x2 as a mother wavelet. It may be regarded as a differetiable versio of the Haar mother wavelet, just as the sigmoid is a differetiable versio of a step fuctio, ad it has the uiversal approximatio property [17]. This mother wavelet has also bee used i referece [17]. More complex wavelet fuctios, such as the secod derivative of the gaussia (as i [1]) may be used, but they will ot be cosidered here. The wavelet etwork. I the case of a problem with N i iputs, multidimesioal wavelets must be cosidered. The simplest, most frequet choice ([1], [6], [17], [18]) is that of separable wavelets, i.e. the product of N i moodimesioal wavelets of each iput: N i Φ j (x) = φ z jk with z jk = x k m jk (2) d jk k=1 2

168 where m j ad d j are the traslatio ad dilatio vectors. We cosider wavelet etworks of the form: N w N i y = ψ(x)= c j Φ j (x)+a 0 + a k x k. (3) j=1 (3) ca be viewed as a etwork with N i iputs, a layer of N w wavelets of dimesio N i, a bias term, ad a liear output euro. Whe liear terms are expected to play a importat role i the model, it is customary to have additioal direct coectios from iputs to outputs, sice there is o poit i usig wavelets for recostructig liear terms. Such a etwork is show i Figure 1. y k=1 Liear output euro c 1 c 2 c N w Φ 1 Φ Φ N w Layer of wavelets a 0 a a N i 1 x 1 x 2 x N i Figure 1. A feedforward wavelet etwork. 3. STATIC MODELING USING FEEDFORWARD WAVELET NETWORKS. Static modelig with wavelet etworks has bee ivestigated by other authors i [17]. I order to make the paper self-cotaied, we devote the preset sectio to itroducig otatios ad to recallig basic equatios which will be used i Sectio 4 for dyamic modelig. We cosider a process with N i iputs ad a scalar output y p. Steady-state measuremets of the iputs ad outputs of the process build up a traiig set of N examples x,y p, x = x 1,, x T Ni beig the iput vector for example ad y p the correspodig measured process output. I the domai defied by the traiig set, the static behavior of the process is assumed to be described by: y p = f x + w = 1 to N (4) where f is a ukow oliear fuctio, ad w deotes a set of idepedet idetically distributed radom variables with zero mea ad variace σ 2 w. We associate the followig wavelet etwork to the assumed model (4): y = ψ x,θ = 1 to N (5) where y is the model output value related to example, the oliear fuctio ψ is give by 3

169 relatio (3), ad θ is the set of adjustable parameters: θ = m jk, d jk, c j, a k, a 0 with j = 1,..., N w ad k = 1,..., N i (6) θ is to be estimated by traiig so that ψ approximates the ukow fuctio f o the domai defied by the traiig set Traiig feedforward wavelet etworks. As usual, the traiig is based o the miimizatio of the followig quadratic cost fuctio: N =1 N =1 J (θ) = 1 y p 2 y 2 = 1 2 The miimizatio is performed by iterative gradiet-based methods. The partial derivative of the cost fuctio with respect to θ is: N J θ = y e θ where y y is a short otatio for. The compoets of the latter vector are: θ θ x = x - parameter a 0 : y = 1 (9) a 0 - direct coectio parameters: y = x k k = 1,..., N i (10) a k - weights: y = Φ c j (x ) j =1,..., N w (11) j =1 e 2 (7) (8) - traslatios: y m jk =± c j d jk Φ j z jk x=x k =1,..., N i ad j =1,..., N w (12) with Φ j z jk x=x = φ z j1 φ z j2... φ ' z jk... φ z jni (13) where φ ' z jk is the value of the derivative of the scalar mother wavelet at poit z jk : φ ' z jk = dφ(z) dz z=z jk - dilatios: y =± c j z d jk d jk jk (14) Φ j z jk x=x k =1,..., N i ad j =1,..., N w (15) At each iteratio, the parameters are modified usig the gradiet (8), accordig to: 4

170 θ = M J (16) θ where M is some defiite positive matrix (M = µ Id, µ>0 i the case of a simple gradiet descet, or M = µ H -1, µ>0 where H -1 is a approximatio, updated iteratively, of the iverse Hessia, for quasi-newto methods) Iitializatio of the etwork parameters. Iitializig the wavelet etwork parameters is a importat issue. Similarly to Radial Basis Fuctio etworks (ad i cotrast to eural etworks usig sigmoidal fuctios), a radom iitializatio of all the parameters to small values (as usually doe with eural etworks) is ot desirable sice this may make some wavelets too local (small dilatios) ad make the compoets of the gradiet of the cost fuctio very small i areas of iterest. I geeral, oe wats to take advatage of the iput space domais where the wavelets are ot zero. Therefore, we propose a iitializatio for the mother wavelet φ(x)=±x exp ± 1 2 x2 based o the iput domais defied by the examples of the traiig sequece. We deote by [α k, β k ] the domai cotaiig the values of the k-th compoet of the iput vectors of the examples. We iitialize the vector m of wavelet j at the ceter of the parallelepiped defied by the N i itervals {[α k, β k ]}: m jk = 1 2 α k + β k. The dilatio parameters are iitialized to the value 0.2 β k α k i order to guaratee that the wavelets exted iitially over the whole iput domai. The choice of the a k (k = 1,..., N i ) ad c j ( j = 1,..., N w ) is less critical: these parameters are iitialized to small radom values Stoppig coditios for traiig. The algorithm is stopped whe oe of several coditios is satisfied: the Euclidea orm of the gradiet, or of the variatio of the gradiet, or of the variatio of the parameters, reaches a lower boud, or the umber of iteratios reaches a fixed maximum, whichever is satisfied first. The fial performace of the wavelet etwork model depeds o whether: (i) the assumptios made about the model (relatio 4) are appropriate, (ii) the traiig set is large eough, (iii) the family cotais a fuctio which is a approximatio of f with the desired accuracy i the domai defied by the traiig set, (iv) a efficiet (i.e. secod-order) traiig algorithm is used. 4. DYNAMIC MODELING USING WAVELET NETWORKS. We propose to exted the use of wavelet etworks to the dyamic modelig of sigle-iputsigle-output (SISO) processes. The traiig set cosists of two sequeces of legth N: the iput sequece u ad the measured process output y p. As i the static case, the aim is to approximate f by a wavelet etwork. Depedig o the assumptios about the oise, either feedforward or feedback predictors may 5

171 be required [9]. For example, if it is assumed that the oise actig o the process is state oise (see for istace equatio (35) of sectio 5.2), i.e. if a Noliear AutoRegressive with exogeeous iputs (NARX, or Equatio Error) model y p ()=fy p ±1), y p ±2,..., y p ± N s, u±1,..., u± N e + w (17) is assumed to be valid, the the optimal associated predictor is a feedforward oe, whose iputs are past outputs of the process y p ad the exteral iputs u: y()=fy p -1, y p -2,..., y p -N s, u-1,..., u-n e. (18) f is a ukow oliear fuctio, which is to be approximated by a wavelet etwork ψ give by (3). Coversely, if it is assumed that the oise is output oise, i.e. if a Output Error model s()=fs±1), s±2,..., s± N s, u±1,..., u± N e (19) y p ()=s()+w() is assumed to be valid, the the optimal associated predictor is a feedback oe, whose iputs are past outputs of the model y ad the exteral iputs u: y()=fy-1, y-2,..., y-n s, u-1,..., u-n e (20) I the absece of oise, either feedforward or feedback predictors ca be used. If the goal is the desig of a simulatio model, i.e. of a model that ca compute the output more tha oe time step ahead, a feedback predictor should be traied [9]. Ι all cases, θ is to be estimated so that ψ approximates the ukow fuctio f o the domai defied by the traiig set. We defie the copy ( = 1,..., N) as the wavelet etwork cofiguratio givig y() at its output i the case of a feedforward predictor, ad as the feedforward part of the etwork caoical form i the case of a feedback predictor [8]. I order to keep the otatios equivalet with the previous sectio we ote: y = y() Traiig feedforward wavelet predictors. I this case, the N copies are idepedet, ad the traiig is similar to that of a static model. Therefore, the iput vector of copy ca be viewed as the vector x defied i sectio 3 ad y p as the process output defied as y p. More precisely, the iputs of copy ca be reamed as: - exteral iputs: x k = u(-k) with k = 1,..., N e - state iputs: x k = y p -k+n e with k = N e +1,..., N e +N s Sice the state iputs of the copies are forced to the correspodig desired values, the predictor is said to be traied i a directed [8], or teacher-forced [4] fashio Traiig feedback wavelet predictors. I this case, the N copies are ot idepedet: the N output values y = y() of the etwork may be cosidered as beig computed by a large feedforward etwork made of N cascaded copies of the feedforward part of the caoical form of the feedback etwork [8]: the state 6

172 iputs of copy are equal to the state outputs of copy -1. The iputs ad outputs of copy are reamed as: - exteral iputs: x k = u-k with k = 1,..., N e. - state iputs: x k = y-k+n e with k = N e +1,..., N e +N s. - state outputs: x k = y(-k+n e +N s +1) with k = N e +N s +1,..., N e +2N s. x Ne +N s +1 = y = y is the -th value of the output of the etwork. θ = m jk, d jk, c j, a k, a 0 with j = 1,, N w ad k = 1,, N e +N s is the set of parameters of copy. The feedback predictor etwork ad copy are show o figure 2. Sice the state iputs of the first copy oly are forced to desired values, the predictor is said to be traied i a semi-directed fashio [8], (also kow as backpropagatio through time [15]: the gradiet of the cost fuctio is computed by a sigle backpropagatio through the N copies). N =1 N =1 The gradiet of J (θ) = 1 y p y 2 2 = 1 e 2 2 with respect to θ ca be expressed as the sum of the gradiet with respect to each of the N copies θ of θ : N J θ = J J y =1 θ = =1 y θ (21) The aalytical expressios of y m, y jk d, y jk c, y j a, y y which are the compoets of k a 0 θ are idetical to those give (without superscript for θ) i relatios (9) (15), for the traiig of feedforward ets. The set of partial derivatives J y N ca be computed by backpropagatio through the feedforward etwork cosistig of the N cascaded copies. We itroduce the itermediate variables {q k }, q k beig the partial derivative of -J with respect to x k, the state variable x k of the -th copy: q k = J x k (22) Copy N: - output: q N out = q Ne +N s +1 = e N (23) - other output state variables: qn k = 0 with k = N e +N s +2,..., N e +2 N s (24) - for the N s state iputs : Copies = N-1 to 2: - output: q k N = a k N + N w j=1 c j N d jk N Φ j z jk N N q out q out = e +1 + q Ne +1 with k = N e +1,..., N e +N s (25) (26) 7

173 y() y(-1) y(-2) y(-n s +1) Φ 1 Φ 2 Φ N w... Uit delays u(-1) u(-n e ) y(-1) y(-2) y(-n s ) (a) N s output state variables y = x N e+ns+1 x N e+2ns Φ 1 Φ 2 Φ Nw x 1 x Ne x Ne+1 x N e+ns N e exteral iputs N s iput state variables (b) Figure 2. (a) feedback predictor etwork; (b) -th copy for traiig. - other output state variables: q +1 k = q k-ns - the N s -1 first state iputs : with k = N e +N s +2,..., N e +2 N s (27) 8

174 q k = q k+ns +1 - the last state iput : Copy 1: - output: + a k + N w j=1 c j d jk Φ j z jk q Ne +N s = a Ne +N s + q out N w j=1 with k = N e +1,..., N e +N s -1 (28) c j d jk 1 q out = e q Ne +1 Φ j z jk q out (29) (30) 5. SIMULATION RESULTS. I this sectio we make use of the above algorithms for traiig iput-output wavelet etworks o data gathered from simulated ad from real processes, ad we make use of the algorithms preseted i [8] for traiig iput-output eural etworks with oe hidde layer of sigmoidal euros o the same data. The wavelet etworks are iput-output models as defied by (18) or (20), where the ukow fuctio f is approximated by wavelet etworks whose mother wavelet is described i sectio 2 (derivative of a gaussia). The eural etworks used have oe hidde layer of sigmoidal uits ad direct coectios from the iputs: N σ N i N i y (x)= c j tah v j (x) + a 0 + a k x k with v j (x)= w jk x k (31) j=1 We deote by Traiig Mea Square Error (TMSE) the mea square error o the traiig set: N =1 TMSE = N 1 y p () y 2 = N 2 J (32) The performace of the model is estimated by the Performace Mea Square Error (PMSE), computed o a test sequece. The traiig procedure starts with a simple gradiet method (500 iteratios) which is followed by a quasi-newto method (BFGS with lie search by Nash [11]). k=1 k= Modelig of a simulated process without oise. The process cosidered here is simulated with a secod order oliear equatio. This process has bee used to illustrate a selectio procedure for eural models [16]. The output of the process is give by: y p () = f y p (-1), y p (-2), u(-1) = 24 + y p -1 u(-1) y p u(-1) y 2 p u-1 (33) Sice oise is abset, either feedforward or feedback predictors ca be used. I order to obtai a simulatio model of the process, we chose to trai a feedback predictor: y() = ψ y(-1), y(-2), u(-1), θ (34) A traiig ad a test sequece of 1000 samples each were geerated. The iput sequece for 9

175 both traiig ad test cosists of pulses with radom amplitude i the rage [-5,5] ad with radom duratio betwee 1 ad 20 samplig periods. Figures 3a ad 3b show the traiig sequece (a) (b) Figure 3: (a) Traiig iput sequece; (b) Traiig output sequece. Several feedback wavelet etworks were traied, with fifty differet iitializatios for each etwork. The results correspodig to the miimal PMSE's are give i table 1. Additioal wavelets do ot improve the performace. Number of wavelets Number of parameters TMSE PMSE Table 1. Wavelet modelig results for the oiseless simulated process. 10

176 Several feedback eural etworks were traied, with fifty differet iitializatios for each etwork. The results correspodig to the miimal PMSE's are give i table 2. Additioal hidde euros do ot improve the performace. Number of sigmoids Number of parameters TMSE PMSE Table 2. Neural modelig results for the oiseless simulated process. I this example, the two types of etworks perform with roughly the same accuracy Modelig of a simulated process with oise. The previous traiigs were performed with oiseless data. I this sectio, we study the case where a zero-mea oise acts o the process. As described i sectio 4, we cosider two cases: NARX models ad Output Error models. I the first oe, the state variables of the model used for simulatig the process are the output of the process at times ad -1, ad the oise is added to the state variables. It is a NARX model give by the followig equatio: y p () = f y p (-1), y p (-2), u(-1) + w() (35) where f is the fuctio itroduced i the previous sectio. I the secod case, the state variables of the model used for simulatig the process are ot subject to oise, but oise is added to the output variable: it is a Output Error model give by the followig equatios: s() = f s(-1), s(-2), u(-1) (36) y p () = s() + w() where s() ad s(-1) are the state variables. Sice we are iterested i black-box modelig, we geerate traiig ad test data from (35) or (36). The iput sequeces used are idetical to those show i the previous sectio. The processes are simulated with a oise of variace σ2 w = Oce the traiig ad test sequeces are geerated, we preted ot to kow equatios (35) ad (36). Sice we must make a decisio as to whether we trai a feedforward predictor or a feedback predictor, we have to make a assumptio about the effect of oise o the process (output oise or state oise). The results preseted below have bee obtaied by makig the right assumptio: for modelig the data geerated by equatio (35), we have traied a feedforward wavelet predictor, ad, for modelig 11

177 the data geerated by equatio (36), we have used a feedback predictor (the adverse effect of makig the wrog assumptio about the oise has bee demostrated i [8]). Sice we are modelig a process with oise, the goal is the followig: fid the smallest etwork such that the error o the test set ad the error o the traiig be as close as possible to the variace of the oise. Because the process is simulated, we kow the variace of the oise, so that we kow whether this goal is achieved. As i the case of the process without oise, several etworks with a icreasig umber of wavelets were traied. The optimal N w, for which the PMSE is smallest (o overfittig occurs), is 5; the results preseted o table 3 show that the variace of the oise is ideed reached. TMSE PMSE NARX Model Output Error Model Table 3. Wavelet modelig results for oisy simulated processes, whe the right assumptio about the effect of oise is made Modelig of a real process. The process to be modeled is the hydraulic actuator of a robot arm. The exteral iput u is the positio of a valve ad the output y p is the oil pressure. A sequece of 1024 poits is available. We cosider the first half of the data sequece as a traiig sequece. We use a feedback predictor with N e =1 ad N s =2 so that: y() = ψ(y(-1), y(-2), u(-1), θ) (37) Predictors havig icreasig umbers of wavelets were traied, with 50 iitializatios for each predictor. The best PMSE is obtaied with a etwork of 2 wavelets (18 parameters); the correspodig values of the TMSE ad PMSE are: TMSE = 0.11 PMSE = 0.13 Figure 4 shows the resposes of the process ad of the wavelet etwork o the test sequece. Table 4 shows the results obtaied o the same problem with other iput-output models. The eural etwork model whose performace is reported has three hidde euros (best PMSE of 50 traiigs with differet iitializatios). Iput-output model PMSE Numbers of parameters Referece Higig hyperplaes [12] Neural Network This paper Wavelet etwork This paper Table 4. A compariso of differet iput-output models of the hydraulic actuator. I this modelig problem, wavelet ad eural etworks perform equivaletly. However, these 12

178 results are still ot as satisfactory as those obtaied i [13] with a state-space model usig a eural etwork with sigmoid fuctios; state-space modelig with wavelet etworks will ot be cosidered i the preset paper. 5 Process Model Figure 4. Model ad process outputs o the test sequece. 6. CONCLUSION. I this paper, we exted the use of wavelet etworks for fuctio approximatio to dyamic oliear iput-output modelig of processes. We show how to trai such etworks by a classic miimizatio of a cost fuctio through secod order gradiet descet implemeted i a backpropagatio scheme, with appropriate iitializatio of the traslatio ad dilatio parameters. The traiig procedure is illustrated o the modelig of simulated ad real processes. A compariso with classic sigmoidal eural etworks leads to the coclusio that the two types of etworks ca perform equivaletly i terms of accuracy ad parsimoy for oliear iput-output modelig of processes with a small umber of iputs, provided the techical precautios outlied above (proper iitializatio ad efficiet traiig algorithms) are take. Refereces. [1] M. Cao ad J.-J. E. Slotie, Space-Frequecy Localized Basis Fuctio Networks for Noliear System Estimatio ad Cotrol, Neurocomputig 9 (3) (1995) [2] G. Cybeko, Approximatio by Superpositios of a Sigmoidal Fuctio, Mathematics of cotrol, sigals ad systems, 2 (1989) [3] K. Horik, M. Stichcombe, H. White ad P. Auer, Degree of Approximatio Results for Feedforward Networks Approximatig Ukow Mappigs ad Their Derivatives, Neural Computatio, 6 (6) (1994) [4] M. I. Jorda, The Learig of Represetatios for Sequetial Performace, Doctoral Dissertatio, Uiversity of Califoria, Sa Diego, [5] A. U. Levi, Neural etworks i dyamical systems; a system theoretic approach, PhD Thesis, Yale Uiversity, New Have, CT,

179 [6] S. Mallat, A Theory for Multiresolutio Sigal Decompositio: The Wavelet Trasform, IEEE Tras. Patter Aal. Machie Itell. 11 (7) (1989) [7] K. S. Naredra ad K. Parthasarathy, Idetificatio ad Cotrol Of Dyamical Systems Usig Neural Networks, IEEE Tras. o Neural Networks, 1 (1) (1990) [8] O. Nerrad, P. Roussel-Ragot. L. Persoaz, G. Dreyfus, Neural Networks ad Noliear Adaptive Filterig: Uifyig Cocepts ad New Algorithms, Neural Computatio, 5 (2) (1993) [9] O. Nerrad, P. Roussel-Ragot, D. Urbai, L. Persoaz, G. Dreyfus, Traiig recurret eural etworks: why ad how? A Illustratio i Process Modelig, IEEE Tras. o Neural Networks 5 (2) (1994) [10] Y. C. Pati ad P. S. Krishaparasad, Aalysis ad Sythesis of Feedforward Neural Networks Usig Discrete Affie Wavelet Trasformatios, IEEE Tras. o Neural Networks 4 (1) (1993) [11] E. Polak, Computatioal Methods i Optimizatio: A Uified Approach (Academic Press, New York, 1971). [12] P. Pucar ad M. Millert, Smooth Higig Hyperplaes - A Alterative to Neural Nets, i: Proceedigs of 3rd Europea Cotrol Coferece, Vol. 2 (Rome, 1995) [13] I. Rivals, L. Persoaz, G. Dreyfus, J.L. Ploix, Modélisatio, Classificatio et Commade par Réseaux de Neuroes : Pricipes Fodametaux, Méthodologie de Coceptio et Illustratios Idustrielles, i: J.P. Corriou, ed., Les réseaux de Neuroes pour la Modélisatio et la Commade de Procédés (Lavoisier Tec et Doc, 1995) [14] I. Rivals ad L. Persoaz, Black Box Modelig With State-Space Neural Networks, i: R. Zbikowski ad K. J. Hut eds., Neural Adaptive Cotrol Techology I (World Scietific, Sigapore, 1996) [15] D. E. Rumelhart, ad J. L. McClellad, Parallel Distributed Processig, (MIT Press, Cambridge, MA, 1986). [16], D. Urbai, P. Roussel-Ragot. L. Persoaz ad G. Dreyfus, The Selectio of Neural Models of No-liear Dyamical Systems by Statistical Tests, i: Proceedigs of the IEEE Coferece o Neural Networks for Sigal Processig IV, (Greece,1994) [17] Q. Zhag ad A. Beveiste, Wavelet Networks, IEEE Tras. o Neural Networks 3 (6) (1992) [18] J. Zhag, G. G. Walter, Y. Miao ad W. N. Waye Lee, Wavelet Neural Networks For Fuctio Learig, IEEE Tras. o Sigal Processig 43 (6) (1995)

180 Aexe B Présetatio du calcul du gradiet de la foctio de coût J das le cas d u réseau d odelettes d état avec possibilité de choisir la sortie comme variable d état

181 Aexe B Nous présetos ici le calcul du gradiet de J pour u réseau d état où la sortie peut être choisie comme ue des variables d état. Le ombre total des états sera N s avec : N s = N sy + N ss (1) Si la sortie est ue variable d état alors o a : N sy =1. Sio il vaut zéro. N ss est doc le ombre des variables d état différetes de la sortie. 1. Notatios. Pour pouvoir idicer les euroes d état, o itroduit ue variable logique associée à N sy,défiie de la faço suivate : A sy = 1 si N sy =0 0 si N sy =1 (2) Das u cas gééral, les euroes d état serot idicés de N e +N s +N w +A sy +1 à N e +N s +N w +N ss +1. Les paramètres du réseau sot doc : les traslatios m jk et les dilatatios d jk avec k=1,..., N e +N s et j=1,..., N w ; les podératios et les coefficiets directs : o ote c kj le paramètre associé à la coexio etre la foctio (ou le euroe d etrée) j et le euroe de sortie (ou le euroe d état) k. Pour les podératios ous avos j= N e +N s +1,..., N e +N s +N w et k=n e +N s +N w +1,...,N e +N s +N w +N ss +1 ; pour les coefficiets directs ous avos j=1,..., N e +N s et k=n e +N s +N w +1,...,N e +N s +N w +N ss +1 ; u terme costat sur le euroe liéaire de sortie, oté c 0 ; Le ombre de composates du vecteur θ est alors 2N w (N e +N s )+(N ss +1)(N e +N s +N w )+1. La sortie y aisi que l expressio des variables d état e sortie sot idetiques à celles doées par les relatios (59) et (60) du chapitre III. Pour chaque copie du réseau (=2,..., N), les variables d état e etrée sot calculées à partir de la relatio suivate : x ±1 k = x k+ns +N w +A avec k = N sy e +1,..., N e +N sy +N ss (3) Le cas particulier de la première copie est discuté au paragraphe VI.4.1 du chapitre III. 167

182 Aexe B 2. Calcul du gradiet de J par rapport aux états par rétropropagatio. Pour la copie N, ous avos : Pour la sortie : J y N =±en (4) Pour les variables d état e sortie, k=n e +N s +N w +2,...,N e +N s +N w +N ss +1 : J =0 (5) x k N Pour les variables d état e etrée, k=n e +1,...,N e +N s : J N x = J N N w y c α,ne +N k y N N x =±en s +j Φ j (x) c α,k + (6) d k jk z jk avec α= N e +N s +N w +1. j=1 Pour les copies de = N 1 à 2, ous avos : Pour la sortie : J y = J x Ne +N s +N w +1 = ± e si N sy =0 ± e + J +1 x Ne +1 sio (7) Pour les variables d état e sortie, k=n e +N s +N w +2,...,N e +N s +N w +N ss +1 : J x = J (8) k +1 S k±ns ±N w ±A sy Pour les variables d état e etrée, k=n e +1,...,N e +N s : J x = J N w N y c α,ne +N k y x =±e s +j Φ j (x) e +N s +N w +N ss +1 J c α,k + + c d k jk z j,k jk j=1 j=n e +N s +N w +2 x j (9) Pour la copie =1, ous avos : Pour la sortie : 168

183 Aexe B J y 1 = J 1 x Ne +N s +N w +1 = ± e 1 si N sy ± e 1 J + 2 x Ne +N s +N w 1 sio (10) Pour les variables d état e sortie, k=n e +N s +N w +2,...,N e +N s +N w +N ss +1 : J 1 x = J (11) 2 k x k±ns ±N w ±A sy Pour les variables d état e etrée, k=n e +1,...,N e +N s : le calcul des est pas utile. J x k 1 3. Calcul du gradiet de J par rapport aux paramètres du réseau. Pour les coefficiets directs sur la sortie : J c α j = N =1 J y y c α j N =1 =± e x j avec j = 1,..., N e +N s et α = N e +N s +N w +1 (12) Pour les coefficiets directs sur les états : N =1 J J J = = c x j k,j x k c k,j =1 xk avec j = 1,..., N e +N s et k = N e +N s +N w +2,..., N e +N s +N w +N ss +1 x k N (13) Pour les podératios sur la sortie : J c α,ne +N s +j = N =1 J y y c α,ne +N s +j N =1 avec j = 1,..., N w et a = N e +N s +N w +1 =± e Φ j (x ) (14) Pour les podératios sur les états : J c k,ne +N s +j = N =1 J x k x k c k,ne +N s +j N J = Φ j (x ) (15) =1 xk avec j = 1,..., N w et k = N e +N s +N w +2,..., N e +N s +N w +N ss +1 Pour le terme costat sur le euroe de sortie : N N J J y = c 0 y =± e c 0 =1 =1 (16) 169

184 Aexe B Pour les traslatios : J m jk = N J =1 mjk = N =1 ) N e +N s +N w +N ss +1 1 Φ j (x c d jk z α,ne +N s +j e ± c l,ne +N s +j jk l=n e +N s +N w +2 J x l (17) Pour les dilatatios : J d jk = N J =1 djk = N =1 z jk ) N e +N s +N w +N ss +1 Φ j (x J c d jk z α,ne +N s +j e ± c l,ne +N s +j jk l=n e +N s +N w +2 x l (18) 170

Montrer encore