THESE. Présentée à L UNIVERSITE PARIS XII VAL DE MARNE CRETEIL

Documents pareils

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Coup de Projecteur sur les Réseaux de Neurones

L apprentissage automatique

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

Pourquoi l apprentissage?

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

4.2 Unités d enseignement du M1

Introduction au Data-Mining

LA QUALITE DU LOGICIEL

Systèmes de transport public guidés urbains de personnes

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Optimisation de la compression fractale D images basée sur les réseaux de neurones

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

Utilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition

Date de diffusion : Rédigé par : Version : Mars 2008 APEM 1.4. Sig-Artisanat : Guide de l'utilisateur 2 / 24

Chapitre 1 : Introduction aux bases de données

NORME INTERNATIONALE D AUDIT 260 COMMUNICATION DES QUESTIONS SOULEVÉES À L OCCASION DE L AUDIT AUX PERSONNES CONSTITUANT LE GOUVERNEMENT D'ENTREPRISE

Conditions Générales de Vente et d'utilisation

Algorithmes d'apprentissage

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

LE PROBLEME DU PLUS COURT CHEMIN

modélisation solide et dessin technique

Mention : En débat

INTELLIGENCE ECONOMIQUE : ENJEUX ET RETOUR D EXPERIENCE PILOTE DANS SEPT PMI DE BOURGOGNE

Applicable sur le site à compter du 1 Février 2015

a) La technique de l analyse discriminante linéaire : une brève présentation. 3 étapes de la méthode doivent être distinguées :

Les types et niveaux de maintenance

Transmission d informations sur le réseau électrique

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

La classification automatique de données quantitatives

Travaux pratiques avec RapidMiner

Réorganisation du processus de transfusion sanguine au Liban

Business Intelligence avec SQL Server 2012

Programmation Objet - Cours II

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

BACCALAURÉAT PROFESSIONNEL M R I M : MICRO INFORMATIQUE ET RESEAUX : INSTALLATION ET MAINTENANCE

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Introduction au Data-Mining

RapidMiner. Data Mining. 1 Introduction. 2 Prise en main. Master Maths Finances 2010/ Présentation. 1.2 Ressources

Mastère spécialisé. «Ingénierie de l innovation et du produit nouveau De l idée à la mise en marché»

NOTICE DE EOBD-Facile Pour Android

Préparée au Laboratoire d'analyse et d'architecture des Systèmes du CNRS. Spécialité : Systèmes Automatiques. Par CLAUDIA VICTORIA ISAZA NARVAEZ

Introduction au datamining

C ) Détail volets A, B, C, D et E. Hypothèses (facteurs externes au projet) Sources de vérification. Actions Objectifs Méthode, résultats

Principe et règles d audit

La conversion de données : Convertisseur Analogique Numérique (CAN) Convertisseur Numérique Analogique (CNA)

MINISTÈRE DE LA DÉFENSE SECRÉTARIAT GÉNÉRAL POUR L'ADMINISTRATION CHARTE DE L'AUDIT INTERNE DU SECRÉTARIAT GÉNÉRAL POUR L'ADMINISTRATION

APPLICATION DU SCN A L'EVALUATION DES REVENUS NON DECLARES DES MENAGES

POLITIQUE DE BIOSÉCURITÉ

Annexe : La Programmation Informatique

Principes de liberté d'expression et de respect de la vie privée

L IMPACT DES N.T.I.C. DANS LA FORMATION PROFESSIONNELLE DES CADRES DE L INSTITUTION MILITAIRE

DÉVELOPPEMENT INFONUAGIQUE - meilleures pratiques

CAPTEURS - CHAINES DE MESURES

Utiliser Access ou Excel pour gérer vos données

Qlik Sense Cloud. Qlik Sense Copyright QlikTech International AB. Tous droits réservés.

L'EPS à l'école primaire aucune modification des programmes

NOTIONS DE PROBABILITÉS

ETI/Domo. Français. ETI-Domo Config FR

Les principes de la sécurité

LA PROCEDURE D'EVALUATION A.NA.PSY.p.e. EST LE RESULTAT D'UNE RECHERCHE

Formation des formateurs en entreprise

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Classification Automatique de messages : une approche hybride

Etude du cas ASSURAL. Mise en conformité du système d'information avec la norme ISO 17799

Mastère spécialisé MS : «Ingénierie de l innovation et du produit nouveau

La fonction d audit interne garantit la correcte application des procédures en vigueur et la fiabilité des informations remontées par les filiales.

Thème 5. Proposition d'une activité d'exploration élève : Micro-trottoir «Qu'est-ce qu'une entreprise?»

Lignes directrices relatives à la relation d affaires et au client occasionnel

Réseau : Interconnexion de réseaux, routage et application de règles de filtrage.

Evaluation de la variabilité d'un système de mesure

Sécurité. Tendance technologique

Mentions Légales. Webmaster. Propriété intellectuelle

FICHE DE POSTE. Date de rédaction : 20/02/15. Argumentaire général

Prédiction de couverture de champ radioélectrique pour les réseaux radiomobiles : L apport du Système d Information Géographique ArcInfo 8

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires

MASTER 2 SCIENCES HUMAINES ET SOCIALES Mention Psychologie. Spécialité : Recherches en psychologie

Observation des modalités et performances d'accès à Internet

COMMENT MAITRISER LA GESTION DES APPROVISIONNEMENTS ET DES STOCKS DE MEDICAMENTS

Lecture critique et pratique de la médecine

Contenus détaillés des habiletés du Profil TIC des étudiants du collégial

Formation projet informatique. Expression de besoins, définir un besoin informatique

RÉSOLUTION DE SYSTÈMES À DEUX INCONNUES

Anticiper pour avoir une innovation d'avance : le leitmotiv de Pierre Jouniaux, entrepreneur du big data!

TASCAM MX Utilisation du SCSI

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

MODE D'EMPLOI DE LA CALCULATRICE POUR LES COURTS SÉJOURS DANS L'ESPACE SCHENGEN

Nom-Projet MODELE PLAN DE MANAGEMENT DE PROJET

CEP-CICAT 5 Février Lieutenant Jean-marc BRUCKERT - Service Prévention

Application 1- VBA : Test de comportements d'investissements

Figure 1 Différents éléments influençant les mesures de seuil réalisées en champ visuel

Conditions : stage indemnisé, aide au logement possible, transport CEA en Ile-de-France gratuit.

Jexcel. V1.1.4 Manuel d'utilisation. modifié le 16 nov. 2004

Efficacité énergétique pour les particuliers : une solution pour le monitoring énergétique

Apprentissage Automatique

1. Introduction Création d'une requête...2

IODAA. de l 1nf0rmation à la Décision par l Analyse et l Apprentissage / 21

Copropriété: 31, rue des Abondances Boulogne-Billancourt

Calcul de développements de Puiseux et application au calcul du groupe de monodromie d'une courbe algébrique plane

Formation «Système de gestion des documents d activité (SGDA)»

Transcription:

Année 2003 THESE Présentée à L UNIVERSITE PARIS XII VAL DE MARNE CRETEIL En vue de l obtention du titre de Docteur de l Université Spécialité Génie Informatique, Automatique et Traitement du Signal par Anne-Sophie BELLANGER-DUJARDIN CONTRIBUTION A L ETUDE DE STRUCTURES NEURONALES POUR LA CLASSIFICATION DE SIGNATURES : APPLICATION AU DIAGNOSTIC DE PANNES DES SYSTEMES INDUSTRIELS ET A L AIDE AU DIAGNOSTIC MEDICAL Soutenue le?? devant la Commission d Examen : Mme V. AMARGER M. G. BLOCH M. H. COUSILLAS M. H. MAAREF M. K. MADANI M. G. ZWINGELSTEIN MCF Professeur MCF Professeur Professeur Professeur Associé/EDF Examinatrice Rapporteur Rapporteur Rapporteur Examinateur Examinateur

!"#$ % & ' % ( )*+, - (, $../0$, +.123 22 4-1$ ) 56 7 )/8/7 29 12%222%:& ' ( ; $.<.7 1 1((( 4& ' %42 2 ( %$ #1.$.)/- 1 " & 2 4 (1 2 ( & ' $ $ # /-(2) / 1 (1-1 : 22 ( 2& ' %42 %$ < 7-8 "0 & % 0 -/ -' " -.-) - - 7-0 = - < 1- > (- % 12 2 ) / 1(1 8 "0 & (( -: 2 %?: & 2 2 : 2 7 1%22% & '2 2-22-22@- A - (> / (-%! 1 (1 (( -%- -1 &

REMERCIEMENTS....2 SOMMAIRE.. 3 INTRODUCTION.6 CHAPITRE I. DIAGNOSTIC ET RESEAUX DE NEURONES ARTIFICIELS...12 I.1. Introduction...13 I.2. Les Réseaux de Neurones Artificiels...16 I.2.1. Réseaux de neurones artificiels et diagnostic...16 I.2.2. Le perceptron...18 I.2.3. Le réseau Learning Vector Quantization...22 I.2.4. Le réseau Radial Basis Function...26 I.3. Approche neuronale hybride...31 I.3.1. Généralités...31 I.3.2. Informations d'entrée et étape de prétraitement...31 I.3.3. Les agents neuronaux...35 I.3.4. L'étape de décision...35 I.4. Conclusion...36 CHAPITRE II. APPROCHES NEURONALES SIMPLES POUR L AIDE AU DIAGNOSTIC ET LEUR EVALUATION EXPERIMENTALE...39 II.1. Introduction...40 II.2. Volet Biomédical : Les Potentiels Evoqués Auditifs...41 II.2.1. Présentation...41 II.2.2. Mise en œuvre clinique et construction de la base de données...44 II.2.3. Résultats...47 II.2.3.1. Application d'une technique conventionnelle : Modélisation AR des signaux PEA...47 II.2.3.1.1. Première approche...48 II.2.3.1.2. Seconde Approche...50 II.2.3.2. Aide au diagnostic par techniques neuronales...51 II.2.3.2.1. Réseau Learning Vector Quantization...52 II.2.3.2.2. Réseau Radial Basis Function...54

II.3. Volet Industriel : Diagnostic de défaillances d un moteur asynchrone...57 II.3.1. Introduction...57 II.3.2. Construction de la base de données...58 II.3.3. Aide au diagnostic par techniques neuronales...62 II.3.3.1. Exploitation de la base de données 1...62 II.3.3.1.1. Réseau Learning Vector Quantization...62 II.3.3.1.2. Réseau Radial Basis Function...63 II.3.3.2. Exploitation de la base de données 2 Réseau RBF...65 II.3.3.2.1. Optimisation de la structure du réseau...65 II.3.3.2.2. Résultats obtenus...66 II.3.3.3. Exploitation de la base de données 3...67 II.3.3.3.1. Réseau Learning Vector Quantization...67 II.3.3.3.2. Réseau Radial Basis Function...68 II.3.3.4. Détection de l'apparition d'un défaut de roulement progressif...70 II.3.3.4.1. Réseau Learning Vector Quantization...71 II.3.3.4.2. Réseau Radial Basis Function...71 II.4. Conclusion...73 CHAPITRE III. VERS DES TECHNIQUES NEURONALES HYBRIDES...76 III.1. Introduction...77 III.2. Validation de la structure neuronale hybride proposée : Application au problème d'aide au diagnostic biomédical...78 III.2.1. Structures n'impliquant qu'un seul agent neuronal...79 III.2.1.1. Structures hybrides RNA/Seuillage...79 III.2.1.1.1. Structure hybride LVQ/Seuillage...80 III.2.1.1.2. Structure hybride RBF/Seuillage...81 III.2.1.2. Structures hybrides RNA/Module de décision neuronal...83 III.2.1.2.1. Structure hybride RBF/(LVQ+Seuillage)...83 III.2.1.2.2. Structure hybride RBF/(BP+Seuillage)...88 III.2.2. Structure hybride impliquant 2 agents neuronaux...93 III.3. Validation de la structure neuronale hybride proposée :Application au problème d'aide au diagnostic industriel...98 III.3.1. Structure Hybride RBF/LVQ...97 III.3.1.1. Application de la structure hybride RBF/LVQ : exploitation de la base de données 2...98 III.3.1.2. Application de la structure hybride RBF/LVQ : exploitation de la base de données 3...99 III.3.1.3. Application de la structure hybride RBF/LVQ : Détection de l'apparition d'un défaut progressif...101

III.3.2. Structure Hybride RBF/BP...102 III.3.2.1. Application de la structure hybride RBF/BP : exploitation de la base de données 2...103 III.3.2.2. Application de la structure hybride RBF/BP : exploitation de la base de données 3...104 III.3.2.3. Application de la structure hybride RBF/LVQ : Détection de l'apparition d'un défaut progressif...105 III.4. Conclusion...107 CONCLUSION..112 BIBLIOGRAPHIE 118 ANNEXE 1 : Les fondements biologiques des réseaux de neurones artificiels...123 ANNEXE 2 : Ecoulements diphasiques : Problème du Taux de Vide.132 ANNEXE 3 : L'appareil auditif... 145

Le problème du diagnostic se rencontre dans de nombreux domaines, notamment dans le domaine médical et le domaine industriel. Pour le diagnostic médical, l'objectif est de déterminer une maladie à partir de symptômes, et de résultats d'examens. Le diagnostic industriel, quant à lui, consiste à trouver la cause d'une défaillance. Dans l'un et l'autre des cas, l'objectif est de parvenir à une solution destinée à assurer le bon fonctionnement du système surveillé être humain dans le cas médical et système de production dans le cas industriel. Dans le domaine industriel, la production est caractérisée par une complexité croissante qui s'explique par la considération de contraintes à respecter. D'un point de vue économique, par exemple, ces contraintes concernent l'obligation de rendement et surtout de diminution des coûts en raison du contexte de plus en plus concurrentiel dans lequel les entreprises évoluent. D'un point de vue technique, les contraintes portent sur le développement des technologies, de l'informatisation et de l'automatisation. Enfin, il ne faut pas oublier la nécessité d'assurer la sécurité des hommes qui assurent cette production. Cette complexité se traduit par la présence inévitable d'aléas de fonctionnement, qu'il sera alors nécessaire de détecter et corriger le plus rapidement possible. Ces aléas se traduisent par la présence d'écarts entre production réelle et production prévue. Ces aléas sont indéniablement néfastes. Le diagnostic doit alors permettre de préserver la sécurité des hommes, et d'éviter la détérioration des matériels. Mais, il doit aussi permettre de réduire les coûts financiers qui pourraient immanquablement découler d'une avarie sur le système de production, et ainsi de maintenir la compétitivité de l'industrie sur son marché. Pour cela, il est nécessaire de mettre en place un dispositif de surveillance permettant d'avoir une représentation de l'état de l'outil de fonctionnement. Un certain nombre de capteurs donneront alors les informations nécessaires (données, images, signal) pour caractériser l'état du système. La surveillance des 7

systèmes se décompose en trois fonctions : la détection d une défaillance, qui consiste à reconnaître une déviation par rapport au fonctionnement attendu, la localisation d une faute, qui consiste à déterminer la région physique du système dans lequel la défaillance s est produite et enfin, le diagnostic qui permet de déterminer précisément l origine de la défaillance détectée. Concernant le domaine médical, l'enjeu est un peu différent, puisque ici, le système considéré est l'être humain, dont la complexité est immense. L'objectif du diagnostic est ici, de déterminer une maladie à partir de symptômes et de résultats d'examens complémentaires, afin de proposer le traitement adéquat mais aussi, dans certains cas tels que les problèmes psychologiques ou psychiatriques, de trouver les causes des troubles. La contrainte majeure est de préserver la santé physique et morale du patient. Pour cela, les médecins disposent, à l'heure actuelle, de techniques à la pointe de l'évolution technologique qui leur permettent d'obtenir des données, des images, des signaux pour établir leur diagnostic. Le médecin visualise alors les résultats de ces divers examens pour établir son diagnostic. En effet, les médecins ne disposent pas d'outils permettant une aide au diagnostic. Mais, ne pourrait-on pas développer des techniques d'analyse de ces informations pour réaliser un outil d'aide au diagnostic? Les systèmes de production dans le milieu industriel sont de plus en plus automatisés, c'est-à-dire que l'homme est remplacé dans ses tâches répétitives par des systèmes automatiques. La première conséquence de cette automatisation est donc de déplacer progressivement le niveau d'intervention de l'homme dans le sens d'une réduction de l'activité physique directe au profit d'une activité mentale de commande et de coordination. Cependant, ces systèmes automatisés ne sont pas sans faiblesse, et leur fragilité et leur susceptibilité aux dysfonctionnement font que l'intervention humaine est souvent nécessaire. Dans le milieu médical, le rôle du médecin est aussi primordial. C'est en lui que le patient place sa confiance. Le caractère indispensable de l'acteur humain dans le contexte du diagnostic médical relève entre autre d'un aspect "psychologique". De plus, par ses capacités de juger et de décider, d'analyser, de synthétiser et d'interpréter les symptômes, le praticien joue un rôle primordial. C'est lui qui détient "l'expertise" et la "connaissance". Ainsi, tant dans un contexte de surveillance et de maintenance des systèmes industriels que dans le contexte du diagnostic 8

médical, il n'est pas envisageable de mettre en place des outils de surveillance sans considérer le rôle indispensable de l'homme. Il s'agit donc de développer, non pas des outils de diagnostic, mais plutôt d'aide au diagnostic. L'homme est un acteur incontournable dans le processus de diagnostic. Il possède en effet les capacités indispensables à la résolution de problèmes liés à cette activité. Celles-ci sont dues aux caractéristiques du cerveau humain qui lui confère les capacités de perception, de mémorisation, d'apprentissage, d'adaptation et de raisonnement. Le problème d'aide au diagnostic a donc tout naturellement fait l'objet de travaux en ce sens, en tentant de reproduire ces performances à l'aide d'un système artificiel. En effet, au cours des vingt cinq dernières années, le domaine de l'intelligence Artificielle (IA) a connu un essor important, avec, en particulier, le développement des réseaux de neurones artificiels. Ces derniers tentent de reproduire, par simulation, certains des principes organisationnels et fonctionnels du cerveau humain. Ils permettent d'élaborer un nombre important de techniques originales, couvrant un large domaine d'applications. Parmi leurs propriétés les plus attractives, on peut citer leurs capacités d'apprentissage et de généralisation et, pour certain d'entre eux, leur capacité de classification et d'identification. Ils ont ainsi été appliqués, par exemple, avec succès à des problèmes de reconnaissance des formes. Toutes ces propriétés font des réseaux de neurones un outil permettant de développer de nouvelles techniques pour l'aide au diagnostic, et nos travaux portent sur l'application de ces techniques au diagnostic, tant dans le domaine industriel que dans le domaine médical. Dans de nombreux cas, la grande difficulté inhérente au problème du diagnostic repose sur la similitude des caractéristiques à partir desquelles est effectué un diagnostic. On dispose souvent d'une connaissance empirique du système, et de ce fait, d'un modèle incomplet du système, nécessitant le recours à un "expert". La difficulté du diagnostic dans le domaine médical en est un exemple significatif : plusieurs diagnostics contradictoires pourraient être formulés à partir d'un même examen clinique. On peut aussi établir le même type de constat concernant la faible efficacité des systèmes de supervision et de détection de pannes utilisés dans l'industrie. 9

Les travaux effectués au cours de cette thèse visent à apporter des éléments de réponse au problème d'intégration des connaissances "d'expert" dans un processus conduisant à la détection et au diagnostic d'un dysfonctionnement. La classe des problèmes étudiés relève de celles d'identification et de catégorisation des dysfonctionnements. Pour tenter de les résoudre, nous avons mis en œuvre des techniques basées sur le connexionnisme (structures à base de réseaux de neurones), et nous proposons alors une structure permettant de "catégoriser" des informations (signaux, données ), issues de différents capteurs, par des techniques neuronales. Ce mémoire est organisé en trois chapitres. Le premier chapitre concerne la présentation du diagnostic par réseaux de neurones artificiels. Nous y présentons différents modèles neuromimétiques utilisés dans le cadre du présent travail. Leur structure, leur algorithme d'apprentissage et leurs caractéristiques sont alors abordés. Nous y présentons aussi la structure hybride neuronale que nous proposons pour tenter de résoudre le problème d'aide au diagnostic, quel que soit le domaine d'étude considéré. Le chapitre suivant concerne la mise en œuvre de techniques neuronales simples pour la résolution de problèmes liés à l'aide au diagnostic. Nous y présentons les deux problématiques sur lesquelles portent nos travaux, et qui concernent les deux domaines déjà cités : le domaine médical et le domaine industriel. Dans le domaine médical, nos travaux concernent l'aide au diagnostic à partir de résultats d'un examen permettant de déceler des troubles auditifs. Les informations principales utilisées dans ce cas sont les Potentiels Evoqués Auditifs. Dans le domaine industriel, nous nous sommes intéressés au problème du diagnostic de défaillances d'un moteur asynchrone. Enfin, les résultats obtenus lors de la mise en œuvre des techniques neuronales exposées dans le premier chapitre sont présentés. Ceux-ci permettront de montrer les limites des techniques neuronales simples dans la résolution de problèmes d'aide au diagnostic de systèmes complexes. Les limites montrées au chapitre II nous ont amenés à mettre en oeuvre une technique plus complexe pour tenter de répondre au problème d'aide au diagnostic. Le dernier chapitre est donc consacré à la présentation des résultats obtenus grâce à cette technique neuronale hybride pour les deux problématiques considérées. 10

Puis, dans la conclusion, nous rappelons brièvement les différents résultats obtenus au cours de ce travail, et présentons les perspectives qui découlent de cette thèse. Enfin, et compte tenu du volet biomédical, pouvant sensibiliser les lecteurs liés à ce domaine, il nous a paru important d'inclure une rapide présentation des fondements biologiques des réseaux de neurones (même si ces considérations peuvent présenter moins d'intérêt pour un lecteur initié au domaine des réseaux de neurones). Ces aspects constituent donc le contenu de la première annexe au présent document. D'autre part, des travaux liés à l'estimation quantitative de données ont été initiés au cours de cette thèse. Ils visaient l'évaluation de la faisabilité de l'estimation de paramètres d'un système à surveiller. Cette faisabilité a été validée sur un système expérimental de mélange diphasique et a concerné plus particulièrement l'estimation du taux de vide dans de tels écoulements. Toutefois, ces travaux n'ont pas donné lieu à une intégration aux structures neuronales hybrides proposées dans cette thèse. C'est pourquoi nous avons préféré rapporter ces travaux sous la forme d'une seconde annexe au présent document. Enfin, compte tenu de l'utilisation de signaux biomédicaux relatifs à l'audition, il nous a semblé intéressant d'inclure une présentation sommaire de l'appareil auditif. Celle-ci constitue donc la troisième annexe. 11

Dans la vie courante, il existe de nombreuses situations dans lesquelles l'être humain se trouve, en tant qu'utilisateur, face à des systèmes qui ne fonctionnent pas de manière attendue. Qui ne s'est pas trouvé au volant d'une voiture qui refuse de démarrer? Qui n'a jamais été confronté à un ascenseur en panne? Afin de résoudre ces problèmes divers que pose ce genre de situation, l'intervention humaine et un outillage approprié sont indispensables. La complexité des systèmes actuels rend ces interventions d'un niveau élevé. Il est donc nécessaire de fournir à l'intervenant des outils d'aide au diagnostic de la panne rencontrée. L ouvrage de G. Zwingelstein, «Diagnostic des Défaillances» [ZWIN 95], constitue une source précieuse de connaissances dans le domaine du diagnostic industriel. Le diagnostic des fautes requiert généralement l'élaboration d'un modèle du système à surveiller. Généralement, un modèle est une représentation formelle (avec un sens plutôt mathématique) de ce système. Lorsqu un modèle est disponible, les techniques de diagnostic utilisables sont appelées techniques internes. Ces méthodes de diagnostic internes sont dérivées des techniques utilisées par les automaticiens. Elles impliquent une connaissance approfondie du système à surveiller sous la forme d une représentation formelle (au sens mathématique) : le modèle. Leur principe est le suivant : il s'agit, à partir des observations des entrées et des sorties de remonter aux paramètres ou au vecteur d'état interne. La détection d'un état anormal se fait alors par comparaison entre les paramètres mesurés ou calculés à l'instant considéré et ceux associés à un fonctionnement normal. Les paramètres de l'état 13

courant du système s'obtiennent grâce aux méthodes d'identification de paramètres et/ou aux méthodes d'estimation du vecteur d'état. Ces méthodes de diagnostic par identification de paramètres et d'estimation du vecteur d'état ont été les premières à avoir été employées dans l'industrie. Initiées par les automaticiens qui recherchaient les modèles des procédés devant faire l objet d une automatisation poussée, ces méthodes de diagnostic internes s appuient sur l existence d un modèle mathématique très précis du système à surveiller. Dans le cas contraire, les résultats d'estimation et d'identification sont à prendre avec beaucoup de précaution. Ces techniques sont très utilisées dans le domaine de l aéronautique et de l aérospatiale où les modèles de la dynamique du vol sont parfaitement connus ainsi que dans l industrie électronique et électrique, lorsque l'on dispose d'un modèle parfaitement connu du système étudié. Elles sont aussi appliquées dans l'industrie nucléaire [ZWIN 95]. Cependant, il existe certaines limites à l'application de ces méthodes de diagnostic. Ces techniques ne sont, en effet, applicables que lorsqu'un modèle précis et exhaustif du système à surveiller est disponible. Ainsi, elles ne pourront pas être utilisées dans un grand nombre d'applications médicales, car il est quasiment impossible d'obtenir un modèle de toutes les fonctions du corps humain. De même, dans le cas des circuits électroniques non linéaires, la modélisation est une tâche ardue qui limite l'utilisation de telles techniques. Les applications qui vont nous intéresser dans cette thèse concernent, soit, des systèmes pour lesquels aucune représentation formelle n'est disponible (le cas biomédical, où il s agit de l être humain), soit, des systèmes pour lesquels une telle représentation est difficile à obtenir (le cas de la plupart des systèmes industriels réels). Ces techniques internes ne sont alors pas applicables et il faut donc envisager la mise en œ uvre d autres techniques. D'autres méthodes, applicables dans le cas où aucun modèle n est disponible, et appelées méthodes externes, ont donc été proposées. Dans cette catégorie, on trouve les techniques de reconnaissance des formes, les techniques à base de systèmes experts, ainsi que les techniques neuronales. Les techniques de reconnaissance des formes permettent de déterminer l appartenance d un objet à une classe en déterminant de quelle forme un objet observé se rapproche le plus. Ces méthodes constituent des outils privilégiés pour la classification de signatures associées aux modes de fonctionnements normaux et défaillants. Le diagnostic par reconnaissance des formes consiste donc à classer les états du système. L ouvrage de B. Dubuisson, «Diagnostic et reconnaissance des formes», développe tout particulièrement ces techniques de diagnostic [DUBU 90]. Grâce à leur capacité à discriminer des signatures caractéristiques des fonctionnements normaux et anormaux de systèmes, les méthodes de reconnaissance des 14

formes sont des techniques à envisager lorsqu on souhaite procéder à une automatisation du diagnostic. Par exemple, certains de ces algorithmes sont utilisés pour la surveillance vibratoire de machines tournantes [GROS 92]. Elles sont applicables lorsqu on dispose d une connaissance a priori des états de fonctionnement du système à surveiller. Elles sont également utilisables pour le diagnostic de systèmes nouveaux et on pourra alors mettre en œ uvre des algorithmes ayant la capacité de prendre en compte des états de fonctionnement inconnus a priori. Dans ce cas, il faudra appliquer des algorithmes capables de rejeter ou de détecter une ambiguïté dans les nouvelles formes rencontrées. De la même manière, dans le cas de systèmes vieillissants, i.e. présentant une dérive lente des caractéristiques de fonctionnement, il est utile d appliquer le même genre de techniques. Il faut toutefois noter que les performances de ce type de techniques sont fortement liées au degré de compréhension du système : la présence d un expert est donc quasi indispensable. Les systèmes experts ont, quant à eux, pour fonction d assister l utilisateur nonspécialiste pour la résolution d un problème en utilisant les connaissances d un expert. Comme toute les nouvelles technologies, ils ont connus une sur-médiatisation qui les rendait capables de résoudre tout type de problèmes. Avec le recul, la mise en œ uvre des systèmes experts a trouvé un équilibre. Les systèmes experts sont une des applications de l Intelligence Artificielle qui ont quitté les laboratoires pour être utilisés dans le monde de l entreprise. De nombreux systèmes ont été implantés avec succès pour résoudre des problèmes concrets notamment en médecine [SHOR 76], pour établir des diagnostics, dans le domaine financier, les assurances, la réparation d'équipement. Dans le domaine de l aide au diagnostic, ils permettent de réaliser aisément le diagnostic des petits systèmes [ZWIN 95]. En revanche, pour les systèmes industriels plus complexes, la percée de ces techniques est moins rapide, compte tenu des coûts importants de développement et de maintenance de tels systèmes. Cependant, les grandes difficultés que l on rencontre lorsqu on cherche à extraire des experts leur connaissance, puis, quand on tente de formaliser ces connaissances dégagées, sont peut-être signes d une faiblesse intrinsèque des systèmes experts. En effet, la conception de tels systèmes repose sur une hypothèse : la structuration de nos aptitudes en règles symboliques parfaitement identifiables. Cette hypothèse, très répandue chez les psychologues et les chercheurs en Intelligence Artificielle dans les années 70, est aujourd hui en recul et on envisage désormais des modèles qui n y ont plus recours, comme les réseaux de neurones artificiels. 15

L'objet de cette thèse concerne la mise en œ uvre de ces dernières techniques pour la construction d'outils d'aide au diagnostic quelque soit le domaine considéré. Ce chapitre est consacré à l'étude de la mise en œ uvre de réseaux de neurones pour l'aide au diagnostic. Dans un premier temps, nous aborderons les réseaux de neurones artificiels, et plus particulièrement les trois modèles que nous avons utilisés. Dans un second temps, nous présenterons une approche neuronale hybride pour tenter de proposer une solution d aide au diagnostic. L une des tâches principales à effectuer en diagnostic est la reconnaissance et la classification de signatures. Cette tâche est souvent effectuée de façon visuelle par les spécialistes de maintenance. De la même manière, lors du fonctionnement d un système complexe, comme une centrale nucléaire, les informations visuelles délivrées par les indicateurs présents dans la salle de commande constituent des formes visuelles que les opérateurs utilisent pour identifier les modes de fonctionnement. Quand une anomalie de fonctionnement apparaît, les informations se modifient et les opérateurs doivent alors identifier la situation de fonctionnement. Ainsi, les opérateurs, de façon consciente ou non, mettent en oeuvre la reconnaissance visuelle des formes. Les réseaux de neurones sont des outils bien adaptés pour aider les spécialistes dans cette activité de reconnaissance et de classification. Ils sont en effet particulièrement performants pour effectuer des tâches de reconnaissance des formes et de classification automatique de signatures. Dans le domaine industriel, ils sont presque exclusivement utilisés pour la classification automatique de formes à partir de données bruitées et incomplètes [ZWIN 95]. Lorsqu ils sont utilisés pour le diagnostic par reconnaissance des formes, l approche consiste à apprendre aux réseaux un certain nombre de situations de fonctionnement normal et anormal du système. A l issu de cet apprentissage, le réseau est ensuite mis en place et il peut être confronté à des situations, ou plutôt des formes, qu il n a jamais rencontrées. C est la capacité de généralisation des réseaux qui est alors sollicité afin qu il effectue une 16

classification correcte de la forme présentée. De nombreux exemples d une telle utilisation des réseaux neuronaux pour le diagnostic industriel sont présents dans la littérature : classification de signaux pour le contrôle non destructif de tubes métalliques [ZWIN 91,92], classification de signaux électriques pour le diagnostic de circuits analogiques [AMAR 96][BENG 97b], reconnaissance pannes à partir d'observations sur le système pour la surveillance des procédés de raffinage [VENK 89]. Ils sont aussi utilisés et donnent de bons résultats pour la classification d'informations médicales : classification de données pour la reconnaissance de cellules cervicales [BAZO 94], classification de signaux médicaux (potentiels évoqués auditifs) [ALPS 94]. Une autre application des réseaux de neurones artificiels dans le domaine du diagnostic concerne les problèmes d identification et de modélisation. Il s agit alors, après avoir appris au réseau différentes valeurs pour certains paramètres du système à surveiller, d obtenir, lors de la phase de généralisation, la ou les valeurs des paramètres à surveiller. En comparant ensuite les valeurs obtenues à celles correspondant à un fonctionnement normal, on peut alors détecter un fonctionnement anormal. [BENG 97a]. L application des réseaux de neurones au problème du diagnostic peut donc se faire suivant deux démarches. La première démarche considère le diagnostic comme un problème de reconnaissance de formes où il s agit de déterminer la classe à laquelle appartient la forme en présence. La seconde approche permet d identifier les paramètres du système à surveiller. Puis, en comparant les valeurs obtenues avec celles des paramètres correspondant à un fonctionnement normal du système, on peut aboutir à un diagnostic. Quelle que soit la démarche considérée, la capacité de généralisation et le temps de réponse court des réseaux de neurones s avèrent très utiles au problème du diagnostic. Cependant, la paramétrisation de tels outils est une étape délicate, car il n existe pas de règles permettant de fixer les paramètres caractéristiques des réseaux (nombre de couches, nombre de neurones par couches ). Ces choix devront se faire empiriquement pour obtenir les résultats recherchés [ZWIN 95]. Les réseaux neuronaux présentent des avantages majeurs pour la résolution de problèmes complexes qui peuvent se heurter aux limites rencontrées en informatique classique grâce à leurs propriétés liées à leur capacité d'apprentissage. Ils peuvent en effet apprendre des règles à partir d'exemples. Puis, sur la base de règles apprises, ils sont capables 17

de généraliser et ainsi, d'étendre ces règles à de nouveaux exemples non appris, même si les formes présentées sont entachées de bruit ou ont des informations manquantes. Les opérations effectuées par des opérateurs neuronaux peuvent être diverses, et nous ne retiendrons que les tâches de classification 1. La suite de cette partie est consacrée à la présentation des modèles neuronaux. Nous présenterons ainsi les modèles utilisés pour la construction d'un outil d'aide au diagnostic : le Perceptron multi-couches à une couche cachée, le réseau Learning Vector Quantization (LVQ) et le réseau Radial Basis Function (RBF). Les fondements biologiques des réseaux de neurones artificiels, ainsi que les premières représentations mathématiques des modèles neuromimétiques, dont le neurone formel proposé par Mc Cullogh et Pitts en 1943 sont rappelés en annexe (Annexe 1). Les Perceptrons multi-couches à une couche cachée sont des réseaux dont l'algorithme d'apprentissage est celui de la rétropropagation du gradient mis au point dans les années 1980 [RUME 86]. Cet algorithme est dérivé de la règle de Widrow-Hoff. Cet algorithme d'apprentissage par rétropropagation du gradient a contribué à la relance d'intérêt pour les systèmes neuronaux. Structure du réseau : Le perceptron multicouche à une couche cachée est, comme son nom l indique un réseau multi-couches. Il est composé d'une couche d'entrée, d'une ou plusieurs couches cachées et d'une couche de sortie. La figure I.1 représente un réseau à trois couches (une seule couche cachée). Le nombre d'unités d'entrée et de sortie dépend du problème à traiter. En revanche, le choix du nombre de couches cachées et du nombre de neurones par couche cachée doit faire l'objet d'un compromis entre performance et vitesse d'apprentissage. 1 Un exemple d'application des réseaux de neurones artificiels pour la quantification est présenté en Annexe 2. 18

Perceptron multicouche à une couche cachée W' ij W'' ij s 1 s m Couche d entrée Couche cachée Couche de sortie Figure I. 1 - Perceptron multi-couche à une couche cachée Apprentissage : La procédure d'apprentissage repose sur l'idée de propager vers les couches internes l'erreur commise en sortie pour modifier les poids synaptiques. C'est un apprentissage supervisé. Pour cela, on dispose d'un ensemble d'exemples (base d'apprentissage), constituée de couples (entrée, sortie désirée). Lors de l'apprentissage, on présente les exemples au réseau qui calcule les sorties correspondantes. Ces calculs s'effectuent de proche en proche depuis la couche d'entrée vers la couche de sortie (phase de relaxation ou de propagation avant). L'erreur entre la sortie réelle et la sortie désirée est calculée (somme quadratique des erreurs sur chaque neurone de sortie). Cette erreur est ensuite rétropropagée à travers le réseau donnant lieu à une modification des poids synaptiques. Ce processus est réitéré pour chaque exemple de la base d'apprentissage. Si, pour tous les exemples, l'erreur commise est inférieure à un seuil choisi, on dit alors que le réseau a convergé. L'apprentissage consiste donc à minimiser l'erreur quadratique commise sur l'ensemble des exemples, par ajustement des poids en diminuant le gradient. Pour formaliser, de façon très sommaire, ce principe, prenons un réseau à n neurones d'entrée et m neurones de sortie. On note X={X 1, X 2,, X p } un ensemble de p vecteurs d'entrée, S d ={S d1, S d2,, S dp }, l'ensemble des p sorties désirées et S={S 1, S 2,, S p }, l'ensemble des sorties obtenues effectivement à l'issue de la propagation avant des vecteurs de l'ensemble X. Le couple (X, Sd) constitue la base d'apprentissage du réseau. Considérons le 19

k ième élément X k de l'ensemble X, on note X k = (x k1, x k2,, x kn ), les composantes de ce vecteurs. De la même manière, on note S dk = (s dk1, s dk2,, s dkm ), les composantes du k ième élément de l'ensemble S d et S k = (s k1, s k2,, s km ) les composantes du k ième élément de l'ensemble S. On note aussi : la fonction d'activation d'un neurone (et ', sa dérivée) y j, la sortie du neurone j d'une couche cachée. On a alors : y j = ϕ wijei θ j (Eq. I.1) i où w ij, sont les poids de la connexion entre le neurone j et le neurone i de la couche précédente e i est l'entrée n i du neurone j j est un biais éventuel. Après la présentation du k ième exemple, on veut minimiser l'erreur quadratique observée, qui est définie par : E 1 (Eq.I.2) = m 2 sdki ski 2 i= 1 Cette erreur sera alors minimisée par la méthode du gradient, c'est-à-dire en faisant évoluer les poids dans la direction indiquée par le gradient de E. La règle de modification des poids de la connexion reliant un neurone j à un neurone i pour l'itération k est donnée par : w k ij = w k 1 ij αδ y i j (Eq.I.3) où est le taux d'apprentissage. i est le signal d'erreur de l'unité i, i.e. la contribution de l'entrée de l'unité i à l'erreur quadratique constatée en sortie. Le calcul de ce signal d'erreur se fait par le principe de rétropropagation. Considérons la couche de sortie, c'est-à-dire que l'indice i caractérise la couche de sortie. On obtient alors : δ = i ( si sdi i ) ϕ (' e ) (Eq.I.4) 20

Le calcul des poids de la dernière couche dépend des éléments des couches précédentes. Considérons maintenant le cas où i est l'indice d'un neurone caché. Considérons la couche de neurones suivant immédiatement l'unité i et notons j l'indice des neurones de cette couche. L'erreur quadratique E relative à la présentation d'un exemple dépend fonctionnellement de l'ensemble des y c et toutes les sorties y c dépendent de y i. Dans ce cas, le signal d'erreur i est donné par : δ = ϕ (' e ) i i c δ w c ij (Eq.I.5) La figure I.2 schématise les différentes étapes de l'algorithme de rétropropagation. j w ij Entrée e i Etat y i i (a) '('e i ) Signal d'erreur e i -s i (b) wki k i '('e i ) (c) Figure I. 2 - Apprentissage par rétropropagation : Propagation avant du signal d'entrée Calcul du signal d'erreur i relatif à un neurone de sortie Calcul par rétropropagation du signal d'erreur d'un neurone caché Les réseaux multicouches à rétropropagation du gradient sont des outils performants pour la classification non-linéaire, la compression de données, l'approximation de fonction Cependant, ces réseaux présentent certains inconvénients. En effet, le temps d'apprentissage peut être long (de quelques minutes à plusieurs heures suivant la complexité du problème traité). De plus, il n'existe pas de méthodologie formelle pour la conception et la construction 21

de ce type de réseau. Les choix des paramètres caractéristiques du réseau (nombre de couches, nombre de neurones par couches, pas d'apprentissage, fonction d'activation) se font alors par tâtonnement pour obtenir les performances recherchées. Malgré ces difficultés, ils possèdent des capacités remarquables d'apprentissage et de reconnaissance des formes. Pour cela, ils sont particulièrement bien adaptés à la résolution de problèmes de diagnostic industriel et médical, comme le montrent les exemples d'utilisation pour la classification de signaux en médecine [ALPS 95] (classification de Potentiels Evoqués Auditifs), et pour le diagnostic des machines tournantes. En effet, Yang et son équipe anglaise ont mis en œ uvre un réseau à rétropropagation du gradient pour le diagnostic de 4 catégories de défaut d'un roulement à billes [YANG 03]. Les signatures utilisées pour caractériser le fonctionnement du moteur sont des signatures vibratoires et quatre approches basées sur les analyses bi-spectrales et par ondelettes du signal vibratoire sont proposées. Le but est l'évaluation en continu du fonctionnement du moteur. Les résultats de ces analyses constituent les entrées des réseaux de neurones à rétropropagation entrainés pour reconnaître les défauts de roulement. Les résultats obtenus et présentés dans [YANG 03] montrent que le réseau peut alors distinguer les quatre différentes conditions de fonctionnement avec des taux de classification correcte très élevés (atteignant même les 100% dans le cas d'une des analyses bispectrales). Il faut toutefois noter que, pour cette étude, les défauts créés artificiellement sont assez marqués, et qu'une machine présentant ce type de défauts seraient alors déjà dans un état très défaillant. Cette étude récente sur des travaux similaires à ceux menés au cours de cette thèse montre cependant l'intérêt donné aux réseaux de neurones artificiels dans le domaine du diagnostic. La structure de "Learning Vector Quantization" (LVQ) a été proposée à la fin des années 80 par Teuvo Kohonen [KOHO 88], [KOHO 89]. Elle fait partie des techniques de compétition les plus simples. Toutefois, malgré sa simplicité, elle est très efficace et présente donc un intérêt pratique non négligeable. L'objectif de ce type de méthodes est de déterminer des vecteurs (appelés aussi vecteurs prototypes) qui sont représentatifs des données à traiter et servent ensuite à la classification et à la compression de données. Les vecteurs prototypes sont codés par les poids du réseau. L'apprentissage permet de retrouver les valeurs caractéristiques de ces vecteurs prototypes. Cet apprentissage est de type supervisé. L'algorithme d apprentissage, proposé par 22

Teuvo Kohonen, est un algorithme basé sur la technique de compétition entre les neurones. Un tel comportement est appelé "tout au vainqueur" ("Winner Take All"). Les neurones sont donc en concurrence les uns avec les autres. On appelle ce type d apprentissage apprentissage concurrentiel. Structure du réseau Le réseau LVQ est un réseau multi-couches, dont la structure est schématisée par la figure I.3. Il se compose de trois couches : une couche d'entrée, une couche cachée, encore appelée couche de compétition et une couche de sortie. W 1 W 2 e 1 s 1 e S s m Couche d entrée (S neurones) Couche cachée, dite de compétition (S 1 neurones) où W 1 est une matrice de dimension S 1 xs W 2 est une matrice de dimension S 2 xs 1 Figure I. 3 - Structure d'un réseau LVQ Couche de sortie (S 2 neurones) Le fonctionnement d un tel réseau est alors le suivant : lorsqu un vecteur e est présenté au réseau, ce dernier calcule la distance euclidienne entre le vecteur d entrée e et les vecteursligne composant la matrice des poids W 1. On obtient alors un vecteur de dimension S 1 qui est présenté à la couche de compétition. Le neurone qui possède alors la plus petite entrée (c està-dire celui dont le vecteur des poids est le plus proche du vecteur d entrée e) est alors désigné comme vainqueur et sa position dans la couche de compétition est donnée par l équation Eq. I.6. C= arg min k j 2 ( e(j)-w 1(k, j) ) où C est la réponse donnée par le C ième neurone de la couche de compétition, (Eq. I.6) 23

e(j) est la j ième composante du vecteur d'entrée e W 1 (k,j) est la j ième composante de la k ième ligne de la matrice des poids W 1 La réponse donnée par le C ième neurone de la couche de compétition est alors égale à 1 et les sorties des autres neurones cachés seront égales à 0. La couche de compétition classe les vecteurs d entrée en S 1 sous-classes. La couche de sortie, dont la fonction de transfert est une fonction linéaire, va alors transformer la réponse donnée par la couche de compétition afin de déterminer l appartenance du vecteur d entrée e à l une des classes définies par l utilisateur. Si, par exemple, les neurones 1, 2 et 3 de la couche de compétition apprennent tous des sous-classes de l espace d entrée qui font partie de la classe 2, alors, les poids des connexions reliant les neurones compétitifs 1, 2 et 3 au neurone de sortie 2 prendront la valeur 1, tous les autres poids synaptiques des liaisons entre ces neurones compétitifs et les autres neurones de sortie étant alors nuls. Ainsi, ce neurone de sortie répondra 1 si n importe lequel des trois neurones compétitifs gagne la compétition. Le nombre de neurones S de la couche d'entrée et S 2 de la couche de sortie dépend du problème à traiter. La couche d'entrée comprend autant de neurones que de composantes des vecteurs de la base de données. Pour la couche de sortie, le nombre de neurones est égal au nombre de classes désirées. Ces derniers possèdent deux états d'activation : 0 ou 1. Par exemple, si on présente au réseau un vecteur appartenant à la classe n 1, le neurone n 1 de la couche de sortie sera actif (état 1), alors que les autres neurones de sortie seront inactifs (état 0). Le choix du nombre de neurones S 1 de la couche cachée est un problème plus délicat. Il doit obéir à un compromis optimisant l'apprentissage et la capacité du réseau à généraliser. Cependant, la couche de compétition classant les vecteurs d entrée au sein de S 1 sous-classes, il sera nécessaire de choisir S 1 supérieur à S 2. Initialisation Avant d entraîner un réseau LVQ, il faut initialiser les matrices des poids W1 et W2. On initialise ces poids à partir des vecteurs de la base d apprentissage et des classes désirées pour ces vecteurs d apprentissage. La matrice des poids W1 est initialisée de la manière suivante : chacun des poids W1(i,j) associés à l entrée i prend la valeur correspondant au centre de l intervalle au sein duquel sont comprises toutes les valeurs que peut prendre l entrée i. 24

La seconde phase de l initialisation consiste à assigner les neurones de la couche de compétition à chacune des classes. Pour cela, l algorithme d initialisation recherche la distribution des sorties désirées. Ainsi, si 35% des vecteurs de la base d apprentissage appartiennent à la classe 2, 35% des neurones de la couche de compétition seront dédiés à la reconnaissance de sous-classes formant la classe 2. Alors, comme nous l avons vu précédemment, si les neurones 1, 2 et 3 de la couche de compétition sont désignés pour former des sous-classes de la classe 2, les poids W 2 (2,1), W 2 (2,2) et W 2 (2,3) prendront la valeur 1, tous les autres poids synaptiques W 2 (2,j), où j [4,S 1 ] seront alors égaux à 0. Apprentissage : Une fois le réseau initialisé, l apprentissage peut commencer. On recherche tout d abord le vecteur des sorties désirées S dc pour la couche de compétition, en utilisant la matrice W 2 des poids de la couche de sortie et le vecteur S d des sorties désirées fixé par l utilisateur de la manière suivante. S W * = 2 (Eq I.7) dc Sd Cette expression transforme le vecteur S d des sorties désirées, contenant un 1 à la position de la classe désirée, en un vecteur S dc de sorties désirées pour la couche de compétition contenant des 1 aux positions correspondant à tous les neurones formant les sousclasses de la classe désirée. Un vecteur e de la base d apprentissage est ensuite présenté au réseau. D après ce qui précède, le neurone de la couche de compétition dont le vecteur des poids est le plus proche (au sens de la distance Euclidienne) du vecteur d entrée gagne la compétition (répond la valeur 1). Seul le vecteur des poids correspondant à ce neurone vainqueur sera alors modifié. Si la sortie de ce neurone de la couche de compétition correspond à la valeur attendue, les poids sont alors ajustés de la manière suivante : [ 1 S] W1( C, j) = lr ( e( j) W 1( C, j)) j ; (Eq. I.8) où l r est le pas d apprentissage, fixé par l utilisateur. Sinon, si la sortie désirée du neurone vainqueur est 0 (c est-à-dire si ce neurone correspond à une sous-classe n appartenant pas à la classe désirée), la règle de Kohonen est appliquée, mais avec un signe opposé. 25

[ 1 S] W1( C, j) = lr ( e( j) W 1( C, j)) j ; (Eq. I.9) On répète ensuite cette procédure avec les autres couples vecteur/classe désirée de la base d apprentissage. Le nombre de fois où cette procédure est répétée est fixé par l utilisateur. Dans le cadre de cette technique, il n existe aucun critère d arrêt pour l apprentissage, contrairement à d autres méthodes comme la rétropropagation du gradient dans le cas du Perceptron multicouches. Ainsi, d après Jodouin, cette technique d apprentissage peut conduire à des phénomènes de surapprentissage [JODO 94]. En effet, si l apprentissage LVQ est prolongé outre mesure, le réseau finit par consacrer une proportion considérable de ses vecteurs prototypes à suivre le détail des frontières entre les classes. Le réseau obtient alors de moins bonnes performances sur le problème en général, car, s il a appris correctement, ses performances en généralisation sont dégradées. Cependant, elles sont rapides et donnent de bons résultats dans le cadre de la classification. Dans [VUCK 02], on trouve une application de ce type de modèle pour la classification de signaux électroencéphalographiques (EEG) en deux catégories. Le but de leur étude est de pouvoir détecter les états de somnolence et de vigilance d'un être humain en bonne santé à partir de son EEG. Pour cela, ils ont utilisé deux modèles de réseaux de neurones artificiels : le perceptron multi-couche et le réseau Learning Vector Quantization. Leurs résultats montrent alors de meilleures performances pour le réseau LVQ par rapport au perceptron employé. Cette étude récente montre l'intérêt d'un tel modèle pour la classification de signaux.! Les modèles à fonction de base radiale (RBF 2 ) sont des modèles dans lesquels la modélisation s'effectue par des fonctions locales, appelées aussi fonctions noyaux. Ils reposent sur une cartographie de l espace des entrées par des exemples qui ont une influence locale. Ce sont des réseaux à couches avec comme origine, une technique d interpolation nommée méthode d interpolation RBF ( RBF interpolation ) ou méthode des noyaux. Cette méthode est bien connue en statistique pour l approximation à partir de données empiriques de densités de probabilités. Elle a été proposée par Powell [POWE 85] et améliorée par 2 Radial Basis Function en anglais. 26

Niranjan et Fallside [NIRA 88]. Employée pour la première fois dans le contexte des réseaux de neurones par Broomhead et Lowe [BROO 88], cette technique s avère être à la fois rapide et efficace, en particulier dans le cadre de la classification. Les réseaux à fonction de base radiale font partie des réseaux à base de distance. Les neurones sur lesquels sont basés ces réseaux sont appelés neurones à base radiale et sont basés sur la distance entre le vecteur d entrée X et le vecteur centre (vecteur de la base d apprentissage, aussi appelé vecteur prototype) du neurone C. La sortie de ce type de neurone est définie de la manière suivante : où n y = G( X C ) = G n n X(i) C(i) (Eq I.10) i X est la norme n du vecteur X. La fonction G(z) est généralement une fonction non n linéaire, symétrique, monotone pour z>0. Les bornes supérieures et inférieures de cette fonction sont respectivement notées G max et G min. Dans la plupart des cas, G(z) est une fonction exponentielle généralisée : ( G G ) m z σ G( z) G + e (Eq. I.11) = min max min où les deux paramètres m et σ sont respectivement l ordre et l écart type de la fonction. Les frontières de décision (zone d influence) D(γ), qui correspondent à l'ensemble des points de l'espace d'entrée pour lesquels le réseau donne une réponse en sortie égale à γ R, sont alors 1 données par X C = G ( γ ). n Le cas le plus fréquemment utilisé est le cas particulier où n=2, G min =0 et m=2. Dans ce cas, la distance calculée entre le vecteur X et le vecteur centre C est la distance euclidienne et la fonction G(z) est une fonction gaussienne. Les paramètres décrivant alors un tel neurone à base radiale sont la position des centres et l écart type de la gaussienne. De plus, dans ce cas, la frontière de décision D(γ) définie précédemment est sphérique. 27

Structure du réseau : Le réseau RBF est un réseau à trois couches 3 : une couche d entrée, une couche cachée composée des neurones à base radiale présentés précédemment et une couche de sortie de neurones dont la fonction d activation est linéaire. La figure I.4 illustre l architecture d un réseau RBF. Le nombre de neurones des couches d entrée et de sortie est choisi en fonction du problème à traiter. En ce qui concerne la couche cachée, la technique RBF prévoit une fonction noyau, c est-à-dire un neurone, par point de donnée apprise. En d autres termes, le nombre de neurones de la couche cachée est égal au nombre d exemples présentés au réseau lors de la phase d apprentissage. Dans ce cas, cela assure un comportement sans erreur pour les données connues. Toutefois, en pratique, les données peuvent être nombreuses et redondantes. Certains algorithmes d apprentissage peuvent alors conduire à un nombre plus restreint de neurones (par exemple [BROO 88]). e 1 W 1 W 2 e 2 s 1 e 3 s S2 e S Couche d entrée S neurones Couche cachée composée de fonctions-noyaux S 1 neurones Figure I. 4 - Structure d'un réseau RBF Couche de sortie S 2 neurones Apprentissage : On peut distinguer deux étapes distinctes dans la phase d apprentissage des réseaux RBF : la paramétrisation des fonctions à base radiale et l apprentissage des poids de la couche de sortie [MOOD 89]. La première étape peut se décomposer en deux sous-étapes : la détermination du nombre et de la position des centres C i et le choix de la taille σ i des champs 3 Pour certains auteurs, les réseaux RBF sont des réseaux à deux couches, car les entrées ne sont pas considérées comme définissant une couche. 28

récepteurs. La position du centre C i d un neurone de la couche cachée est codée par les poids W 1 (i,j) d entrée du neurone et la dimension σ i, par un paramètre interne L algorithme d apprentissage de base du réseau à fonction de base radiale est le suivant : on associe à chacun des vecteurs de la base d apprentissage un neurone à base radiale. Ces vecteurs sont alors codés dans les poids d entrée et constituent les centres C i de ces neurones. Puis, on procède à l ajustement des poids de la couche de sortie. Pour ce calcul, des auteurs préconisent des techniques d apprentissage linéaires [JODO 94]. Le rôle de la couche cachée est de recoder son entrée de manière à ce que les différentes classes puissent être reconnues par des séparateurs linéaires. Dans le cadre des réseaux RBF, ce recodage se fait de façon naturelle : chaque neurone à base radiale vient décrire par son champ récepteur un nuage de données appartenant toutes à la même classe. La couche de sortie choisit alors, parmi les neurones actifs de la couche cachée, la classe la mieux représentée. La réponse s i du i ème neurone de sortie est alors donnée par la relation suivante : =W ( i j) y( j) s i 2, (Eq. I.12) j où y(j) représente la sortie du j ème neurone à base radiale (neurone de la couche cachée). Il existe plusieurs variantes de cet algorithme, car, en pratique, les données peuvent être nombreuses et redondantes, ce qui conduirait à un réseau surdimensionné. On peut alors citer : les algorithmes incrémentaux, où on construit une architecture de réseau adaptée au problème en augmentant la complexité de la structure du réseau par un ajout de neurones, les algorithmes décrémentaux, dont le principe est de simplifier une architecture complexe de réseau en supprimant les paramètres (connexions ou neurones) qui ne sont pas nécessaires à une application spécifique [MUST 92]. Les réseaux RBF effectuent une cartographie de l espace d entrée en associant un ensemble de catégories à un ensemble de zones de l espace d entrée. Ils sont capables de calculs très puissants. De plus, leur apprentissage est rapide et simple. Ces qualités font de ces réseaux des outils de choix pour de multiples applications, dont la classification et la quantification. 29