artificiels Andrei Doncescu

Documents pareils

L apprentissage automatique

Coup de Projecteur sur les Réseaux de Neurones

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Pourquoi l apprentissage?

Remerciements : Avant tout, louange à Dieu le tout puissant de m avoir aidé et permis d achever ce modeste travail.

Modélisation multi-agents - Agents réactifs

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

Apprentissage Automatique

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Cours d Analyse. Fonctions de plusieurs variables

Introduction au Data-Mining

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

4.2 Unités d enseignement du M1

Programmation linéaire

CAPTEURS - CHAINES DE MESURES

La classification automatique de données quantitatives

Quantification Scalaire et Prédictive

Les algorithmes de fouille de données

Classification Automatique de messages : une approche hybride

Introduction au datamining

I Stabilité, Commandabilité et Observabilité Introduction Un exemple emprunté à la robotique Le plan Problème...

Druais Cédric École Polytechnique de Montréal. Résumé

Fonctions de deux variables. Mai 2011

Introduction au Data-Mining

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Détection de la défaillance des entreprises tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones

Rappels sur les suites - Algorithme

Modélisation et Simulation

Jade. Projet Intelligence Artificielle «Devine à quoi je pense»

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

3 Approximation de solutions d équations

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Fonctions de plusieurs variables

Enjeux mathématiques et Statistiques du Big Data

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Résolution de systèmes linéaires par des méthodes directes

Chapitre 5 : Flot maximal dans un graphe

Exemples de problèmes et d applications. INF6953 Exemples de problèmes 1

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

Programmation linéaire

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

données en connaissance et en actions?

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

Chp. 4. Minimisation d une fonction d une variable

Grandes lignes ASTRÉE. Logiciels critiques. Outils de certification classiques. Inspection manuelle. Definition. Test

Introduction à l approche bootstrap

Julien MATHEVET Alexandre BOISSY GSID 4. Rapport RE09. Load Balancing et migration

Chapitre 1 Régime transitoire dans les systèmes physiques

CHAPITRE VIII : Les circuits avec résistances ohmiques

Cours Fonctions de deux variables

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

EXPLOITATIONS PEDAGOGIQUES DU TABLEUR EN STG

F7n COUP DE BOURSE, NOMBRE DÉRIVÉ

Représentation des Nombres

Depuis des années, les films de science fiction

Chapitre 2 Le problème de l unicité des solutions

Cours 1 : Qu est-ce que la programmation?

Évaluation et implémentation des langages

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

INF6304 Interfaces Intelligentes

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Annexe 6. Notions d ordonnancement.

Agrégation des portefeuilles de contrats d assurance vie

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Complexité et auto-organisation chez les insectes sociaux. Complexité et auto-organisation chez les insectes sociaux

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Calcul différentiel sur R n Première partie

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Algorithmes d'apprentissage

3. SPÉCIFICATIONS DU LOGICIEL. de l'expression des besoins à la conception. Spécifications fonctionnelles Analyse fonctionnelle et méthodes

Raisonnement probabiliste

IV- Comment fonctionne un ordinateur?

Organisé par StatSoft France et animé par Dr Diego Kuonen, expert en techniques de data mining.

I - Quelques propriétés des étoiles à neutrons

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Probabilités sur un univers fini

Résolution d équations non linéaires

Eléments constitutifs et synthèse des convertisseurs statiques. Convertisseur statique CVS. K à séquences convenables. Source d'entrée S1

NON-LINEARITE ET RESEAUX NEURONAUX

Machines virtuelles Cours 1 : Introduction

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

1S9 Balances des blancs

Programmation Linéaire - Cours 1

Cours de Génie Logiciel

Cours IV Mise en orbite

VIII- Circuits séquentiels. Mémoires

Cours 9. Régimes du transistor MOS

Conception d un lecteur de musique intelligent basé sur l apprentissage automatique.

Poker. A rendre pour le 25 avril

IFT3245. Simulation et modèles

Chapitre 7. Récurrences

Transcription:

Les réseaux r de neurones artificiels Andrei Doncescu

Human Beings Think v.s.. Intelligent Machines Think How Human Beings Think? Deduction Abduction Induction Limited by Computational and Memory Capacity The genius people are able to mix these three fundamental modes of reasoning How Intelligent Machines Think? Induction Abduction Deduction Combination of Induction & Abduction Diagnosis Design Characterization Discovery Verification Discovery in Huge Data One of the most powerful theoretical answers for the next generation of Intelligent Machine (Inoue 200,2004) 2

Position of AI in Science Philosophy Reasoning Recognition Psychology Logic Cognitive Model Syntax/Semantics Genetics Linguistics Computation Computation Biology Goal of A.I. :. Scientific goal : elucidation of human intelligence 2. Engineering goal : automated computation 3

Modèles de connaissances Modéliser : remplacer du visible compliquer par de l invisible simple Boîte noire : il peut avoir une valeur prédictive, dans un certain domaine de validité mail il n a n a aucune valeur explicative. Il requiert seulement des mesures. On peut parler de prévision. Boîte blanche : prédictif et explicatif 4

Apports des neurosciences (Squire, 992) Déclarative Faits SAVOIR QUOI Mémoire Evénements Non déclarative Aptitudes procédurales Conditionnement Apprentissage non associatif Amorçage perceptif SAVOIR COMMENT 5

Lois fondamentales de l apprentissagel La loi de de l exercice, l usage ou la fréquence pose que plus une situation est fréquemment associé à une réponse, plus cette association tend à se renforcer La loi de l effet pose que l association stimulus/réponse tend à renforcer quand les conséquences en sont positives et s affaiblir quand les conséquences sont négatives 6

Fondements Biologiques Structure des neurones Le système nerveux est composé de 0 2 neurones interconnectés. Bien qu il existe une grande diversité de neurones, ils fonctionnent tous sur le même schéma. Ils se décomposent en trois régions principales : Le corps cellulaire Les dendrites L axone 7

Qu est est-ce qu un un neurone biologique? Synapses d autres cellules Axones d autres cellules Noyau L axone et les synapses d autres cellules nerveuses apportent des influx nerveux venant exciter ou inhiber l activité du neurone. Le noyau est le centre des réactions électrochimiques. Si les stimulations externes sont suffisantes, le noyau provoque l envoi d un influx nerveux électrique à travers l axone. Axone Dendrites Les dendrites, selon leur longueur et leur perméabilité, affectent la quantité d influx nerveux qui se rend au noyau. Corps cellulaire Le corps cellulaire participe aux réactions électrochimiques avec le noyau. L axone transporte l influx nerveux vers les synapses. Synapses Les synapses transmettent l influx nerveux provenant de l axone vers d autres cellules à partir de neurotransmetteurs inhibiteurs ou 8 excitateurs.

Qu est est-ce qu un un neurone artificiel? Entrées Biais x x 2 w i w 2i w 0i es Σ y i w 3i in i Poids des liens f Sortie Analogie avec un neurone biologique x 3 Intégration des entrées es Fonction d activation Sortie y i = f(in i ) Noyau Entrées : Directement les entrées du système ou peuvent provenir de d autres neurones. Biais : Entrée toujours à qui permet d ajouter de la flexibilité au réseau en permettant de varier le seuil de déclenchement du neurone par l ajustement du poids du biais lors de l apprentissage. Poids : Facteurs multiplicateurs qui affectent l influence de chaque entrée sur la sortie du neurone. Noyau : Intègre toutes les entrées et le biais et calcule la sortie du neurone selon une fonction d activation qui est souvent non-linéaire pour donner une plus grande flexibilité d apprentissage. Sortie : Directement une des sorties du système ou peut être distribuée vers d autres neurones. 9

Qu est est-ce qu un un réseau r de neurones? 0

Définition : Les réseaux r de neurones artificiels sont des réseaux r fortement connectés s de processeurs élémentaires fonctionnant en parallèle. le. Chaque processeur élémentaire calcule une sortie unique sur la base des informations qu'il reçoit. Toute structure hiérarchique de réseaux r est évidemment un réseau. r Pattern d'entrée Pattern de sortie Stimulus codage 0 0 0 0 Réseau 0 0 0 0 décodage Réponse

Topologie des Réseaux R de Neurones Nous pouvons considérer une RNA comme un graphe acyclique, donc il n y a pas de chemin qui commence et fini dans le même nœud, mais Un cycle est un chemin simple rebouclant sur lui-même. Un graphe dans lequel il n'existe aucun cycle est dit acyclique. Un graphe acyclique G à n sommets possède au plus n- arêtes. Un réseau de neurones formels peut se représenter par un graphe orienté valué (chaque arc porte une valeur), et dont chaque sommet est valué aussi de son seuil d'activation. 2

Topologies de réseauxr Feed-forward : propagation vers l avant l de l informationl Réseau multi-couche couche,, dans lequel chacun des neurones d une d couche (n-)( ) est connecté à tous les neurones de la couche n réseau multi- perceptrone Récurents : réseaux bouclés 3

Structure d Interconnexion (feedforward) couche d entrée couche cachée couche de sortie réseau multicouche réseau à connections locales propagation des activations : de l entrée vers la sortie 4

Structure d Interconnexion modèle récurrent r (feedback network) propagation des activations : synchrone : toutes les unités sont mises à jour simultanément asynchrone : les unités sont mises à jours séquentiellement 5

Un neurone artificiel : une pâle imitation de la nature? Il n en demeure pas moins que les réseaux de neurones biologiques, de par leur multiples interconnexions (parfois récursives), de par leur mécanisme d inhibition et d activation, de par leur manière d évoluer et de s adapter tout on long de la vie d un organisme vivant, ont inspiré les réseaux de neurones artificiels et continuent d influencer le développement de nouveaux modèles plus adaptés à la résolution de certains problèmes. Les caractéristiques dominantes et communes aux réseaux de neurones biologiques et artificiels sont leur capacité d apprendre et de généraliser pour qu une même unité, le neurone, puisse servir à plus d une tâche à la fois. 6

Les RNA Modélisation non-lin linéaire par apprentissage numérique Apprentissage = procédures cognitives de généralisation g qui permettent de faire des prédictions Fonction d activation y = Approximation non-lin linéaire parcimonieuse x x2 xn Un neurone est une fonction non linéaire, paramétr trée, à valeurs bornées. f ( x, x2,..., xn; w0, w, w2,..., w n f Paramètres Potentiel biais v = w n + 0 i= w x ) 7

Quelques fonctions d activationd activation L utilisation d une fonction d activation non-linéaire permet au RNA de modéliser des équations dont la sortie n est pas une combinaison linéaire des entrées. Cette caractéristique confère au RNA de grandes capacités de modélisation fortement appréciées pour la résolution de problèmes non-linéaires. Voici quelques exemples de fonctions d activation : Échelon Rampe in i Σ y i = f(in i ) f Sigmoïde y i Unipolaire f ( x) = 0 si x 0 si x < 0 f ( x) = x 0 si x > si 0 x si x < 0 f ( x) = + e ax 0 0 0 Bipolaire 0 0 si x > si x 0 f ( x) = f ( x) = x si x si x < 0 - - si x < - 0 e f ( x) = + e ax ax 8

Les réseaux r de neurones artificiels : une solution d avenir! d «Quelle machine pourrait effectuer ce travail à ma place?» «Quelle machine pourrait penser à une solution à ma place?» Les réseaux de neurones artificiels (RNA) s inscrivent dans l effort de conception est mis sur le développement d algorithmes d apprentissage afin de doter un système d autonomie et de capacités d adaptation. Parfois, ces systèmes intelligents arrivent même à «découvrir» de nouvelles solutions à des problèmes fort complexes et difficilement accessibles pour un cerveau humain. «Pourquoi les RNA ont-ils de l avenir?» Parce que les RNA répondent à plusieurs critères de l entreprise moderne, dont le fait de trouver des solutions rapidement à des problèmes de plus en plus complexes. De plus, les RNA sont robustes, versatiles et peuvent s adapter. 9

Algorithmes d apprentissaged Comme le cerveau humain, les réseaux de neurones artificiels (RNA) peuvent apprendre par expérience. Les algorithmes d apprentissage modifient la valeur des poids entre les neurones ainsi que la valeur des biais de façon à améliorer la performance du RNA. Trois grandes classes d apprentissage existent : Apprentissage non-supervisé : il n y pas de connaissances à priori des sorties désirés pour des entrées données. En fait, c est de l apprentissage par exploration où l algorithme d apprentissage ajuste les poids des liens entre neurones de façon à maximiser la qualité de classification des entrées. Apprentissage par renforcement : Dans ce cas, bien que les sorties idéales ne soient pas connues directement, il y a un moyen quelconque de connaître si les sorties du RNA s approchent ou s éloignent du but visé. Ainsi, les poids sont ajustés de façons plus ou moins aléatoire et la modification est conservée si l impact est positif ou rejetée sinon. Apprentissage supervisé (back propagation) : Cet algorithme d apprentissage ne peut être utilisé que lorsque les combinaisons d entrées-sorties désirés sont connues. L apprentissage est alors facilité et par là, beaucoup plus rapide que pour les deux autres algorithmes puisque l ajustement des poids est fait directement à partir de l erreur, soit la différence entre la sortie obtenue par le RNA et la sortie désirée. 20

Apprentissage supervisé Erreur quadratique Mesure d entropie ENTREES superviseur réseau sortie désirée sortie obtenue erreur 2

Apprentissage non supervisé ENTREES réseau sortie obtenue 22

Algorithmes d apprentissaged Pré-apprentissage : Une fois l apprentissage terminée, la structure et les poids entre les neurones sont fixés. Lorsque la tâche à effectuer par le RNA ne change pas significativement avec le temps, un RNA statique peut être très efficace et beaucoup plus simple d implémentation. Par ailleurs, il n est alors pas aussi important de se soucier de la simplicité de la fonction d apprentissage et de la rapidité de convergence du RNA. Apprentissage continu : Un apprentissage continu est requis lorsque les combinaisons d entrées-sorties idéales risquent de changer avec le temps ou selon diverses conditions externes. Le gain de flexibilité inhérent à la capacité d adaptation du RNA s obtient au détriment d une implémentation plus complexe du système puisque l algorithme d apprentissage doit alors être intégré à la structure de calcul du RNA.. pour un système en temps réel, la rapidité d adaptation ou de convergence de la fonction d apprentissage devient alors un facteur très important. 2. la complexité d implémentation de la fonction d apprentissage devient également un élément à considérer dans le choix de l algorithme d apprentissage, parfois au détriment de la performance. 23

Apprentissage d un d réseau r de neurones L apprentissage est une phase du développement d d un d réseau r de neurones durant laquelle le comportement du réseau r est modifié jusqu à l obtention du comportement désird siré. L ajustement du poids des liens entre les neurones peut s effectuer selon diverses équations mathématiques, dont la plus populaire est sans aucun doute la loi de Hebb. le choix de l équation d adaptation des poids dépend en grande partie de la topologie du réseau de neurones utilisé. Notons qu il est aussi possible de faire évoluer l architecture du réseau, soit le nombre de neurones et les interconnexions, mais avec d autres types d algorithmes d apprentissage. 24

Historique James [890] : mémoire associative et propose ce qui deviendra une loi de fonctionnement pour l apprentissage sur les réseaux de neurones connue plus tard sous le nom de loi de Hebb. When two elementary brain-processes have been active together or in immediate succession, one of them, on reoccurring, tends to propagate its excitement into the other 25

Historique McCulloch & Pitts [943] Ceux sont les premiers à montrer que des réseaux r de neurones formels simples peuvent réaliser r des fonctions logiques, arithmétiques tiques et symboliques complexes (tout au moins au niveau théorique). 0 Inh Exc.0 2.0 Exc.0 26

Hebb [949] Historique explique le conditionnement chez l animal l par les propriétés s des neurones eux-mêmes. un conditionnement de type pavlovien tel que, nourrir tous les jours à la même heure un chien, entraîne ne chez cet animal la sécrétion de salive à cette heure précise même en l absence l de nourriture. Loi d apprentissaged le conditionnement est une propriété des neurones: 27

Historique Rosenblatt [957] : le perceptron, premier modèle opérationnel reconnaissance d une configuration apprise tolérance aux bruits Le perceptron se compose de deux couches : la rétine couche de sortie qui donne la réponse correspondant à la stimulation présente en entrée. Les cellules de la première couche répondent en oui/non. La réponse 'oui' correspond à une valeur '' et la réponse 'non' correspond à une valeur '0' à la sortie du neurone. Les cellules d'entrée sont reliées aux cellules de sortie grâce à des synapses d'intensité variable. L'apprentissage du perceptron s'effectue en modifiant l'intensité de ces synapses. x + ssi s > 0 sgn( s ) = = F( s) ssi s <= 0 w S F(s) w 2 x 2 Θ 28

Historique Widrow [960] : adaline, adaptive linear element Celle-ci est à l origine de l algorithme de rétropropagation de gradient très s utilisé aujourd hui avec les Perceptrons multicouches. B. Widrow a créé dès s cette époque une des premières res firmes proposant neuro-ordinateurs ordinateurs et neuro-composants, la "Memistor" Corporation". Après s chaque motif d'apprentissage présent senté,, la correction s'applique au poids proportionnellement à l'erreur. La correction est calculée avant le seuillage : 29

Minsky & Papert [969] : Historique impossibilité de classer des configurations non linéairement séparables abandon (financier) des recherches sur les RNA P fonction ET logique P fonction XOR (ou exclusif) 0 0 0 0 0 0 Q patterns séparables linéairement 0 0 0 Q patterns non séparables linéairement 30

[Hopfield [982] : Historique l ombre et le renouveau modèle des verres de spins. Hopfield fixe préalablement le comportement à atteindre pour son modèle et construit à partir de là, l, la structure et la loi d apprentissage d correspondant au résultat r escompté.. Ce modèle est aujourd hui encore très s utilisé pour des problèmes d'optimisation. Boltzmann [983] : [985] : première réponse r à Minsky et Papert la rétror tro-propagation du gradient et le perceptron multicouche. Dès D s cette découverte, d nous avons la possibilité de réaliser r une fonction non linéaire d entrd entrée/sortie e/sortie sur un réseau en décomposant d cette fonction en une suite d éd étapes linéairements séparable De nos jours, les réseaux r multicouches et la rétropropagation de gradient reste le modèle le plus étudié et le plus productif au niveau des applications. Rumelhart, McClelland, [985] : le groupe Parallel Distributed Processing 3

Algorithmes d apprentissaged j W ji i Loi de Hebb : Cette règle très simple émet l hypothèse que lorsqu un neurone «A» est excité par un neurone «B» de façon répétitive ou persistante, l efficacité (ou le poids) de l axone reliant ces deux neurones devrait alors être augmentée. Loi de Hebb : Δw ji =R a i a j Loi de Hopfield : Cette loi se base sur la même hypothèse que la loi de Hebb mais ajoute une variable supplémentaire pour contrôler le taux de variation du poids entre les neurones avec une constante d apprentissage qui assure à la fois la vitesse de convergence et la stabilité du RNA. Loi Delta : Cette loi est aussi une version modifiée de la loi de Hebb. Les poids des liens entre les neurones sont continuellement modifiés de façon à réduire la différence (le delta) entre la sortie désirée et la valeur calculée de la sortie du neurone. Les poids sont modifiés de façon à minimiser l erreur quadratique à la sortie du RNA. L erreur est alors propagée des neurones de sortie vers les neurones des couches inférieures, une couche à la fois. Règle de Widrow-Hoff (delta rule) ) : Δw ji =R(d i - a i )a j 32

Algorithmes d apprentissaged Loi de Hebb : Si deux unités connectées sont actives simultanément, le poids de leur connexion est augmenté ou diminué. R est une constante positive qui représente la force d'apprentissage (learning rate). ai = - ai = aj = - ΔWji = R ΔWji = -R j W ji i aj = ΔWji = -R ΔWji = R Δ W = Raa ji i j 33

Algorithmes d apprentissaged Loi de Widrow-Hoff (delta rule) : a i activation produite par le réseau d i réponse désirée par l'expert humain Par exemple si la sortie est inférieure à la réponse désirée, il va falloir augmenter le poids de la connexion à condition bien sûr que l'unité j soit excitatrice (égale à ). On est dans l'hypothèse d'unités booléennes {0,}. ai = 0 ai = j W ji i di = 0 ΔWji = 0 ΔWji = -R di = ΔWji = R ΔWji = 0 Δ W= Rd ( aa ) ji i i j 34

Algorithmes d apprentissaged Loi de Grossberg : On augmente les poids qui entrent sur l'unité gagnante a i s'ils sont trop faibles, pour les rapprocher du vecteur d'entrée a j. C est la règle d apprentissage utilisée dans les cartes auto-organisatrices de Kohonen (SOM) ( ) Δ W = Ra a W ji i j ji j W ji i 35

Réseaux Statiques Feedforward 36

Apprentissage d un d modèle statique Méthodes non adaptatives d apprentissage d : minimisation de la fonction de coût t des moindres carrés s qui tient compte simultanément ment de tous les exemples Méthodes adaptatives Modifier les paramètres du modèles successivement en fonction du coût t partielle 37

Similitude comme Distance d : R n R n [0, ) d( x,y) = 0 si x = y d( x, y) = d( y, x) d( x, y) d( x, z) + d( z, y) z Distance de Minkowski n p d = M = i x i y i p p=2 on obtient la distance euclidienne p= on obtient la distance Manhattan qui pour des données binaires devient la distance Hamming ou Tanimoto 38

Fonctions discriminantes linéaires La première approche dans la classification de formes est géométrique. La manière la plus simple de séparer deux objets dans un plan XoY est d intercaler entre ces objets une droite de séparation. La droite de séparation est écrite sous la forme w x + w2 x2 + Θ = Cette relation fait apparaître des termes de poids w et w 2 de même qu un terme de polarisation Θ. Les poids jouent le rôles de balancier permettant d ajuster la pente de la droite tandis que le terme de polarisation permet un déplacement vers les y positifs ou négatif de la droite séparatrice. 0 39

Fonctions discriminantes linéaires On peut écrire également l équation sous une forme plus connue, soit: Si w 2 x x 2 et y = = x et x2 = = Θ w x 2 wx Θ w y implique que wx = w 2 Θ w 2 w 2 y = Θ w x 40

Règle d'apprentissage du perceptron pour les fonction linéaires discriminantes Le perceptron doit trouver l'ensemble des valeurs à donner aux synapses pour que les configurations d'entrée e se traduisent par des réponses voulues. Pour cela, on utilise la règle d'apprentissage de Windrow-Hoff Hoff. Pour apprendre, le perceptron doit savoir qu'il a commis une erreur, eur, et doit connaître la réponse r qu'il aurait dûd donner. De ce fait, on parle d'apprentissage supervisé. La règle r d'apprentissage est locale dans ce sens que chaque cellule de sortie apprend sans avoir besoin de connaître la réponse r des autres cellules. La cellule ne modifie l'intensité de ses synapses (apprend) que lorsqu'elle se trompe. 4

Algorithme du perceptron a) Initialisation des poids avec des valeurs aléatoires. b) Présentation à l entrée d un vecteur de données. c) Calcul de la fonction de sortie et vérification de l erreur entre la sortie calculée et la sortie prévue. d) Ajustement des poids selon l erreur obtenue. e) retourner à l étape b). 42

Algorithme du Perceptron pour un réseau simple couche. Initialisation des poids de pondération () Initialiser w, w et Θ par des valeurs aléatoires 2 Paramètres caractérisant l objet à l entrée du réseau ( 2) x= r x = x x y 2 = Calcul de la règle de propagation pour être appliquée à la fonction d activation (3) s = w x +Θ j j j Calcul de la fonction d activation (fonction sgn) ( 4) F( s) = y0 = ssi s > 0 s <= 0 43

Vecteur de classement du paramètre apparaissant à l entrée r ( 5) Calcul de d( x) la sortie attendue - la sortie calculée par le perceptron courant (6) r Δ w= d() x x i i r ΔΘ = dx () Règle d apprentissage pour la mise à jour des poids Mise à jour des poids (7) w = w +Δw i i i Θ = Θ + ΔΘ Dans l'apprentissage du Perceptron, les poids sont ajustés seulement si un motifs est mal classé. 44

e 2 e e 2 S e Réseaux directs à couches 45

Limite du perceptron Le perceptron est incapable de distinguer les patterns non séparables linéairement [Minsky 69] input P 0 0 input Q 0 0 P 0 fonction ET logique P fonction XOR (ou exclusif) 0 ET 0 0 0 XOR 0 0 0 0 0 0 Q patterns séparables linéairement 0 0 0 Q patterns non séparables linéairement 46

Le perceptron multicouche: architecture S Y S T E M E bias bias Environnement couche d'entrée (input) i couche cachée (hidden) j couche de sortie (output) k Environnement 47

Le perceptron multicouche : activation a i j a j x j = w ji a i a j = f (x j ) W ji W bias bias = f fonction sigmoïde a = f()= x fonction tangente hyperbolique + e x a = f()= x e x e x e x + e x ( x) = f ( x).( f ( x) ) f ( x) = ( + f ( x) ).( f ( x) ) 48

Apprentissage Backpropagation Qu est est-ce qu un un gradient? Le gradient pour un neurone est l erreur relative à ce neurone.. Il peut en quelque sorte être vu comme la contribution du neurone à l erreur globale E w ij A chaque passe arrière, re, on calcule le gradient de chaque neurone, en commençant par ceux de la couche de sortie (car les gradients des couches inférieures se calculent à partir des gradients des couches supérieures) 49

Apprentissage Backpropagation Propagation de l activité 50

Apprentissage Backpropagation Propagation de l activité 5

Apprentissage Backpropagation Propagation de l activité 52

Apprentissage Backpropagation Propagation de l activité 53

Apprentissage Backpropagation Propagation de l activité 54

Apprentissage Backpropagation E w ij Rétropropagation de l erreur 55

Apprentissage Backpropagation E w ij Rétropropagation de l erreur 56

Apprentissage Backpropagation E w ij Rétropropagation de l erreur 57

Apprentissage Backpropagation E w ij Rétropropagation de l erreur 58

Apprentissage : «Back propagation» er étape : Initialiser les poids des liens entre les neurones. Souvent une valeur entre 0 et, déterminée aléatoirement, est assignée à chacun des poids. 2 e étape : Application d un vecteur entrées-sorties à apprendre. 3 e étape : Calcul des sorties du RNA à partir des entrées qui lui sont appliquées et calcul de l erreur entre ces sorties et les sorties idéales à apprendre. 4 e étape : Correction des poids des liens entre les neurones de la couche de sortie et de la première couche cachée selon l erreur présente en sortie. 5 e étape : Propagation de l erreur sur la couche précédente et correction des poids des liens entre les neurones de la couche cachée et ceux en entrées. 6 e étape : Boucler à la 2e étape avec un nouveau vecteur d entrées-sorties tant 59 que les performances du RNA (erreur sur les sorties) ne sont pas satisfaisantes.

Le perceptron multicouche apprentissage : retropropagation de l erreurl S a j j = aw i = f i ( S ) j ij 2 Calcul activations unités cachées Calcul activations unités de sortie S a k k = a jw = f j ( S ) k jk Unités d'entrée a i Unités cachées a j Unités de sortie a k 3 Calcul Erreur entre sorties désirées et sorties obtenues e k = d k a E n = e n 2 2 ( ) ( ) j j C k δ j = W f δ. k jk k ( S ) j 5 Calcul de l'erreur sur les unités cachées 4 Calcul de l'erreur sur les unités de sortie δ k = e. f k ( S ) k 6 Apprentissage des unités cachées Ajustement des poids Apprentissage des unités de sortie ΔW ij = εδ a j i ΔW jk = εδ a k j 60

MLP: Multi-layer layer perceptron Exemple: Comment calculer w ij???? Couche d`entrée w w 2 w w w 2 w 2 w 22 w 2 w 2 w 3 w 32 w 22 Couches cachées Couche de sortie 6

Exemple d apprentissage : «Back propagation» La figure ci-dessous présente un RNA dont les poids des liens entre les neurones et celui des biais ont été déterminés aléatoirement. Dans cet exemple, le vecteur à apprendre comporte les entrées x = 0.8 et x 2 = 0.2, pour une sortie souhaitée d = 0.4. La fonction d activation est la sigmoïde (équation () ) et sa dérivée est exprimée par l équation (2). L équation (3) illustre comment calculer la sortie d un neurone et l équation (4) comment modifier les poids entre les neurones lors de l apprentissage (taux d apprentissage μ = ). Remarquez que les poids sont toujours incrémentés selon: «μ erreur en sortie f (somme des entrées) entrée du lien». 0.8 0.2 x x 2 w = 0.300 w 2 = -0.500 w 2 = 0.800 w 22 = 0.200 w b = 0.200 0.222 0.38 o = 0.646 w 3 = -0.600-0.625-0.5 0.804 2 0.97 w b2 = -0.400 o 2 = 0.39 w 23 = 0.400-0.44 N 3 3 23 23 3 3 3 3 2 2 22 22 2 2 2 2 b 2 2( 2 f ' 2 ( + ) = ( ) + ' = wb n wb n μ e f x i i w i 32 i 3 2 + w b b 3 2 3 2 x o 2 i i = w b3 = 0.500 0.46 o 3 = 0.560 3 (4) + ( ( + 0.096 ( 0.064 0.6 ' ( ' ' ( ' 0.60 0.24 (' 0.76 ( 0.24 ) ) 0.8 ) 0.39 0.646 ) 0.2 ) ) 0.8 ) = ) 222 ) 38 804 0. = 46 0. 44 97 0. 387 625 5 22 w b 3 2 2 b 23 ( w ( n+ b 3 ( ) n+ ) = 0.2 ) 0.4 0.8 0.3 0.2 0.5 0.4 0.6 = + 0.5 f f f f = = = 2 0.387 d = 0.4 o j Erreur de sortie de chaque neurone e 3 = d o 3 = - 0.6 f ( x) = x + e f '( x) = N = = f i= e 2 = w 23 e 3 = - 0.064 e = w 3 e 3 = 0.096 f ( x) 2 x j w () [ f ( x) ] (2) ij + w bj (3) 62

Le perceptron multicouche Règle du delta généralisg ralisé Les paramètres de l apprentissagel ΔW t ij La force d apprentissage d ε ou taux d apprentissaged Le momentum α Gradient local δ t Cumulative Delta-Rule αw ij Les performances du réseauxr Erreur globale sur le jeu de test Généralisation = εδ a j i + αw t ij 63

RPROP=Algorithme d apprentissage pour un réseau de type MLP Remarque : que fait l algorithme Backprop traditionnel? Il modifie les poids à partir de E w ij Problème : la grandeur de cette différentielle ne représente pas vraiment la grandeur de la modification nécessaire n du changement de poids Solution de RPROP : ne pas se baser sur la valeur de cette différentielle, ne tenir compte que de ses changements de signe 64

Fonctionnement de RPROP Backprop Rprop Δw ij = u E w ij E Δ wij = sign( ) Δ w ij ij 65

Fonctionnement de RPROP Calcul du gradient pour la couche externe : δ = ( o i où o o o e i i i e i o est l'output du neurone i est l'output attendu du neurone ( o i i ) o i ) = f ( o '( o i ) i ) i 66

Fonctionnement de RPROP Calcul du gradient pour les couches internes δ j où = o ( o ) w δ o j j j k jk k est l'output du neurone (interne) j k représente les indices des neurones de la couche supérieure 67

Fonctionnement de RPROP Une fois qu on connaît t les gradients locaux de chaque neurone, on peut calculer l influence de chaque poids sur l erreur: E w ij = δ j y i 68

Fonctionnement de RPROP E ( t) Δ w = sign ( ) Δ ij w ij Sauf si la différentielle a changé de signe par rapport à (t-) : à ce moment-là, on est passé au-dessus d un minimum local, et on revient donc au poids précédent (backtracking): ij Δw ( t) ij = Δw ( t ) ij,if E w ij ( t ) * E w ij ( t) < 0 69

Fonctionnement de RPROP Qu est est-ce que Δ ij? = update-value : valeur de modification du poids, qui évolue en fonction des changements de signe des différentielles de ce même poids Les update-values et les poids ne sont changés qu après chaque époque (batch learning). Pendant une époque, on additionne les différentielles obtenues après chaque présentation d un élément de l ensemble d apprentissage. 70

7 7 Fonctionnement de RPROP + + < < < Δ < Δ > Δ = Δ η η η η where 0 else, 0 * if, 0 * if, ) ( ) ( ) ( ) ( ) ( ) ( ) ( ) ( t ij t ij t ij t ij t ij t ij t ij t ij w E w E w E w E

Fonctionnement de RPROP Exemple de calcul de gradient : on donne l élément [,0,0] et on attend la réponse r 0 0. 0.2-0.3 0.2-0. 0,5 0,5-0. 0.2-0.3 0.2 0,5 0,5 0. 0.4 0,5 0 0.3 72

Fonctionnement de RPROP 0. 0.2-0.3 0.2-0. 0,5 0,5-0. 0.2-0.3 0.2 0,5 0,5 0. 0.4 δ 4 = 0.25 0,5 0.3 73

Fonctionnement de RPROP δ 3 =0.25*0.025 0. 0.2-0.3 0.2-0. 0,5 0,5-0. 0.2-0.3 0.2 = 0.003 0,5 0,5 0. 0.4 δ 4 = 0.25 0,5 0.3 δ 3 = 0.25*0.05 = 0.025 74

Fonctionnement de RPROP 0. 0.2-0.3 0.2-0. δ 2 = -0.000782 0,5 0,5-0. 0.2-0.3 0.2 δ 3 =0.25*0.025 = 0.003 0,5 0,5 0. 0.4 δ 4 = 0.25 0,5 0.3 δ 22 = 0.00052 δ 32 = 0.25*0.05 = 0.025 75

Algorithme RPROP 76

Paramètres Δ 0 : update-value initiale, pour chacun des poids (généralement 0.) η +, η - : généralement g.2 et 0.5 (on diminue de moitié car on ne sait pas de combien on a dépassd passé l erreur) Δ Max Δ Min : 50 et e -6 Avantage de Rprop : le choix des paramètres influence peu la convergence 77

Paramètres exemple 0-5-0 encoder Algo u/δ 0 Epochs WR(u/Δ 0 ) BP.9 2 [.,2.6] RPROP 2.0 9 [0.05,2.0] 78

Approximation parcimonieuse Hornik Toute fonction bornée e suffisamment régulir gulière peut être approchée uniformément, ment, avec une précision arbitraire, dans un domaine fini de l espace l de ses variables, par un réseau r de neurones comportant une couche de neurones cachés s en nombre fini, possédant tous la même fonction d activation, d et un neurone de sortie linéaire. On montre [Barron[ 993] que, si l approximation l dépend d des paramètres ajustables de manière non linéaire, elle est plus parcimonieuse que si elle dépend d linéairement des paramètres. L écart entre l approximation l réalisr alisée e par un réseau r de neurones et la fonction à approcher est inversement proportionnel au nombre de neurones cachés. 79

Applications des R.N.A. - Approximation de fonctions : les fonctions trop compliquées peuvent être approximées, grâce au réseau, r par une somme de fonctions plus simples comme des polynômes ou des sigmoïdes. - Optimisation de trajectoires : On peut, par exemple, déterminer d quelle est la meilleure trajectoire pour un avion, une fusée - Reconnaissance : un réseau r peut servir à reconnaître des caractères. res. Cela est déjàd utilisé à la Poste pour lire les codes postaux, ou même dans certaines banques pour lire les chèques. Il est aussi possible de retrouver la prononciation des mots à partir d un d texte. - Prévision vision : on utilise de plus en plus les réseaux r pour faire des prévisions en marketing (prédiction de comportement, de possibilité de vente d un d produit, )) ou pour le trafic routier Mais les prévisions en météo o ou en bourse sont trop compliquées à réaliser. - Contrôle : on peut contrôler les produits dans une industrie. - Robotique : certains robots sont dotés s de réseaux r de neurones. Des entreprises japonaises se vantent déjàd de leur utilisation, même pour des produits électroménagers nagers ou informatiques. 80