Introduction aux Réseaux de Neurones Cours 2

Documents pareils

Archived Content. Contenu archivé

Exemple PLS avec SAS

Face Recognition Performance: Man vs. Machine

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Coup de Projecteur sur les Réseaux de Neurones

DOCUMENTATION - FRANCAIS... 2

LOI SUR LA RECONNAISSANCE DE L'ADOPTION SELON LES COUTUMES AUTOCHTONES ABORIGINAL CUSTOM ADOPTION RECOGNITION ACT

DOCUMENTATION - FRANCAIS... 2

I. Programmation I. 1 Ecrire un programme en Scilab traduisant l organigramme montré ci-après (on pourra utiliser les annexes):

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

Instructions Mozilla Thunderbird Page 1

AMENDMENT TO BILL 32 AMENDEMENT AU PROJET DE LOI 32

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Exercices sur SQL server 2000

Institut français des sciences et technologies des transports, de l aménagement

Scénarios économiques en assurance

Optimisation de la compression fractale D images basée sur les réseaux de neurones

RULE 5 - SERVICE OF DOCUMENTS RÈGLE 5 SIGNIFICATION DE DOCUMENTS. Rule 5 / Règle 5

Détection de la défaillance des entreprises tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones

CONFERENCE PALISADE. Optimisation robuste d un plan d expériences par simulation Monte-Carlo Concepts de «Design Space» et de «Quality by Design»

Frequently Asked Questions

APPENDIX 6 BONUS RING FORMAT

RÉSUMÉ DE THÈSE. L implantation des systèmes d'information (SI) organisationnels demeure une tâche difficile

A METHOD FOR THE DESIGN OF NEURO-FUZZY CONTROLLERS; AN APPLICATION IN ROBOT LEARNING

The new consumables catalogue from Medisoft is now updated. Please discover this full overview of all our consumables available to you.

JSIam Introduction talk. Philippe Gradt. Grenoble, March 6th 2015

Quick Start Guide This guide is intended to get you started with Rational ClearCase or Rational ClearCase MultiSite.

Les Portfolios et Moodle Petit inventaire

Judge Group: P Title: Quel est meilleur: le compost ou le fertilisant chimique? Student(s): Emma O'Shea Grade: 6

This is a preview - click here to buy the full publication NORME INTERNATIONALE INTERNATIONAL STAN DARD. Telecontrol equipment and systems

Once the installation is complete, you can delete the temporary Zip files..

: Machines Production a créé dès 1995, le site internet

EN UNE PAGE PLAN STRATÉGIQUE

INDIVIDUALS AND LEGAL ENTITIES: If the dividends have not been paid yet, you may be eligible for the simplified procedure.

Improving the breakdown of the Central Credit Register data by category of enterprises

First Nations Assessment Inspection Regulations. Règlement sur l inspection aux fins d évaluation foncière des premières nations CONSOLIDATION

Support Orders and Support Provisions (Banks and Authorized Foreign Banks) Regulations

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

THÈSE. présentée à TÉLÉCOM PARISTECH. pour obtenir le grade de. DOCTEUR de TÉLÉCOM PARISTECH. Mention Informatique et Réseaux. par.

RISK-BASED TRANSPORTATION PLANNING PRACTICE: OVERALL METIIODOLOGY AND A CASE EXAMPLE"' RESUME

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

Post-processing of multimodel hydrological forecasts for the Baskatong catchment

Paxton. ins Net2 desktop reader USB

Eléments de statistique

Monitor LRD. Table des matières

Revision of hen1317-5: Technical improvements

TABLE DES MATIERES A OBJET PROCEDURE DE CONNEXION

Comprendre l impact de l utilisation des réseaux sociaux en entreprise SYNTHESE DES RESULTATS : EUROPE ET FRANCE

Classification Automatique de messages : une approche hybride

Gestion des prestations Volontaire

Les marchés Security La méthode The markets The approach

Contents Windows

INSTITUT MARITIME DE PREVENTION. For improvement in health and security at work. Created in 1992 Under the aegis of State and the ENIM

Nouveautés printemps 2013

La solution idéale de personnalisation interactive sur internet

Conférence Bales II - Mauritanie. Patrick Le Nôtre. Directeur de la Stratégie - Secteur Finance Solutions risques et Réglementations

Stakeholder Feedback Form January 2013 Recirculation

Natixis Asset Management Response to the European Commission Green Paper on shadow banking

Druais Cédric École Polytechnique de Montréal. Résumé

Surveillance de Scripts LUA et de réception d EVENT. avec LoriotPro Extended & Broadcast Edition

Forthcoming Database

HSCS 6.4 : mieux appréhender la gestion du stockage en environnement VMware et service de fichiers HNAS Laurent Bartoletti Product Marketing Manager

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

FOURTH SESSION : "MRP & CRP"

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Notice Technique / Technical Manual

CEST POUR MIEUX PLACER MES PDF

Cheque Holding Policy Disclosure (Banks) Regulations. Règlement sur la communication de la politique de retenue de chèques (banques) CONSOLIDATION

Quatre axes au service de la performance et des mutations Four lines serve the performance and changes

Application Form/ Formulaire de demande

NORME INTERNATIONALE INTERNATIONAL STANDARD. Dispositifs à semiconducteurs Dispositifs discrets. Semiconductor devices Discrete devices

ETABLISSEMENT D ENSEIGNEMENT OU ORGANISME DE FORMATION / UNIVERSITY OR COLLEGE:

Utiliser une WebCam. Micro-ordinateurs, informations, idées, trucs et astuces

AUTUMN/WINTER PARIS COLLECTION

Networking Solutions. Worldwide VSAT Maintenance VSAT dans le Monde Entretien. Satellite Communications Les Communications par Satellite

INSTRUMENTS DE MESURE SOFTWARE. Management software for remote and/or local monitoring networks

PLAN DIRECTEUR DES PARCS, MILIEUX NATURELS ET ESPACES VERTS PARKS, NATURAL HABITATS AND GREEN SPACES MASTER PLAN

REVISION DE LA DIRECTIVE ABUS DE MARCHE

Remerciements : Avant tout, louange à Dieu le tout puissant de m avoir aidé et permis d achever ce modeste travail.

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

I>~I.J 4j1.bJ1UlJ ~..;W:i 1U

BNP Paribas Personal Finance

Stratégie IT : au cœur des enjeux de l entreprise

Railway Operating Certificate Regulations. Règlement sur les certificats d exploitation de chemin de fer CODIFICATION CONSOLIDATION

Fabricant. 2 terminals

Moteur DC: Comment faire varier sa vitesse?

Empowering small farmers and their organizations through economic intelligence

Présentation par François Keller Fondateur et président de l Institut suisse de brainworking et M. Enga Luye, CEO Belair Biotech

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

Filtrage stochastique non linéaire par la théorie de représentation des martingales

that the child(ren) was/were in need of protection under Part III of the Child and Family Services Act, and the court made an order on

L. Obert, T. Lascar, A. Adam

The assessment of professional/vocational skills Le bilan de compétences professionnelles

SMALL CITY COMMERCE (EL PEQUEÑO COMERCIO DE LAS PEQUEÑAS CIUDADES)

Modélisation géostatistique des débits le long des cours d eau.

How to Login to Career Page

Big Data et Graphes : Quelques pistes de recherche

22/09/2014 sur la base de 55,03 euros par action

IPSAS 32 «Service concession arrangements» (SCA) Marie-Pierre Cordier Baudouin Griton, IPSAS Board

Transcription:

Introduction aux Réseaux de Neurones Cours 2 Master Cours d'intelligence artificielle Alexandre Pitti

Rappel: neurone artificiel le perceptron Définition : linéaire, fonction paramétrée avec sortie normée ou bornée. Entrée Xi sortie Yi sortie désirée Di Règle d'apprentissage W ( t +)=W ( t )+Δ W Δ W =η( Di Y i) X i n ( y =f w 0 + wi x i i= ) y w0 x x2 x3

Fonctions d'activation threshold linear y y a piece-wise linear y a a sigmoid y a

Le Perceptron : exemples Le OU logique Le ET logique 0,5,5

Limitation du Perceptron Le XOR (ou exclusif)????

Limitation du Perceptron Linéairement séparable Non -Linéairement séparable

Le Perceptron : Limitations Problèmes linéairement séparables Latitude Augmenter le nombre de couches couche 2 couches 3 couches

Régression non-linéaire bias model y, y^ ^ linear model y, y^ ^ ^ y = θ 0 = E ( y) ^ y= x θ T x x non-linear model y, y^ ^ non-linear interpolation model y, y^ ^ ^ ^ y = m(x, θ) y = m(x, θ ) x x Besoin de réguler la complexité du modèle par rapport aux données, comment reproduire le signal: 2 y =f ( x )+N (0, σ ) 8

Modèles non-linéaire polynomiaux Une manière d'étendre les possibilités du réseau de neurones et de considérer une expansion polynomiale 2 2 y =m( x,θ )=θ0 + x θ +x 2 θ 2 +x x 2 θ3 +x θ4 +x 2 θ5 bias linear bilinear quadratic Expension peut être faîte à n'importe quel ordre: cubique, quadratique θ3 =θ4 =θ5 =0 Le modèle linéaire est produit quand: un modèle polynomial est linéaire dans ses paramètres T y =x θ 2 2 x=[ x x 2 x x 2 x x 2 ] 9

La méthode du gradient Entrée : n poids reliant les n informations à notre neurone ayant des valeurs quelconques N exemples (Xk, Dk) où Xk est un vecteur à n composantes x_i, chacune représentant une information de cet exemple. Le taux d'apprentissage alpha. Sortie : les n poids modifiés POUR <= i <= n dw_i = 0 FIN POUR POUR TOUT exemple e = (Xk, Dk) Calculer la sortie Yk du neurone POUR <= i <= n dw_i = dw_i + alpha*(dk - Yk)*x_i FIN POUR FIN POUR POUR <= i <= n w_i = w_i + dw_i FIN POUR X Les entrées Y La sortie

Modèle neuronal multi-couche Le perceptron multi-couche est une généralisation du modèle du perceptron : modèles linéaires y = W (q) j (q) ij x (q ) i i= (q ) j (q ) j x =f ( y ) La sortie devient l'entrée! Entrées N q (q) modèles composés Après avoir appris des classes linéairement séparables, la deuxième couche généralise encore une fois en construisant des modèles à composition de couches.

Propriétés des Perceptron MC Un PMC a une ou des couches cachées. Les unités des couches cachées ont des fonctions d'activations non-linéaires (fonctions lissées). Un PMC peut approximer tous les problèmes de classifications non-linéaires. Un PMC présente un haut degré de connectivité, déterminé par les synapses du réseau. Un changement de connectivité requiert un changement des poids synaptiques.

Problèmes Un des problèmes est lié à l'architecture : Quelles connexions entre les différentes couches? Combien de couches? Combien d unités par couches? Le dernier problème est liée à l'apprentissage. Quand on a une seule couche, on peut appliquer la règle de Widrow-Hoff ou du perceptron. Mais quelle règle appliquer sur les unités de la couche cachée étant donné que l'on a aucune information sur la sortie désirée?

Modèle neuronal à une couche Les unités internes n'ont donc aucune information sur le but a atteindre. Or, c'est essentiel pour mesurer l'erreur entre la sortie calculée et la sortie désirée afin de la minimiser. Sans mesure de l'erreur à l intérieur du réseau, il est difficile de pouvoir appliquer une correction des coefficients.

La rétro-propagation du gradient Cet algorithme permet d'effectuer l'apprentissage dans les réseaux multi-couches. Le principe est de rétro-propager l'erreur en sortie vers les couches cachées, provocant une modification Information successive des poids. Entrees Erreur de sortie

Modèle neuronal à une couche E( n) Erreur globale N 2 E( n)= e j ( n) 2 j C C : tous les neurones de la couche de sortie. E On va utiliser la dérivée de l'erreur globale W ji minimiser E( n) en trouvant les W ji optimaux. E Δ W ji (n)= η W ji E W ji W ji pour

Modèle neuronal à une couche Erreur globale Erreur globale N 2 E( n)= e j ( n) 2 j C N 2 E= e j 2 j C Erreur locale e j =d j y j C : tous les neurones de la couche de sortie. Sortie du neurone Dérivée de l'erreur globale y j=f j (v j ) E E e j y j v j = W ji e j y j v j W ji Somme synaptique m v j = w ji y i i=0

Modèle neuronal à une couche Erreur globale Erreur globale N 2 E( n)= e j ( n) 2 j C C : tous les neurones de la couche de sortie. Dérivée partielle de E E( n) =e j (n) e j (n) N 2 E= e j 2 j C Erreur locale e j =d j y j Sortie du neurone y j=f j (v j ) Somme synaptique m v j = w ji y i i=0

Modèle neuronal à une couche Erreur globale Erreur locale, à l'itération n e j (n)=d j ( n) y j (n) Dérivée partielle de e N 2 E= e j 2 j C Erreur locale e j =d j y j Sortie du neurone e j (n) = y j (n) y j=f j (v j ) Somme synaptique m v j = w ji y i i=0

Modèle neuronal à une couche Erreur globale Sortie du neurone, à l'itération n y j (n)=f j (v j (n)) Dérivée partielle de y y j (n) =f ' j (v j (n)) v j (n) N 2 E= e j 2 j C Erreur locale e j =d j y j Sortie du neurone y j=f j (v j ) Somme synaptique m v j = w ji y i i=0

Modèle neuronal à une couche Erreur globale Somme synaptique, à l'itération n m v j (n)= w ji (n) y i (n) i=0 Dérivée partielle de v v j (n) = y i (n) w ji (n) N 2 E= e j 2 j C Erreur locale e j =d j y j Sortie du neurone y j=f j (v j ) Somme synaptique m v j = w ji y i i=0

Modèle neuronal à une couche Erreur globale Dérivée partielle de E E E e j y j v j = W ji e j y j v j W ji E =e j.. f ' (v j ). y i W ji E = e j y i f ' (v j ) W ji N 2 E= e j 2 j C Erreur locale e j =d j y j Sortie du neurone y j=f j (v j ) Somme synaptique m v j = w ji y i i=0

Modèle neuronal à une couche Loi de correction W locale E Δ W ji (n)= η W ji Δ W ji (n)=ηe j f ' (v j ) y i E Si δ j (n)=, le gradient local vj E e j y j Alors δ j (n)= =e j f ' (v j ) ej y j vj

Modèle neuronal à une couche Loi de correction W locale Δ W ji (n)=ηδ j y i Signal d'entrée du neurone j Adaption des poids Gradient local Taux d'apprentissage Cas, j neurone de sortie δ j (n)=e j f '(v j) Cas 2, j neurone caché, plus compliqué δ j (n)=f ' (v j ) δ k wkj k

Démonstration, si le neurone j est caché E δ j (n)= vj E yj δ j (n)= y j vj N 2 E= e j 2 j C e k =d k y k m v k = w kj y j i= 0 δ j (n)=f ' (v j ) δ k wkj k E = f ' (v j) yj [ y j =f j (v j )] ek E = e k yj k yj ek = f k ' ( v k ) vk vk =w kj yk ek vk = ek vk y j k

Non-linear neurons with smooth derivatives For backpropagation, we need neurons that have well-behaved derivatives. Typically they use the logistic function The output is a smooth function of the inputs and the weights. yj 0.5 0 0 x x j= b j + y i w ij y j= i +e x j xj xj = yi =wij wij yi dy j = y j ( y j ) dx j Its odd to express it in terms of y.

Règle de la rétro-propagation du gradient d'erreur Entrée : un exemple, sous la forme (vecteur_x,vecteur_y); epsilon le taux d'apprentissage un Perceptron MultiCouches avec q- couches cachées C,..., Cq-, une couche de sortie Cq. Répéter Prendre un exemple (vecteur_x,vecteur_y) et calculer g(vecteur_x) Pour toute cellule de sortie i di <- si(-si)(yi-si) finpour Pour chaque couche de q- à Pour chaque cellule i de la couche courante di = oi(-oi) * Somme [pour k appartenant aux indices des neurones prenant en entrée la sortie du neurone i] de dk*w_ki finpour finpour Pour tout poids w_ij <- w_ij + epsilon*di*x_ij finpour finrépéter

Propriétés de la rétro-propagation Descente de gradient sur tous les poids du réseau Généralisation facile à d'autres types de graphes. Trouver une erreur locale, pas nécessairement l'erreur Globale: - En pratique, cela marche correctement Minimise l'erreur à partir des exemples d'apprentissage: - nombre d'exemple suffisant pour généraliser? Apprentissage peut prendre des milliers d itérations! après apprentissage, son utilisation est par contre très rapide.

Exercice

Momentum d'apprentissage Il y a un trade-off concernant le pas d'apprentissage: - pour un pas d'apprentissage trop petit : la trajectoire de convergence est lente mais la trajectoire est plus lisse. - pour un pas d'apprentissage trop grand : la trajectoire de convergence est rapide, mais la trajectoire peut être instable. l'ajout d'un momentum d'apprentissage peut aider à dépasser ce problème.

Momentum d'apprentissage Il peut arriver que la surface d'erreur contienne des minima locaux. Dans le cas d'une descente de gradient classique, l'algorithme resterait prisonnier de ce minimum local sous possibilité d'en sortir pour atteindre le minimum global. Descente du gradient de l'erreur Minimum local Minimum global

Momentum d'apprentissage Pour éviter de rester piégé dans un minimum local, on ajoute au système un paramètre : le momentum D. L équation d'apprentissage devient alors : Δ W ji (t+)= D Δ W ji (t)+( D)α d k p, j x p,i Pondération par les poids précédents : Fonction de mémoire à court terme et d entraînement Le vecteur de poids est la somme pondérée d'une série temporelle qui «oublie» de façon exponentielle.

Apprentissage séquentiel (online) vs batch Mode séquentiel: Adaptation appliquée après chaque présentation d'une entrée et d'une sortie. L'ordre de présentation des exemples doit être aléatoire. Avantages : pas de stockage, apprentissage stochastique des poids, permet d éviter les minima locaux. Désavantages : difficile d établir les conditions théoriques d'une convergence. Mode Batch : Adaptation appliquée après présentation de toutes les entrées et les sorties vues. Avantages : estimation précise du gradient, + facile de garantir les conditions de convergence.

Applications The properties of neural networks define where they are useful. Can learn complex mappings from inputs to outputs, based solely on samples Difficult to analyse: firm predictions about neural network behaviour difficult: Unsuitable for safety-critical applications. Require limited understanding from trainer, who can be guided by heuristics. 34

Neural network for OCR feedforward network trained using Backpropagation A B C D E H idden Layer Input Layer O utput Layer 35

OCR for 8x0 characters 0 8 0 8 0 8 NN are able to generalise learning involves generating a partitioning of the input space for single layer network input space must be linearly separable what is the dimension of this input space? how many points in the input space? this network is binary(uses binary values) networks may also be continuous 36

Engine management The behaviour of a car engine is influenced by a large number of parameters temperature at various points fuel/air mixture lubricant viscosity. Major companies have used neural networks to dynamically tune an engine depending on current settings. 37

ALVINN Drives 70 mph on a public highway 30 outputs for steering 4 hidden units 30x32 pixels as inputs 30x32 weights into one out of four hidden unit 38

Signature recognition Each person's signature is different. There are structural similarities which are difficult to quantify. One company has manufactured a machine which recognizes signatures to within a high level of accuracy. Considers speed in addition to gross shape. Makes forgery even more difficult. 39

Sonar target recognition Distinguish mines from rocks on sea-bed The neural network is provided with a large number of parameters which are extracted from the sonar signal. The training set consists of sets of signals from rocks and mines. 40

Stock market prediction Technical trading refers to trading based solely on known statistical parameters; e.g. previous price Neural networks have been used to attempt to predict changes in prices. Difficult to assess success since companies using these techniques are reluctant to disclose information. 4

Mortgage assessment Assess risk of lending to an individual. Difficult to decide on marginal cases. Neural networks have been trained to make decisions, based upon the opinions of expert underwriters. Neural network produced a 2% reduction in delinquencies compared with human experts. 42

Compression Exemples de taux de compression : Avec un réseau multicouche 00 x 5 x 00 neurones, il y a au total 500 poids (de la couche cachée vers la couche de sortie). Les valeurs des poids sont codées sur 4 bits, ainsi que les 5 valeurs des niveaux d activation. - Pour une image initiale de 00 pixels (sur 256 niveaux de gris : 8 bits), on obtient un taux de compression de (00. 8) / (500. 4 + 5. 4) = 0.38 - Si on code 0 images avec le même réseau, on obtient un taux de compression de (00. 0. 8) / (500. 4 + 0. 5. 4) = 3.6 Afin que l'opération soit rentable, il faut coder plusieurs images par réseau. Cette technique est limitée par la durée d'apprentissage (plusieurs centaines d'itérations sont nécessaires), ce qui exclu actuellement tout traitement en temps réel.

0 0 0 0 0 0 0 0 0 0 0 0

RNN & traitement du signal Compression de l'information dans la couche cachée Réduction de la dimensionnalité capacité de généralisation Similarité avec la transformée de Fourier : Un codage fréquentiel représente les informations d entrée

RNN & traitement du signal Fourier 2D Image 2D Représentation fréquentielle

RNN & traitement du signal Vision Banc de filtres: Chaque neurone détecte un seul type d'orientation Neurone vision Neurone sélectif aux segmentations horizontales hautes Oeil

RNN & traitement du signal Vision

Généralisation vs Spécialisation On dit qu'un réseau de neurone généralise bien lorsque peut approximer a peu près correctement tous les exemples entrées/sorties Durant la phase de test Problème du sur-apprentissage vaut-il mieux minimiser complètement l'erreur ou laisser une certaine marge? Le lissage de la mémorisation est plutôt quelque chose que l'on désire

Avantages/Désavantages de la retropropagation Connexionisme: métaphore biologique, computation locale, parallélisme (quelques limitations concernant la plausibilité biologique de la rétro-propagation). Détection de motifs: les neurones cachés encodent les motifs. Fonction d'approximation: sigmoïdes. Complexité de computation : la computation est polynomiale dans le nombre des paramètres ajustables, c'est assez efficace. Robustesse: le bruit cause seulement de petites erreurs d'estimation. Convergence: approximation stochastique,qui peut être lente. Minima locaux.

Fin