Réseaux de neurones. Liva Ralaivola

Documents pareils
Coup de Projecteur sur les Réseaux de Neurones

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

Détection de la défaillance des entreprises tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones

Optimisation de la compression fractale D images basée sur les réseaux de neurones

Remerciements : Avant tout, louange à Dieu le tout puissant de m avoir aidé et permis d achever ce modeste travail.

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Filtrage stochastique non linéaire par la théorie de représentation des martingales

NON-LINEARITE ET RESEAUX NEURONAUX

Modélisation du comportement habituel de la personne en smarthome

Optimisation et programmation mathématique. Professeur Michel de Mathelin. Cours intégré : 20 h

Cryptologie et physique quantique : Espoirs et menaces. Objectifs 2. distribué sous licence creative common détails sur

Quantification Scalaire et Prédictive

Application de K-means à la définition du nombre de VM optimal dans un cloud

4.2 Unités d enseignement du M1

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

L utilisation des réseaux de neurones artificiels en finance. Philippe PAQUET Professeur de Gestion

ÉTUDE ET DÉVELOPPEMENT D UN SYSTÈME EXPERT BASÉ SUR LES RÉSEAUX DE NEURONES POUR LE DIAGNOSTIC DES DÉFAUTS DE ROULEMENTS

Chapitre 5 : Flot maximal dans un graphe

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

Depuis des années, les films de science fiction

Programmation linéaire

de calibration Master 2: Calibration de modèles: présentation et simulation d

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

«Cours Statistique et logiciel R»

Algorithmique et Programmation, IMA

intelligence artificielle et cognitique"

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

Algorithmique et structures de données I

Résolution d équations non linéaires

MATLAB : COMMANDES DE BASE. Note : lorsqu applicable, l équivalent en langage C est indiqué entre les délimiteurs /* */.

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall


Cours de Master Recherche

Chp. 4. Minimisation d une fonction d une variable

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

Programmation Linéaire - Cours 1

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Principe de symétrisation pour la construction d un test adaptatif

La Recherche du Point Optimum de Fonctionnement d un Générateur Photovoltaïque en Utilisant les Réseaux NEURO-FLOUS

Machines virtuelles Cours 1 : Introduction

Quelques algorithmes simples dont l analyse n est pas si simple

Cours d analyse numérique SMI-S4

Apprentissage statistique dans les graphes et les réseaux sociaux

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Laboratoire d Automatique et Productique Université de Batna, Algérie

Techniques du Data Mining pour la prédiction de faillite des entreprises et la gestion du risque de crédit

L exclusion mutuelle distribuée

Introduction au pricing d option en finance

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

Echantillonnage Non uniforme

Classification Automatique de messages : une approche hybride

INITIATION AU LANGAGE C SUR PIC DE MICROSHIP

La classification automatique de données quantitatives

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

TRANSPORT ET LOGISTIQUE :

MCMC et approximations en champ moyen pour les modèles de Markov

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Rappels sur les suites - Algorithme

Création intuitive des éléments d un paysage

4 Exemples de problèmes MapReduce incrémentaux

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII

L apprentissage automatique

Resolution limit in community detection

Principes d implémentation des métaheuristiques

Technologies quantiques & information quantique

Corrigé des TD 1 à 5

Bases de programmation. Cours 5. Structurer les données

Budget Constrained Resource Allocation for Non-Deterministic Workflows on a IaaS Cloud

Post-processing of multimodel hydrological forecasts for the Baskatong catchment

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Détection et suivi d'objets dans une séquence d'images par contours actifs

INTRODUCTION AUX SYSTEMES D EXPLOITATION. TD2 Exclusion mutuelle / Sémaphores

Simulation de variables aléatoires

Architecture des Systèmes d Information Architecture des Systèmes d Information

Etude comparative de différents motifs utilisés pour le lancé de rayon

Apprentissage des performances, surveillance en temps réel et contrôle d admission d un serveur Web utilisant les techniques neuronales

Définition et diffusion de signatures sémantiques dans les systèmes pair-à-pair

Cours d Informatique

E-Biothon : Une plate-forme pour accélérer les recherches en biologie, santé et environnement.

Outrepasser les limites des techniques classiques de Prise d'empreintes grâce aux Réseaux de Neurones

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

LES MÉTHODES DE POINT INTÉRIEUR 1

Programmation C++ (débutant)/instructions for, while et do...while

Arbres binaires de décision

Contrôle stochastique d allocation de ressources dans le «cloud computing»

Analyse statistique de données qualitatives et quantitatives en sciences sociales : TP RÉGRESSION LOGISTIQUE (MODÈLES CHAPITRE 1)

Contexte et motivations Les techniques envisagées Evolution des processus Conclusion

Fonctions de plusieurs variables

Druais Cédric École Polytechnique de Montréal. Résumé

Calcul de développements de Puiseux et application au calcul du groupe de monodromie d'une courbe algébrique plane

MATHS FINANCIERES. Projet OMEGA

Master IMA - UMPC Paris 6 RDMM - Année Fiche de TP

ARBRES BINAIRES DE RECHERCHE

Logiciel Libre Cours 3 Fondements: Génie Logiciel

Transcription:

Réseaux de neurones Liva Ralaivola liva@lif.univ-mrs.fr Laboratoire d Informatique Fondamentale de Marseille UMR 6166 CNRS Université de Provence http://www.lif.univ-mrs.fr Réseaux de neurones p.1

Contexte Classification supervisée (pattern recognition) S = {(x 1, y 1 ),...,(x l, y l )} ensemble d apprentissage X = R d, Y = {0, 1} m x i de classe c y i = 0 0 1 0. 0 1 en c eme position Utilisation temps d apprentissage long autorisé et/ou apprentissage en ligne requis nombre de données assez grand interprétabilité du modèle non nécessaire possible bruit sur les données Réseaux de neurones p.2

Plan Historique Perceptron linéaire Perceptron multi-couches Réseaux de neurones p.3

Historique (1/2) Motivations biologiques systèmes apprenants composés de réseaux connectés de plusieurs unités capacités de mémoire/adaptabilité de ces systèmes Réseaux de neurones p.4

Historique (2/2) Caractéristiques réseau de neurones biologique nombre de neurones dans le cerveau : 10 11 neurones chacun étant connecté à 10 4 autres neurones temps de transmission de l information entre deux neurones du cerveau : 10 3 mais temps d activation du réseau très rapide : 10 1 secondes pour la reconnaissance d un proche connexions en boucles Caractéristiques réseau de neurones artificiels nombre de neurones : de l ordre de quelques centaines au maximum avec quelques dizaines de connexions temps de transmission de l information entre deux neurones : 10 10 secondes difficulté d apprentissage avec des connexions en boucle Réseaux de neurones p.5

Perceptron linéaire (1/4) Séparateur linéaire biais : activation = 1 σ w 0 x = x 1 x 2 w 1 w 2 σ( d i=1 w ix i + w 0 ) Classification de x effectuée en fonction de l hyperplan w x = 0 où w = w 0 w 1 w 2 et x = [ 1 x ] Réseaux de neurones p.6

Perceptron linéaire (2/4) Algorithme d apprentissage I Classification binaire y i { 1, +1} Initialisation w = 0 Répéter jusqu à convergence ou bien atteinte d un nombre max d itérations pour tous les exemples (x p, y p ) faire si σ(w x p ) = y p ne rien faire sinon w w + y p x p Réseaux de neurones p.7

Perceptron linéaire (3/4) Algorithme d apprentissage II (descente de gradient) Initialiser w aléatoirement Répéter jusqu à convergence ou atteinte d un nombre max d itérations Initialiser w i à 0 Pour tous les exemples (x p, y p ) calculer la sortie s = w x p pour chaque composante w i w i w i + η(y p s)x pi pour chaque composante w i faire w i w i + w i Réseaux de neurones p.8

Perceptron linéaire (4/4) Propriétés du perceptron linéaire convergence de l algorithme du perceptron garantie si séparabilité des exemples possible séparation impossible du XOR Extensions perceptron multi-couches kernel adatron [Friess et al., 1998] voted perceptron [Freund and Schapire, 1999] Réseaux de neurones p.9

Perceptron multi-couches (1/9) Neurone formel s j = i w jia i a j = σ(s j ) σ(x) = tanh(x) +1 w ji w kj 1 s i, a i s k, a k 1 σ(x) = i j k +1 1+exp( x) Perceptron multi-couches biais : activation = 1 x = x 1 x 2 i j k y 1 y 2 = y Réseaux de neurones p.10

Perceptron multi-couches (2/9) Fonction implémentée : f : R d R m Erreur quadratique, en posant o p = f(x p ) E(w) = l E p (w) avec E p (w) = 1 2 o p y p 2 = 1 2 p=1 m (o pq y pq ) 2 q=1 autres fonctions possibles (e.g. cross-entropy) Descente de gradient w t+1 = w t η w E(w), η > 0 Descente de gradient stochastique, à la présentation de l exemple (x p,y p ) w t+1 = w t η t w E p (w), η > 0 Réseaux de neurones p.11

Perceptron multi-couches (3/9) η, η t : pas d apprentissage, pas d apprentissage adaptatif Propriétés de η t pour descente de gradient stochastique η t, t η t < t Exercices Montrer que pour η assez petit la descente de gradient permet de diminuer à chaque étape l erreur E De quelle forme peut être η t? Réseaux de neurones p.12

Perceptron multi-couches (4/9) s j = i w jia i a j = σ(s j ) Rétropropagation du gradient (j s i, a i w ji w kj s k, a k neurone caché, k neurone de sortie), activation logistique i j k s j w ji = E p s j a i = δ j a i dérivation en chaîne : E p w ji = E p s j Montrer que pour k et tous les neurones de la couche de sortie δ k = E p s k = (y pk a k )a k (1 a k ) Montrer que pour j et tous les neurones de la couche cachée δ j = a j (1 a j ) k Succ(j) δ k w kj Réseaux de neurones p.13

Perceptron multi-couches (5/9) Algo. apprentissage : 1 couche cachée, σ(x) = (1 + e x ) 1 Répéter jusqu à convergence pour chaque exemple (x p,y p ) faire propager l information pour chaque neurone de sortie k calculer δ k a k (1 a k )(y pk a k ) pour chaque neurone caché j calculer δ j a j (1 a j ) k Succ(j) δ kw kj calculer le pas w t ij par w t ij = ηδ ja i mettre à jour les w ji avec w ji w ji + w t ij passer à l itération suivante t t + 1 Réseaux de neurones p.14

Perceptron multi-couches (6/9) Ajout d un moment : mise à jour selon w ji w ji + w t ij avec t w ij ηδ j a i + α t 1 ij w ij, 0 α < 1 accélère la convergence de l algorithme n a pas d effet sur la généralisation Couches cachées rétropropagation du gradient marche pour n importe quel nombre de couches cachées couche cachée : changement de représentation (cf exercices) Réseaux de neurones p.15

Perceptron mutli-couches (7/9) Exemple d autres fonctions d erreurs Erreur quadratique pénalisée (weight decay) E(w) = l p=1 E p + γ i,j w 2 ij, γ > 0 pénalise les réseaux avec des poids importants exercice : ré-écrire l équation de mise à jour de w ij correspondante Entropy croisée (cross-entropy), cas binaire y p {0, 1}, 1 neurone de sortie E(w) = l (y p log(o p ) + (1 y p ) log(1 o p )), o p = f(x p ) p=1 Réseaux de neurones p.16

Perceptron multi-couches (8/9) Capacités de modélisation des perceptrons multi-couches [Cybenko, 1988, Cybenko, 1989] toute fonction continue bornée peut être approchée avec une erreur arbitrairement petite par un PMC à une couche cachée toute fonction peut être approchée avec une erreur arbitrairement petite par un PMC à deux couches cachées Importance de la régularisation [Bartlett, 1997] contrôle de la taille des poids pour la généralisation Réseaux de neurones p.17

Perceptron multi-couches (9/9) Notions non présentées partage de poids sélection automatique de la structure par ajout de neurones par suppression de connexions gradient conjugué gradient exponentiel... Réseaux récurrents Réseaux RBF Réseaux de neurones p.18

Conclusion Perceptron linéaire algorithmes d apprentissage limitation du perceptron linéaire Perceptron multi-couches neurone formel avec activation sigmoidale calcul de gradient par rétropropagation qualité de l apprentissage malgré les minima locaux gradient stochastique choix de l architecture régularisation Réseaux de neurones p.19

Références [Bartlett, 1997] Bartlett, P. L. (1997). For valid generalization the size of the weights is more important than the size of the network. In Adv. in Neural Information Processing Systems, volume 9, page 134. [Cybenko, 1988] Cybenko, G. (1988). Continuous valued neural networks with two hidden layers are sufficient. Technical report, Department of Computer Science, Tufts University, Medford, MA. [Cybenko, 1989] Cybenko, G. (1989). Approximation by superpositions of a sigmoidal function. Mathematics of Control, Signals, and Systems, 2 :303 314. [Freund and Schapire, 1999] Freund, Y. and Schapire, R. E. (1999). Large Margin Classification Using the Perceptron Algorithm. Machine Learning, 37(3) :277 296. [Friess et al., 1998] Friess, T., Cristianini, N., and Campbell, N. (1998). The Kernel- Adatron Algorithm : a Fast and Simple Learning Procedure for Support Vector Machines. In Shavlik, J., editor, Machine Learning : Proc. of the 15 th Int. Conf. Morgan Kaufmann Publishers. Réseaux de neurones p.20