Coup de Projecteur sur les Réseaux de Neurones

Documents pareils
Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Chapitre 6 Apprentissage des réseaux de neurones et régularisation

Détection de la défaillance des entreprises tunisiennes par la régression logistique semi paramétrique et les réseaux de neurones

4.2 Unités d enseignement du M1

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

Utiliser des fonctions complexes

Optimisation de la compression fractale D images basée sur les réseaux de neurones

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Chapitre 2 Le problème de l unicité des solutions

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

Classification Automatique de messages : une approche hybride

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

TABLE DES MATIERES. C Exercices complémentaires 42

Introduction au datamining

Outils pour les réseaux de neurones et contenu du CD-Rom

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

SAS ENTERPRISE MINER POUR L'ACTUAIRE

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

SudoClick Reconnaissance de grilles de sudoku pour téléphones portables

«Cours Statistique et logiciel R»

Correction du bac blanc CFE Mercatique

données en connaissance et en actions?

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Arbres binaires de décision

NON-LINEARITE ET RESEAUX NEURONAUX

Chapitre 3. Les distributions à deux variables

Apprentissage Automatique

Résolution d équations non linéaires

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

L apprentissage automatique

5255 Av. Decelles, suite 2030 Montréal (Québec) H3T 2B1 T: F:

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Etude de fonctions: procédure et exemple

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

TRANSPORT ET LOGISTIQUE :

Pourquoi l apprentissage?

Modélisation et simulation du trafic. Christine BUISSON (LICIT) Journée Simulation dynamique du trafic routier ENPC, 9 Mars 2005

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.

Introduction au Data-Mining

ÉTUDE ET DÉVELOPPEMENT D UN SYSTÈME EXPERT BASÉ SUR LES RÉSEAUX DE NEURONES POUR LE DIAGNOSTIC DES DÉFAUTS DE ROULEMENTS

Etude du niveau stress ressenti par les salariés de plusieurs entreprises du tertiaire. Un outil de mesure.

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Filière Informatique de gestion. Facturation par APDRG : prédiction des recettes des cas non codés

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Chapitre 3 : Le budget des ventes. Marie Gies - Contrôle de gestion et gestion prévisionnelle - Chapitre 3

Rappels sur les suites - Algorithme

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

F7n COUP DE BOURSE, NOMBRE DÉRIVÉ

Optimisation, traitement d image et éclipse de Soleil

0DWKpPDWLTXHVGHO DUJHQW. édité par Mr. G.Moumoulidis (OTE)

Température corporelle d un castor (une petite introduction aux séries temporelles)

Correction du baccalauréat ES/L Métropole 20 juin 2014

BTS Groupement A. Mathématiques Session Spécialités CIRA, IRIS, Systèmes électroniques, TPIL

Agrégation des portefeuilles de contrats d assurance vie

Masters Spécialisés «Actuariat et Prévoyance» et «Actuariat et Finance»

I Stabilité, Commandabilité et Observabilité Introduction Un exemple emprunté à la robotique Le plan Problème...

Figure 3.1- Lancement du Gambit

Le data mining et l assurance Mai Charles Dugas Président Marianne Lalonde Directrice, développement des affaires

Poker. A rendre pour le 25 avril

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Les algorithmes de fouille de données

Traitement bas-niveau

Data Mining. Vincent Augusto École Nationale Supérieure des Mines de Saint-Étienne. Data Mining. V. Augusto.

Fonctions de plusieurs variables

CAPTEURS - CHAINES DE MESURES

Modélisation aléatoire en fiabilité des logiciels

L utilisation des réseaux de neurones artificiels en finance. Philippe PAQUET Professeur de Gestion

Projet de Traitement du Signal Segmentation d images SAR

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

CCP PSI Mathématiques 1 : un corrigé

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Régression linéaire. Nicolas Turenne INRA

Formation Actuaire Data Scientist. Programme au 24 octobre 2014

Table des matières. I Mise à niveau 11. Préface

Leçon N 4 : Statistiques à deux variables

Les équations différentielles

Emploi du temps prévisionnel

BACCALAURÉAT GÉNÉRAL SESSION 2012 OBLIGATOIRE MATHÉMATIQUES. Série S. Durée de l épreuve : 4 heures Coefficient : 7 ENSEIGNEMENT OBLIGATOIRE

Programmation par contraintes. Laurent Beaudou

a et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe le nombre ax + b

Relation entre deux variables : estimation de la corrélation linéaire

ANALYSE STATISTIQUE PRÉDICTIVE

Remerciements : Avant tout, louange à Dieu le tout puissant de m avoir aidé et permis d achever ce modeste travail.

Annexe commune aux séries ES, L et S : boîtes et quantiles

Méthodes d apprentissage statistique «Machine Learning»

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Découvrez le portefeuille de produits IBM SPSS

Sujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante.

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

3 Approximation de solutions d équations

LA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE

Chapitre 0 Introduction à la cinématique

Théorie des Jeux Et ses Applications

Transcription:

Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche à rétro propagation. De tels réseaux ont une couche d entrée, une couche de sortie et une ou plusieurs couches cachées. Essayons de modéliser le prix de maisons dans une ville ( ) en fonction de trois variables X 1, X 2, X 3 considérées comme les trois entrées, h 1 et h 2 sont les nœuds cachés de la couche cachée et est donc la sortie. W 10, W 20 et W 0 sont les biais possibles des poids. Un total de 11 poids est donc à déterminer ici. W 11, W 12, W 13 sont les poids qui relient les entrées au premier nœud de la couche cachée et W 21, W 22, W 23 sont les poids qui relient les entrées au deuxième nœud de la couche cachée. En partant de la couche cachée vers la couche de sortie, W 1 et W 2 représentent les poids des deux nœuds cachés. Dans les réseaux de neurones, les poids sont appliqués aux fonctions de transfert choisies qui peuvent être des fonctions identité, sinus, logistique, arc tangente, exponentielle, etc.

Dans les problèmes de prédiction on utilise généralement des fonctions Identité puisque l étendue possible d intervalle de valeurs peut se trouver entre - et +. Par contraste, les fonctions logistiques seront plutôt utilisées pour les problèmes de classification. Pour démontrer les estimations d un simple réseau de neurones 3-2-1, nous voulons modéliser la variable Valeur des Habitations Occupées en fonction des variables Nombre Moyen de Pièces, Part de Propriétaires Occupants, et Distance au Lieu de Travail. Les résultats de ce réseau de neurones donnent les 11 poids suivants : Les poids d entrée allant vers les nœuds de la couche cachée sont : W 11 = 8.58, W 12 = 0.47, W 13 = -4.74, W 21 = -3.26, W 22 = 9.94, W 23 = 1.33 Les poids des nœuds de la couche cachée allant vers la sortie : W 1 = 2.45, W 2 = -1.62 Les poids des nœuds biais associés respectivement au premier et deuxième nœud de la couche cachée et au nœud de sortie : W 10 = -4.54, W 20 = -5.18, W 0 = 0.2 Mathématiquement ensuite, les nœuds cachés sont calculés par la fonction de transfert, encore appelée fonction d écrasement, qui compresse les valeurs entre 0 et 1. La sortie d une fonction d activation est soit 0 soit 1 quand elle est logistique comme ici, soit encore comprise entre -1 et 1, selon la fonction d activation choisie : La fonction logistique f(x) = 1/(1 + e k(x+t) ), où k est le paramètre de pente et t est la valeur déplaçant le centre de la fonction d activation au-delà de zéro. Le biais d entrée constant permet d enlever le t de l équation. Nous pouvons considérer le cerveau comme un ordinateur à calcul parallèle, non linéaire et hautement complexe. Pour le moment, il n est pas possible de créer un cerveau artificiel, mais il est possible de créer des neurones artificiels simplifiés et des réseaux de neurones artificiels pour imiter au mieux le cerveau dans beaucoup de situations différentes. La fonction d activation va modéliser la décision à prendre avec un seuil fixé ici à 0.5. Comme le comportement d un neurone est binaire, soit il envoie un signal soit il n envoie pas de signal. Un neurone n envoie pas de signal si l activité accumulée reste sous le seuil. Et si l activité dépasse le seuil, un neurone envoie un signal (produit un pic). Cette valeur seuil jouera donc

le rôle d interrupteur du neurone pour transmettre l information au neurone suivant ou à la sortie. Nous utiliserons donc cette fonction sigmoïde pour mimer au plus près le comportement du cerveau! h 1 = 1/(1+e -z1 ) et h 2 = 1/(1+e -z2 ) ; si l'activation est inférieure à 0.5, alors l activation prendra la valeur 0, sinon 1. Après un certain nombre d itérations (epoch), les poids des modèles de fonction de transfert seront calculés pour correspondre à l objectif de minimisation de l erreur entre le résultat de la fonction d activation et la réponse prévue : z 1 = W 10 + W 11 X 1 + W 12 X 2 + W 13 X 3 = -4.54 + 8.58*Nombre Moyen Pièces + 0.47*Part de Propriétaires Occupants 4.74*Distance au Lieu de Travail z 2 = W 20 + W 21 X 1 + W 22 X 2 + W 23 X 3 = -5.18 3.26*Nombre Moyen Pièces + 9.94*Part de Propriétaires Occupants + 1.33*Distance au Lieu de Travail Étant données ces valeurs de nœud cachés, nous pouvons récupérer le nœud de sortie en utilisant la fonction linéaire résultante dans : = W 0 + W 1 h 1 + W 2 h 2 = 0.2 + 2.45* h 1 1.62* h 2 Pour obtenir le score des données de validation, nous alimenterons les valeurs d entrée par les valeurs issues de l ensemble de validation dans les formules de nœud et obtiendrons ainsi le score de sortie en utilisant la formule ci-dessus. Ce modèle est évidemment non-linéaire dans les poids à estimer à partir des données d apprentissage et, une méthode conventionnelle comme les moindres carrés est inappropriée.

Comment les poids sont calculés? Imaginons deux variables d entrée I1 et I2 avec un Biais d entrée constant I0 applicable sur W0, fixé à -1 et un taux d apprentissage fixé à 0.1. Le biais d entrée est l équivalent d une ordonnée à l origine dans une régression! En calculant chaque entrée du réseau, l erreur est calculée pour chaque entrée et évolue par rétro propagation dans le réseau pendant que les poids s ajustent de façon à rendre l erreur la plus petite possible. La méthode consistant à mettre à jour les poids après chaque donnée est en général appelée gradient stochastique. À la première observation de la première itération, les poids sont fixés par une amorce aléatoire I0 1 *W0 1 + I1 1 *W1 1 + I2 1 *W2 1 = -1*0.3 + 0*0.5 + 0*(-0.4) = -0.3 et <0, donc Activation = 0 et l Erreur E 1 = Valeur prévue Activation = 0-0=0. À la deuxième observation de la première itération, I0 2 *(W0 1 + 0.1*(I0 1 )*E 1 ) + I1 2 *(W1 1 + 0.1*(I1 1 )* E 1 ) + I2 2 *(W2 1 + 0.1*(I2 1 )* E 1 ) = -1*(0.3 + 0.1*(-1)*0) + 0*(0.5 + 0.1*(0)*0) + 1*((- 0.4) + 0.1*(0)*0) = -0.7 et <0, donc Activation = 0 et l Erreur E 2 = 0-0 = 0. À la troisième observation de la première itération, I0 3 *(W0 2 + 0.1*(I0 2 )* E 2 ) + I1 3 *(W1 2 + 0.1*(I1 2 )* E 2 ) + I2 3 *(W2 2 + 0.1*(I1 2 )* E 2 ) = -1(0.3 + 0.1*(-1)*0) + 1*(0.5 + 0.1*(0)*0) + 0*((-0.4) + 0.1*(1)*0) = +0.2 et >0, donc Activation = 1 et l Erreur E 3 = 0-1= -1. À la quatrième observation de la première itération, I0 4 *(W0 3 + 0.1*(I0 3 )* E 3 ) + I1 4 *(W1 3 + 0.1*(I1 3 )* E 3 ) + I2 4 *(W2 3 + 0.1*(I2 3 )* E 3 ) = -1*(0.3 + 0.1*(-1)*(-1)) + 1*(0.5 + 0.1*(1)*(-1))+ 1*((- 0.4) + 0.1*(0)*(-1)) = -0.4 et <0, donc Activation = 0 et l Erreur E 4 = 1-0= 1. Et ainsi de suite pour tous les points de l ensemble d apprentissage pour arriver à la convergence des erreurs vers zéro ou un minimum!

La convergence mène t elle à un bon réseau? La question fondamentale critique en développant un réseau de neurones est la généralisation : comment le réseau va se comporter pour prévoir des observations qui ne font pas partie de l ensemble d apprentissage? Les réseaux de neurones, peuvent souffrir soit de sous-ajustement, soit de sur-ajustement. Un réseau qui n est pas suffisamment complexe peut échouer pour détecter convenablement le signal dans un jeu de données complexes, menant à un sous-ajustement. Un réseau trop complexe peut ajuster du bruit, et pas seulement le signal, menant à un surajustement. Le sur-ajustement est spécialement dangereux parce qu il peut mener à des prévisions en dehors de l étendue des données d apprentissage dans beaucoup de types de réseaux de neurones. Il peut également produire des mauvaises prévisions dans les perceptrons multicouches même avec des données non bruitées! Il s'agit donc de sélectionner le modèle qui offre le meilleur compromis entre la complexité du réseau et les performances sur les ensembles d'apprentissage et de validation. STATISTICA Réseaux de Neurones Automatisées (SANN) dispose d outils pour sélectionner automatiquement le meilleur modèle en évitant le sur-ajustement. La meilleure façon d éviter le sur-ajustement consiste à utiliser beaucoup de données d apprentissage. Si vous disposez d au moins 30 fois plus d observations d apprentissage qu il n y a de poids dans le réseau, vous avez peu de chances de souffrir de sur-ajustement. Pour des données moins bruitées, 5 fois plus d observations d apprentissage que de poids peut être suffisant. Mais vous ne pouvez pas réduire arbitrairement le nombre de poids par peur du sur-ajustement!