NON-LINEARITE ET RESEAUX NEURONAUX



Documents pareils
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Introduction à l approche bootstrap

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Principe de symétrisation pour la construction d un test adaptatif

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Économetrie non paramétrique I. Estimation d une densité

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Coup de Projecteur sur les Réseaux de Neurones

Probabilités III Introduction à l évaluation d options

Modèle GARCH Application à la prévision de la volatilité

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

données en connaissance et en actions?

MCMC et approximations en champ moyen pour les modèles de Markov

TABLE DES MATIERES. C Exercices complémentaires 42

Évaluation de la régression bornée

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Méthodes de Simulation

I. Polynômes de Tchebychev

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

CAPTEURS - CHAINES DE MESURES

Programmes des classes préparatoires aux Grandes Ecoles

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Le modèle de régression linéaire

1 Complément sur la projection du nuage des individus

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Théorèmes de Point Fixe et Applications 1

Le modèle de Black et Scholes

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Apllication au calcul financier

Exercices Corrigés Premières notions sur les espaces vectoriels

Économétrie, causalité et analyse des politiques

Théorie des sondages : cours 5

Chapitre 3. Les distributions à deux variables

de calibration Master 2: Calibration de modèles: présentation et simulation d

1 Définition de la non stationnarité

La mesure de Lebesgue sur la droite réelle

Quantification Scalaire et Prédictive

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

Les indices à surplus constant

Intérêt du découpage en sous-bandes pour l analyse spectrale

Modélisation aléatoire en fiabilité des logiciels

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Les conducteurs automobiles évaluent-ils correctement leur risque de commettre un accident?

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Simulation de variables aléatoires

3 Approximation de solutions d équations

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Introduction au Data-Mining

Données longitudinales et modèles de survie

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Apprentissage Automatique

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

Régression linéaire. Nicolas Turenne INRA

Interception des signaux issus de communications MIMO

Cours 02 : Problème général de la programmation linéaire

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre Palaiseau

4.2 Unités d enseignement du M1

Raisonnement probabiliste

5255 Av. Decelles, suite 2030 Montréal (Québec) H3T 2B1 T: F:

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

IFT3245. Simulation et modèles

Les modèles de choix binaire

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Apprentissage par renforcement (1a/3)

FOAD COURS D ECONOMETRIE 1 CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 2012.

Moments des variables aléatoires réelles

TSTI 2D CH X : Exemples de lois à densité 1

Propriétés des options sur actions

ERRATA ET AJOUTS. ( t) 2 s2 dt (4.7) Chapitre 2, p. 64, l équation se lit comme suit : Taux effectif = 1+

Résolution d équations non linéaires

La demande Du consommateur. Contrainte budgétaire Préférences Choix optimal

Soutenance de stage Laboratoire des Signaux et Systèmes

Chapitre 1. L intérêt. 2. Concept d intérêt. 1. Mise en situation. Au terme de ce chapitre, vous serez en mesure de :

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Chapitre 2 Le problème de l unicité des solutions

Logiciel XLSTAT version rue Damrémont PARIS

«Cours Statistique et logiciel R»

Résumé des communications des Intervenants

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Hedging delta et gamma neutre d un option digitale

Chapitre VI Fonctions de plusieurs variables

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Transcription:

NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail : marimout@montesquieu.u-bordeaux.fr et Thierry RONCALLI Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France e-mail : roncalli@montesquieu.u-bordeaux.fr Résumé Dans cette étude, nous montrons l influence du choix d un modèle (conditionnel ou non conditionnel) pour tester la linéarité dans un réseau de neurones. La détection de la non-linéarité dans ce cadre de référence pose des problèmes d interprétation statistique, qui limitent la validité de ces méthodes.

1 Introduction Dans les années récentes, plusieurs développements importants ont eu lieu dans l analyse des séries chronologiques non-linéaires ; les tests de linéarité, ou plus précisément la détection de la linéarité contre la non-linéarité, sont devenus plus populaires. L objet est d éviter la construction de modèle non-linéaire complexe lorsque cela n est pas nécessaire et de détecter si un modèle non-linéaire pourrait capturer tous les faits non-linéaires dans les données. La question naturelle est de savoir quel type de tests utiliser pour détecter la non-linéarité en moyenne conditionnelle ou en variance conditionnelle lorsqu on a considéré une certaine chronique. On se concentrera ici sur la linéarité en moyenne conditionnelle comme définie par Lee, White et Granger [1993] (LWG par la suite), c est-à-dire que le processus y t est linéaire en moyenne conditionnelle sur X t si Pr { E θ (y t X t ) = X t θ } = 1 θ R K où y t et X t sont des vecteurs de dimension G et K. L alternative est que cette probabilité est inférieure à 1 (y t n est pas linéaire en moyenne conditionnelle). Plusieurs tests sont admissibles (Granger et Teräsvirta [1993]). On distingue deux catégories importantes : les tests sans alternative non-linéaire spécifique comme le test du RE- SET. les tests contre un modèle non linéaire spécifique tel que le modèle STR (Smooth Transition Regression). La plupart de ces tests peuvent être formulés comme des test de type multiplicateur de Lagrange (LM), ce qui est intéressant car le modèle n a ainsi pas besoin d être estimé sous l alternative. D après Davidson et McKinnon (1993), ce type de test peut être obtenu à partir d une régression artificielle de Gauss-Newton. Cet article porte essentiellement sur les particularités du test de réseau neuronal (procédure développée par des cogniticiens) dans un cadre conditionnel et non conditionnel avec comparaison des performances en faisant 2

des études de Monte Carlo. La stratégie de test LWG se développe dans le cadre d un modèle conditionnel et la statistique de test porte sur l existence de non linéarité en moyenne, l alternative intéressante étant la non linéarité de la moyenne conditionnelle. Le problème que nous traitons est le suivant : Que se passe t-il si au lieu de traiter le modèle conditionnel, nous nous focalisons sur le modèle non conditionnel, c est à dire si nous utilisons la série filtrée de sa structure linéaire? 2 Test de non-linéarité dans un réseau neuronal 2.1 Le réseau Le réseau considéré est constitué de K entrées, de J unités cachées et de G sorties. Il est défini par les relations suivantes ζ j,n = a 0,j + K a k,j x k,n k=1 ξ j,n = f ( ) ζ j,n (1) κ g,n = J b j,g ξ j,n j=1 La fonction f est la fonction d activation du réseau. On considère généralement une fonction non linéaire bornée, comme la fonction logistique. C est pourquoi les relations (1) sont perçues comme celles définissant un modèle non linéaire. Le modèle statistique associé au réseau neuronal est y g,n = κ g,n + ε g,n avec et ε n N (0, Σ). ε n = ε 1,n. ε G,n 3

2.2 Linéarité et Non-linéarité Considérons deux séries temporelles y et x de dimensions respectives G et K. Si la série temporelle y est linéaire par rapport à celle de x, alors le processus de génération de données est de la forme suivante y g,n = x n β g + u g,n avec x n = [ ]. x 1,n x K,n Considérons que le bruit sur la série est gaussien de moyenne nulle. En reprenant la terminologie de LWG, l hypothèse de linéarité est Pr { E [y g,n x n ] = x n β g } = 1 Cela veut dire que si nous considérons le modèle statistique suivant alors nous devons vérifier que y g,n = x n β g + κ g,n + ε g,n (2) Pr {E [κ g,n x n ] = 0} = 1 Imposer l hypothèse de linéarité revient donc à poser b j,g = 0. L étude de la linéarité peut alors être menée selon une approche non conditionnelle ou conditionnelle : 1. Dans la première approche, le modèle (2) est estimé par maximum de vraisemblance. La log-vraisemblance pour l observation n est donnée par l expression suivante NG 2 ln 2π G N 2 ln det Σ ε n Σ 1 ε n 2. Dans la seconde approche, nous considérerons le modèle conditionnel suivant y g,n x n β g = κ g,n + ε g,n (3) Dans ce modèle, la linéarité de y par rapport à x est imposée a priori. Soit u g,n = y g,n x n β g la partie non prise en compte par la linéarité. Nous cherchons alors à extraire une structure non linéaire par le réseau. n=1 4

Le vecteur des paramètres d intérêt est θ = vec [ a b β Σ ] Dans le modèle non conditionnel, θ est estimé par maximum de vraisemblance. Dans le modèle conditionnel, β sous la condition de linéarité est approchée de façon efficace par un estimateur des moindres carrés. Les paramètres a, b et Σ sont ensuite estimés par maximum de vraisemblance. Si u g,n est orthogonal à κ g,n l hypothèse de linéarité est acceptée. Dans le cas contraire, deux problèmes se posent : la fonction κ g,n linéaire? est elle réellement engendrée par une fonction non la modification de la distribution sous-jacente par le conditionnement joue-t-elle un rôle dans la détection des non-linéarités? 3 Résultats 3.1 La construction de la procédure de test n est pas indifférente au modèle considéré On considére le modèle AR(1) suivant y t = 0.95y t 1 + u t En utilisant une seule unité cachée, nous devons vérifier que et que a 0 = a 1 = b 1 = β 0 = 0 β 1 = 0.95 Nous avons effectué 250 simulations pour une taille d échantillon de 1000 points et une variance σ 2 u égale à 0.25. Nous avons estimé les fonctions de densité des différents estimateurs par la méthode du noyau gaussien (Härdle et Linton [1994]). 5

Figure 1: Il est clair que le choix d une modélisation n est pas neutre sur les résultats (voir graphique 1 1). En effet, avec le modèle non conditionnel, il existe un biais important concernant les coefficients. De plus, les fonctions de densité des estimateurs ne sont pas symétriques par rapport au mode, lorsqu il en existe un. Pour le modèle statistique conditionnel, nous observons un biais seulement pour le coefficient β 0. Cependant, ce biais est relativement faible. 3.2 Linéarité et réseau neuronal 3.2.1 Processus linéaires et réseau neuronal Pour tester l hypothèse de linéarité, il ne suffit pas de tester l hypothèse b j,g = 0. En effet, cela n indique pas forcément que le processus sous-jacent est non linéaire. La non linéarité est introduite dans le réseau en spécifiant les unités cachées telles que nous avons ξ j,n = f ( ζ j,n ). Dans ce cas, la relation entre ξ j,n et ζ j,n est non linéaire si la fonction f est non linéaire. Cependant, 1 Les courbes en traits pleins (respectivement, en tirets) correspondent aux fonctions de densité pour le modèle conditionnel (respectivement, non conditionnel). 6

Figure 2: Figure 3: 7

la fonction f peut parfois être approximée localement par un fonction linéaire. De plus, nous pourrions utiliser une fonction linéaire. Il faut donc être très prudent et ne pas assimiler de façon systématique non linéarité et réseau neuronal. Considérons la fonction logistique f (x) = 1 1 + exp ( x) Considérons les points A et B (graphiques 2 et 3). Au voisinage de A, la fonction logistique présente une courbure nulle. Au point B, la courbure est maximale (voir graphique 2). Dans le premier cas, la fonction logistique peut être raisonnablement approximée par une droite (graphique 3). Si les valeurs prises par ξ j,n sont proches de 0.5, alors les relations (1) ne peuvent plus être considérées comme celles définissant un modèle non linéaire (graphique 3). Figure 4: Considérons une réalisation du processus AR(1) précédent. Le graphique 4 montre la trajectoire de cette série. Supposons que nous voulons modéliser 8

ce processus avec un réseau de neurones. La valeur de sortie du réseau correspond à κ 1,n (nous n utilisons pas de lien direct), c est-à-dire que le modèle statistique est y n = b 1 f (a 0 + a 1 y n 1 ) + ε n avec f la fonction logistique. Le coefficient b 1 apparait significativement différent de zéro. Si nous analysons les valeurs prises par ξ 1,n, la répartition du nuage de points ne se fait pas sur l ensemble du segment [0, 1], mais seulement sur une portion beaucoup plus faible [0.75, 0.87] (voir graphique 5). Même si la fonction est logistique et donc non linéaire, la relation entre ζ 1,n et ξ 1,n peut être considérée comme linéaire. En effet, le nuage des points peut être raisonnablement approchée par une droite. Figure 5: 3.2.2 Processus non linéaires et réseau neuronal Considérons maintenant le processus logistique bruité suivant y n = 1 1 + exp ( x n ) + ε n 9

avec ε n N (0, 0.01). C est un processus non linéaire par rapport à x n. La question posée est de savoir si le test de réseau neuronal permet de rejeter l hypothèse de linéarité. Car, si nous utilisons le modèle conditionnel, alors les cibles du réseau ne sont plus y n, mais la projection orthogonale de y n sur x n. La distribution sous-jacente est donc modifiée puisque nous avons appliqué un filtre linéaire. La fonction de densité empirique de b 1 (graphique 6) montre clairement que celle-ci est symmétrique autour du point 0. Dans la plupart des cas (en prenant une approximation gaussienne), l hypothèse de nullité du coefficient ne peut être rejeté. Cela indique que le réseau n a pas pu modéliser la série filtrée. Une implication importante pour la modélisation est que l imposition a priori de la linéarité peut favoriser cette hypothèse de linéarité, car le processus transformé n a plus les mêmes caractéristiques que le processus original. Figure 6: 10

Figure 7: 3.3 Le test de réseau neuronal se ramène-t-il seulement à un problème de test statistique? On considère le processus AR(1) précédent. On estime le modèle non conditionnel associé par maximum de vraisemblance. Le critère d arrêt pour l optimisation porte sur le vecteur gradient de la fonction de vraisemblance. Nous arrêtons l algorithme de maximisation lorsque l ensemble des valeurs du vecteur gradient sont inférieures à la tolérance ε. Nous envisageons différentes valeurs prises par ε. Nous reportons dans le tableau suivant les estimations des paramètres. ε = 0.1 ε = 0.001 ε = 0.00001 a 0 0.9999 0.9688 2.9361 a 1 1.0008 1.1272 3.3950 b 1 0.0637 0.7204 0.7745 β 0-0.0258-0.5082-0.7279 β 1 0.9430 0.8316 0.9215 σ 0.0499 0.0498 0.0498 11

Nous remarquons que les valeurs des paramètres dépendent significativement de ce critère d optimisation. En effet, la valeur prise par β 0 varie de -0.02 à -0.72 pour des valeurs de ε égales à 0.1 et 0.00001. Si nous nous intéressons au coefficient b 1, on peut supposer que le modèle est linéaire pour ε égal à 0.1, puisque b 1 prend une valeur proche de 0, alors que pour ε égal à 0.00001, cette hypothèse est difficilement tenable. La modélisation par le réseau dépend donc du critère de convergence et ce fait observé influe dramatiquement sur l objet à tester. Le modèle non conditionnel que nous avons utilisé est le suivant y n = β 0 + β 1 y n 1 + b 1 f (a 0 + a 1 y n 1 ) + ε n Soit c n la composant linéaire pure. Le modèle précédent peut s écrire y n = d n + c n + ε n avec c n = β 1 y n 1 et d n = β 0 + b 1 f (a 0 + a 1 y n 1 ). Nous remarquons que les valeurs prises par ˆd n appartiennent à l intervalle 2 [0.022, 0.029] pour ε égal à 0.1, et à l intervalle [0.016, 0.038] pour ε égal à 0.00001. Cela veut dire que même si b 1 n est pas nul pour ε égal à 0.00001, la partie considérée comme non linéaire est négligeable. Ceci vient du fait qu imposer un critère de tolérance plus contraignant (de 1 à 10000) nous amène à modéliser la partie irrégulière du processus, ce qui explique par ailleurs l élargissement du segment des valeurs prises par ˆd n. 4 Conclusion La conclusion principale est qu il est préférable d utiliser un modèle conditionnel dans une perspective d un test de linéarité. Cependant, des problèmes peuvent se poser si le processus sous-jacent est non linéaire du fait de la modification de la distribution sous-jacente. Dans une perspective d une modélisation non linéaire par un réseau neuronal, deux points doivent être vérifiés : 1. Le modèle statistique associé au réseau est-il non linéaire? 2. Le réseau ne modèlise-t-il pas la partie irrégulière du processus? 2 Nous avons ˆd n = ˆβ 0 + ˆb 1 ξ 1,n. 12

5 Reférences Davidson, R. et J.G. MacKinnon [1993], Estimation and Inference in Econometrics, Oxford University Press, Oxford Granger, C.W.J. et T. Teräsvirta [1993], Modelling Nonlinear Economic Relations, Oxford University Press, Oxford Härdle, W.et O. Linton [1994], Applied nonparametric methods, in Engle et MacFadden (eds.), Handbook of Econometrics, vol. IV, Elsevier Science B.V. Keenan, D.M. [1985], A Tukey nonadditivity-type test for time series nonlinearity, Biometrika, 72, 39-44 Lee, T-H., H. White et C.W.J. Granger [1993], Testing for neglected nonlinearity in time series models: A comparaison of neural network methods and alternative tests, Journal of Econometrics, 56, 269-290 Ramsey, J. [1969], Tests for specification errors in classical linear least squares regression analysis, Journal of the Royal Statistical Society, B, 350-371 Smith, M. [1994], Neural Networks for Statistical Modelling, Van Nostrand Reinhold, New York Tsay, R.[1986], Nonlinearity tests for time series, Biometrika, 73, 461-466 13