La REGRESSION RIDGE 1 A

Documents pareils
Évaluation de la régression bornée

Exercice : la frontière des portefeuilles optimaux sans actif certain

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

3 Approximation de solutions d équations

CCP PSI Mathématiques 1 : un corrigé

1 Complément sur la projection du nuage des individus

Factorisation Factoriser en utilisant un facteur commun Fiche méthode

Fonctions de plusieurs variables

I. Ensemble de définition d'une fonction

AC AB. A B C x 1. x + 1. d où. Avec un calcul vu au lycée, on démontre que cette solution admet deux solutions dont une seule nous intéresse : x =

Chapitre 1 Cinématique du point matériel

Bien lire l énoncé 2 fois avant de continuer - Méthodes et/ou Explications Réponses. Antécédents d un nombre par une fonction

Simulation de variables aléatoires

Résolution de systèmes linéaires par des méthodes directes

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

DOCM Solutions officielles = n 2 10.

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Introduction à l économétrie : Spécifications, formes fonctionnelles, hétéroscédasticité et variables instrumentales

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

1S Modèles de rédaction Enoncés

Chapitre 3 Les régimes de fonctionnement de quelques circuits linéaires

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

1 radian. De même, la longueur d un arc de cercle de rayon R et dont l angle au centre a pour mesure α radians est α R. R AB =R.

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Filtrage stochastique non linéaire par la théorie de représentation des martingales

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Chapitre 5 : Flot maximal dans un graphe

Chapitre 3. Les distributions à deux variables

Angles orientés et trigonométrie

Cours d analyse numérique SMI-S4

Mario Geiger octobre 08 ÉVAPORATION SOUS VIDE

Chapitre 7. Récurrences

Chapitre 5. Équilibre concurrentiel et bien-être

Fonctions de deux variables. Mai 2011

Géométrie dans l espace Produit scalaire et équations

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Exo7. Limites de fonctions. 1 Théorie. 2 Calculs

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

Séance 0 : Linux + Octave : le compromis idéal

Chapitre 6. Fonction réelle d une variable réelle

L Econométrie des Données de Panel

Calcul différentiel. Chapitre Différentiabilité

3. Conditionnement P (B)

BAREME sur 40 points. Informatique - session 2 - Master de psychologie 2006/2007

Équations non linéaires

Suites numériques 3. 1 Convergence et limite d une suite

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Modélisation des risques

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Cours d Analyse. Fonctions de plusieurs variables

Corrigé du baccalauréat S Asie 21 juin 2010

Cours 02 : Problème général de la programmation linéaire

Chp. 4. Minimisation d une fonction d une variable

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

TSTI 2D CH X : Exemples de lois à densité 1

Raisonnement par récurrence Suites numériques

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Quelques contrôle de Première S

Fonctions linéaires et affines. 1 Fonctions linéaires. 1.1 Vocabulaire. 1.2 Représentation graphique. 3eme

Chapitre 4 Le deuxième principe de la thermodynamique

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Analyse en Composantes Principales

M2 IAD UE MODE Notes de cours (3)

Une introduction aux codes correcteurs quantiques

Sujet 4: Programmation stochastique propriétés de fonction de recours

3 ème 2 DÉVELOPPEMENT FACTORISATIONS ET IDENTITÉS REMARQUABLES 1/5 1 - Développements

Planche n o 22. Fonctions de plusieurs variables. Corrigé

Resolution limit in community detection

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

O, i, ) ln x. (ln x)2

I. Polynômes de Tchebychev

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Résolution d équations non linéaires

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

La maison Ecole d ' Amortissement d un emprunt Classe de terminale ES. Ce qui est demandé. Les étapes du travail

LE PRODUIT SCALAIRE ( En première S )

Introduction aux Statistiques et à l utilisation du logiciel R

Groupe symétrique. Chapitre II. 1 Définitions et généralités

Correction du Baccalauréat S Amérique du Nord mai 2007

Relation d ordre. Manipulation des relations d ordre. Lycée Pierre de Fermat 2012/2013 Feuille d exercices

Systèmes de transmission

Principe de symétrisation pour la construction d un test adaptatif

Calcul différentiel sur R n Première partie

F411 - Courbes Paramétrées, Polaires

Comparaison de fonctions Développements limités. Chapitre 10

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Les indices à surplus constant

Chapitre 5. Le ressort. F ext. F ressort

Couples de variables aléatoires discrètes

Chapitre 2 Le problème de l unicité des solutions

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Intégration et probabilités TD1 Espaces mesurés Corrigé

Le Modèle Linéaire par l exemple :

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

Transcription:

La REGRESSION RIDGE La régression Ridge ordinaire ou bornée ordinaire a été proposée par E. Hoerl et Kennard dans " Ridge regression : biaised estimation for nonorthogonal problems" Technometrics, Vol. Février 97. On part de la constatation suivante : lorsque l on se trouve en face d un problème de forte colinéarité les valeurs propres de t XX,les d 2 i = i correspondant à la colinéarité sont très petits. Hoerl et Kennard proposent de les augmenter faiblement en ajoutant à tous les d 2 i une même constante K>, ceci dans le but de rendre stables les coe cients. Regardons ce que donne cette proposition. Remarque: Ils ont également proposé une autre méthode, la Ridge Généralisée, pour laquelle la constante ajoutée varie suivant les variables; cette méthode est nettement plus complexe. Dé nition de la Ridge ordinaire (R.O.). Sur le modèle canonique Nous redé nissons le modèle canonique ( voir cours sur la colinéarité) dans un modèle cette fois centré et réduit. Soit le modèle! Y = X! a +!, V la matrice orthogonale des vecteurs propres (V t V = I) de t XXet sa matrice diagonale des valeurs propres i : On t XX = V t V et! Y = X! a +! = XV t V! a +! En notant le vecteurxv = Z et t V! a =! le modèle peut s écrire! Y = Z! +! c est le modèle sous sa forme canonique On constate que t ZZ = t V t XXV = t V V t V V = matrice diagonale des vecteurs propres ou des carrés des valeurs singulières donc V! t ZZ = @ i k A = @ = 2 ( t ZZ) = 2 matrice diagonale. d 2 d 2 i d 2 k A Dans ces conditions la régression Ridge Ordinaire donne le résultat suivant Hoerl et Kennard proposent donc d augmenter "un peu" les d 2 i en ajoutant à tous (même à ceux qui sont grands) la même constante K>. Cela conduit à augmenter tous les termes de la valeur K, comme t ZZ est une matrice diagonale, on obtient t zz + KI = @ d 2 + K :: :: :: :: :: d 2 k + K A

L estimateur canonique de la Ridge s écrit donc! cr = ( t ZZ + KI) t z! y Nous discuterons par la suite de la valeur à donner à K. Il devra être petit, mais que signi e "petit"? On le cernera mieux en prenant comme on l a indiqué au début un modèle dans lequel les variables sont centrées et réduites..2 Estimateur Ridge dans le modèle de base! bar = V! cr = V ( t V t XXV + K t V V ) t V t X! y = V [ t V ( t XX + KI)V ] V t X! y! bar = V t V ( t XX + KI) V t V X! y! bar = ( t XX + KI) X! y Car la matrice des vecteurs propres V est orthogonale. La ridge consiste donc à ajouter la constante K à tous les éléments diagonaux de t XX. C est la seconde dé nition de la ridge. 2 Propriétés de l estimateur R.O. 2. Espérance de l estimateur Ridge E(! bar) = E(( t XX + KI) t X! y ) = E(( t XX + KI) t X(X! a +! ) Si on fait les hypothèses classiques des erreurs d espérance nulle et des variables explicatives non aléatoires, on obtient, E(! bar) = E(( t XX + KI) t X(X! a +! ) = ( t XX + KI) t XX! a E(! bar) = ( t XX + KI) ( t XX + KI KI)! a =! a ( t XX + KI)! a De même E( cr)! =! ( t ZZ + KI)! L estimateur Ridge est donc biaisé. 2.2 Variance de l estimateur Ridge V car = ( t XX + KI) t XV! y X( t XX + KI) Si on fait l hypothèse de non autocorrélation et homoscédasticité alors V! y = 2 I de même V car = 2 ( t XX + KI) t XX( t XX + KI) V cr = 2 ( t ZZ + KI) t ZZ( t ZZ + KI) 2

2.3 Conclusion Nous nous trouvons face à un estimateur biaisé. Est-il meilleur que les MCO? Mystère car pour l instant nous ne savons comparer que des estimateurs sans biais : on prend celui de variance Minimum. Mais pour comparer des estimateurs sans biais avec des estimateurs biaisés il faut introduire un nouveau critère celui du M.S.E. 3 Le critère du Mean Square Erreur (M.S.E) 3. Dé nition du MSE La colinéarité entraine comme nous l avons vu des estimateurs qui bien que sans biais ont des variances trop grandes donc des intervalles de con ance trop grands. Il est parfois plus judicieux de prendre des estimateurs un peu biaisés mais avec des variances beaucoup plus faibles, ce qui conduira à des intervalles de con ance plus petits ( [! a! b ] ) Avec! b = E(! ba ) où! ba est un estimateur biaisé de! a Ainsi sur ce graphique (très laid) l estimateur biaisé est bien meilleur (intervalle de con- ance entre les deux crochets) que l estimateur sans biais mais qui a un intervalle de con ance (entre les deux parenthèses) beaucoup plus grand. Mais comment comparer ces deux estimateurs? Quand des estimateurs sont sans biais le meilleur est celui qui a la plus petite variance. Mais quand l un est biaisé et l autre sans biais comment choisir un critère sachant que le biais ne doit pas être grand. Il existe un critère, celui du MSE (mean square estimator), erreur quadratique moyenne. Dé nition : Si le vecteur! a est estimé par! ba estimateur biaisé de! a donc d espérance E(! ba ) 6=! a, on va dé nir le MSE par la matrice MSE(! ba ) = E[(! ba! a ) t (! ba Le travail se fera plutôt avec la trace de cette matrice en utilisant les propriétés de la trace qui est la somme des éléments de la diagonale du MSE trmse(! ba ) = E[ t (! ba! a ) (! ba trmse(! ba ) = E[ t (! ba E(! ba ) + E(! ba )!!!! a ) ( ba E( ba ) + E( ba ) = E[ t (! ba E(! ba )) (! ba E(! ba )] + E[ t (E(! ba )!!! a ) ( ba E( ba ))] +E[ t (! ba E(! ba )) (E(! ba ) + E[ t (E(! ba )!! a ) (E( ba ) or E[ t (! ba E(! ba )) (E(! ba ) (! ba E(! ba ))] donc = [ t (E(! ba ) E(! ba )) (E(! ba ) =! =E[ t (E(! ba )! a ) trmse(! ba ) = E[ t (! ba E(! ba )) (! ba E(! ba )] + E[ t (! ba E(! ba )) (E(! ba ) 3

trmse(! P ba ) = k P var(ba i ) + k (biais) 2 P Dans le cas d un estimateur sans biais la trace du MSE= k var(ba i ) 3.2 Propriétés du MSE Le MSE permet de comparer deux estimateurs qu ils soient sans biais ou biaisés. On prendra l estimateur qui a la plus petite trmse. Théorème : la trmse d un modèle est identique à celui de son modèle canonique qui est beaucoup plus facile à calculer. 3.2. Rappel du modèle canonique Soit le modèle! Y = X! a +!, V la matrice orthogonale des vecteurs propres (V t V = I) de t XXet sa matrice diagonale des valeurs propres i : On t XX = V t V et! Y = X! a +! = XV t V! a +! En notant le vecteurxv = Z et t V! a =! le modèle peut s écrire! Y = Z! +! c est le modèle sous sa forme canonique avec V! = 2 ( t ZZ) = 2 matrice diagonale. le MSE du modèle canonique s écrit dans un modèle sans biais: trmse(! ) = 2 P = i = 2 k =d 2 i ou les d i sont les valeurs singulières de la matrice X 3.2.2 Théorème k P Le modèle de base et son modèle canonique ont même trmse. trmse(! ba ) = trmse(! b ) Démonstration: trmse(! ba ) = E[ t (! ba!! a )( ba = E[ t (V! b V! )(V! b V! )] trmse(! ba ) = E[ t (! b! ) t V V (! b! )] = E[ t (! b!! )( b!! )] = MSE( b ) 4 Comparaison des MCO et de la R.O. On va e ectuer les calculs sur les modèles canoniques et toujours sur des données centrées réduites. 4. MSE de la R.O. trmse(! bar) = trmse(! cr) = P var(cr i ) + P biais 2 = P var(cr i ) + P (r i E(cr i )) 2 4

or E(! cr) =! B @ K=(d 2 + K) ::: K=(d 2 2 + K) ::: ::: ::: ::: K=(d 2 k + K) X (i P E(cr i )) 2 = k K 2 2 i =(d 2 i + K) 2 i= C B A @ 2 :: k C A La matrice de Variance-covariance de! b s écrit: =(d 2 V ar! cr = 2 + K) ::: d 2 @ ::: A @ :: ::: =(d 2 k + K) d 2 k d 2 =(d 2 = 2 + K) 2 @ ::: A d 2 k =(d2 k + K)2 donc P var(cr i ) = 2 P d 2 i =(d 2 i + K) 2 A @ =(d 2 + K) ::: =(d 2 k + K) A trmse(! cr) = 2 k P i= P d 2 i =(d 2 i + K) 2 + k K 2 2 i =(d 2 i + K) 2 i= La trmse de l estimateur Ridge s écrit 4.2 trmse des MCO trmse(! cr) = X 2 d 2 i + K 2 2 i (d 2 i + K)2 La trmse de l estimateur des MCO! b est ( pour K=) 4.3 Comparaison trmse(! b ) = X 2 d 2 i (d 2 i )2 = X 2 d 2 i Nous avons vu que la trmse de l estimateur Ridge s écrit trmse(! cr) = X 2 d 2 i + K 2 2 i (d 2 i + K)2 La trmse de l estimateur des MCO! b est ( pour K=) trmse(! b ) = X 2 d 2 i (d 2 i )2 = X 2 d 2 i 5

Pour que la Ridge soit meilleur estimateur que les MCO il faut suivant le critère du MSE que trmse(! cr) < trmse(! b ) X 2 d 2 i + K 2 2 i (d 2 i + K)2 < X 2 d 2 i Pour cela il su t de véri er l inégalité pour chaque i. Nous allons donc essayer de trouver une condition su sante pour que la Ridge soit meilleure ( au sens du MSE) que les MCO. Il su t donc d avoir pour chaque i C est une inégalité du second degré en K 2 d 2 i + K 2 2 i (d 2 i + K)2 < 2 d 2 i 2 d 4 i + K 2 2 i d 2 i < 2 (d 4 i + K 2 + 2Kd 2 i ) K 2 ( 2 i d 2 i 2 ) 2K 2 d 2 i < Si 2 i d 2 i 2 > l expression est négative entre les racines de l équation du second degré soit entre et une Ki = 22 d 2 i > 2 i d2 i 2 Si 2 i d 2 i 2 < les deux expressions sont négatives et la condition est toujours véri ée On en déduit donc que le MSE de la Ridge est inférieur au MSE des MCO si <K<min K i. Ce minimum ne peut être calculé en pratique car il dépend des valeurs théorique des coe cients 2 i : On prendra des valeurs de K très proches de pour être dans le bon cas. On vient donc de démontrer qu il y a des valeurs de K pour lesquelles la régression Ridge est meilleure que les MCO. 5 Application de la ridge Sur un modèle à 3 variables. On utilise des valeurs de K très petites et on constate que certains coe cients restent xes quand K augmente, d autres bougent au début pour se stabiliser. On remarque en théorie que pour K= on a les MCO et que si K! alors les coe cients de la Ridge tendent vers, ce qui n est pas le but recherché car K est choisi très petit d après la théorie vue ci-dessus. Interprétation du graphe (toujours aussi laid): prenons l exemple d un modèle à 3 variables 2 et 3 Variable : elle ne joue pas de rôle dans la colinéarité donc si on ajoute K très petit, son coe cient ne change pas 6

Variable 2 : elle joue un rôle dans la colinéarité avec la variable 3: son coe cient positif en K= (MCO) baisse un peu puis se stabilise. Variable 3 : Son coe cient qui était négatif devient positif puis se stabilise. Dans la plupart des modèles, on obtient ce genre de résultat. Si les variables ne sont pas colinéaires alors leur coe cient ne bouge pas en appliquant la ridge. Dans le cas des variables colinéaires certains coe cients bougent un peu et d autres beaucoup avant de se stabiliser, toujours avec K très petit. 6 Choix de K Nous rappelons que pour des raisons d élimination des unités, nous travaillons sur des variables CENTREES REDUITES comme le suggèrent Hoerl et Kennard. Le résultat de la Ridge! bar = ( t XX + KI) t X! y La matrice à inverser t XX + KI correspond à la matrice X X r = pki telle que t XX + KI = t X r X r : Les valeurs propres t XX + KI donc sont les valeurs propres de t XX plus K, donc les d 2 i + K Le conditionnement de la matrice X est Cond X=d max =d min Le conditionnement de la matrice X r est Cond X r = p d 2 max + K= p d 2 min + K S il y a colinéarité le conditionnement de la matrice X est très grand. Pour faire baisser ce conditionnement, on va passer à X r en lui imposant un conditionnement beaucoup plus faible ( par exemple 5 ou 3). Cela entraine une valeur de K Si par exemple on impose 3 7

CondX r = p q d 2 max + K= d 2 min + K = 3 (d 2 max + K) = 3 2 (d 2 min + K) K = d2 max 3 2 d 2 min 3 2 On prend cette valeur de K pour l estimation de la régression Ridge. On peut aussi (vivement recommandé) faire le graphe de l évolution des coe cients et regarder quand les co cients se stabilisent. 8