Econométrie et applications Ecole des Ponts ParisTech Département Sciences Economiques Gestion Finance Nicolas Jacquemet (nicolas.jacquemet@univ-paris1.fr) Université Paris 1 & Ecole d Economie de Paris N. Jacquemet (EEP Université Paris 1) Econométrie et applications ENPC ParisTech 1 / 136
Inférence Les MCO sous hypothèse de normalité 1 Inférence Les MCO sous hypothèse de normalité Le modèle linéaire normal Intervalles de confiance Test d hypothèses Conclusion : Robustesse de l hypothèse de normalité N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 53 / 136
Le modèle linéaire normal Le modèle linéaire normal Chapitre III : moments de l estimateur déduites de restrictions sur les moments de u. Absence de biais = situation moyenne / valeur vraie Précision et efficacité = oscillations autour de cette valeur Forme de ces oscillations = distribution de l estimateur. Permet de probabiliser l écart entre la vraie valeur et l estimation obtenue. H MCO 5 : u N (0, σ 2 I N ). Le terme d erreur suit une loi normale (multivariée) d espérance nulle et de matrice de variance-covariance σ 2 I N.! Forme de la distribution est la seule contrainte nouvelle ; Termes d erreur indépendants, d où u i N (0, σ 2 ) u i. P[u i U] = P[ u i σ U σ ] = Φ( U σ ). N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 54 / 136
RAPPELS Loi normale I Le modèle linéaire normal Loi normale de moyenne µ et de variance σ 2 : N (µ, σ 2 ). N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 55 / 136
RAPPELS Loi normale II Le modèle linéaire normal Propriétés : Symétrique : P[N (µ, σ 2 ) µ + t] = P[N (µ, σ 2 ) µ t] Centrée sur sa moyenne : P[N (µ, σ 2 ) µ] = P[N (µ, σ 2 ) µ] = 0.5. Toute combinaison linéaire de lois normales suit une loi normale. Soit Z N (µ, σ 2 ) alors Z = Z µ σ N (0, 1) (loi normale centrée réduite tabulations connues) Soit Z N (0, 1), alors : Z = σz + µ N (µ, σ 2 ). Lois composées : χ 2 Si Z l N (0, 1) alors Z Z = L Student Z 1 N (0, 1) Z 2 χ 2 (ν) : l=1 Z 2 l χ 2 (dim(z )). Z 1 Z2 /ν T (ν). Fisher Q 1 χ 2 (q 1 ), Q 2 χ 2 (q 2 ), et Q 1 Q 2 : Z = Q 1/q 1 F(q 1, q 2 ). Q 2 /q 2 Notations Densité : φ(z 0 ) = 1 2π exp( (z 0 µ) 2 ) ; 2σ 2 Fonction de répartition Φ(z 0 ) = P[Z z 0 ]. N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 56 / 136
Loi des observations I Le modèle linéaire normal Sous H1 MCO H5 MCO : y i X i N (X i b, σ 2 ) : loi (supposée) des observations, qui dépend de b. Loi des observations, si les données sont i.i.d : P(Y X, b ) = N φ(y i X i, b ) = L(Y, b X) i=1 fonction de vraisemblance de l échantillon b MV = ArgMaxL(Y, b X) Pour des raisons pratiques, on minimise l inverse du log. N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 57 / 136
Loi des observations II Le modèle linéaire normal Exemple modèle linéaire normal lnl(y, b, σ 2 X) = 0.5N log(2π) 0.5N log(σ 2 ) 0.5(Y Xb) (Y Xb)/σ 2 b MV lnl b σ 2 MV lnl σ = 0 b MV = (X X) 1 X Y = 0 σ2 MV = û û N N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 58 / 136
Loi des estimateurs I Le modèle linéaire normal Proposition Dans le modèle linéaire Y = Xb + u, sous H MCO, l estimateur des MCO de b suit une loi normale : b MCO N (b, σ 2 (X X) 1 ) ; Démonstration. Moments établis au Chapitre IV. Distribution : Y X est de loi normale. b MCO = (X X) 1 X Y : combinaison linéaire de lois normales loi normale. N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 59 / 136
Loi des estimateurs II Le modèle linéaire normal Distribution de µ MCO de µ : N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 60 / 136
Intervalles de confiance I Intervalles de confiance Definition On appelle intervalle de confiance du paramètre b au niveau 1 α, l intervalle : IC 1 α = [ b(y, X), b(y, X) ] tel que P (b IC 1 α ) = 1 α. Intervalle dans lequel la vraie valeur du paramètre a 1 α chances sur 100 de se trouver. b(y, X) et b(y, X) sont des fonctions des observations, des statistiques. Intervalle de confiance des MCO : Sous H5 MCO MCO, b k N (b k, σ 2 S k ), où S k désigne k ième élément diagonal (variance) de la matrice (X X) 1 ; MCO b k b k On a donc N (0, 1) ; σ2 S k N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 61 / 136
Intervalles de confiance II Intervalles de confiance Soit N α seuil tel que : P[N (0, 1) N α ] = α 2 et P[N (0, 1) N α] = α 2 ou encore : P[ N α N (0, 1) N α ] = 1 α. Alors : 1 α = P[ N α N (0, 1) N α ] = P[ N α MCO b k b k N α ] σ2 S k [ bmco ] MCO = P k N α σ2 S k b k b k + N α σ2 S k [ bmco IC au seuil 1 α des MCO : IC1 α MCO = ] k ± N α σ2 S k N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 62 / 136
Intervalles de confiance Intervalle de confiance estimé I Variance inconnue... estimée par σ 2 = û û/(n K 1) ; Proposition! û fonction de b MCO : variable aléatoire! Sous H MCO, (N K 1) σ2 σ 2 χ2 (N K 1) Démonstration. Loi de u i : u i N (0, σ 2 ) donc u i /σ N (0, 1). û = M X Y = M X u d où û /σû/σ = u M X u/σ 2 : somme de [N (0, 1)] 2. Dim(M) = N K 1 N K 1 termes û û/σ 2 χ 2 (N K 1) σ 2 = û û (N K 1) σ2 N K 1 χ 2 (N K 1). σ 2 N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 63 / 136
Intervalles de confiance Intervalle de confiance estimé II Loi jointe des estimateurs Corrélation? Proposition (Théorème de Cochran). b MCO et σ 2 sont indépendants. Démonstration. On a : X b MCO = PY et (N K 1) σ 2 = û û = Y MY. Par définition, P et M orthogonaux. N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 64 / 136
Intervalles de confiance Intervalle de confiance estimé III Proposition Sous H MCO n, b k MCO b k σ 2 S k T N K 1 k Démonstration. Etant données les lois des composantes, et l indépendance : bmco k b k σ 2 S k = (N K 1) σ 2 (N K 1)σ 2 b k MCO b k σ 2 S k N (0, 1) χ 2 (N K 1) N K 1 T N K 1 N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 65 / 136
Intervalles de confiance Intervalle de confiance estimé IV Intervalle de confiance estimé : N K 1 Soit tα seuil tel que : P[T t N K 1 α P[ T N K 1 t N K 1 ] = α Alors : P[ t α N K 1 α b k b k σ k N K 1 ] = P[T N K 1 tα ] = α 2 t Intervalle de confiance : IC MCO 1 α N K 1 α ] = 1 α = [ˆb MCO k ± ˆσ 2 S k t 1 α ]. ILLUSTRATION IC 95% du rendement de l éducation :. reg lnw adfe exp exp2 ------------------------------------------------------------------------------ lnw Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- adfe.0736465.0047603 15.47 0.000.0643051.0829879 exp.0336725.0067531 4.99 0.000.0204205.0469245 exp2 -.0004537.0001402-3.24 0.001 -.0007289 -.0001785 _cons 3.61396.1410164 25.63 0.000 3.337237 3.890683 ------------------------------------------------------------------------------ N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 66 / 136
Intervalles de confiance APPLICATION Intervalles de prévision I Soit X p la valeur des exogènes pour un individu hors-échantillon ; GM Ŷ p = X p b MCO est l estimateur BLUE de Y p (Chap IV). Ŷ p Y p = X p b MCO X p b u p = X p ( b MCO b) u p Moments : E(Ŷ p ) = Y p et : V (Ŷ p ) = E[(Ŷ p Y p )(Ŷ p Y p ) ] = E [[X p ( b MCO b) u p][x p ( b MCO b) u p] ] (absence de corrélation) = E[X p ( b MCO b)( b MCO b) X p ] + σ 2 = E[X p ((X X) 1 X u)((x X) 1 X u) X p ] + σ 2 = E[X p (X X) 1 X uu X(X X) 1 X p ] + σ 2 = X p (X X) 1 X I N σ 2 X(X X) 1 X p + σ 2 = σ 2 [X p (X X) 1 X p + 1] Variance estimée : V (Ŷ p ) = σ 2 [X p (X X) 1 X p + 1]. N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 67 / 136
Intervalles de confiance APPLICATION Intervalles de prévision II Loi : H5 MCO : Ŷ p combinaison linéaire de lois normales. Variance estimée Ŷ p Y p T V (Ŷ p N K 1. ) Intervalle de prévision : IP 1 α = [Ŷ p N K 1 ± tα V (Ŷ p )]. APPLICATION Salaire moyen à la fin de L3. reg lnw adfe exp exp2. scalar Vprev = 1.96*sqrt(_se[_cons]^2+e(rmse)^2). scalar lnwnoexp = _b[ _cons] + _b[adfe]*21. scalar winf0 = exp(lnwnoexp - Vprev). scalar wsup0 = exp(lnwnoexp + Vprev). display "IP à 95%, sortie de L3: [" winf0 "," wsup0 "]" IP à 95%, sortie de L3: [75.583168,401.7531]. scalar lnwnoexp = _b[ _cons] + _b[adfe]*21 + _b[exp]*10 + _b[exp2]*100. scalar winf10 = exp(lnwnoexp - Vprev). scalar wsup10 = exp(lnwnoexp + Vprev). display "IP à 95%, 10 ans d expérience: [" winf10 "," wsup10 "]" IP à 95%, 10 ans d expérience: [101.14812,537.64046] N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 68 / 136
Test d hypothèses Tests d hypothèses : définitions I On dispose d un estimateur θ de la vraie valeur d un paramètre, θ. Inférence : loi de l estimateur (distribution de probabilité) en fonction de la valeur vraie IC : Ensemble de valeurs susceptible de contenir la valeur vraie Test d hypothèses : probabilité que la valeur vraie soit égale à une valeur particulière. Structure d un test : Hypothèses sur la valeur vraie du paramètre : H 0 (θ) (Hypothèse nulle) contre H 1 (θ) (Hypothèse alternative) ; { H0 : θ = θ Par exemple, test d égalité : 0 H 1 : θ θ 0 N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 69 / 136
Test d hypothèses Tests d hypothèses : définitions II On cherche à prendre une décision : d 0 l hypothèse H 0 n est pas rejetée par l estimation fournie par les données ; l hypothèse H 0 est rejetée, H 1 est vraie. d 1 A partir d un estimateur du paramètre, θ, un test repose sur une statistique de test S( θ) = S(Y, X). La loi de S dépend de celle de θ, donc de la vraie valeur θ : L S (θ). La loi de S( θ) sous H 0 (i.e. sous l hypothèse que H 0 est vraie) est L S (H 0 (θ)) = L 0 S ; Soit s une valeur calculée de la statistique On peut calculer la probabilité d observer s si la loi de S est L 0 S Probabilité faible : s est une observation improbable de L 0 S il est improbable que L 0 S soit la loi qui a produit s d 1. La région critique correspond à l ensemble des valeurs de θ (i.e. des échantillons) conduisant à la décision d 1 : { } W = (Y, X) S(Y, X) > S N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 70 / 136
Test d hypothèses Tests d hypothèses : définitions III Un test n est jamais parfait conclusion probabiliste (décision vraisemblable au regard des faits) entre les deux décisions. Caractéristiques d un test : Risque de première espèce rejeter H 0 alors que H 0 est vraie α(w ) = P[ d 1 H0 ] = P[ W H0 ] Probabilité de condamner un innocent ; Risque de deuxième espèce accepter H 0 alors que H 1 est vraie β(w ) = P[ d 0 H1 ] = 1 P[ W H1 ] Probabilité de relâcher un coupable ; Puissance rejeter H 0 quand H 1 est vraie γ(w ) = P[ d 1 H1 ] = P[ W H1 ] = 1 β(w ) Probabilité de condamner un coupable. N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 71 / 136
Test d hypothèses Tests d hypothèses : critères de sélection I On souhaite minimiser les deux risques...! Min α(w ) = Min P[d 1 H0 ] =... = d 0 S(Y, X) W W! Min β(w ) = Min P[d 0 H1 ] =... = d 1 S(Y, X) W W... et maximiser la puissance.! Max γ(w ) = Max [1 β(w )] = Min β(w ) = d 1 S(Y, X) W W W Principe de Neyman : choisir le test qui maximise la puissance à risque de première espéce donné. Niveau d un test = risque de première espèce maximum. Test de niveau α 0 (5%,... ) : test (région critique) qui conduit à rejeter à tord l hypothèse nulle dans au plus α 0 % des cas. Règle alternative : Probabilité critique α c (p-value) Probabilité qu un tirage dans la loi de S sous H 0 fournisse une statistique au moins égale à celle obtenue. α c = P[L S( θ)] N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 72 / 136
Test d hypothèses Test sur la valeur d un paramètre I On sait que ˆb k MCO b k ˆσ 2 S k T N K 1. Si b k = b 0 alors ˆb k MCO b 0 ˆσ2 S k T N K 1 ; Si b k b 0 alors ˆb k MCO b 0 ˆσ2 S k ne suit pas T N K 1 Loi de Student : N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 73 / 136
Test d hypothèses Test sur la valeur d un paramètre II Test d égalité d un paramètre : { H0 : b k = b k 0 H 1 : b k b k 0 Statistique de test : t(b0 k) = ˆb k MCO b0 k. ˆσ 2 S k Région critique : Sous H 0 : t(b0 k) T N K 1. Loi de student : P[T N K 1 t N K 1 α ] = α P[t(b0 k) H0 N K 1 tα ] = α = risque de première espèce. Région critique de niveau α 0 : W = { (Y, X) : t(b k 0 ) } > t N K 1 α 0 En pratique : Choix d un niveau : α 0 ( 10%, 5%, 1%) ; Connaissant b MCO, on peut calculer t(b0) k ; Si t(b 0) k N K 1 t α 0 ou P[ T N K 1 t(b k 0 ) ] < α0 très improbable que cette statistique soit un T N K 1 i.e. on a au plus α 0 % de chances de se tromper en rejettant H 0 rejet. N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 74 / 136
Test d hypothèses APPLICATION Test de nullité d un paramètre I Dans le modèle Y = Xb + u, Test de nullité : { H0 : b k = 0 H 1 : b k 0 Test de significativité des paramètres : la valeur vraie est elle différente de 0? La variable correspondante est-elle pertinente dans le PGD vrai? Statistique de test : t = b k MCO ; σ 2 S k Sous H 0 : t T N K 1 Région critique : rejet de H 0 dès lors que t > tα Probabilité critique : p telle que P[ T N K t ] = p N K 1. N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 75 / 136
Test d hypothèses APPLICATION Test de nullité d un paramètre II ILLUSTRATION Mincer : t de Student et probabilités critiques.. reg lnw adfe exp exp2 ------------------------------------------------------------------------------ lnw Coef. Std. Err. t P> t [95% Conf. Interval] -------------+---------------------------------------------------------------- adfe.0736465.0047603 15.47 0.000.0643051.0829879 exp.0336725.0067531 4.99 0.000.0204205.0469245 exp2 -.0004537.0001402-3.24 0.001 -.0007289 -.0001785 _cons 3.61396.1410164 25.63 0.000 3.337237 3.890683 ------------------------------------------------------------------------------ Test de nullité à 5% : N K 1 lim t 5% = 1.96 N K 1 Tous coefficients significatifs à 5% Probabilités critiques : également à 1% Tests d égalité. t(b adfe = 0.065) = 0.0736465 0.065 = 1.816377119 < 1.96 accepté à 5% ; 0.0047603 t(b adfe = 0.064) = 0.0736465 0.064 = 2.026447913 > 1.96 rejeté à 5% ; 0.0047603 t(b adfe = 0.082) = 0.0736465 0.082 = 1.754826376 < 1.96 accepté à 5% ; 0.0047603 t(b adfe = 0.083) = 0.0736465 0.083 = 1.96489717 < 1.96 rejeté à 5% ; 0.0047603 L intervalle de confiance à 95% recouvre la région critique des tests à 5%! N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 76 / 136
Conclusion : Robustesse de l hypothèse de normalité Robustesse de l hypothèse de normalité Connaissant la loi de u i, inférence (i.e. conclusions probabilistes) sur la vraie valeur des paramètres.! Tous résultats vrais ssi la loi supposée pour les résidus est vraie. Hypothèse simplificatrice : Théorème de la limite centrale : pour toute suite de N variables aléatoires i.i.d., la moyenne tend vers une distribution normale lorsque N tend vers l infini. Illustration : Simulations On suppose une loi quelconque pour une variable aléatoire Z i ; On tire un échantillon de 6 observations ; On calcule la moyenne Z Z 1 ; On répète R fois l opération méta -échantillon de R moyennes ; Tracé de la distribution. N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 77 / 136
TCL Loi bimodale Conclusion : Robustesse de l hypothèse de normalité Variable aléatoire de loi bimodale : non centrée, non symétrique ; Distribution de la moyenne : N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 78 / 136
TCL Loi exponentielle Conclusion : Robustesse de l hypothèse de normalité Variable aléatoire de loi exponentielle : non centrée, non symétrique, strictement décroissante ; Echantillons de 6 observations ; Distribution de la moyenne : N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 79 / 136
TCL Loi normale Conclusion : Robustesse de l hypothèse de normalité! Propriétés asymptotiques échantillons de taille importante. Variable aléatoire de loi normale ; Echantillons de 6 observations Distribution de la moyenne : N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 80 / 136
Conclusion : Robustesse de l hypothèse de normalité Inférence sans l hypothèse de normalité Sous H3 MCO et H4 MCO, les résidus sont i.i.d. ; b MCO = (X X) 1 X Y = b + (X X) 1 X u = b + ( X X N ) 1 X u N b MCO est une fonction de la moyenne des X u. Pour toute distribution de u, TCL s applique. Permet de retrouver les résultats de distribution sans supposer la normalité.! Vrai lorsque l échantillon est grand Propriétés asymptotiques des MCO. Econométrie linéaire M1 (Chap. 2-3). N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 3 81 / 136
Conclusion : Robustesse de l hypothèse de normalité ABOWD, J. M., F. KRAMARZ, ET D. N. MARGOLIS (1999) : High Wage Workers and High Wage Firms, Econometrica, 67(2), 251 334. ANGRIST, J. D., ET G. W. IMBENS (1999) : Comment on James J. Heckman, "Instrumental Variables : A Study of Implicit Behavioral Assumptions Used in Making Program Evaluations", Journal of Human Resources, 34(4), 823 827. ANGRIST, J. D., ET A. B. KRUEGER (1991) : Does Compulsory School Attendance Affect Schooling and Earnings?, Quarterly Journal of Economics, 106(4), 979 1014. ASHENFELTER, O., ET A. KRUEGER (1994) : Estimates of the Economic Return to Schooling from a New Sample of Twins, American Economic Review, 84(5), 1157 1173. BECKER, G. S., ET N. TOMES (1986) : Human Capital and the Rise and Fall of Families, Journal of Labor Economics, 4(3), S1 S39. BLACK, S. E. (1999) : Do Better Schools Matter? Parental Valuation of Elementary Education, Quarterly Journal of Economics, 114(2), 577 599. CARD, D. (1995) : Using Geographic Variation in College Proximity to Estimate the Return to Schooling, in Aspects of Labour Market Behavior : Essays in Honour of John Vanderkamp, ed. by L. N. Christofides, E. K. Gran, et R. Swidinsky, pp. 201 222. University of Toronto Press, Toronto. DEZHBAKHSH, H., ET J. M. SHEPHERD (2006) : The Deterrent Effect of Capital Punishment : Evidence from a "Judicial Experiment", Economic Inquiry, 44(3), 512 535. N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 11 11.2 136 / 136
Conclusion : Robustesse de l hypothèse de normalité GALTON, F. (1886) : Regression Towards Mediocrity in Hereditary Stature, Journal of the Anthropological Institute, 15, 246 263. LONGLEY, J. W. (1967) : An Appraisal of Least Squares Programs for the Electronic Computer from the Point of View of the User, Journal of the American Statistical Association, 62(319), 819 841. MINCER, J. (1958) : Investment in Human Capital and Personal Income Distribution, Journal of Political Economy, 66(4), 281 302. (1974) : Schooling Experience and Earnings. National Bureau of Economic Research, New York. SOLON, G. (1992) : Intergenerational Income Mobility in the United States, American Economic Review, 82(3), 393 408. TREISMAN, D. (2000) : The causes of corruption : a cross-national study, Journal of Public Economics, 76(3), 399 457. WOLFERS, J., ET J. J. DONOHUE (2005) : Uses and Abuses of Empirical Evidence in the Death Penalty Debate, Stanford Law Review, 58, 791 846. N. Jacquemet (EEP Université Paris 1) Econométrie et applications CJ-Chap 11 11.2 136 / 136