Introduction à l économétrie : Spécifications, formes fonctionnelles, hétéroscédasticité et variables instrumentales

Transcription

1 Introduction à l économétrie : Spécifications, formes fonctionnelles, hétéroscédasticité et variables instrumentales Pierre Thomas Léger IEA, HEC Montréal 2013 Table des matières 1 Introduction 2 2 Spécifications et forme fonctionnelle Variables binaires Transformation non linéaire Analyse de la spécification Oubli de variables pertinentes Ajout de variables Hétéroscédasticité Introduction Hétéroscédasticité Variance de MCO: Estimateur de White Tests d hétéroscédasticité Test de Goldfed-Quandt (GQ) Test de Breusch-Pagan (BP) Test de Koenker Estimation : Les moindres carrés généralisés (MCG) Problèmes d endogénéité Introduction Estimation par variables instrumentales

2 5 Conclusion 40 1 Introduction Dans cette partie, nous aborderons les di érents types de problèmes rencontrés dans le processus de modélisation. Nous en profiterons pour dériver les biais occasionnés, la manière dont il est possible de détecter les problèmes, et enfin, la façon dont il est possible de les résoudre. Cette étape de la modélisation est très importante car elle met l accent sur les détails qui peuvent remettre en cause la validité des résultats obtenus. 2 Spécifications et forme fonctionnelle 2.1 Variables binaires Une variable binaire est une variable qui prend uniquement la valeur 0 ou 1. Ce type de variable est aussi appelée dummy et elle est utile lorsque l on veut introduire des facteurs qui sont qualitatifs et di Exemple de variables binaires : - Homme ou femme - Noir ou blanc - Urbain ou non urbain cilement quantifiables. Soit le modèle suivant qui utilise une variable binaire : lwage = femme + 1 educ + Á, (1) où lwage représente le logarithme du salaire et la variable binaire femme = 1 si l individu est une femme et femme = 0 si l individu est un homme. Il est à noter qu on aurait pu remplacer la variable femme par la variable 2

3 homme (égale à 1 si l individu est un homme et 0 sinon) et les conclusions seraient les mêmes ; ici le choix est arbitraire. Par conséquent, 0 est la di érence dans le salaire horaire entre les hommes et les femmes pour un niveau de scolarité équivalent et le même Á. Observons deux cas pour illustrer ce propos : Premier cas : Si nous supposons que E(u f emme, educ) = 0 0 = E [Y femme =1,educ] E [Y femme =0,educ]. Autrement dit, si nous posons comme hypothèse qu il n y a pas de problème d endogénéité, alors le coe cient 0 indique si le salaire entre femme et homme est identique pour un même niveau d éducation. En d autres termes, si on suppose que la partie non-observable qui a ecte le salaire n est pas corrélée avec le sexe, alors il n y aura pas de problème d endogénéité et, donc, 0 exprimera sans biais l e et partiel du sexe d un individu sur la variable dépendante. Si les salaires sont identiques, 0 doit être égale à zéro. ( ) est l intercepte pour les femmes et 0 est l intercepte pour les hommes (Important : se référer à la figure 1 dans l annexe). Remarque : Dans l exemple ci-dessus l éducation rapporte autant à la femme qu à l homme ( 1 est le même quel que soit le sexe de l individu) mais ces derniers commencent à un niveau de Y di érent pour une quantité d éducation nulle. Si nous n avons pas de problème d endogénéité, 0 peut représenter la di érence (la discrimination) dans les salaires horaires entre les femmes et les hommes. Les valeurs de 0 s interprètent comme suit : 3

4 Si 0 < 0 alors, pour un même niveau d éducation, les femmes gagnent moins en moyenne que les hommes. Si 0 > 0 alors, pour un même niveau d éducation, les femmes gagnent plus que les hommes. Si 0 =0alors, pour un même niveau d éducation, il n y a aucune discrimination entre les femmes et les hommes. Par exemple, si nous estimons le modèle dans Stata avec un échantillon de données, nous obtenons le tableau qui suit. L interprétation des coe cients des variables binaires est simple en pratique comme elles correspondent à des di érences entre les moyennes de deux groupes, ceteris paribus. Comme notre variable dépendante est le logarithme naturel du salaire horaire, ce modèle prédit que la femme moyenne gagne e $=1.044$ de moins par heure que l homme moyen. 4

5 Deuxième cas : Supposons que l e et marginal de l éducation sur les salaires est di érent entre les hommes et les femmes. Dans ce cas là, il faut réécrire l équation sans oublier d inclure l interaction entre la variable educ (l éducation) et la variable f emme (être une femme ou un homme) pour exprimer cette érence d e et marginal. Nous pourrions avoir, un modèle de cette forme : Ex : ln[y ]= femme + 1 educ + 1 educ femme + Á = ln[y ]=( femme)+( femme) educ + Á. Remarque : En prenant le logarithme de la variable dépendante (ln) nous exprimons la part de l intercepte qui est attribuable à la di érence de sexe di érence de pourcentage de Y. Définition des coe cients : Si l individu est un homme : l intercepte est 0 la pente est 1 Si l individu est une femme : l intercepte est la pente est = 0 est la di érence de l intercept hommes et femmes, 1 est la di érence de pente entre les hommes et les femmes (Important :seréférer à la figure 2 dans l annexe). 5

6 En estimant le modèle avec le mï me ï chantillon qu au paravant avec Stata, nous pouvons constater que l e et de l éducation sur le logarithme du salaire pour les femmes est di érent de celui des hommes. Les ordonnées à l orgine et les pentes sont di érentes dans ce modèle. Remarquons que le symbole "##" dans Stata est un opérateur spécifiant les interactions entre les variables. Le coe cient associé à f emme#c.educ exprime donc la di érence de l e et de l éducation entre les hommes et les femmes. Nous constatons alors que l e et de l éducation est plus grand chez les femmes que chez les hommes. Il est généralement intéressant de tester les hypothèses suivantes : H 0 : 1 =0, la pente est donc identique pour les hommes et les femmes = utilisation du test t 6

7 H 0 : 0 =0et 1 =0, le salaire moyen est identique pour les hommes et les femmes = utilisation du test F (hypothèses jointes) (contre leurs hypothèses alternatives H 1 respectives). 2.2 Transformation non linéaire Nous commençons par un exemple afin d illustrer les transformations non linéaires couramment employées. Test entre groupes : Nous voulons tester si un même modèle de régression décrit le logarithme du prix des maisons unifamiliales (LP RIXM) entre une ville A et une ville B. Nous écrivons alors l équation suivante : LP RIXM i = PROXEC i + 2 SUPERF i + 3 NBPIECE i + Á, où PRXEC i est la proximité d une école de la maison i, SUPERF i est la superficie du terrain de la maison et NBPIECE i est le nombre de pièces de cette maison. Pour savoir s il y a une di érence entre la ville A et la ville B, définissons une variable binaire villea i prennant la valeur 1 si la maison i se trouve sur le territoire de la ville A et la valeur 0 si la résidence se trouve dans la ville B. Avec cette nouvelle variable, le modèle se transforme de la manière suivante (forme non linéaire) : LP RIXM i = villea i + 1 PROXEC i + 1 villea i PROXEC i + 2 SUPERF i + 2 villea i SUPERF i + 3 NBPIECE i + 3 villea i NBPIECE i + Á i, 7

8 où nous e ectuons le test F : H 0 : 0 = 1 = 2 = 3 =0. Si nous ne réussissons pas à rejeter H 0, alors nous pouvons a rmer qu il ne semble pas y avoir de di érence entre la ville A et la ville B dans le prix des logis. Ce test peut être e ectué facilement en comparant le R 2 du modèle contraint et le R 2 du modèle non contraint. Exemple de résultats : Soit les résultats de la régression du modèle non contraint : LP RIXM i = villea i + 1 PROXEC i + 1 villea i PROXEC i + 2 SUPERF i + 2 villea i SUPERF i + 3 NBPIECE i + 3 villea i NBPIECE i. Supposons que l échantillon présente n = 262 observations et, qu après estimation, nous obtenons : RSR 2 =0.502 et R2 R =0.463, où l indice SR dénote le modèle sans restriction et R représente le modèle avec restriction. Pour calculer la statistique F, nous reprenons la régression où 0 = 1 = 2 = 3 =0(le modèle contraint), soit : LP RIXM = PROXEC + 2 SUPERF + 3 NBPIECE + Á. On obtient : Â R 2 =0.463 = R 2 R F = (RSR 2 R2 R )/4 (1 RSR 2 )/(n k) = ( )/4 ( )/(262 8) F = =

9 p-value = , donc au moins un n est pas égal à 0, H 0 est rejetée, et nous pouvons a rmer que notre échantillon suggère une di érence entre les deux villes. Cas général Soit k variables indépendantes et deux groupes (g =1ou 2). On s intéresse à savoir maintenant si l intercepte et les pentes sont identiques entre les groupes 1 et 2. Y = g,0 + g,1 x 1 + g,2 x g,k x k + u où l indice g représente le groupe. Le modèle avec restrictions a k +1 restrictions, puisqu on test si chaque est identique entre les deux groupes. Le modèle sans restriction a donc n 2(k + 1) degrés de liberté. De plus, nous avons : SSR 1 et n 1 observations pour g =1et SSR 2 et n 2 observations pour g =2. Dans le modèle sans restriction, nous avons : Remarques : SSR SR = SSR 1 + SSR 2 F = [SSR (SSR 1 + SSR 2 )] /[k + 1]. (SSR 1 + SSR 2 )/[n 2(k + 1)] 1. SSR est la somme des résidus au carré sur toute la population sans dummy ou, dit autrement, c est la somme des résidus au carré du modèle contraint. Il s agit simplement de fusionner les deux groupes, d estimer la régression et de calculer SSR. 9

10 2. La statistique F, dans ce cas particulier, est appelée la statistique de Chow 2.3 Analyse de la spécification Oubli de variables pertinentes Rappel : Lorsque l on oublie des variables pertinentes clés, cela peut entraîner une corrélation entre le terme d erreur et certaines variables explicatives. Ainsi, cet oubli conduit très souvent à une inconsistance et un biais dans tous les estimateurs MCO. Dans cette partie, nous allons etudier les di érences qui vont apparaître entre le vrai modèle et le modèle omettant une variable explicative. Premier cas : Le bon modèle Soit le modèle suivant : Y = X X Á, avec X 1 :(n k 1 ), X 2 :(n k 2 ), 1 :(k 1 1) et 2 :(k 2 1). Nous pouvons réécrire le modèle ainsi : Y = X X Á D Y = [X 1,X 2 ] Y = X + Á, C Á où X =[X 1,X 2 ]. Deuxième cas : Le modèle partiel Prenons maintenant le cas où nous omettons X 2, nous faisons donc une régression seulement sur X 1.Si 10

11 nous estimons Y = X Á, alors l estimateur MCO de 1 est : 1 = (X1X Õ 1 ) 1 X1Y Õ = (X1X Õ 1 ) 1 X1(X Õ X Á) = (X1X Õ 1 ) 1 X1X Õ 1 1 +(X1X Õ 1 ) 1 X1X Õ 2 2 +(X1X Õ 1 ) 1 X1Á Õ = 1 +(X1X Õ 1 ) 1 X1X Õ 2 2 +(X1X Õ 1 ) 1 X1Á. Õ Calculons l espérance de 1 : E( 1 X) = 1 +(X Õ 1X 1 ) 1 X Õ 1X 2 2. Or, sauf si X1 Õ X 2 =0, il y a un biais correspondant à (X1 Õ X 1) 1 X1 Õ X 2 lorsqu on estime 1. Donc, si nous oublions d inclure une variable explicative qui est corrélée avec une ou plusieurs autres variables explicatives, nous introduisons un biais dans l estimation de nos paramètres. Ce cas en particulier est appelé : biais de variables omises (omitted variable bias). N.B. : (X Õ 1 X 1) 1 X Õ 1 X 2 est l estimateur d une régression par MCO de X 2 sur X 1 Chaque colonne de cette matrice représente les coe cients associés à chaque variable de X 2 sur X 1, soit : # (X Õ 1 X 1 ) 1 X Õ 1 x 21, (X Õ 1 X 1) 1 X Õ 1 x 22,...,(X Õ 1 X 1) 1 X Õ 1 x 2k 2 $ (k 1 k 2 ). Exemple : Soit : y i = x i1 + 2 x i2 + Á i. 11

12 Si nous régressons y i sur x i1 uniquement, nous obtienons E( 1 )= 1 + S 2, où S est le coe cient de régression obtenu en régressant x 2 sur x 1. Il s agit donc d une mesure de corrélation entre 1 et 2. E( 1 ) contient ainsi deux composantes : la vraie valeur de 1 et une autre composante (S 2 )qui tente de répliquer l e et du coe avec 2. cent 2 dans la mesure où 1 est corrélé Calculons maintenant la variance : Si nous oublions X 2 : Y = X Á = Var( 1 )= 2 (X Õ 1X 1 ) 1, mais, comme vu auparavant, 1 est biaisé. Dans le vrai modèle, ou bon modèle (BM) : Y = X X Á = Var( BM 1 )= 2 (X Õ X) 1 et Donc, 2 (X Õ X) 1 = C Var( 1 BM ) Cov( 1 BM, 2 BM ) Cov( 2 BM, 1 BM ) Var( 2 BM ) D. Var( BM 1 ) = 2 (X Õ 1MX 1 ) 1 et, avec M = I X 2 (X2 Õ X 2) 1 X2 Õ, nous avons : Var( BM 1 ) = 2 (X Õ 1(I X 2 (X Õ 2X 2 ) 1 X Õ 2)X 1 ) 1 Var( BM 1 ) = 2 (X Õ 1X 1 X Õ 1X 2 (X Õ 2X 2 ) 1 X Õ 2X 1 ) 1. 12

13 Si nous comparons la variance de l estimateur 1 obtenue avec les deux modèles, nous trouvons que : Var( 1 ) 1 Var( BM 1 ) 1 = 1 2 (XÕ 1X 1 ) 1 2 (XÕ 1X 1 X Õ 1X 2 (X Õ 2X 2 ) 1 X Õ 2X 1 ) Var( 1 ) 1 Var( BM 1 ) 1 > 0 = 1 2 (XÕ 1X 2 (X Õ 2X 2 ) 1 X Õ 2X 1 ), = Var( 1 ) 1 > Var( 1 BM ) > Var( 1 ) Var( 1 BM ) Var( 1 ) < Var( 1 BM ). 1 est biaisé et sous-estime la variance Ajout de variables Qu arrive-t-il si nous ajoutons une variable non pertinente dans un modèle? Soit le vrai modèle : Y = X Á. Ajoutons une variable X 2 au bon modèle : Y = X X Á. En réalité, cela revient à ne pas imposer la restriction 2 =0. Il n y a donc pas de problème de biais et 2 devrait être, en moyenne, égal à 0. Par contre lorsqu on ajoute des variables inappropriées, nous perdons de la précision dans notre estimation et la variance des estimateurs est plus grande. 13

14 3 Hétéroscédasticité Lorsque nous avons étudié le modèle linéaire, nous avons fait l hypothèse que la variance du terme d erreur était constante conditionnellement aux variables explicatives. Nous disions alors qu on était en présence d homoscédasticité. Intuitivement, cela veut dire que la variance du terme d erreur est constante peu importe le niveau des variables explicatives. Dans cette section, nous étudions ce qui arrive lorsque cette hypothèse est relâchée. 3.1 Introduction Rappel : La condition d homoscédasticité (MRL 5) estvar(á i x 1, x 2,...x k )= 2, i œ {1, 2,...,n}. Si la variance du terme d erreur varie, conditionnellement à x i, nous nous retrouvons en présence d hétéroscédasticité. Exemple d hétéroscédasticité : Si nous e ectuons un sondage afin de recueillir des données sur le revenu et la consommation d individus habitant la ville de Montréal, nous risquons de remarquer que les individus ayant un revenu faible auront un niveau de consommation très similaire, puisque la très grande majorité de leur revenu servira à consommer des biens de base. Il y aura donc très peu de variation dans le niveau de consommation. Cependant, pour les individus avec un revenu élevé, nous risquons de remarquer que le niveau de consommation varie beaucoup plus. En e et, certains consommeront presque tout leur revenu, tandis que d autres épargneront une grande portion de celui-ci. Ainsi, il y aura une plus grande variation dans le niveau de consommation lorsque le niveau de revenu est élevé. 14

15 En se référant à la matière de la première partie du cours, nous savons que même sans l hypothèse d homoscédasticité, les estimateurs MCOs sont toujours sans biais sous les hypothèses MLR 1 à 4. Cependant, sans cette dernière, ils ne sont pas BLUE. Nous avons aussi vu auparavant que l estimateur MCO de est avec = (X Õ X) 1 X Õ Y = =(X Õ X) 1 X Õ (X + Á) = = +(X Õ X) 1 X Õ Á = E( x) =, si X Á. Notons, qu il n y a aucune raison de penser que X et Á ne sont plus indépendant, nous pouvons toujours avoir E(Á x) =0en présence d hétéroscédasticité. 3.2 Hétéroscédasticité Considérons le modèle suivant : Y = X + Á. (2) L hypothèse d homoscédasticité (MRL 5) impliquait : S 2 T 0 Var(Á) =E(ÁÁ Õ X) = 2 2 I n = W. U.. X. V 0 2 Note : Même si nous relâchons MRL 5, nous supposerons, comme nous l avons fait lorsque l hypothèse tenait, que Cov(Á i Á j )=0si i = j (MRL 2). En présence d hétéroscédasticité, nous exprimons la variance comme : Var(Á i x i )= 2 i, avec i =1, 2,,n. (3) 15

16 Rappelons que Á =[Á 1, Á 1,, Á n ] Õ. Si nous connaissons la forme que prend l hétéroscédasticité, on peut écrire la variance du terme d erreur comme le produit d un terme fixe, 2, et d un terme w i qui change selon les observations. Ainsi, nous aurons : E(ÁÁ Õ x) = 2, où S = W U w 1 0 w w n T X et V 2 i = w i 2. Par conséquent : S E(ÁÁ Õ X) = W U w w w n 2 T S X = W V U n T X. V Dans l exemple du début, le revenu des foyers pourrait être Ô w i ( Ô w i pourrait aussi être une autre fonction du revenu des foyers, cela dépend de la forme que prend l hétéroscédasticité). Il faut aussi normaliser : tr( )= nÿ w i = n, i=1 où tr( ) désigne l opérateur trace qui fait la somme des éléments de la diagonale de la matrice. Remarques : 1 Si w i = 1, i œ {1, 2,,n}, nous retrouvons le cas classique de E(ÁÁ Õ x) = 2 I n. 2 L estimateur MCO est sans biais même si nous sommes en présence d hétéroscédasticité si MLR 1 à 4 tiennent. 16

17 3 L estimateur MCO n est plus BLUE en présence d hétéroscédasticité. 4 Comme nous ne sommes plus en présence d homoscedasticité, Var( X) est estimée avec un biais et : (a) les statistiques t ne suivront plus une distribution de Student et sont donc invalides. (b) les statistiques F ne suivront plus une distribution de Fisher et sont donc invalides Variance de MCO: Lorsque nous étudiions le modèle linéaire, nous avions dérivé la variance conditionnelle de : 5 1 Var( 2 6 Õ X) = E !X = E Õ X " 1!X X Á21 Õ Õ X " Õ X Õ Á Ë!X = E Õ X " 1 X Õ ÁÁ Õ X(X Õ X) 1È =! X Õ X " 1 X Õ E(ÁÁ Õ x)x(x Õ X) 1 = 2! X Õ X " 1. Cependant, nous venons de voir que, en cas d hétéroscédasticité, E(ÁÁ Õ x) = 2 = 2 I n et donc : Var( X) = 2! X Õ X " 1 X Õ X(X Õ X) 1. Si = I n, alors : Par conséquent : Var( X) = 2! X Õ X " 1. 17

18 Les écarts-types de MCO ne sont plus fiables. Les tests T et les tests F sont maintenant invalides. Var( X) =S 2 (X Õ X) 1 X Õ X(X Õ X) 1 = S 2 (X Õ X) 1 et Var( X) n est calculable que si est connu. Important : L estimateur des MCOs n est plus BLUE. Dans ce contexte, il serait possible de trouver des estimateurs linéaires et sans biais avec une plus petite variance. 3.3 Estimateur de White Il est tout de même possible de trouver un estimateur consistant de la variance de. Un estimateur consistant est un estimateur qui converge en probabilité vers le paramètre qu il tente d estimer et qui se concentre de plus en plus autour de ce paramètre à mesure que le nombre d observations augmente. Ainsi, la variance d un estimateur consistant diminue à mesure qu on augmente la taille de l échantillon. Rappel : Var( X) = 2! X Õ X " 1 X Õ X(X Õ X) 1 Var( X) =! X Õ X " 1 X Õ Ë 2 È X(X Õ X) 1. Par contre, nous pouvons démontrer qu il n est généralement pas possible d estimer, de manière consistante, les n variances spécifiques et donc 2. Il est cependant possible d estimer la matrice X Õ 2 X de dimension (k k). 18

19 Nous voulons donc estimer : = 1 n XÕ 2 X = 1 n (k k) nÿ i 2 x i x Õ i. i=1 (k 1)(1 k) où l indice i fait référence à la i eme ligne et où x i est de dimension (k 1). Rappelons que x i est le vecteur des observations des variables indépendantes pour l individu i. Tel que discuté précédemment, MCO est sans biais même en présence d hétéroscédasticité. Ainsi, ˆÁ = Y X MCO est toujours sans biais et, si S 0 est l estimateur de (où plim(s 0 )= ), alors : S 0 = 1 nÿ Á 2 i x i x Õ n i. i=1 L estimateur S 0 est consistant, c est-à-dire qu à mesure qu on augmente le nombre d observations, n, nous diminuons sa variance. L estimateur de Var( ) peut être noté Var( )=n(x Õ X) 1 S 0 (X Õ X) 1. Var( ) et est donc simplement : On peut démontrer que Var( ) converge en probabilité vers Var( ). Ò Nous qualifions généralement les écarts-types Var( ) de robustes à l hétéroscédasticité. Il faut cependant noter que ces écarts-types ne sont valides qu avec de grands échantillons et que les statistiques t et les statistiques F calculées avec ces écarts-types peuvent être invalides sur de petits échantillons. 19

20 Dans le logiciel Stata, il est très facile d obtenir les estimateurs de White. Il su t d ajouter l option robust à la fin de la commande de régression. 3.4 Tests d hétéroscédasticité Puisque l hétéroscédasticité invalide les résultats des tests (particulièrement les tests t et F) et fait en sorte que les MCOs ne sont plus BLUE, il apparaît utile de pouvoir tester sa présence. Nous pouvons toujours tracer un graphique de "points" et observer s il y a de l hétéscédasticité, cependant il est préférable de procéder à un test formel. Les trois prochaines sous-sections portent sur de tels tests. 20

21 3.4.1 Test de Goldfed-Quandt (GQ) L idée générale du test peut se résumer comme ceci : si la variance est constante à travers les observations, c est-à-dire s il y a homoscédasticité, alors nous devrions trouver que la variance est la même partout dans l échantillon. Nous pouvons alors séparer l échantillon en di érents groupes et tester si la variance des di érents groupes est la même. Donc, nous divisons l échantillon en deux groupes, le groupe 1 et le groupe 2, et nous posons H 0 : 1 2 = 2 2, où 2 1 représente la variance du groupe 1 et 2 2 la variance du groupe 2. Notez bien qu il faut diviser l échantillon en deux groupes en "ordonnant" selon Z i, c est-à-dire qu on doit créer un groupe avec les plus petits Z i et un autre avec les plus grands. La variable Z i est la variable qui est suspectée d être reliée à t 2. Il s agit donc d une des variables explicatives (donc un x k ). Dans l exemple au début de ce document, Z i serait le niveau de revenu. Nous avons donc : i 2 = 2 Zi 2. Le test peut être résumé en quatre étapes : 1 Nous divisons le groupe en deux, nous avons n 1 observations dans le groupe 1 et n 2 observations dans le groupe 2. 2 Nous appliquons la méthode MCO sur les n 1 premières observations pour obtenir Á Õ 1 Á qn 1 1 ( Á 2 i ou SSR 1 ). t=1 3 Nous appliquons la méthode MCO sur les n 2 dernières observations pour obtenir Á Õ 2 Á nq 2 ( Á 2 i ou SSR 2). t=n n Nous e ectuons un des deux tests F suivants, selon la forme d hétéroscédasticité que l on suspecte : 21

22 Selon le test e ectué, les statistiques F prendrons alors l une ou l autre des deux formes suivantes : 1 er cas : H 0 : 2 1 = 2 2 H 1 : 2 1 > eme cas : H 0 : 2 1 = 2 2 H 1 : 2 1 < 2 2 F [n 1 k, n 2 k] = ÁÕ 1 Á 1/(n 1 k) Á Õ 2 Á 2/(n 2 k) F n 1 k,n 2 k, F [n 2 k, n 1 k] = ÁÕ 2 Á 2/(n 2 k) Á Õ 1 Á 1/(n 1 k) F n 2 k,n 1 k. Pour augmenter la précision et le pouvoir du test, Goldfed et Quandt suggèrent d omettre une partie de l échantillon située au centre - entre un sixième et un tier de l échantillon. Aussi, le test suppose que la variance de Á est proportionnelle à x i et que l hétéroscédasticité est causée par une seule variable explicative. Avec Stata, nous pouvons suivre les étapes et tester s il y a présence d hétéroscedasticité. Illustrons cela à l aide d un exemple. Exemple d implémentation du test GQ Reprenons la régression (1) pour exprimer ce point. Rappelons nous que le modèle prennait la forme suivant : lwage = femme + 1 educ + Á. Nous soupçonnons qu il y a présence d hétéroscédasticité et que celle-ci provient de la variable educ. Intuitivement, nous pourrions justifier un tel 22

23 soupçon en soulignant qu il serait raisonnable de croire que les gens présentant le plus faible niveau auraient une moins grande variation dans leur salaire que les gens présentant un plus grand nombre d années d éducation. En e et, une plus grande quantité d éducation a générallement un e et positif sur le revenu, mais dans des mesures di érentes selon le domaine d étude. Ainsi, il serait raisonnable de supposer que la volatilité salariale entre les individus croît avec l éducation. Afin de soutenir ou de contredire cette hypothèse, nous e ectuons les régressions pour le début et la fin de l échantillon après avoir ordonné les données par la variable educ. Premièrement, nous ordonnons les données avec la commande sort. Ensuite, nous e ectuons la première régression pour les plus petites valeurs de educ et nous sauvegardons les statistiques nécessaires. 23

24 Puis, pour la deuxième régression (sur les valeurs de educ les plus élevées), nous obtenons le tableau ci-dessous. 24

25 Finalement, nous comparons les deux résultats obtenus et nous les exprimons en utilisant la commande scalarlist. 25

26 Cette valeur doit être confrontée à la valeur de F pour un seuil de significativité donné. Si =0.05, nous avons : Nous voyons que R>F 30,30,0.05 et que nous sommes donc en présence d hétéroscedasticité Test de Breusch-Pagan (BP) Ce test est une alternative intéressante au test GQ. En e et, le test de BP permet, contrairement au test GQ, la présence de plus qu une source d hétéroscédasticité. Nous observons la raison de cela dans l exposition qui suit. Pour obtenir la statistique du test BP, il faut d abord estimer le modèle de régression. Supposons qu il prend la forme y = x x k x k + Á et posons l hypothèse nulle suivante : avec Z i : variables indépendantes. H 0 : 2 i = 2 f( 0 + Õ Z i ) w i (4) Remarque : Si =0, alors le modèle est homoscédastique. Soit Z une matrice de dimension (n (p + 1)) formée des observations (1,Z i ) et soit g, un vecteur de taille (n 1), dont la i eme entrée est donnée par : g i = Á2 i ( Á Õ Á)/n. 26

27 Alors, nous définissons une statistique LM comme : LM = 1 2 [gõ Z(Z Õ Z) 1 Z Õ g] 2 p. Si H 0 est vraie, alors {( =0) = (résidus homoscédastiques)}. En d autres termes, cela signifie que, si =0, alors la variance de Á i sera 2 i = 2 f( 0 ), i œ {1, 2,,n}. Remarques : Ce test est toutefois sensible à l hypothèse de normalité. Le test LM suit une loi Khi-carré avec p degrés de libertés. Dans le chapitre 8 de Wooldridge, il se trouve l explication étape par étape d une version plus pratique pour estimer le test. Avec Stata, nous pouvons performer un test similaire au test de Breusch- Pagan, le test de Cook-Weisberg avec la commande hettest. Nous pouvons rejeter l hypothèse nulle d homoscedasticité. Il faut bien utiliser une correction pour l hétéroscedasticité afin que notre inférence soit valide. 27

28 3.4.3 Test de Koenker Koenker suggère un test basé sur un estimateur plus robuste de la variance de Á 2 i. L hypothèse nulle de ce test est identique à celle de Breusch et Pagan. Tout comme dans l approche précédente, SnousTutilisons un test LM. 1 Soit µ = [ Á 2 1, Á2 2,, Á2 n], µ =( Á Õ 1 Á)/n, i = W X et V, que l on U. V 1 (n 1) définie comme : V = 1 nÿ [( Á 2 i ( Á Õ Á)/n] 2. n i=n Alors, la statistique LM du test de Koenker prend la forme : LM = 1 V (µ µi)õ Z(Z Õ Z) 1 Z Õ ((µ µi) 2 p. Remarque : Ce test est valide même en l abscence de normalité. 3.5 Estimation : Les moindres carrés généralisés (MCG) Nous avons vu que, dans un contexte où (MRL 5) n est pas respectée, les estimés obtenues avec les MCOs ne sont plus BLUE. Dans un tel cas, il est compliqué d utiliser les statistiques t et F, il est donc intéressant de se pencher sur d autres méthodes plus e caces pour estimer les paramètres k. Cette section porte sur une telle procédure, les MCGs ou les moindres carrés généralisés, qui nous permettra (sous certaines conditions) d obtenir des estimateurs BLUE même en présence d hétéroscédasticité. Cas général : Pour i donnée, la variance de Á i est exprimée comme : Var(Á i )= 2 i = 2 w i 28

29 et, par conséquent, Var(Á) = 2, où : S w 1 0 w 2 = W. U.. 0 w n T X. V Soit le modèle : Y = X + Á. Si nous multiplions cette équation par 1/2, nous obtienons : 1/2 Y = 1/2 X + 1/2 Á Y ú = X ú + Á ú, (5) où Y ú 1/2 Y, X ú 1/2 X et Á ú 1/2 Á. On estime ensuite (4) par MCO. L estimateur MCG s écrit alors : MCG = (X úõ X ú ) 1 X úõ Y ú = (X Õ 1 X) 1 X Õ 1 Y. Il faut noter que l estimateur MCG est sans biais (facile à démontrer). Remarque : Puisque est une matrice diagonale, nous avons : S 1 T w = w 2 W. U.. X. V 0 1 w n Dit d une autre manière, l estimateur MCG est obtenu en régressant : S Y 1 / Ô T S w 1 Y 2 / Ô X 1 / Ô T w 1 w 2 P Y = W X U. sur P X 2 / Ô w 2 X = W X Y n / Ô V U.. w n X n / Ô V w n 29

30 En se servant des MCO, nous obtienons ainsi l estimateur MCG : C n D ÿ 1 C n D MCG = w i X i Xi Õ ÿ w i X i Y i. i=1 i=1 En utilisant les MCGs, nous avons Var(Á ú X) =Var(Á ú ). C est-à-dire qu on ne rejette plus (MRL 5) (homoscédasticité). Démonstration : Nous avons : Á ú = 1/2 Á et : E(ÁÁ Õ x) = 2. Ainsi : E(Á ú Á úõ X) = 1/2 E(ÁÁ Õ X) 1/2 = 1/2 E(ÁÁ Õ X) 1/2 = 1/2 2 1/2 = 2. Toute la di culté réside cependant dans l estimation de. Il faut généralement connaître la forme que prend l hétéroscédasticité pour pouvoir utiliser les MCGs. Sous une autre forme, nous avons : Y i = 1 X i0 + 2 X i + Á i, (6) 30

31 où E(Á 2 i )= 2 i = 2 w i. En divisant (5) par Ô w i, nous obtenons : Y i Ô = 1 ( X i0 Ô )+ 2 ( X i Ô )+ Á i Ô. wi wi wi wi Si nous posons que X ú i0 = 1 Ô wi, nous obtienons : Y ú i = 1 X ú i0 + 2 X ú i + Á ú i et la variance de Á ú i, pour i œ {1, 2,,n}, prend la forme : YA B Z ] 2 Var(Á ú i )=E[(Á ú i ) 2 Ái ^ ]=E Ô [ wi \ = 1 w i E(Á 2 i )= 1 w i Var(Á i ) = 1 2 w i w i = 2. 4 Problèmes d endogénéité 4.1 Introduction Dans les hypothèses de base du modèle linéaire, il est nécessaire que les variables explicatives ne soient pas corrélées avec le terme d erreur pour que les estimateurs ne soient pas biaisés. Il existe cependant des cas où nous savons qu une ou plusieurs variables violent cette hypothèse. Cette source d endogénéité peut être causée par : Une variable contenue dans le terme d erreur et corrélée avec une variable explicative incluse dans le modèle (problème de variable omise corrélée avec une variable incluse de la section 1.3.1) Deux variables peuvent se déterminer simultanément, autrement dit, une variable présumée indépendante du modèle détermine une variable 31

32 dépendante ET la même variable présumée indépendante est déterminée par la variable dépendante. x = activite sportive y = poids x y Il peut exister des erreurs de mesures qui sont corrélées avec au moins une caractéristique de l individu. 4.2 Estimation par variables instrumentales L estimation par variables instrumentales est une technique d estimation souvent utilisée en économétrie dont le but est d éliminer le biais des estimateurs (mais, en pratique, elle risque de le réduire). En reprenant le modèle classique nous avons : y i = 1 x i1 + 2 x i k x ik + Á i pour i =1,...,n et avec : E[Á] = 0 Cov(x j, Á) = 0 j = 1,...,k 1 Cov(x k, Á) = 0. La variable x k est corrélée avec le terme d erreur. Nous pouvons voir que les variables explicatives de x 1 à x (k 1) sont exogènes, mais que x k est endogène. Nous prendrons comme exemple le cas où le terme d erreur contient une variable omise corrélée avec x k. Ainsi, tous les sont biaisés. 32

33 Il existe une méthode pour corriger le biais occasionné par ce problème s il existe une variable disponible z 1 non incluse dans le précédent modèle qui satisfait aux deux conditions suivantes : 1. La covariance entre z 1 et Á dois être égale à 0 (les deux variables doivent être indépendantes). Cov (z1,á) =0 et, 2. Le coe cient 1 dans la projection linéaire de x k sur toutes les variables incluses dans le modèle doit être statistiquement di érent de 0. x k = x x (k 1) x (k 1) + 1 z 1 + r k, où E[r k ]=0et r k n est pas corrélé avec x 1,x 2,...,x (k 1),z 1 Si les deux conditions sont satisfaites, alors z 1 est une variable instrumentale candidate pour x k ou plus simplement un instrument de x k.ilest à noter qu il est possible d inclure plusieurs instruments qui respectent les deux conditions énoncées ci-dessus. Il faut alors que z 1,z 2,...,z m soient orthogonales au terme d erreur, c est-à-dire que la covariance entre ces variables et le terme d erreur soit nulle et que leur estimateur linéaire respectif 1, 2,..., m soit non nuls dans la projection linéaire : x k,i = x 1,i + 2 x 2,i (k 1) x (k 1,i) + 1 z 1,i + 2 z 2,i m z m,i + r k,i. E ectuer cette régression nous permet d obtenir x k, la valeur prédite de x k. Étant donné que les variables instrumentales {z i } m i=1 et les (k 1) autres variables indépendantes ne sont pas correlées avec la variable dépendante y, la valeur prédite x k ne sera, elle non plus, correlée avec y. L idée derrière 33

34 cette méthode est d utiliser les instruments pour "purger" l e et de la variable omise sur x k en utilisant une prédiction à la place. Les estimateurs sont le plus souvent obtenus par moindres carrés en deux étapes (two stages least squares). Premièrement, il faut estimer les paramètres de la projection linéaire de x k sur les autres variables exogènes et les instruments par moindres carrés ordinaires et calculer les valeurs prédites x k pour chaque individu i. Deuxièmement, il faut e ectuer la régression de y sur un nouveau vecteur de variables explicatives composé de x 1,x 2,..., x k pour obtenir les estimateurs MC2E : y i = 1 x 1,i + 2 x 2,i k x k,i + Á i. La qualité des estimateurs dépend fortement des deux hypothèses posées sur les instruments, car la taille du biais dépend de la force de la relation entre les instruments et la variable endogène (que nous voulons forte) et la force de la relation entre les instruments et le terme d erreur Á (que nous voulons égale à 0). Sur Stata, il est possible d estimer un modèle de régression en deux étapes avec la commande ivregress. Par exemple, nous chercherons à expliquer les e ets des déterminants des salaires représentés par la variable lwage qui correspondond Nous pouvons estimer la régression sur Stata 34

35 Malheureusement, il faut soupçonner que la variable d éducation (educ) est endogène. Nous pouvons attribuer cette endogénéité à l omission d une variable mesurant le talent. Cette variable peut di cilement être obtenue et nous n y avons pas accès dans la base de données. Les estimations ne sont donc pas consistantes étant donné une violation d une des hypothèses de base du modèle linéaire et nous devons trouver un autre moyen d estimer les paramètres. Nous pouvons estimer ce modèle en utilisant les moindres carrés en deux étapes pour pallier au biais d endogénéité si nous pouvons trouver une ou plusieurs variables qui répondent aux hypothèses énoncées dans la partie théorique. Dans la base de données, nous pouvons observer trois variables qui semblent être éligibles pour être des instruments de la variable educ. L éducation de la mère, l éducation du père et l éducation du mari semblent être corrélées avec l éducation de l individu, mais pas corrélées avec son salaire. Nous estimons donc le modèle educ i = exper 1,i + 2 expersq 2,i + 3 motheduc 3,i + 3 fatheduc 3,i + 3 huseduc 3,i + Á i. 35

36 Où les instruments de la variable educ sont motheduc, fatheduc et huseduc. Nous pouvons produire la régression par moindres carrés ordinaires et trouver Les instruments ont des paramètres significativement di érents de 0, la p- valeur étant de 0,000 pour la variable motheduc, 0,000 pour la variable fatheduc et 0,000 pour la variable huseduc. Ces variables ont bien une relation linéaire avec l éducation de l individu. Nous pouvons aussi e ectuer un test de Wald pour nous assurer qu au moins un des coe est significativement di érent de 0. cients des instruments 36

37 Nous trouvons aussi que nous pouvons fortement rejeter l hypothèse nulle que tous les coe cients relatifs aux instruments sont simultanément égaux à 0. à partir de ces résultats, il est possible d essayer d estimer le modèle par moindres carrés en deux étapes en utilisant la commande ivregress. Spécifier first nous donne accès aux résultats de la première étape de la régression. 37

38 Avec une estimation en deux étapes valide, nous pouvons interpréter les estimateurs des paramètres de la deuxième étape de la régression d une façon similaire à une régression par MCO. Ainsi, une année suplémentaire d éducation bonifie le salaire de 8%. Exemple d endogénéité Illustrons ce problème avec un exemple qui, bien que quelques peu avancé, exprime clairement les problèmes survenants suite à la présence d endogénéité. Supposons que la demande de jus d orange peut être exprimée par la fonction suivante : q d,i = p d,i + Á d,i, (7) où l indice d réfère au fait qu il s agit de l équation de la demande. De plus, supposons que l o re de jus d orange est exprimée par : q o,i = p o,i + Á o,i, (8) où l indice o souligne le fait qu il s agit de l équation de l o re. Supposons que les erreurs sont de moyennes nulles, des variances 2 h pour h œ {o, d} 38

39 et qu elles ne sont pas corrélées entre elles. Finalement, tel que nous le voyons fréquemment dans les graphiques simples d o re et de demande, nous avons une condition d équilibre : qo,i ú = qú d,i. Or, il est clair que si ces trois équations tiennent, nous aurons un problème d endogénéité. En e et, en égalisant q ú o,i = qú d,i, (7) et (8), nous avons : p o,i + Á o,i = p d,i + Á d,i, p ú i = Á o,i Á d,i 1 1, où p ú i est le prix d équilibre. Comme E(Á o,i )=E(Á d,i )=0, Cov(p ú i, Á h,i) = E(p ú i Á h,i) pour h œ {o, d}. Nous remarquons alors que : 5 3 E(p ú 0 0 i Á h,i )=E Á h,i + Á 46 o,i Á d,i Áo,i Á d,i = E Á h,i 1 1 Y o 2 _] 1 1 =0 si h = o =. _[ d =0 si h = d Par conséquent, si nous e ectuons la régression (7) ou (8), l hypothèse MLR 3 n est pas respectée à l équilibre et les estimateurs sont potentiellement biaisés. Par conséquent, cet exemple explicite un des problèmes majeurs associé à l endogénéité. Notons que ce cas particulier se nomme simultanéité. 39

40 5 Conclusion Dans ce document, nous avons traité des spécifications et formes fonctionnelles, de l hétéroscédasticité et, finalement, des problèmes d endogénéité. Ces sujets sont des facettes importantes et récurrentes de l économétrie. Ainsi, il est important d en comprendre la portée. De plus, il est essentiel de maîtriser les méthodes existantes pour les prendres en considération lors de l étude statistique de phénomènes économiques. À cette fin, le lecteur pourra aussi trouver des exemples illustrant les divers procédés dans chaques sous-sections. 40

Montrer encore