Cours Modélisation et inférence statistique Examen

Université Lyon 2 Florence Goffette-Nagot Licence 3 économétrie Année 2007-2008 Cours Modélisation et inférence statistique Examen Déroulement de l examen Deuxième session - Jeudi 26 juin 2008 CORRECTION Durée : 2 heures Matériel : Calculatrices autorisées, documents et téléphones portables interdits. Notez qu il vous est possible, si vous n avez pas de calculatrice, de donner la formule exacte de vos calculs sans donner le résultat final. Recommandations : Toutes les questions et tous les exercices supposent de justifier les réponses. En particulier, il est nécessaire de donner le détail de vos calculs : unités, formules des statistiques de test, nombre de degrés de liberté, valeurs-seuils. Questions de cours (4 points) 1. Définissez l identification en économétrie. Expliquez la différence avec l inférence statistique. 2. Donnez la définition d une fonction homogène. Correction 1. La question de l identification est de savoir si on a assez d information a priori pour déduire, de la forme réduite, les paramètres structurels du modèle économique. Il faut des informations en nombre suffisant sur des variables explicatives exogènes. Un problème d identification se pose en particulier dans certains types de modèles dans lesquels il y a des relations simultanées. On a vu en cours l exemple d un système d offre et de demande de produits agricoles. A-t-on suffisamment d information pour déduire, de la forme réduite, les paramètres structurels des fonctions de demande et d offre en fonction de toutes les exogènes. 1

La question de l inférence statistique se pose, en économétrie, car on travaille sur des données qui portent sur un échantillon extrait d une population totale, et on cherche à inférer, à partir des données sur l échantillon, des caractéristiques de la population. Partant de l échantillon et de méthodes économétriques adaptées, on va décrire le comportement de la population par des distributions de probabilité des coefficients estimés. En d autres termes, l inférence statistique consiste à savoir quelles conclusions on peut tirer d un nombre réduit d observations. C est ce que l on fait lorsque l on estime un modèle économétrique, qu on réalise des tests sur les coefficients, etc... Donc l inférence statistique concerne le poids de l échantillon et des erreurs relativement à la population totale. Elle conduit à un écart entre ce qui est estimé sur l échantillon et ce qui pourrait être conclu si on connaissait toute la population. En revanche, les problèmes d identification ne peuvent pas être résolus en augmentant la taille de l échantillon. 2. Définition d une fonction homogène de degré h : f(λl, λk) = λ h f(l, K) λ > 0 (L, K) L ajout de la définition des rendements d échelle donnait un point de bonus. si λ > 1, f(λl, λk) = λf(l, K) alors rdts d échelle constants si λ > 1, f(λl, λk) > λf(l, K) alors rdts d échelle croissants si λ > 1, f(λl, λk) < λf(l, K) alors rdts d échelle décroissants Exercice 1 - Calcul à partir de coefficients estimés (4 points) On régresse, selon différentes formes fonctionnelles, le salaire hebdomadaire en euros sur le nombre d années d études. Pour chacune des équations estimées ci-dessous, interprétez l effet du nombre d années d études sur le salaire. Indiquez également l effet sur le salaire prédit d une année d études supplémentaire pour un individu ayant 10 années d étude. Précisez à chaque fois l unité que vous utilisez. 2

ŝal = 300 + 8 etud (1) ŝal = 150 + 100 ln(etud) (2) ln(sal) = 5 + 0, 08 etud (3) ln(sal) = 3 + 1, 2 ln(etud) (4) Correction Cas (1) Forme linéaire : une année d étude supplémentaire donne le même accroissement de salaire en termes absolus quel que soit le nombre d années d étude initial. Avec les coefficients estimés : une année d étude supplémentaire procure une augmentation du salaire hebdomadaire de 8 euros. Cas (2) Forme linéaire-log : l effet d une année d étude varie en fonction du salaire initial. ŝal = 150 + 100 ln(etud) sal 11 sal 10 = 100(ln(11) ln(10)) = 100 ln(1.1) Avec les coefficients estimés : une année d étude supplémentaire entraîne une augmentation de 100 ln(1.1) euros pour un individu ayant initialement 10 années d études. Remarque : plus généralement, l écart salarial entre a et a + 1 années d étude est de 100 ln((a + 1)/a) qui est décroissant en a. Donc on peut parler de rendements décroissants de l éducation. Cas (3) Forme log-linéaire : une année d étude supplémentaire donne le même accroissement de salaire en pourcentage quel que soit le nombre d années d étude initial. ln(sal) = 5 + 0, 08 etud ln(sal 11 ) ln(sal 10 ) = 0, 08 (sal 11 /sal 10 ) = exp(0, 08) sal 11 = exp(0, 08)sal 10 Le salaire initial est donc multiplié par exp(0, 08). Cas (4) Forme log-log : 3

Première solution, le coefficient estimé représente l élasticité du salaire (en %) relativement au nombre d années d études (en %). On calcule une quantité plus facilement interprétable, à savoir la variation relative de salaire pour une année d études supplémentaire : sal 1 etud sal = sal etud etud sal Donc en remplaçant etud par 10, on obtient sal 1 etud = 1, 2 1 etud 1 etud sal = 0, 12 on peut dire que le gain salarial pour une année d étude supplémentaire est de 12% (Attention : 0,12 veut dire 21%). Deuxième solution ln(sal 11 ) ln(sal 10 ) = 1, 2(ln(11) ln(10)) (5) (sal 11 /sal 10 ) = exp(1, 2 ln(1.1)) = exp(ln(1.1) 1,2 ) = (1.1) 1,2 (6) Donc le salaire est multiplié par (1.1) 1,2 lorsque l on passe de 10 à 11 années d étude. Exercice 2 - Estimations d une fonction de demande (5 points) On a estimé une équation de demande de viande de poulet sur des données agrégées concernant la période 1960-1982. Le modèle estimé est : ln C = α + β y ln y + β 1 ln p 1 + β 2 ln p 2 + β 3 ln p 3 + u avec C la quantité de viande de poulet achetée par personne et par mois en kg, y le revenu mensuel réel disponible en euros, p 1, p 2 et p 3 le prix en euros par kg de la viande de poulet, de la viande de boeuf et de la viande de porc respectivement. On estime successivement deux modèles, le premier ne tenant compte que du prix de la viande de poulet et le second tenant également compte du prix de la viande de boeuf et de la viande de porc. Les résultats de l estimation sont les suivants (écarts-types entre parenthèses) : ln C = 2, 03 + 0, 43 ln y 0, 39 ln p 1 R 2 = 0, 9801 n = 23 (0, 12) (0, 08) (0, 11) (7) 4

ln C = 2, 19 + 0, 43 ln y 0, 39 ln p1 + 0, 149 ln p2 + 0, 09 ln p3 (0, 16) (0, 08) (0, 11) (0, 100) (0, 10) R 2 = 0, 9823 n = 23 (8) 1. Discutez l effet du revenu sur la consommation de viande de poulet. Quelle aurait été l augmentation de la consommation de viande de poulet pour une augmentation du revenu par personne de 2 000 AC à 3 000 AC? 2. Construisez l intervalle de confiance à 95 % de β y. 3. Testez l hypothèse que la consommation de poulet n est pas affectée par le prix de la viande de porc et de la viande de boeuf au seuil de 5 % en faisant un test joint de la significativité de leur coefficient. Correction 1. L effet du revenu sur la consommation de viande de poulet est positif. On peut montrer que le coefficient est significatif (T de Student). L élasticité-revenu de la demande de viande de poulet est de 0,43 (+1% de revenu donne +0, 43% de demande). Une augmentation de revenu de 1000AC correspond à une augmentation de 50% et va engendrer une augmentation de la consommation de viande de poulet de 0, 43 50 = 21, 5%. 2. La valeur précise de l intervalle de confiance à 95 % de β y dépend du nombre de degrés de liberté, qui varie avec l équation estimée. En utilisant la première estimation : 23 2 1 = 20 degrés de liberté correspondent à une valeur critique de 2,086, d où l intervalle de confiance : β ± c se(β) = 0, 43 ± 2, 086 0, 08 soit [0, 263; 0, 597]. En utilisant la seconde estimation : 23 4 1 = 18 degrés de liberté correspondent à une valeur critique de 2,101, d où l intervalle de confiance : β ± c se(β) = 0, 43 ± 2, 101 0, 08 soit [0, 262; 0, 598]. 3. On veut tester H0 : (β 2, β 3 ) = (0, 0) contre H1 : (β 2, β 3 ) (0, 0). On teste donc un modèle contraint (estimation 1) contre un modèle non contraint (estimation 2) ; le nombre de restrictions est 2. 5

(0, 0923 0, 9801)/2 F = = (1 0, 9823)/18 0, 0011 = 1.12. (9) 0, 000983 A comparer à la valeur critique : F 2,18 = 3, 55 qui est supérieure. Donc on ne peut pas rejeter l hypothèse nulle selon laquelle les prix de la viande de boeuf et de la viande de porc sont sans effet sur la consommation de viande de poulet au seuil de significativité de 5%. Exercice sur un article étudié en cours : Nerlove, 1963 (7 points) Marc Nerlove a testé la fonction de coût suivante pour la production d électricité : CT = AY 1/r p α 1/r 1 p α 2/r 2 p α 3/r 3 (10) où Y est le coût annuel total d une entreprise, X est la production annuelle d électricité en Kwh, p 1 le prix du travail, p 2 le prix du capital, p 3 le prix du pétrole. 1. Ecrivez le modèle économétrique que l on doit estimer pour tester cette fonction de coût. 2. Quelle est la fonction de production dont cette fonction de coût est dérivée? 3. Expliquez quelles sont les caractéristiques du secteur de production d électricité qui justifient qu il est plus raisonnable d estimer cette fonction de coût plutôt que la fonction de production elle-même. 4. Est-il raisonnable de penser que les régresseurs dans cette équation sont exogènes? Expliquez. 5. Quelle contrainte doit-on imposer aux coefficients de cette équation pour respecter une condition nécessaire à une fonction de coût? (indice : raisonnez sur l effet d une augmentation identique des trois prix) 6. Parmi les différentes estimations réalisées dans l article de Nerlove, les résultats suivants ont été obtenus (écarts-types entre parenthèses) : ln CT i p i3 = 4, 7 + 0, 72 ln Y i + 0, 59 ln p i1 p i3 0, 007 ln p i2 p i3 (0, 88) (0, 017) (0, 20) (0, 19) R 2 = 0, 932, SCE = 21, 640, n = 145 Réalisez le test des rendements d échelle constants à partir de ces résultats. 6

Correction 1. Le modèle économétrique à estimer est le suivant : ln CT i = β 0 + β 1 ln Y i + β 2 ln p 1i + β 3 ln p 2i + β 4 ln p 3i + u i 2. Cette fonction de coût est dérivée d une fonction de production Cobb-Douglas qui s écrit : Y = Λx α 1 1 xα 2 2 xα 3 3 avec x 1 le travail, x 2 le capital et x 3 le pétrole. 3. Dans le secteur de production d électricité analysé par Nelrove, les prix de l électricité sont régulés par la puissance publique et les prix des facteurs de production sont donnés par le marché, sans être influencés par le comportement des firmes du secteur de l électricité. Par ailleurs, comme l électricité n est pas stockable, on peut considérer que les firmes considèrent la quantité d électricité qu elles doivent produire comme donnée et qu elles minimisent leur coût pour ce niveau de production. L estimation d une fonction de coût est donc plus adaptée à cette situation qu une fonction de production. 4. L exogénéité signifie que les variables explicatives ne sont pas corrélées au terme d erreur de l équation : Cov(X i, u i ) = 0. Cette hypothèse est raisonnable dans ce cas, car les prix des facteurs de production ne sont pas influencés par le comportement des firmes. 5. Pour que l équation estimée corresponde à une fonction de coût, elle doit être dérivée de l équation de la fonction de coût théorique, qui impose que β 2 + β 3 + β 4 = α 2 r + α 3 r + α 4 r = 1. 6. Dans ce modèle, le coefficient de la variable ln Y correspond au paramètre 1/r dans le modèle théorique. On sait que r mesure les rendements d échelle (écrire si besoin la fonction de production et la variation de la production pour une augmentation proportionnelle de tous les facteurs de production). Donc on doit tester H0 : 1/ ˆβ = 1, ce qui se fait par un test de valeur d un coefficient. Voir cours. 7