Chapitre 4 Spécification et problèmes de données Licence Econométrie Econométrie II 7-8 Martin Fournier Fournier@gate.cnrs.fr L3 Econométrie - Econométrie II. Formes fonctionnelles L3 Econométrie - Econométrie II. Formes fonctionnelles On a déjà vu qu une régression linéaire peut donner de «bons» résultats même si la relation sous-jacent est non linéaire Une infinités de formes fonctionnelle est envisageable : Logarithmes sur les variables expliquées ou explicatives Formes quadratiques sur les variables expliquées Interactions entre les variables expliquées Etc Comment sait-on si l on a choisi la «bonne» forme fonctionnelle (i.e. la bonne spécification) pour le modèle? L3 Econométrie - Econométrie II 3
. Formes fonctionnelles () Deux approches : Que dit la théorie économique? Nature de la relation connue (exponentielle, linéaire )? Concavité / convexité attendue? Quelle interprétation peut-on dériver des résultats? y = α.x + β y = α.x + β.x + γ y = α.x + β.x + γ.x.x + δ y = α.ln(x) + β Ln(y) = α.ln(x) + β Etc y y / x y Interprétation de,, par rapport à dx x,, x,,... x y x x x L3 Econométrie - Econométrie II 4.3 Formes fonctionnelles (3) Une première forme de réponse : On a vu qu on peut facilement tester l inclusion de termes quadratiques ou de termes croisés par des tests sur la significativité des coefficients associés (T-tests, F-tests) Mais - Il peut rapidement devenir très contraignant de tester toutes les combinaisons possibles - Une forme quadratique sera significative dans le cas d un «vrai» modèle sous-jacent en logarithmes L3 Econométrie - Econométrie II 5.4 Exemple H : β = β 3 = Prix immobiliers : price = β + βlotsize + β sqrft + β3bdrms + u contre price = β + β lotsize + β sqrft + β ( sqrft) + β bdrms + β ( bdrms) 3 + u avec lotsize : superficie du terrain sqrft : superficie de la maison bdrms : nombre de chambres 3 L3 Econométrie - Econométrie II 6
L3 Econométrie - Econométrie II 7.6 Le tests de Ramsey : RESET Le test de spécification RESET repose sur la même idée simplificatrice que la forme spéciale du test de White Au lieu d inclure toutes les spécifications possibles des variables explicatives on test la significativité de fonctions de la variable simulée ŷ Procédure en 4 étapes : ) Estimation de la forme linéaire : y = β + β x + + β k x k + u ) Simulation de la variable prédite ŷ 3) Estimation de la forme linéaire : y = β + β x + + β k x k + δ ŷ + δ ŷ 3 +v 4) Test de H : δ =, δ = par une statistique de Fisher (F~F,n-k-3 ) L3 Econométrie - Econométrie II 8.7 Exemple H : δ = δ = Prix immobiliers : price = β + βlotsize + β sqrft + β3bdrms + u Estimation et simulation de : pr ice ˆ ˆ β + ˆ β lotsize + ˆ β sqrft + ˆ β bdrms + u = 3 Nouvelle estimation de : price = β + βlotsize + βsqrft + β3bdrms 3 + δ ( price ˆ ) + δ ( price ˆ ) + u L3 Econométrie - Econométrie II 9 3
L3 Econométrie - Econométrie II Spécification en logarithme L3 Econométrie - Econométrie II. Test d alternatives nonimbriquées Cas où les modèles mis en concurrence ont les mêmes variables explicatives mais des formes fonctionnelles différentes. Par exemple : y = β + β x + + β k x k + u contre y = β + β ln(x ) + + β k ln(x k ) + u L3 Econométrie - Econométrie II 4
. Approche de Minzon et Richard Minzon et Richard (986) : ) Estimation d un modèle complet incluant toutes les formes fonctionnelles des explicatives : y = α + β x + + β k x k + δ ln(x ) + + δ k ln(x k ) + u ) Test de H : β = = β k = et H : δ = = δ k = NB : Nombre important de paramètres à estimer Question : Si les deux hypothèses nulles sont rejetées? L3 Econométrie - Econométrie II 3. Test de Davidson- MacKinnon Davidson et MacKinnon (98) : Idée : Si l un des modèle est le «vrai» modèle, alors la variable prédite avec le modèle concurrent ne doit pas être significative T-test Dans notre exemple : Si y = β + β x + + β k x k + u est la bonne spécification, alors yˆ = ˆ δ ˆ ˆ o + δ ln( x) +... + δ k ln( xk ) ne doit pas être significative dans l estimation de : y = β + β x + + β k x k + α.ŷ + u L3 Econométrie - Econométrie II 4.3 Remarques sur les test d alternatives non-imbriquée Il est possible qu aucune des deux spécifications n apparaisse vraiment dominer l autre : Les deux sont rejetées (ex : significativité des coefficients pour les deux alternatives dans le test de Davidson et MacKinnon) Nécessité de spécifier un modèle plus complet Les deux sont acceptées (ex : non significativité des coefficients pour les deux alternatives dans le test de Davidson et MacKinnon) les deux spécifications sont «également» acceptables. On peut comparer les valeurs des R pour choisir la spécification. L3 Econométrie - Econométrie II 5 5
.4 Remarques sur les test d alternatives non-imbriquée () Rejeter une spécification contre une autre ne signifie pas que la deuxième est la «bonne» (elle pourrait être elle-même rejetée contre une troisième) Le problème devient encore plus complexe lorsque l on veut tester des formes fonctionnelles différentes sur la variable expliquée (y contre ln(y) par exemple) une idée est de suivre la même logique et de transformer la valeur prédite de ln(y) pour en déduire le ŷ utilisé en deuxième étape (et réciproquement) L3 Econométrie - Econométrie II 6.5 Exemple Prix immobiliers : on teste : ln( price ) β + β lotsize + β sqrft + β bdrms + u = 3 contre : ln( price ) δ + δ ln( lotsize) + δ ln( sqrft + δ bdrms + u = ) 3 On construit : ^ ln( price) = ˆ β + ˆ βlotsize + ˆ βsqrft + ˆ β3bdrms et ^ˆ ln( price) = ˆ δ + ˆ δ ln( lotsize) + ˆ δ ln( sqrft) + ˆ δ 3bdrms L3 Econométrie - Econométrie II 7 L3 Econométrie - Econométrie II 8 6
.7 Exemple (suite) et : On estime : ln( price) = β + β lotsize + β sqrft + β bdrms + α ln( price) + u On teste la significativité de α et α ^ˆ ln( price) = δ + δ ln( lotsize) + δ ln( sqrft) + δ bdrms + α ln( price) + u ^ 3 3 L3 Econométrie - Econométrie II 9 L3 Econométrie - Econométrie II. Le biais de variable omise L3 Econométrie - Econométrie II 7
. Présentation du problème L3 Econométrie - Econométrie II. Exemple Estimer le rendement de l éducation Fonction mincérienne de salaire : ln(w) = β + β EDUC + β EXPER + u Avec W : salaire, EDUC : nombre d années d études et EXPER : nombre d années d expérience. Les capacités intellectuelles intrinsèques (CII) de l individu (ability) sont : - Inobservées - positivement corrélées avec le niveau d éducation atteint (EDUC = δ CII + v) - positivement corrélées avec le niveau de salaire (ln(w) = δ CII + w) L3 Econométrie - Econométrie II 3.3 Exemple () Le rendement de l éducation estimé par : ln(w) = β + β EDUC + β EXPER + u est-t-il sur-estimé ou sous-estimé? L3 Econométrie - Econométrie II 4 8
.3 Étendue du problème Ce problème est inhérent à toute analyse économétrique : Certaines variables sont par nature inobservables ou nonmesurables (dynamisme, charisme, capital social d un individu, esprit d équipe dans une entreprise, etc.) Certaines variables sont non disponibles pour l économètre (questions non posées, réponses biaisées sur des sujets sensibles, etc.) Il faut juste rester conscient que certaines variables peuvent capter des effets plus larges que ce pourquoi elles sont inclues dans le modèle L3 Econométrie - Econométrie II 5.4 Les Variables Proxy Lorsque l on est face au problème de variable omise, il est possible d utiliser des variables «Proxy» qui permettent de corriger les biais de spécification Une variable proxy est une variable corrélée à la variable observable mais non directement explicative du modèle étudié La variable proxy est substituée à la variable inobservée et le signe du coefficient estimé est interprété en fonction de la relation théorique reliant variable proxy et variable inobservée L3 Econométrie - Econométrie II 6.4 Les Variables Proxy () Reprenons le modèle général y = β + β x + β x * + u () avec x * inobservable, corrélée avec x, et x * = δ + δ x + v () avec x observable Sous quelles conditions, la variable proxy x permet une estimation sans biais et convergente de β par : y = π + β x + π x + w? L3 Econométrie - Econométrie II 7 9
.4 Les Variables Proxy () Les équations () et () impliquent : y = β + β x + β (δ + δ x + v) + u = [β + β δ ] + β x + β δ x + [β v + u] = π + β x + π x + w w ne doit pas être corrélé avec les variables explicatives du modèle, donc u et v doivent être non corrélés avec x et x NB : Les valeurs des coefficients estimés pour le terme constant et la proxy ne sont pas directement interprétables. L3 Econométrie - Econométrie II 8.5 Les Variables Proxy (3) Si en revanche on a, x = δ + δ x + x + v δ avec w non-corrélé à x et x, alors : y = β + β x + β (δ + δ x + δ x + v) + u = [β + β δ ] + [β + β δ ]x + β δ x + [β v + u] Le signe et la valeur du biais dépendent des valeurs des paramètres β et δ Le biais reste en général inférieur au biais initial (variable omise) L3 Econométrie - Econométrie II 9.6 Exemple Reprenons l exemple de la fonction de salaire : On peut utiliser un résultat de test de QI comme variable proxy de la variable de capacités intellectuelles intrinsèques (ability) dans le modèle : lnwage = β + β educ + β exper + β 3 tenure + β 4 married + β 5 south + β 6 urban + β 7 black + β 8 IQ + u NB : Le problème vient ici d une corrélation anticipée entre le niveau d éducation atteint et la CII, qui est une variable inobservable du modèle. L3 Econométrie - Econométrie II 3
L3 Econométrie - Econométrie II 3 3. Les erreurs de mesure L3 Econométrie - Econométrie II 3 3. Les erreurs de mesure Il arrive qu on ait la variable que l on désire mais que l on pense (ou sache) qu elle a été mesurée avec erreur Exemples : Combien d heures avez-vous travaillé au cours de l année passée? Quel est votre revenu mensuel? (NB : tendance à répondre un chiffre rond, à sur/sous-estimer, etc.) Les problèmes causés par les erreurs de mesures sont très différents s il s agit d une variable expliquée ou d une variable explicative L3 Econométrie - Econométrie II 33
3. Erreur de mesure sur une variable expliquée y = β β β * + x + L+ k xk + u Si y* est mesuré avec erreur, on n observe que y, qui en est une approximation. On définit alors l erreur de mesure par : e = y y* Le modèle effectivement estimé n est donc pas celui de l équation () mais : y = β + β x + + β k x k + u + e () L3 Econométrie - Econométrie II 34 3.3 Erreur de mesure sur une variable expliquée () Si e est non corrélé aux variables explicatives x j, le terme d erreur (u + e ) l est aussi les MCO seront sans biais et convergents Tous les tests post-estimation (T, F, etc.) restent valides Si E(e ) alors β (terme constant) seul est biaisé et les autres coefficients sont sans biais et convergents Si u et e sont non-corrélés : var( u + e ) = σ u + σ > σ u La variance des estimateurs des MCO ( σ ( X ' X ) ) est plus grande qu en absence d erreur de mesure L3 Econométrie - Econométrie II 35 3.4 Erreur de mesure sur une variable explicative Reprenons le modèle de base : y = β + β x + u Avec x observé, qui est une mesure imprécise de la variable explicative x*. Ici encore, on peut définir l erreur de mesure par : e x = x On suppose également que non corrélé à x et x Ε( e ) = et que u est L3 Econométrie - Econométrie II 36
3.5 Erreur de mesure sur une variable explicative Deux cas extrêmes : e est non-corrélée avec la mesure observée x : ( x, e ) cov = e est alors corrélée avec la variable explicative inobservée du fait que : e x = x e est non corrélée avec la variable explicative inobservée : cov( x, e ) = e est alors corrélée avec la variable explicative inobservée du fait que : e x = x L3 Econométrie - Econométrie II 37 3.6 e est non corrélée avec la mesure observée x L erreur de mesure e est alors corrélée avec la variable inobservée x : y = β + βx + ( u βe ) u-β e est de moyenne nulle et non-corrélé avec x, les MCO sont donc sans biais et convergents. La seule conséquence de l erreur de mesure est une plus grande variance des termes d erreur (et donc des estimateurs MCO) : var u β e = σ + β σ > σ NB : u et e sont non-corrélés. ( ) u e NB : Ces résultats s étendent évidemment au cas de plusieurs variables explicatives si e est non-corrélés à toutes les variables explicatives. L3 Econométrie - Econométrie II 38 u 3.7 e est non corrélée avec la variable inobservée Hypothèse appelée dans la littérature «Classical Error-in- Variables» (CEV) On a vu que e est alors corrélée avec la mesure observée Ici encore on a : y = β ( u β ) + βx + e Mais avec x corrélé avec le terme d erreur u-β e. cov ( x, u β e ) = β cov( x, e ) = β σ e Les MCO sont biaisés et non convergents L3 Econométrie - Econométrie II 39 3
3.8 Erreurs de mesures CEV () Rappel Et donc i i= = β + n ˆ β plim n x ( u β e ) ( xi x ) i= i i ( ˆ cov ) ( x, u βe ) β = β + var ( x ) σ e = β σ + σ x e σ x = β σ + σ x e L3 Econométrie - Econométrie II 4 3.9 Erreurs de mesures CEV (3) ( ) Comme plim ˆ β est toujours plus proche de que β, on parle de biais d atténuation des MCO causés par une erreur de mesure «classique» (CEV). Si β est positif alors βˆ tendra à être sous-estimé. Si la variance de x est grande par rapport à la variance de l erreur, alors le biais sera faible. Le biais d atténuation se généralise à la régression multiple L3 Econométrie - Econométrie II 4 4. Les valeurs manquantes L3 Econométrie - Econométrie II 4 4
4. Valeurs manquantes : Est-ce un problème? Si les valeurs manquantes sont aléatoires, le souséchantillon ayant des observations est un échantillon représentatif de l échantillon total Aucun problème (statistiques descriptives, régressions, etc.) Les problèmes apparaissent lorsque l attrition (les valeurs manquantes) est corrélée à une dimension du problème considéré (ex. : les plus riches refusent de donner une information sur leurs revenus) Le sous échantillon informé n est plus représentatif (statistiques descriptives biaisées) Les résultats d estimations peuvent être baisés L3 Econométrie - Econométrie II 43 4. Sélection basée sur une variable explicative Exemple : On estime des fonctions de salaires, mais on observe plus d attrition pour les niveaux d éducation faibles, (NB : sans que cette attrition soit corrélée au revenu par classe d éducation!) Les statistiques descriptives sont biaisées Les MCO restent sans biais et convergents (NB : les estimations «contrôlent» les dimensions des variables explicatives, Ε y x ) ( ) Pas de problème tant qu il y a assez de variabilité dans les variables explicatives pour identifier les effets mesurés. L3 Econométrie - Econométrie II 44 4.3 Sélection basée sur une variable expliquée Exemple : On estime des fonctions de salaires, mais on observe qu il y a plus d attrition sur certaines variables pour des niveaux de revenus élevés Les statistiques descriptives sont biaisées ( ) Les MCO sont également biaisés du fait que Ε y x n est pas égal à l espérance conditionnelle de y à l intérieur d un segment donné : ( y x) Ε( y x a y b) Ε, L3 Econométrie - Econométrie II 45 5
4.4 Processus de sélection complexes Le processus de sélection attrition peut être plus complexe et entraîner des biais dans les estimations Ε Exemple : Estimation d une équation de salaire Sélection : le salaire n est observé que pour les travailleurs salariés ( salaire travailleur salarié) Ε( salaire chômeur) Ε( salaireindépendant ) L3 Econométrie - Econométrie II 46 5. Les points aberrants L3 Econométrie - Econométrie II 47 5. Les points aberrants Il arrive qu une observation (ou une série d observations) soit très différente des autres et que son inclusion ou non dans l échantillon modifie sensiblement les résultats d estimations Sources potentielles : Erreurs de saisie / de compréhension des question / Fausses réponses Observation effectivement très différente des autres (milliardaire, SDF ) L3 Econométrie - Econométrie II 48 6
5. Les points aberrants () ère étape : détecter les points aberrants et vérifier la cohérence des réponses (statistiques descriptives) La correction peut apparaître évidente (zéro de trop ou zéro manquant) ou peut se retrouver par raisonnement logique (combinaison de réponses à d autres questions) Si la correction n est pas évidente, il peut être légitime de tout bonnement supprimer l observation (ou de présenter les régression avec et sans les points considérés aberrants) L3 Econométrie - Econométrie II 49 5.3 Exemple : Recherche et Développement et taille des entreprises rdintens = β + βsales + β profmarg Rdintens : Intensité en R&D Sales : Chiffre d affaires Profmarg : Taux de marge L3 Econométrie - Econométrie II 5 L3 Econométrie - Econométrie II 5 7
L3 Econométrie - Econométrie II 5 5.5 Points aberrants et formes fonctionelles Certaines formes fonctionnelles (choix de spécification) sont moins sensibles aux points aberrants En particulier les formes logarithmiques L3 Econométrie - Econométrie II 53 L3 Econométrie - Econométrie II 54 8
5.7 Méthode des Moindres Déviations Absolues (LAD) La méthode LAD (Least Absolute Deviations) est parfois utilisée pour diminuer la sensibilité des résultats aux points aberrants. Idée : Minimiser la somme des déviations n absolues : uˆ i = i Cela revient à estimer les effets des variables explicatives sur la médiane conditionnelles (et non plus la moyenne), qui est beaucoup moins sensible aux valeurs extrêmes L3 Econométrie - Econométrie II 55 5.8 Limites de la méthode LAD Estimation par maximum de vraisemblance (pas de formule pour les estimateurs) Les statistiques t et F ont uniquement des distributions asymptotiques (taille des échantillons) Cours de M sur les estimations par maximum de vraisemblance Extension aux quantile regressions L3 Econométrie - Econométrie II 56 9