Introduction à l Econométrie. MOSEF Partie 5



Documents pareils
STATISTIQUES. UE Modélisation pour la biologie

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Exercices M1 SES Ana Fermin ( fermin.perso.math.cnrs.fr/ ) 14 Avril 2015

Régression linéaire. Nicolas Turenne INRA

Chapitre 4 : Régression linéaire

MODELE A CORRECTION D ERREUR ET APPLICATIONS

FOAD COURS D ECONOMETRIE 1 CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 2012.

Exemples d application

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Analyse de la variance Comparaison de plusieurs moyennes

Introduction à l approche bootstrap

Données longitudinales et modèles de survie

FORMULAIRE DE STATISTIQUES

Le modèle de régression linéaire

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

Bureau : 238 Tel : dominique.muller@upmf-grenoble.fr

Introduction à l économétrie : Spécifications, formes fonctionnelles, hétéroscédasticité et variables instrumentales

Théorie des sondages : cours 5

Wealth Effect on Labor Market Transitions

Introduction aux Statistiques et à l utilisation du logiciel R

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

Principe d un test statistique

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Chapitre 3. Les distributions à deux variables

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Econométrie et applications

Examen de Logiciels Statistiques

IBM SPSS Regression 21

Exemple PLS avec SAS

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

TABLE DES MATIERES. C Exercices complémentaires 42

Le risque Idiosyncrasique

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

HEC Montréal MODÈLE DE PROBABILITÉ DE DÉFAUT DES PRÊTS D UNE BANQUE CANADIENNE

Représentation d une distribution

Leçon N 4 : Statistiques à deux variables

Formations EViews FORMATIONS GENERALES INTRODUCTIVES INTRO : INTRODUCTION A LA PRATIQUE DE L ECONOMETRIE AVEC EVIEWS

Modèles Estimés sur Données de Panel

INF6304 Interfaces Intelligentes

PROGRAMME (Susceptible de modifications)

Relation entre deux variables : estimation de la corrélation linéaire

données en connaissance et en actions?

LES MODELES DE SCORE

Modèles pour données répétées

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Trafic aérien de passagers au Canada : une analyse exploratoire du modèle origine-destination de Transports Canada pour le marché intérieur

La méthode des scores, particulièrement de la Banque de France

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Évaluation de la régression bornée

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Cours de méthodes de scoring

Biostatistiques : Petits effectifs

Équations non linéaires

Statistiques Descriptives à une dimension

23. Interprétation clinique des mesures de l effet traitement

Annexe commune aux séries ES, L et S : boîtes et quantiles

distribution quelconque Signe 1 échantillon non Wilcoxon gaussienne distribution symétrique Student gaussienne position

Les modèles de choix binaire

Evaluer l ampleur des économies d agglomération

Les salaires réels ont ils été affectés par les évolutions du chômage en France avant et pendant la crise?

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Coup de Projecteur sur les Réseaux de Neurones

NON-LINEARITE ET RESEAUX NEURONAUX

VI. Tests non paramétriques sur un échantillon

Statistiques Appliquées à l Expérimentation en Sciences Humaines. Christophe Lalanne, Sébastien Georges, Christophe Pallier

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 06/12/2009 Stéphane Tufféry - Data Mining -

Net.Doc.69. Filières professionnelles et générales à l université : l impact du parcours sur l insertion. Groupes d exploitation Génération 2004

1 Définition de la non stationnarité

TSTT ACC OUTILS DE GESTION COMMERCIALE FICHE 1 : LES MARGES

Validation probabiliste d un Système de Prévision d Ensemble

Complément d information concernant la fiche de concordance

Lecture critique d article. Bio statistiques. Dr MARC CUGGIA MCU-PH Laboratoire d informatique médicale EA-3888

Résumé non technique

Statistiques descriptives

Chapitre 3 : Le budget des ventes. Marie Gies - Contrôle de gestion et gestion prévisionnelle - Chapitre 3

Stéphane Tufféry DATA MINING & STATISTIQUE DÉCISIONNELLE. 24/12/2006 Stéphane Tufféry - Data Mining -

Les effets d une contrainte de crédit sur la convergence économique : Le cas des pays de l UEMOA

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

«Cours Statistique et logiciel R»

Cours de Tests paramétriques

Chapitre 2. Eléments pour comprendre un énoncé

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Imputation du salaire d ego dans TeO

AIDE FINANCIÈRE POUR ATHLÈTES FINANCIAL ASSISTANCE FOR ATHLETES

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

La réputation de votre entreprise : est-ce que votre actif le plus stratégique est en danger?

CAPTEURS - CHAINES DE MESURES

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011

L approche de régression par discontinuité. Thomas Lemieux, UBC Atelier de formation du Congrès de l ASDEQ Le 18 mai 2011

Précision d un résultat et calculs d incertitudes

Mortalité observée et mortalité attendue au cours de la vague de chaleur de juillet 2006 en France métropolitaine

L emploi et les salaires des enfants d immigrés

Méthodes de simulation des décès. appliquées au régime de retraite de la. fonction publique d État

Statistique Descriptive Élémentaire

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

Transcription:

Introduction à l Econométrie MOSEF Partie 5

Qualité d ajustement (R et R ajusté) chaque observation est constituée de la part expliquée et inexpliquée. y i = yˆ + uˆ Nous définissons : ( yi y) ( yˆ y) i i i Somme des Carrés Totale (SCT) Somme des Carrés Expliquée (SCE) uˆ i Somme des Carrés Résiduelle (SCR) Ainsi: SCT = SCE + SCR.

Qualité d ajustement (R) Rappel : On peut aussi le carré de coefficient de correlation entre les observées et estimées ( yˆ ( ( y y)( yˆ yˆ ). i i R y i R =SCE/SCT=1-SCR/SCT En ajoutant n on découvre que c est un ratio de variances R =(SCE/n)/(SCT/n)=1-(SCR/n) /(SCT/n) = ( ) i ( ) ( ) y y ( yˆ yˆ ) i considérer R comme i )

Quelques questions particulières, R ajusté R =(SCE)/SCT=1-(SCR) /(SCT) R compare la variance des erreurs à la variance de y. Quand il est petit cela signifie que la variance d erreur est relativement grande par rapport à la variance de y R peut être faible et les estimateurs peuvent être non biaisés. Petit R veut dire que nous n avons pas pris en compte certains facteurs dans notre modèle, mais ces facteurs, qui se trouvent dans u, peuvent être non corrélés avec d autres variables indépendantes du modèle. R augmente automatiquement quand on introduit plus de variables dans le modèle.

Quelques questions particulières, R ajusté (le nombre de variables dans le modèle) Le R ajusté prend en compte le nombre de variables dans le modèle et il peut diminuer. σ σ ρ ρ y u = la variance de y = la variance de u = R = 1 σ calculé avec / σ il faut remplacer dans la population u σ u y, dans dans (par SCR/n σ u la population générale la population générale générale ), il est biaisé. par son estimateur non biaisé

Quelques questions particulières, R ajusté On remplace ainsi : SCR/n par SCR/(n - k -1) SCT/n par SCT/(n -1) et on et obtient : R 1 [ SCR ( n k 1) ] [ SCT ( n 1) ] = 1 σˆ [ SCT ( n 1) ]

Quelques questions particulières, R ajusté Le (ajusté) n est pas meilleur que R (non ajusté). Le ratio des estimateurs non biaisés n est par forcement un estimateur non biaisé Le R R ajusté donne une «pénalité» aux modèles avec beaucoup de variables indépendantes par rapport au nombre d observations. R Le ajusté est une simple transformation de R : R =(1 R )(n 1) / (n k 1) Dans la plupart des cas on donne à la fois R et R

Quelques questions particulières, R ajusté, exemple comparaison entre les modèles: y différents On peut comparer modèles avec le même y en comparant R ajusté ou non ajusté, mais non les modèles avec y différent par exemple y par rapport à ln(y) Le plus souvent il vaut mieux utiliser d autres critères d ajustement (écart types des paramètres estimés par exemple) Ne pas inclure de variables qui n ont pas d interprétation claire (ceteris paribus)

Quelques questions particulières, R ajusté, exemple de comparaison entre les modèles: y identiques. reg price lotsize bdrms Source SS df MS Number of obs = 88 F(, 85) = 1.58 Model 309148.889 154574.445 Prob > F = 0.0000 Residual 608705.616 85 7161.455 R-squared = 0.3368 Adj R-squared = 0.31 Total 917854.506 87 10550.0518 Root MSE = 84.64 price Coef. Std. Err. t P> t [95% Conf. Interval] lotsize.008583.0009001 3.18 0.00.0010685.004648 bdrms 57.3185 10.8845 5.7 0.000 35.6715 78.954 _cons 63.64 39.61957 1.60 0.114-15.5108 14.0366

Quelques questions particulières, R ajusté, exemple comparaison entre les modèles: y identiques. reg price lotsize sqrft bdrms colonial Source SS df MS Number of obs = 88 F( 4, 83) = 43.5 Model 6078.635 4 155069.659 Prob > F = 0.0000 Residual 97575.871 83 3585.5145 R-squared = 0.6758 Adj R-squared = 0.660 Total 917854.506 87 10550.0518 Root MSE = 59.877 price Coef. Std. Err. t P> t [95% Conf. Interval] lotsize.000758.000647 3.3 0.00.0007976.003354 sqrft.14375.0133383 9.31 0.000.097708.1507667 bdrms 11.0049 9.5156 1.16 0.51-7.91178 9.9976 colonial 13.71554 14.6377 0.94 0.351-15.39739 4.8847 _cons -4.1653 9.60345-0.81 0.417-83.00661 34.75355

Quelques questions particulières, R ajusté, exemple comparaison entre les modèles: y différents

Quelques questions particulières, R ajusté, exemple comparaison entre les modèles: y différents SCT (SS) premier=3917398 SCT (SS) deuxième=66,7 Il y a donc beaucoup moins de variance à expliquer dans le modèle avec logsalary qu avec salary Il faut d autres critères pour choisir entre les modèles. On peut considérer par exemple, que la meilleure estimation des paramètres est à la faveur du modèle avec logsalary. D autres critères peuvent être aussi utilisés.

Quelques questions particulières, comparaison entre les modèles: AKAIKE critérium (AIC) Critérium d Information AKAIKE (AIC), AIC=n* ln ( u ) + k (n nombre d observation, k nombre de variables) Addition d une variable indépendante supplémentaire se justifie uniquement quand AIC diminue. Remarque: la diminution de ( u ) ne coduit pas toujours à la diminution de AIC. S il est faible l augmentation due à k peut dominée cet effet. Un autre critère souvent utilisé (Critère Bayes- Schwarz, BIC) BIC=n* ln ( u ) + k*ln(n)

Quelques questions particulières, comparaison entre les modèles: AKAIKE critérium (AIC). reg price lotsize bdrms Source SS df MS Number of obs = 88 F(, 85) = 1.58 Model 309148.889 154574.445 Prob > F = 0.0000 Residual 608705.616 85 7161.455 R-squared = 0.3368 Adj R-squared = 0.31 Total 917854.506 87 10550.0518 Root MSE = 84.64 price Coef. Std. Err. t P> t [95% Conf. Interval] lotsize.008583.0009001 3.18 0.00.0010685.004648 bdrms 57.3185 10.8845 5.7 0.000 35.6715 78.954 _cons 63.64 39.61957 1.60 0.114-15.5108 14.0366. statfit unrecognized command: statfit r(199);. fitstat Measures of Fit for regress of price Log-Lik Intercept Only: -531.975 Log-Lik Full Model: -513.904 D(85): 107.807 LR(): 36.14 Prob > LR: 0.000 R: 0.337 Adjusted R: 0.31 AIC: 11.748 AIC*n: 1033.807 BIC: 647.34 BIC': -7.187

Quelques questions particulières, comparaison entre les modèles: critérium AKAIKE (AIC). reg price lotsize bdrms sqrft colonial Source SS df MS Number of obs = 88 F( 4, 83) = 43.5 Model 6078.635 4 155069.659 Prob > F = 0.0000 Residual 97575.871 83 3585.5145 R-squared = 0.6758 Adj R-squared = 0.660 Total 917854.506 87 10550.0518 Root MSE = 59.877 price Coef. Std. Err. t P> t [95% Conf. Interval] lotsize.000758.000647 3.3 0.00.0007976.003354 bdrms 11.0049 9.5156 1.16 0.51-7.91178 9.9976 sqrft.14375.0133383 9.31 0.000.097708.1507667 colonial 13.71554 14.6377 0.94 0.351-15.39739 4.8847 _cons -4.1653 9.60345-0.81 0.417-83.00661 34.75355. fitstat Measures of Fit for regress of price Log-Lik Intercept Only: -531.975 Log-Lik Full Model: -48.414 D(83): 964.89 LR(4): 99.11 Prob > LR: 0.000 R: 0.676 Adjusted R: 0.660 AIC: 11.078 AIC*n: 974.89 BIC: 593.10 BIC': -81.11 AIC est moins sensible que R

Quelques questions particulières, comparaison entre les modèles: critérium AKAIKE (AIC), regression sans constante Le principal avantage de AIC est la comparaison des différents modèles par exemple les modèles avec et sans la constante, non linéaire par rapport aux paramètre (à voir plus tard) Exemple (modèle sans constante, nb peu intéressant en soi ): R dans le modèle sans la constante n est pas calculé de la même façon.

Quelques questions particulières, comparaison entre les modèles: critérium AKAIKE (AIC), regression sans constante y=β 1 x 1 +β x + + β k x k Dans ce modèle certains propriétés de MCO ne sont pas satisfaites en particulier résidus d échantillon n ont pas la moyenne zéro SCR= (y-b 1 x 1 -b x - - b k x k ) (b estimateurs de β) SCR Peut être négatif.

Qualité d ajustement (R) R R sc = = NB : R sc ( yˆ y) i ( y y) i i i y y = uˆ i SCE SCT = 1 (peut être négatif) = 1 uˆ y SCR SCT i i.

Quelques questions particulières, comparaison entre les modèles: AKAIKE critérium (AIC). reg price lotsize bdrms sqrft colonial Source SS df MS Number of obs = 88 F( 4, 83) = 43.5 Model 6078.635 4 155069.659 Prob > F = 0.0000 Residual 97575.871 83 3585.5145 R-squared = 0.6758 Adj R-squared = 0.660 Total 917854.506 87 10550.0518 Root MSE = 59.877 price Coef. Std. Err. t P> t [95% Conf. Interval] lotsize.000758.000647 3.3 0.00.0007976.003354 bdrms 11.0049 9.5156 1.16 0.51-7.91178 9.9976 sqrft.14375.0133383 9.31 0.000.097708.1507667 colonial 13.71554 14.6377 0.94 0.351-15.39739 4.8847 _cons -4.1653 9.60345-0.81 0.417-83.00661 34.75355. fitstat Measures of Fit for regress of price Log-Lik Intercept Only: -531.975 Log-Lik Full Model: -48.414 D(83): 964.89 LR(4): 99.11 Prob > LR: 0.000 R: 0.676 Adjusted R: 0.660 AIC: 11.078 AIC*n: 974.89 BIC: 593.10 BIC': -81.11

Quelques questions particulières, comparaison entre les modèles: AKAIKE critérium (AIC), regression sans constante. reg price lotsize bdrms sqrft colonial, nocon Source SS df MS Number of obs = 88 F( 4, 84) = 574.14 Model 800793.4 4 050198.35 Prob > F = 0.0000 Residual 99957.8 84 3570.91938 R-squared = 0.9647 Adj R-squared = 0.9630 Total 8500750.63 88 96599.4389 Root MSE = 59.757 price Coef. Std. Err. t P> t [95% Conf. Interval] lotsize.000617.0006411 3. 0.00.0007868.0033367 bdrms 6.738631 7.930509 0.85 0.398-9.03056.5093 sqrft.107838.01619 9.57 0.000.0956838.1458837 colonial 1.705 14.55519 0.87 0.385-16.433 41.64684. fitstat Measures of Fit for regress of price Log-Lik Intercept Only:. Log-Lik Full Model: -48.765 D(84): 965.530 LR(4):. Prob > LR:. R: 0.965 Adjusted R: 0.963 AIC: 11.063 AIC*n: 973.530 BIC: 589.434 BIC':.

Quelques questions particulières, comparaison entre les modèles: spécification du modèle L amélioration de la précision d ajustement mesurée par différents indicateurs dépend essentiellement de la spécification du modèle. Ajouter une variable indépendante non corrélée avec les autres diminue la variance d erreur ( positif, à faire toujours si possible) Ajouter une variable indépendante redondante (over controlling): non seulement il y a un risque de multicolinéarité (violation de l independence entre les X), mais aussi un risque d une mauvaise interprétation des paramètres d autres variables. En spécifiant le modèle pensez toujours à ce que vous voudrez savoir à travers ses paramètres estimés.

Quelques questions particulières, Prédiction y= β 0 +β 1 x 1 + + β k x k (1) Nous voulons utiliser les estimations du modèle (1) pour obtenir une prédiction pour un y moyen parmi toutes les observations ayant les caractéristiques x(i-k) y= β 0 +β 1 x 1 + + β k x k (1) On a une observation donnée et on voudrait estimer pour elle sa valeur prédite par le modèle: (y x 1 =c 1, x =c, x k = c k ) = θ 0 = β 0 +β 1 c 1 + + β k c k () On l obtient facilement en remplaçant les x par les c, dans le modèle estimé L estimateur de θ 0 = ˆ θ = ˆ β + ˆ β c + ˆ β c + ˆ β c +... + ˆ β 0 0 1 1 kc k Problème :quel écart type de cette prédiction? On fait le même astuce que pour(b1=b) 1 1

Quelques questions particulières, Prédiction On peut réécrire () comme β 0 = θ 0 β 1 c 1 β c β k c k On le met dans (1) et on regroupe y = θ 0 + β 1 (x 1 - c 1 ) + + β k (x k - c k ) + u (3) En estimant (3) la constante va donner les valeurs de la prédiction avec l écart type. NB: L écart type sera le plus petit quand c=x(moy) (la somme des carrés d une variable est >= que la somme des carrés des écarts à sa moyenne E(x)>=E(xmoy) ) 3

Quelques questions particulières, Prédiction Gpa 1. sat test d aptitude ( SAT). tothrs nombre d heures d enseignement 3. colgpa GPA (note moyenne du collège) 4. athlete =1 si sportif 5. verbmath verbal/math SAT score 6. hsize la taille de la dernière classe, 100s 7. hsrank classement dans la dernière classe 8. hsperc 100*(hsrank/hsize) 9. female =1 si femme 10. white =1 si blanc 11. black =1 si noir 1. Hsizesq hsize^ la taille de la classe au carré 4

Quelques questions particulières, Prédiction Sat=100, hsperc=30, hsize=5 Prédiction=,7 5

modèle linéaire multiple Quelques questions particulières, Prédiction Prédiction (constante)=,7 Ecart type=.019, intervalle de confiance (95%),66-,73 6

modèle linéaire multiple Quelques questions particulières, Prédiction L écart type calculé précédemment n est pas le même que le l écart type pour n importe quelle valeur de y (de la population générale). Il faut aussi tenir compte de la variance des erreurs u (non observables) types d erreurs dans la prédiction: 1. La différence entre les vrais paramètres β de la population générale et leurs estimateurs.nous ne connaissons pas des termes d erreurs (u) au déla de l échantillon observé. 7

Quelques questions particulières, Prédiction Erreur de prédiction pour un y particulier qui n'appartient eˆ = 0 E = y 0 yˆ 0 0 ( β0 + β1x1 + K+ βk xk ) + u 0 ( eˆ ) = 0 0 0 0 ( eˆ ) = Var( yˆ ) + Var( u ) Var sources d'erreur = Var 0 ( yˆ ) 0 = 1.échantillon versus pop.générale. variance du terme d'erreur de la + σ en utilisant l'estiamteur se 0 0 ( eˆ ) = [ et( yˆ )] + ˆ σ 0 pas forcement à l'échantillon ( y ) 0 yˆ 0 population générale - inconnu non biaisé de ce dernier on obtient : 8

Quelques questions particulières, Prédiction eˆ et yˆ 0 0 ( 0 eˆ ) avec pour ~ eˆ 0 0.05 n k 1 nous obtenons l'interval ± t y t = y 0 et, ( 0 eˆ ) yˆ 0 de prédiction de 95% 9

Quelques questions particulières, Prédiction Normalement l estimateur de σ est plus large que la variance de la prédiction, donc l intervalle de prédiction sera plus large (exemple suite) 30

Quelques questions particulières, Prédiction Précédemment l intervalle de confiance (95%) pour le résultat GPA prédit moyen (,70) pour tous les étudiants ayant des caractéristiques particulières était (,66-,77). Maintenant nous cherchons un intervalle de confiance (95%) pour n importe quel étudiant ayant les mêmes caractéristiques. (mais avec les caractéristiques individuelles souvent inobservables, mais qui influencent le score) Nous avons tous les éléments: écart type =0,198, et sigma =0,56 (MSE dans le tableau) est,70+- 1,96*(0,56) donc de 1,60 à 3,80; 31

modèle linéaire multiple Quelques questions particulières, Prédiction 1. Prédiction=,7 Ecart type=.019, intervalle de confiance (95%),66-,73 (la moyenne du grade prédit pour un ensemble d étudiants ayant les mêmes caractéristiques son l intervalle de confiance). l intervalle de confiance (95%),70+- 1,96*(0,56) donc de 1,60 à 3,80 =,70+- 1,96*(0,56) donc de 1,60 à 3,80 ( l intervalle de confiance pour 3 n importe quel individu )

Introduction de l information qualitative, les variables muettes y = β 0 + β 1 x 1 + β x +... β k x k + u Les variables muettes (variables 0,1) ce sont le variables qui ne prennent que les valeurs 0 ou 1. Elles servent à décrire les situations qualitatives: Ex: homme (= 1 si homme, 0 sinon), nord (= 1 si dans le nord, 0 sinon), mais aussi effet saisonnier (si le premier trimestre alors =1 sinon 0), d une période particulière (si l année 1939 alors=1 sinon 0) etc.

Introduction de l information qualitative, les variables muettes Comment introduit on ces variables. - une particularité par rapport aux variables quantitatives. Exemple variable de trimestre: il y a 4 trimestres, mais on n introduit dans l équation que 3 variables (semestre 1,,3, ou,3,4 ou 1,3,4 ou, 1, 4. Pourquoi? Si on en introduit toutes on aura pour chaque observation un cas=1 const trim1t trim trim3 trim4 revenus 1 0 0 1 0 6546546 1 1 0 0 0 365890 1 1 0 0 0 5478944 1 0 1 0 0 4355874 1 1 0 0 0 3558889 1 0 0 0 1 588963

Introduction de l information qualitative, les variables muettes Sur m modalités de variable qualitative X, il faut prendre seulement m-1 modalités. La modalité abandonné intégre la constante et devient une modalité de référence (par exemple 1 trimestre). Interprétation des paramètres de trimestre (changement par rapport au trimestre 1). const trim trim3 trim4 revenus 1 0 1 0 6546546 1 0 0 0 365890 1 0 0 0 5478944 1 1 0 0 4355874 1 0 0 0 3558889 1 0 0 1 588963 Attention: La modalité de référence peut être complexe en présence de plusieurs variables qualitatives.

Introduction de l information qualitative, les variables muettes exemple Un modèle avec une variable continue (x) et une variable muette d =(0,1) y = β 0 + δ 0 d + β 1 x + u Cela peut être interprété comme un déplacement de la constante: Si d = 0, alors y = β 0 + β 1 x + u Si d = 1, alors y = (β 0 + δ 0 ) + β 1 x + u d = 0 est le cas du groupe de référence

Introduction de l information qualitative, les variables muettes Variable muette dépendante unique salaire = β 0 + δ 0 femme + β 1 education+ u femme= 1, sinon 0 homme= groupe de référence (le choix du groupe de référence n a pas de d importance sur le plan éconmétrique, mais il ne faut pas se tromper à l interprétation δ 0 =E(salaire femme=1, éducation) - E(salaire femme=0, éducation) ou plus simplement: δ 0 =E(salaire femme, education) - E(salaire homme, education)

Introduction de l information qualitative, les variables muettes exemple de δ 0 < 0, homme groupe de référence,, y Salaire(homme)= (β 0 + β 1 education) femme= 0 pente = β 1 femme = 1 β 0 } β 0 +δ 0 Salaire(femme)= (β 0 + δ 0 )+ β 1 (education) x

Introduction de l information qualitative, les variables muettes exemple numerique salaire = β 0 + δ 0 femme + β 1 education+ u H 0 : δ 0 =0 (pas de différence homme- femme X)

Introduction de l information qualitative, les variables muettes exemples numériques (analyse de possibles discriminations) Ajouter plus de variables continues ne change pas d interprétation (sinon les estimations de paramètres) H 0 : δ 0 =0 (pas de différence homme- femme X)

Introduction de l information qualitative, les variables muettes exemple numérique Quelques remarques: La différence homme femme estimée est plus grande dans le premier cas. Nous n avons tenu compte que des différences de l éducation. Si on tient compte aussi de l expérience et de l ancienneté la différence homme femme baisse. Si on tenait compte de toutes les variables (souvent inobservables) qui influencent le salaire peut être la différence changerait de signe (???)

Introduction de l information qualitative, les variables muettes exemples numériques Très souvent les variables muettes sont utilisées pour expliquer les conditions de choix individuels. Question: l achat d un ordinateur améliore-t-il les performances scolaire? Note moyenne à l université = f(ordinateur (0,1),note au lycée, test IQ)

Introduction de l information qualitative, les variables muettes exemple numerique (effet de comportement individuels) Note moyenne à l université = f(ordinateur (0,1),note au lycée, test de performance) Un étudiant avec un ordinateur a une note env. 0.16 points plus élevée que l étudiant sans PC (en tenant compte de X)

Introduction de l information qualitative, les variables muettes exemple numerique (effets de politique publique) Nombre d heures de formation =f(subvention (0.1), log(nombre d employés), log(chiffres d affaires)) Subvention (grant) est très significative: les firmes qui ont eu la subvention ont donné 34 heurs de formation de plus que les autres, chiffres d affaires n a pas d importance, nombre d employés a un effet négatif significatif (10% plus d employés implique 0,67 heures de formation en moins.

Introduction de l information qualitative, les variables muettes exemple numerique (interprétation quand var. dépendante est en log:%) Log (prix de la maison)=f(log (surface terrain), log(surface de la maison), nombre de chambres, caractère colonial(0,1)) Le caractère colonial(0,1 ) est peu significatif, s il l était, cela signifierait qu avoir le style colonial augmente le prix de la maison d à peu près 5.4% pour les niveau donné des autres X. (coef *100, semi élasticité). La surface du terrain et de la maison ont une influence déterminante (élasticités)

Introduction de l information qualitative, plusieurs variables muettes,, variable dépendante en log, exemple numérique, Plusieurs variables muettes peuvent être présentes dans la régression. Log (salaire)=f(femme (0,1), marié (0,1), non blanc (0, 1), éducation, expérience ).. («Ceteris paribus», si marié, on gagne plus, si une femme on gagne moins (env 30%), mais pas d effet de la couleur de la peau. Effet exact: 100*(exp(β)-1) =-34.9%

Introduction de l information qualitative, plusieurs niveaux d une variables muette, exemple numerique, Chaque variable qualitative peut être transformée en un ensemble des variables muettes. Le groupe de référence est représenté par la constante. Si on a n catégories on ne peut avoir que n 1 variables muettes. On peut aussi grouper certaines catégories. Age (0-10, 11-40, 41-60, 60 et plus Exemple: classement (1)top 10 () 11 5, (3)6-40, ( 4) 41-60. (5) 61-100et plus etc.

Introduction de l information qualitative, plusieurs niveaux d une variables muette, exemple numérique, 1. rank law school ranking. salary median starting salary 3. cost law school cost 4. LSAT median LSAT score 5. GPA median college GPA 6. libvol no. volumes in lib., 1000s 7. faculty no. of faculty 8. age age of law sch., years 9. clsize size of entering class 10. north =1 if law sch in north 11. south =1 if law sch in south 1. east =1 if law sch in east 13. west =1 if law sch in west 14. lsalary log(salary) 15. studfac student-faculty ratio 16. top10 =1 if ranked in top 10 17. r11_5 =1 if ranked 11-5 18. r6_40 =1 if ranked 6-40 19.. r41_60 =1 if ranked 41-60 0. llibvol log(libvol) 1. lcost log(cost)

Introduction de l information qualitative, plusieurs niveaux d une variables muette, exemple numérique (écoles de droit) Plusieurs niveaux de variables muettes peuvent être présents dans l équation. Log (salaire)=f(ranking des écoles (5 niveaux), d autres variables LSAT-Law school admission test). Réf = rang 100 et plus: Classements selon le rang très significatif.autres non significatives sauf LSAT (test d aptitude).la diférence entre top et end = du simple au double:100*exp(0.697)-1= 100,06 %

. Le modèle linéaire multiple Introduction de l information qualitative, plusieurs niveaux d une variables muette, exemple numérique (écoles de droit)

Variable dependante 0,1 Modèle linéaire de probabilité P(y = 1 x) = E(y x), quand y est une variable muette. Le modèle peut être écrit: P(y = 1 x) = β 0 + β 1 x 1 + + β k x k Interprétation de β j : le changement dans la probablité du succès quand x j changent, toutes choses égales par ailleurs (ceteris paribus). P(y = 1 x)= β j x j. La prédiction de y est la probabilité prédite de succès ( problème: cela parfois peut tomber en dehors de [0,1])

Variable dépendante 0,1 Modèle linéaire de probabilité (MLP), problème de hétéroscedasticité Problème économétrique : MLP ne satisfait pas une des hypothèses GM- homoscedasticité. Donc problème avec inférence. Var(y x)=p(x)(1-p(x)) avec p(x) = probabilité de succès p(x) = β 0 + β 1 x 1 + + β k x k Variance dépend explicitement de X ne peut pas être constante, sauf si aucun des X n influence p. Hétéroscedasticité ne cause pas de biais, mais le calcul des statistiques F et t est impossible. et donc le calcul correct des erreurs est impossible. Toutefois on peut corriger les erreurs des effets de heteroscedasticité (on verra cela plus tard). On peut donc utiliser le modèle MLP à cette précaution près.

Variable dépendante 0,1 Modèle linéaire de probabilité, exemple, individus ayant subis déjà au moins une condamnation, probabilité de récidive Population: personnes ayant été arrêtés au moins 1 fois avant 1986 arr86b =1 si arrêté, 0 sinon Arr86b=f(% des arrestations précédentes suivies des condamnations pcnv, sentence moyenne en mois avgsen,total du temps passé en prison depuis l age de 18 ans en mois tottime, nb de mois en prison en 1986 nombre de trimestre d emploi en 1986) 1.narr86 # times arrested, 1986. nfarr86 # felony arrests, 1986 3. nparr86 # property crme arr., 1986 4. pcnv proportion of prior arests leading to convictions 5. avgsen avg sentence length, mos. 6. tottime time in prison since te age 18 (mos.) 7. ptime86 months in prison during 1986 8. qemp86 # quarters employed, 1986 9. inc86 legal income, 1986, $100s 10. durat recent unemp duration 11.. black =1 if black 1. hispan =1 if Hispanic 13. born60 =1 if born in 1960 14. pcnvsq pcnv^ 15. pt86sq ptime86^ 16. inc86sq inc86^

Variable dependante 0,1 Modèle linéaire de probabilité, exemple, probabilité de récidive. probabilité de récidive diminue avec l emploi (qemp):4 trimestre de travail diminue la proba de 4*0.043=0.17; La proba d être arrêté par rapport à la moyenne inconditionnelle (0.77) est: 0.77-0.17=0.105

. Le modèle linéaire multiple Variable dépendante 0,1 Modèle linéaire de probabilité, exemple, la prise en compte de la heteroscedasticité.