Introduction à l Econométrie MOSEF Partie 5
Qualité d ajustement (R et R ajusté) chaque observation est constituée de la part expliquée et inexpliquée. y i = yˆ + uˆ Nous définissons : ( yi y) ( yˆ y) i i i Somme des Carrés Totale (SCT) Somme des Carrés Expliquée (SCE) uˆ i Somme des Carrés Résiduelle (SCR) Ainsi: SCT = SCE + SCR.
Qualité d ajustement (R) Rappel : On peut aussi le carré de coefficient de correlation entre les observées et estimées ( yˆ ( ( y y)( yˆ yˆ ). i i R y i R =SCE/SCT=1-SCR/SCT En ajoutant n on découvre que c est un ratio de variances R =(SCE/n)/(SCT/n)=1-(SCR/n) /(SCT/n) = ( ) i ( ) ( ) y y ( yˆ yˆ ) i considérer R comme i )
Quelques questions particulières, R ajusté R =(SCE)/SCT=1-(SCR) /(SCT) R compare la variance des erreurs à la variance de y. Quand il est petit cela signifie que la variance d erreur est relativement grande par rapport à la variance de y R peut être faible et les estimateurs peuvent être non biaisés. Petit R veut dire que nous n avons pas pris en compte certains facteurs dans notre modèle, mais ces facteurs, qui se trouvent dans u, peuvent être non corrélés avec d autres variables indépendantes du modèle. R augmente automatiquement quand on introduit plus de variables dans le modèle.
Quelques questions particulières, R ajusté (le nombre de variables dans le modèle) Le R ajusté prend en compte le nombre de variables dans le modèle et il peut diminuer. σ σ ρ ρ y u = la variance de y = la variance de u = R = 1 σ calculé avec / σ il faut remplacer dans la population u σ u y, dans dans (par SCR/n σ u la population générale la population générale générale ), il est biaisé. par son estimateur non biaisé
Quelques questions particulières, R ajusté On remplace ainsi : SCR/n par SCR/(n - k -1) SCT/n par SCT/(n -1) et on et obtient : R 1 [ SCR ( n k 1) ] [ SCT ( n 1) ] = 1 σˆ [ SCT ( n 1) ]
Quelques questions particulières, R ajusté Le (ajusté) n est pas meilleur que R (non ajusté). Le ratio des estimateurs non biaisés n est par forcement un estimateur non biaisé Le R R ajusté donne une «pénalité» aux modèles avec beaucoup de variables indépendantes par rapport au nombre d observations. R Le ajusté est une simple transformation de R : R =(1 R )(n 1) / (n k 1) Dans la plupart des cas on donne à la fois R et R
Quelques questions particulières, R ajusté, exemple comparaison entre les modèles: y différents On peut comparer modèles avec le même y en comparant R ajusté ou non ajusté, mais non les modèles avec y différent par exemple y par rapport à ln(y) Le plus souvent il vaut mieux utiliser d autres critères d ajustement (écart types des paramètres estimés par exemple) Ne pas inclure de variables qui n ont pas d interprétation claire (ceteris paribus)
Quelques questions particulières, R ajusté, exemple de comparaison entre les modèles: y identiques. reg price lotsize bdrms Source SS df MS Number of obs = 88 F(, 85) = 1.58 Model 309148.889 154574.445 Prob > F = 0.0000 Residual 608705.616 85 7161.455 R-squared = 0.3368 Adj R-squared = 0.31 Total 917854.506 87 10550.0518 Root MSE = 84.64 price Coef. Std. Err. t P> t [95% Conf. Interval] lotsize.008583.0009001 3.18 0.00.0010685.004648 bdrms 57.3185 10.8845 5.7 0.000 35.6715 78.954 _cons 63.64 39.61957 1.60 0.114-15.5108 14.0366
Quelques questions particulières, R ajusté, exemple comparaison entre les modèles: y identiques. reg price lotsize sqrft bdrms colonial Source SS df MS Number of obs = 88 F( 4, 83) = 43.5 Model 6078.635 4 155069.659 Prob > F = 0.0000 Residual 97575.871 83 3585.5145 R-squared = 0.6758 Adj R-squared = 0.660 Total 917854.506 87 10550.0518 Root MSE = 59.877 price Coef. Std. Err. t P> t [95% Conf. Interval] lotsize.000758.000647 3.3 0.00.0007976.003354 sqrft.14375.0133383 9.31 0.000.097708.1507667 bdrms 11.0049 9.5156 1.16 0.51-7.91178 9.9976 colonial 13.71554 14.6377 0.94 0.351-15.39739 4.8847 _cons -4.1653 9.60345-0.81 0.417-83.00661 34.75355
Quelques questions particulières, R ajusté, exemple comparaison entre les modèles: y différents
Quelques questions particulières, R ajusté, exemple comparaison entre les modèles: y différents SCT (SS) premier=3917398 SCT (SS) deuxième=66,7 Il y a donc beaucoup moins de variance à expliquer dans le modèle avec logsalary qu avec salary Il faut d autres critères pour choisir entre les modèles. On peut considérer par exemple, que la meilleure estimation des paramètres est à la faveur du modèle avec logsalary. D autres critères peuvent être aussi utilisés.
Quelques questions particulières, comparaison entre les modèles: AKAIKE critérium (AIC) Critérium d Information AKAIKE (AIC), AIC=n* ln ( u ) + k (n nombre d observation, k nombre de variables) Addition d une variable indépendante supplémentaire se justifie uniquement quand AIC diminue. Remarque: la diminution de ( u ) ne coduit pas toujours à la diminution de AIC. S il est faible l augmentation due à k peut dominée cet effet. Un autre critère souvent utilisé (Critère Bayes- Schwarz, BIC) BIC=n* ln ( u ) + k*ln(n)
Quelques questions particulières, comparaison entre les modèles: AKAIKE critérium (AIC). reg price lotsize bdrms Source SS df MS Number of obs = 88 F(, 85) = 1.58 Model 309148.889 154574.445 Prob > F = 0.0000 Residual 608705.616 85 7161.455 R-squared = 0.3368 Adj R-squared = 0.31 Total 917854.506 87 10550.0518 Root MSE = 84.64 price Coef. Std. Err. t P> t [95% Conf. Interval] lotsize.008583.0009001 3.18 0.00.0010685.004648 bdrms 57.3185 10.8845 5.7 0.000 35.6715 78.954 _cons 63.64 39.61957 1.60 0.114-15.5108 14.0366. statfit unrecognized command: statfit r(199);. fitstat Measures of Fit for regress of price Log-Lik Intercept Only: -531.975 Log-Lik Full Model: -513.904 D(85): 107.807 LR(): 36.14 Prob > LR: 0.000 R: 0.337 Adjusted R: 0.31 AIC: 11.748 AIC*n: 1033.807 BIC: 647.34 BIC': -7.187
Quelques questions particulières, comparaison entre les modèles: critérium AKAIKE (AIC). reg price lotsize bdrms sqrft colonial Source SS df MS Number of obs = 88 F( 4, 83) = 43.5 Model 6078.635 4 155069.659 Prob > F = 0.0000 Residual 97575.871 83 3585.5145 R-squared = 0.6758 Adj R-squared = 0.660 Total 917854.506 87 10550.0518 Root MSE = 59.877 price Coef. Std. Err. t P> t [95% Conf. Interval] lotsize.000758.000647 3.3 0.00.0007976.003354 bdrms 11.0049 9.5156 1.16 0.51-7.91178 9.9976 sqrft.14375.0133383 9.31 0.000.097708.1507667 colonial 13.71554 14.6377 0.94 0.351-15.39739 4.8847 _cons -4.1653 9.60345-0.81 0.417-83.00661 34.75355. fitstat Measures of Fit for regress of price Log-Lik Intercept Only: -531.975 Log-Lik Full Model: -48.414 D(83): 964.89 LR(4): 99.11 Prob > LR: 0.000 R: 0.676 Adjusted R: 0.660 AIC: 11.078 AIC*n: 974.89 BIC: 593.10 BIC': -81.11 AIC est moins sensible que R
Quelques questions particulières, comparaison entre les modèles: critérium AKAIKE (AIC), regression sans constante Le principal avantage de AIC est la comparaison des différents modèles par exemple les modèles avec et sans la constante, non linéaire par rapport aux paramètre (à voir plus tard) Exemple (modèle sans constante, nb peu intéressant en soi ): R dans le modèle sans la constante n est pas calculé de la même façon.
Quelques questions particulières, comparaison entre les modèles: critérium AKAIKE (AIC), regression sans constante y=β 1 x 1 +β x + + β k x k Dans ce modèle certains propriétés de MCO ne sont pas satisfaites en particulier résidus d échantillon n ont pas la moyenne zéro SCR= (y-b 1 x 1 -b x - - b k x k ) (b estimateurs de β) SCR Peut être négatif.
Qualité d ajustement (R) R R sc = = NB : R sc ( yˆ y) i ( y y) i i i y y = uˆ i SCE SCT = 1 (peut être négatif) = 1 uˆ y SCR SCT i i.
Quelques questions particulières, comparaison entre les modèles: AKAIKE critérium (AIC). reg price lotsize bdrms sqrft colonial Source SS df MS Number of obs = 88 F( 4, 83) = 43.5 Model 6078.635 4 155069.659 Prob > F = 0.0000 Residual 97575.871 83 3585.5145 R-squared = 0.6758 Adj R-squared = 0.660 Total 917854.506 87 10550.0518 Root MSE = 59.877 price Coef. Std. Err. t P> t [95% Conf. Interval] lotsize.000758.000647 3.3 0.00.0007976.003354 bdrms 11.0049 9.5156 1.16 0.51-7.91178 9.9976 sqrft.14375.0133383 9.31 0.000.097708.1507667 colonial 13.71554 14.6377 0.94 0.351-15.39739 4.8847 _cons -4.1653 9.60345-0.81 0.417-83.00661 34.75355. fitstat Measures of Fit for regress of price Log-Lik Intercept Only: -531.975 Log-Lik Full Model: -48.414 D(83): 964.89 LR(4): 99.11 Prob > LR: 0.000 R: 0.676 Adjusted R: 0.660 AIC: 11.078 AIC*n: 974.89 BIC: 593.10 BIC': -81.11
Quelques questions particulières, comparaison entre les modèles: AKAIKE critérium (AIC), regression sans constante. reg price lotsize bdrms sqrft colonial, nocon Source SS df MS Number of obs = 88 F( 4, 84) = 574.14 Model 800793.4 4 050198.35 Prob > F = 0.0000 Residual 99957.8 84 3570.91938 R-squared = 0.9647 Adj R-squared = 0.9630 Total 8500750.63 88 96599.4389 Root MSE = 59.757 price Coef. Std. Err. t P> t [95% Conf. Interval] lotsize.000617.0006411 3. 0.00.0007868.0033367 bdrms 6.738631 7.930509 0.85 0.398-9.03056.5093 sqrft.107838.01619 9.57 0.000.0956838.1458837 colonial 1.705 14.55519 0.87 0.385-16.433 41.64684. fitstat Measures of Fit for regress of price Log-Lik Intercept Only:. Log-Lik Full Model: -48.765 D(84): 965.530 LR(4):. Prob > LR:. R: 0.965 Adjusted R: 0.963 AIC: 11.063 AIC*n: 973.530 BIC: 589.434 BIC':.
Quelques questions particulières, comparaison entre les modèles: spécification du modèle L amélioration de la précision d ajustement mesurée par différents indicateurs dépend essentiellement de la spécification du modèle. Ajouter une variable indépendante non corrélée avec les autres diminue la variance d erreur ( positif, à faire toujours si possible) Ajouter une variable indépendante redondante (over controlling): non seulement il y a un risque de multicolinéarité (violation de l independence entre les X), mais aussi un risque d une mauvaise interprétation des paramètres d autres variables. En spécifiant le modèle pensez toujours à ce que vous voudrez savoir à travers ses paramètres estimés.
Quelques questions particulières, Prédiction y= β 0 +β 1 x 1 + + β k x k (1) Nous voulons utiliser les estimations du modèle (1) pour obtenir une prédiction pour un y moyen parmi toutes les observations ayant les caractéristiques x(i-k) y= β 0 +β 1 x 1 + + β k x k (1) On a une observation donnée et on voudrait estimer pour elle sa valeur prédite par le modèle: (y x 1 =c 1, x =c, x k = c k ) = θ 0 = β 0 +β 1 c 1 + + β k c k () On l obtient facilement en remplaçant les x par les c, dans le modèle estimé L estimateur de θ 0 = ˆ θ = ˆ β + ˆ β c + ˆ β c + ˆ β c +... + ˆ β 0 0 1 1 kc k Problème :quel écart type de cette prédiction? On fait le même astuce que pour(b1=b) 1 1
Quelques questions particulières, Prédiction On peut réécrire () comme β 0 = θ 0 β 1 c 1 β c β k c k On le met dans (1) et on regroupe y = θ 0 + β 1 (x 1 - c 1 ) + + β k (x k - c k ) + u (3) En estimant (3) la constante va donner les valeurs de la prédiction avec l écart type. NB: L écart type sera le plus petit quand c=x(moy) (la somme des carrés d une variable est >= que la somme des carrés des écarts à sa moyenne E(x)>=E(xmoy) ) 3
Quelques questions particulières, Prédiction Gpa 1. sat test d aptitude ( SAT). tothrs nombre d heures d enseignement 3. colgpa GPA (note moyenne du collège) 4. athlete =1 si sportif 5. verbmath verbal/math SAT score 6. hsize la taille de la dernière classe, 100s 7. hsrank classement dans la dernière classe 8. hsperc 100*(hsrank/hsize) 9. female =1 si femme 10. white =1 si blanc 11. black =1 si noir 1. Hsizesq hsize^ la taille de la classe au carré 4
Quelques questions particulières, Prédiction Sat=100, hsperc=30, hsize=5 Prédiction=,7 5
modèle linéaire multiple Quelques questions particulières, Prédiction Prédiction (constante)=,7 Ecart type=.019, intervalle de confiance (95%),66-,73 6
modèle linéaire multiple Quelques questions particulières, Prédiction L écart type calculé précédemment n est pas le même que le l écart type pour n importe quelle valeur de y (de la population générale). Il faut aussi tenir compte de la variance des erreurs u (non observables) types d erreurs dans la prédiction: 1. La différence entre les vrais paramètres β de la population générale et leurs estimateurs.nous ne connaissons pas des termes d erreurs (u) au déla de l échantillon observé. 7
Quelques questions particulières, Prédiction Erreur de prédiction pour un y particulier qui n'appartient eˆ = 0 E = y 0 yˆ 0 0 ( β0 + β1x1 + K+ βk xk ) + u 0 ( eˆ ) = 0 0 0 0 ( eˆ ) = Var( yˆ ) + Var( u ) Var sources d'erreur = Var 0 ( yˆ ) 0 = 1.échantillon versus pop.générale. variance du terme d'erreur de la + σ en utilisant l'estiamteur se 0 0 ( eˆ ) = [ et( yˆ )] + ˆ σ 0 pas forcement à l'échantillon ( y ) 0 yˆ 0 population générale - inconnu non biaisé de ce dernier on obtient : 8
Quelques questions particulières, Prédiction eˆ et yˆ 0 0 ( 0 eˆ ) avec pour ~ eˆ 0 0.05 n k 1 nous obtenons l'interval ± t y t = y 0 et, ( 0 eˆ ) yˆ 0 de prédiction de 95% 9
Quelques questions particulières, Prédiction Normalement l estimateur de σ est plus large que la variance de la prédiction, donc l intervalle de prédiction sera plus large (exemple suite) 30
Quelques questions particulières, Prédiction Précédemment l intervalle de confiance (95%) pour le résultat GPA prédit moyen (,70) pour tous les étudiants ayant des caractéristiques particulières était (,66-,77). Maintenant nous cherchons un intervalle de confiance (95%) pour n importe quel étudiant ayant les mêmes caractéristiques. (mais avec les caractéristiques individuelles souvent inobservables, mais qui influencent le score) Nous avons tous les éléments: écart type =0,198, et sigma =0,56 (MSE dans le tableau) est,70+- 1,96*(0,56) donc de 1,60 à 3,80; 31
modèle linéaire multiple Quelques questions particulières, Prédiction 1. Prédiction=,7 Ecart type=.019, intervalle de confiance (95%),66-,73 (la moyenne du grade prédit pour un ensemble d étudiants ayant les mêmes caractéristiques son l intervalle de confiance). l intervalle de confiance (95%),70+- 1,96*(0,56) donc de 1,60 à 3,80 =,70+- 1,96*(0,56) donc de 1,60 à 3,80 ( l intervalle de confiance pour 3 n importe quel individu )
Introduction de l information qualitative, les variables muettes y = β 0 + β 1 x 1 + β x +... β k x k + u Les variables muettes (variables 0,1) ce sont le variables qui ne prennent que les valeurs 0 ou 1. Elles servent à décrire les situations qualitatives: Ex: homme (= 1 si homme, 0 sinon), nord (= 1 si dans le nord, 0 sinon), mais aussi effet saisonnier (si le premier trimestre alors =1 sinon 0), d une période particulière (si l année 1939 alors=1 sinon 0) etc.
Introduction de l information qualitative, les variables muettes Comment introduit on ces variables. - une particularité par rapport aux variables quantitatives. Exemple variable de trimestre: il y a 4 trimestres, mais on n introduit dans l équation que 3 variables (semestre 1,,3, ou,3,4 ou 1,3,4 ou, 1, 4. Pourquoi? Si on en introduit toutes on aura pour chaque observation un cas=1 const trim1t trim trim3 trim4 revenus 1 0 0 1 0 6546546 1 1 0 0 0 365890 1 1 0 0 0 5478944 1 0 1 0 0 4355874 1 1 0 0 0 3558889 1 0 0 0 1 588963
Introduction de l information qualitative, les variables muettes Sur m modalités de variable qualitative X, il faut prendre seulement m-1 modalités. La modalité abandonné intégre la constante et devient une modalité de référence (par exemple 1 trimestre). Interprétation des paramètres de trimestre (changement par rapport au trimestre 1). const trim trim3 trim4 revenus 1 0 1 0 6546546 1 0 0 0 365890 1 0 0 0 5478944 1 1 0 0 4355874 1 0 0 0 3558889 1 0 0 1 588963 Attention: La modalité de référence peut être complexe en présence de plusieurs variables qualitatives.
Introduction de l information qualitative, les variables muettes exemple Un modèle avec une variable continue (x) et une variable muette d =(0,1) y = β 0 + δ 0 d + β 1 x + u Cela peut être interprété comme un déplacement de la constante: Si d = 0, alors y = β 0 + β 1 x + u Si d = 1, alors y = (β 0 + δ 0 ) + β 1 x + u d = 0 est le cas du groupe de référence
Introduction de l information qualitative, les variables muettes Variable muette dépendante unique salaire = β 0 + δ 0 femme + β 1 education+ u femme= 1, sinon 0 homme= groupe de référence (le choix du groupe de référence n a pas de d importance sur le plan éconmétrique, mais il ne faut pas se tromper à l interprétation δ 0 =E(salaire femme=1, éducation) - E(salaire femme=0, éducation) ou plus simplement: δ 0 =E(salaire femme, education) - E(salaire homme, education)
Introduction de l information qualitative, les variables muettes exemple de δ 0 < 0, homme groupe de référence,, y Salaire(homme)= (β 0 + β 1 education) femme= 0 pente = β 1 femme = 1 β 0 } β 0 +δ 0 Salaire(femme)= (β 0 + δ 0 )+ β 1 (education) x
Introduction de l information qualitative, les variables muettes exemple numerique salaire = β 0 + δ 0 femme + β 1 education+ u H 0 : δ 0 =0 (pas de différence homme- femme X)
Introduction de l information qualitative, les variables muettes exemples numériques (analyse de possibles discriminations) Ajouter plus de variables continues ne change pas d interprétation (sinon les estimations de paramètres) H 0 : δ 0 =0 (pas de différence homme- femme X)
Introduction de l information qualitative, les variables muettes exemple numérique Quelques remarques: La différence homme femme estimée est plus grande dans le premier cas. Nous n avons tenu compte que des différences de l éducation. Si on tient compte aussi de l expérience et de l ancienneté la différence homme femme baisse. Si on tenait compte de toutes les variables (souvent inobservables) qui influencent le salaire peut être la différence changerait de signe (???)
Introduction de l information qualitative, les variables muettes exemples numériques Très souvent les variables muettes sont utilisées pour expliquer les conditions de choix individuels. Question: l achat d un ordinateur améliore-t-il les performances scolaire? Note moyenne à l université = f(ordinateur (0,1),note au lycée, test IQ)
Introduction de l information qualitative, les variables muettes exemple numerique (effet de comportement individuels) Note moyenne à l université = f(ordinateur (0,1),note au lycée, test de performance) Un étudiant avec un ordinateur a une note env. 0.16 points plus élevée que l étudiant sans PC (en tenant compte de X)
Introduction de l information qualitative, les variables muettes exemple numerique (effets de politique publique) Nombre d heures de formation =f(subvention (0.1), log(nombre d employés), log(chiffres d affaires)) Subvention (grant) est très significative: les firmes qui ont eu la subvention ont donné 34 heurs de formation de plus que les autres, chiffres d affaires n a pas d importance, nombre d employés a un effet négatif significatif (10% plus d employés implique 0,67 heures de formation en moins.
Introduction de l information qualitative, les variables muettes exemple numerique (interprétation quand var. dépendante est en log:%) Log (prix de la maison)=f(log (surface terrain), log(surface de la maison), nombre de chambres, caractère colonial(0,1)) Le caractère colonial(0,1 ) est peu significatif, s il l était, cela signifierait qu avoir le style colonial augmente le prix de la maison d à peu près 5.4% pour les niveau donné des autres X. (coef *100, semi élasticité). La surface du terrain et de la maison ont une influence déterminante (élasticités)
Introduction de l information qualitative, plusieurs variables muettes,, variable dépendante en log, exemple numérique, Plusieurs variables muettes peuvent être présentes dans la régression. Log (salaire)=f(femme (0,1), marié (0,1), non blanc (0, 1), éducation, expérience ).. («Ceteris paribus», si marié, on gagne plus, si une femme on gagne moins (env 30%), mais pas d effet de la couleur de la peau. Effet exact: 100*(exp(β)-1) =-34.9%
Introduction de l information qualitative, plusieurs niveaux d une variables muette, exemple numerique, Chaque variable qualitative peut être transformée en un ensemble des variables muettes. Le groupe de référence est représenté par la constante. Si on a n catégories on ne peut avoir que n 1 variables muettes. On peut aussi grouper certaines catégories. Age (0-10, 11-40, 41-60, 60 et plus Exemple: classement (1)top 10 () 11 5, (3)6-40, ( 4) 41-60. (5) 61-100et plus etc.
Introduction de l information qualitative, plusieurs niveaux d une variables muette, exemple numérique, 1. rank law school ranking. salary median starting salary 3. cost law school cost 4. LSAT median LSAT score 5. GPA median college GPA 6. libvol no. volumes in lib., 1000s 7. faculty no. of faculty 8. age age of law sch., years 9. clsize size of entering class 10. north =1 if law sch in north 11. south =1 if law sch in south 1. east =1 if law sch in east 13. west =1 if law sch in west 14. lsalary log(salary) 15. studfac student-faculty ratio 16. top10 =1 if ranked in top 10 17. r11_5 =1 if ranked 11-5 18. r6_40 =1 if ranked 6-40 19.. r41_60 =1 if ranked 41-60 0. llibvol log(libvol) 1. lcost log(cost)
Introduction de l information qualitative, plusieurs niveaux d une variables muette, exemple numérique (écoles de droit) Plusieurs niveaux de variables muettes peuvent être présents dans l équation. Log (salaire)=f(ranking des écoles (5 niveaux), d autres variables LSAT-Law school admission test). Réf = rang 100 et plus: Classements selon le rang très significatif.autres non significatives sauf LSAT (test d aptitude).la diférence entre top et end = du simple au double:100*exp(0.697)-1= 100,06 %
. Le modèle linéaire multiple Introduction de l information qualitative, plusieurs niveaux d une variables muette, exemple numérique (écoles de droit)
Variable dependante 0,1 Modèle linéaire de probabilité P(y = 1 x) = E(y x), quand y est une variable muette. Le modèle peut être écrit: P(y = 1 x) = β 0 + β 1 x 1 + + β k x k Interprétation de β j : le changement dans la probablité du succès quand x j changent, toutes choses égales par ailleurs (ceteris paribus). P(y = 1 x)= β j x j. La prédiction de y est la probabilité prédite de succès ( problème: cela parfois peut tomber en dehors de [0,1])
Variable dépendante 0,1 Modèle linéaire de probabilité (MLP), problème de hétéroscedasticité Problème économétrique : MLP ne satisfait pas une des hypothèses GM- homoscedasticité. Donc problème avec inférence. Var(y x)=p(x)(1-p(x)) avec p(x) = probabilité de succès p(x) = β 0 + β 1 x 1 + + β k x k Variance dépend explicitement de X ne peut pas être constante, sauf si aucun des X n influence p. Hétéroscedasticité ne cause pas de biais, mais le calcul des statistiques F et t est impossible. et donc le calcul correct des erreurs est impossible. Toutefois on peut corriger les erreurs des effets de heteroscedasticité (on verra cela plus tard). On peut donc utiliser le modèle MLP à cette précaution près.
Variable dépendante 0,1 Modèle linéaire de probabilité, exemple, individus ayant subis déjà au moins une condamnation, probabilité de récidive Population: personnes ayant été arrêtés au moins 1 fois avant 1986 arr86b =1 si arrêté, 0 sinon Arr86b=f(% des arrestations précédentes suivies des condamnations pcnv, sentence moyenne en mois avgsen,total du temps passé en prison depuis l age de 18 ans en mois tottime, nb de mois en prison en 1986 nombre de trimestre d emploi en 1986) 1.narr86 # times arrested, 1986. nfarr86 # felony arrests, 1986 3. nparr86 # property crme arr., 1986 4. pcnv proportion of prior arests leading to convictions 5. avgsen avg sentence length, mos. 6. tottime time in prison since te age 18 (mos.) 7. ptime86 months in prison during 1986 8. qemp86 # quarters employed, 1986 9. inc86 legal income, 1986, $100s 10. durat recent unemp duration 11.. black =1 if black 1. hispan =1 if Hispanic 13. born60 =1 if born in 1960 14. pcnvsq pcnv^ 15. pt86sq ptime86^ 16. inc86sq inc86^
Variable dependante 0,1 Modèle linéaire de probabilité, exemple, probabilité de récidive. probabilité de récidive diminue avec l emploi (qemp):4 trimestre de travail diminue la proba de 4*0.043=0.17; La proba d être arrêté par rapport à la moyenne inconditionnelle (0.77) est: 0.77-0.17=0.105
. Le modèle linéaire multiple Variable dépendante 0,1 Modèle linéaire de probabilité, exemple, la prise en compte de la heteroscedasticité.