5ème séance Xavier Boutin Roland Rathelot Supélec février 2008
Plan Variables binaires
La question y = β 0 + β 1 x 1 +...β k x k + u Que se passe-t-il lorsque y est une variable {0, 1} et non plus une variable continue? Dans ce cas, on remarque que E(y X ) = P(y = 1 X ) Donc, P(y = 1 X ) = β 0 + β 1 x 1 +...β k x k
Le modèle linéaire de probabilité P(y = 1 X ) = β 0 + β 1 x 1 +...β k x k Conséquences : L effet marginal de x j est constant : β j Rien ne garantit que ŷ i soit entre 0 et 1
Hétéroscédasticité u i = y i X i β avec y i {0, 1} et X i β continu. La variance de u va donc dépendre de X d une manière un peu complexe : hétéroscédasticité Lorsque l on fait l estimation d un MLP, il faut directement utiliser la matrice robuste de White.
MLP Résumé E(y x) pas sur le bon support : mauvaises propriétés sur les bords Hétéroscédasticité systématique Malgré tout, le MLP est intéressant et donne des résultats plutôt bons dans la plupart des cas : on peut souvent commencer par là quand on estime un modèle à variable d intérêt binaire.
Passer à un modèle non-linéaire P(y = 1 X ) = G(β 0 + β 1 x 1 +...β k x k ) où G(.) est une fonction définie sur R et à valeurs sur l ouvert (0, 1). Conséquences : L effet marginal de x j ne sera plus constant mais dépendra de X Par définition, la probabilité prédite sera bien une probabilité On ne peut plus estimer ce genre de modèle par MCO
Probit et logit Les deux fonctions G les plus utilisées sont : G(z) = Φ(z) la cumulative de la loi normale : modèle probit G(z) = exp(z)/[1 + exp(z)] : modèle logit
Variable latente Logit et probit sont deux modèles à variable latente : on peut définir Y, variable latente, inobservable : Y = X β + u Y = 1[Y > 0] avec u distribué dans la loi adéquate.
Effets partiels Quel est l impact d une augmentation de x j sur P(y = 1 X ) = E(y X )? E(y X ) x j = g(x β)β j avec g = G L effet partiel dépend donc de g(x β), donc : de la distribution postulée pour les erreurs de l endroit où on se trouve
Estimation par maximum de vraisemblance (1) On postule la loi jointe des variables On écrit la densité de y sachant X i, conditionnellement aux paramètres à estimer β : f (y X i, β) = [G(X i β)] y [1 G(X i β)] 1 y, y = 0, 1
Estimation par maximum de vraisemblance (2) La log-vraisemblance est une fonction des paramètres, sachant les données : l i (β) = y i log[g(x i β)] + (1 y i ) log[1 G(X i β)] On maximise i l i(β) sur les β
Estimation par maximum de vraisemblance (3) On définit la hessienne pour l observation i comme la matrice K K : H i (β) = 2 β l i(β), dérivées partielles secondes de la vraisemblance. L estimation ˆβ du MV est asymptotiquement convergent : où A o = E[H i (β o )]. N( ˆβ βo ) d N (0, A 1 o )
Estimation par maximum de vraisemblance (4) En pratique : Soit la vraisemblance est facile à dériver et l on calcule analytiquement le score (dérivée première) et la hessienne (dérivée seconde) : on peut ainsi les évaluer pour tout β du support Soit la dérivation s avère compliquée et l on se contente de dérivation numérique pour calculer le score et la hessienne au point où l on en a besoin Pour obtenir ˆβ, on utilise un algorithme de maximisation numérique, qui exige de calculer,on utilise un algorithme de maximisation numérique (de type Newton) pour chaque itération, la vraisemblance, le score et la hessienne.
Diagnostics dans des modèles binaires En définissant des valeurs prédites ŷ i = 1{G(X i ˆβ) > 0.5}, on peut calculer des pourcentages de valeurs correctement prédites P(ŷ i = y i y i = 1) et P(ŷ i = y i y i = 0) Ici, on n observe pas de résidus, mais des pseudo-résidus û i = y i G(X i ˆβ) : on peut définir un pseudo-r 2 avec les pseudo-résidus
Estimation et inférence sur les effets partiels La magnitude des coefficients n est pas interprétable telle quelle. Quantités intéressantes : effet partiel de X j : δ j (β) = P(y = 1 X )/ x j = g(x β)β j Variance de δ j : [ β δ j ( ˆβ)] ˆV [ β δ j ( ˆβ)] si ˆV est la matrice de var-cov de β
Logit et probit sous R On utilise la fonction glm(y x, family = binomial(xxxit)), où xxxit est probit ou logit La fonction glm() donne directement les écarts-types et un test de significativité interprétable comme un t-test Les tests de restrictions multiples sont hors programme
Plan Variables binaires