Chapitre 5 Les informations qualitatives Licence Econométrie / MASS Econométrie II, 7-8 Martin Fournier Fournier@gate.cnrs.fr Econométrie II. Les variables indicatrices Variables «dummy» Econométrie II. Variables dummy Une variable indicatrice (dummy) est une variable qui prend seulement deux valeurs possibles : ou Exemples: sexe ( pour les hommes, pour les femmes), géographie ( pour Paris, sinon), race, etc. On peut également parler de variables binaires (binary variables) Econométrie II Econométrie II
. Exemple Econométrie II 4. Une «dummy» comme variable explicative Considérons un modèle simple avec une variable continue (x) et une variable dummy (d) y b + d d + b x + u Le coefficient (MCO) de la variable dummy peut être interprété comme une translation du modèle (modification du terme constant) Si d, alors y b + b x + u Si d, alors y (b + d ) + b x + u Le cas d est le groupe de référence Econométrie II 5. Exemple (avec δ > ) y δ { } β y (β + δ ) + β x d d y β + β x Dans les cas, la pente β Econométrie II 6 x Econométrie II
.5 Exemple wage β + β female + educ + u β Ce modèle permet de déterminer l espérance mathématique du différentiel de salaire entre hommes et femmes en contrôlant par le niveau d éducation atteint β Ε Ε ( wage female, educ) Ε( wage female, educ) ( wage female, educ) Ε( wage male, educ) Puisque Ε Ε ( wage female, educ) β + β + ( wage male, educ) β + β educ β educ Econométrie II 7.6 Exemple () Hommes : wage β educ + β Femmes : wage β + β + β ( ) educ Econométrie II 8.6 Exemple () wage β + β female + educ + u β Le même modèle aurait pu être estimé en utilisant une variable dummy «Homme» (i.e. en prenant les femmes comme groupe de référence) wage γ + γ male + educ + u γ On obtiendrait alors : β γ + β γ γ β γ γ β + β Econométrie II 9 Econométrie II
.6 Exemple (4) Attention : On ne peut pas en revanche inclure conjointement les variables dummy female et male dans la régression. On se retrouverait alors avec une collinéarité parfaite entre les variables explicatives du fait que : female + male Ce qui viole les hypothèses du théorème de Gauss- Markov et invalide l estimateur des MCO Econométrie II.7 Exemple (5) Application pratique : Test et évaluation d une différence de revenu entre hommes et femmes : incearn β + β female + β education + β tenure + businesses + u β4 incearn β + δ male + β education + β tenure + businesses + u β4 Incearn : Revenu Female : Variable dummy (Femme female) Male : Variable dummy (Femme female) Education : Nombre d années d éducation Tenure : Nombre d années d expérience Econométrie II Econométrie II Econométrie II
.9 Exemple (7) Si la variable dépendante est sous forme logarithmique, le coefficient de la variable dummy s interprète donc comme la différence espérée entre les deux groupes en pourcentage : log ( incearn) β + β female + β educ + β tenure+ β tenure + β businesses + β businesses + u 5 E( incearn female, X ) E( incearn male, X ) exp( ˆ β) E( incearnmale, X ) 6 Econométrie II 4 ˆ β (pour ˆ β proche de ). Exemple (8) : Forme logaritmique exp( ˆ β ) % Econométrie II 4. Variables indicatrices et information complexe Econométrie II 5 Econométrie II
. Variables dummy et catégories multiples On peut utiliser des variables dummy pour contrôler une information discrète multiple : Prenons l exemple d une variable d éducation pouvant prendre trois niveaux : Primaire, Secondaire et Supérieure On peut créer deux variables dummy permettant de capter toute l information : SUP si éducation supérieure et sinon SEC si éducation secondaire (seulement) et sinon Catégorie de référence : éducation primaire seulement Econométrie II 6. Variables dummy et catégories multiples () Toute variable catégorielle peut être transformée en un jeu de variables dummy Le groupe de référence est représenté par le terme constant S il y a n catégories, il doit y avoir seulement n variables dummy On peut rapidement se retrouver avec un nombre important de variables redéfinition des groupes (ex. : CSP, secteurs industriels) Econométrie II 7 log. Exemple ( wage) β + β marrmale + β marrfem + β singfem+ β education+ β tenure + β tenure + β businesses+ β businesses + u 5 6 Marrmale : Homme marié Marrfem : Femme mariée Singfem : Femme célibataire 7 8 4 Référence : Homme célibataire Econométrie II 8 Econométrie II
Econométrie II 9.5 Variables dummy information ordonnées On dispose parfois d information qualitatives ordonnées (niveaux de satisfaction, classements, niveaux de risque, etc.) Une augmentation d une unité n a pas de raison d avoir un effet constant Variables dummies Exemple : Classement de clients par niveaux de risque pour une assurance : : Risque très faible : Risque faible : Risque incertain 4 : Risque élevé 5 : Risque très élevé Econométrie II.6 Variables dummy information ordonnées () On peut parfois créer des variables dummy à partir de variables quantitatives pour capter les non-linéarités Exemples : Classes d âge Classes de revenu Niveaux d éducation construits à partir du nombre d années Etc. Permet une spécification plus flexible au prix du nombre de coefficients à estimer Econométrie II Econométrie II
. Les variables indicatrices comme variables d interaction Econométrie II. Interractions entre variables dummy Important lorsque la valeur d une variable qualitative influence l effet d une autre variable qualitative sur la variable expliquée Exemple : L effet du sexe sur le revenu peut dépendre du statut marital de la personne Si l on n est intéressé que par les différences de revenu entre hommes et femmes ou entre mariés et célibataires, on inclue seulement ces deux variables : ( ) β + β female + β married + K log incearn Econométrie II. Interractions entre variables dummy () Si l on veut également prendre en compte le fait que le sexe puisse influencer la manière dont le statut marital modifie le revenu espéré, il faut également inclure la variable croisée entre les deux variables dummy : ( ) λ + λ female + λ married + λ female married + K log incearn λ Hommes célibataires (référence) λ + λ Hommes mariés λ + λ Femmes célibataires λ + λ + λ + λ Femmes mariées Econométrie II 4 Econométrie II
. Interactions entre variables dummy () ( incearn ) β + βmarrmale + βmarrfem + β singfem +... ( incearn) λ + λ female + λ married + λ female marriedk log log Les deux spécifications sont équivalentes : β - Hommes célibataires λ β - Hommes mariés + β λ + λ β - Femmes mariées + β λ + λ + λ + λ β + β λ + - Femmes célibataires λ La deuxième approche permet de tester directement le fait que l impact du sexe dépend du statut marital : Η λ : Econométrie II 5.4 Interactions entre variables Dummy et variable continue Permet de capter des différences de pentes entre groupes : ( ) β + β female + β educ + β female educ + K log wage β β + β :Rendement de l' éducation des hommes : Rendement de l' éducation des femmes T-test sur β : test de l égalité des rendements de l éducation entre hommes et femmes Econométrie II 6.5 Exemple avec β > Femmes y y β + β.educ Hommes y β + β + (β + β ).educ Econométrie II 7 x Econométrie II
.6 Test de structures différentes par groupes Pour tester si le modèle est différents entre deux groupes (e.g. hommes/femmes) peut être fait simplement en croisant chaque variable avec une variable dummy de groupe et de tester la significativité jointe des termes croisés NB : On peut se retrouver très rapidement avec un nombre considérables de variables Econométrie II 8.7 Exemple Modèle général log( incearn ) β + β education + β tenure + β businesses + u Test d une différence de modèle entre hommes et femmes : log( incearn) β + β female + β education + β female education + β tenure + β female tenure 4 + β businesses + β female businesses + u 6 Η : β, β, β 5, β 7 5 7 Econométrie II 9 Econométrie II Econométrie II
.9 Test de Chow Lorsqu il y a trop de variables explicatives, une alternative consiste à effectuer l estimation séparément sur les deux groupes et de tester l égalité des coefficients entre les deux régressions : y β g, + β g,x + β g, x + L + β g k xk + u, Econométrie II. Test de Chow () La solution réside dans le fait que la somme des carrés des résidus du modèle non restreint (avec une variable dummy et un croisement de cette variable dummy avec toutes les autres variables du modèle) est égale à la somme des carrés des résidus des modèles estimés sur chacun des groupes ( et ici): SSR ur SSR + SSR Il suffit alors d estimer le modèle restreint (sur toutes les données, sans variable dummy) et d en déduire la somme des carrés des résidus : SSR r Econométrie II. Test de Chow () Il suffit alors d effectuer un test de Fisher (k+ coefficients testés sur k+ variables + constante : F ( SSRr SSRur ) ( k + SSR ( n k ) ur Le test de Chow consistant à dériver la somme des carrés des résidus du modèle non restreint des estimations menées distinctement,t sur les deux groupes : [ SSRP ( SSR + SSR )] [ n ( k + ) ] F SSR + SSR ) k + Econométrie II Econométrie II
Econométrie II 4 4. Les variables indicatrices comme variable expliquée Econométrie II 5 4. Le Problème On observe un état par une variable indicatrices : Actif (Act) / Inactif (Act) Éducation supérieure (Sup) / Lycée ou moins (Sup) Produit de bonne qualité (Qual) / Mauvaise (Qual) Etc. On veut pouvoir modéliser l état observé en fonction de variables explicatives : Act f(éducation, âge, structure familiale ) Sup f(éducation parents, âge, revenu parents ) Qual f(taux de contrôle, pénalité, coût de vérification ) Econométrie II 6 Econométrie II
4. Le modèle de probabilité linéaire On peut modéliser la probabilité pour la variable dummy y de prendre la valeur en notant que : P(y x) E(y x) On peut alors écrire le modèle : P(y x) b + b x + + b k x k On peut estimer le modèle par les MCO L estimateur de b j donne une mesure de la variation de la probabilité de succès (y) lorsque x j est modifié Econométrie II 7 4. Le modèle de probabilité linéaire () Remarques : La valeur prédite de y par les résultats du modèle estimé permet d obtenir une probabilité prédite de succès La valeur prédite peut être simulée en dehors du support de la probabilité [,] Les variations prédites de probabilités pour une variation d une explicative x i peut être supérieure à Econométrie II 8 4. Le modèle de probabilité linéaire () Remarques (suite) : Le modèle viole l hypothèse d homoscédasticité Il existe des méthodes plus adaptées (modèles Probit et Logit) par maximum de vraisemblance Cette approche peut malgré tout être utile en première phase d analyse du problème Econométrie II 9 Econométrie II
5. Variables dummies et évaluations de programmes Econométrie II 4 5. Évaluation d un programme Les variables dummy peuvent apparaître comme un outil particulièrement utile lors de l évaluation de programmes Exemple : Revenu des individus ayant reçu une formation pilote / revenu des individus ne l ayant pas reçue Malheureusement, le plus souvent la variable dummy provient d un processus de sélection (par le programme ou par auto-sélection des individus) Econométrie II 4 5. Évaluation d un programme () log( salaire ) β + βixi + β formi + ui i Si toutes les dimensions de la sélection sont inclues dans les variables x i alors le coefficient β fournit une bonne évaluation de l effet de la formation Malheureusement, le plus souvent certains déterminants de la sélection sont inobservables et corrélés à des déterminants inobservés du salaire Rejet de l hypothèse d exogénéité de la variable dummy Estimation biaisée fournie par les MCO Chapitre suivant Econométrie II 4 Econométrie II