L approche de régression par discontinuité Thomas Lemieux, UBC Atelier de formation du Congrès de l ASDEQ Le 18 mai 2011
Plan de la présentation L approche de régression par discontinuité (RD) Historique et concepts importants L approche RD en pratique Exemples d études récentes, en particulier Lemieux et Milligan (aide sociale au Québec) et Lalive (assurance-chômage en Autriche) Pour de plus amples détails sur l approche RD, voir Lee et Lemieux Regression Discontinuity Designs in Economics, Journal of Economic Literature, juin 2010
L approche RD Approche non expérimentale introduite par Thistlethwaite et Campbell (1960) L assignation à un traitement (e.g. programme de formation) dépend d une règle stricte: Le traitement n est disponible que lorsqu une variable observable (âge, résultat d un test, etc ) est plus grande ou égale à un seuil c. Ces règles créent des discontinuités dans les relations entre variables pertinentes qui permettent d estimer l effet de l intervention ou du traitement Les règles strictes et arbitraires sont très utiles dans l évaluation de programme. L approche RD est un «research design» et non pas une méthode d estimation. Les régressions (MCO ou MC à deux étapes) sont utilisées pour estimer l effet de programmes ou d interventions lorsque les conditions sont propices à l utilisation de l approche RD.
L approche RD en sciences économiques L approche RD a été relativement peu utilisée jusqu à la fin des années 90. Les choses on bien changé depuis pour plusieurs raisons: Les règles type RD sont beaucoup plus répandues que ce qu on a longtemps pensé L approche se prête bien à l analyse de banques de données administratives contenant beaucoup d observations mais relativement peu de variables de contrôle qui ne sont pas nécessaires dans ce contexte Les travaux théoriques ont permis de mieux comprendre le lien entre l approche RD et la randomisation Travaux théoriques importants: Hahn, Todd and van der Klauuw (2001): lien avec l approche «potential outcomes» et les variables instrumentales Lee (2008): la randomisation locale
Lee (2008): randomisation locale Randomisation: approche expérimentale (en laboratoire ou sur le terrain) => comparaison de moyennes Bien que la méthode RD soit non expérimentale, sous l hypothèse énoncée dans Lee (2008) il s en suit qu on a de la randomisation locale (dans le voisinage de X=c) Hypothèse: les agents contrôle la variable X (e.g. le résultat d un test) de façon imparfaite On peut ensuite vérifier si l hypothèse tient comme dans le cas de l approche expérimentale: Pas de différence entre la moyenne des variables indépendantes de chaque côté de c («balanced covariates») Continuité de la densité de X au point c (McCrary 2008) Dans le graphique suivant, Y(1) représente la valeur de la variable dépendante lorsque l individu reçoit le traitement (Y(0) lorsqu il ne le reçoit pas)
Outcome variable (Y) Figure 3: Randomized Experiment as a RD Design 4.0 3.5 E[Y(1) X] Observed (treatment) 3.0 2.5 2.0 1.5 Observed (control) E[Y(0) X] 1.0 0.5 0.0 0 0.5 1 1.5 2 2.5 3 3.5 4 Assignment variable (random number, X)
La randomisation locale (2) Lorsque la variable X n est pas obtenue à l aide d un tirage aléatoire, on s attend à ce que la pente de la relation entre Y et X ne soit pas nulle. Exemple (Hoekstra, ReStat 2009): X est le résultat d un test d admission permettant d entrer dans un programme contingenté ou une meilleure université. Y est le revenu dix ans plus tard La discontinuité permet de mesurer la valeur du diplôme sur le marché du travail
Outcome variable (Y) Figure 2: Potential outcomes approach 4.00 3.50 Observed 3.00 2.50 B 2.00 1.50 E[Y(1) X] Observed A 1.00 0.50 E[Y(0) X] 0.00 0 0.5 1 1.5 2 2.5 3 Xd 3.5 4 Assignment variable (X)
La méthode RD en pratique (1) Estimation de τ (effet du traitement D i ): problème d estimation non paramétrique car on ne connaît pas la forme fonctionnelle f(x) dans l équation Y i = D i τ + f(x i ) + ε i Solutions: Régressions linéaires locales à l intérieur d une fenêtre h (c-h X c+h) Fonction polynomiale pour f(x i ) Dans les deux cas on estime des régressions différentes de chaque côté du seuil c
La méthode RD en pratique (2) Illustration graphique de la relation entre Y et X Vérification de l hypothèse de randomisation locale Pas de différence entre la moyenne des variables indépendantes de chaque côté de c (balanced covariates) Continuité de la densité de X au point c (McCrary 2008) Ces concepts sont illustrés en détail dans l article du JEL avec David Lee. L exemple utilise est celui des élections à la chambre des représentants des États- Unis.
Figure 7b: Winning the next election, bandwidth of 0.01 (100 bins) 1.00 0.90 0.80 0.70 0.60 0.50 0.40 0.30 0.20 0.10 0.00-0.5-0.4-0.3-0.2-0.1 0 0.1 0.2 0.3 0.4 0.5
Domaines d application principaux de la méthode RD Éducation: Van der Klauuw, IER 2002, Angrist et Lavy (1999) et des douzaines d études aux cours des dernières années Économie politique, élections, etc. Santé: Medicare aux EU (Card et al.), consommation d alcool à 21 ans (Carpenter et Dobkin) Crime, environnement, etc. Marché du travail et l évaluation des politiques de l emploi
Lemieux et Milligan, 2008 Aide sociale au Québec Durant les années 1980, les prestations étaient beaucoup plus faibles pour les adultes de moins de 30 ans sans enfants à charge que pour les 30 ans et plus. Données tirées du recensement canadien Analyse ciblée sur les hommes peu instruits sans enfants
Monthly benefits (1986 $) Figure 1: Social Assistance Benefits, Single Employable Individual (benefits in constant 1986 dollars) 500 450 400 350 300 250 200 150 100 50 0 1980 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990 1991 1992 Under 30 30 and over
Employment rate Taux d emploi (semaine de référence) 0.70 0.68 0.66 0.64 0.62 0.60 0.58 0.56 0.54 0.52 0.50 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 Age (census day)
Lalive, Journal of Econometrics 2008 Effet incitatif de la durée des prestations d assurance-chômage en Autriche En juin 1988, la durée maximale passa de 30 à 209 semaines pour les individus de 50 ans et plus vivant dans certaines régions du pays Lié à l effondrement de l industrie de l acier (concentrée dans ces régions)
En terminant Centaines d études au cours des dernières années Règles strictes nécessaires à l approche RD sont très répandues En dépit de sa nature non expérimentale, la méthode RD partage plusieurs des avantages de l approche expérimentale (randomisation locale) Avantage par rapport au autres méthodes expérimentales: validité interne Inconvénient: validité externe