Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage Journées de Méthodologie Statistique Eric Lesage Crest-Ensai 25 janvier 2012
Introduction et contexte 2/27 1 Introduction et contexte 2 Non-réponse ignorable 3 Non-réponse non-ignorable 4 Simulations
Introduction et contexte 3/27 Comment traiter la non-réponse? Le mécanisme de non-réponse constitue une sélection aléatoire mais non contrôlée par un plan de sondage L échantillon des répondants est-il représentatif de la population U? Peut-on ignorer ce mécanisme? Et si oui, comment?
Introduction et contexte 4/27 La non-réponse corrélée à la variable d intérêt Un mécanisme de non-réponse lié à la variable d intérêt peut biaiser l estimateur de son total Des exemples de l enquête emploi ou de l enquête patrimoine
Introduction et contexte 5/27 Le contexte On se place dans le cas d une enquête exhaustive U est une population finie de taille N Les éléments de U sont repérés par l indice k Pour chaque élément k on observe les réalisations (x k, y k, z k, r k ) du vecteur aléatoire (X k, Y k, Z k, R k ) Les vecteurs (X k, Y k, R k ) sont i.i.d
Non-réponse ignorable 6/27 1 Introduction et contexte 2 Non-réponse ignorable 3 Non-réponse non-ignorable 4 Simulations
Non-réponse ignorable 7/27 La non-réponse ignorable Elle peut être MCAR ou MAR MCAR : Missing completely at random ; la non-réponse n est pas corrélée à la variable d intérêt MAR : Missing at random ; la non-réponse n est corrélée à la variable d intérêt qu à travers des covariables de Y k observées. Conditionnellement à ces variables, la non-réponse n est pas corrélée à la variable d intérêt Exemple des groupes homogènes de repondération Sexe*groupes d âge
Non-réponse ignorable 8/27 La non-réponse ignorable, cas MAR Modèle de régression linéaire de Y k sur U : Y k = α 0 + α 1 X k + ε k où E(ε k /X k ) = 0 Modèle de réponse, E(R k /X k ) = ρ(x k ) Non-réponse MAR : E(ε k R k /X k ) = 0 E(Y k R k /X k ) = E(Y k /X k )E(R k /X k )
Non-réponse ignorable 9/27 Modèle de régression linéaire de Y k sur l échantillon des répondants s r : Y k = α 0 + α 1 X k + ε k = α X k + ε k où E(ε k R k /X k ) = 0, α = (α 0, α 1 ) et X k = (1, X k ) L estimateur par les MCO [ ] 1 [ ] 1 1 ˆα = R k X k X k R k X k Y k N N k U converge asymptotiquement vers α k U
Non-réponse ignorable 10/27 La non-réponse ignorable, cas MAR Pour estimer le total t y = k U y k, on peut utiliser une estimateur par la régression : où t x = (N, t x = k U x k) ˆt y = t x ˆα
Non-réponse non-ignorable 11/27 1 Introduction et contexte 2 Non-réponse ignorable 3 Non-réponse non-ignorable 4 Simulations
Non-réponse non-ignorable 12/27 La non-réponse non-ignorable On étudie un cas de non-réponse non-ignorable proche du cas précédent Cette fois-ci, une des variables explicatives dans le modèle modèle sur Y k n est pas une variable auxiliaire C est une variable observée uniquement sur l échantillon des répondants C est donc une autre variable d intérêt du modèle
Non-réponse non-ignorable 13/27 Notations Variables auxiliaires dont les totaux sont connus sur U X k = (1, X k,1, X k,2 ) Variables explicatives de la non-réponse Z k = (1, X k,1, Z k,2 ) Variables d intérêt Y k = (Y k, Z k,2 ) La variable X k,2 est corrélée positivement à la variable Z k,2
Non-réponse non-ignorable 14/27 Modèle de non-réponse Ou : E(R k /Z k, X k, Y k ) = E(R k /Z k ) = ρ(z k ) E(R k X k /Z k ) = E(R k /Z k )E(X k /Z k ) E(R k Y k /Z k ) = E(R k /Z k )E(Y k /Z k ) Remarque : la variable X k,2 est corrélée à Z k,2 mais n a pas d effet explicatif direct sur la non-réponse.
Non-réponse non-ignorable 15/27 Modèle de la variable d intérêt On suppose que Y k suit un modèle de régression linéaire Y k = α 0 + α 1 X k,1 + α 2 Z k,2 + ε k E(ε k /Z k, X k ) = 0 Pour autant, on ne peut pas proposer un estimateur Greg de t y car on ne dispose pas de la valeur du total t z2
Non-réponse non-ignorable 16/27 Modèle de régression à variable instrumentale On écrit un nouveau modèle "dégradé" pour Y k en utilisant la corrélation entre X k,2 et Z k,2 : Y k = β 0 + β 1 X k,1 + β 2 X k,2 + τ k E(τ k /Z k ) = 0 D un point de vue statistique, il s agit d un modèle de régression à variable instrumentale Ce modèle est moins bien ajusté que le modèle initial, par contre, il reste identifiable sur s r car E(τ k R k /Z k ) = 0
Non-réponse non-ignorable 17/27 Modèle de régression à variable instrumentale En effet, sur s r on prendra l estimateur : [ ] 1 [ ] ˆβ VI 1 1 = c k R k Z k X k c k R k Z k Y k N N k U k U [ ] 1 [ ] 1 1 = β + c k R k Z k X k c k R k Z k τ k, N N k U k U où c k s interprète comme un poids de l élément k et est une fonction de Z k : c k = f(z k ).
Non-réponse non-ignorable 18/27 Estimateur IVGreg ˆβ VI converge asymptotiquement vers β On peut utiliser cette fois-ci un estimateur par la régression (instrumentale) : ˆt V y I I = t x ˆβV = [ 1 ] c k R k t x c l R l Z l X l Z k Y k k U l U
Non-réponse non-ignorable 19/27 Estimateur IVGreg : estimateur linéaire ˆt V I y = k U R k w V I k Y k, où w V I k = c k t x [ 1 ] c l R l Z l X l Z k l U = c k 1 + ( t x k U est le poids d enquête de l élément k. ) [ ] 1 c k R k X k c l R l Z l X l Z k l U
Simulations 20/27 1 Introduction et contexte 2 Non-réponse ignorable 3 Non-réponse non-ignorable 4 Simulations
Simulations 21/27 Simulations Monte Carlo On génère une population de taille N = 1000 Variables explicatives de la non-réponse Z k,1 gamma(20, 20) (observée sur s r ) Z k,2 U[0, 600] (observée sur s r ) Z k,3 U[0, 600], (non observée) Variables auxiliaires X k,1 = Z k,1 X k,2 = 0, 5(Z k,2 + U k,2 ), où U k,2 N(0, 150 2 ) X k,3 = 0, 5(Z k,2 + Z k,3 )
Simulations 22/27 Simulations Monte Carlo La variable Y k est générée par le modèle linéaire : où E N(0, 2000 2 ) Y k = 100 + 20X k,1 + 20Z k,2 + E k.
Simulations 23/27 Simulations Monte Carlo K = 1000 simulations du mécanisme de réponse R k suit une loi de Bernoulli de paramètre : ( ) exp( 7 + 0.005zk,1 + 0.010z k,2 + 0.010z k,3 ) p k = 0.01+0.9 1 + exp( 7 + 0.005z k,1 + 0.010z k,2 + 0.010z k,3 )
Simulations 24/27 Simulations Monte Carlo On compare quatre estimateurs du total t y ˆt y : moyenne des valeurs de y sur s r multipliée par N ˆt y,x x : estimateur par la régression habituel ˆt y,x3 z : estimateur par la régression instrumentale avec X 3 comme variable proxy de Z 2 ˆt y,x z : estimateur par la régression instrumentale avec Z 1 et Z 2 comme instruments et X 2 comme variable proxy de Z 2
Simulations 25/27 Biais relatifs -0.15-0.10-0.05 0.00 0.05 0.10 ˆt y ˆt y,x x ˆt y,x3 z ˆt y,x z
Simulations 26/27 Biais relatifs - estimateurs de t z2-0.3-0.2-0.1 0.0 0.1 0.2 ˆt z2 ˆt z2,x x ˆt z2,x3 zˆt z2,x z
Simulations 27/27 Beaumont, J.-F. (2000). Une méthode d estimation en présence de non-réponse non-ignorable. Techniques d enquêtes, vol 26, pp 145-151. Deville, J.-C. (2004). La correction de la non-réponse par calage généralisé. Actes des journées de méthodologie satistique, 16 et 17 décembre 2002, INSEE Méthodes. Fuller, A.F. (2009). Sampling Statistics. Wiley, 371. Gautier, E. (2005). Eléments sur les mécanismes de la sélection dans les enquêtes et sur la non-réponse non-igorable. Actes des journées de méthodologie satistique, INSEE. Särndal, C.E. and Sixten L. (2005). Estimation in Surveys with Nonresponse. Wiley.