Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage



Documents pareils
Théorie des sondages : cours 5

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Méthodes de Simulation

Critère du choix des variables auxiliaires à utiliser dans l'estimateur par calage

Article. Peut-on établir des statistiques officielles à partir d enquêtes en ligne reposant sur le principe de l autosélection? par Jelke Bethlehem

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Evaluer l ampleur des économies d agglomération

Faut-il pondérer? ...Ou l'éternelle question de l'économètre confronté à un problème de sondage. Laurent Davezies et Xavier D'Haultf uille.

Simulation de variables aléatoires

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Évaluation de la régression bornée

Température corporelle d un castor (une petite introduction aux séries temporelles)

Table des matières. I Mise à niveau 11. Préface

Modélisation aléatoire en fiabilité des logiciels

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

TABLE DES MATIERES. C Exercices complémentaires 42

STATISTIQUES. UE Modélisation pour la biologie

aux différences est appelé équation aux différences d ordre n en forme normale.

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Probabilités stationnaires d une chaîne de Markov sur TI-nspire Louis Parent, ing., MBA École de technologie supérieure, Montréal, Québec 1

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Principe de symétrisation pour la construction d un test adaptatif

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

Probabilités III Introduction à l évaluation d options

MAP 553 Apprentissage statistique

Chapitre 3. Les distributions à deux variables

En 2014, comment mener à bien une enquête aléatoire en population générale par téléphone?

Vanina Bousquet 24 mars 2015

PROBABILITES ET STATISTIQUE I&II

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Que faire lorsqu on considère plusieurs variables en même temps?

FIMA, 7 juillet 2005

Chapitre 3 : Le budget des ventes. Marie Gies - Contrôle de gestion et gestion prévisionnelle - Chapitre 3

MODELE A CORRECTION D ERREUR ET APPLICATIONS

Introduction à l approche bootstrap

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Chapitre 11 METHODOLOGIE D ENQUÊTES

Introduction à la statistique non paramétrique

Les modèles de choix binaire

La nouvelle planification de l échantillonnage

Chapitre 3 : INFERENCE

VI. Tests non paramétriques sur un échantillon

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Programmes des classes préparatoires aux Grandes Ecoles

Equation LIDAR : exp 2 Equation RADAR :

Modèles Estimés sur Données de Panel

Fiche qualité relative à l enquête Santé et Itinéraire Professionnel 2010 (SIP) Carte d identité de l enquête

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Le modèle de régression linéaire

Soutenance de stage Laboratoire des Signaux et Systèmes

Interception des signaux issus de communications MIMO

Notes de cours Statistique avec le logiciel R

1 Définition de la non stationnarité

NON-LINEARITE ET RESEAUX NEURONAUX

Travaux dirigés d introduction aux Probabilités

IFT3245. Simulation et modèles

L Econométrie des Données de Panel

Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

La représentativité d un échantillon et son test par le Khi-deux Testing the representativeness of a sample

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Etude des propriétés empiriques du lasso par simulations

Christophe SANNIER

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Enjeux mathématiques et Statistiques du Big Data

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Gestion obligataire passive

Relation entre deux variables : estimation de la corrélation linéaire

IBM SPSS Regression 21

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

ELEMENTS DE COMPTABILITE NATIONALE

Modélisation géostatistique des débits le long des cours d eau.

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

Terminale STMG Lycée Jean Vilar 2014/2015. Terminale STMG. O. Lader

Introduction à l économétrie : Spécifications, formes fonctionnelles, hétéroscédasticité et variables instrumentales

L approche de régression par discontinuité. Thomas Lemieux, UBC Atelier de formation du Congrès de l ASDEQ Le 18 mai 2011

BASE CONCEPTUELLE POUR L ANALYSE DES INCERTITUDES

MÉTHODE DE MONTE CARLO.

AVANT-PROPOS Thierry Rocher

Méthodologie du calcul de la VaR de marché : revue de l approche basée sur des simulations historiques

FOAD COURS D ECONOMETRIE 1 CHAPITRE 2 : Hétéroscédasicité des erreurs. 23 mars 2012.

Exercice : la frontière des portefeuilles optimaux sans actif certain

Tests semi-paramétriques d indépendance

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Modèles et Méthodes de Réservation

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Correction de l examen de la première session

Crédit à la consommation, un bon outil pour la rentrée?

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

Transcription:

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage Journées de Méthodologie Statistique Eric Lesage Crest-Ensai 25 janvier 2012

Introduction et contexte 2/27 1 Introduction et contexte 2 Non-réponse ignorable 3 Non-réponse non-ignorable 4 Simulations

Introduction et contexte 3/27 Comment traiter la non-réponse? Le mécanisme de non-réponse constitue une sélection aléatoire mais non contrôlée par un plan de sondage L échantillon des répondants est-il représentatif de la population U? Peut-on ignorer ce mécanisme? Et si oui, comment?

Introduction et contexte 4/27 La non-réponse corrélée à la variable d intérêt Un mécanisme de non-réponse lié à la variable d intérêt peut biaiser l estimateur de son total Des exemples de l enquête emploi ou de l enquête patrimoine

Introduction et contexte 5/27 Le contexte On se place dans le cas d une enquête exhaustive U est une population finie de taille N Les éléments de U sont repérés par l indice k Pour chaque élément k on observe les réalisations (x k, y k, z k, r k ) du vecteur aléatoire (X k, Y k, Z k, R k ) Les vecteurs (X k, Y k, R k ) sont i.i.d

Non-réponse ignorable 6/27 1 Introduction et contexte 2 Non-réponse ignorable 3 Non-réponse non-ignorable 4 Simulations

Non-réponse ignorable 7/27 La non-réponse ignorable Elle peut être MCAR ou MAR MCAR : Missing completely at random ; la non-réponse n est pas corrélée à la variable d intérêt MAR : Missing at random ; la non-réponse n est corrélée à la variable d intérêt qu à travers des covariables de Y k observées. Conditionnellement à ces variables, la non-réponse n est pas corrélée à la variable d intérêt Exemple des groupes homogènes de repondération Sexe*groupes d âge

Non-réponse ignorable 8/27 La non-réponse ignorable, cas MAR Modèle de régression linéaire de Y k sur U : Y k = α 0 + α 1 X k + ε k où E(ε k /X k ) = 0 Modèle de réponse, E(R k /X k ) = ρ(x k ) Non-réponse MAR : E(ε k R k /X k ) = 0 E(Y k R k /X k ) = E(Y k /X k )E(R k /X k )

Non-réponse ignorable 9/27 Modèle de régression linéaire de Y k sur l échantillon des répondants s r : Y k = α 0 + α 1 X k + ε k = α X k + ε k où E(ε k R k /X k ) = 0, α = (α 0, α 1 ) et X k = (1, X k ) L estimateur par les MCO [ ] 1 [ ] 1 1 ˆα = R k X k X k R k X k Y k N N k U converge asymptotiquement vers α k U

Non-réponse ignorable 10/27 La non-réponse ignorable, cas MAR Pour estimer le total t y = k U y k, on peut utiliser une estimateur par la régression : où t x = (N, t x = k U x k) ˆt y = t x ˆα

Non-réponse non-ignorable 11/27 1 Introduction et contexte 2 Non-réponse ignorable 3 Non-réponse non-ignorable 4 Simulations

Non-réponse non-ignorable 12/27 La non-réponse non-ignorable On étudie un cas de non-réponse non-ignorable proche du cas précédent Cette fois-ci, une des variables explicatives dans le modèle modèle sur Y k n est pas une variable auxiliaire C est une variable observée uniquement sur l échantillon des répondants C est donc une autre variable d intérêt du modèle

Non-réponse non-ignorable 13/27 Notations Variables auxiliaires dont les totaux sont connus sur U X k = (1, X k,1, X k,2 ) Variables explicatives de la non-réponse Z k = (1, X k,1, Z k,2 ) Variables d intérêt Y k = (Y k, Z k,2 ) La variable X k,2 est corrélée positivement à la variable Z k,2

Non-réponse non-ignorable 14/27 Modèle de non-réponse Ou : E(R k /Z k, X k, Y k ) = E(R k /Z k ) = ρ(z k ) E(R k X k /Z k ) = E(R k /Z k )E(X k /Z k ) E(R k Y k /Z k ) = E(R k /Z k )E(Y k /Z k ) Remarque : la variable X k,2 est corrélée à Z k,2 mais n a pas d effet explicatif direct sur la non-réponse.

Non-réponse non-ignorable 15/27 Modèle de la variable d intérêt On suppose que Y k suit un modèle de régression linéaire Y k = α 0 + α 1 X k,1 + α 2 Z k,2 + ε k E(ε k /Z k, X k ) = 0 Pour autant, on ne peut pas proposer un estimateur Greg de t y car on ne dispose pas de la valeur du total t z2

Non-réponse non-ignorable 16/27 Modèle de régression à variable instrumentale On écrit un nouveau modèle "dégradé" pour Y k en utilisant la corrélation entre X k,2 et Z k,2 : Y k = β 0 + β 1 X k,1 + β 2 X k,2 + τ k E(τ k /Z k ) = 0 D un point de vue statistique, il s agit d un modèle de régression à variable instrumentale Ce modèle est moins bien ajusté que le modèle initial, par contre, il reste identifiable sur s r car E(τ k R k /Z k ) = 0

Non-réponse non-ignorable 17/27 Modèle de régression à variable instrumentale En effet, sur s r on prendra l estimateur : [ ] 1 [ ] ˆβ VI 1 1 = c k R k Z k X k c k R k Z k Y k N N k U k U [ ] 1 [ ] 1 1 = β + c k R k Z k X k c k R k Z k τ k, N N k U k U où c k s interprète comme un poids de l élément k et est une fonction de Z k : c k = f(z k ).

Non-réponse non-ignorable 18/27 Estimateur IVGreg ˆβ VI converge asymptotiquement vers β On peut utiliser cette fois-ci un estimateur par la régression (instrumentale) : ˆt V y I I = t x ˆβV = [ 1 ] c k R k t x c l R l Z l X l Z k Y k k U l U

Non-réponse non-ignorable 19/27 Estimateur IVGreg : estimateur linéaire ˆt V I y = k U R k w V I k Y k, où w V I k = c k t x [ 1 ] c l R l Z l X l Z k l U = c k 1 + ( t x k U est le poids d enquête de l élément k. ) [ ] 1 c k R k X k c l R l Z l X l Z k l U

Simulations 20/27 1 Introduction et contexte 2 Non-réponse ignorable 3 Non-réponse non-ignorable 4 Simulations

Simulations 21/27 Simulations Monte Carlo On génère une population de taille N = 1000 Variables explicatives de la non-réponse Z k,1 gamma(20, 20) (observée sur s r ) Z k,2 U[0, 600] (observée sur s r ) Z k,3 U[0, 600], (non observée) Variables auxiliaires X k,1 = Z k,1 X k,2 = 0, 5(Z k,2 + U k,2 ), où U k,2 N(0, 150 2 ) X k,3 = 0, 5(Z k,2 + Z k,3 )

Simulations 22/27 Simulations Monte Carlo La variable Y k est générée par le modèle linéaire : où E N(0, 2000 2 ) Y k = 100 + 20X k,1 + 20Z k,2 + E k.

Simulations 23/27 Simulations Monte Carlo K = 1000 simulations du mécanisme de réponse R k suit une loi de Bernoulli de paramètre : ( ) exp( 7 + 0.005zk,1 + 0.010z k,2 + 0.010z k,3 ) p k = 0.01+0.9 1 + exp( 7 + 0.005z k,1 + 0.010z k,2 + 0.010z k,3 )

Simulations 24/27 Simulations Monte Carlo On compare quatre estimateurs du total t y ˆt y : moyenne des valeurs de y sur s r multipliée par N ˆt y,x x : estimateur par la régression habituel ˆt y,x3 z : estimateur par la régression instrumentale avec X 3 comme variable proxy de Z 2 ˆt y,x z : estimateur par la régression instrumentale avec Z 1 et Z 2 comme instruments et X 2 comme variable proxy de Z 2

Simulations 25/27 Biais relatifs -0.15-0.10-0.05 0.00 0.05 0.10 ˆt y ˆt y,x x ˆt y,x3 z ˆt y,x z

Simulations 26/27 Biais relatifs - estimateurs de t z2-0.3-0.2-0.1 0.0 0.1 0.2 ˆt z2 ˆt z2,x x ˆt z2,x3 zˆt z2,x z

Simulations 27/27 Beaumont, J.-F. (2000). Une méthode d estimation en présence de non-réponse non-ignorable. Techniques d enquêtes, vol 26, pp 145-151. Deville, J.-C. (2004). La correction de la non-réponse par calage généralisé. Actes des journées de méthodologie satistique, 16 et 17 décembre 2002, INSEE Méthodes. Fuller, A.F. (2009). Sampling Statistics. Wiley, 371. Gautier, E. (2005). Eléments sur les mécanismes de la sélection dans les enquêtes et sur la non-réponse non-igorable. Actes des journées de méthodologie satistique, INSEE. Särndal, C.E. and Sixten L. (2005). Estimation in Surveys with Nonresponse. Wiley.