Critère du choix des variables auxiliaires à utiliser dans l'estimateur par calage



Documents pareils
Faut-il pondérer? ...Ou l'éternelle question de l'économètre confronté à un problème de sondage. Laurent Davezies et Xavier D'Haultf uille.

LE PROBLEME DU PLUS COURT CHEMIN

Santé environnement. Description du budget espace-temps et estimation de l exposition de la population française dans son logement

ui sont les francophones? Analyse de définitions selon les variables du recensement

La fumée de tabac secondaire (FTS) en Mauricie et au Centre-du- Québec, indicateurs du plan commun tirés de l ESCC de

TP a Notions de base sur le découpage en sous-réseaux

Classification non supervisée

Evaluation de la variabilité d'un système de mesure

Annexe commune aux séries ES, L et S : boîtes et quantiles

Quelles sont les entreprises qui ont recours au commerce électronique?

Relation entre deux variables : estimation de la corrélation linéaire

Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011

Fixer son prix à l export

DIRECTIVES POUR LA CONCEPTION ET LA MISE EN OEUVRE D UN PROGRAMME NATIONAL DE RÉGLEMENTATION D ASSURANCE DE LA SÉCURITÉ ALIMENTAIRE CONCERNANT LES

Relation entre pauvreté et fécondité dans les pays du Sud

Chapitre 3. Les distributions à deux variables

Le montant des garanties constituées aux fins du STPGV est-il excessif?

Apprentissage par renforcement (1a/3)

Document d orientation sur les allégations issues d essais de non-infériorité

A quels élèves profite l approche par les compétences de base? Etude de cas à Djibouti

Norme comptable relative aux placements dans les entreprises d assurance et/ou de réassurance NC31

Classe de première L

NOTE D INFORMATION n 01 Janvier 2014

2. RAPPEL DES TECHNIQUES DE CALCUL DANS R

Trépier avec règle, ressort à boudin, chronomètre, 5 masses de 50 g.

Une décomposition du non-emploi en France

UNE MARQUE, MODE D'EMPLOI

Les dispositifs d évaluation formative sont-ils efficaces?

RÉSOLUTION DE SYSTÈMES À DEUX INCONNUES

UNE APPROCHE RENOUVELEE DES ETUDES DE SASTIFACTION

Transcription:

des variables auxiliaires à utiliser dans l'estimateur par calage Mohammed El Haj Tirari Institut National de Statistique et d'economie Appliquée - roc Laboratoire de Statistique d'enquêtes, CREST - Ensai Septième Colloque Francophone sur les Sondages 5-7/11/2012

Introduction Notations Introduction Pour estimer le total d'une population en présence d'information auxiliaire, l'estimateur par calage est parmi les plus utilisés en pratique. Les poids de cet estimateur permettent de redresser l'échantillon de manière à reéter les totaux connus dans la population d'un ensemble de variables auxiliaires. De plus, bien que l'estimateur par calage soit biaisé, ses poids sont calculés de telle sorte à contrôler ce biais. L'amélioration en termes de précision apportée par l'estimateur par calage dépend des variables auxiliaires utilisées dans le calage : le biais et la variance de l'estimateur par calage sont faibles quand ces variables auxiliaires sont fortement reliées à la variable d'intérêt.

Introduction Introduction et Notations Introduction Notations Cependant, la variance de l'estimateur par calage peut devenir importante quand on utilise dans le calage un très grand nombre de variables auxiliaires surtout lorsque certaines de ces variables ne sont pas reliées à la variable d'étude. Nécessité d'élaborer des critères permettant de sélectionner parmi ces variables celles qu'il convient d'utiliser dans le calage. Dans cette présentation, nous proposons un critère de sélection des variables auxiliaires qui convient d'utiliser pour calculer les poids de calage en se servant des données observées sur l'échantillon.

Notations Introduction et Notations Introduction Notations Soit U = {1,..., N} une population de taille N à partir de laquelle on sélectionne un échantillon s de taille n. On s'intéresse à une variable d'intérêt y = (y 1,..., y N ) comme objectif l'estimation de son total : en ayant t y = k U y k On suppose qu'on dispose de p variables auxilaires X 1,..., X p dont les totaux t x = k U x k sont connus, où x k = ( x k1,..., x kp ) pour tout k U.

Approche modèle Introduction et Notations Introduction Notations Sous l'approche basée sur le modèle, on suppose que les valeurs de y sont les réalisations d'un modèle de superpopulation ξ donné par y k = x k β + ɛ k avec β = (β 1,..., β p ), E ξ (ɛ k ) = 0, var ξ (ɛ k ) = σ 2 vk 2 et cov ξ(ɛ k, ɛ l ) = 0. Les vk 2 sont supposé connus avec k U v k = N

Estimateur par calage Introduction Notations Pour estimer le total t y d'une variable d'intérêt y, on considère la classe des estimateurs linéaires qui peuvent s'écrire t yw = k S w ks y k où w ks sont des poids qui peuvent dépendre de l'échantillon. Un estimateur linéaire est dit calé sur les variables auxiliaires x k si et seulement si les poids w ks satisent k S w ks x k = k U Le calage vise à réduire la variance des estimateurs. x k

des variables de calage Pour mesurer la précision de l'estimateur par calage, nous allons considèrer l'approche basée sur le plan et le modèle. Sous cette approche, la précision d'un estimateur linéaire est mesurée en considérant la "Variance Anticipée" dénie par AV ar( t yw ) = E p E ξ ( t yw t y ) 2 La variance anticipée de l'estimateur par calage est donnée par AV ar( t yw ) = σ [ ] 2 v 2 VkS + R 2 k d (d 1) + (R ks k ks 1)2 k U k où R ks = E p (w ks I k ) = Ep(w ks I k I k =1) d k et V ks = var p (w ks I k = 1).

des variables de calage Approximation de AV ar( t yw ) Sous l'approche basée sur le plan et le modèle, une approximation de la précision de l'estimateur par calage peut être donnée par AV ar( t yw ) σ 2 k U v 2 k [R 2 wk (d k 1) + (R wk 1) 2] avec R wk = w k d k sondage. est le rapport des poids de calage et les poids de

des variables de calage Cette approximation a l'avantage de tenir compte des deux aspects dont dépend la précision de l'estimateur t yw : la variance résiduelle du modèle qui diminue quand on ajoute une variable auxiliaire supplémentaire dans le modèle. Diminution de la variance de t yw. les rapports de poids R wk qui s'accroîent quand on ajoute une variable auxiliaire supplémentaire dans le modèle. Augmentation du biais de t yw.

Critère de choix des variables de calage Pour chaque variable X j parmi les p variables auxiliaires disponibles, on peut dénir F Xj = AV ar( t ywj ) AV ar( t ywj 1 ) avec t ywj 1 est l'estimateur par calage sur les variables auxiliaires dont le pouvoir explicatif est supérieur à celui de X j. t ywj est l'estimateur par calage sur la variable X j et celles dont le pouvoir explicatif est supérieur à celui de X j. F Xj peut être utilisé comme un indicateur du choix ou non de la variable X j dans le calage : X j fait partie des variables de calage quand F Xj < 1

Critère de choix des variables de calage F Xj peut être estimé par ÂV ar( t ywj ) F Xj = ÂV ar( t ywj 1 ) où [R 2 wk (d k 1) + (R wk 1) 2] ÂV ar( t yw ) = σ 2 k S d k v 2 k avec σ 2 = ɛ k 2 n p 1 et ɛ k sont les résidus du modèle de régression de Y en fonction des variables auxiliaires utilisées dans le calage.

Critère de choix des variables de calage Procédure de sélection des variables de calage 1 La classication des variables explicatives selon leur pouvoir explicatif au moyen d'une régression de Y en fonction de toutes les variables auxiliaires disponibles. 2 La réalisation des calages successifs en ajoutant les variables auxiliaires une à une selon l'ordre de pouvoir explicatif de celles-ci. 3 A chaque étape de la sélection pas à pas, la décision de garder ou non une variable auxiliaire X j dans le calage est basée sur le critère suivant : ÂV ar( t ywj ) F Xj = ÂV ar( t ywj 1 ) où on décide de garder la variable X j dans le calage quand F Xj < 1.

Remarques Le modèle de régression est utilisé à la première étape de la procédure pour simplier la sélection des variables en permettant de dénir l'ordre de l'inclusion de ces variables dans le calage. Cette procédure n'est qu'un exemple de procédures de sélection pas à pas ascendante qu'on peut considérer pour choisir les variables de calage. D'autres procédures de sélection de type ascendant peuvent être utilisées... On peut également utiliser des procédures de sélection de type descendant.

Exemples Pour illustrer le fonctionnement de la procédure proposée du choix des variables de calage, nous avons générer un échantillon de 2006 unités sélectionnées à partir d'une population de taille 329374. On dispose donc des données observées sur l'échantillon pour une variable d'intérêt Y, des variables auxiliaires pour lesquelles on connaît le total dans la population. Nous avons considérer les deux modèles de régression suivants : 1 le cas d'un modèle de régression relativement mal spécié (R 2 = 0, 41), 2 le cas d'un modèle de régression bien spécié (R 2 = 0, 95).

Exemple1 : le cas d'un modèle de régression relativement mal spécié (R 2 = 0, 41)

Exemple2 : le cas d'un modèle de régression bien spécié (R 2 = 0, 95)

Conclusion Dans ce travail, nous avons proposé un nouveau critère pour le choix des variables auxiliaires qui convient d'utiliser dans le calage. Ce critère se base sur l'approximation de la variance anticipée de l'estimateur par calage. Il a l'avantage de tenir compte du biais dû à l'utilisation des poids de calage au lieu des poids de sondage.