Cours de sondages approfondis 1ère séance : rappels Xavier d Haultfœuille 1
Introduction Objectif du cours : aborder quelques techniques récentes en sondages, et plus précisément : - en échantillonnage : tirages équilibrés, tirage indirect... - en redressement : traitement de la non-réponse partielle (par imputation) et totale (par calage). - en estimation : calcul de précision dans des plans complexes, pour des statistiques complexes. Bibliographie conseillée P. Ardilly (2006), Les techniques de sondage. C. E. Särndal, B. Swensson et J. Wreitman (1992), Model Assisted Survey Sampling, Springer- Verlag. Y. Tillé (2001), Théorie des sondages : Échantillonnage et estimation en populations finies : cours et exercices, Dunod. 2
1. Rappels sur la théorie des sondages : définitions On dispose d une population U = {1,..., N}. A chaque individu k correspond un caractère y k. On parle de caractère plutôt que de variables pour préciser que y k n est pas aléatoire. L objectif est d estimer un paramètre θ = f(y), où y = (y 1,..., y N ). Deux solutions pour ce faire : On dispose de données exhaustives sur la population (fichiers administratifs, recensements). θ est (en théorie) parfaitement connu. Il n est pas possible (pour des raisons de confidentialité et/ou de coût) d observer le vecteur complet y. On a alors recours à un sondage. Un plan de sondage peut être défini comme une loi de probabilité p(.) sur l ensemble des parties de U. On note S une variable aléatoire de loi p(.). S est un échantillon aléatoire ( l échantillon ). On a alors, pour tout s U, P(S = s) = p(s) 3
1. Rappels sur la théorie des sondages : définitions On définit également : les variables d appartenance à l échantillon, I k = 1{k S}. la taille de l échantillon n S = #S = k U I k. En général, n S est aléatoire. la probabilité d inclusion π k de l individu k : π k = P(k S). On a : π k = E(1{k S}) = s p(s)1{k s} = s k p(s). = E(I k ). les probabilités d inclusion d ordre deux π kl des individus k et l. π kl = P((k, l) S). On a : π kl s (k,l) = E(1{k S}1{l S}) = = E(I k I l ). Les covariances kl = Cov(I k, I l ). On a : kl = π kl π k π l. p(s). 4
2. Rappels sur la théorie des sondages : échantillonnage Définition 1 Un plan est dit de taille fixe lorsque n S est constante. On note alors n S = n et on définit également le taux de sondage par f = n/n. Propriétés du sondage de taille fixe : π k = n. (1) l U,l k l U,l k k U π kl = (n 1) π k. (2) kl = kk = π k (1 π k ). (3) Définition 2 Un sondage est dit à probabilités inégales lorsqu il existe k l tel que π k π l. 5
2. Rappels sur la théorie des sondages : échantillonnage Quelques exemples importants de sondages... Exemple 1 le sondage aléatoire simple (SAS) : tous les échantillons de taille n sont équiprobables. Dans ce cas, p(s) = 1{#s = n} CN n. Exercices : 1) montrer simplement, en utilisant (1) et (2) : π k = n N, π kl = 2) Proposer un algorithme de tirage d un SAS. n(n 1) N(N 1) Exemple 2 : le sondage bernoullien. (I 1,..., I N ) sont i.i.d. de loi B(p). Dans ce cas, p(s) = p #s (1 p) N #s. 6
2. Rappels sur la théorie des sondages : échantillonnage Exemple 3 : le sondage stratifié. U = H h=1 U h où (U 1,..., U H ) est une partition de U. Les U h sont les strates de la population. On tire un sondage aléatoire simple de taille n h au sein de chaque strate. Les tirages sont indépendants d une strate à l autre. Il s agit donc d un tirage de taille fixe n = H h=1 n h, vérifiant π k = n h(k) /N h(k) et où h(k) est la strate de k. Intérêt du sondage stratifié? π kl = n h(k)(n h(k) 1) N h(k) (N h(k) 1) 1{h(k) = h(l)} + n h(k)n h(l) N h(k) N h(l) 1{h(k) h(l)} Exemple 4 : le sondage par grappe. On définit U = N g i= U g. Les U g sont les grappes d unités. On tire un sondage aléatoire simple de taille n g de grappes. Toutes les unités de la grappe sont donc interrogées. On a, en notant g(k) la grappe de k, π k = n g /N g et π kl = n g 1{g(k) = g(l)} + n g(n g 1) 1{g(k) g(l)}. N g N g (N g 1) Quel est l intérêt du sondage par grappe? Son inconvénient? 7
3. Rappels sur la théorie des sondages : échantillonnage Exemple 5 Le tirage systématique. Il s agit d un algorithme de tirage de taille fixe et à probabilités inégales On définit V 0 = 0, V k = l k π l. Soit U U[0; 1]. On tire alors S = {k/ j {0,..., n 1}/V k 1 U + j < V k } Exercice : montrer qu on a bien n S = n et P(k S) = π k. Exemple 6 Le plan Poissonnien. On suppose que les (I 1,..., I N ) sont indépendants, avec I k Be(π k ). On a dans ce cas π kl = π k π l et il est même possible d expliciter p(s) : p(s) = N k=1 π 1{k s} 1{k / s} k (1 π k ) 8
3. Rappels sur la théorie des sondages : échantillonnage Exemple 7 Plans à deux degrés. On suppose que U = i I U i, (U 1,..., U I ) partition de U. Les U i sont les unités primaires. Un plan à deux degrés consiste : à tirer des unités primaires parmi les (U i ) i I. On note S I l échantillon correspondant. à tirer un échantillon (d unités secondaires) au sein de chaque unité primaire sélectionnée. On note S i l échantillon correspondant à l unité primaire i. L échantillon final est alors S = i SI S i. On suppose de plus que : - pour tout i, S i est indépendant de S I ; - les (S i ) i I sont indépendants les uns des autres. Le tirage à deux degrés généralise le tirage stratifié et le tirage par grappes. 9
3. Rappels sur la théorie des sondages : échantillonnage Les probabilités d inclusion vérifient alors, en notant i(k) l unité primaire contenant k et π 1i (resp. π 2k ) la probabilité d inclusion de l unité primaire i (resp. de l unité secondaire k) : π k = P(i(k) S I ) P(k S i(k) ) = π 1i(k) π 2k Les probabilités d inclusion d ordre deux s écrivent quant à elles : π kl = π 1i(k) π 2kl si i(k) = i(l) = π 1i(k)i(l) π 2k π 2l sinon. Quel est l intérêt des sondages à deux degrés? 10
4. Rappels sur la théorie des sondages : estimation Intéressons-nous maintenant à l estimation, à partir de S, d un paramètre θ = f(y). On cherche quelques critères pour choisir un estimateur θ. 1) absence de biais : pour tout y, E( θ) = θ. Problème : ne restreint pas suffisamment la classe des estimateurs. Exemple : le π estimateur (ou estimateur de Horvitz-Thompson) d un total t y = k U y k défini par : Mais du coup, pour tout a, l estimateur t yπ = k S y k π k t y,a = t yπ a( N yπ N), Nyπ = k S 1 π k (4) est également sans biais. 2) optimalité : pour tout y, θ = arg inf θ V ( θ ). Godambe (1955) : il n existe pas d estimateur optimal de y. 11
4. Rappels sur la théorie des sondages : estimation 3) admissibilité : θ est admissible s il n existe pas d estimateurs de variance plus faible pour tout y. Problème : ne restreint pas suffisamment la classe des estimateurs (par exemple tous les estimateurs du type (4) sont admissibles). 4) hyperadmissibilité : θ est hyperadmissible s il est admissible pour tout domaine non-vide de U. Hanurav (1968) : le seul estimateur sans biais hyperadmissible est le π- estimateur. Résultat critiqué par Basu (1971) avec l exemple demeuré célèbre de la mesure du poids total des éléphants d un cirque. 12
4. Rappels sur la théorie des sondages : estimation Précision du π estimateur. Le π-estimateur du total t y = k U y k s écrit t yπ = k S y k π k = k U y k I k π k. Sa variance vaut donc V ( t yπ ) = y k y l kl π k π l (k,l) U 2 Dès que π kl > 0 pour tout k, l, on peut l estimer sans biais par V ( t yπ ) = (k,l) S 2 y k y l π k π l π kl kl. Cet estimateur présente l inconvénient de pouvoir prendre des valeurs négatives. Si le plan est de taille fixe, on peut utiliser un autre estimateur, basé sur la proposition suivante. Proposition 3 (Sen-Yates-Grundy) Pour un plan de taille fixe, V ( t yπ ) = 1 ( yk y ) 2 l kl. 2 π k π l k l U 2 13
La variance peut donc être estimée sans biais par V ( t yπ ) = 1 ( yk y ) 2 l kl. 2 π k π l π kl k l S 2 Cette variance est positive sous la condition (dite de Sen-Yates-Grundy) π kl π k π l pour tout k, l. Comment peut-on interpréter cette condition? Preuve : On a 1 2 k l U 2 ( yk y ) 2 l kl = π k π l k l = k l y k y l π k π l kl k y k y l π k π l kl k l k yk 2 πk 2 yk 2 πk 2 kl k l kl = k l = k,l y k y l kl π k π l k y k y l kl π k π l yk 2 πk 2 ( π k (1 π k )) d après (3) 14
4. Rappels sur la théorie des sondages : estimation Cas particuliers : sondage aléatoire simple. Le π estimateur du total t y est égal dans ce cas à t yπ = N n On peut l estimer sans biais par Preuves : exercice. V ( t yπ ) = N 2 (1 f) S2 y n, S2 y = 1 N 1 V ( t yπ ) = N 2 n (1 f)s2 y n, s2 y = 1 n 1 k S y k. Sa variance s écrit : (y k y) 2. k U (y k ŷ) 2. k S 15
- Comparaison avec un tirage avec remise de taille n : on a dans ce dernier cas V ( t yπ ) = N 2σ2 y n, On améliore donc la précision du facteur (1 f). σ2 y = 1 N (y k y) 2. k U - Comparaison avec le plan bernoullien. Soit n = p N (n est la taille moyenne de l échantillon). On a : V ( t yπ ) = N 2 (1 p) 1 N k U y2 k n Le tirage de taille fixe permet, en terme de variance, d éliminer les effets de translation sur y. 16
4. Rappels sur la théorie des sondages : estimation Autres sondages : - Sondage stratifié. On a : t yπ = H t yh, V ( t yπ ) = h=1 H h=1 N 2 h(1 f h ) S2 yh n h. Le sondage sera d autant plus précis que les strates sont différentes les unes des autres en termes de y. - Sondage par grappes. Notons Y g = k U g y k, Y = 1 N g G g=1 Y g. On a : V ( t yπ ) = N 2 g (1 f g ) S2 yg n g, S 2 yg = 1 N g 1 Le sondage sera d autant plus précis que les grappes sont semblables. - Sondage poissonnien. Par indépendance des (I k ), on a V ( t yπ ) = k U y 2 k π k (1 π k ) G (Y g Y ) 2. g=1 17
4. Rappels sur la théorie des sondages : estimation Sondages à deux degrés : la variance du π estimateur s écrit : V ( t yπ ) = V UP + V US où V US = i I Elle peut être estimée sans biais par V UP = (i,j) I 2 t yit yj π 1i π 1j 1ij V ( t yiπ ) π 1i, V ( t yiπ ) = (k,l) U 2 i y k y l π 2k π 2l 2kl V ( t yπ ) = V UP + V US Avec V US = i SI V UP = (i,j) S 2 I t yiπ t yjπ π 1i π 1j 1ij π 1ij V ( t yiπ ) π 1i, V ( t yiπ ) = (k,l) S 2 i y k y l π 2k π 2l 2kl π 2kl. 18
4. Rappels sur la théorie des sondages : estimation Remarques : - V UP et V US ne sont pas des estimateurs sans biais : E( V UP ) > V UP. - En général V UP >> V US et on pourra se contenter d estimer le premier terme. Preuve des formules précédentes : exercice. 19