5.2 TIRAGE SYSTEMATIQUE a) Considérons le cas où N est un multiple de n : N = Mn où M N 0 Prélever un échantillon systématique consiste à tirer de manière équiprobable un individu i 1 parmi {1,..., M}, puis à constituer s = {i 1, i 1 + M, i 1 + 2M,..., i 1 + (n 1)M} (mécanisme de tirage déterministe initialisé de façon aléatoire) M est appelé le pas du tirage. Exemple N = 1 000, n = 10 pas =M = 1 000 10 = 100 Choix de i 1 : 27 s = {27, 127, 227,..., 927} 1
Ceci est équivalent à un tirage d une grappe (m = 1) parmi les M grappes U 1, U 2,..., U g,..., U M de tailles égales (N 0 = n) où, pour g {1,..., M}, U g = {g, g + M, g + 2M,..., g + (n 1)M}. (GRTE) { ˆµ = y = moyenne de la grappe sélectionnée ˆτ = Ny b) Considérons le cas général : N n est pas nécessairement un multiple de n Choisir un nombre u entre 0 et 1 (par générateur aléatoire : u = valeur de X U(0, 1)) Individus sélectionnés : pour k = 1,..., n, i k = 1 + (k 1 + u) N n où = partie entière du nombre N.B.) La procédure ci-dessus convient aussi dans le cas où N est un multiple de n. 2
Exemple : N = 1 274, n = 10 N n = 127.4 Choix de u : 0.2674 (générateur aléatoire) 1er élu : 1 + (0.2674)(127.4) = 1 + 34.067 = 1 + 34 = 35 2ème élu : 1+ (1 + 0.2674)(127.4) = 1+ 161.47 = 1 + 161 = 162 3ème élu : 1+ (2 + 0.2674)(127.4) = 1+ 288.87 = 1 + 288 = 289. 10ème élu : 1+ (9 + 0.2674)(127.4) == 1+ 1 180.67 = 1 + 1 180 = 1 181 Mêmes caractéristiques que dans le cas où N est un multiple de n. 3
Remarques : 1) Si on se fixe le pas du tirage égal à un entier : n devient aléatoire. Exemple : N = 1 000 ; pas = 400 Premier élu : i 1 {1, 2,..., 400} (tirage équiprobable) Si i 1 200, alors S = {i 1, i 1 + 400, i 1 + 800} Si i 1 > 200, alors S = {i 1, i 1 + 400} Cette procédure s avère bien utile quand N est inconnu. Ex. : Utilité pour des tirages successifs dans le temps 2) Si la base de sondage est triée aléatoirement, le tirage systématique équivaut au PESR (la méthode du sondage systématique est alors équivalente à la méthode du tri aléatoire (cf. section 2.11.1)). Si la base de sondage est triée selon une certaine variable auxiliaire, le sondage systématique équivaut à un sondage stratifié proportionnel. Si la variable auxiliaire est bien liée à la variable d intérêt, on a alors un gain en précision par rapport au PESR. Ex. : Si un fichier d entreprises est trié selon la taille de celles-ci, un tirage systématique respectera automatiquement les proportions de chaque catégorie de taille. Dans ce cas, si la variable d intérêt est liée à la 4
taille des entreprises, le gain de précision par rapport au PESR sera important. Si le pas du tirage systématique est égal à une périodicité dans la base de sondage : perte de précision! Ex. : On tire un logement sur 10 dans un quartier où tous les immeubles comptent 5 étages. On peut alors ne sélectionner que des rez-de-chaussée, par exemple. Si ce problème se présente, l estimateur sera entaché d un biais très difficile à corriger. 5
5.3 SONDAGE A DEUX DEGRES 5.3.1 Principe U est partagée en M unités primaires (UP) - ou souspopulations -, elles-mêmes composées d unités secondaires (US). On sélectionne un échantillon d unités primaires. Ensuite, dans chaque unité primaire sélectionnée, on prélève un échantillon d unités secondaires. 6
L intérêt des plans à deux degrés est évident dans les deux cas suivants : Quand il n existe pas d information sur les unités d intérêt, il n est pas possible de les sélectionner directement selon un plan de sondage aléatoire. On échantillonne alors des unités intermédiaires (dites unités primaires) dont les caractéristiques sont bien connues. Ensuite, on dénombre les unités d intérêt dans les unités primaires sélectionnées pour y réaliser ensuite un second échantillonnage. Il n est donc pas nécessaire de disposer d une base de sondage complète des unités d intérêt pour réaliser le sondage. Quand les unités d intérêt sont réparties sur un grand territoire, les coûts de déplacement des enquêteurs peuvent devenir très élevés. On essaie alors de regrouper les unités d intérêt à enquêter de manière à réaliser une économie de coût. Ex. : Pour un sondage sur des ménages, on peut d abord sélectionner un échantillon de communes. Ensuite, dans les communes sélectionnées, on prélève un échantillon de ménages. On diminue ainsi fortement les déplacements des enquêteurs puisque les ménages sélectionnés se situent dans un nombre restreint de communes. De plus, on ne doit recenser les ménages que dans les communes sélectionnées. On réalise ainsi une importante économie de moyens dans l organisation de la collecte. 7
5.3.2 Population U est partagée en M unités primaires (UP) notées U 1, U 2,..., U M : U PRIM = {U 1, U 2,..., U M } = {1, 2,..., M} U h (h {1,..., M}) est composée de N h unités secondaires (US) Taille de U : N = M h=1 N h Valeur de Y pour la ième US de la hème UP : y h;i (i = 1,..., N h ) Dans la hème UP : Total : τ h = N h i=1 y h;i Moyenne : µ h = τ h N h Variance : σ 2 h = 1 N h Nh i=1 (y h;i µ h ) 2 Variance corrigée : σ 2 h;corr = 1 N h 1 Nh i=1 (y h;i µ h ) 2 8
Dans la population U : Total : τ = M h=1 τ h Moyenne : µ = τ N Total moyen par UP : µ τ = τ M Variance : σ 2 = 1 N M h=1 Nh i=1 (y h;i µ) 2 Variance corrigée : σ 2 corr = 1 N 1 M h=1 Nh i=1 (y h;i µ) 2 9
5.3.3 Echantillon Premier degré du sondage : On choisit m unités primaires parmi les M UP : S PRIM U PRIM Deuxième degré du sondage : Dans chaque U h sélectionnée (h S PRIM ), on prélève n h US : S h U h (h S PRIM ) Echantillon final : S = h S PRIM S h Taille (aléatoire) de l échantillon S : n S = h S PRIM n h 10
Remarque Les plans de sondage à deux degrés doivent posséder les propriétés d invariance et d indépendance : - invariance : les plans de sondage (cf. probas de sélection et d inclusion) appliqués au 2e degré (dans les UP sélectionnées au 1er degré) ne dépendent en aucune façon du plan de sondage appliqué au premier degré ; - indépendance : les tirages (du 2e degré) qui se font dans une UP sont indépendants de ceux qui se font dans les autres UP sélectionnées au 1er degré (comme en stratification). 11
5.3.4 Tirages PESR aux deux degrés Considérons l estimation du total τ de la population. a) Première étape : estimation de τ h pour tout h S PRIM Tirage PESR des US dans la hème UP Pour tout i U h : P(i S h ) = n h = taux de sondage dans la hème UP N h (estimateur de Horvitz-Thompson) ˆτ h = y h;i = N h 1 y h;i = N h y n h /N h n h h i S h i S h où y h est la moyenne des observations prélevées dans la hème UP. b) Deuxième étape : estimation de τ Tirage PESR des UP dans la population U PRIM Pour tout h U PRIM : P(h S PRIM ) = m M = taux de sondage dans U PRIM (estimateur de Horvitz-Thompson) ˆτ = ˆτ h m/m = M ˆτ h m h S PRIM h S PRIM 12
Puisque µ = τ N, on a aussi ˆµ = ˆτ N = M ˆτ h mn h S PRIM = M N h m N y h h S PRIM Propriétés de ˆτ Pour tout h S PRIM : E(ˆτ h ) = τ h Var(ˆτ h ) = Nh 2(1 f 2h) σ2 h;corr n h où f 2h = n h N est le taux de sondage du deuxième degré h associé à la hème UP choisie. On montre que E(ˆτ) = τ : ˆτ est un estimateur sans biais de τ Var(ˆτ) = M 2(1 f 1) m σ2 τ;corr+ M m M h=1 N 2 h(1 f 2h ) σ2 h;corr n h où f 1 = m M est le taux de sondage du premier degré στ;corr 2 est la variance corrigée des totaux τ h (h = 1,..., M) dans la population U PRIM 13
Var(ˆτ) est composée de 2 termes : le premier porte sur la dispersion des totaux τ h (h = 1,..., M) dans la population U PRIM, le second est lié à la dispersion au sein des unités primaires. Exemple (Tryfos (1996), p.123) Une fois par an, le Consumer Survey Bureau (CSB) conduit une vaste enquête sur les dépenses des ménages dans une ville donnée. L Office du Recensement (Office of the Census) divise la ville en Enumeration Areas (EAs) correspondant à des quartiers de grandes dimensions. Le CSB dispose ainsi de cartes détaillées de chaque EA, ainsi que d information additionnelle fournie par le dernier recensement. Pour son enquête, le CSB sélectionne par tirage PESR un certain nombre de EAs et, dans un second temps, également par tirage PESR, un certain nombre de ménages dans chaque EA sélectionnée. Un enquêteur rend visite à chaque ménage sélectionné et demande au chef du ménage de remplir un questionnaire. Illustrons le calcul des estimations pour deux questions du questionnaire : Quelle somme a dépensé votre ménage pour l habillement au cours du dernier mois? ($... ) et Possédez-vous une chaîne HI-FI? ( - Oui - Non). La ville est divisée en M = 200 EAs. Le dernier recensement montre qu il y a N = 60000 ménages dans la ville. Supposons que m = 4 EAs soient sélectionnées au premier degré (ceci pour illustrer simplement les calculs ; en pratique, un nombre beaucoup plus élevé de EAs devrait être prélevé). 14
Le tableau ci-dessous reprend les données utiles : N h est le nombre de ménages dans la hème EA sélectionnée (nombre donné par le dernier recensement), n h est le nombre de ménages prélevés dans la hème EA sélectionnée, y h est la dépense moyenne en habillement (en $) de ces n h ménages au cours du mois précédant le sondage et ˆπ h est la proportion de ménages possédant une chaîne HI-FI parmi ces n h ménages. EA, h N h n h y h ˆπ h 29 250 50 95.0 0.75 67 310 60 84.0 0.92 102 340 70 75.5 0.83 143 280 55 90.3 0.95 L estimation à deux degrés du montant moyen dépensé par les ménages de la ville pour l habillement au cours du mois précédant le sondage est ˆµ = 200 ( 250 4 = 83.95 $ 310 (95.0) + 60 000 60 000 ) 340 280 (84.0) + (75.5) + 60 000 60 000 (90.3) L estimation à deux degrés de la proportion des ménages de la ville qui possèdent une chaîne HI-FI est ˆπ = 200 ( ) 250 310 340 280 (0.75) + (0.92) + (0.83) + 4 60 000 60 000 60 000 60 000 (0.95) = 0.851 15
5.3.5 Tirages PISR aux deux niveaux a) Probabilités d inclusion p (1) h p i h = probabilité de sélectionner la hème UP = probabilité d inclusion de la ième US étant donné que l on a choisi la hème UP probabilité d inclusion de la ième US (i U h ) : p i = p (1) h p i h b) Estimation de τ (estimateur de Horvitz-Thompson) ˆτ = y h;i p i i S h h S PRIM N.B.) Il faut introduire des probabilités d inclusion d ordre 2 pour étudier Var(ˆτ). 16
5.3.6 Tirage des UP avec probabilités inégales et des US avec probabilités égales a) Estimation de τ Première étape : estimation de τ h pour tout h S PRIM : Deuxième étape : ˆτ h = N h y h (PESR) Pour tout h U PRIM : p (1) h = probabilité de sélectionner la hème UP Estimateur de Horvitz-Thompson : ˆτ = ˆτ h p (1) h b) Cas particulier : tirage PPS h S PRIM Probabilité d inclusion des UP proportionnelle à la taille : p (1) h = mn h N Tirage PESR des US, de taille fixe : n h = n 0 pour tout h S PRIM S est de taille fixe : n = mn 0 p i h = taux de sondage dans U h (h S PRIM ) = n 0 N h 17
Probabilité d inclusion p i : p i = p (1) h p i h = m N h N n0 = mn 0 N h N = n N où n est la taille fixe de l échantillon global S. Toutes les US de la population ont la même probabilité d inclusion, correspondant au taux de sondage global dans la population. ˆτ = = N h S PRIM = Ny 1 n i S h y h;i n/n h S PRIM i S h y h;i où y est la moyenne de toutes les observations prélevées. Ce plan de sondage, appelé sondage à deux degrés autopondéré (car même proba. d inclusion pour tous les éléments de U alors que les UP sont sélectionnées à probas inégales), est très fréquemment utilisé en statistique officielle (les unités primaires sont des unités géographiques et les unités secondaires sont les individus ou les ménages). 18
5.4 SONDAGE A PLUSIEURS DEGRES Un sondage à trois degrés est un sondage à deux degrés dont le deuxième degré est un tirage à deux degrés (et ainsi de suite). De nombreux échantillons nationaux, par exemple, sont prélevés suivant une procédure de sondage à 4 degrés. (i) Au premier degré, un échantillon d aires géographiques est sélectionné à partir d une liste de telles aires recouvrant l entièreté du pays. (ii) Sur base de cartes, chaque aire géographique sélectionnée au premier degré est partitionnée en un certain nombre de sous-aires : des quartiers dans les villes, des aires géographiques délimitées par des autoroutes, des lignes ferroviaires, des rivières ou d autres frontières naturelles facilement identifiables dans les aires rurales. Dans chaque aire sélectionnée au premier degré, un échantillon de sous-aires est sélectionné au deuxième degré de la procédure de sondage. (iii) Une liste de tous les ménages est construite pour chaque sous-aire sélectionnée au deuxième degré, et un échantillon de ménages est sélectionné à partir de cette liste. 19
(iv) Des enquêteurs rendent visite aux ménages sélectionnés et établissent, pour chacun de ces ménages, la liste des membres du ménage. Sur base de ces listes, un échantillon d individus est prélevé dans chaque ménage sélectionné au 3ème degré. Les individus ainsi sélectionnés au 4ème degré de la procédure de sondage constituent l échantillon national. Un sondage à plusieurs degrés est parfois combiné avec un sondage stratifié, donnant ainsi lieu à une procédure appelée sondage combiné. Par exemple, les aires géographiques prises en compte au premier degré de la procédure de sélection de l échantillon national peuvent être stratifiées en un certain nombre de strates sur base de certains critères : en provinces ou en états sur base de la situation géographique, en aires urbaines ou rurales sur base du mode de vie, en aires fortement et faiblement peuplées sur base de la densité de la population, etc. Au lieu de sélectionner un échantillon d aires géographiques à partir de la liste entière, on peut sélectionner séparément un échantillon d aires dans chaque strate. Les trois degrés de sondage suivants peuvent ensuite être mis en oeuvre comme décrit ci-dessus. 20
5.5 GRAPPES, DEGRES ET STRATIFICATION Reprenons le schéma d un sondage à deux degrés : 1er degré : m UP parmi M (S PRIM ) 2ème degré : n h US parmi N h (h S PRIM ) Si m = M : stratification Si n h = N h : sondage en grappes Toutes choses égales par ailleurs, le sondage stratifié sera préféré au sondage à deux degrés lorsque la population est constituée de groupes relativement bien homogènes pour la variable d intérêt, formés sur base d une variable auxilaire étroitement liée à la variable d intérêt. Le sondage à deux degrés sera préféré au sondage stratifié lorsque la population est constituée de groupes qui sont similaires les uns aux autres, ainsi qu à la population dans son ensemble. 21