SONDAGES STRATIFIES Pilippe Périé & Gilbert Saporta STA108, 6 octobre 01
Information auxiliaire
STRATIFICATION Idée e : S il existe dans la base de sondage un critère re permettant de distinguer a priori entre eux les individus, on aura tout à gagner à utiliser cette information pour répartir r l él écantillon dans caque sous-population. C est le principe de la stratification: découper d la population en sous ensembles omogènes appelés s strates et réaliser r un sondage dans cacune d elles. d La stratification a pour objectifs de pour objectif de diminuer la variance, augmenter la précision
Intuition Dans un sondage aléatoire simple, toutes les combinaisons de n éléments parmi N sont possibles avec la même probabilité. Or, il arrive que certaines d entre elles puissent s avérer a priori indésirables N=5 Variable d intérêt Y {13 15 17 5 30} dépôt en k Ymoy = 0 Recensement des résultats possibles n= Par exemple, parmi ces écantillons de unités, on trouve les cas extrêmes (13, 15) et (5, 30) qui sont particulièrement «mauvais». S il existe dans la base de sondage un critère permettant de distinguer a priori les catégories des petits et gros clients, on aura tout à gagner à utiliser cette information pour répartir l écantillon dans caque souspopulation. 4
Intuition Le principe de la stratification : Découper la population en sous-ensembles appelés strates et réaliser un sondage dans cacune d elles : on espère ainsi exclure les écantillons extrêmes, et - plus généralement améliorer la précision des estimateurs (On a vu qu à taille égale un écantillon est plus efficace dans une population omogène que dans une population étérogène. Plus précisément, l erreur type d estimation est lié à la variance du caractère étudié dans la population.) Caque sondage partiel s effectuera ainsi de façon plus efficace et l assemblage de sondages partiels plus précis donnera des résultats plus fiables qu un sondage de même taille effectué «en vrac» La plupart des fois la stratification correspond par ailleurs à un objectif de réduction des coûts d enquête ou d optimisation de sa gestion C est en particulier le cas lorsque l on utilise un critère de découpage géograpique comme la région, ou, dans les écantillon d entreprise, un critère sectoriel permettant de spécialiser les enquêteurs 5
Intuition N=5 Variable d intérêt Y {13 15 17 5 30} dépôt en k Ymoy = 0 Écantillons avec stratification n= (un cez les petits, un cez les grands) L unité écantillonnée dans la première strate est désignée pour en représenter trois, celle de la deuxième strate vaut pour deux. Il convient donc de pondérer caque valeur par le poids de la strate dont elle est issue 3 ymoy y y 5 5 1 On peut vérifier que la moyenne des six valeurs réalisables pour ymoy est encore 0. Cela signifie que la variable aléatoire ymoy a Ymoy pour espérance matématique et qu elle est donc un estimateur sans biais pour ce paramètre. 6
Intuition N=5 Variable d intérêt Y {13 15 17 5 30} dépôt en k Ymoy = 0 Écantillons avec stratification n= (un cez les petits, un cez les grands) On remarque également que la plage des estimations est beaucoup plus resserrée autour de la cible que dans le cas du SAS : les valeurs extrêmes sont moins éloignées, l erreur type (c est-à-dire la racine carrée de la variance des six valeurs) vaut 1,40 au lieu de 3,95. 7
STRATIFICATION Déterminer des strates les plus omogènes possibles, par rapport au sujet étudié. types de considérations vont conduire au coix des critères res de stratification : 1. disponibilité des critères res dans la base de sondage ;. pertinence des différents critères res pour créer des strates omogènes. Ceci nécessite n une connaissance soit intuitive, soit venant d éd études réalisr alisées antérieurement. 8
STRATIFICATION PH Utilisation tilisation d uned information auxiliaire qualitative Toujours efficace P1 S1 P S kj 9
STRATIFICATION, notations PH Strates: N 1, N...N...N H Y, Y... Y... Y 1,...... 1 H H N N P1 P S S1 N Y Y N N N Y Y N N kj Écantillon: nn,,... n,... n 1 1 H yy,,... y,... y H ˆ, ˆ,... ˆ... ˆ 1 H n n y n y n 10
STRATIFICATION N N Y Y N N W B Variance totale= moyenne des variances ( (variance intra) +variance des moyennes ( (variance inter) 11
STRATIFICATION Pour la suite, on se placera dans le cas d un d tirage aléatoire atoire simple sans remise, à l intérieur de caque strate. 1
STRATIFICATION Estimateur sans biais de Y (Horvitz Tomson) Y ˆ str N N Variance: y H ( ˆ N N Nn VYstr) V( y ) N 1 N n N 1 1 N H 1 S N( Nn) n 13
STRATIFICATION, répartition proportionnelle Écantillon dit «représentatif»: n N n n n N N N Taux de sondage constant dans caque strate ˆ N n Y y y y Y H H ˆ str prop 1 N 1 n 14
STRATIFICATION, répartition proportionnelle variance : H H ( ˆ 1 S 1 Nn VY ) N( N n) NS N n N n prop 1 1 H H H 1 N 1 N Nn N ( 1) NS ( 1) NS S N n N n nn N 1 1 1 Si N est grand: H H Nn N Nn N Nn w prop S nn 1 N nn 1 N N n VY ( ˆ ) 15
STRATIFICATION, répartition proportionnelle Variance de l estimateur l du SAS sans remise: V n S N n S N n ( y) ( 1 ) N n N n N n Avec les mêmes probabilités s d inclusion d d ordre d 1, l écantillon stratifié représentatif est plus efficace qu un un écantillon simple de même taille dès d s que les Y sont différents. 16
STRATIFICATION optimale Répartition optimale: VY ( ) str avec 1 N S N N n n N N 1 S c coût t unitaire d une d observation N N n min n c c 0 n N S N S n fixe S 17
Solution: STRATIFICATION optimale n N N n S S c proportionnel à c Si c c constant: n n NS NS - Répartition de Neyman 18
STRATIFICATION optimale Cette répartition r utilise un taux de sondage f proportionnel à la dispersion S de X étudiée dans caque strate. Plus une strate est étérog rogène vis-à-vis de la variable étudiée, plus on utilise un taux de sondage important. La téorie montre que cette répartition r est celle qui fournit la variance la plus faible une fois les strates détermind terminées. es. 19
STRATIFICATION optimale Remarquons que l él écantillon de Neyman dépend du caractère re que l on l veut estimer en priorité.. C est C pour ce caractère re que l on l prendra la variance en considération. En général, g celle-ci ci ne sera pas connue a priori. Elle pourra être estimée à partir d une d enquête antérieure ou d éd études limitées. 0
STRATIFICATION Exemple n n 1: présondage de 155 unités Strates 1 3 4 3750 37 1387 475 10 884 N 50 45 30 30 155 n y 1.6 14.5 18.6 13.8 ˆ.8.9 4.8 3. 1
Exemple n n 1: STRATIFICATION Y N y N 10884 Intervalle de confiance à 95% pour Y : Pour T: 3750x1.6... 475x13.8 14.1 ˆ N ( ) 0.0059 (0.14) V Y N n 14.1 x 0.14 soit: 13.93 Y 15466 3047
Exemple n n 1: On estime: par STRATIFICATION N N Y Y N N Y ˆ n str n 1 Y par y Y par ˆ Y str 6.06.46 3
STRATIFICATION Suite: Répartition R de Neyman pour n=1000: N1 S1 = 675 n1 = 1000 x 675/19 31 = 35 N S = 557 n = 88 N3 S3 = 3038 n3 = 157 N4 S4 = 447 n4 = 9 19 31 Variance: 1 N N N n Y connu à + x 0.054 soit + 0.108 T connu à + 1179 n S 0.009 0.054 4
STRATIFICATION Écantillon simple à 1000: Y Nn 0.0055 0.074 n N1 connu à + 0.15; T connu à + 1615 Écantillon stratifié représentatif: n1 = 345 n = 301 n3 = 17 n4 = 7 5
STRATIFICATION Estimation d une d proportion p Même démarce: d une proportion est une moyenne particulière re pˆ str V( pˆ ) str H 1 N N f H N p (1 p ) N n N n N 1 1 H ˆ (1 ) ( ˆ N f f n V pstr ) 1 1 N n N 6
Comment stratifier? STRATIFICATION Remarque préalable: dans un sondage à probabilité inégale i proportionnel à Yi annule la variance. Nombre de strates: le maximum mais Limites de strates optimales: métode de Dalenius et Hodges. Regrouper des classes selon le cumul de la racine des effectifs 7
STRATIFICATION Répartition partition dans les strates: Si S inconnu : répartition proportionnelle Si S connu: Neyman S Sinon, ypotèse fréquente c d où d n Y proportionnel à la somme de la variable étudiée e ou d une variable corrélée. Exemple: écantillon d entreprises d proportionnel au CA ou à l effectif de la strate. 8
STRATIFICATION Variable de stratification: en téorie Y; sinon, variable bien corrélée e avec Y. En pratique quand il y a plusieurs variables d intd intérêt et une variable de stratification, on utilise la répartition r proportionnelle 9
Exemples Enquêtes INSEE auprès s des entreprises, sondages BB en institut. «Le plan de sondage des enquêtes de l'insee auprès des entreprises est en général un plan de sondage stratifié avec un sondage aléatoire simple sans remise dans caque strate.» 30
Exemples Indice des prix ttp://www.insee.fr/fr/metodes/default.asp?page=sources/ope-ipc.tm ipc.tm «Le plan de sondage est stratifié selon trois types de critères : - critère géograpique : les relevés sont effectués dans 96 agglomérations de plus de 000 abitants dispersées sur le territoire métropolitain et de toute taille ainsi que 10 agglomérations dans les DOM ; - type de produit : un écantillon d'un peu plus de 1000 familles de produits, appelées "variétés" est défini pour tenir compte de l'étérogénéité des produits au sein des postes. La variété est le niveau de base pour le suivi des produits et le calcul de l'indice. La liste des variétés reste confidentielle et l'ipc n'est pas diffusé à ce niveau ; - type de point de vente : un écantillon de 7 000 points de vente, stratifié par forme de vente, a été constitué pour représenter la diversité des produits et modes d'acat des consommateurs et prendre en compte des variations de prix différenciées selon les formes de vente. Le croisement de ces différents critères aboutit à suivre un peu plus de 140 000 séries (produits précis dans un point de vente donné) donnant lieu à près de 160 000 relevés mensuels.» 31
Taille des strates Autres considérations Dans la pratique, d autres d considérations que la précision optimale peuvent guider l allocation l dans les strates, comme la nécessitn cessité d avoir des bases de lectures suffisantes sur caque strate L étude d audience d de la presse Audipresse ONE part d une d répartition géograpique g proportionnelle, à partir de laquelle on impose des seuils minimaux dans caque département. d Citons aussi le type d abonnement d pour le secteur des télécoms, t les classes d anciennetd ancienneté,, les canaux de recrutement des client pour les études de satisfaction,. 3