Semaine 13 : Compléments sur l échantillonnage aléatoire simple et stratifié 1 Échantillonnage aléatoire simple 1.1 Population infinie Population infinie Trois cas où la population est considérée infinie, et où les formules habituelles d inférence sont valides (car les observations sont considérées comme des tirages indépendants) : 1. 2. 3. 1.2 Population finie Population finie Situation très fréquente : On détient une liste des individus composant la population parmi laquelle on sélectionne des unités. La population est nécessairement finie, et on en tire un échantillon sans remise. Conséquence pour l inférence sur la moyenne µ : L estimation de la moyenne par X reste valide et sans biais, mais la variance de X devra être corrigée pour la dépendance entre les tirages. Fraction de sondage f = fraction de sondage taux d échantillonnage prop. d unités échantillonnées = Plus la fraction de sondage est élevée,plus la variance de X est... On a besoin de la variance de X pour... 1
Estimation de la variance de X V ar(x) = Si la population est finie : V ar(x) = Si la population est infinie : V ar(x) = Intervalle de confiance approximatif sur µ Les formules usuelles d IC ne sont plus valides car la population est finie et l échantillonnage se fait sans remise. La forme générale d un IC sur la moyenne µ reste la même, soit : X ± z α/2 erreur-type estimée(x) Si les données proviennent d une loi normale ou si n est grand, alors un IC approximatif de niveau 1 α pour µ est X± (Source : Alalouf, S., Introduction à la statistique appliquée, 2 e éd., 1990, p. 282.) D une population de 8 427 comptes à recevoir, on prélève un échantillon de taille 30 afin d estimer la valeur moyenne d un compte. Voici les résultats : x = 165, 62 $ s 2 = 35 930, 59 $ 2 Construire un intervalle de confiance à 95% pour le véritable montant moyen d un compte. 2
2 Échantillonnage aléatoire stratifié Échantillonnage aléatoire stratifié Définitions Poids de la strate h : W h = Moyenne de la population : µ = Fraction de sondage de la strate h : f h = 3
Estimateur de la moyenne et variance associée ˆµ = V ar(ˆµ) = V ar(ˆµ) = Comment déterminer n 1, n 2,..., n k? On veut (ou on peut) sélectionner un échantillon de taille n au total. Quelle est la meilleure façon de déterminer le nombre d individus à piger dans chaque strate? Nous aborderons la question sous trois angles différents : 1. Allocation arbitraire 2. Allocation proportionnelle 3. Allocation optimale 2.1 Allocation arbitraire Allocation arbitraire : définition Le nombre d unités échantillonnées dans chaque strate est déterminé par l enquêteur, pour des raisons d économie, de facilité d accès, ou autre. Si on considère que la variance est constante dans toutes les strates, on obtiendra une précision similaire dans toutes les strates en prenant des tailles égales. 4
(Source : Alalouf, S., Introduction à la statistique appliquée, 2 e éd., 1990, p. 285.) On veut estimer la superficie moyenne (m 2 ) des habitations dans une ville en stratifiant selon trois catégories : maisons récentes, maisons anciennes et appartements/condos. Pour des raisons de commodité, on choisit de prendre 10, 20 et 30 observations respectivement dans ces strates. (suite) Voici un résumé des résultats obtenus. Strate h N h n h x h s 2 h 1 : Maisons récentes 80 10 422,6 1 933, 4 2 : Maisons anciennes 200 20 254,4 1 931, 3 3 : Appartements 500 30 176,83 559, 0 Calculer une estimation de la superficie moyenne des habitations et de l erreur-type qui lui est associée. (calculs) 5
2.2 Allocation proportionnelle Allocation proportionnelle : définition Le nombre d unités échantillonnées dans chaque strate est proportionnel au poids de la strate dans la population. Dans l exemple sur la superficie des habitations, combien aurait-on échantillonné de résidences dans chaque catégorie avec une allocation proportionnelle si on avait conservé la taille totale de l échantillon? 2.3 Allocation optimale Allocation optimale : définition But : On veut réduire le plus possible la variance de l estimateur de la moyenne globale. Les strates ayant des valeurs très différentes les unes des autres devront avoir de plus grandes tailles d échantillons. Le nombre d unités échantillonnées dans chaque strate est proportionnel à l écart-type pondéré de cette strate par rapport à l écart-type pondéré global : 6
On veut planifier un sondage pour estimer une moyenne en stratifiant de façon optimale dans trois strates. Voici ce que nous savons de la population. Strate h N h σ h 1 50 000 5 2 100 000 10 3 200 000 5 Quelles sont les tailles d échantillon à collecter dans chaque strate si on souhaite une taille totale de n = 600? 7
3 Stratification a posteriori Stratification a posteriori Il arrive qu un échantillon ne soit pas représentatif de la population, du moins du point de vue d une certaine variable influente sur notre mesure d intérêt. On peut apporter une correction au calcul de la moyenne et de son erreur-type, en donnant un poids à chaque individu de l échantillon en fonction de sa catégorie (de sa strate). Supposons qu on procède à un échantillonnage aléatoire simple sans remise de 100 individus dans une population comprenant 40% de femmes. Par hasard, on obtient la répartition et les résultats suivants : Strate N n Moyenne Variance Hommes 60 000 45 20 4 Femmes 40 000 55 30 9 Total 100 000 100 Quelle serait l estimation de la moyenne et de son erreur-type avec l échantillonnage aléatoire simple? Quelle serait l estimation de la moyenne et de son erreur-type avec une stratification a posteriori? 8