Formation IMT 2. Mode de conception d échantillon, taille de l échantillon et marge d erreur (Turin 8-12 octobre 2012)

Formation IMT 2 Mode de conception d échantillon, taille de l échantillon et marge d erreur (Turin 8-12 octobre 2012) Honoré Toro Djerma Spécialiste statistiques du travail BIT Dakar (djerma@ilo.org) 1

Sommaire Mode de conception d échantillons Taille de l échantillon Exemples Base de sondage et sélection des échantillons Marge d erreur 2

Pourquoi un échantillon? Pour des raisons de coûts ou de délais. L'objectif est alors de construire un échantillon tel que les observations pourront être généralisées à l'ensemble de la population. 3

Mode de conception d échantillons Deux méthodes pour constituer un échantillon. Méthode probabiliste : sélection de l'échantillon par tirage aléatoire dans la population-mère. Chaque individu statistique doit avoir exactement la même chance que les autres de participer à l'enquête. Méthode non-probabiliste : identifier dans la populationmère, quelques critères de répartition significatifs puis d'essayer de respecter cette répartition dans l'échantillon d'individus interrogés. 4

Mode de conception d échantillons Presque tous les échantillons utilises pour les enquêtes auprès des ménages dont celles sur la main d oeuvre, aussi bien dans les pays en développement que dans les pays développés, sont difficiles à concevoir en raison de leurs caractéristiques dont notamment : multiples phases, strates et grappes. 5

Mode de conception d échantillons Un échantillon bien conçu, doit combiner harmonieusement de nombreux éléments. L échantillon doit être sélectionné en plusieurs phases de sorte qu il soit possible de déterminer avec précision ou les entrevues seront menées et de choisir efficacement les ménages a interroger. La conception doit être stratifiée de manière a ce que l échantillon effectivement sélectionné soit reparti comme il convient sur plusieurs sous-régions géographiques et sous-groupes de population. 6

Mode de conception d échantillons Un système d auto-évaluation doit également être incorporé à la conception de l échantillon, lequel doit permettre d estimer les erreurs d échantillonnage de façon à aider les usagers à évaluer la fiabilité des principaux résultats. Les erreurs d échantillonnage peuvent découler d une estimation des caractéristiques de la population cible fondée sur des données concernant une partie seulement de la population plutôt que son intégralité. 7

Mode de conception d échantillons Une enquête a essentiellement pour objectif de permettre, sur la base d un échantillon aléatoire, d extrapoler concernant la population cible. Ce faisant, le responsable de l enquête essaie habituellement d estimer telle ou telle caractéristique inconnue de la population. Parmi les caractéristiques ou paramètres les plus communément utilisés, l on peut citer les totaux, les moyennes, les proportions et les variances. Par exemple, si Y1, Y2, Y3,...... YN sont les valeurs d une variable de la population 8

Mode de conception d échantillons Conditions préalables à la conception d un échantillon probabiliste La population cible doit être clairement définit. En cas d échantillonnage à plusieurs phases, il peut être établi un ou plusieurs cadres d échantillonnage. Les objectifs de l enquête doivent être clairement définis termes de contenu, de variables d analyse et de niveaux de désagrégation (par exemple, des estimations ou des données doivent-elles être obtenues aux échelons national, rural/urbain, provincial, de district?). Les contraintes budgétaires et les contraintes liés au travail de terrain doivent être prises en considération. Le degré de précision requis doit être clairement défini pour déterminer la taille de l échantillon. 9

Méthodes d échantillonnage Les échantillons probabilistes ou aléatoires sont constitués par tirage au sort dans la population mère pour laquelle on dispose de la liste complète de toutes les unités de sondage qui la composent (individus, familles, entreprises, etc.). On distingue 4 méthodes : Echantillonnage aléatoire simple Echantillonnage aléatoire systématique Echantillonnage stratifié Echantillonnage en grappes et à plusieurs degrés 10

Taille de l échantillon La bonne question Est-ce qu'un échantillon de taille 500 sut pour une population de 10 000? Quelle est la taille de l'échantillon qui assure tel degré précision? 11

Taille de l échantillon Il est impossible de répondre par oui ou par non à la première question. Un échantillon doit fournir une estimation aussi précise que possible d'une variable, et la précision s'améliore indéfiniment lorsque la taille de l'échantillon augmente. 12

Taille de l échantillon Les dimensions de l échantillon doivent tenir compte des exigences concurrentes à respecter, de façon à concilier coût et précision. Les dimensions de l échantillon doivent également être telles que les usagers puissent obtenir les informations dont ils ont un besoin urgent concernant différents domaines, à savoir des sous-groupes de population ou des sous-régions géographiques. 13

Taille de l échantillon La taille de l échantillon à la lumière des principales estimations à établir, des populations cibles, du nombre de ménages devant être inclus dans l échantillon pour atteindre les populations cibles voulues, de la précision et du degré de confiance désires, des domaines d estimation, de la question de savoir si la mesure porte sur des chiffres absolus ou un changement, de l effet de grappe, de l élément non-réponse à prendre en considération et le budget disponible. Manifestement, la taille de l échantillon est l élément central qui influe sur toute la conception de l échantillon. 14

Taille de l échantillon 1ère étape: calcul de la taille de l échantillon de base Comme il s agit d enquêtes auprès des ménages, la taille de l échantillon est le nombre de ménages qui doivent être sélectionnés. D une manière générale, lorsqu il est inclus une proportion, la formule d estimation de la taille de l échantillon, est : n=t²x p(1-p) m²) n = taille d'échantillon requise t = niveau de confiance à 95% (valeur type de 1,96) p =prévalence estimative de la malnutrition dans la zone du projet m = marge d'erreur à 5% (valeur type de 0,05) 15

Taille de l échantillon Exemple Dans un pays x, on a estimé le taux de sous emploi à environ 30% (0,3). Ce chiffre provenait des statistiques nationales sur l emploi. L'utilisation des valeurs types indiquées plus haut donne le calcul suivant. Calcul: n=1.96² x 0.3(1-0.3) 0.05² n =3.8416 x 0.21 0.0025 n = 0.8068 = 322.72 ~ 323 0.0025 16

Taille de l échantillon 2 ème étape: Effet du plan d échantillonnage Les enquêtes auprès des ménages, repose généralement sur un échantillon en grappes (sélection représentative de villages), et non pas sur un échantillon aléatoire simple. Pour corriger la différence, on multiplie la taille de l'échantillon par l'effet du plan d échantillonnage (D), La valeur par défaut de cet effet est habituellement considérée comme étant de 2,0, à moins que les données empiriques provenant d enquêtes précédentes ou d enquêtes semblables ne conduisent a retenir une autre valeur. Exemple : n x D = 323 x 2 = 646 17

Taille de l échantillon 3ème étape: Impondérables On ajoute encore 5% à l'échantillon pour tenir compte d impondérables comme les non-réponses ou les erreurs d'enregistrement. Exemple n + 5% = 646 x 1.05 = 678.3 678 18

Taille de l échantillon 4ème étape: Distribution des sujets observés Pour conclure, on arrondit le chiffre obtenu au nombre le plus proche du nombre de grappes (30 villages par exemple) à étudier. Trente est le nombre type de grappes fixé. Il n'y a pas de raison statistique logique de s en tenir exactement à 30 grappes et le nombre peut être ajusté en cas de nécessité impérieuse. 19

Taille de l échantillon Comme il s agit d enquêtes auprès des ménages, la taille de l échantillon est le nombre de ménages qui doivent être sélectionnés. D une manière générale, lorsqu il est inclus une proportion, la formule d estimation de la taille de l échantillon, est : n=(z²)(r)(1-r)(f)(k) (p)(ň)(e²) n = taille d'échantillon requise ň = taille moyenne (nombre de personnes par ménage) z = statistique qui définit le niveau de confiance à 95% (valeur type de 1,96) f = effet imputable à la conception de l échantillon (valeur pas défaut=2) k = multiplicateur visant a tenir compte du taux prévu de non-réponse p = proportion de la population totale représentée par la population cible sur laquelle est fondée le paramètre r e = marge d'erreur à ne pas dépasser : 5% (valeur type de 0,05) 20

Exemple Dans le pays B, il est décidé que le principal indicateur à mesurer est le taux de chômage, que l on pense être d environ 10 % de la population active civile. La population active est définie comme étant la population de 14 ans et plus, représentant 65 % environ de la population totale du pays. En l occurrence, r = 0,1 et p = 0,65. Supposons que nous souhaitions estimer le taux de chômage avec une marge d erreur relative de 10 % au niveau de confiance de 95 % 21

Exemple alors, e = 0,10r (c est-a-dire une erreur type de 0,01), comme recommande ci-dessus. En outre, les valeurs du taux prévu de non-réponse, de l effet dû à la conception et de la taille moyenne des ménages sont celles généralement recommandées. En remplaçant certaine valeurs sélectionnées, on obtient: n= (3,84) (1-r)(1,2)(1,1)/(r) (p) (0.01). Donc n = (84,5) (1-r)/(r)(p) qui donne 1 170 ménages [(84,5*0,9)/(0,1*0,65)]. C est là un échantillon de taille assez réduite, essentiellement parce que la population de base constitue une proportion si grande du total, c esta-dire 65 %. 22

Base de sondage et sélection des échantillons La conception de l échantillon doit tendre a garantir le maximum d exactitude à deux égards importants : premièrement, le cadre d échantillonnage ou base de sondage utilisé (ou élaboré) doit être aussi complet, correct et a jour que possible et, deuxièmement, les techniques de sélection des échantillons doivent être utilisées de manière à minimiser les distorsions involontaires parfois causées au niveau de la réalisation de l enquête. 23

La notion de précision La notion de précision (ou fiabilité d'échantillonnage) est matérialisée par un seuil de confiance et une marge d'erreur. Dans le cas de l'estimation d'une proportion :Un échantillon défini à un seuil de confiance de 95% et avec une marge d'erreur de e = 3% vous permettra d'extrapoler chaque résultat issu de votre enquête, avec 5% de risques de vous tromper de + ou - 3%. 24

Intervalle de confiance L équation ci-après représente un intervalle de confiance de la moyenne de la population Ῡ compte tenu de l estimation de la moyenne de la population Ῡ sur la base d un échantillon aléatoire simple sans remplacement de dimension n. 25

Modes de conception annuels et mode de conception en continu Modes de conception annuels Avantages Inconvénients Mode de conception en continu Avantages Inconvénients 26

Rotation échantillons Si des estimations efficientes du changement sont requises ou si le fardeau de réponse pose problème dans le cadre d enquêtes périodiques, il est conseillé d utiliser un plan d échantillonnage avec rotation, qui remplace une partie de l échantillon à chaque période. Le choix du taux de rotation visera le juste équilibre entre la précision nécessaire à l estimation du changement et le fardeau de réponse des unités déclarantes. 27

Rotation échantillons Un faible taux de rotation augmente la précision des estimations du changement, bien qu il risque de diminuer le taux de réponse, au fil du temps, étant donné qu il accroît le fardeau de réponse. Il a aussi l avantage de réduire les coûts, lorsque le premier contact est beaucoup plus coûteux que les contacts subséquents. 28

Rotation échantillons Compte tenu des indicateurs, une convention consiste dans nombre d enquêtes bien conçues, à utiliser comme norme de précision une marge d erreur relative de 10 % au niveau de confiance de 95 % concernant les principaux indicateurs a estimer, ce qui signifie que l erreur type d un indicateur clé ne doit pas dépasser 5 % de l estimation elle-même. 29

Rotation échantillons Cela est calculé selon la formule (2 * 0,05x, ou x est l estimation). Par exemple, si la proportion estimative de personnes que compte la population économiquement active est de 65 %, l erreur type ne devra pas dépasser 3,25 %, c est-a-dire 0,65 multiplie par 0,05. Deux fois 0,0325, soit 0,065, est la marge d erreur relative au niveau de confiance de 95 %. 30

FIN Merci de votre attention