Chapitre 2 Echantillonnage. Delphine Boutin

Transcription

1 Chapitre 2 Echantillonnage Delphine Boutin [email protected]

2 Introduction Deux grandes étapes lorsqu on réalise un plan de sondage: La méthode d échantillonnage: processus choisi pour tirer l échantillon. Les infos les plus fondamentales (car utilisées pour les estimateurs) concernent les valeurs des probabilités de tirage de chaque individu. Selon la méthode utilisée, ces probabilités sont calculables pour chaque individu. L expression de l estimateur: formule d estimation de θ. Pour une même méthode d échantillonnage, il existe de nombreuses formules d estimateur, et inversement. Le plan de sondage dépend: Du biais/ De la variance Du budget De la disponibilité des information adéquate Techniques d enquêtes Echantillonnage 2

3 Introduction Typologie des classes de sondages Deux classes de sondages: Méthode aléatoire ou probabiliste: chaque individu de la population a une probabilité donnée, connue d avance, d appartenir à l échantillon, dite probabilité d inclusion ou de sélection. Le sondage aléatoire simple La stratification Le sondage par grappes Le sondage à plusieurs degrés Avantages: calcul des probabilités et de la précision des estimateurs. Rigueur de la formalisation mathématique Méthodes empiriques ou «à choix raisonné», qui ne permettent pas de calculer ces probabilités d inclusion. Méthode des unités types Méthode des quotas Avantages: Absence de base de sondage. Aspect qualitatif Moins de budget Techniques d enquêtes Echantillonnage 3

4 Introduction Propriétés des estimateurs Estimateurs: Forme de l estimateur: θ = W i s. Y i iεs Avec W i s le poids de sondage attaché à l individu i pour le sondage s. Propriétés des estimateurs θ: Soit une moyenne, soit une proportion, soit un total Les pondérations utilisées dépendent de l échantillon Techniques d enquêtes Echantillonnage 4

5 Introduction Probabilité de sélection P i Probabilité de sélection : Pour tout sondage de taille fixe n, d une population N: Avec: N i=1 p i = p i = n i s L individu i est sélectionné au terme de l opération= tirage d un des échantillons contenant i parmi tous les échantillons possibles. Par csq, la probabilité de sélectionner i (=P i ) est la probabilité de tirer l un de ces échantillons contenant i. p(s) Techniques d enquêtes Echantillonnage 5

6 Introduction Probabilité de sélection P i -suite Exemple: On tire 2 individus dans une population de 4 personnes sans remise ( n=2 et N=4). s 1 ={1,2} s 3 ={1,4} s 5 ={2,4} s 2 ={1,3} s 4 ={2,3} s 6 ={3,4} Parce qu on juge que l individu 1 est particulièrement coopératif, on veut lui donner une probabilité de tirage supérieure. Les probabilités de tirage sont les suivantes: p(s 1 )=0,25 p(s 3 )=0,2 p(s 5 )=0,1 p(s 2 )=0,25 p(s 4 )=0,1 p(s 6 )=0,1 P 1 = p s 1 + p s 2 + p s 3 = 0,7 P 2 = p s 1 + p s 4 + p s 5 = 0,45 P 3 = p s 2 + p s 4 + p s 6 = 0,45 P 4 = p s 3 + p s 5 + p s 6 = 0,4 On vérifie bien que P 1 + P 2 + P 3 + P 4 =n=2 Techniques d enquêtes Echantillonnage 6

7 Introduction Probabilité d inclusion Tirages équiprobables: Consiste à tirer dans une population de taille N un échantillon de taille fixée n, sans remise, de façon à ce que chaque individu ait la même probabilité d inclusion. P i est constant et vaut: P i = n N avec n N représentant le taux de sondage. n i=1 p i = n et pi jamais nul Tirages à probabilité inégale: Tirage où les individus ont une probabilité inégale d être tiré (ex: un individu i a 4 fois plus de probabilité d être tiré qu un individu j). Tenir de cette dissymétrie au niveau de l estimateur: si on donne plus d importance à l individu i dans le tirage, on lui en donne moins dans l expression de l estimateur de façon à rétablir l équilibre très concrètement on pondère chaque individu par l inverse de sa probabilité d inclusion. P i sera un nombre quelconque, strictement compris entre 0 et 1 (strictement supérieur à 0) choisi par le sondeur de façon à respecter n i=1 p i = n pour un échantillon de taille fixe n Techniques d enquêtes Echantillonnage 7

8 Introduction Rappels statistiques Propriétés de l espérance: E ax = a E X E X + Y = E X + E(Y) Propriétés de la variance: V ax = a 2 V X V X + Y = V X + V Y + 2Cov X, Y Cov X, Y = E X E X (Y E Y ) Techniques d enquêtes Echantillonnage 8

9 Partie 1 Taille de l échantillon

10 Taille de l échantillon La question la plus fondamentale et la plus importante Le choix de la taille d échantillon doit établir un équilibre entre: Ce qui est exigé du point de vue de la précision de l échantillonnage, Ce qui est réalisable du point de vue de l application pratique (ex.: budget, personnel de terrain et administratif, ressources techniques, contrôle de qualité, contraintes temporelles, gérabilité, pérennité). Techniques d enquêtes Echantillonnage 10

11 Taille de l échantillon Echantillonnage et estimateurs Techniques d enquêtes Echantillonnage 11

12 Taille de l échantillon Echantillonnage et estimateurs Des deux échantillons, on préfère le plus représentatif (justesse de l estimateur) Techniques d enquêtes Echantillonnage 12

13 Taille de l échantillon Echantillonnage et estimateurs Des deux, le premier est le plus large (mais pas forcément le plus représentatif) Techniques d enquêtes Echantillonnage 13

14 Taille de l échantillon Justesse et précision Randomisation: permet de déterminer l effet causal i.e. élimine les biais d endogénéité et définit la justesse de l estimateur mais elle n élimine pas le bruit dans les données Taille d échantillon: permet alors d ajuster le degré de précision Les deux sont utiles, comme l ont montré les dessins: un estimateur peut mesurer l effet juste...sans précision, et donc le manquer un estimateur peut être précis...mais faux Techniques d enquêtes Echantillonnage 14

15 Taille de l échantillon Justesse et précision Techniques d enquêtes Echantillonnage 15

16 Taille de l échantillon La loi des grands nombres Taille d échantillonnage et précision: une illustration Valeur espérée du tirage d un dé: = 3,5 Empiriquement: si on tire un dé, distribution uniforme 1/6 chance pour chaque valeur Si on tire deux dés, 36 permutations et la moyenne des deux dés vaut: 1 (dés:1+1) avec une proba de 1/ (dés: 1+2 ou 2+1) avec une proba de 2/ (1+6, 2+5 etc) avec une proba de 6/36=1/6 Regardons les graphs de cette distribution empirique (distribution des moyennes empiriques) Techniques d enquêtes Echantillonnage 16

17 Taille de l échantillon La loi des grands nombres Techniques d enquêtes Echantillonnage 17

20 Taille de l échantillon Loi des grands nombres et théorème central limite Plus on tire de fois, plus on a de moyennes empiriques proches de la moyenne théorique la distribution des moyennes empiriques est plus resserrée, moins dispersée autour de la vraie valeur quand on augmente, on tend vers la vrai valeur: c est la loi des grands nombres Plus on tire de fois, plus la distribution empirique est en cloche, i.e. suit une loi normale c est le théorème central limite il permet de faire des tests statistiques basés sur les propriétés de la loi gaussienne Techniques d enquêtes Echantillonnage 20

21 Taille de l échantillon Forte contrainte de coûts Etape importante: déterminer le nombre d entretien à passer. Si forte contrainte de coût (= si on ne dispose pas d un budget illimité): Si C est le budget total de l enquête dont on dispose, et c le coût unitaire total attaché à un questionnaire ou une interview (formation de l enquêteur, passage de l enquête, saisie des données etc), alors la taille de l échantillon est donnée par : n = C c. Par précaution, on tire toujours un nombre d unités supplémentaires qui constituent une réserve. Il est en général quasi-impossible de recueillir les réponses de l ensemble des personnes faisant partie de la liste d enquête. Cette réserve est destinée, par exemple, à se prémunir contre des difficultés ultérieures de collecte : zones difficiles à enquêter du fait de refus massifs et de la baisse du taux de réponse remplacements liés à des causes diverses (déménagement récent, décès récent, impossible à joindre etc). Il est nécessaire de prévoir un échantillon plus large en prévision de ces manques. Techniques d enquêtes Echantillonnage 21

22 Taille de l échantillon Faible contrainte de coûts Si faible contrainte de coût (= si on dispose d un budget illimité): Si prêt à faire un effort (budgétaire) pour obtenir une précision souhaitée à priori avec une certaine marge d erreur. Dans ce cas, la requête est connaître θ à une certaine marge d erreur près et avec 95 chances sur 100 de ne pas faire d erreur d encadrement. On trouve 1 n = N. 1 + NL2 4S 2 Avec n : taille de l échantillon; N : taille de la population mère; L : marge d erreur (de 0,1 à 0,005) et S 2 : Variance de Y dans la population mère. Malheureusement, S 2 est un paramètre inconnu. On peut estimer S 2 à partir d une autre enquête concernant le même sujet d une autre enquête portant sur une variable Z corrélée à Y de conseils «d experts» d un premier petit échantillon qui permette de calculer S 2 que l on complète ensuite en fonction de la valeur n à atteindre. Techniques d enquêtes Echantillonnage 22

23 Taille de l échantillon Faible contrainte de coûts-suite Une autre façon de procéder est de partir de la proportion (connue ou supposée, estimée) des éléments de la population-mère qui présentent une propriété donnée. Avec: On obtient la formule suivante : n = taille de l'échantillon attendu. n = t2 p(1 p) L 2 t = Seuil de confiance (ou Niveau de confiance ou encore Taux de confiance) que l on souhaite garantir sur la mesure (t=1,96 pour un taux de confiance de 95%). p= proportion estimée de la population présentant la caractéristique étudiée L = marge d'erreur (traditionnellement fixée à 5%). Malheureusement, on ne connaît pas p. La seule solution dans ce cas est d en donner une estimation «à priori» soit à partir d une enquête portant sur le même sujet mais réalisée dans le passé, soit à partir de conseils d experts, soit réaliser une pré-étude. Techniques d enquêtes Echantillonnage 23

24 Partie 2 Test et puissance statistique

25 Tests et puissance statistique Précision des estimateurs Une estimation économétrique ou un RCT nous donne l estimateur la variance ou l écart-type σ La randomisation de l échantillon garantit un estimateur cohérent et sans biais Cependant, l erreur d échantillonnage peut conduire à une inférence fausse: on veut que l enquête (ou le RCT) soit informative: que l effet mesuré ne dépende pas du tirage réplication: pb si notre estimateur prend une valeur différente avec un autre échantillon, ce qui arrive moins fréquemment si σ est petit Techniques d enquêtes Echantillonnage 25

26 Tests et puissance statistique Comparaison de deux proportions On considère deux (sous-)populations P 1 et P 2. Leurs individus ont ou n ont pas le caractère C. On souhaite comparer p 1 = P 1 (C) et p 2 = P 2 (C), les proportions d individus avec C dans P 1 et P 2. Echantillonnage et estimation On prend un échantillon aléatoire E 1 de taille n 1 dans P 1 ; On prend un échantillon aléatoire E 2 de taille n 2 dans P 2. Table de comptages: Fréquences relatives (estimations de p 1 et p 2 ): p 1 = n 11 n1 et p 2 = n 21 n2 Techniques d enquêtes Echantillonnage 26

27 Tests et puissance statistique Comparaison de deux proportions Inférence =transfert des résultats de l échantillon à la population: Techniques d enquêtes Echantillonnage 27

28 Tests et puissance statistique Comparaison de deux proportions Les vraies valeurs de p 1 et p 2 sont inconnues; on formule donc une hypothèse: H 0 : p 1 = p 2 Règle de décision ou test statistique pour rejeter ou accepter H0 en s appuyant sur p 1 et p 2 et la mesure d écart standardisé: (p 1 p 2 ) z = p (1 p )( 1 n n 2 ) Où p est une estimation de la probabilité de C commune à P 1 et P 2 : p = n 11 + n 12 n 1 + n 2 Techniques d enquêtes Echantillonnage 28

29 Tests et puissance statistique Erreurs de type I et de type II Deux types d erreurs sont possibles: Erreur de type I: rejeter une hypothèse nulle bonne = rejeter H0 quand H0 est vrai la plus sérieuse erreur qu on puisse faire déclarer que les deux proportions sont inégales = rejeter l échantillon si RCT: H0= le programme n a pas d effet erreur de type I conduit à dépenser des ressources sur l extension du programme alors qu il n y a pas d effet réel. Erreur de type II: accepter une hypothèse nulle mauvaise manquer l effet (possiblement petit) Techniques d enquêtes Echantillonnage 29

30 Tests et puissance statistique Erreur de type 1= si le véritable effet est p1=p2 Techniques d enquêtes Echantillonnage 30

31 Tests et puissance statistique Erreur de type 2: manquer l effet Plus est grand, plus on se prémunit contre cette dernière situation Mais ne risque-t-on pas alors de manquer un effet (possiblement petit)? un effet par exemple compris entre t 95% σ et t 99.5% σ? ce risque diminue avec σ : avec un σ faible, on resserre l intervalle de confiance autour de la vrai valeur Erreur de Type II: manquer l effet rejeter H1 quand H1 est vrai ou: accepter "pas d effet" H0 quand H0 faux: il y a un effet non nul on note β la probabilité de cette erreur i.e. de manquer l effet Techniques d enquêtes Echantillonnage 31

32 Tests et puissance statistique Arbitrage Puissance d un test Π = 1 β proba de détecter l effet (ou de rejeter H0 quand H0 faux) la puissance d un estimateur (ou d un RCT) mesure la confiance entre notre capacité à détecter un effet existant un niveau conventionnel est P = 80%, i.e un risque de "louper" l effet de β= 20% Schéma suivant: l arbitrage entre erreur de type I (trouver un effet inexistant) et la puissance (manquer un effet existant) Techniques d enquêtes Echantillonnage 32

33 Tests et puissance statistique Arbitrage Techniques d enquêtes Echantillonnage 33

34 Partie 3 Sondage aléatoire simple

35 Le sondage aléatoire simple (SAS) Présentation Modèle de référence, modèle le plus simple Procédure de tirage aléatoire d une fraction de la population: Dans un échantillon aléatoire simple, on extrait n individus d'une population de taille N. La taille n est fixée et le tirage est sans remise à partir des seuls identifiants. Tous les individus ont la même chance d être sélectionnés, et ce sans information auxiliaire. Attribue à chaque échantillon s de taille n susceptible d être formé, la même probabilité de sélection p(s). Cette p(s) est égale à l inverse du nombre d échantillons distincts que l on peut constituer dans la population Techniques d enquêtes Echantillonnage 35

36 Le sondage aléatoire simple (SAS) Probabilité d inclusion et pondération Calcul de la probabilité d inclusion/taux de sondage: Le SAS est un sondage particulier puisque les Pi sont constantes: P i = n/n Cette grandeur s appelle un taux de sondage Peut se retrouver avec les dénombrements P i = p s = s i C n 1 N 1 =n/n Toutes les combinaisons de n éléments parmi les N de la population sont réalisables avec la même probabilité. Chaque élément a la même chance que les autres d être sélectionné. Les pondérations équivalent à l inverse du taux de sondage: W i s = 1 P i = N n Elles ne dépendent ni de i, ni de s : chaque individu de l échantillon représente N/n individus de la population. Ces résultats sont intuitifs: si on sonde avec un taux de sondage de 5% (un individu sur 20), le SAS par construction doit donner un échantillon 20 fois plus petit avec à peu près les mêmes caractéristiques. Techniques d enquêtes Echantillonnage 36

37 Le sondage aléatoire simple (SAS) Expression des estimateurs En pratique, on ne s'intéresse qu'à l'estimation de paramètres ayant la forme d'une moyenne, d'une proportion ou d'un total. On note y la moyenne simple des y i calculée sur l échantillon tiré. On peut montrer que l estimateur y est un estimateur sans biais de y, autrement dit que la moyenne de Y calculée sur l échantillon est une bonne mesure de la vraie moyenne: y = 1 n n i=1 p s y i n Cet estimateur est donc sans biais puisque E(y) = y, car i=1 p s = 1 Techniques d enquêtes Echantillonnage 37

38 Le sondage aléatoire simple (SAS) Précision des estimateurs Un biais nul n'est pas un critère infaillible de qualité. Ce qui compte, c'est la précision. Dans un sondage aléatoire simple, la variance de l estimateur y s écrit: V y = 1 f. S2 n Avec : n le nombre d'individus dans l'échantillon f le taux de sondage (n/n) S 2 la vraie variance de la variable Y dans la population mère. C est une mesure de dissimilarité entre les individus. S 2 = 1 N 1 N i=1 Y i Y 2 y l estimation de la moyenne de Y à partir de l échantillon. Techniques d enquêtes Echantillonnage 38

39 Le sondage aléatoire simple (SAS) Précision des estimateurs: taille de l échantillon Pour obtenir une estimation précise de la moyenne, cad que V y soit petit,, il faut que le numérateur soit petit et/ou que le dénominateur soit grand, et/ou que (1-f) qui est le facteur multiplicatif soit petit c'est-à-dire f grand. On peut donc jouer théoriquement sur 3 grands paramètres: 1. une taille de l'échantillon grande: plus l échantillon est grand, plus on peut avoir confiance dans l estimation qui en résulte. Intuitivement, on sent bien que plus on se rapproche du recensement et plus l erreur d échantillonnage sera faible. On peut noter que la variance est proportionnelle à 1/n donc l écart type sera proportionnel à 1 n. Ceci veut dire qu une précision 2 fois meilleure (pour diviser l écart-type par 2) il faut 4 fois plus de questionnaires, et pour une précision 10 fois meilleure il faut un échantillon 100 fois plus grand. En général la taille de l'échantillon est fixée par le budget. 2. Le taux de sondage f (=n/n): On ne peut que très rarement agir, en pratique, sur cette condition. Le taux de sondage est toujours compris entre 0 et 1. S il se rapproche de 1 on se rapproche du recensement et il y a de moins en moins d imprécision. Techniques d enquêtes Echantillonnage 39

40 Le sondage aléatoire simple (SAS) Précision des estimateurs: dispersion de la population 3. La dispersion de la population: Dans une population peu dispersée, toutes les valeurs de la variable Y seront proches de la moyenne. Si tous les individus sont identiques en Y cad si Y i = constante = Y alors S 2 =0 et V y = 0. Il suffirait d interroger un seul individu pour avoir toute l information et la précision est maximale. Dans la réalité les populations sont hétérogènes= plus les individus sont différents les uns des autres en Y, plus les valeurs de la variable Y sont éloignées de la vraie moyenne, et V y est grande. Dans ce cas, l estimateur est très sensible à l échantillon tiré et si le hasard fait mal les choses, le risque est grand que la moyenne de l'échantillon s'écarte fortement de celle de la population. On ne connaît pas S 2. On peut l estimer à partir des données de l échantillon que l on notera : s 2 = 1 n 1 n i=1 (y i y) 2 On peut montrer que s 2 est la variance de l échantillon qui estime sans biais S 2 (revient à dire que la dispersion de Y dans l'échantillon est proche de la vraie dispersion de Y dans la population mère). On peut alors écrire la variance estimée de V y = 1 f. s2 n Techniques d enquêtes Echantillonnage 40

41 Le sondage aléatoire simple (SAS) Intervalles de confiance En principe on connaît pas la loi de y lorsque le tirage est sans remise. Néanmoins, on peut supposer que si n est très grand (>50) les individus sont plutôt homogènes (il n y a pas d individus aux caractéristiques trop atypiques), alors y suit une loi de Gauss. IC = y f s2 n ; y f s2 n Techniques d enquêtes Echantillonnage 41

42 Le sondage aléatoire simple (SAS) Cas des proportions Dans le cas des proportions; la variance de l estimateur est alors: V p = 1 f. p(1 p) n 1 Lorsque l on calcule une proportion P, on néglige le taux f (si n est grand), l intervalle de confiance d une proportion devient: IC = p 1,96 P 1 P n 1 ; p + 1,96 P 1 P n 1 Techniques d enquêtes Echantillonnage 42

43 Le sondage aléatoire simple (SAS) Exo 1 Sur les 500 élèves de M1 de l Université d Auvergne, on veut connaître la proportion P qui souhaitent faire un Master à Clermont-Ferrand. Parmi les 150 élèves interrogés, 63 voudraient poursuivre. 1. Quel est l estimateur de P? 2. Quel est sa précision? Quel est le nombre d élèves souhaitant poursuivre en master avec un degré de confiance de 95% estimé à partir de l échantillon? Techniques d enquêtes Echantillonnage 43

44 Le sondage aléatoire simple (SAS) Exo 1 - Correction Sur les 500 élèves de M1 de l Université d Auvergne, on veut connaître la proportion P qui souhaitent faire un Master à Clermont-Ferrand. Parmi les 150 élèves interrogés, 63 voudraient poursuivre. 1. Quel est l estimateur de P? L estimateur sans biais p = p = = 0,42 1. Quel est sa précision? Quel est le nombre d élèves souhaitant poursuivre en master avec un degré de confiance de 95% estimé à partir de l échantillon? La variance estimée est : V p = 1 f. p 1 p n 1 Puisque n est grand, on néglige 1-f On en déduit : = 0, σ = 0,040 = Techniques d enquêtes Echantillonnage 44

45 Le sondage aléatoire simple (SAS) Exo 1 Correction (suite) Avec 95% : p [0,42 1,96 0,040; 0,42 + 1,96 0,040] L estimateur du nombre total d élèves N D souhaitant poursuivre en master est : N D = N. p = 500 0,42 = 210 On a : σ ND = N. σ = 20.2 N D ; = [170; 149] Techniques d enquêtes Echantillonnage 45

46 Le sondage aléatoire simple (SAS) Exo 2 On cherche à connaître la proportion de filles nées en Quelle taille d échantillon doit-on l adopter à trois points près (et à 95% de degré de confiance), dans le cas d un sondage aléatoire simple? Techniques d enquêtes Echantillonnage 46

47 Le sondage aléatoire simple (SAS) Exo 2 - correction On cherche à connaître la proportion de filles nées en Quelle taille d échantillon doit-on adopter à trois points près (et à 95% de degré de confiance), dans le cas d un sondage aléatoire simple? Soit P ce pourcentage et p son estimateur sans biais. L intervalle de confiance, si on néglige le taux f est : p [p 1,96. P 1 P n 1 ; p + 1,96. P 1 P n 1 ] On nous impose : 1,96. P 1 P n 1 = 0,03 On ne connaît pas P, mais on sait que P sera aux alentours de 50%, soit au pire : P(1-P)=0,25 1,96. (0,25/n-1)=0.03 n=1066 Techniques d enquêtes Echantillonnage 47

48 Le sondage aléatoire simple (SAS) Exo 2 - correction Techniques d enquêtes Echantillonnage 48

49 Le sondage aléatoire simple (SAS) Exo 3 Cinq salariés dans l entreprise et on veut connaître leur salaire horaire moyen R en interrogeant que 2 individus au hasard. La situation (inconnue de l enquêteur) est la suivante: 1. Compléter le tableau suivant : s i Rj (en euros) p(s) R(s) R s R 2 2. L estimateur est-il biaisé? 3. Quelle est la précision des estimateurs? Techniques d enquêtes Echantillonnage 49

50 Le sondage aléatoire simple (SAS) Exo 3 -Correction 1. Compléter le tableau suivant : Dans un modèle SAS, les échantillons sont tirés sans remise. Les probabilités de sortie p(s) sont égales à l inverse du nombre d échantillons distincts que l on peut constituer dans la population (équiprobabilité). s R(s) p(s) Moyenne ech R s R 2 Vraie variance 1/ / / / / / / / / / somme écart-type Biais 0 Techniques d enquêtes Echantillonnage 50

51 Le sondage aléatoire simple (SAS) Exo 3 -Correction 2. L estimateur est-il biaisé? L estimateur correspondant à l échantillon s est R(s). C est la moyenne simple des revenus des deux individus enquêtés. L espérance de l estimateur vaut : Le biais est donc : E R = p s. R s = 0, ,5 + ) = 21 s E R R = 0 L estimateur «moyenne simple» est donc sans biais, conformément à la théorie. 3. Quelle est la précision des estimateurs? La variance vraie est : V R = s p s. (R s R)² =84 Et l écart type= 9.16 Techniques d enquêtes Echantillonnage 51

52 Le sondage aléatoire simple (SAS) Problème du SAS Le sondage aléatoire simple ne nécessite aucune information auxiliaire. Pas de problème si la population est homogène. Si les valeurs d une variable auxiliaire sont connues, nous pouvons presque toujours utiliser un plan de sondage plus judicieux qu un plan simple (ex: stratification) Techniques d enquêtes Echantillonnage 52

53 Partie 4 Le sondage stratifié

54 Le sondage stratifié Principe et justification Dans un SAS, toutes les combinaisons de n unités de l échantillon parmi N éléments de la population U ont la même probabilité. Mais certains échantillons peuvent être indésirables Exemple: Soit une population de 5 éléments, représentant la surface des appart en m 3 des étudiants de Mag 2. 18, 20, 28, 50, 60 Parmi les échantillons à 2 unités, nous avons deux cas extrêmes: (18,20) et (50,60) qui se révèlent «mauvais» s il s agit d estimer la moyenne: Y = = 27,2 Il y a clairement un clivage entre «en coloc-seul» [ ou «riches-pauvres» ]. Le tirage «au hasard» peut nous conduire à n interroger que ces personnes-là. Enjeu: exclure les échantillons extrêmes pour améliorer la précision des estimateurs du SAS. Techniques d enquêtes Echantillonnage 54

55 Le sondage stratifié Principe et justification Idée: si les individus sont différents les uns des autres (par rapport à Y), on peut réaliser des groupes homogènes au sein desquels on réalise des tirages. Justification: les estimations obtenues au sein de chacun des groupes seront moins susceptibles de dépendre du hasard. Exemple: Estimation de la durée moyenne des tâches ménagères. On interroge 6 personnes. Il est possible d isoler les femmes des hommes et de tirer 3 hommes et 3 femmes; plutôt que 6 personnes sans distinction de genre. Fixer la composition de l échantillon rend les résultats moins sensibles à l aléa. Un échantillon est plus efficace dans une population homogène que dans une population hétérogène. Plus précisément, l erreur type d estimation est lié à la variance du caractère étudié dans la population. Justification mathématique avec la décomposition de la variance : Variance Totale= Variance Intra-groupe + Variance Inter-groupe Le but de la stratification est de constituer des groupes tels que la variance inter-groupe soit la plus grande possible (=la variance intra-groupe la plus petite possible). C est la règle de réalisation des groupes: une bonne stratification donne lieu à la constitution de groupes d individus tels que, vis-à-vis de la variable d intérêt Y, les comportements moyens au sein de chaque groupe soient les plus différents possible d un groupe à l autre= les comportements à l intérieur de chaque groupe soient les plus homogènes possibles. Techniques d enquêtes Echantillonnage 55

56 Le sondage stratifié Exemple On veut estimer le pourcentage d élèves fumeurs dans un lycée. On a un échantillon de 200 élèves. N=800, f=1/4 avec le SAS NF F NF NF F NF NF NF NF F F F NF NF F NF NF F F NF F NF F F F F NF NF NF NF NF F Fluctuation d échantillonnage!! On sait que la consommation est différente selon les âges des lycéens. Techniques d enquêtes Echantillonnage 56

57 Le sondage stratifié Exemple-suite 360 seconde 240 première 200 Terminale n1=120 n2=80 n3=67 f1=33.3% f2=33.3% f3=33.3% Puisqu on sait qu il y a plus de fumeurs en terminale= sur-représenter les terminales n1=65 n2=53 n3=120 f1=18% f2=22% f3=60% Techniques d enquêtes Echantillonnage 57

58 Le sondage stratifié Quelques exemples Les échantillons de ménages ou d individus dans les enquêtes usuelles sont stratifiés par région * type d habitat (taille des communes). Les échantillons d entreprises sont stratifiés par secteur et par taille, exprimée en effectifs salariés ou chiffre d affaire, Les échantillons d exploitations agricoles sont stratifiés par tranche de surface Les échantillons de jeunes sortis de l enseignement supérieur sont stratifiés par discipline, Indice des prix INSEE (critère géographique+ type de produits+ type de point de vente) Pour une étude sur le «salaire annuel», il sera pertinent d utiliser des critères liés à l âge, au niveau d étude, au genre, etc cad n importe quel facteur susceptible d expliquer les différences de comportements au niveau des salaires. Techniques d enquêtes Echantillonnage 58

59 Le sondage stratifié Retour à l exemple Exemple: Soit une population de 5 éléments, représentant la surface des appart en m3 des étudiants de Mag 2. 18, 20, 28, 50, 60 Supposons que l on sache à priori que les 3 premiers individus vivent seuls et que les deux derniers sont en coloc. Nous décidons que l échantillon de 2 individus doit être constitué d un représentant de chaque strate. Les échantillons possibles dans ce cas sont au nombre de 6 (chacun des 3 individus de la première strate pouvant être associé à l un des 2 autres de la seconde strate). Notons y1 et y2 les valeurs obtenues dans l échantillon. On ne peut plus faire de moyenne arithmétique simple car l unité échantillonnée dans la première strate est désignée pour en représenter 3, celle de la deuxième strate en vaut 2. Il convient alors de pondérer chaque valeur yi par le poids de la strate dont la valeur yi est issue. y s = 3 5 y y 2 y y y^s On vérifie bien que la moyenne des 6 sous-moyenne= 35.2, donc estimateur sans biais. Techniques d enquêtes Echantillonnage 59

60 Le sondage stratifié Retour à l exemple On remarque surtout que: La plage des estimations est beaucoup plus resserrée autour de la cible que dans le cas d un SAS car Les valeurs extrêmes sont moins éloignées L écart-type est plus petit Techniques d enquêtes Echantillonnage 60

61 Le sondage stratifié Méthode générale 1. La population étudiée N est partitionnée en h sous-populations N 1, N 2,..., N h, appelées "strates". 2. De chaque strate, nous extrayons un échantillon aléatoire simple (sans remise). 3. L'échantillon est constitué de la réunion de h sous-échantillons choisis au hasard, un par strate. Techniques d enquêtes Echantillonnage 61

62 Le sondage stratifié Notations Nous avons H strates de la population numérotées de 1 à H. Pour chaque strate h: Son effectif est égal à N h Son poids dans la population est égale à W h = N h N La moyenne estimée d une variable d intérêt Y est notée y h n h y h = 1 N h i=1 y i La variance corrigée de la variable Y est égale à s h 2 = 1 N h 1 N h k=1 (Y k y h ) 2 Techniques d enquêtes Echantillonnage 62

63 Le sondage stratifié Estimateur de la moyenne totale On s intéresse à l estimation de Y cad la moyenne de Y dans la population mère. Soit H strates H 1, H 2,..H h. On peut en donner l'expression suivante : H N H Y = N Y h h=1 Avec N : taille de la population mère; N h : taille de la strate H; N h /N : proportion des individus dans la strate H (leur poids); Y h : Moyenne simple de Y dans la strate H de la population mère C est la somme des moyennes pondérées de chaque strate le poids représentant l importance de la strate en termes d effectif dans la population. On ne connais pas Y h mais on peux démontrer que y h l estime sans biais. (selon le même principe que pour l'échantillonnage aléatoire simple). La moyenne simple issue de l échantillon tiré dans la strate h donne une bonne estimation de la vraie moyenne dans la vraie strate de la population mère. Je peux donc exprimer un estimateur sans biais de Y noté: y = H h=1 N H N y h Avec y h : moyenne simple issue de l échantillon tiré dans la strate h. Techniques d enquêtes Echantillonnage 63

64 Le sondage stratifié Précision de l estimateur Il nous reste à exprimer la précision de cet estimateur de la moyenne cad en connaître sa variance. Elle s'écrit de la façon suivante : V y = H h=1 N h N. 1 f h. S h 2 Avec N h : proportion des individus dans la «vraie» strate (leur poids) de la population mère, N f h, le taux de sondage dans la strate h (n h /N h ); n h : taille de l échantillon dans la strate h ; S h 2 : vraie valeur de la variance Y au sein de la strate H de la population mère. n h On ne connaît pas S 2 2 h, mais on peut l estimer sur l échantillon. On sait que s h estime sans biais S 2 h. On peut donc obtenir un estimateur sans biais de la variance de y donné par: V y = H h=1 N h N. 1 f h. s h 2 Avec s h 2 : variance de y dans la strate h calculée dans l échantillon ou variance intra-classe. La précision de la moyenne ne dépend que de la variance intra-classe. n h Techniques d enquêtes Echantillonnage 64

65 Le sondage stratifié Allocation proportionnelle Dans cette section on suppose que les strates sont déjà constituées. Il s agit ici de savoir comment répartir une taille d échantillon globale entre les différentes strates. Allocation proportionnelle (ou sondage stratifié proportionnel): Quand on impose un taux de sondage f = n N = n h N h = f h pour h=1,.., H Identique pour toutes les strates: Le sondage devient alors à probabilité égale puisque la probabilité de sélection d un individu quelconque de la strate h vaut f. On parle aussi d un sondage auto-pondéré, puisque tous les individus de l échantillon ont alors un poids identique (=inverse du taux de sondage f commun à toutes les strates). ex: dans un échantillon d individus stratifié par genre, les hommes et les femmes figurent au prorata de leur effectif dans la population étudiée. ex2: dans la section précédente, nous avons considéré un échantillon représentatif de la population des «colocs» et des «solitaires».!!! Le terme «représentatif» signifie que l échantillon a été dosé pour «représenter» une répartition d effectifs dans la population. Il ne signifie pas que le sondage soit parfait, sans erreurs, ni même que la répartition soit la meilleure possible! Il est donc préférable, pour éviter les ambiguïtés, de parler d échantillon proportionnel. Techniques d enquêtes Echantillonnage 65

66 Le sondage stratifié Allocation proportionnelle -Propriétés Les propriétés de l échantillon proportionnel sont importantes : Les probabilités de sélection sont égales pour tous les éléments de la base de sondage et valent le taux de sondage f = n/n. L estimateur de la moyenne y d une population U est alors : y = 1 n H h=1 n h ( Y i ) i=1 C est donc la moyenne calculée sur l échantillon qui estime la moyenne de la population. Ce que nous avons appelé, un sondage «auto pondéré». Nous montrons, par calcul, que cet estimateur est sans biais. La variance de l estimateur V y, dans le cas d un sondage stratifié proportionnel devient alors : V y = (1 f) 1 N h n N s² h h=1 Cette formule montre bien que plus les strates sont homogènes (variance intra-strate faible), plus la stratification est efficace. H Avantage de l allocation proportionnelle: ne dépend pas des Yi. On doit juste connaître le nh. Les gains de précision par rapport au SAS sont donc assuré quelles que soient les Y. Techniques d enquêtes Echantillonnage 66

67 Le sondage stratifié Allocation optimale (ou de Neyman) La répartition de Neyman, ou encore appelée la répartition optimale, consiste à respecter l égalité : n h N h σ = Constante = k h=1 nn hσ Plus une strate est hétérogène vis-à-vis de Y, plus nous utilisons un taux de sondage f important= il faut concentrer l effort là où la diversité est la plus forte, cad là où il y davantage d information à recueillir. La théorie montre que cette répartition est celle qui fournit la variance la plus faible une fois les strates déterminées. Allocation proportionnelle versus optimale: Perd en simplicité mais gains en précision. L application de la formule pour calculer la répartition de Neyman suppose connues a priori les valeurs σ. Ce peut être le cas à partir d études antérieures au sondage, mais en général il n en est pas ainsi. Le gain entre allocation proportionnelle et allocation optimale n est substantiel que si les dispersions varient énormément d une strate à l autre. En pratique, nous utilisons la répartition de Neyman quand le phénomène étudié a une distribution très assymétrique. Par contre, si ce phénomène a une distribution symétrique par rapport à sa moyenne, une allocation proportionnelle fournit des résultats d une qualité suffisante. Techniques d enquêtes Echantillonnage 67

68 Le sondage stratifié Exercice 1 Soit une population de 4 personnes pour lesquelles le caractère Y prend les valeurs suivantes : On tire des échantillons de taille 2. y 1 =2 ; y 2 =3 ; y 3 =1, y 4 =6. 1. Calculer la variance de l estimateur de la moyenne dans le cas d un sondage aléatoire simple (sans remise). 2. Une étude précédente affirme que les deux premiers individus font partis d un même groupe. Calculer la variance de l estimateur de la moyenne dans le cas d un sondage stratifié pour avec les strates U1={y 1,y 2 } et U2={y 3,y 4 } Quelle méthode vaut-il mieux préconiser? Justifiez. Techniques d enquêtes Echantillonnage 68

69 Le sondage stratifié Exercice 1 - Correction 1. Calculer la variance de l estimateur de la moyenne dans le cas d un sondage aléatoire simple (sans remise). La moyenne de y est de 3 La dispersion vaut (cf slide 44): avec f=n/n. Cela peut se ré-écrire: Y = 1 N k U y k = s 2 = 1 n 1 ( ) 4 n i=1 (y i y) 2 V y = 1 f. s2 n V y = N n Nn s² = 3 = = Techniques d enquêtes Echantillonnage 69

70 Le sondage stratifié Exercice 1 - Correction 2. Une étude précédente affirme que les deux premiers individus font partis d un même groupe. Calculer la variance de l estimateur de la moyenne dans le cas d un sondage stratifié pour avec les strates U1={y 1,y 2 } et U2={y 3,y 4 } Quelle méthode vaut-il mieux préconiser? Justifiez. On commence par calculer les paramètres au sein des classes. Y 1 = 1 n 1 y k = k U1 (2 + 3) 2 = 2,5 Puis Y 2 = 1 n 2 y k = k U2 (1 + 6) 2 = 3,5 S² y1 = 1 n1 1 S² y2 = 1 n2 1 k U1 k U2 (y k Y1)² = ( 2 2, ,5 2 = 0,5 (y k Y2)² = ( 1 3, ,5 2 = 12,5 Techniques d enquêtes Echantillonnage 70

71 Le sondage stratifié Exercice 1 - Correction S agissant d une allocation proportionnelle, la variance est : Avec f=n/n V y = (1 f) 1 n H h=1 N h N s² h Soit : V y = N n nn H h=1 N h N s² h = = On voit donc que la variance du plan stratifié est plus grande que pour le SAS, malgré l allocation proportionnelle. Ce résultat surprenant rappelle que la stratification n entraîne pas une amélioration systématique de la précision. Dû au fait que dans cet exemple la variance inter-strate est faible et que la taille de la population est petite. Techniques d enquêtes Echantillonnage 71

72 Le sondage stratifié Exercice 2 On cherche à estimer le poids moyen de la population européenne. On possède des informations sur la proportion de personnes selon leur indice de masse corporelle (IMC). La population est divisée en trois strates IMC faible, normal et élevé. On tire un échantillon par SAS pour chacune des strates et on obtient les résultats suivants : IMC faible IMC normale IMC élevé Pondération de la strate 0,3 0,5 0,2 Moyenne de l'échantillon en strate h Vraie dispersion des poids en strate h Calculez l estimateur stratifié de la moyenne dans la population européenne de la variable «poids moyen». 2. Cet estimateur peut-il être différent de celui d une moyenne simple? 3. Cinq ans plus tard, on suppose que la dispersion dans le poids moyen n a pas bougé. On se propose de vérifier cela en tirant un échantillon de 100 personnes sans remise. Quelle est la variance de l estimateur du poids moyen avec un sondage stratifié proportionnel? 4. Même question avec un sondage stratifié optimal pour lequel n1=50, n2=35 et n3=15 Techniques d enquêtes Echantillonnage 72

73 Le sondage stratifié Exercice 2 - correction 1. Calculez l estimateur stratifié de la moyenne dans la population européenne de la variable «poids moyen». Avant toute chose, reprenons les informations que nous avons dans l énoncé: Pondération de la strate h :N h /N Moyenne de l échantillon en strate h : Y h Vraie dispersion des poids en strate h : S h ² Le poids moyen de la population est donné par : Y = N h N. Yh = = 84.1 Techniques d enquêtes Echantillonnage 73

74 Le sondage stratifié Exercice 2 - correction 2. Cet estimateur peut-il être différent de celui d une moyenne simple? Oui si l allocation n est pas proportionnelle. Dans ce cas-là, n h n N h N 3. Cinq ans plus tard, on suppose que la dispersion dans le poids moyen n a pas bougé. On se propose de vérifier cela en tirant un échantillon de 100 personnes sans remise. Quelle est la variance de l estimateur du poids moyen avec un sondage stratifié proportionnel? La dispersion de la variable poids moyen est : V y = (1 f) 1 n H h=1 N h N s² h Comme n est très grand (supérieur à 50), on peut négliger le taux de sondage. V y = 1 n H h=1 N h N s² h = Même question avec un sondage stratifié optimal pour lequel n1=50, n2=35 et n3=15 V y = 1 n H h=1 N h N s² h = Techniques d enquêtes Echantillonnage 74

75 Le sondage stratifié Comparaison avec le SAS Utilisation justifiée si la population est très hétérogène L objet d étude est une partie de cette population Plutôt que de considérer cette sous-population comme un simple domaine sur lequel on ne peut pas contrôler la taille de l échantillon, on peut la faire coïncider avec une strate, et procéder dans cette strate à un SAS avec une taille d échantillon importante. L'existence d'une stratification de fait, soit pour des raisons géographiques, soit pour des raisons administratives. Pas de coûts supplémentaires, à l exception de coûts d étude pour constituer les strates (négligeable). Cela conduit même souvent une réduction des coûts d enquête ou une optimisation de la gestion de l enquête: ex: découpage selon la région critère sectoriel qui permet de spécialiser les enquêteurs Techniques d enquêtes Echantillonnage 75

76 Le sondage stratifié Le problème de la constitution des strates On a 3 problèmes difficiles à résoudre : 1. Quelles variables de stratification utiliser? La meilleure variable est la plus discriminante cad celle qui permet de constituer des groupes homogènes en intra, du point de vue de Y. En pratique, on cherche une variable X (âge, sexe), très corrélée à Y, de façon à ce que des groupes homogènes par rapport à X soient également homogènes par rapport à Y. Sinon résultats à peine meilleurs (voire pires) que dans l'échantillon aléatoire simple 2. Nombre de strates Intuitivement, on peut penser que le nombre de strate doit être le + grand possible parce qu'il est + facile de constituer des groupes homogènes. En réalité on est vite limité car l augmentation trop grande du nombre de strates fait diminuer la précision des estimateurs (cad fait augmenter V y car la taille de l échantillon dans chaque strate sera petit et les estimations des s h 2 seront peu précises (en pratique il faut au moins 20 observations par strate). Techniques d enquêtes Echantillonnage 76

77 Le sondage stratifié Le problème de la constitution des strates-suite 3. Les limites des strates (pour les variables quantitatives) C est la question la plus délicate. Le traitement mathématique est très compliqué et la solution est le + souvent qualitative, dictée par des considérations et connaissances sur le domaine étudié. Dans la pratique, ce sont souvent des variables qualitatives qui servent à la stratification : sexe, CSP, diplôme etc. Deux types de considérations vont conduire au choix des critères de stratification : 1. disponibilité des critères dans la base de sondage ; 2. pertinence des différents critères pour créer des strates homogènes. Ceci nécessite une connaissance soit intuitive, soit venant d études réalisées antérieurement. Techniques d enquêtes Echantillonnage 77

78 Le sondage stratifié Le problème de la constitution des strates-exemple Au niveau des unités de sondage «géographiques» : Exemple : Pour les villes stratification selon la région, l activité dominante des localités. Nous séparons souvent milieu rural et milieu urbain. Au niveau des ménages ou des individus : Utilisation des critères qui peuvent être en corrélation avec le sujet d étude. Exemple : la CSP, le niveau d étude, la taille du ménage, le type d habitation, etc... Techniques d enquêtes Echantillonnage 78

79 Le sondage stratifié En résumé Le sondage stratifié est basé sur le principe de : forcer le hasard imposer à l échantillon de représenter la population strate par strate. Une stratification peut être : très efficace pour l étude d un phénomène, par exemple la mortalité, très peu efficace pour l étude d autres phénomènes, par exemple l activité économique. Cette situation se présente avec une acuité particulière lorsqu un échantillon est destiné à des études à objectifs multiples. Plus nous multiplions les strates, plus le gain d efficacité devient faible. De plus, les résultats calculés au niveau de chaque strate ne sont plus significatifs en raison de la petite taille de l échantillon Techniques d enquêtes Echantillonnage 79

80 Partie 5 Sondages à plusieurs degrés

81 Sondage à plusieurs degrés Justification et principes Le sondage aléatoire simple présente 2 inconvénients majeurs : lorsque chaque individu tiré est associé à un coût de déplacement pour pouvoir réaliser l interview, la dispersion géographique des individus amène à un coût prohibitif de l enquête. implique l'utilisation de bases de sondage étendues (par ex toute la population française) pas forcément disponibles et lourdes à gérer. Pour contourner ces difficultés on utilise le sondage à plusieurs degrés qui fonctionne ainsi : On constitue une partition de la population en groupes d individus disjoints (ex population de chaque département) et dont la réunion constitue la population entière. Chaque groupe est une «unité d échantillonnage» ou encore «unités primaires» notées UP. On effectue un premier tirage aléatoire simple dans ces UP. Chaque unité primaire sélectionnée est divisée en unités secondaires US. On peut effectuer un second tirage au hasard dans chaque unité primaire, pour obtenir les unités secondaires, etc On peut renouveler le processus autant de fois que nécessaire. Il s agit donc d une succession de regroupements des unités statistiques pour tirer l échantillon. Exemple d échantillons à deux degrés: On tire un échantillon de villes. Puis on tire, parmi les villes sondées, un échantillon de ménages. On peut bien sûr généraliser à 3 degrés, à 4 degrés,... Techniques d enquêtes Echantillonnage 81

82 Sondage à plusieurs degrés Principes 1 er degré Unités premières 2 ème degré Unités secondaires Individus Techniques d enquêtes Echantillonnage 82

83 Sondage à plusieurs degrés Justifications Attention à l utilisation du nom sondage par grappes. Cette expression doit être réservée au cas particulier du sondage à plusieurs degrés où l ensemble des unités au dernier degré de tirage est enquêté. Quand utiliser ce type de sondage? Exemple: On veut étudier ménages en France (27 millions de ménages, communes). Même si on dispose d une bonne base de sondage (liste des villes avec une estimation de leur population), élaborer une liste des ménages au niveau national en visitant chaque ville serait une tâche gigantesque. En plus, les ménages de l échantillon seraient géographiquement extrêmement dispersés. D où un temps énorme perdu en déplacements. (coûts de l enquête prohibitifs). Techniques d enquêtes Echantillonnage 83

84 Sondage à plusieurs degrés Avantages Cette méthode a 3 grands avantages : permet une exécution rapide et moins coûteuse de l'enquête car le principe du tirage en cascade focalise les interviews sur une zone géographique. on peut plus facilement constituer une bonne base de sondage sur des unités géographiques restreintes (par ex, recenser le nombre de ménages dans les communes plutôt que sur toute la France)=base de sondage partielle. Permet de constituer un réseau fixe d enquêteurs sur place Globalement, on réalise des économies de temps de frais de déplacement (au niveau du travail des enquêteurs). Techniques d enquêtes Echantillonnage 84

85 Sondage à plusieurs degrés Inconvénients La contrepartie est que ce type de sondage est moins précis que le sondage aléatoire simple. Le mécanisme qui forme le cœur de cette imprécision est le suivant : dans la grande majorité des cas, les individus qui forment les UP ont de fortes chances d être semblables par rapport à la variable d intérêt Y: on parle alors d effet de grappe. Le tirage au second degré perd de sa «représentativité» car il consiste, en caricaturant, à recueillir plusieurs fois la même information auprès des individus de l unité primaire. Il y a une sorte de redondance d information au sein des unités constituées à chaque degré. On montre que la majeure partie de la variance des estimateurs dans le cas des tirages à plusieurs degrés provient souvent du premier degré de tirage. Techniques d enquêtes Echantillonnage 85

86 Sondage à plusieurs degrés Les limites Techniques d enquêtes Echantillonnage 86

87 Sondage à plusieurs degrés Les limites Techniques d enquêtes Echantillonnage 87

88 Sondage à plusieurs degrés Effets de grappes Une idée intuitive est que l on disperse moins l échantillon : les unités regroupées dans un même groupe (une grappe) ont une certaine tendance à se ressembler (penser aux habitant d un immeuble par exemple). Il y a donc une certaine redondance d information : chaque unité supplémentaire d une grappe apporte moins qu une unité tirée au hasard dans l ensemble de la population. La plus grande partie de la variance dans le cas des tirages à plusieurs degrés vient souvent des premiers degrés. A la limite, si toutes les unités se ressemblaient parfaitement dans une grappe, alors c est comme si l on avait interrogé un échantillon non pas d individus mais de grappes. Ceci est à priori nuisible à la représentativité, sauf si chaque unité est elle-même une image fidèle de l ensemble. Techniques d enquêtes Echantillonnage 88

89 Sondage à plusieurs degrés Exemples La pratique des sondages par grappes ou des sondages à plusieurs degrés est très largement répandue. Elle est motivée par la nature des données à recueillir, des considérations de coût ou de faisabilité, la mauvaise qualité ou l inexistence des bases de sondage. Premier exemple : Études médicales. Certaines études sont réalisées auprès d échantillons de médecins qui sont considérés, pour l enquête, comme des grappes de patients (donnent tout ou une partie de leur patientèle, effet de grappe médecin) ou de prescriptions. Des recherches effectuées pour analyser l évolution du SIDA et, plus généralement, des MST, ont été basées sur des laboratoires d analyses médicales, grappes d actes et analyses. Autre exemple : Sondages électoraux. On connaît les estimations établies par les instituts de sondage, les soirs de consultations électorales. Il s agit généralement de sondages sortie des urnes réalisés auprès d électeurs à la sortie de bureaux de vote. Il est clair qu il s agit de sondages à deux degrés, le premier degré consistant à choisir les bureaux de vote où opéreront les enquêteurs. Techniques d enquêtes Echantillonnage 89

90 Sondage à plusieurs degrés Notations Pour simplifier, on se place essentiellement dans le cas du sondage à 2 degrés, et de tirage aléatoire simple au sein de chaque degré. On utilisera les notations suivantes : Les N unités de la population sont réparties en M sous-ensembles, appelés Unités primaires (UP) : N dans la population ( = 1,..., N) M dans l unité primaire ( = 1,..., M) Chaque UP i contient N i unités de la population, appelées Unités secondaires (US) : m dans l échantillon pour l unité secondaire (j = 1,..., m). Lors d un sondage par grappes, on prend un échantillon de m UP, l US i de l échantillon étant totalement enquêtée (cas particulier). n tirées dans l échantillon (i = 1,..., n). Techniques d enquêtes Echantillonnage 90

91 Sondage à plusieurs degrés Estimateurs de la moyenne (Horvitz-Thompson) N= taille pop mère M=taille unités primaires m=taille échantillon unité primaire ni=taille échantillon unité secondaire Estimateurs de la moyenne: Y π = 1 N iεs n i Y i m M = M Nm Il s agit de la moyenne des échantillons, pondérées par le taux de sondage des unités primaires =(m/m) et secondaires (ni/n) Précision de la moyenne: var Y π = M m m 1. M m. i s iεs Y i n i N n i Y i Y π M 2 On a une expression qui fait apparaître des termes du type (1-taux de sondage) dans les unités primaires et (1-taux de sondage) dans les unités secondaires (n i /N i ). Une dispersion des totaux au niveau considéré divisé par les tailles d échantillon Techniques d enquêtes Echantillonnage 91

92 Sondage à plusieurs degrés Exercice 1 Sur les bords de plages de Bali on compte 45 villages, chacun de taille variable. On cherche à estimer le nombre moyen de chambre d hôtels sur l île. Pour cela, on sélectionne 3 villages par sondage aléatoire simple sans remise, et on interroge tous les hôtels qui y résident. On sait, en outre que chambres sont disponible dans l île. Les résultats de l enquête sont les suivants : Numéro du village Nombre d'hôtels dans le village Nombre total de chambres dans le village Estimer le nombre moyen et le nombre total de chambres dans l île. 2. Estimer la variance de l estimateur de la moyenne. Techniques d enquêtes Echantillonnage 92

93 Sondage à plusieurs degrés Exercice 1 - correction 1. Estimer le nombre moyen et le nombre total de chambres dans l île. Il s agit d un sondage par grappes où les grappes sont sélectionnées à probabilités égales avec M=45, m=3 et N=10000 On note s l échantillon par grappes tirées. L estimateur retenu : Y π = M Nm iεs n i Y i Y π = = 8.55 Techniques d enquêtes Echantillonnage 93

94 Sondage à plusieurs degrés Exercice 1 - correction 2. Estimer la variance de l estimateur de la moyenne. var Y π = M m m 1. M m. i s Y i n i N Y π M 2 var Y π = = Techniques d enquêtes Echantillonnage 94

95 Sondage à plusieurs degrés Précision Rappelons que l'objectif est d'obtenir une petite valeur de la variance de t. Première règle pour l échantillonnage que permet l analyse de la variance : si on augmente m (taille de l'échantillon des UP) sans toucher aux n i (taille de l'échantillon des US) on diminue à la fois A (numérateur) et B (dénominateur). Si on augmente que n i sans toucher à m, on ne diminue que B. Autrement dit, à taille d échantillon globale fixée il est presque toujours préférable de choisir m maximum et n i minimum. Toutefois, la marge de manœuvre peut se trouver réduite par les contraintes budgétaires (il est plus coûteux d enquêter un nombre élevé d UP). Techniques d enquêtes Echantillonnage 95

96 Sondage à plusieurs degrés Précision Second élément que l'on peut considérer : s 1 2 et s 2 2. On sait que la variance totale d une variable donnée est égale à la somme de 2 variances s = s s 2 2 s 1 2 : dispersion entre les UP i (variance inter-classe) s 2 2 : dispersion à l intérieur des UP i (variance intra-classe) s est une grandeur fixe, si 1 élément est petit, l autre est grand. Il me faut donc choisir laquelle de ces 2 variances est la plus explosive et que je dois impérativement minimiser pour avoir une variance totale faible. Dans la plupart des populations courantes et pour la plupart des variables traitées la dispersion des totaux s 1 2 entre les différentes UP est le terme qui peut facilement prendre des valeurs numériques élevées. Elle doit être contrôlée en priorité. Pour que cette valeur soit petite il faut que les totaux de la variable Y dans les différentes UP soient proches. Trois règles d'échantillonnage pour cela : Des UP de taille faible Des UP de taille voisines. Par exemple vous pouvez avoir des taille de population très différentes dans les départements. Des UP de comportement moyen semblable. Techniques d enquêtes Echantillonnage 96

97 Sondage aréolaire : un cas particulier de l échantillon à plusieurs degrés Principe L échantillon aréolaire n est pas issu directement d un tirage d individus ou de ménages dans une liste mais d un tirage d aires géographiques dans lesquelles on interrogera tous les individus ou ménages présents. Il faut donc fabriquer des «unités de tirage» destinées à être échantillonnées. Pour ce faire il faudrait découper l ensemble du territoire en aires de taille équivalente. Techniques d enquêtes Echantillonnage 97

98 Sondage aréolaire : un cas particulier de l échantillon à plusieurs degrés Etapes Etape 1: constitution de l échantillon des UP à partir de découpages géographiques existants (régions, département, commune etc). Caractéristiques à respecter : ne pas être trop grandes, pour que la charge de découpage à l intérieur de ces unités ne soit pas trop lourde ; à l inverse, ne pas être trop petites, pour que l on puisse y trouver au moins autant d aires secondaires que l on en a besoin. Etape 2: Découpage des unités primaires en unités secondaires et tirage des US Une US est délimitée par des éléments facilement repérables visuellement : des rues, des routes, des voies ferrées, des cours d eau, etc. L'US correspond non pas à des critères administratifs mais à un critère physique (bâtiment, rue, pâté de maison, quartier). Une fois le découpage en US réalisé, un tirage des US est effectué A l intérieur des US, toutes les unités d échantillonnage de base (logements, écoles, entreprises etc) font partie de l échantillon et sont donc interviewées. Type de sondage très utilisé dans les PVD et par les démographes notamment Techniques d enquêtes Echantillonnage 98

99 Sondage aréolaire Avantages et inconvénients L échantillon aréolaire présente les mêmes avantages que l échantillon à plusieurs degrés: L absence de base de sondage complète et à jour y compris au dernier niveau. la plus grande concentration géographique des interviews permet un gain de temps et de coût pour la collecte, qui rend possible la réalisation d une enquête de grande ampleur ; Il a des avantages spécifiques l obtention d un meilleur taux de réponse que dans les enquêtes où les unités d échantillonnage ne sont pas tirées par grappes. On observe en général un effet d entraînement positif entre les ménages d une même aire. L effet d entraînement négatif est beaucoup plus rare ; le ratissage du territoire exhaustif de l aire facilite le repérage des unités «marginales» et devrait éviter la sous-estimation de certaines catégories de personnes. En contrepartie, l'échantillon aréolaire présente quelques inconvénients : La construction de la base de sondage aréolaire demande un long travail de préparation. Le découpage représente un travail lourd et coûteux s il ne suit pas des divisions administratives existantes. il faut être sûr de pouvoir découper des aires ayant des densités de population (ménage, écoles, entreprises) équivalentes pour éviter la sur-représentation de certaines zones. Techniques d enquêtes Echantillonnage 99

100 Combinaison de plans de sondage Grappes + Stratification Pour avoir une dispersion inter-grappes la plus petite possible: il faut un grand nombre de grappes dont les moyennes sont peu différentes les unes des autres = on voudrait que chaque grappe constitue une mini population contredit la notion même de grappe! Utilisation des strates pour approcher cette condition: les strates doivent être les plus contrastées possible pour bien prendre en compte la variabilité du phénomène étudié. Mais à l intérieur d une strate, les grappes doivent se ressemble le plus possible. La répartition de l échantillon dans les strates doit aussi intégrer la variabilité interne aux strates : si dans une strate, les grappes sont très ressemblantes, on pourra en sélectionner moins que dans les strates où les grappes sont plus différentes les unes des autres Techniques d enquêtes Echantillonnage 100

101 Combinaison de plans de sondage Grappes + Stratification Le phénomène d effet de grappe fait qu à nombre d individus égal, un sondage à plusieurs degrés est moins précis qu un SAS. Il reste que la concentration des observations est un facteur de réduction des coûts (ex: déplacement des enquêteurs). Enfin, il n y a souvent pas d autre solution lorsque la base de sondage est défaillante. C est la situation la plus fréquente dans le domaine d études auprès des ménages ou d individus: Etudes de comportement, Etudes de marché Etudes d opinion, Mesures d audience, etc Exemples: Etudes de satisfaction des passagers de compagnies aérienne : stratification selon le type de vol (les périodes, les horaires sont plus ou moins loisir vs business) et les faisceaux (Asie, Europe, ) Une fois cette stratification opérée, les vols sont des grappes de passagers. Etudes de marché: en général, stratification région x catégorie d agglomération puis tirage des unités secondaires (iris/ilot, ) proportionnel à la taille. Les instituts privés font à la différence de l INSEE (du fait de l absence de base de sondage) la dernière étape par quotas : de 10 personnes par point de chute À partir d une feuille de quotas. Techniques d enquêtes Echantillonnage 101

102 Partie 6 Méthodes empiriques

103 Méthodes empiriques Introduction Le point de départ : toutes les méthodes d échantillonnage aléatoire supposent l existence d une base de sondage à partir de laquelle on tire aléatoirement (mais avec probabilité connue) un échantillon sans biais dont la taille a été déterminée à la suite de considérations sur le niveau de précision souhaité. Or, pour la majorité des enquêtes d opinion comme des études de marché on ne dispose pas de base de sondage. Le but recherché : il s agit de se rapprocher le plus possible d un tirage rigoureusement aléatoire. Techniques d enquêtes Echantillonnage 103

104 Méthodes empiriques Introduction Les sondages empiriques s opposent aux sondages probabilistes en ce sens qu il n est plus possible de déterminer a priori quelle est la probabilité qu a chaque individu d appartenir à l échantillon. Utilisés lorsqu il y a par exemple une absence de base de sondage. La consigne: laisser à l enquêteur le choix des personnes interrogées. Les p(s) sont donc inconnues du statisticien. Le but: se rapprocher au maximum d un tirage rigoureusement aléatoire. Mais plus rapide et moins cher. Les sondages probabilistes sont par nature «objectifs» (en moyenne) dans leur mode de sélection. Deux types de sondage empiriques: La méthode des unités-types La méthode des quotas Techniques d enquêtes Echantillonnage 104

105 Méthodes des unités-types Présentation C est la plus empirique des méthodes. Elle consiste à choisir un individu «moyen» que l on déclare représentatif d un groupe d individus possédant les mêmes caractéristiques. On fait en sorte que la structure de l échantillon soit exactement la structure de la population entière selon certains critères préalablement établis. On divise la population en un certain nombre de sous-ensembles relativement homogènes sur une caractéristique, (âge, niveau de revenu, taille de l'exploitation) et on représente chacun d'eux par une unité-type: individus-types, exploitations agricoles-types, cantons-types, bureau de vote pilotes. L'observation des unités types est censée donner une bonne image de chaque sous-ensemble ainsi que de l'ensemble de la population. Sa validité repose sur un pari audacieux. Un individu semblable à l individu moyen selon le caractère qui a servi à définir cet individu moyen (par ex., l âge) sera également semblable à l individu moyen pour tous les autres caractères (tous les individus du même âge se comportent de la même façon) = on a une photo-représentation de la réalité. Techniques d enquêtes Echantillonnage 105

106 Méthodes des unités types Avantages et inconvénients Inconvénient: Aucun calcul de biais ou de précision n est possible ici: l échantillon est choisi, on ne peut donc plus concevoir la notion de variabilité d un estimateur que l on calculerait avec d autres échantillons. Avantage: Simplicité de détermination de l échantillon Digne d intérêt lorsqu il s agit de sélectionner de tout petits échantillons (quelques unités). Avec une méthode aléatoire on va risqué d obtenir un échantillon très déséquilibré, autrement dit une estimation très éloignée de la vraie valeur. Dans ces circonstances, effectuer un choix raisonné d individus permet d éviter les catastrophes si on prend soin de préjuger correctement des relations entre variables d intérêt et variables auxiliaires. Techniques d enquêtes Echantillonnage 106

107 Méthodes des quotas Présentation La plus fréquemment utilisée. On fait en sorte que la structure de l échantillon soit exactement la structure de la population entière selon certains critères préalablement choisis. Ex: on sait que la population est constituée de 45% d hommes et de 55% de femmes. Elle consiste à établir des quotas de personnes à enquêter selon les mêmes caractéristiques et les mêmes proportions que l ensemble de la population à étudier. Une fois les quotas déterminés, l'enquêteur prélève librement son échantillon, à condition de respecter la composition donnée à l'avance. Le principe de l inférence statistique est remplacé par l hypothèse que l échantillon constitue une photo réduction de la population. L estimateur d une moyenne Y est égale à la moyenne de l échantillon y. Techniques d enquêtes Echantillonnage 107

108 Méthodes des quotas Exemple Techniques d enquêtes Echantillonnage 108

109 Méthodes des quotas Biais La recherche peut être d autant plus longue que l on approche de la fin de la feuille : la dernière personne est déterminée de manière unique par les modalités restantes Tout le métier de l enquêteur consiste à ne pas se faire piéger et réaliser correctement ses «fin de quotas» Définir des quotas revient à définir une stratification multiple sur la population. La différence avec l échantillon probabiliste est qu au lieu de tirer les unités de sondage on laisse à l enquêteur le soin de les trouver lui-même au hasard de ses pérégrinations (cela prend un sens un peu différent en face à face et au téléphone). Le biais est créé par les conditions mêmes du travail de l enquêteur Aux différentes heures de la journée, les différentes catégories de population présentent des probabilités différentes et inconnues d être touchées par l enquêteur La probabilité d être touché varie également avec l accessibilité des personnes à interroger : digicodes à l entrée des immeubles en face à face, numéros sur liste rouge au téléphone Techniques d enquêtes Echantillonnage 109

110 Méthodes des quotas Conditions de fiabilité 1. La première difficulté vient de l absence fréquente d information concernant les effectifs correspondant au croisement des variables de quota: Les variables de quotas doivent satisfaire un certain nombre de conditions avoir une distribution statistique connue dans l ensemble de la population (puisqu'on définit les quotas en fonction de cette distribution). Avoir une distribution connue au niveau géographique le plus fin possible (problème éparpillement spatial des interviews) Etre aisément identifiables en termes de recherche sur le terrain et de validation en début d interview : pour savoir dans quelle «case» on doit compter l individu interrogé, il faut connaître la valeur des variables de quota pour cet individu. Pas trop nombreuses: il existe certaines limites au-delà desquelles les catégories détaillées ne reçoivent plus que quelques rares individus. Le traitement statistique devient alors non significatif. 2. les quotas doivent être choisis judicieusement (bais de sélection): Pertinents et fortement corrélé avec la variable d intérêt. La méthode n'est acceptable que si on a tenu compte dans les critères de quota de toutes les variables explicatives du comportement Y. On doit donc supposer que les valeurs de la variable d'intérêt ne sont expliquées que par les variables de quotas, et qu'il n'y a plus de "critère caché" non pris en compte qui pourrait les influencer. Techniques d enquêtes Echantillonnage 110

111 Méthodes des quotas Conditions de fiabilité 3. L inconvénient majeur de la méthode des quotas est de ne pas permettre de calculer scientifiquement l'erreur d'échantillonnage. La probabilité qu a un individu de la population d appartenir à l échantillon est inconnue : il est alors impossible d évaluer la variance d échantillonnage et donc de mesurer la précision des estimations Deux réactions possibles : De nombreux auteurs considèrent que cette méthode est inutilisable. D autres auteurs, faute de mieux, adoptent l hypothèse d un tirage à probabilités égales; hypothèse qui n est, vraisemblablement, jamais vérifiée. Mais de toutes les manières: les estimateurs employés sont biaisés; les calculs de taille d échantillon que l on réalise en employant les formules du sondage à probabilités égales ne peuvent être que des approximations plus ou moins grossières; le plan de sondage doit être accompagné d une série de consignes données à l enquêteur visant à la fois à : réduire le biais d observation; se rapprocher le plus possible des conditions de tirage à probabilités égales Techniques d enquêtes Echantillonnage 111

112 Méthodes des quotas Conditions de fiabilité 4. Le contrôle du processus d'enquête est plus difficile. Pas de coordonnées précises des personnes interrogées. On ne peut pas retrouver les interviewés comme avec une méthode probabiliste (où on connaît d'avance, par définition les identifiants complets des unités à sonder). II est donc plus difficile de s'assurer du bon travail de l'enquêteur par un contrôle a posteriori auprès des enquêtés. Impossible de corriger les non réponses. Techniques d enquêtes Echantillonnage 112

113 Méthodes des quotas Avantages Plus facile et plus rapide que les méthodes aléatoires L'enquêteur demeure relativement libre de ses choix. En cas de refus ou d impossibilité de contacter une personne, il est possible de la remplacer par une autre qui a les mêmes caractéristiques sociodémographiques. Cela permet de réaliser un sondage dans des délais plus courts avec des économies de recherche et de déplacement souvent très importantes. Avec l aléatoire, les sondés ne sont pas ' interchangeables '. Cela signifie que la personne tirée au sort doit être recontactée autant de fois que nécessaire. "Supprime" en apparence le problème des non-réponses. En première apparence, la non-réponse disparaît puisqu'on peut substituer les individus. Si un individu refuse de participer ou s il est absent de son domicile, l interviewer ira voir un autre individu car il a à combler son quota (si dupont ne veut pas répondre, j'interroge durand). II ne s'agit évidemment que d'un leurre, car le biais dû à la non-réponse subsiste toujours. Ce biais est dû au fait qu'il existe bien une sous-population à laquelle on n a pas accès. Ainsi, il y a un sérieux risque de ne jamais rejoindre certaines catégories de la population ayant de la réticence à répondre ou difficile à joindre. Or ces personnes ont des caractéristiques particulières (niveau d'étude notamment). Biais de non réponse caché. Argument pour: Ce n est pas parce que l on ne connaît pas la précision d une estimation que cette estimation est mauvaise de façon empirique nous avons d innombrables exemples de résultats issus d échantillons par quotas fort comparables à ceux fournis par des échantillons aléatoires Techniques d enquêtes Echantillonnage 113

114 Conclusion Quelle procédure d échantillonnage choisir?

115 Choisir un échantillonnage Cross-section versus panel But: sélectionner un échantillonnage optimal qui représente la population cible et autorise les chercheurs à effectuer de bonnes inférences. 1. Analyse transversale (cross-section) ou en panel? Suivant l objet d étude, la décision entre les deux n est pas si évidente que ça. Cette décision affectera tous les éléments de l enquête (coût, degré d effort, rapidité de l analyse). Analyse transversale: Avantages: puisque les données sont collectées à seulement un point dans le temps, la recherche d un échantillonnage optimal est facilité. Les changements dans la population cible sont plus faciles à gérer. Les taux de non-réponses sont plus faibles (plus facile de convaincre les gens de se faire interroger qu une seule fois). Inconvénient: Les développements ou changements temporelles au niveau individuel ne peut pas être mesurés. Techniques d enquêtes Echantillonnage 115

116 Choisir un échantillonnage Cross-section versus panel Panel (fixed panel, fixed panel plus borth, repeated panel, rotating panel, plit panel) Avantages: capture les changements: améliore les statistiques Inconvénients: L échantillonnage adapté en t peut devenir obsolète en t+1 Changements dans la population cible Coût initial (analyses préparatoires, effort de planification) Difficultés pour convaincre les participants. A chaque nouvelle vague, l attrition augmente. Sauf s il y a un rafraichissement de la population La formulation des questions (et les options de réponses) doit être comparable à travers le temps. Exemple de panel réussi: DHS, European Social Survey Techniques d enquêtes Echantillonnage 116

117 Choisir un échantillonnage Définir la population cible Définir la population cible aussi clairement que possible Exemple: toutes les personnes ayant plus de 18 ans qui dorment la plupart du temps dans des unités de ménages en Afrique du Sud, au Zimbabwe au cours d Avril Cette définition suppose encore de définir clairement les termes «ménages» et «la plupart du temps». Potentiel du critère d inclusion/exclusion: Exclure les personnes: au-delà d une certaine tranche d âge Personnes dans les institutions Personnes vivant dans des régions isolées Non-citoyens, les minorités ethniques, les SDF, les populations nomades, etc Cette définition doit également prendre en compte le budget, la sécurité ou les restrictions d accès à certains éléments de la population cible. Si l enquête doit se dérouler sur plusieurs pays: s assurer que la définition de la population cible soit comparable et applicable à tous les pays. Techniques d enquêtes Echantillonnage 117

118 Choisir un échantillonnage Définir la population cible-exemple The Afrobarometer: Research project that measures the social, political, and economic atmosphere in Africa. Conducted in more than a dozen African countries and are repeated on a regular cycle. Participants had to be citizens of their country and of voting age the day of the survey. Areas of armed conflict or natural disasters, national parks and game reserves, and people living in institutionalized settings were excluded. Special cases, like areas of political unrest, were reviewed on a case-by-case basis The Survey of Health, Ageing and Retirement in Europe (SHARE) Health, socio-economic status and social and family networks of individuals, aged 50 or over, in countries ranging from Scandinavia (Denmark, Sweden) through Central Europe (Austria, France, Germany, Switzerland, Belgium, the Netherlands, the Czech Republic, Poland) to the Mediterranean (Spain, Italy, Greece, Israel), as well as Ireland. In addition to the age requirement, respondents are residents and their partners (independent of partner age) who speak the official language. The study excludes seasonal or vacationing residents, persons physically or mentally unable to participate, those who died before the start of the field period, or who are unable to speak the specific language of the national questionnaire. It also excludes residents of institutions, except facilities for the elderly Techniques d enquêtes Echantillonnage 118

119 Choisir un échantillonnage Quel plan de sondage? Idéalement le plan de sondage permet de couvrir tous les éléments de la population cible. Dans la pratique, on choisit le plan qui permet d inclure le plus d éléments possible (ou dans exclure le moins possibles) compte tenu des contraintes de budget. Procédure: 1. Identifier une liste préexistante d éléments ou de cluster afin de constituer une bonne base de sondage: Souvent moins cher d acheter une base de données déjà existantes Même après deux ans, considérée comme obsolète Certains pays (la plupart) trouvent que difficile d interviewer les populations rurales ou géographiquement isolée, donc sous représenté dans les bases de sondages Techniques d enquêtes Echantillonnage 119

120 Choisir un échantillonnage Quel plan de sondage? Résumé sur les plans de sondages, par rapport au SAS (Cf Ardilly p.257) 2. «Tester» les différentes méthodes Plan de sondage Réalisation du tirage et estimation Précision coût terrrain SAS = = = Sondage stratifié/ allocation optimale = Sondage stratifié/ allocation proportionnelles - + = Sondage à plusieurs de grés Sondage en grappe Sondage par quotas -? Documenter chaque étape Techniques d enquêtes Echantillonnage 120

Montrer encore