Chapitre 2 Echantillonnage. Delphine Boutin

Documents pareils
STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

La nouvelle planification de l échantillonnage

Probabilités sur un univers fini

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Moments des variables aléatoires réelles

Chapitre 3. Les distributions à deux variables

Théorie des sondages : cours 5

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Tableau de bord des communautés de l Estrie DEUXIÈME ÉDITION INDICATEURS DÉMOGRAPHIQUES ET SOCIOÉCONOMIQUES

Probabilités conditionnelles Loi binomiale

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Annexe commune aux séries ES, L et S : boîtes et quantiles

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Probabilités sur un univers fini

Relation entre deux variables : estimation de la corrélation linéaire

CONSOMMATION INTERTEMPORELLE & MARCHE FINANCIER. Epargne et emprunt Calcul actuariel

CONCEPTION ET TIRAGE DE L ÉCHANTILLON

Chapitre 3 : INFERENCE

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Séance 4. Gestion de la capacité. Gestion des opérations et de la logistique

Comment va la vie en France?

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Exo7. Probabilité conditionnelle. Exercices : Martine Quinio

Fonctions de plusieurs variables

Analyse de la variance Comparaison de plusieurs moyennes

Les principales méthodes d évaluation

Chapitre 2 Le problème de l unicité des solutions

23. Interprétation clinique des mesures de l effet traitement

Estimation et tests statistiques, TD 5. Solutions

1 Complément sur la projection du nuage des individus

Exercices supplémentaires sur l introduction générale à la notion de probabilité

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

La fumée de tabac secondaire (FTS) en Mauricie et au Centre-du- Québec, indicateurs du plan commun tirés de l ESCC de

Les Français et les nuisances sonores. Ifop pour Ministère de l Ecologie, du Développement Durable et de l Energie

La classification automatique de données quantitatives

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Principe d un test statistique

DÉCISIONS À PRENDRE AVANT DE COMMENCER

Chapitre 2/ La fonction de consommation et la fonction d épargne

Probabilités. C. Charignon. I Cours 3

Probabilités Loi binomiale Exercices corrigés

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

LE TABLEAU DE BORD DE SUIVI DE L ACTIVITE

PRIME D UNE OPTION D ACHAT OU DE VENTE

LE GRAND ÉCART L INÉGALITÉ DE LA REDISTRIBUTION DES BÉNÉFICES PROVENANT DU FRACTIONNEMENT DU REVENU

Représentation des Nombres

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Programmation linéaire

Les indices à surplus constant

L écart salarial entre les femmes et les hommes en Belgique

L OBSERVATOIRE LCL EN VILLE - RÉALISÉ PAR BVA L ÉCONOMIE DU PARTAGE, ZOOM SUR LES JEUNES URBAINS. Juin 2014

Leçon N 4 : Statistiques à deux variables

Santé des TPE face à la crise

Cet article s attache tout d abord

Programmes des classes préparatoires aux Grandes Ecoles

Coefficients binomiaux

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

TEST DE DÉPISTAGE DE L IMMUNITÉ CONTRE LE

Qu est-ce qu une probabilité?

Probabilités conditionnelles Exercices corrigés

Lambotte J.-M. Géographe-Urbaniste. Chercheur au Lepur ULg. Semaine Universitaire Luxembourgeoise de l'environnement - Libramont

ELEMENTS DE COMPTABILITE NATIONALE

Comprendre le financement des placements par emprunt. Prêts placement

Description des variables de la base de données. a. Attractivité démographique pour les différents types de population

Comparaison de fonctions Développements limités. Chapitre 10

Propension moyenne et marginale

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

La valeur présente (ou actuelle) d une annuité, si elle est constante, est donc aussi calculable par cette fonction : VA = A [(1-1/(1+k) T )/k]

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Exercices de dénombrement

Prestations de soins et d assistance dispensées par les proches : temps investi et évaluation monétaire

Attitude des ménages face au risque. M1 - Arnold Chassagnon, Université de Tours, PSE - Automne 2014

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Observatoire Economique et Statistique d Afrique Subsaharienne

M2 IAD UE MODE Notes de cours (3)

Analyse des coûts. 1 ère année DUT GEA, 2005/2006 Analyse des coûts

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

données en connaissance et en actions?

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

Le résumé ci-après condense un certain nombre de résultats sélectionnés. Le rapport intégral peut être obtenu auprès de Pro Senectute Suisse.

Item 169 : Évaluation thérapeutique et niveau de preuve

Sommaire. Rentabilité du retour d une franchise de baseball de la Ligue majeure de baseball à Montréal (les «Expos»)

Assurance maladie publique et «Opting out» - Réflexions théoriques

Mesure du surendettement en Europe

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

Les Français et l assurance santé

NOTE D INFORMATION n 01 Janvier 2014

Complément d information concernant la fiche de concordance

Groupe symétrique. Chapitre II. 1 Définitions et généralités

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

PROBABILITES ET STATISTIQUE I&II

Probabilités. Une urne contient 3 billes vertes et 5 billes rouges toutes indiscernables au toucher.

TSTI 2D CH X : Exemples de lois à densité 1

Transcription:

Chapitre 2 Echantillonnage Delphine Boutin delphine.boutin@udamail.fr

Introduction Deux grandes étapes lorsqu on réalise un plan de sondage: La méthode d échantillonnage: processus choisi pour tirer l échantillon. Les infos les plus fondamentales (car utilisées pour les estimateurs) concernent les valeurs des probabilités de tirage de chaque individu. Selon la méthode utilisée, ces probabilités sont calculables pour chaque individu. L expression de l estimateur: formule d estimation de θ. Pour une même méthode d échantillonnage, il existe de nombreuses formules d estimateur, et inversement. Le plan de sondage dépend: Du biais/ De la variance Du budget De la disponibilité des informations adéquates Techniques d enquêtes Echantillonnage 2

Introduction Typologie des classes de sondages Deux classes de sondages: Méthode aléatoire ou probabiliste: chaque individu de la population a une probabilité donnée, connue d avance, d appartenir à l échantillon, dite probabilité d inclusion ou de sélection. Le sondage aléatoire simple La stratification Le sondage par grappes Le sondage à plusieurs degrés Avantages: calcul des probabilités et de la précision des estimateurs. Rigueur de la formalisation mathématique Méthodes empiriques ou «à choix raisonné», qui ne permettent pas de calculer ces probabilités d inclusion. Méthode des unités types Méthode des quotas Avantages: Absence de base de sondage. Aspect qualitatif Moins de budget Techniques d enquêtes Echantillonnage 3

Introduction Propriétés des estimateurs Estimateurs: Forme de l estimateur: θ = W i s. Y i iεs Avec W i s le poids de sondage attaché à l individu i pour le sondage s. Propriétés des estimateurs θ: Soit une moyenne, soit une proportion, soit un total Les pondérations utilisées dépendent de l échantillon Techniques d enquêtes Echantillonnage 4

Introduction Probabilité d inclusion/de sélection p i Probabilité d inclusion/de sélection : Pour tout sondage de taille fixe n, d une population N: p i = p(s) i s p i : probabilité de sélectionner l individu i p(s): probabilité de sélectionner l échantillon s contenant l individu i probabilité de tirer un échantillon contenant i parmi tout les échantillons possibles On vérifie que: N i=1 p i = n Techniques d enquêtes Echantillonnage 5

Introduction Probabilité d inclusion/de sélection P i -suite Exemple: On tire 2 individus dans une population de 4 personnes sans remise ( n=2 et N=4). s 1 ={1,2} s 3 ={1,4} s 5 ={2,4} s 2 ={1,3} s 4 ={2,3} s 6 ={3,4} Parce qu on juge que l individu 1 est particulièrement coopératif, on veut lui donner une probabilité de tirage supérieure. Les probabilités de tirage sont les suivantes: p(s 1 )=0,25 p(s 3 )=0,2 p(s 5 )=0,1 p(s 2 )=0,25 p(s 4 )=0,1 p(s 6 )=0,1 p 1 = p s 1 + p s 2 + p s 3 = 0,7 p 2 = p s 1 + p s 4 + p s 5 = 0,45 p 3 = p s 2 + p s 4 + p s 6 = 0,45 p 4 = p s 3 + p s 5 + p s 6 = 0,4 On vérifie bien que p 1 + p 2 + p 3 + p 4 =n=2 Techniques d enquêtes Echantillonnage 6

Introduction Types de tirages Tirages équiprobables: Consiste à tirer dans une population de taille N un échantillon de taille fixée n, de façon à ce que chaque individu ait la même probabilité d inclusion. P i est constant et vaut: n P i = n N avec i=1 p i = n et p i > 0 n N représentant le taux de sondage. Tirages à probabilité inégale: Tirage où les individus ont une probabilité inégale d être tiré (ex: un individu i a 4 fois plus de probabilité d être tiré qu un individu j). Tenir compte de cette dissymétrie au niveau de l estimateur: si on donne plus d importance à l individu i dans le tirage, on lui en donne moins dans l expression de l estimateur de façon à rétablir l équilibre très concrètement on pondère chaque individu par l inverse de sa probabilité d inclusion. P i sera un nombre quelconque, strictement compris entre 0 et 1 (strictement supérieur à 0) choisi n par le sondeur de façon à respecter i=1 p i = n pour un échantillon de taille fixe n Techniques d enquêtes Echantillonnage 7

Introduction Rappels statistiques Propriétés de l espérance: E ax = a E X E X + Y = E X + E(Y) Propriétés de la variance: V ax = a 2 V X V X + Y = V X + V Y + 2Cov X, Y Cov X, Y = E X E X (Y E Y ) Techniques d enquêtes Echantillonnage 8

Partie 1 Taille de l échantillon

Taille de l échantillon La question la plus fondamentale et la plus importante! Le choix de la taille d échantillon doit établir un équilibre entre: Ce qui est exigé du point de vue de la précision de l échantillonnage, Ce qui est réalisable du point de vue de l application pratique (ex.: budget, personnel de terrain et administratif, ressources techniques, contrôle de qualité, contraintes temporelles, pérennité). Techniques d enquêtes Echantillonnage 10

Taille de l échantillon Echantillonnage et estimateurs Techniques d enquêtes Echantillonnage 11

Taille de l échantillon Echantillonnage et estimateurs Des deux échantillons, on préfère le plus représentatif (justesse de l estimateur) Techniques d enquêtes Echantillonnage 12

Taille de l échantillon Echantillonnage et estimateurs Des deux, le premier est le plus large (mais pas forcément le plus représentatif) Techniques d enquêtes Echantillonnage 13

Taille de l échantillon Justesse et précision Randomisation: permet de déterminer l effet causal i.e. élimine les biais d endogénéité et définit la justesse de l estimateur mais elle n élimine pas le bruit dans les données Taille d échantillon: permet alors d ajuster le degré de précision Les deux sont utiles, comme le montrent les dessins suivants: un estimateur peut mesurer l effet juste...sans précision, et donc le manquer un estimateur peut être précis...mais faux Techniques d enquêtes Echantillonnage 14

Taille de l échantillon Justesse et précision Techniques d enquêtes Echantillonnage 15

Taille de l échantillon La loi des grands nombres Taille d échantillonnage et précision: une illustration Valeur espérée du tirage d un dé: 1 6 1 + 1 6 2. = 3,5 Empiriquement: si on tire un dé, distribution uniforme 1/6 chance pour chaque valeur Si on tire deux dés, 36 permutations et la moyenne des deux dés vaut: 1 (dés:1+1) avec une proba de 1/36 1.5 (dés: 1+2 ou 2+1) avec une proba de 2/36 3.5 (1+6, 2+5 etc) avec une proba de 6/36=1/6 Regardons les graphs de cette distribution empirique (distribution des moyennes empiriques) Techniques d enquêtes Echantillonnage 16

Taille de l échantillon La loi des grands nombres Techniques d enquêtes Echantillonnage 17

Taille de l échantillon La loi des grands nombres Techniques d enquêtes Echantillonnage 18

Taille de l échantillon La loi des grands nombres Techniques d enquêtes Echantillonnage 19

Taille de l échantillon Loi des grands nombres et théorème central limite Plus on tire les dés un nombre important de fois, plus on a de moyennes empiriques proches de la moyenne théorique la distribution des moyennes empiriques est plus resserrée, moins dispersée autour de la vraie valeur quand on augmente, on tend vers la vrai valeur: c est la loi des grands nombres Plus on tire les dés un nombre important de fois et plus la distribution empirique suit une loi normale c est le théorème central limite il permet de faire des tests statistiques basés sur les propriétés de la loi gaussienne Techniques d enquêtes Echantillonnage 20

Taille de l échantillon Forte contrainte de coûts Etape importante: déterminer le nombre d entretien à passer. Si forte contrainte de coût (= si on ne dispose pas d un budget illimité): Si C est le budget total de l enquête dont on dispose, et c le coût unitaire total attaché à un questionnaire ou une interview (formation de l enquêteur, passage de l enquête, saisie des données etc), alors la taille de l échantillon est donnée par : n = C c. Par précaution, on tire toujours un nombre d unités supplémentaires qui constituent une réserve. Il est en général quasi-impossible de recueillir les réponses de l ensemble des personnes faisant partie de la liste d enquête: zones difficiles à enquêter du fait de refus massifs et de la baisse du taux de réponse remplacements liés à des causes diverses (déménagement récent, décès récent, impossible à joindre etc). Il est nécessaire de prévoir un échantillon plus large en prévision de ces manques. Techniques d enquêtes Echantillonnage 21

Taille de l échantillon Faible contrainte de coûts Si faible contrainte de coût (= si on dispose d un budget illimité): Si prêt à faire un effort (budgétaire) pour obtenir une précision souhaitée à priori avec une certaine marge d erreur. Dans ce cas, la requête est connaître θ à une certaine marge d erreur près et avec 95 chances sur 100 de ne pas faire d erreur d encadrement. On trouve 1 n = N. 1 + NL2 4S 2 Avec n : taille de l échantillon; N : taille de la population mère; L : marge d erreur (de 0,1 à 0,005) et S 2 : Variance de Y dans la population mère. Malheureusement, S 2 est un paramètre inconnu. On peut estimer S 2 à partir d une autre enquête concernant le même sujet d une autre enquête portant sur une variable Z corrélée à Y de conseils «d experts» d un premier petit échantillon qui permette de calculer S 2 que l on complète ensuite en fonction de la valeur n à atteindre. Techniques d enquêtes Echantillonnage 22

Taille de l échantillon Faible contrainte de coûts-suite Une autre façon de procéder est de partir de la proportion (connue ou supposée, estimée) des éléments de la population-mère qui présentent une propriété donnée. Avec: On obtient la formule suivante : n = taille de l'échantillon attendu. n = t2 p(1 p) L 2 t = Seuil de confiance (ou Niveau de confiance ou encore Taux de confiance) que l on souhaite garantir sur la mesure (t=1,96 pour un taux de confiance de 95%). p= proportion estimée de la population présentant la caractéristique étudiée L = marge d'erreur (traditionnellement fixée à 5%). Malheureusement, on ne connaît pas p. La seule solution dans ce cas est d en donner une estimation «à priori» soit à partir d une enquête portant sur le même sujet mais réalisée dans le passé, soit à partir de conseils d experts, soit réaliser une pré-étude. Techniques d enquêtes Echantillonnage 23

Partie 2 Test et puissance statistique

Tests et puissance statistique Erreurs de type I et de type II Deux types d erreurs sont possibles: Techniques d enquêtes Echantillonnage 25

Tests et puissance statistique Erreurs de type I et de type II Erreur de type I: rejeter une hypothèse nulle bonne = rejeter H0 quand H0 est vrai la plus sérieuse erreur qu on puisse faire déclarer que les deux proportions sont inégales = rejeter l échantillon si RCT: H0= le programme n a pas d effet erreur de type I conduit à dépenser des ressources sur l extension du programme alors qu il n y a pas d effet réel. Plus α (=risque de première espèce) est petit, plus on se prémunit contre cette dernière situation avec un α faible, on resserre l intervalle de confiance autour de la vrai valeur Mais ne risque-t-on pas alors de manquer un effet (possiblement petit)? un effet par exemple compris entre α=95 et α =99? Techniques d enquêtes Echantillonnage 26

Tests et puissance statistique Erreur de type 2: manquer l effet Erreur de type II: accepter une hypothèse nulle mauvaise manquer l effet (possiblement petit) on note β la probabilité de cette erreur i.e. de manquer l effet Techniques d enquêtes Echantillonnage 27

Tests et puissance statistique Arbitrage Puissance d un test Π = 1 β proba de détecter l effet (ou de rejeter H0 quand H0 faux) la puissance d un estimateur (ou d un RCT) mesure la confiance entre notre capacité à détecter un effet existant un niveau conventionnel est P = 80%, i.e un risque de "louper" l effet de β= 20% Schéma suivant: l arbitrage entre erreur de type I (trouver un effet inexistant) et la puissance (manquer un effet existant) Techniques d enquêtes Echantillonnage 28

Tests et puissance statistique Arbitrage Techniques d enquêtes Echantillonnage 29

Partie 3 Sondage aléatoire simple

Le sondage aléatoire simple (SAS) Présentation Modèle de référence, modèle le plus simple Procédure de tirage aléatoire d une fraction de la population: Dans un échantillon aléatoire simple, on extrait n individus d'une population de taille N. La taille n est fixée et le tirage est sans remise à partir des seuls identifiants. Tous les individus ont la même chance d être sélectionnés, et ce sans information auxiliaire. Attribue à chaque échantillon s de taille n susceptible d être formé, la même probabilité de sélection p(s). Cette p(s) est égale à l inverse du nombre d échantillons distincts que l on peut constituer dans la population Techniques d enquêtes Echantillonnage 31

Le sondage aléatoire simple (SAS) Probabilité d inclusion et pondération Calcul de la probabilité d inclusion/taux de sondage: Le SAS est un sondage particulier puisque les Pi sont constantes: P i = n/n Cette grandeur s appelle un taux de sondage Peut se retrouver avec les dénombrements P i = p s = s i C n 1 N 1 =n/n Toutes les combinaisons de n éléments parmi les N de la population sont réalisables avec la même probabilité. Chaque élément a la même chance que les autres d être sélectionné. Les pondérations équivalent à l inverse du taux de sondage: W i s = 1 P i = N n Elles ne dépendent ni de i, ni de s : chaque individu de l échantillon représente N/n individus de la population. Ces résultats sont intuitifs: si on sonde avec un taux de sondage de 5% (un individu sur 20), le SAS par construction doit donner un échantillon 20 fois plus petit avec à peu près les mêmes caractéristiques. Techniques d enquêtes Echantillonnage 32

Le sondage aléatoire simple (SAS) Expression des estimateurs En pratique, on ne s'intéresse qu'à l'estimation de paramètres ayant la forme d'une moyenne, d'une proportion ou d'un total. On note y la moyenne simple des y i calculée sur l échantillon tiré. On peut montrer que l estimateur y est un estimateur sans biais de y, autrement dit que la moyenne de Y calculée sur l échantillon est une bonne mesure de la vraie moyenne: y = 1 n n i=1 p s y i n Cet estimateur est donc sans biais puisque E(y) = y, car i=1 p s = 1 Techniques d enquêtes Echantillonnage 33

Le sondage aléatoire simple (SAS) Précision des estimateurs Un biais nul n'est pas un critère infaillible de qualité. Ce qui compte, c'est la précision. Dans un sondage aléatoire simple, la variance de l estimateur y s écrit: V y = 1 f. S2 n Avec : n le nombre d'individus dans l'échantillon f le taux de sondage (n/n) S 2 la vraie variance de la variable Y dans la population mère. C est une mesure de dissimilarité entre les individus. S 2 = 1 N N i=1 Y i Y 2 y l estimation de la moyenne de Y à partir de l échantillon. Techniques d enquêtes Echantillonnage 34

Le sondage aléatoire simple (SAS) Précision des estimateurs On ne connaît pas S 2. On peut l estimer à partir des données de l échantillon que l on notera s 2 (petit s): s 2 = 1 n 1 n i=1 (y i y) 2 On peut montrer que s 2 est la variance de l échantillon qui estime sans biais S 2 (revient à dire que la dispersion de Y dans l'échantillon est proche de la vraie dispersion de Y dans la population mère). On peut alors écrire la variance estimée: V y = 1 f. s2 n Techniques d enquêtes Echantillonnage 35

Le sondage aléatoire simple (SAS) Précision des estimateurs: taille de l échantillon Pour obtenir une estimation précise de la moyenne, cad que V y soit petit,, il faut que le numérateur soit petit et/ou que le dénominateur soit grand, et/ou que (1-f) qui est le facteur multiplicatif soit petit c'est-à-dire f grand. On peut donc jouer théoriquement sur 3 grands paramètres: 1. une taille de l'échantillon grande: plus l échantillon est grand, plus on peut avoir confiance dans l estimation qui en résulte. Intuitivement, on sent bien que plus on se rapproche du recensement et plus l erreur d échantillonnage sera faible. On peut noter que la variance est proportionnelle à 1/n donc l écart type sera proportionnel à 1 n. Ceci veut dire qu une précision 2 fois meilleure (pour diviser l écart-type par 2) il faut 4 fois plus de questionnaires, et pour une précision 10 fois meilleure il faut un échantillon 100 fois plus grand. En général la taille de l'échantillon est fixée par le budget. 2. Le taux de sondage f (=n/n): On ne peut que très rarement agir, en pratique, sur cette condition. Le taux de sondage est toujours compris entre 0 et 1. S il se rapproche de 1 on se rapproche du recensement et il y a de moins en moins d imprécision. Techniques d enquêtes Echantillonnage 36

Le sondage aléatoire simple (SAS) Précision des estimateurs: dispersion de la population 3. La dispersion de la population: Dans une population peu dispersée, toutes les valeurs de la variable Y seront proches de la moyenne. Si tous les individus sont identiques en Y cad si Y i = constante = Y alors S 2 =0 et V y = 0. Il suffirait d interroger un seul individu pour avoir toute l information et la précision est maximale. Dans la réalité les populations sont hétérogènes= plus les individus sont différents les uns des autres en Y, plus les valeurs de la variable Y sont éloignées de la vraie moyenne, et V y est grande. Dans ce cas, l estimateur est très sensible à l échantillon tiré et si le hasard fait mal les choses, le risque est grand que la moyenne de l'échantillon s'écarte fortement de celle de la population. Techniques d enquêtes Echantillonnage 37

Le sondage aléatoire simple (SAS) Intervalles de confiance En principe on connaît pas la loi de y lorsque le tirage est sans remise. Néanmoins, on peut supposer que si n est très grand (>50) les individus sont plutôt homogènes (il n y a pas d individus aux caractéristiques trop atypiques), alors y suit une loi de Gauss. Ainsi, avec une marge d erreur de 5%, on peut calculer des intervalles de confiance: IC = y 1.96 1 f s2 n ; y + 1.96 1 f s2 n Techniques d enquêtes Echantillonnage 38

Le sondage aléatoire simple (SAS) Cas des proportions Dans le cas des proportions; la variance de l estimateur est alors: V p = 1 f. p (1 p ) n 1 Lorsque l on calcule une proportion P, on néglige le taux f (si n est grand), l intervalle de confiance d une proportion devient: IC = p 1,96 p 1 p n 1 ; p + 1,96 p 1 p n 1 Techniques d enquêtes Echantillonnage 39

Le sondage aléatoire simple (SAS) Exo 1 Sur les 500 élèves de M1 de l Université d Auvergne, on veut connaître la proportion P qui souhaitent faire un Master à Clermont-Ferrand. Parmi les 150 élèves interrogés, 63 voudraient poursuivre. 1. Quel est l estimateur de P? 2. Quel est sa précision? Quel est le nombre d élèves souhaitant poursuivre en master avec un degré de confiance de 95% estimé à partir de l échantillon? Techniques d enquêtes Echantillonnage 40

Le sondage aléatoire simple (SAS) Exo 2 On cherche à connaître la proportion de filles nées en 2012. 1. Quelle taille d échantillon doit-on l adopter à trois points près (et à 95% de degré de confiance), dans le cas d un sondage aléatoire simple? Techniques d enquêtes Echantillonnage 41

Le sondage aléatoire simple (SAS) Exo 3 Cinq salariés dans l entreprise et on veut connaître leur salaire horaire moyen R en interrogeant que 2 individus au hasard. La situation (inconnue de l enquêteur) est la suivante: 1. Compléter le tableau suivant : s i Rj (en euros) 1 10 2 50 3 15 4 20 5 10 p(s) R(s) R s R 2 2. L estimateur est-il biaisé? 3. Quelle est la précision des estimateurs? Techniques d enquêtes Echantillonnage 42

Le sondage aléatoire simple (SAS) Problème du SAS Le sondage aléatoire simple ne nécessite aucune information auxiliaire. Pas de problème si la population est homogène. Si les valeurs d une variable auxiliaire sont connues, nous pouvons presque toujours utiliser un plan de sondage plus judicieux qu un plan simple (ex: stratification) Techniques d enquêtes Echantillonnage 43

Partie 4 Le sondage stratifié

Le sondage stratifié Principe et justification Dans un SAS, toutes les combinaisons de n unités de l échantillon parmi N éléments de la population U ont la même probabilité. Mais certains échantillons peuvent être indésirables Exemple: Soit une population de 5 éléments, représentant la surface des appart en m 2 des étudiants de Master 1. 18, 20, 28, 50, 60 Parmi les échantillons à 2 unités, nous avons deux cas extrêmes: (18,20) et (50,60) qui se révèlent «mauvais» s il s agit d estimer la moyenne: Y = 18+20+28+50+60 5 = 35,2 Il y a clairement un clivage entre «en coloc-seul» [ ou «riches-pauvres» ]. Le tirage «au hasard» peut nous conduire à n interroger que ces personnes-là. Enjeu: exclure les échantillons extrêmes pour améliorer la précision des estimateurs du SAS. à taille égale, un estimateur est plus efficace dans une population homogène Techniques d enquêtes Echantillonnage 45

Le sondage stratifié Principe et justification Idée: si les individus sont différents les uns des autres (par rapport à Y), on peut réaliser des groupes homogènes au sein desquels on réalise des tirages. Justification: les estimations obtenues au sein de chacun des groupes seront moins susceptibles de dépendre du hasard. Exemple: Estimation de la durée moyenne des tâches ménagères. On interroge 6 personnes. Il est possible d isoler les femmes des hommes; et de tirer 3 hommes et 3 femmes; plutôt que 6 personnes sans distinction de genre. Fixer la composition de l échantillon rend les résultats moins sensibles à l aléa. Justification mathématique avec la décomposition de la variance : Variance Totale= Variance Intra-groupe + Variance Inter-groupe Le but de la stratification est de constituer des groupes tels que la variance inter-groupe soit la plus grande possible (=la variance intra-groupe la plus petite possible). Règle de réalisation des groupes: tels que, vis-à-vis de la variable d intérêt Y, les comportements moyens au sein de chaque groupe soient les plus semblables possibles, et que les comportements à l extérieur des groupes soient les plus différents possible d un groupe à l autre= les comportements à l intérieur de chaque groupe soient les plus homogènes possibles, et le plus hétérogène possible entre chaque groupe. Techniques d enquêtes Echantillonnage 46

Le sondage stratifié Exemple On veut estimer le pourcentage d élèves fumeurs dans un lycée. On a un échantillon de 200 élèves. N=800, f=1/4 avec le SAS NF F NF NF F NF NF NF NF F F F NF NF F NF NF F F NF F NF F F F F NF NF NF NF NF F Fluctuation d échantillonnage!! On sait que la consommation est différente selon les âges des lycéens. Techniques d enquêtes Echantillonnage 47

Le sondage stratifié Exemple-suite 360 seconde 240 première 200 Terminale n1=120 n2=80 n3=67 f1=33.3% f2=33.3% f3=33.3% Puisqu on sait qu il y a plus de fumeurs en terminale= on peut surreprésenter les terminales n1=65 n2=53 n3=120 f1=18% f2=22% f3=60% Techniques d enquêtes Echantillonnage 48

Le sondage stratifié Quelques exemples Les échantillons de ménages ou d individus dans les enquêtes usuelles sont stratifiés par région * type d habitat (taille des communes). Les échantillons d entreprises sont stratifiés par secteur et par taille, exprimée en effectifs salariés ou chiffre d affaire, Les échantillons d exploitations agricoles sont stratifiés par tranche de surface Les échantillons de jeunes sortis de l enseignement supérieur sont stratifiés par discipline, Indice des prix INSEE (critère géographique+ type de produits+ type de point de vente) Enquêtes ménages Région Type d aire: urbaine, semi-urbaine, rurale Diplôme Enquêtes entreprises: Secteur d activité Taille de l entreprise Région Techniques d enquêtes Echantillonnage 49

Le sondage stratifié Retour à l exemple Exemple: Soit une population de 5 éléments, représentant la surface des appart en m 2 des étudiants de Master 1. 18, 20, 28, 50, 60 Supposons que l on sache à priori que les 3 premiers individus vivent seuls et que les deux derniers sont en coloc. Nous décidons que l échantillon de 2 individus doit être constitué d un représentant de chaque strate. Les échantillons possibles dans ce cas sont au nombre de 6 (chacun des 3 individus de la première strate pouvant être associé à l un des 2 autres de la seconde strate). Notons y1 et y2 les valeurs obtenues dans l échantillon. On ne peut plus faire de moyenne arithmétique simple car l unité échantillonnée dans la première strate est désignée pour en représenter 3, celle de la deuxième strate en vaut 2. Il convient alors de pondérer chaque valeur yi par le poids de la strate dont la valeur yi est issue. y s = 3 5 y 1 + 2 5 y 2 y1 18 18 20 20 28 28 y2 50 60 50 60 50 60 y^s 30.8 34.8 32 36 36.8 40.8 On vérifie bien que la moyenne des 6 sous-moyenne= 35.2, donc l estimateur y s a y pour espérance = c est donc un estimateur sans biais. Techniques d enquêtes Echantillonnage 50

Le sondage stratifié Retour à l exemple On remarque surtout que: La plage des estimations est beaucoup plus resserrée autour de la cible que dans le cas d un SAS car Les valeurs extrêmes sont moins éloignées L écart-type est plus petit Techniques d enquêtes Echantillonnage 51

Le sondage stratifié Méthode générale 1. La population étudiée N est partitionnée en h sous-populations N 1, N 2,..., N h, appelées "strates". 2. De chaque strate, nous extrayons un échantillon aléatoire simple (sans remise). 3. L'échantillon est constitué de la réunion de h sous-échantillons choisis au hasard, un par strate. Techniques d enquêtes Echantillonnage 52

Le sondage stratifié Notations Nous avons H strates de la population numérotées de 1 à H. Au sein de chaque strate h: Son effectif est égal à N h Son poids dans la population est égale à W h = N h N La moyenne estimée d une variable d intérêt Y est notée y h n h y h = 1 N h i=1 y i La variance corrigée de la variable Y est égale à s h 2 = 1 N h 1 N h k=1 (y i y h ) 2 Techniques d enquêtes Echantillonnage 53

Le sondage stratifié Estimateur de la moyenne totale On s intéresse à l estimation de Y cad la moyenne de Y dans la population mère. Soit H strates H 1, H 2,..H h. On peut en donner l'expression suivante : H N H Y = N Y h h=1 Avec N : taille de la population mère; N h : taille de la strate H; N h /N : proportion des individus dans la strate H (leur poids); Y h : Moyenne simple de Y dans la strate H de la population mère C est la somme des moyennes pondérées de chaque strate le poids représentant l importance de la strate en termes d effectif dans la population. On ne connais pas Y h mais on peux démontrer que y h l estime sans biais. (selon le même principe que pour l'échantillonnage aléatoire simple). La moyenne simple issue de l échantillon tiré dans la strate h donne une bonne estimation de la vraie moyenne dans la vraie strate de la population mère. Je peux donc exprimer un estimateur sans biais de Y noté: y = H h=1 N H N y h Avec y h : moyenne simple issue de l échantillon tiré dans la strate h. Techniques d enquêtes Echantillonnage 54

Le sondage stratifié Précision de l estimateur Il nous reste à exprimer la précision de cet estimateur de la moyenne cad en connaître sa variance. Elle s'écrit de la façon suivante : V y = H h=1 N h N. 1 f h. S 2 h n h Avec N h : proportion des individus dans la «vraie» strate (leur poids) de la population mère, N f h, le taux de sondage dans la strate h (n h /N h ); n h : taille de l échantillon dans la strate h ; S h 2 : vraie valeur de la variance Y au sein de la strate H de la population mère. On ne connaît pas S 2 2 h, mais on peut l estimer sur l échantillon. On sait que s h estime sans biais S 2 h. On peut donc obtenir un estimateur sans biais de la variance de y donné par: V y = H h=1 N h N. 1 f h. s 2 h n h Avec s h 2 : variance de y dans la strate h calculée dans l échantillon ou variance intra-classe. La précision de la moyenne ne dépend que de la variance intra-classe. Techniques d enquêtes Echantillonnage 55

Le sondage stratifié Exemple Un société compte 10000 individus répartis en: 8000 agriculteurs 2000 cadres supérieurs Nous nous intéressons au revenu moyen des membres de cette société. Un sondage est réalisé portant sur 500 personnes répartis comme ceci: 400 agriculteurs 100 cadres supérieurs On observe suite au sondage les caractéristiques suivantes: Strate 1 Strate 2 N h 8000 2000 n h 400 100 y s 124 267 V y 100 85 Techniques d enquêtes Echantillonnage 56

Le sondage stratifié Exemple Estimation de Y = N H H h=1 Y N h: Y = 8000 2000 124 + 267 = 152,6 10000 10000 Estimation de V y = N h. 1 f h. s 2 h H h=1 : N n h V y = 8000 10000 1 400 8000 100 400 + 2000 10000 1 100 2000 85 100 = 0,19 + 0,1615 = 0,3515 Techniques d enquêtes Echantillonnage 57

Le sondage stratifié Allocation proportionnelle Dans cette section on suppose que les strates sont déjà constituées. Il s agit ici de savoir comment répartir une taille d échantillon globale entre les différentes strates. Allocation proportionnelle (ou sondage stratifié proportionnel): Quand on impose un taux de sondage f = n N = n h N h = f h pour h=1,.., H Identique pour toutes les strates: Le sondage devient alors à probabilité égale puisque la probabilité de sélection d un individu quelconque de la strate h vaut f. On parle aussi d un sondage auto-pondéré, puisque tous les individus de l échantillon ont alors un poids identique (=inverse du taux de sondage f commun à toutes les strates). ex: dans un échantillon d individus stratifié par genre, les hommes et les femmes figurent au prorata de leur effectif dans la population étudiée. ex2: dans la section précédente, nous avons considéré un échantillon proportionnel de la population des «colocs» et des «solitaires». Techniques d enquêtes Echantillonnage 58

Le sondage stratifié Allocation proportionnelle -Propriétés L estimateur de la moyenne y d une population U est alors : y = 1 n H h=1 n h i=1 Y i C est donc la moyenne calculée sur l échantillon qui estime la moyenne de la population. Nous montrons, par calcul, que cet estimateur est sans biais. La variance de l estimateur V y, dans le cas d un sondage stratifié proportionnel devient alors : V y = (1 f) 1 n H h=1 N h N s² h idem: plus les strates sont homogènes (variance intra-strate faible), plus la stratification est efficace. Avantage de l allocation proportionnelle: ne dépend pas des Yi. On doit juste connaître le nh. Les gains de précision par rapport au SAS sont donc assuré quelles que soient les Y. Techniques d enquêtes Echantillonnage 59

Le sondage stratifié Allocation optimale (ou de Neyman) La répartition de Neyman, ou encore appelée la répartition optimale, consiste à respecter l égalité : n h = n N hs h H h=1 N h S h Plus une strate est hétérogène vis-à-vis de Y, plus nous utilisons un taux de sondage f important= il faut concentrer l effort là où la diversité est la plus forte, cad là où il y davantage d information à recueillir. La théorie montre que cette répartition est celle qui fournit la variance la plus faible une fois les strates déterminées. Allocation proportionnelle versus optimale: Perd en simplicité mais gains en précision. L application de la formule pour calculer la répartition de Neyman suppose connues a priori les valeurs S h. Ce peut être le cas à partir d études antérieures au sondage, mais en général il n en est pas ainsi. Le gain entre allocation proportionnelle et allocation optimale n est substantiel (que si les dispersions varient énormément d une strate à l autre). En pratique, utilisé quand le phénomène étudié a une distribution très asymétrique. Par contre, si ce phénomène a une distribution symétrique par rapport à sa moyenne, une allocation proportionnelle fournit des résultats d une qualité suffisante. Techniques d enquêtes Echantillonnage 60

Le sondage stratifié Exercice 1 Soit une population de 4 personnes pour lesquelles le caractère Y prend les valeurs suivantes : On tire des échantillons de taille 2. y 1 =2 ; y 2 =3 ; y 3 =1, y 4 =6. 1. Calculer la variance de l estimateur de la moyenne dans le cas d un sondage aléatoire simple (sans remise). 2. Une étude précédente affirme que les deux premiers individus font partis d un même groupe. Calculer la variance de l estimateur de la moyenne dans le cas d un sondage stratifié pour avec les strates U1={y 1,y 2 } et U2={y 3,y 4 } Quelle méthode vaut-il mieux préconiser? Justifiez. Techniques d enquêtes Echantillonnage 61

Le sondage stratifié Exercice 2 On cherche à estimer le poids moyen de la population européenne. On possède des informations sur la proportion de personnes selon leur indice de masse corporelle (IMC). La population est divisée en trois strates IMC faible, normal et élevé. On tire un échantillon par SAS pour chacune des strates et on obtient les résultats suivants : IMC faible IMC normale IMC élevé Pondération de la strate 0,3 0,5 0,2 Moyenne de l'échantillon en strate h 60 87 113 Vraie dispersion des poids en strate h 10 17 35 1. Calculez l estimateur stratifié de la moyenne dans la population européenne de la variable «poids moyen». 2. Cet estimateur peut-il être différent de celui d une moyenne simple? 3. Cinq ans plus tard, on suppose que la dispersion dans le poids moyen n a pas bougé. On se propose de vérifier cela en tirant un échantillon de 100 personnes sans remise. Quelle est la variance de l estimateur du poids moyen avec un sondage stratifié proportionnel? 4. Même question avec un sondage stratifié optimal pour lequel n1=50, n2=35 et n3=15 Techniques d enquêtes Echantillonnage 62

Le sondage stratifié Comparaison avec le SAS Utilisation justifiée si la population est très hétérogène L objet d étude est une partie de cette population Plutôt que de considérer cette sous-population comme un simple domaine sur lequel on ne peut pas contrôler la taille de l échantillon, on peut la faire coïncider avec une strate, et procéder dans cette strate à un SAS avec une taille d échantillon importante. L'existence d'une stratification de fait, soit pour des raisons géographiques, soit pour des raisons administratives. Pas de coûts supplémentaires, à l exception de coûts d étude pour constituer les strates (négligeable). Cela conduit même souvent une réduction des coûts d enquête ou une optimisation de la gestion de l enquête: ex: découpage selon la région critère sectoriel qui permet de spécialiser les enquêteurs Techniques d enquêtes Echantillonnage 63

Le sondage stratifié Le problème de la constitution des strates On a 3 problèmes difficiles à résoudre : 1. Quelles variables de stratification utiliser? La meilleure variable est la plus discriminante cad celle qui permet de constituer des groupes homogènes en intra, du point de vue de Y. En pratique, on cherche une variable X (âge, sexe), très corrélée à Y, de façon à ce que des groupes homogènes par rapport à X soient également homogènes par rapport à Y. Sinon résultats à peine meilleurs (voire pires) que dans l'échantillon aléatoire simple 2. Nombre de strates Intuitivement, on peut penser que le nombre de strate doit être le + grand possible parce qu'il est + facile de constituer des groupes homogènes. En réalité on est vite limité car l augmentation trop grande du nombre de strates fait diminuer la précision des estimateurs (cad fait augmenter V y car la taille de l échantillon dans chaque strate sera petit et les estimations des s h 2 seront peu précises (en pratique il faut au moins 20 observations par strate). Techniques d enquêtes Echantillonnage 64

Le sondage stratifié Le problème de la constitution des strates-suite 3. Les limites des strates (pour les variables quantitatives) C est la question la plus délicate. Le traitement mathématique est très compliqué et la solution est le + souvent qualitative, dictée par des considérations et connaissances sur le domaine étudié. Dans la pratique, ce sont souvent des variables qualitatives qui servent à la stratification : sexe, CSP, diplôme etc. Deux types de considérations vont conduire au choix des critères de stratification : 1. disponibilité des critères dans la base de sondage ; 2. pertinence des différents critères pour créer des strates homogènes. Ceci nécessite une connaissance soit intuitive, soit venant d études réalisées antérieurement. Techniques d enquêtes Echantillonnage 65

Le sondage stratifié En résumé Le sondage stratifié est basé sur le principe de : forcer le hasard imposer à l échantillon de représenter la population strate par strate. Une stratification peut être : très efficace pour l étude d un phénomène, par exemple la mortalité, très peu efficace pour l étude d autres phénomènes, par exemple l activité économique. Cette situation se présente avec une acuité particulière lorsqu un échantillon est destiné à des études à objectifs multiples. Plus nous multiplions les strates, plus le gain d efficacité devient faible. De plus, les résultats calculés au niveau de chaque strate ne sont plus significatifs en raison de la petite taille de l échantillon Techniques d enquêtes Echantillonnage 66

Partie 5 Sondages à plusieurs degrés

Sondage à plusieurs degrés Justification et principes Le sondage aléatoire simple présente 2 inconvénients majeurs : lorsque chaque individu tiré est associé à un coût de déplacement pour pouvoir réaliser l interview, la dispersion géographique des individus amène à un coût prohibitif de l enquête. implique l'utilisation de bases de sondage étendues (par ex toute la population française) pas forcément disponibles et lourdes à gérer. Pour contourner ces difficultés on utilise le sondage à plusieurs degrés qui fonctionne ainsi : On constitue une partition de la population en groupes d individus disjoints (ex: population de chaque département) et dont la réunion constitue la population entière. Chaque groupe est une «unité d échantillonnage» ou encore «unités primaires» notées UP. On effectue un premier tirage aléatoire simple dans ces UP. Chaque unité primaire sélectionnée est divisée en unités secondaires US. On peut effectuer un second tirage au hasard dans chaque unité primaire, pour obtenir les unités secondaires, etc On peut renouveler le processus autant de fois que nécessaire. Il s agit donc d une succession de regroupements des unités statistiques pour tirer l échantillon. Exemple d échantillons à deux degrés: On tire un échantillon de villes. Puis on tire, parmi les villes sondées, un échantillon de ménages. On peut bien sûr généraliser à 3 degrés, à 4 degrés,... Techniques d enquêtes Echantillonnage 68

Sondage à plusieurs degrés Principes 1 er degré Unités premières 2 ème degré Unités secondaires Individus Techniques d enquêtes Echantillonnage 69

Sondage à plusieurs degrés Justifications Attention à l utilisation du nom sondage par grappes. Cette expression doit être réservée au cas particulier du sondage à plusieurs degrés où l ensemble des unités au dernier degré de tirage est enquêté. Quand utiliser ce type de sondage? Exemple: On veut étudier 2 000 ménages en France (27 millions de ménages, 36000 communes). Même si on dispose d une bonne base de sondage (liste des villes avec une estimation de leur population), élaborer une liste des ménages au niveau national en visitant chaque ville serait une tâche gigantesque. En plus, les ménages de l échantillon seraient géographiquement extrêmement dispersés. D où un temps énorme perdu en déplacements. (coûts de l enquête prohibitifs). Techniques d enquêtes Echantillonnage 70

Sondage à plusieurs degrés Avantages Cette méthode a 3 grands avantages : permet une exécution rapide et moins coûteuse de l'enquête car le principe du tirage en cascade focalise les interviews sur une zone géographique. on peut plus facilement constituer une bonne base de sondage sur des unités géographiques restreintes (par ex, recenser le nombre de ménages dans les communes plutôt que sur toute la France)=base de sondage partielle. Permet de constituer un réseau fixe d enquêteurs sur place Globalement, on réalise des économies de temps de frais de déplacement (au niveau du travail des enquêteurs). Techniques d enquêtes Echantillonnage 71

Sondage à plusieurs degrés Inconvénients La contrepartie est que ce type de sondage est moins précis que le sondage aléatoire simple. Le mécanisme qui forme le cœur de cette imprécision est le suivant : dans la grande majorité des cas, les individus qui forment les UP ont de fortes chances d être semblables par rapport à la variable d intérêt Y: on parle alors d effet de grappe. Le tirage au second degré perd de sa «représentativité» car il consiste, en caricaturant, à recueillir plusieurs fois la même information auprès des individus de l unité primaire. Il y a une sorte de redondance d information au sein des unités constituées à chaque degré. On montre que la majeure partie de la variance des estimateurs dans le cas des tirages à plusieurs degrés provient souvent du premier degré de tirage. Techniques d enquêtes Echantillonnage 72

Sondage à plusieurs degrés Les limites Techniques d enquêtes Echantillonnage 73

Sondage à plusieurs degrés Les limites Techniques d enquêtes Echantillonnage 74

Sondage à plusieurs degrés Exemples La pratique des sondages à plusieurs degrés est très largement répandue. Elle est motivée par la nature des données à recueillir, des considérations de coût ou de faisabilité, la mauvaise qualité ou l inexistence des bases de sondage. Premier exemple : Études médicales. Certaines études sont réalisées auprès d échantillons de médecins qui sont considérés, pour l enquête, comme des grappes de patients (donnent tout ou une partie de leur patientèle, effet de grappe médecin) ou de prescriptions. Des recherches effectuées pour analyser l évolution du SIDA et, plus généralement, des MST, ont été basées sur des laboratoires d analyses médicales, grappes d actes et analyses. Autre exemple : Sondages électoraux. On connaît les estimations établies par les instituts de sondage, les soirs de consultations électorales. Il s agit généralement de sondages sortie des urnes réalisés auprès d électeurs à la sortie de bureaux de vote. Il s agit de sondages à deux degrés, le premier degré consistant à choisir les bureaux de vote où opéreront les enquêteurs. Techniques d enquêtes Echantillonnage 75

Sondage à plusieurs degrés Notations Pour simplifier, on se place essentiellement dans le cas du sondage à 2 degrés, et de tirage aléatoire simple au sein de chaque degré. On utilisera les notations suivantes : Les N unités de la population sont réparties en M sous-ensembles, appelés Unités primaires (UP) : N dans la population ( = 1,..., N) M dans l unité primaire ( = 1,..., M) Chaque UP i contient N i unités de la population, appelées Unités secondaires (US) : m dans l échantillon pour l unité secondaire (j = 1,..., m). Lors d un sondage par grappes, on prend un échantillon de m UP, l US i de l échantillon étant totalement enquêtée (cas particulier). n tirées dans l échantillon (i = 1,..., n). Techniques d enquêtes Echantillonnage 76

Sondage à plusieurs degrés Estimateurs de la moyenne (Horvitz-Thompson) N= taille pop mère M=taille unités primaires m=taille échantillon unité primaire ni=taille échantillon unité secondaire Estimateurs de la moyenne: Y π = 1 N iεs n i Y i m M = M Nm Il s agit de la moyenne des échantillons, pondérées par le taux de sondage des unités primaires =(m/m) et secondaires (ni/n) Précision de la moyenne: var Y π = M m m 1. M m. i s iεs Y i n i N n i Y i Y π M 2 On a une expression qui fait apparaître des termes du type (1-taux de sondage) dans les unités primaires et (1-taux de sondage) dans les unités secondaires (n i /N i ). Une dispersion des totaux au niveau considéré divisé par les tailles d échantillon Techniques d enquêtes Echantillonnage 77

Sondage à plusieurs degrés Exercice 1 Sur les bords de plages de Bali on compte 45 villages, chacun de taille variable. On cherche à estimer le nombre moyen de chambre d hôtels sur l île. Pour cela, on sélectionne 3 villages par sondage aléatoire simple sans remise, et on interroge tous les hôtels qui y résident. On sait, en outre que 10000 chambres sont disponible dans l île. Les résultats de l enquête sont les suivants : Numéro du village Nombre d'hôtels dans le village Nombre total de chambres dans le village 1 160 1500 2 80 3000 3 40 1200 1. Estimer le nombre moyen et le nombre total de chambres dans l île. 2. Estimer la variance de l estimateur de la moyenne. Techniques d enquêtes Echantillonnage 78

Sondage à plusieurs degrés Précision Rappelons que l'objectif est d'obtenir une petite valeur de la variance de t. Première règle pour l échantillonnage que permet l analyse de la variance : si on augmente m (taille de l'échantillon des UP) sans toucher aux n i (taille de l'échantillon des US) on diminue à la fois A (numérateur) et B (dénominateur). Si on augmente que n i sans toucher à m, on ne diminue que B. Autrement dit, à taille d échantillon globale fixée il est presque toujours préférable de choisir m maximum et n i minimum. Toutefois, la marge de manœuvre peut se trouver réduite par les contraintes budgétaires (il est plus coûteux d enquêter un nombre élevé d UP). Techniques d enquêtes Echantillonnage 79

Sondage à plusieurs degrés Précision Second élément que l'on peut considérer : s 1 2 et s 2 2. On sait que la variance totale d une variable donnée est égale à la somme de 2 variances s = s 1 2 + s 2 2 s 1 2 : dispersion entre les UP i (variance inter-classe) s 2 2 : dispersion à l intérieur des UP i (variance intra-classe) s est une grandeur fixe, si 1 élément est petit, l autre est grand. Il me faut donc choisir laquelle de ces 2 variances est la plus explosive et que je dois impérativement minimiser pour avoir une variance totale faible. Dans la plupart des populations courantes et pour la plupart des variables traitées la dispersion des totaux s 1 2 entre les différentes UP est le terme qui peut facilement prendre des valeurs numériques élevées. Elle doit être contrôlée en priorité. Pour que cette valeur soit petite il faut que les totaux de la variable Y dans les différentes UP soient proches. Trois règles d'échantillonnage pour cela : Des UP de taille faible Des UP de taille voisine. Par exemple vous pouvez avoir des tailles de population très différentes dans les départements. Des UP de comportement moyen semblable. Techniques d enquêtes Echantillonnage 80

Sondage aréolaire : un cas particulier de l échantillon à plusieurs degrés Principe L échantillon aréolaire n est pas issu directement d un tirage d individus ou de ménages dans une liste mais d un tirage d aires géographiques dans lesquelles on interrogera tous les individus ou ménages présents. Il faut donc fabriquer des «unités de tirage» destinées à être échantillonnées. Pour ce faire il faudrait découper l ensemble du territoire en aires de taille équivalente. Techniques d enquêtes Echantillonnage 81

Sondage aréolaire : un cas particulier de l échantillon à plusieurs degrés Etapes Etape 1: constitution de l échantillon des UP à partir de découpages géographiques existants (régions, département, commune etc). Caractéristiques à respecter : ne pas être trop grandes, pour que la charge de découpage à l intérieur de ces unités ne soit pas trop lourde ; à l inverse, ne pas être trop petites, pour que l on puisse y trouver au moins autant d aires secondaires que l on en a besoin. Etape 2: Découpage des unités primaires en unités secondaires et tirage des US Une US est délimitée par des éléments facilement repérables visuellement : des rues, des routes, des voies ferrées, des cours d eau, etc. L'US correspond non pas à des critères administratifs mais à un critère physique (bâtiment, rue, pâté de maison, quartier). Une fois le découpage en US réalisé, un tirage des US est effectué A l intérieur des US, toutes les unités d échantillonnage de base (logements, écoles, entreprises etc) font partie de l échantillon et sont donc interviewées. Type de sondage très utilisé dans les PVD et par les démographes notamment Techniques d enquêtes Echantillonnage 82

Sondage aréolaire Avantages et inconvénients L échantillon aréolaire présente les mêmes avantages que l échantillon à plusieurs degrés: L absence de base de sondage complète et à jour y compris au dernier niveau. la plus grande concentration géographique des interviews permet un gain de temps et de coût pour la collecte, qui rend possible la réalisation d une enquête de grande ampleur ; Il a des avantages spécifiques l obtention d un meilleur taux de réponse que dans les enquêtes où les unités d échantillonnage ne sont pas tirées par grappes. On observe en général un effet d entraînement positif entre les ménages d une même aire. L effet d entraînement négatif est beaucoup plus rare ; le ratissage du territoire exhaustif de l aire facilite le repérage des unités «marginales» et devrait éviter la sous-estimation de certaines catégories de personnes. En contrepartie, l'échantillon aréolaire présente quelques inconvénients : La construction de la base de sondage aréolaire demande un long travail de préparation. Le découpage représente un travail lourd et coûteux s il ne suit pas des divisions administratives existantes. il faut être sûr de pouvoir découper des aires ayant des densités de population (ménage, écoles, entreprises) équivalentes pour éviter la sur-représentation de certaines zones. Techniques d enquêtes Echantillonnage 83

Combinaison de plans de sondage Grappes + Stratification Le phénomène d effet de grappe fait qu à nombre d individus égal, un sondage à plusieurs degrés est moins précis qu un SAS. Il reste que la concentration des observations est un facteur de réduction des coûts (ex: déplacement des enquêteurs). Enfin, il n y a souvent pas d autres solutions lorsque la base de sondage est défaillante. C est la situation la plus fréquente dans le domaine d études auprès des ménages ou d individus: Etudes de comportement, Etudes de marché Etudes d opinion, Mesures d audience, etc Exemples: Etudes de satisfaction des passagers de compagnies aérienne : stratification selon le type de vol (les périodes, les horaires sont plus ou moins loisir vs business) et les faisceaux (Asie, Europe, ) Une fois cette stratification opérée, les vols sont des grappes de passagers. Etudes de marché: en général, stratification région x catégorie d agglomération puis tirage des unités secondaires (iris/ilot, ) proportionnel à la taille. Les instituts privés font à la différence de l INSEE (du fait de l absence de base de sondage) la dernière étape par quotas : de 10 personnes par point de chute À partir d une feuille de quotas. Techniques d enquêtes Echantillonnage 84