Chapitre 2 Echantillonnage. Delphine Boutin

Documents pareils
STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

La nouvelle planification de l échantillonnage

Probabilités sur un univers fini

Probabilités sur un univers fini

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Chapitre 3 : INFERENCE

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Moments des variables aléatoires réelles

Probabilités conditionnelles Loi binomiale

CONSOMMATION INTERTEMPORELLE & MARCHE FINANCIER. Epargne et emprunt Calcul actuariel

Théorie des sondages : cours 5

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Exo7. Probabilité conditionnelle. Exercices : Martine Quinio

Relation entre deux variables : estimation de la corrélation linéaire

23. Interprétation clinique des mesures de l effet traitement

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Chapitre 3. Les distributions à deux variables

Probabilités. C. Charignon. I Cours 3

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

La valeur présente (ou actuelle) d une annuité, si elle est constante, est donc aussi calculable par cette fonction : VA = A [(1-1/(1+k) T )/k]

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Probabilités III Introduction à l évaluation d options

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Arithmétique binaire. Chapitre. 5.1 Notions Bit Mot

Probabilités Loi binomiale Exercices corrigés

Chapitre 2 Le problème de l unicité des solutions

Probabilités conditionnelles Exercices corrigés

Séance 4. Gestion de la capacité. Gestion des opérations et de la logistique

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

CONCEPTION ET TIRAGE DE L ÉCHANTILLON

Représentation des Nombres

Annexe commune aux séries ES, L et S : boîtes et quantiles

Fonctions de plusieurs variables

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Les indices à surplus constant

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Analyse de la variance Comparaison de plusieurs moyennes

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Estimation et tests statistiques, TD 5. Solutions

Tableau de bord des communautés de l Estrie DEUXIÈME ÉDITION INDICATEURS DÉMOGRAPHIQUES ET SOCIOÉCONOMIQUES

1 Complément sur la projection du nuage des individus

La classification automatique de données quantitatives

Leçon N 4 : Statistiques à deux variables

Principe d un test statistique

Les Français et les nuisances sonores. Ifop pour Ministère de l Ecologie, du Développement Durable et de l Energie

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

CAC, DAX ou DJ : lequel choisir?

Programmes des classes préparatoires aux Grandes Ecoles

Continuité en un point

Primaire. analyse a priori. Lucie Passaplan et Sébastien Toninato 1

I. Cas de l équiprobabilité

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

PRIME D UNE OPTION D ACHAT OU DE VENTE

Analyse des coûts. 1 ère année DUT GEA, 2005/2006 Analyse des coûts

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Groupe symétrique. Chapitre II. 1 Définitions et généralités

Item 169 : Évaluation thérapeutique et niveau de preuve

Les principales méthodes d évaluation

La mesure de Lebesgue sur la droite réelle

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Tests paramétriques de comparaison de 2 moyennes Exercices commentés José LABARERE

Comment va la vie en France?

Le WACC est-il le coût du capital?

Coefficients binomiaux

Chapitre 2/ La fonction de consommation et la fonction d épargne

t 100. = 8 ; le pourcentage de réduction est : 8 % 1 t Le pourcentage d'évolution (appelé aussi taux d'évolution) est le nombre :

La fumée de tabac secondaire (FTS) en Mauricie et au Centre-du- Québec, indicateurs du plan commun tirés de l ESCC de

Eteindre. les. lumières MATH EN JEAN Mme BACHOC. Elèves de seconde, première et terminale scientifiques :

données en connaissance et en actions?

Cet article s attache tout d abord

TSTI 2D CH X : Exemples de lois à densité 1

Comparaison de fonctions Développements limités. Chapitre 10

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Feuille d exercices 2 : Espaces probabilisés

DÉCISIONS À PRENDRE AVANT DE COMMENCER

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

MATHÉMATIQUES. Mat-4104

Raisonnement par récurrence Suites numériques

L écart salarial entre les femmes et les hommes en Belgique

Document d orientation sur les allégations issues d essais de non-infériorité

Indépendance Probabilité conditionnelle. Chapitre 3 Événements indépendants et Probabilités conditionnelles

Santé des TPE face à la crise

TEST DE DÉPISTAGE DE L IMMUNITÉ CONTRE LE

LE GRAND ÉCART L INÉGALITÉ DE LA REDISTRIBUTION DES BÉNÉFICES PROVENANT DU FRACTIONNEMENT DU REVENU

Baccalauréat ES Antilles Guyane 12 septembre 2014 Corrigé

Sommaire. Rentabilité du retour d une franchise de baseball de la Ligue majeure de baseball à Montréal (les «Expos»)

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

FONDEMENTS MATHÉMATIQUES 12 E ANNÉE. Mathématiques financières

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Programmation linéaire

Exercices de dénombrement

M2 IAD UE MODE Notes de cours (3)

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

Chaînes de Markov au lycée

LES COÛTS PRÉÉTABLIS ET LES ÉCARTS TOTAUX

Transcription:

Chapitre 2 Echantillonnage Delphine Boutin delphine.boutin@udamail.fr

Introduction Deux grandes étapes lorsqu on réalise un plan de sondage: La méthode d échantillonnage: processus choisi pour tirer l échantillon. Les infos les plus fondamentales (car utilisées pour les estimateurs) concernent les valeurs des probabilités de tirage de chaque individu. Selon la méthode utilisée, ces probabilités sont calculables pour chaque individu. L expression de l estimateur: formule d estimation de θ. Pour une même méthode d échantillonnage, il existe de nombreuses formules d estimateur, et inversement. Le plan de sondage dépend: Du biais/ De la variance Du budget De la disponibilité des information adéquate Techniques d enquêtes Echantillonnage 2

Introduction Typologie des classes de sondages Deux classes de sondages: Méthode aléatoire ou probabiliste: chaque individu de la population a une probabilité donnée, connue d avance, d appartenir à l échantillon, dite probabilité d inclusion ou de sélection. Le sondage aléatoire simple La stratification Le sondage par grappes Le sondage à plusieurs degrés Avantages: calcul des probabilités et de la précision des estimateurs. Rigueur de la formalisation mathématique Méthodes empiriques ou «à choix raisonné», qui ne permettent pas de calculer ces probabilités d inclusion. Méthode des unités types Méthode des quotas Avantages: Absence de base de sondage. Aspect qualitatif Moins de budget Techniques d enquêtes Echantillonnage 3

Introduction Propriétés des estimateurs Estimateurs: Forme de l estimateur: θ = W i s. Y i iεs Avec W i s le poids de sondage attaché à l individu i pour le sondage s. Propriétés des estimateurs θ: Soit une moyenne, soit une proportion, soit un total Les pondérations utilisées dépendent de l échantillon Techniques d enquêtes Echantillonnage 4

Introduction Probabilité de sélection P i Probabilité de sélection : Pour tout sondage de taille fixe n, d une population N: Avec: N i=1 p i = p i = n i s L individu i est sélectionné au terme de l opération= tirage d un des échantillons contenant i parmi tous les échantillons possibles. Par csq, la probabilité de sélectionner i (=P i ) est la probabilité de tirer l un de ces échantillons contenant i. p(s) Techniques d enquêtes Echantillonnage 5

Introduction Probabilité de sélection P i -suite Exemple: On tire 2 individus dans une population de 4 personnes sans remise ( n=2 et N=4). s 1 ={1,2} s 3 ={1,4} s 5 ={2,4} s 2 ={1,3} s 4 ={2,3} s 6 ={3,4} Parce qu on juge que l individu 1 est particulièrement coopératif, on veut lui donner une probabilité de tirage supérieure. Les probabilités de tirage sont les suivantes: p(s 1 )=0,25 p(s 3 )=0,2 p(s 5 )=0,1 p(s 2 )=0,25 p(s 4 )=0,1 p(s 6 )=0,1 P 1 = p s 1 + p s 2 + p s 3 = 0,7 P 2 = p s 1 + p s 4 + p s 5 = 0,45 P 3 = p s 2 + p s 4 + p s 6 = 0,45 P 4 = p s 3 + p s 5 + p s 6 = 0,4 On vérifie bien que P 1 + P 2 + P 3 + P 4 =n=2 Techniques d enquêtes Echantillonnage 6

Introduction Probabilité d inclusion Tirages équiprobables: Consiste à tirer dans une population de taille N un échantillon de taille fixée n, sans remise, de façon à ce que chaque individu ait la même probabilité d inclusion. P i est constant et vaut: P i = n N avec n N représentant le taux de sondage. n i=1 p i = n et pi jamais nul Tirages à probabilité inégale: Tirage où les individus ont une probabilité inégale d être tiré (ex: un individu i a 4 fois plus de probabilité d être tiré qu un individu j). Tenir de cette dissymétrie au niveau de l estimateur: si on donne plus d importance à l individu i dans le tirage, on lui en donne moins dans l expression de l estimateur de façon à rétablir l équilibre très concrètement on pondère chaque individu par l inverse de sa probabilité d inclusion. P i sera un nombre quelconque, strictement compris entre 0 et 1 (strictement supérieur à 0) choisi par le sondeur de façon à respecter n i=1 p i = n pour un échantillon de taille fixe n Techniques d enquêtes Echantillonnage 7

Introduction Rappels statistiques Propriétés de l espérance: E ax = a E X E X + Y = E X + E(Y) Propriétés de la variance: V ax = a 2 V X V X + Y = V X + V Y + 2Cov X, Y Cov X, Y = E X E X (Y E Y ) Techniques d enquêtes Echantillonnage 8

Partie 1 Taille de l échantillon

Taille de l échantillon La question la plus fondamentale et la plus importante Le choix de la taille d échantillon doit établir un équilibre entre: Ce qui est exigé du point de vue de la précision de l échantillonnage, Ce qui est réalisable du point de vue de l application pratique (ex.: budget, personnel de terrain et administratif, ressources techniques, contrôle de qualité, contraintes temporelles, gérabilité, pérennité). Techniques d enquêtes Echantillonnage 10

Taille de l échantillon Echantillonnage et estimateurs Techniques d enquêtes Echantillonnage 11

Taille de l échantillon Echantillonnage et estimateurs Des deux échantillons, on préfère le plus représentatif (justesse de l estimateur) Techniques d enquêtes Echantillonnage 12

Taille de l échantillon Echantillonnage et estimateurs Des deux, le premier est le plus large (mais pas forcément le plus représentatif) Techniques d enquêtes Echantillonnage 13

Taille de l échantillon Justesse et précision Randomisation: permet de déterminer l effet causal i.e. élimine les biais d endogénéité et définit la justesse de l estimateur mais elle n élimine pas le bruit dans les données Taille d échantillon: permet alors d ajuster le degré de précision Les deux sont utiles, comme l ont montré les dessins: un estimateur peut mesurer l effet juste...sans précision, et donc le manquer un estimateur peut être précis...mais faux Techniques d enquêtes Echantillonnage 14

Taille de l échantillon Justesse et précision Techniques d enquêtes Echantillonnage 15

Taille de l échantillon La loi des grands nombres Taille d échantillonnage et précision: une illustration Valeur espérée du tirage d un dé: 1 6 1 + 1 6 2. = 3,5 Empiriquement: si on tire un dé, distribution uniforme 1/6 chance pour chaque valeur Si on tire deux dés, 36 permutations et la moyenne des deux dés vaut: 1 (dés:1+1) avec une proba de 1/36 1.5 (dés: 1+2 ou 2+1) avec une proba de 2/36 3.5 (1+6, 2+5 etc) avec une proba de 6/36=1/6 Regardons les graphs de cette distribution empirique (distribution des moyennes empiriques) Techniques d enquêtes Echantillonnage 16

Taille de l échantillon La loi des grands nombres Techniques d enquêtes Echantillonnage 17

Taille de l échantillon La loi des grands nombres Techniques d enquêtes Echantillonnage 18

Taille de l échantillon La loi des grands nombres Techniques d enquêtes Echantillonnage 19

Taille de l échantillon Loi des grands nombres et théorème central limite Plus on tire de fois, plus on a de moyennes empiriques proches de la moyenne théorique la distribution des moyennes empiriques est plus resserrée, moins dispersée autour de la vraie valeur quand on augmente, on tend vers la vrai valeur: c est la loi des grands nombres Plus on tire de fois, plus la distribution empirique est en cloche, i.e. suit une loi normale c est le théorème central limite il permet de faire des tests statistiques basés sur les propriétés de la loi gaussienne Techniques d enquêtes Echantillonnage 20

Taille de l échantillon Forte contrainte de coûts Etape importante: déterminer le nombre d entretien à passer. Si forte contrainte de coût (= si on ne dispose pas d un budget illimité): Si C est le budget total de l enquête dont on dispose, et c le coût unitaire total attaché à un questionnaire ou une interview (formation de l enquêteur, passage de l enquête, saisie des données etc), alors la taille de l échantillon est donnée par : n = C c. Par précaution, on tire toujours un nombre d unités supplémentaires qui constituent une réserve. Il est en général quasi-impossible de recueillir les réponses de l ensemble des personnes faisant partie de la liste d enquête. Cette réserve est destinée, par exemple, à se prémunir contre des difficultés ultérieures de collecte : zones difficiles à enquêter du fait de refus massifs et de la baisse du taux de réponse remplacements liés à des causes diverses (déménagement récent, décès récent, impossible à joindre etc). Il est nécessaire de prévoir un échantillon plus large en prévision de ces manques. Techniques d enquêtes Echantillonnage 21

Taille de l échantillon Faible contrainte de coûts Si faible contrainte de coût (= si on dispose d un budget illimité): Si prêt à faire un effort (budgétaire) pour obtenir une précision souhaitée à priori avec une certaine marge d erreur. Dans ce cas, la requête est connaître θ à une certaine marge d erreur près et avec 95 chances sur 100 de ne pas faire d erreur d encadrement. On trouve 1 n = N. 1 + NL2 4S 2 Avec n : taille de l échantillon; N : taille de la population mère; L : marge d erreur (de 0,1 à 0,005) et S 2 : Variance de Y dans la population mère. Malheureusement, S 2 est un paramètre inconnu. On peut estimer S 2 à partir d une autre enquête concernant le même sujet d une autre enquête portant sur une variable Z corrélée à Y de conseils «d experts» d un premier petit échantillon qui permette de calculer S 2 que l on complète ensuite en fonction de la valeur n à atteindre. Techniques d enquêtes Echantillonnage 22

Taille de l échantillon Faible contrainte de coûts-suite Une autre façon de procéder est de partir de la proportion (connue ou supposée, estimée) des éléments de la population-mère qui présentent une propriété donnée. Avec: On obtient la formule suivante : n = taille de l'échantillon attendu. n = t2 p(1 p) L 2 t = Seuil de confiance (ou Niveau de confiance ou encore Taux de confiance) que l on souhaite garantir sur la mesure (t=1,96 pour un taux de confiance de 95%). p= proportion estimée de la population présentant la caractéristique étudiée L = marge d'erreur (traditionnellement fixée à 5%). Malheureusement, on ne connaît pas p. La seule solution dans ce cas est d en donner une estimation «à priori» soit à partir d une enquête portant sur le même sujet mais réalisée dans le passé, soit à partir de conseils d experts, soit réaliser une pré-étude. Techniques d enquêtes Echantillonnage 23

Partie 2 Test et puissance statistique

Tests et puissance statistique Précision des estimateurs Une estimation économétrique ou un RCT nous donne l estimateur la variance ou l écart-type σ La randomisation de l échantillon garantit un estimateur cohérent et sans biais Cependant, l erreur d échantillonnage peut conduire à une inférence fausse: on veut que l enquête (ou le RCT) soit informative: que l effet mesuré ne dépende pas du tirage réplication: pb si notre estimateur prend une valeur différente avec un autre échantillon, ce qui arrive moins fréquemment si σ est petit Techniques d enquêtes Echantillonnage 25

Tests et puissance statistique Comparaison de deux proportions On considère deux (sous-)populations P 1 et P 2. Leurs individus ont ou n ont pas le caractère C. On souhaite comparer p 1 = P 1 (C) et p 2 = P 2 (C), les proportions d individus avec C dans P 1 et P 2. Echantillonnage et estimation On prend un échantillon aléatoire E 1 de taille n 1 dans P 1 ; On prend un échantillon aléatoire E 2 de taille n 2 dans P 2. Table de comptages: Fréquences relatives (estimations de p 1 et p 2 ): p 1 = n 11 n1 et p 2 = n 21 n2 Techniques d enquêtes Echantillonnage 26

Tests et puissance statistique Comparaison de deux proportions Inférence =transfert des résultats de l échantillon à la population: Techniques d enquêtes Echantillonnage 27

Tests et puissance statistique Comparaison de deux proportions Les vraies valeurs de p 1 et p 2 sont inconnues; on formule donc une hypothèse: H 0 : p 1 = p 2 Règle de décision ou test statistique pour rejeter ou accepter H0 en s appuyant sur p 1 et p 2 et la mesure d écart standardisé: (p 1 p 2 ) z = p (1 p )( 1 n 1 + 1 n 2 ) Où p est une estimation de la probabilité de C commune à P 1 et P 2 : p = n 11 + n 12 n 1 + n 2 Techniques d enquêtes Echantillonnage 28

Tests et puissance statistique Erreurs de type I et de type II Deux types d erreurs sont possibles: Erreur de type I: rejeter une hypothèse nulle bonne = rejeter H0 quand H0 est vrai la plus sérieuse erreur qu on puisse faire déclarer que les deux proportions sont inégales = rejeter l échantillon si RCT: H0= le programme n a pas d effet erreur de type I conduit à dépenser des ressources sur l extension du programme alors qu il n y a pas d effet réel. Erreur de type II: accepter une hypothèse nulle mauvaise manquer l effet (possiblement petit) Techniques d enquêtes Echantillonnage 29

Tests et puissance statistique Erreur de type 1= si le véritable effet est p1=p2 Techniques d enquêtes Echantillonnage 30

Tests et puissance statistique Erreur de type 2: manquer l effet Plus est grand, plus on se prémunit contre cette dernière situation Mais ne risque-t-on pas alors de manquer un effet (possiblement petit)? un effet par exemple compris entre t 95% σ et t 99.5% σ? ce risque diminue avec σ : avec un σ faible, on resserre l intervalle de confiance autour de la vrai valeur Erreur de Type II: manquer l effet rejeter H1 quand H1 est vrai ou: accepter "pas d effet" H0 quand H0 faux: il y a un effet non nul on note β la probabilité de cette erreur i.e. de manquer l effet Techniques d enquêtes Echantillonnage 31

Tests et puissance statistique Arbitrage Puissance d un test Π = 1 β proba de détecter l effet (ou de rejeter H0 quand H0 faux) la puissance d un estimateur (ou d un RCT) mesure la confiance entre notre capacité à détecter un effet existant un niveau conventionnel est P = 80%, i.e un risque de "louper" l effet de β= 20% Schéma suivant: l arbitrage entre erreur de type I (trouver un effet inexistant) et la puissance (manquer un effet existant) Techniques d enquêtes Echantillonnage 32

Tests et puissance statistique Arbitrage Techniques d enquêtes Echantillonnage 33

Partie 3 Sondage aléatoire simple

Le sondage aléatoire simple (SAS) Présentation Modèle de référence, modèle le plus simple Procédure de tirage aléatoire d une fraction de la population: Dans un échantillon aléatoire simple, on extrait n individus d'une population de taille N. La taille n est fixée et le tirage est sans remise à partir des seuls identifiants. Tous les individus ont la même chance d être sélectionnés, et ce sans information auxiliaire. Attribue à chaque échantillon s de taille n susceptible d être formé, la même probabilité de sélection p(s). Cette p(s) est égale à l inverse du nombre d échantillons distincts que l on peut constituer dans la population Techniques d enquêtes Echantillonnage 35

Le sondage aléatoire simple (SAS) Probabilité d inclusion et pondération Calcul de la probabilité d inclusion/taux de sondage: Le SAS est un sondage particulier puisque les Pi sont constantes: P i = n/n Cette grandeur s appelle un taux de sondage Peut se retrouver avec les dénombrements P i = p s = s i C n 1 N 1 =n/n Toutes les combinaisons de n éléments parmi les N de la population sont réalisables avec la même probabilité. Chaque élément a la même chance que les autres d être sélectionné. Les pondérations équivalent à l inverse du taux de sondage: W i s = 1 P i = N n Elles ne dépendent ni de i, ni de s : chaque individu de l échantillon représente N/n individus de la population. Ces résultats sont intuitifs: si on sonde avec un taux de sondage de 5% (un individu sur 20), le SAS par construction doit donner un échantillon 20 fois plus petit avec à peu près les mêmes caractéristiques. Techniques d enquêtes Echantillonnage 36

Le sondage aléatoire simple (SAS) Expression des estimateurs En pratique, on ne s'intéresse qu'à l'estimation de paramètres ayant la forme d'une moyenne, d'une proportion ou d'un total. On note y la moyenne simple des y i calculée sur l échantillon tiré. On peut montrer que l estimateur y est un estimateur sans biais de y, autrement dit que la moyenne de Y calculée sur l échantillon est une bonne mesure de la vraie moyenne: y = 1 n n i=1 p s y i n Cet estimateur est donc sans biais puisque E(y) = y, car i=1 p s = 1 Techniques d enquêtes Echantillonnage 37

Le sondage aléatoire simple (SAS) Précision des estimateurs Un biais nul n'est pas un critère infaillible de qualité. Ce qui compte, c'est la précision. Dans un sondage aléatoire simple, la variance de l estimateur y s écrit: V y = 1 f. S2 n Avec : n le nombre d'individus dans l'échantillon f le taux de sondage (n/n) S 2 la vraie variance de la variable Y dans la population mère. C est une mesure de dissimilarité entre les individus. S 2 = 1 N 1 N i=1 Y i Y 2 y l estimation de la moyenne de Y à partir de l échantillon. Techniques d enquêtes Echantillonnage 38

Le sondage aléatoire simple (SAS) Précision des estimateurs: taille de l échantillon Pour obtenir une estimation précise de la moyenne, cad que V y soit petit,, il faut que le numérateur soit petit et/ou que le dénominateur soit grand, et/ou que (1-f) qui est le facteur multiplicatif soit petit c'est-à-dire f grand. On peut donc jouer théoriquement sur 3 grands paramètres: 1. une taille de l'échantillon grande: plus l échantillon est grand, plus on peut avoir confiance dans l estimation qui en résulte. Intuitivement, on sent bien que plus on se rapproche du recensement et plus l erreur d échantillonnage sera faible. On peut noter que la variance est proportionnelle à 1/n donc l écart type sera proportionnel à 1 n. Ceci veut dire qu une précision 2 fois meilleure (pour diviser l écart-type par 2) il faut 4 fois plus de questionnaires, et pour une précision 10 fois meilleure il faut un échantillon 100 fois plus grand. En général la taille de l'échantillon est fixée par le budget. 2. Le taux de sondage f (=n/n): On ne peut que très rarement agir, en pratique, sur cette condition. Le taux de sondage est toujours compris entre 0 et 1. S il se rapproche de 1 on se rapproche du recensement et il y a de moins en moins d imprécision. Techniques d enquêtes Echantillonnage 39

Le sondage aléatoire simple (SAS) Précision des estimateurs: dispersion de la population 3. La dispersion de la population: Dans une population peu dispersée, toutes les valeurs de la variable Y seront proches de la moyenne. Si tous les individus sont identiques en Y cad si Y i = constante = Y alors S 2 =0 et V y = 0. Il suffirait d interroger un seul individu pour avoir toute l information et la précision est maximale. Dans la réalité les populations sont hétérogènes= plus les individus sont différents les uns des autres en Y, plus les valeurs de la variable Y sont éloignées de la vraie moyenne, et V y est grande. Dans ce cas, l estimateur est très sensible à l échantillon tiré et si le hasard fait mal les choses, le risque est grand que la moyenne de l'échantillon s'écarte fortement de celle de la population. On ne connaît pas S 2. On peut l estimer à partir des données de l échantillon que l on notera : s 2 = 1 n 1 n i=1 (y i y) 2 On peut montrer que s 2 est la variance de l échantillon qui estime sans biais S 2 (revient à dire que la dispersion de Y dans l'échantillon est proche de la vraie dispersion de Y dans la population mère). On peut alors écrire la variance estimée de V y = 1 f. s2 n Techniques d enquêtes Echantillonnage 40

Le sondage aléatoire simple (SAS) Intervalles de confiance En principe on connaît pas la loi de y lorsque le tirage est sans remise. Néanmoins, on peut supposer que si n est très grand (>50) les individus sont plutôt homogènes (il n y a pas d individus aux caractéristiques trop atypiques), alors y suit une loi de Gauss. IC = y 1.96 1 f s2 n ; y + 1.96 1 f s2 n Techniques d enquêtes Echantillonnage 41

Le sondage aléatoire simple (SAS) Cas des proportions Dans le cas des proportions; la variance de l estimateur est alors: V p = 1 f. p(1 p) n 1 Lorsque l on calcule une proportion P, on néglige le taux f (si n est grand), l intervalle de confiance d une proportion devient: IC = p 1,96 P 1 P n 1 ; p + 1,96 P 1 P n 1 Techniques d enquêtes Echantillonnage 42

Le sondage aléatoire simple (SAS) Exo 1 Sur les 500 élèves de M1 de l Université d Auvergne, on veut connaître la proportion P qui souhaitent faire un Master à Clermont-Ferrand. Parmi les 150 élèves interrogés, 63 voudraient poursuivre. 1. Quel est l estimateur de P? 2. Quel est sa précision? Quel est le nombre d élèves souhaitant poursuivre en master avec un degré de confiance de 95% estimé à partir de l échantillon? Techniques d enquêtes Echantillonnage 43

Le sondage aléatoire simple (SAS) Exo 1 - Correction Sur les 500 élèves de M1 de l Université d Auvergne, on veut connaître la proportion P qui souhaitent faire un Master à Clermont-Ferrand. Parmi les 150 élèves interrogés, 63 voudraient poursuivre. 1. Quel est l estimateur de P? L estimateur sans biais p = p = 63 150 = 0,42 1. Quel est sa précision? Quel est le nombre d élèves souhaitant poursuivre en master avec un degré de confiance de 95% estimé à partir de l échantillon? La variance estimée est : V p = 1 f. p 1 p n 1 Puisque n est grand, on néglige 1-f On en déduit : = 0,42 1 0.42 149 σ = 0,040 = 0.001634899 Techniques d enquêtes Echantillonnage 44

Le sondage aléatoire simple (SAS) Exo 1 Correction (suite) Avec 95% : p [0,42 1,96 0,040; 0,42 + 1,96 0,040] L estimateur du nombre total d élèves N D souhaitant poursuivre en master est : N D = N. p = 500 0,42 = 210 On a : σ ND = N. σ = 20.2 N D 500 0.34; 500 0.499 = [170; 149] Techniques d enquêtes Echantillonnage 45

Le sondage aléatoire simple (SAS) Exo 2 On cherche à connaître la proportion de filles nées en 2012. 1. Quelle taille d échantillon doit-on l adopter à trois points près (et à 95% de degré de confiance), dans le cas d un sondage aléatoire simple? Techniques d enquêtes Echantillonnage 46

Le sondage aléatoire simple (SAS) Exo 2 - correction On cherche à connaître la proportion de filles nées en 2012. 1. Quelle taille d échantillon doit-on adopter à trois points près (et à 95% de degré de confiance), dans le cas d un sondage aléatoire simple? Soit P ce pourcentage et p son estimateur sans biais. L intervalle de confiance, si on néglige le taux f est : p [p 1,96. P 1 P n 1 ; p + 1,96. P 1 P n 1 ] On nous impose : 1,96. P 1 P n 1 = 0,03 On ne connaît pas P, mais on sait que P sera aux alentours de 50%, soit au pire : P(1-P)=0,25 1,96. (0,25/n-1)=0.03 n=1066 Techniques d enquêtes Echantillonnage 47

Le sondage aléatoire simple (SAS) Exo 2 - correction Techniques d enquêtes Echantillonnage 48

Le sondage aléatoire simple (SAS) Exo 3 Cinq salariés dans l entreprise et on veut connaître leur salaire horaire moyen R en interrogeant que 2 individus au hasard. La situation (inconnue de l enquêteur) est la suivante: 1. Compléter le tableau suivant : s i Rj (en euros) 1 10 2 50 3 15 4 20 5 10 p(s) R(s) R s R 2 2. L estimateur est-il biaisé? 3. Quelle est la précision des estimateurs? Techniques d enquêtes Echantillonnage 49

Le sondage aléatoire simple (SAS) Exo 3 -Correction 1. Compléter le tableau suivant : Dans un modèle SAS, les échantillons sont tirés sans remise. Les probabilités de sortie p(s) sont égales à l inverse du nombre d échantillons distincts que l on peut constituer dans la population (équiprobabilité). s R(s) p(s) Moyenne ech R s R 2 Vraie variance 1/2 30 0.1 3 81 8.1 1/3 12.5 0.1 1.25 72.25 7.225 1/4 15 0.1 1.5 36 3.6 1/5 10 0.1 1 121 12.1 2/3 32.5 0.1 3.25 132.25 13.225 2/4. 35 0.1 3.5 196 19.6 2/5 30 0.1 3 81 8.1 3/4 17.5 0.1 1.75 12.25 1.225 3/5 12.5 0.1 1.25 72.25 7.225 4/5 15 0.1 1.5 36 3.6 somme 210 1 21 84 écart-type 9.16515139 Biais 0 Techniques d enquêtes Echantillonnage 50

Le sondage aléatoire simple (SAS) Exo 3 -Correction 2. L estimateur est-il biaisé? L estimateur correspondant à l échantillon s est R(s). C est la moyenne simple des revenus des deux individus enquêtés. L espérance de l estimateur vaut : Le biais est donc : E R = p s. R s = 0,1 30 + 12,5 + ) = 21 s E R R = 0 L estimateur «moyenne simple» est donc sans biais, conformément à la théorie. 3. Quelle est la précision des estimateurs? La variance vraie est : V R = s p s. (R s R)² =84 Et l écart type= 9.16 Techniques d enquêtes Echantillonnage 51

Le sondage aléatoire simple (SAS) Problème du SAS Le sondage aléatoire simple ne nécessite aucune information auxiliaire. Pas de problème si la population est homogène. Si les valeurs d une variable auxiliaire sont connues, nous pouvons presque toujours utiliser un plan de sondage plus judicieux qu un plan simple (ex: stratification) Techniques d enquêtes Echantillonnage 52

Partie 4 Le sondage stratifié

Le sondage stratifié Principe et justification Dans un SAS, toutes les combinaisons de n unités de l échantillon parmi N éléments de la population U ont la même probabilité. Mais certains échantillons peuvent être indésirables Exemple: Soit une population de 5 éléments, représentant la surface des appart en m 3 des étudiants de Mag 2. 18, 20, 28, 50, 60 Parmi les échantillons à 2 unités, nous avons deux cas extrêmes: (18,20) et (50,60) qui se révèlent «mauvais» s il s agit d estimer la moyenne: Y = 18+20+28+50+60 5 = 27,2 Il y a clairement un clivage entre «en coloc-seul» [ ou «riches-pauvres» ]. Le tirage «au hasard» peut nous conduire à n interroger que ces personnes-là. Enjeu: exclure les échantillons extrêmes pour améliorer la précision des estimateurs du SAS. Techniques d enquêtes Echantillonnage 54

Le sondage stratifié Principe et justification Idée: si les individus sont différents les uns des autres (par rapport à Y), on peut réaliser des groupes homogènes au sein desquels on réalise des tirages. Justification: les estimations obtenues au sein de chacun des groupes seront moins susceptibles de dépendre du hasard. Exemple: Estimation de la durée moyenne des tâches ménagères. On interroge 6 personnes. Il est possible d isoler les femmes des hommes et de tirer 3 hommes et 3 femmes; plutôt que 6 personnes sans distinction de genre. Fixer la composition de l échantillon rend les résultats moins sensibles à l aléa. Un échantillon est plus efficace dans une population homogène que dans une population hétérogène. Plus précisément, l erreur type d estimation est lié à la variance du caractère étudié dans la population. Justification mathématique avec la décomposition de la variance : Variance Totale= Variance Intra-groupe + Variance Inter-groupe Le but de la stratification est de constituer des groupes tels que la variance inter-groupe soit la plus grande possible (=la variance intra-groupe la plus petite possible). C est la règle de réalisation des groupes: une bonne stratification donne lieu à la constitution de groupes d individus tels que, vis-à-vis de la variable d intérêt Y, les comportements moyens au sein de chaque groupe soient les plus différents possible d un groupe à l autre= les comportements à l intérieur de chaque groupe soient les plus homogènes possibles. Techniques d enquêtes Echantillonnage 55

Le sondage stratifié Exemple On veut estimer le pourcentage d élèves fumeurs dans un lycée. On a un échantillon de 200 élèves. N=800, f=1/4 avec le SAS NF F NF NF F NF NF NF NF F F F NF NF F NF NF F F NF F NF F F F F NF NF NF NF NF F Fluctuation d échantillonnage!! On sait que la consommation est différente selon les âges des lycéens. Techniques d enquêtes Echantillonnage 56

Le sondage stratifié Exemple-suite 360 seconde 240 première 200 Terminale n1=120 n2=80 n3=67 f1=33.3% f2=33.3% f3=33.3% Puisqu on sait qu il y a plus de fumeurs en terminale= sur-représenter les terminales n1=65 n2=53 n3=120 f1=18% f2=22% f3=60% Techniques d enquêtes Echantillonnage 57

Le sondage stratifié Quelques exemples Les échantillons de ménages ou d individus dans les enquêtes usuelles sont stratifiés par région * type d habitat (taille des communes). Les échantillons d entreprises sont stratifiés par secteur et par taille, exprimée en effectifs salariés ou chiffre d affaire, Les échantillons d exploitations agricoles sont stratifiés par tranche de surface Les échantillons de jeunes sortis de l enseignement supérieur sont stratifiés par discipline, Indice des prix INSEE (critère géographique+ type de produits+ type de point de vente) Pour une étude sur le «salaire annuel», il sera pertinent d utiliser des critères liés à l âge, au niveau d étude, au genre, etc cad n importe quel facteur susceptible d expliquer les différences de comportements au niveau des salaires. Techniques d enquêtes Echantillonnage 58

Le sondage stratifié Retour à l exemple Exemple: Soit une population de 5 éléments, représentant la surface des appart en m3 des étudiants de Mag 2. 18, 20, 28, 50, 60 Supposons que l on sache à priori que les 3 premiers individus vivent seuls et que les deux derniers sont en coloc. Nous décidons que l échantillon de 2 individus doit être constitué d un représentant de chaque strate. Les échantillons possibles dans ce cas sont au nombre de 6 (chacun des 3 individus de la première strate pouvant être associé à l un des 2 autres de la seconde strate). Notons y1 et y2 les valeurs obtenues dans l échantillon. On ne peut plus faire de moyenne arithmétique simple car l unité échantillonnée dans la première strate est désignée pour en représenter 3, celle de la deuxième strate en vaut 2. Il convient alors de pondérer chaque valeur yi par le poids de la strate dont la valeur yi est issue. y s = 3 5 y 1 + 2 5 y 2 y1 18 18 20 20 28 28 y2 50 60 50 60 50 60 y^s 30.8 34.8 32 36 36.8 40.8 On vérifie bien que la moyenne des 6 sous-moyenne= 35.2, donc estimateur sans biais. Techniques d enquêtes Echantillonnage 59

Le sondage stratifié Retour à l exemple On remarque surtout que: La plage des estimations est beaucoup plus resserrée autour de la cible que dans le cas d un SAS car Les valeurs extrêmes sont moins éloignées L écart-type est plus petit Techniques d enquêtes Echantillonnage 60

Le sondage stratifié Méthode générale 1. La population étudiée N est partitionnée en h sous-populations N 1, N 2,..., N h, appelées "strates". 2. De chaque strate, nous extrayons un échantillon aléatoire simple (sans remise). 3. L'échantillon est constitué de la réunion de h sous-échantillons choisis au hasard, un par strate. Techniques d enquêtes Echantillonnage 61

Le sondage stratifié Notations Nous avons H strates de la population numérotées de 1 à H. Pour chaque strate h: Son effectif est égal à N h Son poids dans la population est égale à W h = N h N La moyenne estimée d une variable d intérêt Y est notée y h n h y h = 1 N h i=1 y i La variance corrigée de la variable Y est égale à s h 2 = 1 N h 1 N h k=1 (Y k y h ) 2 Techniques d enquêtes Echantillonnage 62

Le sondage stratifié Estimateur de la moyenne totale On s intéresse à l estimation de Y cad la moyenne de Y dans la population mère. Soit H strates H 1, H 2,..H h. On peut en donner l'expression suivante : H N H Y = N Y h h=1 Avec N : taille de la population mère; N h : taille de la strate H; N h /N : proportion des individus dans la strate H (leur poids); Y h : Moyenne simple de Y dans la strate H de la population mère C est la somme des moyennes pondérées de chaque strate le poids représentant l importance de la strate en termes d effectif dans la population. On ne connais pas Y h mais on peux démontrer que y h l estime sans biais. (selon le même principe que pour l'échantillonnage aléatoire simple). La moyenne simple issue de l échantillon tiré dans la strate h donne une bonne estimation de la vraie moyenne dans la vraie strate de la population mère. Je peux donc exprimer un estimateur sans biais de Y noté: y = H h=1 N H N y h Avec y h : moyenne simple issue de l échantillon tiré dans la strate h. Techniques d enquêtes Echantillonnage 63

Le sondage stratifié Précision de l estimateur Il nous reste à exprimer la précision de cet estimateur de la moyenne cad en connaître sa variance. Elle s'écrit de la façon suivante : V y = H h=1 N h N. 1 f h. S h 2 Avec N h : proportion des individus dans la «vraie» strate (leur poids) de la population mère, N f h, le taux de sondage dans la strate h (n h /N h ); n h : taille de l échantillon dans la strate h ; S h 2 : vraie valeur de la variance Y au sein de la strate H de la population mère. n h On ne connaît pas S 2 2 h, mais on peut l estimer sur l échantillon. On sait que s h estime sans biais S 2 h. On peut donc obtenir un estimateur sans biais de la variance de y donné par: V y = H h=1 N h N. 1 f h. s h 2 Avec s h 2 : variance de y dans la strate h calculée dans l échantillon ou variance intra-classe. La précision de la moyenne ne dépend que de la variance intra-classe. n h Techniques d enquêtes Echantillonnage 64

Le sondage stratifié Allocation proportionnelle Dans cette section on suppose que les strates sont déjà constituées. Il s agit ici de savoir comment répartir une taille d échantillon globale entre les différentes strates. Allocation proportionnelle (ou sondage stratifié proportionnel): Quand on impose un taux de sondage f = n N = n h N h = f h pour h=1,.., H Identique pour toutes les strates: Le sondage devient alors à probabilité égale puisque la probabilité de sélection d un individu quelconque de la strate h vaut f. On parle aussi d un sondage auto-pondéré, puisque tous les individus de l échantillon ont alors un poids identique (=inverse du taux de sondage f commun à toutes les strates). ex: dans un échantillon d individus stratifié par genre, les hommes et les femmes figurent au prorata de leur effectif dans la population étudiée. ex2: dans la section précédente, nous avons considéré un échantillon représentatif de la population des «colocs» et des «solitaires».!!! Le terme «représentatif» signifie que l échantillon a été dosé pour «représenter» une répartition d effectifs dans la population. Il ne signifie pas que le sondage soit parfait, sans erreurs, ni même que la répartition soit la meilleure possible! Il est donc préférable, pour éviter les ambiguïtés, de parler d échantillon proportionnel. Techniques d enquêtes Echantillonnage 65

Le sondage stratifié Allocation proportionnelle -Propriétés Les propriétés de l échantillon proportionnel sont importantes : Les probabilités de sélection sont égales pour tous les éléments de la base de sondage et valent le taux de sondage f = n/n. L estimateur de la moyenne y d une population U est alors : y = 1 n H h=1 n h ( Y i ) i=1 C est donc la moyenne calculée sur l échantillon qui estime la moyenne de la population. Ce que nous avons appelé, un sondage «auto pondéré». Nous montrons, par calcul, que cet estimateur est sans biais. La variance de l estimateur V y, dans le cas d un sondage stratifié proportionnel devient alors : V y = (1 f) 1 N h n N s² h h=1 Cette formule montre bien que plus les strates sont homogènes (variance intra-strate faible), plus la stratification est efficace. H Avantage de l allocation proportionnelle: ne dépend pas des Yi. On doit juste connaître le nh. Les gains de précision par rapport au SAS sont donc assuré quelles que soient les Y. Techniques d enquêtes Echantillonnage 66

Le sondage stratifié Allocation optimale (ou de Neyman) La répartition de Neyman, ou encore appelée la répartition optimale, consiste à respecter l égalité : n h N h σ = Constante = k h=1 nn hσ Plus une strate est hétérogène vis-à-vis de Y, plus nous utilisons un taux de sondage f important= il faut concentrer l effort là où la diversité est la plus forte, cad là où il y davantage d information à recueillir. La théorie montre que cette répartition est celle qui fournit la variance la plus faible une fois les strates déterminées. Allocation proportionnelle versus optimale: Perd en simplicité mais gains en précision. L application de la formule pour calculer la répartition de Neyman suppose connues a priori les valeurs σ. Ce peut être le cas à partir d études antérieures au sondage, mais en général il n en est pas ainsi. Le gain entre allocation proportionnelle et allocation optimale n est substantiel que si les dispersions varient énormément d une strate à l autre. En pratique, nous utilisons la répartition de Neyman quand le phénomène étudié a une distribution très assymétrique. Par contre, si ce phénomène a une distribution symétrique par rapport à sa moyenne, une allocation proportionnelle fournit des résultats d une qualité suffisante. Techniques d enquêtes Echantillonnage 67

Le sondage stratifié Exercice 1 Soit une population de 4 personnes pour lesquelles le caractère Y prend les valeurs suivantes : On tire des échantillons de taille 2. y 1 =2 ; y 2 =3 ; y 3 =1, y 4 =6. 1. Calculer la variance de l estimateur de la moyenne dans le cas d un sondage aléatoire simple (sans remise). 2. Une étude précédente affirme que les deux premiers individus font partis d un même groupe. Calculer la variance de l estimateur de la moyenne dans le cas d un sondage stratifié pour avec les strates U1={y 1,y 2 } et U2={y 3,y 4 } Quelle méthode vaut-il mieux préconiser? Justifiez. Techniques d enquêtes Echantillonnage 68

Le sondage stratifié Exercice 1 - Correction 1. Calculer la variance de l estimateur de la moyenne dans le cas d un sondage aléatoire simple (sans remise). La moyenne de y est de 3 La dispersion vaut (cf slide 44): avec f=n/n. Cela peut se ré-écrire: Y = 1 N k U y k = s 2 = 1 n 1 (2 + 3 + 1 + 6) 4 n i=1 (y i y) 2 V y = 1 f. s2 n V y = N n Nn s² = 3 = 4 2 4 2 1 3 2 3 2 + + 6 3 2 = 1.166 Techniques d enquêtes Echantillonnage 69

Le sondage stratifié Exercice 1 - Correction 2. Une étude précédente affirme que les deux premiers individus font partis d un même groupe. Calculer la variance de l estimateur de la moyenne dans le cas d un sondage stratifié pour avec les strates U1={y 1,y 2 } et U2={y 3,y 4 } Quelle méthode vaut-il mieux préconiser? Justifiez. On commence par calculer les paramètres au sein des classes. Y 1 = 1 n 1 y k = k U1 (2 + 3) 2 = 2,5 Puis Y 2 = 1 n 2 y k = k U2 (1 + 6) 2 = 3,5 S² y1 = 1 n1 1 S² y2 = 1 n2 1 k U1 k U2 (y k Y1)² = 1 2 1 ( 2 2,5 2 + 3 2,5 2 = 0,5 (y k Y2)² = 1 2 1 ( 1 3,5 2 + 6 3,5 2 = 12,5 Techniques d enquêtes Echantillonnage 70

Le sondage stratifié Exercice 1 - Correction S agissant d une allocation proportionnelle, la variance est : Avec f=n/n V y = (1 f) 1 n H h=1 N h N s² h Soit : V y = N n nn H h=1 N h N s² h = 4 2 2 4 0.5 0.5 + 0.5 12.5 = 1.625 On voit donc que la variance du plan stratifié est plus grande que pour le SAS, malgré l allocation proportionnelle. Ce résultat surprenant rappelle que la stratification n entraîne pas une amélioration systématique de la précision. Dû au fait que dans cet exemple la variance inter-strate est faible et que la taille de la population est petite. Techniques d enquêtes Echantillonnage 71

Le sondage stratifié Exercice 2 On cherche à estimer le poids moyen de la population européenne. On possède des informations sur la proportion de personnes selon leur indice de masse corporelle (IMC). La population est divisée en trois strates IMC faible, normal et élevé. On tire un échantillon par SAS pour chacune des strates et on obtient les résultats suivants : IMC faible IMC normale IMC élevé Pondération de la strate 0,3 0,5 0,2 Moyenne de l'échantillon en strate h 60 87 113 Vraie dispersion des poids en strate h 10 17 35 1. Calculez l estimateur stratifié de la moyenne dans la population européenne de la variable «poids moyen». 2. Cet estimateur peut-il être différent de celui d une moyenne simple? 3. Cinq ans plus tard, on suppose que la dispersion dans le poids moyen n a pas bougé. On se propose de vérifier cela en tirant un échantillon de 100 personnes sans remise. Quelle est la variance de l estimateur du poids moyen avec un sondage stratifié proportionnel? 4. Même question avec un sondage stratifié optimal pour lequel n1=50, n2=35 et n3=15 Techniques d enquêtes Echantillonnage 72

Le sondage stratifié Exercice 2 - correction 1. Calculez l estimateur stratifié de la moyenne dans la population européenne de la variable «poids moyen». Avant toute chose, reprenons les informations que nous avons dans l énoncé: Pondération de la strate h :N h /N Moyenne de l échantillon en strate h : Y h Vraie dispersion des poids en strate h : S h ² Le poids moyen de la population est donné par : Y = N h N. Yh = 0.3 60 + 0.5 87 + 0.2 113 = 84.1 Techniques d enquêtes Echantillonnage 73

Le sondage stratifié Exercice 2 - correction 2. Cet estimateur peut-il être différent de celui d une moyenne simple? Oui si l allocation n est pas proportionnelle. Dans ce cas-là, n h n N h N 3. Cinq ans plus tard, on suppose que la dispersion dans le poids moyen n a pas bougé. On se propose de vérifier cela en tirant un échantillon de 100 personnes sans remise. Quelle est la variance de l estimateur du poids moyen avec un sondage stratifié proportionnel? La dispersion de la variable poids moyen est : V y = (1 f) 1 n H h=1 N h N s² h Comme n est très grand (supérieur à 50), on peut négliger le taux de sondage. V y = 1 n H h=1 N h N s² h = 0.185 4. Même question avec un sondage stratifié optimal pour lequel n1=50, n2=35 et n3=15 V y = 1 n H h=1 N h N s² h = 0.162 Techniques d enquêtes Echantillonnage 74

Le sondage stratifié Comparaison avec le SAS Utilisation justifiée si la population est très hétérogène L objet d étude est une partie de cette population Plutôt que de considérer cette sous-population comme un simple domaine sur lequel on ne peut pas contrôler la taille de l échantillon, on peut la faire coïncider avec une strate, et procéder dans cette strate à un SAS avec une taille d échantillon importante. L'existence d'une stratification de fait, soit pour des raisons géographiques, soit pour des raisons administratives. Pas de coûts supplémentaires, à l exception de coûts d étude pour constituer les strates (négligeable). Cela conduit même souvent une réduction des coûts d enquête ou une optimisation de la gestion de l enquête: ex: découpage selon la région critère sectoriel qui permet de spécialiser les enquêteurs Techniques d enquêtes Echantillonnage 75

Le sondage stratifié Le problème de la constitution des strates On a 3 problèmes difficiles à résoudre : 1. Quelles variables de stratification utiliser? La meilleure variable est la plus discriminante cad celle qui permet de constituer des groupes homogènes en intra, du point de vue de Y. En pratique, on cherche une variable X (âge, sexe), très corrélée à Y, de façon à ce que des groupes homogènes par rapport à X soient également homogènes par rapport à Y. Sinon résultats à peine meilleurs (voire pires) que dans l'échantillon aléatoire simple 2. Nombre de strates Intuitivement, on peut penser que le nombre de strate doit être le + grand possible parce qu'il est + facile de constituer des groupes homogènes. En réalité on est vite limité car l augmentation trop grande du nombre de strates fait diminuer la précision des estimateurs (cad fait augmenter V y car la taille de l échantillon dans chaque strate sera petit et les estimations des s h 2 seront peu précises (en pratique il faut au moins 20 observations par strate). Techniques d enquêtes Echantillonnage 76

Le sondage stratifié Le problème de la constitution des strates-suite 3. Les limites des strates (pour les variables quantitatives) C est la question la plus délicate. Le traitement mathématique est très compliqué et la solution est le + souvent qualitative, dictée par des considérations et connaissances sur le domaine étudié. Dans la pratique, ce sont souvent des variables qualitatives qui servent à la stratification : sexe, CSP, diplôme etc. Deux types de considérations vont conduire au choix des critères de stratification : 1. disponibilité des critères dans la base de sondage ; 2. pertinence des différents critères pour créer des strates homogènes. Ceci nécessite une connaissance soit intuitive, soit venant d études réalisées antérieurement. Techniques d enquêtes Echantillonnage 77

Le sondage stratifié Le problème de la constitution des strates-exemple Au niveau des unités de sondage «géographiques» : Exemple : Pour les villes stratification selon la région, l activité dominante des localités. Nous séparons souvent milieu rural et milieu urbain. Au niveau des ménages ou des individus : Utilisation des critères qui peuvent être en corrélation avec le sujet d étude. Exemple : la CSP, le niveau d étude, la taille du ménage, le type d habitation, etc... Techniques d enquêtes Echantillonnage 78

Le sondage stratifié En résumé Le sondage stratifié est basé sur le principe de : forcer le hasard imposer à l échantillon de représenter la population strate par strate. Une stratification peut être : très efficace pour l étude d un phénomène, par exemple la mortalité, très peu efficace pour l étude d autres phénomènes, par exemple l activité économique. Cette situation se présente avec une acuité particulière lorsqu un échantillon est destiné à des études à objectifs multiples. Plus nous multiplions les strates, plus le gain d efficacité devient faible. De plus, les résultats calculés au niveau de chaque strate ne sont plus significatifs en raison de la petite taille de l échantillon Techniques d enquêtes Echantillonnage 79

Partie 5 Sondages à plusieurs degrés

Sondage à plusieurs degrés Justification et principes Le sondage aléatoire simple présente 2 inconvénients majeurs : lorsque chaque individu tiré est associé à un coût de déplacement pour pouvoir réaliser l interview, la dispersion géographique des individus amène à un coût prohibitif de l enquête. implique l'utilisation de bases de sondage étendues (par ex toute la population française) pas forcément disponibles et lourdes à gérer. Pour contourner ces difficultés on utilise le sondage à plusieurs degrés qui fonctionne ainsi : On constitue une partition de la population en groupes d individus disjoints (ex population de chaque département) et dont la réunion constitue la population entière. Chaque groupe est une «unité d échantillonnage» ou encore «unités primaires» notées UP. On effectue un premier tirage aléatoire simple dans ces UP. Chaque unité primaire sélectionnée est divisée en unités secondaires US. On peut effectuer un second tirage au hasard dans chaque unité primaire, pour obtenir les unités secondaires, etc On peut renouveler le processus autant de fois que nécessaire. Il s agit donc d une succession de regroupements des unités statistiques pour tirer l échantillon. Exemple d échantillons à deux degrés: On tire un échantillon de villes. Puis on tire, parmi les villes sondées, un échantillon de ménages. On peut bien sûr généraliser à 3 degrés, à 4 degrés,... Techniques d enquêtes Echantillonnage 81

Sondage à plusieurs degrés Principes 1 er degré Unités premières 2 ème degré Unités secondaires Individus Techniques d enquêtes Echantillonnage 82

Sondage à plusieurs degrés Justifications Attention à l utilisation du nom sondage par grappes. Cette expression doit être réservée au cas particulier du sondage à plusieurs degrés où l ensemble des unités au dernier degré de tirage est enquêté. Quand utiliser ce type de sondage? Exemple: On veut étudier 2 000 ménages en France (27 millions de ménages, 36000 communes). Même si on dispose d une bonne base de sondage (liste des villes avec une estimation de leur population), élaborer une liste des ménages au niveau national en visitant chaque ville serait une tâche gigantesque. En plus, les ménages de l échantillon seraient géographiquement extrêmement dispersés. D où un temps énorme perdu en déplacements. (coûts de l enquête prohibitifs). Techniques d enquêtes Echantillonnage 83

Sondage à plusieurs degrés Avantages Cette méthode a 3 grands avantages : permet une exécution rapide et moins coûteuse de l'enquête car le principe du tirage en cascade focalise les interviews sur une zone géographique. on peut plus facilement constituer une bonne base de sondage sur des unités géographiques restreintes (par ex, recenser le nombre de ménages dans les communes plutôt que sur toute la France)=base de sondage partielle. Permet de constituer un réseau fixe d enquêteurs sur place Globalement, on réalise des économies de temps de frais de déplacement (au niveau du travail des enquêteurs). Techniques d enquêtes Echantillonnage 84

Sondage à plusieurs degrés Inconvénients La contrepartie est que ce type de sondage est moins précis que le sondage aléatoire simple. Le mécanisme qui forme le cœur de cette imprécision est le suivant : dans la grande majorité des cas, les individus qui forment les UP ont de fortes chances d être semblables par rapport à la variable d intérêt Y: on parle alors d effet de grappe. Le tirage au second degré perd de sa «représentativité» car il consiste, en caricaturant, à recueillir plusieurs fois la même information auprès des individus de l unité primaire. Il y a une sorte de redondance d information au sein des unités constituées à chaque degré. On montre que la majeure partie de la variance des estimateurs dans le cas des tirages à plusieurs degrés provient souvent du premier degré de tirage. Techniques d enquêtes Echantillonnage 85

Sondage à plusieurs degrés Les limites Techniques d enquêtes Echantillonnage 86

Sondage à plusieurs degrés Les limites Techniques d enquêtes Echantillonnage 87

Sondage à plusieurs degrés Effets de grappes Une idée intuitive est que l on disperse moins l échantillon : les unités regroupées dans un même groupe (une grappe) ont une certaine tendance à se ressembler (penser aux habitant d un immeuble par exemple). Il y a donc une certaine redondance d information : chaque unité supplémentaire d une grappe apporte moins qu une unité tirée au hasard dans l ensemble de la population. La plus grande partie de la variance dans le cas des tirages à plusieurs degrés vient souvent des premiers degrés. A la limite, si toutes les unités se ressemblaient parfaitement dans une grappe, alors c est comme si l on avait interrogé un échantillon non pas d individus mais de grappes. Ceci est à priori nuisible à la représentativité, sauf si chaque unité est elle-même une image fidèle de l ensemble. Techniques d enquêtes Echantillonnage 88

Sondage à plusieurs degrés Exemples La pratique des sondages par grappes ou des sondages à plusieurs degrés est très largement répandue. Elle est motivée par la nature des données à recueillir, des considérations de coût ou de faisabilité, la mauvaise qualité ou l inexistence des bases de sondage. Premier exemple : Études médicales. Certaines études sont réalisées auprès d échantillons de médecins qui sont considérés, pour l enquête, comme des grappes de patients (donnent tout ou une partie de leur patientèle, effet de grappe médecin) ou de prescriptions. Des recherches effectuées pour analyser l évolution du SIDA et, plus généralement, des MST, ont été basées sur des laboratoires d analyses médicales, grappes d actes et analyses. Autre exemple : Sondages électoraux. On connaît les estimations établies par les instituts de sondage, les soirs de consultations électorales. Il s agit généralement de sondages sortie des urnes réalisés auprès d électeurs à la sortie de bureaux de vote. Il est clair qu il s agit de sondages à deux degrés, le premier degré consistant à choisir les bureaux de vote où opéreront les enquêteurs. Techniques d enquêtes Echantillonnage 89