Sondage stratifié. Myriam Maumy-Bertrand. Master 2ème Année 12-10-2011. Strasbourg, France



Documents pareils
STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Théorie des sondages : cours 5

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Chapitre 3 : INFERENCE

CONCEPTION ET TIRAGE DE L ÉCHANTILLON

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

La nouvelle planification de l échantillonnage

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Calcul élémentaire des probabilités

INITIATION AUX METHODES DE SONDAGE

La mesure de Lebesgue sur la droite réelle

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

données en connaissance et en actions?

Introduction à l approche bootstrap

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Annexe commune aux séries ES, L et S : boîtes et quantiles

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Précision d un résultat et calculs d incertitudes

Statistique Descriptive Élémentaire

MODÈLE CROP DE CALIBRATION DES PANELS WEB

Les devoirs en Première STMG

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Leçon N 4 : Statistiques à deux variables

Observatoire Economique et Statistique d Afrique Subsaharienne

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Moments des variables aléatoires réelles

Le modèle de Black et Scholes

CHAPITRE 5. Stratégies Mixtes

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Probabilités (méthodes et objectifs)

Table des matières. I Mise à niveau 11. Préface

Le risque Idiosyncrasique

Statistiques Descriptives à une dimension

Loi binomiale Lois normales

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

PRIME D UNE OPTION D ACHAT OU DE VENTE

FOTO - L OMNIBUS MENSUEL DE CROP LE NOUVEAU CROP-EXPRESS

Séries Statistiques Simples

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Fiche qualité relative à l enquête Santé et Itinéraire Professionnel 2010 (SIP) Carte d identité de l enquête

1 Complément sur la projection du nuage des individus

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Estimation et tests statistiques, TD 5. Solutions

Les Français et les nuisances sonores. Ifop pour Ministère de l Ecologie, du Développement Durable et de l Energie

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Module 16 : Les fonctions de recherche et de référence

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Cours de Probabilités et de Statistique

Principe d un test statistique

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

23. Interprétation clinique des mesures de l effet traitement

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #16

Valeur verte des logements d après les bases Notariales BIEN et PERVAL Synthèse

En 2014, comment mener à bien une enquête aléatoire en population générale par téléphone?

PROJET DE GESTION PORTEFEUILLE. Evaluation d une Stratégie de Trading

Primaire. analyse a priori. Lucie Passaplan et Sébastien Toninato 1

Régression linéaire. Nicolas Turenne INRA

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Évaluations aléatoires : Comment tirer au sort?

La classification automatique de données quantitatives

Probabilités Loi binomiale Exercices corrigés

NOTIONS DE PROBABILITÉS

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

Echantillonnage INTRODUCTION. Module 1

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

LA CONDUITE D UNE MISSION D AUDIT INTERNE

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

L OBSERVATOIRE LCL EN VILLE - RÉALISÉ PAR BVA L ÉCONOMIE DU PARTAGE, ZOOM SUR LES JEUNES URBAINS. Juin 2014

SPHINX Logiciel de dépouillement d enquêtes

Probabilités sur un univers fini

Gestion obligataire passive

La représentativité d un échantillon et son test par le Khi-deux Testing the representativeness of a sample

Université Paris-Dauphine DUMI2E 1ère année, Applications

Probabilités conditionnelles Loi binomiale

Probabilités sur un univers fini

Bulletin de service Bureaux d agents, de courtiers en immeubles et d évaluateurs de biens immobiliersetdes autres activités liées à l immobilier

STATISTIQUES A DEUX VARIABLES

LE RÔLE DE LA STATISTIQUE DANS UN PROCESSUS DE PRISE DE DÉCISION

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

M2 IAD UE MODE Notes de cours (3)

Chaînes de Markov au lycée

4. Résultats et discussion

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Journal officiel de l Union européenne L 297/51

Introduction à la Statistique Inférentielle

Réseau SCEREN. Ce document a été numérisé par le CRDP de Bordeaux pour la. Base Nationale des Sujets d Examens de l enseignement professionnel.

Etude sur l équipement des TPE / PME. en complémentaire santé

TP 2 Réseaux. Adresses IP, routage et sous-réseaux

Probabilités III Introduction à l évaluation d options

Transcription:

1 1 IRMA, Université de Strasbourg Strasbourg, France Master 2ème Année 12-10-2011

Ce chapitre s appuie essentiellement sur deux ouvrages : «Les sondages : Principes et méthodes» de Anne-Marie Dussaix et Jean-Marie Grosbras, P.U.F., Collection Que sais-je?, 1993. «Manuel de Sondages» de Rémy Clairin et Philippe Brion, téléchargeable sur http ://ceped.cirad.fr/activite/publi/integral/html/manuels/pdf/ puis "manuels cpd 03.pdf"

Sommaire Introduction 1 Introduction 2 3 4 5 6

Dans la plupart des cas, les plans simples ne sont utilisés que lorsqu aucune information sur la population n est disponible. En effet, si les valeurs d une variable auxiliaire sont connues, nous pouvons presque toujours utiliser un plan de sondage plus judicieux qu un plan simple. Une des manières d introduire de l information auxiliaire dans un plan de sondage est la stratification. La stratification est certainement une des meilleures manières d introduire une information auxiliaire dans une enquête afin d augmenter la précision des estimateurs. De manière générale, si l information est disponible, nous verrons que nous avons pratiquement intérêt à stratifier.

Exemple Notations Sommaire 1 Introduction 2 3 4 5 6

Exemple Notations Dans un sondage aléatoire simple toutes les combinaisons de n unités de l échantillon parmi N éléments de la population U ont la même probabilité. Remarque Mais certaines d entre elles peuvent être indésirables.

Exemple Notations Exemple Soit une population de 5 éléments. Nous relevons sur ces 5 individus la variable d intérêt, notée Y, le «salaire annuel» (en milliers d euros) : 13, 15, 17, 25, 30. Parmi les échantillons à 2 unités, nous avons 2 cas extrêmes (13, 15) et (25, 30) qui se révèlent «mauvais» s il s agit d estimer la moyenne µ Y = 13 + 15 + 17 + 25 + 30 5 = 20 = Y.

Exemple Notations Remarque Il y a plusieurs types de classes dans cette population : des classes d individus «à salaires modestes» des classes d individus «à salaires élevés». Remarque Il serait malencontreux que : les hasards de l échantillonnage conduisent à n interroger que des individus appartenant à une seule de ces catégories ou l échantillon soit trop déséquilibré en faveur de l une d elles.

Exemple Notations Le but du jeu : Exclure les échantillons extrêmes et améliorer la précision des estimateurs du chapitre précédent. Remarque Nous avons constaté qu à taille égale un échantillon est plus efficace dans une population homogène que dans une population hétérogène. Remarque Plus précisément, l erreur type d estimation est liée à la variance du caractère étudié dans la population.

Exemple Notations Le but du jeu : Découper la population en sous-ensembles, appelés des strates, les plus homogènes possibles. Chaque sondage partiel s effectue de façon efficace et l assemblage des sondages partiels précis donnera des résultats plus fiables qu un sondage de même taille effectué «en vrac».

Exemple Notations Quelques exemples : Les échantillons de ménages ou d individus, dans les enquêtes usuelles, sont stratifiés par région croisée par type d habitat (taille des communes). Les échantillons d entreprises sont stratifiés par secteur et par taille, exprimée en effectifs salariés ou chiffre d affaires. Les échantillons d exploitations agricoles sont stratifiés par tranches de surface. Les échantillons de jeunes sortis de l enseignement supérieur sont stratifiés par discipline, etc...

Exemple Notations Retour à l exemple : Pour une étude sur le «salaire annuel», il sera pertinent d utiliser des critères liés : à l âge, au niveau d études, éventuellement au genre, c est-à-dire à des facteurs susceptibles d expliquer les différences de comportement au niveau des salaires.

Exemple Notations Définition Stratifier correspond souvent à un objectif de réduction des coûts d enquête ou d optimisation de sa gestion. Remarque C est en particulier le cas : lorsque nous utilisons un critère de découpage géographique comme la région, ou, dans les échantillons d entreprises, un critère sectoriel, ce qui permet alors, de spécialiser les enquêteurs.

Exemple Notations Retour à l exemple : Supposons que nous sachons, a priori, que les 3 premiers individus forment une catégorie de «petits» salaires et que les 2 derniers soient catalogués «gros» salaires. Nous décidons alors que l échantillon de 2 individus doit être constitué d un représentant de chaque strate. Les échantillons possibles sont dans ce cas au nombre de 6. Chacun des 3 individus de la première strate pouvant être associé à l un des 2 autres de la seconde strate.

Exemple Notations Notons y 1 et y 2 les valeurs obtenues dans l échantillon. Nous ne pouvons plus, comme dans le chapitre 2, en faire la moyenne arithmétique simple. En effet, l unité échantillonnée dans la première strate est désignée pour en représenter 3, celle de la deuxième strate vaut pour 2. Il convient alors de pondérer chaque valeur y i par le poids de la strate dont la valeur y i est issue. Si µ st désigne le résultat, nous avons alors : µ st = 3 5 y 1 + 2 5 y 2.

Exemple Notations Le tableau ci-dessous représente l ensemble de tous les cas possibles. Échantillons avec stratification y 1 13 13 15 15 17 17 y 2 25 30 25 30 25 30 µ st 17, 8 19, 8 19 21 20, 2 22, 2 D autre part, nous vérifions que la moyenne des 6 valeurs pour µ st est µ = 20. Cela signifie que l estimateur µ st a µ pour espérance mathématique. Donc µ st est un estimateur sans biais pour µ.

Exemple Notations Remarque Nous remarquons surtout que la plage des estimations est beaucoup plus resserrée autour de la cible que dans le cas du sondage aléatoire simple. En effet : les valeurs extrêmes sont moins éloignées, l écart-type vaut 1, 40 au lieu de 3, 95.

Exemple Notations Remarque Nous pouvons maintenant décrire la méthode générale. Pour cela, nous allons avoir besoin d introduire quelques notations. Remarque Par la suite, nous nous placerons dans le cas d un tirage aléatoire simple sans remise, à l intérieur de chaque strate.

Exemple Notations Nous avons H strates de la population numérotées de 1 à H. Pour la strate h : Son effectif est égal à N h. Son poids dans la population est égal à W h = N h N. La moyenne d une variable d intérêt Y est notée µ h ou Y h dans la strate h. La variance corrigée de la variable Y est égale à σ 2 h,c = 1 N h 1 N h (Y k µ h ) 2. k=1

Exemple Notations Pour la strate h : L effectif de l échantillon propre à la strate h est égal à n h. La moyenne dans la strate h est égale à µ h = 1 n h y i. n h i=1 La variance corrigée dans la strate h est égale à s 2 h,c = 1 n h 1 n h (y i µ h ) 2. i=1

Sommaire Introduction Estimation de la moyenne à partir du sondage stratifié Estimation du total à partir du sondage stratifié Estimation d une proportion à partir du sondage stratifié Variance de l estimateur de la moyenne Variance de l estimateur du total Estimation de la variance de l estimateur de la moyenne Estimation de la variance de l estimateur du total Application numérique 1 Introduction 2 3 4 5 6

Estimation de la moyenne à partir du sondage stratifié Estimation du total à partir du sondage stratifié Estimation d une proportion à partir du sondage stratifié Variance de l estimateur de la moyenne Variance de l estimateur du total Estimation de la variance de l estimateur de la moyenne Estimation de la variance de l estimateur du total Application numérique Définition L estimateur de la moyenne µ d une population U par sondage stratifié se définit par : Propriété µ st = H h=1 N h N µ h. Nous montrons, par calcul, que cet estimateur est sans biais, i.e. E( µ st ) = µ.

Estimation de la moyenne à partir du sondage stratifié Estimation du total à partir du sondage stratifié Estimation d une proportion à partir du sondage stratifié Variance de l estimateur de la moyenne Variance de l estimateur du total Estimation de la variance de l estimateur de la moyenne Estimation de la variance de l estimateur du total Application numérique Définition L estimateur du total T d une population U par un sondage stratifié se définit par : T st = H N h µ h. h=1 Propriété Nous montrons, par calcul, que cet estimateur est sans biais, i.e. ) E ( Tst = T.

Estimation de la moyenne à partir du sondage stratifié Estimation du total à partir du sondage stratifié Estimation d une proportion à partir du sondage stratifié Variance de l estimateur de la moyenne Variance de l estimateur du total Estimation de la variance de l estimateur de la moyenne Estimation de la variance de l estimateur du total Application numérique Remarque Cette formule peut aussi s écrire sous la forme : T st = ( ) H 1 n h N h Y i = h=1 n h i=1 ( H nh ) N h Y i. n h h=1 i=1 Remarque Nous remarquons, dans la formule précédente, que la variable Y i est pondérée par le coefficient N h n h, appelé coefficient d extrapolation (dont la valeur dépend de la strate h), afin d extrapoler (ou «d étendre») les résultats à la population.

Estimation de la moyenne à partir du sondage stratifié Estimation du total à partir du sondage stratifié Estimation d une proportion à partir du sondage stratifié Variance de l estimateur de la moyenne Variance de l estimateur du total Estimation de la variance de l estimateur de la moyenne Estimation de la variance de l estimateur du total Application numérique Définition L estimateur d une proportion π A d une population ayant la caractéristique A se fait, comme présenté dans un chapitre précédent, par l estimateur de la moyenne d une variable d intérêt qui vaut 1 si l unité a la caractéristique étudiée 0 si l unité n a pas la caractéristique étudiée.

Estimation de la moyenne à partir du sondage stratifié Estimation du total à partir du sondage stratifié Estimation d une proportion à partir du sondage stratifié Variance de l estimateur de la moyenne Variance de l estimateur du total Estimation de la variance de l estimateur de la moyenne Estimation de la variance de l estimateur du total Application numérique Propriété Nous montrons, par calcul, que Var ( µ st ) = H h=1 N 2 h N 2 (1 f h) σ2 h,c n h, où f h = n h est le taux de sondage correspondant et σh,c 2 est la N h variance corrigée définie auparavant.

Estimation de la moyenne à partir du sondage stratifié Estimation du total à partir du sondage stratifié Estimation d une proportion à partir du sondage stratifié Variance de l estimateur de la moyenne Variance de l estimateur du total Estimation de la variance de l estimateur de la moyenne Estimation de la variance de l estimateur du total Application numérique Propriété Nous montrons, par calcul, que Remarque ) Var ( Tst = H h=1 N 2 h (1 f h) σ2 h,c n h Comment démontrez-vous ces deux formules? Remarque Ces deux formules de variance posent un problème. Lequel?

Estimation de la moyenne à partir du sondage stratifié Estimation du total à partir du sondage stratifié Estimation d une proportion à partir du sondage stratifié Variance de l estimateur de la moyenne Variance de l estimateur du total Estimation de la variance de l estimateur de la moyenne Estimation de la variance de l estimateur du total Application numérique Pour répondre à la dernière question posée, nous définissons les deux quantités suivantes : Définition Un estimateur de la variance de µ st se définit par Var ( µ st ) = H h=1 N 2 h N 2 (1 f h) s2 h,c n h = H h=1 Nh 2 N 2 (1 f sh 2 h) n h 1, où f h est le taux de sondage correspondant et sh,c 2 est la variance corrigée définie auparavant.

Estimation de la moyenne à partir du sondage stratifié Estimation du total à partir du sondage stratifié Estimation d une proportion à partir du sondage stratifié Variance de l estimateur de la moyenne Variance de l estimateur du total Estimation de la variance de l estimateur de la moyenne Estimation de la variance de l estimateur du total Application numérique Définition Un estimateur de la variance de T st se définit par ) Var ( Tst = Remarque H h=1 N 2 h (1 f h) s2 h,c n h = H Nh 2 (1 f sh 2 h) n h 1 h=1 Ces deux estimateurs de la variance permettent de calculer l écart-type de chaque estimateur. Par conséquent, comme dans les chapitres précédents, nous pouvons construire des intervalles de confiance pour les paramètres de la population inconnus

Estimation de la moyenne à partir du sondage stratifié Estimation du total à partir du sondage stratifié Estimation d une proportion à partir du sondage stratifié Variance de l estimateur de la moyenne Variance de l estimateur du total Estimation de la variance de l estimateur de la moyenne Estimation de la variance de l estimateur du total Application numérique Exemple Une société bancaire compte 50 000 clients répartis en : 40 000 «petits» clients 10 000 «gros» clients. Soit un sondage portant sur 200 clients répartis en : 160 «petits» 40 «gros». Nous nous intéressons au montant moyen µ des comptes au moment de l enquête et à la proportion π des clients prêts à souscrire au nouveau produit financier.

Estimation de la moyenne à partir du sondage stratifié Estimation du total à partir du sondage stratifié Estimation d une proportion à partir du sondage stratifié Variance de l estimateur de la moyenne Variance de l estimateur du total Estimation de la variance de l estimateur de la moyenne Estimation de la variance de l estimateur du total Application numérique Exemple Le dépouillement du sondage donne les résultats suivants : Statistiques Strate 1 Strate 2 Effectif population N 1 = 40 000 N 2 = 10 000 Effectif échantillon n 1 = 160 n 2 = 40 Montant moyen µ 1 = 12 µ 2 = 58 Variance observée s1 2 = 85 s2 2 = 930 Écart-type observé s 1 = 9, 22 s 2 = 30, 50 Clients favorables x 1 = 8 x 2 = 22 Proportion π 1 = 5% π 2 = 55%

Estimation de la moyenne à partir du sondage stratifié Estimation du total à partir du sondage stratifié Estimation d une proportion à partir du sondage stratifié Variance de l estimateur de la moyenne Variance de l estimateur du total Estimation de la variance de l estimateur de la moyenne Estimation de la variance de l estimateur du total Application numérique Estimation de µ : µ st = 40 000 50 000 Var( µ st ) 0, 64 85 159 000 12+10 58 = 0, 8 12+0, 2 58 = 21, 2 50 000 930 + 0, 04 = 1, 30 Écart-type 1, 30 = 1, 14 39 Intervalle de confiance à 95% pour µ : µ ]21, 2 ± 1, 96 1, 14[, c est-à-dire : µ ]18, 96; 23, 44[.

Estimation de la moyenne à partir du sondage stratifié Estimation du total à partir du sondage stratifié Estimation d une proportion à partir du sondage stratifié Variance de l estimateur de la moyenne Variance de l estimateur du total Estimation de la variance de l estimateur de la moyenne Estimation de la variance de l estimateur du total Application numérique Estimation de π : π st = 0, 8 0, 05 + 0, 2 0, 55 = 15% Var( 0, 05 0, 95 π st ) = 0, 64 + 0, 04 160 4, 375 10 4 0, 55 0, 45 40 = Écart-type = 4, 375 10 2 = 2, 1% Intervalle de confiance à 95% pour π : π ]10, 8%; 19, 2%[.

Sommaire Introduction 1 Introduction 2 3 4 5 6

Les formules ci-dessus sont valables quels que soient les nombres d unités statistiques tirées par strate. Le taux de sondage f h peut donc être variable d une strate h à une autre. Dans tout ce paragraphe nous supposons que les strates sont déjà constituées (voir le dernier paragraphe pour la constitution des strates). Il s agit ici de savoir comment répartir une taille d échantillon globale entre les différentes strates.

Définition Quand nous imposons un taux de sondage f = n N = n h N h = f h, pour h = 1,..., H identique pour toutes les strates, alors le sondage est appelé sondage stratifié proportionnel ou encore allocation proportionnelle. Nous disons aussi qu il s agit d un sondage auto pondéré, puisque tous les individus de l échantillon ont alors un poids identique, égal à l inverse du taux de sondage f commun à toutes les strates.

Remarques 1 C est ainsi que, dans un échantillon d individus stratifié par genre, les hommes et les femmes figurent au prorata de leur effectif dans la population étudiée. 2 Dans l application numérique du paragraphe précédent, nous avons considéré un échantillon représentatif de la population des «petits clients» et des «gros clients».

Là encore, il faut prendre garde à la définition exacte des termes utilisés. Définition Le terme «représentatif» signifie que l échantillon a été dosé pour «représenter» une répartition d effectifs dans la population. Remarque Il ne signifie pas que le sondage soit parfait, sans erreurs, ni même que la répartition soit la meilleure possible! Il est donc préférable, pour éviter les ambiguïtés, de parler d échantillon proportionnel.

Propriétés Les propriétés de l échantillon proportionnel sont importantes : 1 Les probabilités de sélection sont égales pour tous les éléments de la base de sondage et valent le taux de sondage f = n/n. 2 L estimateur de la moyenne µ d une population U est alors : µ st = 1 n H h=1 ( nh ) Y i. i=1

Remarques 1 C est donc la moyenne calculée sur l échantillon qui estime la moyenne de la population. Ce que nous avons appelé en début de paragraphe, un sondage «auto pondéré». 2 Nous montrons, par calcul, que cet estimateur est sans biais.

Propriété La variance de l estimateur µ st, dans le cas d un sondage stratifié proportionnel devient alors : Remarque Var ( µ st ) = (1 f ) 1 n H h=1 N h N σ2 h,c Cette formule montre bien que plus les strates sont homogènes (variance intra-strates faible), plus la stratification est efficace.

Propriété Nous pouvons montrer que cette variance est liée à la variance de l estimateur µ issu du sondage aléatoire simple obtenu à partir du même nombre d unités tirées. En effet, nous avons : Var ( µ ) = Var ( µ st ) + (1 f ) 1 n H h=1 N h N ( Y h µ ) 2. Que pouvez-vous déduire de cette égalité?

Remarques 1 Nous en déduisons que le sondage stratifié représentatif a une variance d estimateur toujours plus petite ou égale à la variance de l estimateur du sondage aléatoire simple. 2 La variance de l estimateur sera d autant plus petite que les strates ont des moyennes différentes de µ.

Nous expliquons ce résultat en se rappelant que Définition Le sondage stratifié est basé sur le principe de : forcer le hasard imposer à l échantillon de représenter la population strate par strate.

Remarque Mais cette formule pose toujours le même problème. Nous ne connaissons pas la variance corrigée dans chacune des strates. Donc nous devons estimer cette variance. Définition Un estimateur de la variance de µ st se définit alors par Var ( µ st ) = (1 f ) 1 n H h=1 N h N s2 h,c.

Retour à l estimation du montant moyen des comptes des clients de la société bancaire. Nous avons : µ st = µ = 21, 2 s 2 intra = 0, 8 85 + 0, 2 930 = 254.

Si les mêmes données étaient issues d un sondage aléatoire simple, nous aurions : Var( µ ) 338, 56 + 254 200 = 2, 96. Comme elles sont issues d une allocation proportionnelle, nous avons alors : Var( µ st ) 254 = 1, 27. 200 La variance d échantillonnage a donc diminué de 57%.

Sommaire Introduction 1 Introduction 2 3 4 5 6

Définition La répartition de Neyman, ou encore appelée la répartition optimale, consiste à respecter l égalité : Remarque n h N h σ h,c = constante = n. k N h σ h,c h=1 Pour comprendre cette égalité, nous renvoyons aux pages 129 et 130 du livre «Théorie des sondages» de Yves Tillé.

Remarques 1 Cette répartition utilise un taux de sondage f proportionnel à la dispersion σ h,c de la variable Y étudiée dans chaque strate. 2 Plus une strate est hétérogène vis-à-vis de Y, plus nous utilisons un taux de sondage f important. 3 La théorie montre que cette répartition est celle qui fournit la variance la plus faible une fois les strates déterminées.

Remarques 1 L application de la formule pour calculer la répartition de Neyman suppose connues a priori les valeurs σ h,c. Ce peut être le cas à partir d études antérieures au sondage, mais en général il n en est pas ainsi. 2 Lorsque le critère de stratification est la taille des unités, nous constatons que l écart-type est sensiblement proportionnel à la taille moyenne des unités de la strate. C est un ordre de grandeur de cette taille moyenne que nous utilisons pour calculer la répartition des individus entre les strates.

Remarques 1 En pratique, nous utilisons la répartition de Neyman quand le phénomène étudié a une distribution très dissymétrique. 2 Par contre, si ce phénomène a une distribution symétrique par rapport à sa moyenne, une allocation proportionnelle fournit des résultats d une qualité suffisante.

Retour à l exemple des comptes des clients de la société bancaire Nous tirons un échantillon de 200 clients de la société bancaire. Nous avons le choix entre : la répartition proportionnelle (les calculs ont déjà été faits) ; la répartition optimale.

Remarque Remarquons que l échantillon de Neyman dépend du caractère que nous voulons estimer en priorité. C est pour ce caractère que nous prendrons la variance en considération. En général, celle-ci ne sera pas connue a priori. Elle pourra être estimée à partir d une enquête antérieure ou d études limitées.

Suite de l exemple des comptes des clients de la société bancaire La répartition optimale est composée de : 110 «petits clients» contre 160 et de 90 «gros clients» contre 40, 90 pour tenir compte de la plus grande variance de ces derniers. Le calcul montre que la variance d échantillonnage aurait été égale à 0, 91 au lieu de 1, 27. La variance d échantillonnage aurait encore diminué par rapport à l allocation proportionnelle avec un gain de 28%.

Remarques 1 Ainsi, nous perdons en simplicité des calculs de l allocation proportionnelle puisque l échantillon n est plus autopondéré, mais nous gagnons en précision. 2 C est en vertu de considérations de cet ordre que, par exemple, les échantillons d entreprises stratifiées par tranches de taille (moins de 10 salariés, de 10 à 50 salariés, etc.) sont répartis, non pas au prorata du nombre d entreprises des tranches, mais au prorata du nombre total de salariés ou du chiffre d affaires total.

Sommaire Introduction 1 Introduction 2 3 4 5 6

L idée : Déterminer des strates les plus homogènes possibles, par rapport au sujet étudié. Deux types de considérations vont conduire au choix des critères de stratification : 1. disponibilité des critères dans la base de sondage ; 2. pertinence des différents critères pour créer des strates homogènes. Ceci nécessite une connaissance soit intuitive, soit venant d études réalisées antérieurement.

Nous prendrons généralement comme critères : des critères relevant d une typologie (par exemple la catégorie sociale) ; des critères de taille (prenant par exemple en compte le nombre de personnes du ménage) ; souvent en les croisant ensemble.

Au niveau des unités de sondage «géographiques» : Exemple : Pour les villes stratification selon la région, l activité dominante des localités. Nous séparons souvent milieu rural et milieu urbain. Au niveau des ménages ou des individus : Utilisation des critères qui peuvent être en corrélation avec le sujet d étude. Exemple : la CSP, le niveau d étude, la taille du ménage, le type d habitation, etc...

Une stratification peut être : très efficace pour l étude d un phénomène, par exemple la mortalité, très peu efficace pour l étude d autres phénomènes, par exemple l activité économique. Cette situation se présente avec une acuité particulière lorsqu un échantillon est destiné à des études à objectifs multiples.

Attention : Plus nous multiplions les strates, plus le gain d efficacité devient faible. De plus, les résultats calculés au niveau de chaque strate ne sont plus significatifs en raison de la petite taille de l échantillon.