SONDAGES STRATIFIES. Philippe Périé & Gilbert Saporta. STA108, 26 octobre 2012

Documents pareils
STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Théorie des sondages : cours 5

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Chapitre 3 : INFERENCE

La nouvelle planification de l échantillonnage

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Imputation du salaire d ego dans TeO

La représentativité d un échantillon et son test par le Khi-deux Testing the representativeness of a sample

L INSEE EN BREF. L Insee en bref. La mesure du chômage par l Insee. N 4 Septembre Combien y a t il de chômeurs en France?

Yourcegid Fiscalité On Demand

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Audit du CESP Etude ONE Juillet juin 2014

CONCEPTION ET TIRAGE DE L ÉCHANTILLON

PROBABILITES ET STATISTIQUE I&II

La diffusion des résultats statistiques du recensement de la population

FORMULAIRE DE STATISTIQUES

Estimation et tests statistiques, TD 5. Solutions

Audit du CESP Etude ONE 2011 (Echantillon principal)

Yourcegid Consolidation On Demand

CONCOURS D ENTREE AU CYCLE SUPERIEUR

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

+ 34,7 % 1. Le budget. L Budget exécuté 2006 à 2009 de la CNSA et budget prévisionnel entre 2006 et 2009.

Observatoire Economique et Statistique d Afrique Subsaharienne

Arbres binaires de décision

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

MARCHE PUBLIC EN PROCEDURE ADAPTEE POUR LA REALISATION D UN SONDAGE TELEPHONIQUE AUPRES DES HABITANTS DE L AGGLOMERATIONGRENOBLOISE

MATHÉMATIQUES ET SCIENCES HUMAINES

Analyse en Composantes Principales

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

La consolidation comptable

Solution de jeu concours «Scratch2Win»

Chapitre 2 : Systèmes radio mobiles et concepts cellulaires

Statistique descriptive. Fabrice MAZEROLLE Professeur de sciences économiques Université Paul Cézanne. Notes de cours

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

INITIATION AUX METHODES DE SONDAGE

SYNTHÈSE DOSSIER 1 Introduction à la prospection

3. Caractéristiques et fonctions d une v.a.

Echantillonnage INTRODUCTION. Module 1

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Programmation linéaire

DIVISION DE CAEN Hérouville-Saint-Clair, le 15 octobre 2013

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Évaluations aléatoires : Comment tirer au sort?

Article. Peut-on établir des statistiques officielles à partir d enquêtes en ligne reposant sur le principe de l autosélection? par Jelke Bethlehem

Valeur verte des logements d après les bases Notariales BIEN et PERVAL Synthèse

Dérivation : cours. Dérivation dans R

La classification automatique de données quantitatives

Moments des variables aléatoires réelles

Nouveau Barème W.B.F. de points de victoire 4 à 48 donnes

Collecter des informations statistiques

LE TABLEAU DE BORD DE SUIVI DE L ACTIVITE

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

Enquête sur les investissements dans l industrie

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Description des variables de la base de données. a. Attractivité démographique pour les différents types de population

Guide d établissement des budgets des propositions soumises aux appels à projets de

à moyen Risque moyen Risq à élevé Risque élevé Risq e Risque faible à moyen Risq Risque moyen à élevé Risq

Statistique Descriptive Élémentaire

La qualité des services mobiles en France métropolitaine

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

POINTS DE VUE DES CANADIENS SUR LA COUVERTURE DES MÉDICAMENTS D ORDONNANCE

Journal officiel de l Union européenne L 297/51

Conditions particulières Infinity Télécom OFFRES ASCENSEURS France Métropolitaine V2.1 - Septembre 2014

Régression linéaire. Nicolas Turenne INRA

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Car Insurance Survey. L assurance automobile RC chez les jeunes. Statistics Belgium. Rapport final

Quadra Entreprise On Demand

Feuille d exercices 2 : Espaces probabilisés

I. Introduction aux fonctions : les fonctions standards

Les stratégies marketing

TABLE DES MATIERES. C Exercices complémentaires 42

Les forfaits bloqués M6mobile ÑçêÑ~áí=NVIVVb= ========= ~îéå=éåö~öéãéåí=çé=oq= ãçáë= ÑçêÑ~áí=OOIVVb= ========= ~îéå=éåö~öéãéåí=çé=no= ãçáë=

I. Cas de l équiprobabilité

VI. Tests non paramétriques sur un échantillon

Un outil pour l étude des dépenses de santé et des «restes à charge» des ménages : le modèle Omar

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

Comment s exerce l autorisation parentale de sortie de l enfant du territoire national ou l opposition à cette sortie?

BAROMÈTRE DE L ÉCONOMIE NUMÉRIQUE

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Evolution du pouvoir d'achat du point d'indice net majoré (INM) depuis le 1er janvier 2000

Prestations de nettoyage et d entretien des locaux, y compris la vitrerie de la Maison des Services Publics (MSP)

Dérivés Financiers Contrats à terme

Le risque Idiosyncrasique

données en connaissance et en actions?

GUIDE PRATIQUE DU CHAI GUIDE D AUDIT DE LA FONCTION ACHAT

Les Formules d Assistance Sage. > Êtes-vous certain. d être bien. accompagné?

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Probabilités Loi binomiale Exercices corrigés

REGLEMENT COMPLET «JEU BONS PLANS ETUDIANTS EN PARTENARIAT AVEC NRJ Mobile»

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011

FOTO - L OMNIBUS MENSUEL DE CROP LE NOUVEAU CROP-EXPRESS

Transcription:

SONDAGES STRATIFIES Pilippe Périé & Gilbert Saporta STA108, 6 octobre 01

Information auxiliaire

STRATIFICATION Idée e : S il existe dans la base de sondage un critère re permettant de distinguer a priori entre eux les individus, on aura tout à gagner à utiliser cette information pour répartir r l él écantillon dans caque sous-population. C est le principe de la stratification: découper d la population en sous ensembles omogènes appelés s strates et réaliser r un sondage dans cacune d elles. d La stratification a pour objectifs de pour objectif de diminuer la variance, augmenter la précision

Intuition Dans un sondage aléatoire simple, toutes les combinaisons de n éléments parmi N sont possibles avec la même probabilité. Or, il arrive que certaines d entre elles puissent s avérer a priori indésirables N=5 Variable d intérêt Y {13 15 17 5 30} dépôt en k Ymoy = 0 Recensement des résultats possibles n= Par exemple, parmi ces écantillons de unités, on trouve les cas extrêmes (13, 15) et (5, 30) qui sont particulièrement «mauvais». S il existe dans la base de sondage un critère permettant de distinguer a priori les catégories des petits et gros clients, on aura tout à gagner à utiliser cette information pour répartir l écantillon dans caque souspopulation. 4

Intuition Le principe de la stratification : Découper la population en sous-ensembles appelés strates et réaliser un sondage dans cacune d elles : on espère ainsi exclure les écantillons extrêmes, et - plus généralement améliorer la précision des estimateurs (On a vu qu à taille égale un écantillon est plus efficace dans une population omogène que dans une population étérogène. Plus précisément, l erreur type d estimation est lié à la variance du caractère étudié dans la population.) Caque sondage partiel s effectuera ainsi de façon plus efficace et l assemblage de sondages partiels plus précis donnera des résultats plus fiables qu un sondage de même taille effectué «en vrac» La plupart des fois la stratification correspond par ailleurs à un objectif de réduction des coûts d enquête ou d optimisation de sa gestion C est en particulier le cas lorsque l on utilise un critère de découpage géograpique comme la région, ou, dans les écantillon d entreprise, un critère sectoriel permettant de spécialiser les enquêteurs 5

Intuition N=5 Variable d intérêt Y {13 15 17 5 30} dépôt en k Ymoy = 0 Écantillons avec stratification n= (un cez les petits, un cez les grands) L unité écantillonnée dans la première strate est désignée pour en représenter trois, celle de la deuxième strate vaut pour deux. Il convient donc de pondérer caque valeur par le poids de la strate dont elle est issue 3 ymoy y y 5 5 1 On peut vérifier que la moyenne des six valeurs réalisables pour ymoy est encore 0. Cela signifie que la variable aléatoire ymoy a Ymoy pour espérance matématique et qu elle est donc un estimateur sans biais pour ce paramètre. 6

Intuition N=5 Variable d intérêt Y {13 15 17 5 30} dépôt en k Ymoy = 0 Écantillons avec stratification n= (un cez les petits, un cez les grands) On remarque également que la plage des estimations est beaucoup plus resserrée autour de la cible que dans le cas du SAS : les valeurs extrêmes sont moins éloignées, l erreur type (c est-à-dire la racine carrée de la variance des six valeurs) vaut 1,40 au lieu de 3,95. 7

STRATIFICATION Déterminer des strates les plus omogènes possibles, par rapport au sujet étudié. types de considérations vont conduire au coix des critères res de stratification : 1. disponibilité des critères res dans la base de sondage ;. pertinence des différents critères res pour créer des strates omogènes. Ceci nécessite n une connaissance soit intuitive, soit venant d éd études réalisr alisées antérieurement. 8

STRATIFICATION PH Utilisation tilisation d uned information auxiliaire qualitative Toujours efficace P1 S1 P S kj 9

STRATIFICATION, notations PH Strates: N 1, N...N...N H Y, Y... Y... Y 1,...... 1 H H N N P1 P S S1 N Y Y N N N Y Y N N kj Écantillon: nn,,... n,... n 1 1 H yy,,... y,... y H ˆ, ˆ,... ˆ... ˆ 1 H n n y n y n 10

STRATIFICATION N N Y Y N N W B Variance totale= moyenne des variances ( (variance intra) +variance des moyennes ( (variance inter) 11

STRATIFICATION Pour la suite, on se placera dans le cas d un d tirage aléatoire atoire simple sans remise, à l intérieur de caque strate. 1

STRATIFICATION Estimateur sans biais de Y (Horvitz Tomson) Y ˆ str N N Variance: y H ( ˆ N N Nn VYstr) V( y ) N 1 N n N 1 1 N H 1 S N( Nn) n 13

STRATIFICATION, répartition proportionnelle Écantillon dit «représentatif»: n N n n n N N N Taux de sondage constant dans caque strate ˆ N n Y y y y Y H H ˆ str prop 1 N 1 n 14

STRATIFICATION, répartition proportionnelle variance : H H ( ˆ 1 S 1 Nn VY ) N( N n) NS N n N n prop 1 1 H H H 1 N 1 N Nn N ( 1) NS ( 1) NS S N n N n nn N 1 1 1 Si N est grand: H H Nn N Nn N Nn w prop S nn 1 N nn 1 N N n VY ( ˆ ) 15

STRATIFICATION, répartition proportionnelle Variance de l estimateur l du SAS sans remise: V n S N n S N n ( y) ( 1 ) N n N n N n Avec les mêmes probabilités s d inclusion d d ordre d 1, l écantillon stratifié représentatif est plus efficace qu un un écantillon simple de même taille dès d s que les Y sont différents. 16

STRATIFICATION optimale Répartition optimale: VY ( ) str avec 1 N S N N n n N N 1 S c coût t unitaire d une d observation N N n min n c c 0 n N S N S n fixe S 17

Solution: STRATIFICATION optimale n N N n S S c proportionnel à c Si c c constant: n n NS NS - Répartition de Neyman 18

STRATIFICATION optimale Cette répartition r utilise un taux de sondage f proportionnel à la dispersion S de X étudiée dans caque strate. Plus une strate est étérog rogène vis-à-vis de la variable étudiée, plus on utilise un taux de sondage important. La téorie montre que cette répartition r est celle qui fournit la variance la plus faible une fois les strates détermind terminées. es. 19

STRATIFICATION optimale Remarquons que l él écantillon de Neyman dépend du caractère re que l on l veut estimer en priorité.. C est C pour ce caractère re que l on l prendra la variance en considération. En général, g celle-ci ci ne sera pas connue a priori. Elle pourra être estimée à partir d une d enquête antérieure ou d éd études limitées. 0

STRATIFICATION Exemple n n 1: présondage de 155 unités Strates 1 3 4 3750 37 1387 475 10 884 N 50 45 30 30 155 n y 1.6 14.5 18.6 13.8 ˆ.8.9 4.8 3. 1

Exemple n n 1: STRATIFICATION Y N y N 10884 Intervalle de confiance à 95% pour Y : Pour T: 3750x1.6... 475x13.8 14.1 ˆ N ( ) 0.0059 (0.14) V Y N n 14.1 x 0.14 soit: 13.93 Y 15466 3047

Exemple n n 1: On estime: par STRATIFICATION N N Y Y N N Y ˆ n str n 1 Y par y Y par ˆ Y str 6.06.46 3

STRATIFICATION Suite: Répartition R de Neyman pour n=1000: N1 S1 = 675 n1 = 1000 x 675/19 31 = 35 N S = 557 n = 88 N3 S3 = 3038 n3 = 157 N4 S4 = 447 n4 = 9 19 31 Variance: 1 N N N n Y connu à + x 0.054 soit + 0.108 T connu à + 1179 n S 0.009 0.054 4

STRATIFICATION Écantillon simple à 1000: Y Nn 0.0055 0.074 n N1 connu à + 0.15; T connu à + 1615 Écantillon stratifié représentatif: n1 = 345 n = 301 n3 = 17 n4 = 7 5

STRATIFICATION Estimation d une d proportion p Même démarce: d une proportion est une moyenne particulière re pˆ str V( pˆ ) str H 1 N N f H N p (1 p ) N n N n N 1 1 H ˆ (1 ) ( ˆ N f f n V pstr ) 1 1 N n N 6

Comment stratifier? STRATIFICATION Remarque préalable: dans un sondage à probabilité inégale i proportionnel à Yi annule la variance. Nombre de strates: le maximum mais Limites de strates optimales: métode de Dalenius et Hodges. Regrouper des classes selon le cumul de la racine des effectifs 7

STRATIFICATION Répartition partition dans les strates: Si S inconnu : répartition proportionnelle Si S connu: Neyman S Sinon, ypotèse fréquente c d où d n Y proportionnel à la somme de la variable étudiée e ou d une variable corrélée. Exemple: écantillon d entreprises d proportionnel au CA ou à l effectif de la strate. 8

STRATIFICATION Variable de stratification: en téorie Y; sinon, variable bien corrélée e avec Y. En pratique quand il y a plusieurs variables d intd intérêt et une variable de stratification, on utilise la répartition r proportionnelle 9

Exemples Enquêtes INSEE auprès s des entreprises, sondages BB en institut. «Le plan de sondage des enquêtes de l'insee auprès des entreprises est en général un plan de sondage stratifié avec un sondage aléatoire simple sans remise dans caque strate.» 30

Exemples Indice des prix ttp://www.insee.fr/fr/metodes/default.asp?page=sources/ope-ipc.tm ipc.tm «Le plan de sondage est stratifié selon trois types de critères : - critère géograpique : les relevés sont effectués dans 96 agglomérations de plus de 000 abitants dispersées sur le territoire métropolitain et de toute taille ainsi que 10 agglomérations dans les DOM ; - type de produit : un écantillon d'un peu plus de 1000 familles de produits, appelées "variétés" est défini pour tenir compte de l'étérogénéité des produits au sein des postes. La variété est le niveau de base pour le suivi des produits et le calcul de l'indice. La liste des variétés reste confidentielle et l'ipc n'est pas diffusé à ce niveau ; - type de point de vente : un écantillon de 7 000 points de vente, stratifié par forme de vente, a été constitué pour représenter la diversité des produits et modes d'acat des consommateurs et prendre en compte des variations de prix différenciées selon les formes de vente. Le croisement de ces différents critères aboutit à suivre un peu plus de 140 000 séries (produits précis dans un point de vente donné) donnant lieu à près de 160 000 relevés mensuels.» 31

Taille des strates Autres considérations Dans la pratique, d autres d considérations que la précision optimale peuvent guider l allocation l dans les strates, comme la nécessitn cessité d avoir des bases de lectures suffisantes sur caque strate L étude d audience d de la presse Audipresse ONE part d une d répartition géograpique g proportionnelle, à partir de laquelle on impose des seuils minimaux dans caque département. d Citons aussi le type d abonnement d pour le secteur des télécoms, t les classes d anciennetd ancienneté,, les canaux de recrutement des client pour les études de satisfaction,. 3