a) Considérons le cas où N est un multiple de n : N = Mn



Documents pareils
STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Théorie des sondages : cours 5

Chapitre 3 : INFERENCE

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

La nouvelle planification de l échantillonnage

CONCEPTION ET TIRAGE DE L ÉCHANTILLON

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

Observatoire Economique et Statistique d Afrique Subsaharienne

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Enquête sur les indicateurs du paludisme

Fiche qualité relative à l enquête Santé et Itinéraire Professionnel 2010 (SIP) Carte d identité de l enquête

INITIATION AUX METHODES DE SONDAGE

DÉCISIONS À PRENDRE AVANT DE COMMENCER

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Probabilités sur un univers fini

Statistique : Résumé de cours et méthodes

Les Français et le libéralisme

23. Interprétation clinique des mesures de l effet traitement

Probabilités sur un univers fini

Chapitre 3 - L'enquête descriptive simple

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Annexe commune aux séries ES, L et S : boîtes et quantiles

Lois de probabilité. Anita Burgun

Impact du mobile banking sur les comportements d épargne et de transferts à Madagascar. Florence Arestoff Baptiste Venet

Chapitre 11 METHODOLOGIE D ENQUÊTES

Evaluation générale de la qualité des données par âge et sexe

Les Français et les nuisances sonores

Statistiques Descriptives à une dimension

Les Français et les complémentaires santé

Introduction à l approche bootstrap

Les Français et la publicité sur les Réseaux Sociaux

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

CORRIGES DES CAS TRANSVERSAUX. Corrigés des cas : Emprunts

FM N Contact Ifop : Frédéric Micheau Tél : frederic.micheau@ifop.com. pour

CECOP. Centre d études et de connaissances sur l opinion publique. Les Français, leur épargne et leur retraite

Chapitre 8. Estimation de la valeur d un bien immobilier

SPHINX Logiciel de dépouillement d enquêtes

Consolidation de jeux de données pour la prospective : la génération d une population synthétique pour les communes de Belgique

VoIP, Mobile Office & M2M Equipements et projets d équipements

Intermédiaires de commerce non spécialisé. Echantillon : 1263 Données : 2014

Projet de mise en place de l Enquête Emploi du temps en Algérie

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

Car Insurance Survey. L assurance automobile RC chez les jeunes. Statistics Belgium. Rapport final

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Statistique Descriptive Élémentaire

Les lieux de travail d hier, d aujourd hui et de demain, vus par les salariés

Résultats du sondage sur la collaboration entre les CSSS et la première ligne médicale hors établissement

Déclin des groupes visés par l équité en matière d emploi lors du recrutement. Étude de la Commission de la fonction publique du Canada

Lambotte J.-M. Géographe-Urbaniste. Chercheur au Lepur ULg. Semaine Universitaire Luxembourgeoise de l'environnement - Libramont

Le regard des Français sur le secret des échanges entre un avocat et son client. IFOP pour Ordre des avocats de Paris

Séries Statistiques Simples

Le recensement, c est quoi? campagne 2011

Les Français et les nuisances sonores. Ifop pour Ministère de l Ecologie, du Développement Durable et de l Energie

MODÈLE CROP DE CALIBRATION DES PANELS WEB

Critère du choix des variables auxiliaires à utiliser dans l'estimateur par calage

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

LE NIVEAU ÉLEVÉ DE LA DETTE à la consommation

Regards de Français sur les objets connectés dans le domaine de l assurance

L analyse de la gestion de la clientèle

PHP 2 Pratique en santé publique fondée sur des données probantes

PRXSENTATION D UN GESTIONNAIRE DE DONNEES NUMERIQUES HIERARCHISEES DESTINE AU DE- -POUILLEMENT D ENQUETES

Audit du CESP Etude ONE 2011 (Echantillon principal)

FD/FACD N Contacts IFOP : Frédéric Dabi / Flore-Aline Colmet Daâge

Principe d un test statistique

Les bases de données

En 2014, comment mener à bien une enquête aléatoire en population générale par téléphone?

Résultats de l enquête EPCI

Tests statistiques et régressions logistiques sous R, avec prise en compte des plans d échantillonnage complexes

Système d Information pour la Gestion de l Education (S.I.G.E.)

La représentativité d un échantillon et son test par le Khi-deux Testing the representativeness of a sample

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Formation PME Comptabilité analytique (ou comptabilité d exploitation)

JF/EP N Contacts IFOP : Jérôme Fourquet / Esteban Pratviel Tél : jerome.fourquet@ifop.com. pour

Le suivi de la qualité. Méthode MSP : généralités

FM/BS N Contact Ifop: Frédéric Micheau / Bénédicte Simon Département Opinion et Stratégies d'entreprise

1/ 10 BE001 21/03/ Numéro BDA: Formulaire standard 3 - FR Outil BPM

La mobilité professionnelle revêt

L INTEGRATION D UN NOUVEAU COLLABORATEUR

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Les Français et le courrier publicitaire. Rapport

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Endettement des jeunes adultes

FOTO - L OMNIBUS MENSUEL DE CROP LE NOUVEAU CROP-EXPRESS

Utilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Etude sur l équipement des TPE / PME. en complémentaire santé

LES MODES D ADAPTATION ET DE COMPENSATION DU HANDICAP : Les personnes handicapées motrices à domicile (enquête HID 1999)

Ouverture d'un point de vente L étude de la zone de chalandise.

Estimation: intervalle de fluctuation et de confiance. Mars IREM: groupe Proba-Stat. Fluctuation. Confiance. dans les programmes comparaison

GUIDE PRATIQUE DU CHAI GUIDE D AUDIT DE LA FONCTION ACHAT

Les micro-entrepreneurs, les travailleurs non-salariés, la crise et l assurance

Étude nationale sur les besoins des clients


Le lean représente-t-il le travail du futur?

Sommaire La méthodologie Les résultats de l'étude... 4

Relation entre deux variables : estimation de la corrélation linéaire

Transcription:

5.2 TIRAGE SYSTEMATIQUE a) Considérons le cas où N est un multiple de n : N = Mn où M N 0 Prélever un échantillon systématique consiste à tirer de manière équiprobable un individu i 1 parmi {1,..., M}, puis à constituer s = {i 1, i 1 + M, i 1 + 2M,..., i 1 + (n 1)M} (mécanisme de tirage déterministe initialisé de façon aléatoire) M est appelé le pas du tirage. Exemple N = 1 000, n = 10 pas =M = 1 000 10 = 100 Choix de i 1 : 27 s = {27, 127, 227,..., 927} 1

Ceci est équivalent à un tirage d une grappe (m = 1) parmi les M grappes U 1, U 2,..., U g,..., U M de tailles égales (N 0 = n) où, pour g {1,..., M}, U g = {g, g + M, g + 2M,..., g + (n 1)M}. (GRTE) { ˆµ = y = moyenne de la grappe sélectionnée ˆτ = Ny b) Considérons le cas général : N n est pas nécessairement un multiple de n Choisir un nombre u entre 0 et 1 (par générateur aléatoire : u = valeur de X U(0, 1)) Individus sélectionnés : pour k = 1,..., n, i k = 1 + (k 1 + u) N n où = partie entière du nombre N.B.) La procédure ci-dessus convient aussi dans le cas où N est un multiple de n. 2

Exemple : N = 1 274, n = 10 N n = 127.4 Choix de u : 0.2674 (générateur aléatoire) 1er élu : 1 + (0.2674)(127.4) = 1 + 34.067 = 1 + 34 = 35 2ème élu : 1+ (1 + 0.2674)(127.4) = 1+ 161.47 = 1 + 161 = 162 3ème élu : 1+ (2 + 0.2674)(127.4) = 1+ 288.87 = 1 + 288 = 289. 10ème élu : 1+ (9 + 0.2674)(127.4) == 1+ 1 180.67 = 1 + 1 180 = 1 181 Mêmes caractéristiques que dans le cas où N est un multiple de n. 3

Remarques : 1) Si on se fixe le pas du tirage égal à un entier : n devient aléatoire. Exemple : N = 1 000 ; pas = 400 Premier élu : i 1 {1, 2,..., 400} (tirage équiprobable) Si i 1 200, alors S = {i 1, i 1 + 400, i 1 + 800} Si i 1 > 200, alors S = {i 1, i 1 + 400} Cette procédure s avère bien utile quand N est inconnu. Ex. : Utilité pour des tirages successifs dans le temps 2) Si la base de sondage est triée aléatoirement, le tirage systématique équivaut au PESR (la méthode du sondage systématique est alors équivalente à la méthode du tri aléatoire (cf. section 2.11.1)). Si la base de sondage est triée selon une certaine variable auxiliaire, le sondage systématique équivaut à un sondage stratifié proportionnel. Si la variable auxiliaire est bien liée à la variable d intérêt, on a alors un gain en précision par rapport au PESR. Ex. : Si un fichier d entreprises est trié selon la taille de celles-ci, un tirage systématique respectera automatiquement les proportions de chaque catégorie de taille. Dans ce cas, si la variable d intérêt est liée à la 4

taille des entreprises, le gain de précision par rapport au PESR sera important. Si le pas du tirage systématique est égal à une périodicité dans la base de sondage : perte de précision! Ex. : On tire un logement sur 10 dans un quartier où tous les immeubles comptent 5 étages. On peut alors ne sélectionner que des rez-de-chaussée, par exemple. Si ce problème se présente, l estimateur sera entaché d un biais très difficile à corriger. 5

5.3 SONDAGE A DEUX DEGRES 5.3.1 Principe U est partagée en M unités primaires (UP) - ou souspopulations -, elles-mêmes composées d unités secondaires (US). On sélectionne un échantillon d unités primaires. Ensuite, dans chaque unité primaire sélectionnée, on prélève un échantillon d unités secondaires. 6

L intérêt des plans à deux degrés est évident dans les deux cas suivants : Quand il n existe pas d information sur les unités d intérêt, il n est pas possible de les sélectionner directement selon un plan de sondage aléatoire. On échantillonne alors des unités intermédiaires (dites unités primaires) dont les caractéristiques sont bien connues. Ensuite, on dénombre les unités d intérêt dans les unités primaires sélectionnées pour y réaliser ensuite un second échantillonnage. Il n est donc pas nécessaire de disposer d une base de sondage complète des unités d intérêt pour réaliser le sondage. Quand les unités d intérêt sont réparties sur un grand territoire, les coûts de déplacement des enquêteurs peuvent devenir très élevés. On essaie alors de regrouper les unités d intérêt à enquêter de manière à réaliser une économie de coût. Ex. : Pour un sondage sur des ménages, on peut d abord sélectionner un échantillon de communes. Ensuite, dans les communes sélectionnées, on prélève un échantillon de ménages. On diminue ainsi fortement les déplacements des enquêteurs puisque les ménages sélectionnés se situent dans un nombre restreint de communes. De plus, on ne doit recenser les ménages que dans les communes sélectionnées. On réalise ainsi une importante économie de moyens dans l organisation de la collecte. 7

5.3.2 Population U est partagée en M unités primaires (UP) notées U 1, U 2,..., U M : U PRIM = {U 1, U 2,..., U M } = {1, 2,..., M} U h (h {1,..., M}) est composée de N h unités secondaires (US) Taille de U : N = M h=1 N h Valeur de Y pour la ième US de la hème UP : y h;i (i = 1,..., N h ) Dans la hème UP : Total : τ h = N h i=1 y h;i Moyenne : µ h = τ h N h Variance : σ 2 h = 1 N h Nh i=1 (y h;i µ h ) 2 Variance corrigée : σ 2 h;corr = 1 N h 1 Nh i=1 (y h;i µ h ) 2 8

Dans la population U : Total : τ = M h=1 τ h Moyenne : µ = τ N Total moyen par UP : µ τ = τ M Variance : σ 2 = 1 N M h=1 Nh i=1 (y h;i µ) 2 Variance corrigée : σ 2 corr = 1 N 1 M h=1 Nh i=1 (y h;i µ) 2 9

5.3.3 Echantillon Premier degré du sondage : On choisit m unités primaires parmi les M UP : S PRIM U PRIM Deuxième degré du sondage : Dans chaque U h sélectionnée (h S PRIM ), on prélève n h US : S h U h (h S PRIM ) Echantillon final : S = h S PRIM S h Taille (aléatoire) de l échantillon S : n S = h S PRIM n h 10

Remarque Les plans de sondage à deux degrés doivent posséder les propriétés d invariance et d indépendance : - invariance : les plans de sondage (cf. probas de sélection et d inclusion) appliqués au 2e degré (dans les UP sélectionnées au 1er degré) ne dépendent en aucune façon du plan de sondage appliqué au premier degré ; - indépendance : les tirages (du 2e degré) qui se font dans une UP sont indépendants de ceux qui se font dans les autres UP sélectionnées au 1er degré (comme en stratification). 11

5.3.4 Tirages PESR aux deux degrés Considérons l estimation du total τ de la population. a) Première étape : estimation de τ h pour tout h S PRIM Tirage PESR des US dans la hème UP Pour tout i U h : P(i S h ) = n h = taux de sondage dans la hème UP N h (estimateur de Horvitz-Thompson) ˆτ h = y h;i = N h 1 y h;i = N h y n h /N h n h h i S h i S h où y h est la moyenne des observations prélevées dans la hème UP. b) Deuxième étape : estimation de τ Tirage PESR des UP dans la population U PRIM Pour tout h U PRIM : P(h S PRIM ) = m M = taux de sondage dans U PRIM (estimateur de Horvitz-Thompson) ˆτ = ˆτ h m/m = M ˆτ h m h S PRIM h S PRIM 12

Puisque µ = τ N, on a aussi ˆµ = ˆτ N = M ˆτ h mn h S PRIM = M N h m N y h h S PRIM Propriétés de ˆτ Pour tout h S PRIM : E(ˆτ h ) = τ h Var(ˆτ h ) = Nh 2(1 f 2h) σ2 h;corr n h où f 2h = n h N est le taux de sondage du deuxième degré h associé à la hème UP choisie. On montre que E(ˆτ) = τ : ˆτ est un estimateur sans biais de τ Var(ˆτ) = M 2(1 f 1) m σ2 τ;corr+ M m M h=1 N 2 h(1 f 2h ) σ2 h;corr n h où f 1 = m M est le taux de sondage du premier degré στ;corr 2 est la variance corrigée des totaux τ h (h = 1,..., M) dans la population U PRIM 13

Var(ˆτ) est composée de 2 termes : le premier porte sur la dispersion des totaux τ h (h = 1,..., M) dans la population U PRIM, le second est lié à la dispersion au sein des unités primaires. Exemple (Tryfos (1996), p.123) Une fois par an, le Consumer Survey Bureau (CSB) conduit une vaste enquête sur les dépenses des ménages dans une ville donnée. L Office du Recensement (Office of the Census) divise la ville en Enumeration Areas (EAs) correspondant à des quartiers de grandes dimensions. Le CSB dispose ainsi de cartes détaillées de chaque EA, ainsi que d information additionnelle fournie par le dernier recensement. Pour son enquête, le CSB sélectionne par tirage PESR un certain nombre de EAs et, dans un second temps, également par tirage PESR, un certain nombre de ménages dans chaque EA sélectionnée. Un enquêteur rend visite à chaque ménage sélectionné et demande au chef du ménage de remplir un questionnaire. Illustrons le calcul des estimations pour deux questions du questionnaire : Quelle somme a dépensé votre ménage pour l habillement au cours du dernier mois? ($... ) et Possédez-vous une chaîne HI-FI? ( - Oui - Non). La ville est divisée en M = 200 EAs. Le dernier recensement montre qu il y a N = 60000 ménages dans la ville. Supposons que m = 4 EAs soient sélectionnées au premier degré (ceci pour illustrer simplement les calculs ; en pratique, un nombre beaucoup plus élevé de EAs devrait être prélevé). 14

Le tableau ci-dessous reprend les données utiles : N h est le nombre de ménages dans la hème EA sélectionnée (nombre donné par le dernier recensement), n h est le nombre de ménages prélevés dans la hème EA sélectionnée, y h est la dépense moyenne en habillement (en $) de ces n h ménages au cours du mois précédant le sondage et ˆπ h est la proportion de ménages possédant une chaîne HI-FI parmi ces n h ménages. EA, h N h n h y h ˆπ h 29 250 50 95.0 0.75 67 310 60 84.0 0.92 102 340 70 75.5 0.83 143 280 55 90.3 0.95 L estimation à deux degrés du montant moyen dépensé par les ménages de la ville pour l habillement au cours du mois précédant le sondage est ˆµ = 200 ( 250 4 = 83.95 $ 310 (95.0) + 60 000 60 000 ) 340 280 (84.0) + (75.5) + 60 000 60 000 (90.3) L estimation à deux degrés de la proportion des ménages de la ville qui possèdent une chaîne HI-FI est ˆπ = 200 ( ) 250 310 340 280 (0.75) + (0.92) + (0.83) + 4 60 000 60 000 60 000 60 000 (0.95) = 0.851 15

5.3.5 Tirages PISR aux deux niveaux a) Probabilités d inclusion p (1) h p i h = probabilité de sélectionner la hème UP = probabilité d inclusion de la ième US étant donné que l on a choisi la hème UP probabilité d inclusion de la ième US (i U h ) : p i = p (1) h p i h b) Estimation de τ (estimateur de Horvitz-Thompson) ˆτ = y h;i p i i S h h S PRIM N.B.) Il faut introduire des probabilités d inclusion d ordre 2 pour étudier Var(ˆτ). 16

5.3.6 Tirage des UP avec probabilités inégales et des US avec probabilités égales a) Estimation de τ Première étape : estimation de τ h pour tout h S PRIM : Deuxième étape : ˆτ h = N h y h (PESR) Pour tout h U PRIM : p (1) h = probabilité de sélectionner la hème UP Estimateur de Horvitz-Thompson : ˆτ = ˆτ h p (1) h b) Cas particulier : tirage PPS h S PRIM Probabilité d inclusion des UP proportionnelle à la taille : p (1) h = mn h N Tirage PESR des US, de taille fixe : n h = n 0 pour tout h S PRIM S est de taille fixe : n = mn 0 p i h = taux de sondage dans U h (h S PRIM ) = n 0 N h 17

Probabilité d inclusion p i : p i = p (1) h p i h = m N h N n0 = mn 0 N h N = n N où n est la taille fixe de l échantillon global S. Toutes les US de la population ont la même probabilité d inclusion, correspondant au taux de sondage global dans la population. ˆτ = = N h S PRIM = Ny 1 n i S h y h;i n/n h S PRIM i S h y h;i où y est la moyenne de toutes les observations prélevées. Ce plan de sondage, appelé sondage à deux degrés autopondéré (car même proba. d inclusion pour tous les éléments de U alors que les UP sont sélectionnées à probas inégales), est très fréquemment utilisé en statistique officielle (les unités primaires sont des unités géographiques et les unités secondaires sont les individus ou les ménages). 18

5.4 SONDAGE A PLUSIEURS DEGRES Un sondage à trois degrés est un sondage à deux degrés dont le deuxième degré est un tirage à deux degrés (et ainsi de suite). De nombreux échantillons nationaux, par exemple, sont prélevés suivant une procédure de sondage à 4 degrés. (i) Au premier degré, un échantillon d aires géographiques est sélectionné à partir d une liste de telles aires recouvrant l entièreté du pays. (ii) Sur base de cartes, chaque aire géographique sélectionnée au premier degré est partitionnée en un certain nombre de sous-aires : des quartiers dans les villes, des aires géographiques délimitées par des autoroutes, des lignes ferroviaires, des rivières ou d autres frontières naturelles facilement identifiables dans les aires rurales. Dans chaque aire sélectionnée au premier degré, un échantillon de sous-aires est sélectionné au deuxième degré de la procédure de sondage. (iii) Une liste de tous les ménages est construite pour chaque sous-aire sélectionnée au deuxième degré, et un échantillon de ménages est sélectionné à partir de cette liste. 19

(iv) Des enquêteurs rendent visite aux ménages sélectionnés et établissent, pour chacun de ces ménages, la liste des membres du ménage. Sur base de ces listes, un échantillon d individus est prélevé dans chaque ménage sélectionné au 3ème degré. Les individus ainsi sélectionnés au 4ème degré de la procédure de sondage constituent l échantillon national. Un sondage à plusieurs degrés est parfois combiné avec un sondage stratifié, donnant ainsi lieu à une procédure appelée sondage combiné. Par exemple, les aires géographiques prises en compte au premier degré de la procédure de sélection de l échantillon national peuvent être stratifiées en un certain nombre de strates sur base de certains critères : en provinces ou en états sur base de la situation géographique, en aires urbaines ou rurales sur base du mode de vie, en aires fortement et faiblement peuplées sur base de la densité de la population, etc. Au lieu de sélectionner un échantillon d aires géographiques à partir de la liste entière, on peut sélectionner séparément un échantillon d aires dans chaque strate. Les trois degrés de sondage suivants peuvent ensuite être mis en oeuvre comme décrit ci-dessus. 20

5.5 GRAPPES, DEGRES ET STRATIFICATION Reprenons le schéma d un sondage à deux degrés : 1er degré : m UP parmi M (S PRIM ) 2ème degré : n h US parmi N h (h S PRIM ) Si m = M : stratification Si n h = N h : sondage en grappes Toutes choses égales par ailleurs, le sondage stratifié sera préféré au sondage à deux degrés lorsque la population est constituée de groupes relativement bien homogènes pour la variable d intérêt, formés sur base d une variable auxilaire étroitement liée à la variable d intérêt. Le sondage à deux degrés sera préféré au sondage stratifié lorsque la population est constituée de groupes qui sont similaires les uns aux autres, ainsi qu à la population dans son ensemble. 21