Méthodologie et traitement d'une enquête

Documents pareils
STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Théorie des sondages : cours 5

Chapitre 3 : INFERENCE

La nouvelle planification de l échantillonnage

Critère du choix des variables auxiliaires à utiliser dans l'estimateur par calage

1. Les types d enquêtes

CONCEPTION ET TIRAGE DE L ÉCHANTILLON

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Observatoire des politiques publiques :

Les Français et les complémentaires santé

Tablette tactile : la nouvelle nounou?

Investissement dans la construction de nouveaux bâtiments résidentiels (travaux mis en place) Méthodologie

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

ANALYSE GLOBALE DES PROGRAMMES DE LA SHQ. SQEP 18 novembre 2011

Probabilités conditionnelles Loi binomiale

Rapport Enquête de Conjoncture 1 er et 2 ème trimestres 2013

TRANSPORT ET LOGISTIQUE :

Evaluation de la variabilité d'un système de mesure

23. Interprétation clinique des mesures de l effet traitement

Lignes directrices de 2004 pour des sondages sur la satisfaction des demandeurs dans le cadre de l assurance-automobile

Introduction aux sondages

Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011

L information des Français vis-à-vis du nucléaire pour

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Guide méthodologique : Enquêtes en ligne

Chapitre 2/ La fonction de consommation et la fonction d épargne

Chapitre 11 METHODOLOGIE D ENQUÊTES

Lois de probabilité. Anita Burgun

Observatoire Economique et Statistique d Afrique Subsaharienne

Logiciel Le Sphinx Plus 2 version 5. Le Sphinx Développement Chavanod

POKER ET PROBABILITÉ

Prestations de soins et d assistance dispensées par les proches : temps investi et évaluation monétaire

Chapitre 3 - L'enquête descriptive simple

Introduction à la méthodologie de la recherche

Exercice du cours Gestion Financière à Court Terme : «Analyse d un reverse convertible»

Etude de marché. Idée de depart. Etude de l environnement et des offres existantes. Clients. actuels. Choix de la cible précise

Les groupes de médecine familiale (GMF) Sondage Omniweb. Dossier septembre 2012

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Évaluations aléatoires : Comment tirer au sort?

8 èmes Rencontres de l Épargne Salariale

Centre d Analyse Stratégique

PRÉSENTATION DES QUESTIONS DE LA FEUILLE DE LOGEMENT

Statistiques Descriptives à une dimension

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Gestion et animation de sites web. Synthèse

Les débats sur l évolution des

Du clic à la possession : Observatoire des attentes des e-consommateurs

ECR_DESCRIPTION CHAR(80), ECR_MONTANT NUMBER(10,2) NOT NULL, ECR_SENS CHAR(1) NOT NULL) ;

LES FRANÇAIS, L ÉPARGNE & LA RETRAITE

Les internautes et les comparateurs de prix

La politique européenne de la Mutualité Française en matière de dispositifs médicaux

Les Français et les nuisances sonores. Ifop pour Ministère de l Ecologie, du Développement Durable et de l Energie

La culture financière des Français

1. Introduction Création d'une requête...2

Pierre Marchand Consultant

ANNEXE 4. Réaliser un diagnostic de sécurité Principales méthodes de collecte d information. (Module 3, partie I, section 2.5)

Exercices sur le chapitre «Probabilités»

RESPONSABILITES ET ASSURANCE DANS LE DOMAINE ASSOCIATIF

Rappel sur les bases de données

Les salariés et les Jeux Olympiques de 2024 à Paris

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Les SCPI. François Longin 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

La rémunération de l apprenti :

APPLICATION DU SCN A L'EVALUATION DES REVENUS NON DECLARES DES MENAGES

Emploi et Formation Secteur Publicité

VoIP, Mobile Office & M2M Equipements et projets d équipements

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

APPLICATIONS DE LA RT / Quels bâtiment neufs (hors extensions) sont soumis à la RT2012?

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Les Français et les nuisances sonores

Inclusion bancaire et financière, quelles nouvelles?

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

BAROMÈTRE DE LA PROTECTION SOCIALE DES AGENTS TERRITORIAUX

Table des matières: Guidelines Fonds de Pensions

Sommaire La méthodologie Les résultats de l'étude... 4

«Je vais chez le dentiste»

Bulletin de service Bureaux d agents, de courtiers en immeubles et d évaluateurs de biens immobiliersetdes autres activités liées à l immobilier

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #16

Les intentions de vote pour les élections régionales en Midi-Pyrénées- Languedoc-Roussillon

6 ème Orientation INFORMATION ET SENSIBILISATION THEMATIQUE 1: KIT DE COMMUNICATION ENVIRONNEMENT EN ENTREPRISE

L ANALYSE DU «PARC SOCIAL DE FAIT» PARISIEN EN 2003 : UNE ANALYSE TERRITORIALISÉE DES PROFILS D OCCUPATION DES PARCS ET DES QUARTIERS

Les Français et le don d organes

Manuel de recherche en sciences sociales

Le niveau de revenus des ménages est associé à la couverture vaccinale par le vaccin pneumocoque conjugué chez les enfants d'ile-de-france

Publié le 3 et 4 avril 2014

Contribution du Syndicat national des pharmaciens praticiens hospitaliers (SNPHPU)

Fiche qualité relative à l enquête Santé et Itinéraire Professionnel 2010 (SIP) Carte d identité de l enquête

La couverture complémentaire santé des jeunes

EXCEL PERFECTIONNEMENT CALCULS AVANCES

Le regard des Français sur des mesures contre les discriminations

L'enquête complémentaire : Les moins de 30 ans, l argent et le recours au crédit Observatoire de l'endettement des Ménages

SERIE 1 Statistique descriptive - Graphiques

M_CONTRAN Contrats nouveaux

Transcription:

Méthodologie et traitement d'une enquête L3 Econométrie M. Fournier Ch 2 L'échantillonnage * A. Définition de l'échantillon B. L'échantillonnage aléatoire C. L'échantillonnage non aléatoire * Remerciements : F. Kohler, Université Paris V.

Ch 2 L'échantillonnage A. Définition de l'échantillon B. L'échantillonnage aléatoire C. L'échantillonnage non aléatoire A. La base de sondage Base de sondage = Population observée (NB : différente de la population cible) Deux types de bases de sondage : Les nomenclatures Les bases de sondage indirectes

A. Les nomenclatures Liste de noms et d adresses qui donnent directement accès à des unités Exemples : Fichier clients Fichier adhérents Registres municipaux A. Les bases de sondage indirectes Liste de «lieux» (géographiques ou non) qui donnent accès indirectement à des unités Exemples : Service d'une entreprise Quartier d'une ville Sortie de bureau de vote

A. Qualité de la base de sondage Exhaustivité : Aucun membre de la population observée ne doit en être exclu Unicité : Aucun «individu» ne doit y être représenté plusieurs fois Actualité : Elle doit être «à jour» NB : C'est le socle de l'enquête. Un biais à ce niveau se répercute sur la totalité du travail A. Définition des unités de l'enquête L unité d échantillonnage Unité de la base de sondage L unité déclarante Unité qui fournit l information qu exige l enquête L unité d analyse ou de référence C est l unité au sujet de laquelle l information est fournie

A. Exemples d'unités de l'enquête Enquête menée sur les nouveau-nés Unité d échantillonnage : Le ménage Unité déclarante Le membre de la famille qui répond à l'enquête (l un des deux parents, la grand-mère, la nounou, etc.) Unité d analyse Le nouveau-né A. Taille de l'échantillon et degré de précision Les résultats obtenus sur un échantillon ne sont que des estimateurs des valeurs recherchées Le degré de précision de ces estimateurs dépend : De la taille de l'échantillon Du mode d'échantillonnage

A. La taille de l échantillon Une procédure d'échantillonnage est toujours un compromis entre : le degré de précision le budget le temps disponible les contraintes logistiques La nature de ce compromis dépend de la taille et de la dispersion de la population du mode d'enquête et de la procédure d'échantillonnage Deux approches pour construire un échantillon Méthodes aléatoires (probabiliste) Chaque unité a une probabilité non nulle d être sélectionnée Méthodes non aléatoires (non probabiliste)

Ch 2 L'échantillonnage A. Définition de l'échantillon B. L'échantillonnage aléatoire C. L'échantillonnage non aléatoire B. Les méthodes d'échantillonnage aléatoire B1. L échantillonnage aléatoire simple B2. L échantillonnage systématique B3. L échantillonnage stratifié B4. L échantillonnage en grappes B5. L échantillonnage à plusieurs degrés B6. L échantillonnage en plusieurs phases

B. Les méthodes d'échantillonnage aléatoire B1. L échantillonnage aléatoire simple B2. L échantillonnage systématique B3. L échantillonnage stratifié B4. L échantillonnage en grappes B5. L échantillonnage à plusieurs degrés B6. L échantillonnage en plusieurs phases B1. L échantillonnage aléatoire simple Chaque «individu» de la base d'échantillonnage a la même probabilité d'être sélectionné pour figurer dans l échantillon Ce choix peut se faire avec remise ou sans remise : Avec remise : un individu peut être sélectionné plusieurs fois Sans remise (cas le plus courant) : un individu ne peut être sélectionné plus d'une fois

B1. L échantillonnage aléatoire simple Avantages : «Représentativité» statistique (par le tirage aléatoire) assurée lorsque la taille de l'échantillon est grande Simplicité Inconvénients : Nécessite un accès exhaustif à la base d'échantillonnage La représentativité n'est pas assurée si la taille de l'échantillon est faible B1. Procédure SI : échantillonnage sans remise Une procédure simple pour obtenir un échantillon de taille n : 1. On aloue aléatoirement un réel «random» (compris entre 0 et 1) à chaque individu 2. On trie les individus par la variable random et on sélectionne les n premiers individus de la liste triée

B1. SI sous Excel Données individuelles en lignes : 1. insérer d'une nouvelle colonne 2. dans cette colonne, tirer aléatoirement un nombre compris entre 0 et 1 pour chaque ligne par la fonction «=ALEA()» 3. trier la base selon les valeurs de la nouvelle colonne 4. sélectionner les n premiers individus B1. Nombre d échantillon différents possibles Si l on note n la taille de l échantillon et N la taille de la population. Tirage avec remise : Tirage sans remise : C n N = N! n! N n! On appelle f = n N N n la fraction de sondage

B1. Moyenne empirique et échantillonnage SI La moyenne empirique d'une variable X sur l'échantillon n X i 1 X = n est un estimateur sans biais de la moyenne de X, de variance : Var X = 1 n N 1 n n 1 n 1 X i X 2 Var X = 1 f n B1. Moyenne empirique pour un SI Var X Var = 1 f X n La précision de l'estimateur augmente : avec la taille de l'échantillon, avec la fraction de sondage Si l'on a une estimation de Var(X), on peut déterminer n de sorte à atteindre un niveau désiré de précision pour X

B1. Proportions empiriques pour un SI Les proportions empiriques pour une variable muette I sur l'échantillon n 1 p= n sont des estimateurs sans biais des proportions de variance : I i Var p 1 p p = 1 f n 1 B1. Proportions empiriques pour un SI p 1 p Var p = 1 f n 1 La précision de l'estimateur d'une proportion augmente avec : La taille de l'échantillon La fraction de sondage La précision en points de % (Variance et Ecart type) est plus faible pour des proportions proches de 50% NB : x (1-x) a son max en x = 1/2

B1. Proportions empiriques pour un SI Var p 1 p p = 1 f n 1 Pour un ordre de grandeur de la proportion attendue, on peut déterminer n de sorte à atteindre le niveau désiré de précision pour p B1. Proportions empiriques pour un SI On a le plus souvent : f «petit» N «grand» Var p 1 p p n Exercice : Pour p 50% et f 0, quel n faut il si on veut avoir un intervalle de confiance d'une amplitude de 2 points de pourcentage?

B1. Proportions empiriques pour un SI Intervalle de confiance d'amplitude 0,002% à 95% (sous hypothèse de normalité) : [ 0,5 1,96. 0,5 1 0,5 n ;0,5 1,96. 0,5 1 0,5 n ] 1,96. 0,5 n =0,01 n=[ 1,96.0,5 0,01 ]2 1=9606 B1. Proportions empiriques pour un SI Intervalle de confiance pour un échantillon de 1000 individus et une proportion = 52 % : [ 0,52 1,96. 0,52. 0,48 1000 ; 0,52 1,96. 0,52. 0,48 1000 ] p [0,49 ; 0,55 ]

B. Les méthodes d'échantillonnage aléatoire B1. L échantillonnage aléatoire simple B2. L échantillonnage systématique B3. L échantillonnage stratifié B4. L échantillonnage en grappes B5. L échantillonnage à plusieurs degrés B6. L échantillonnage en plusieurs phases B2. L échantillonnage systématique Chaque individu de la base de sondage est numéroté de 1 jusqu à N (son rang) L entier voisin de N/n est noté r et appelé raison de sondage ou pas de sondage On choisit au hasard un entier naturel d entre 1 et r (point de départ) On sélectionne l'échantillon des individus de rang d + i.r (d+r, d+2r, d+3r, d+4r...)

B2. L échantillonnage systématique Avantages : Facile à mettre en oeuvre (un seul individu est choisi au hasard) Bonne répartition de l échantillon dans l ensemble de la liste Si l'ordre des individus dans la base de sondage est distribuée aléatoirement, mêmes résultats que le SI Très utilisé en contrôle de qualité B2. L échantillonnage systématique Désavantages : Les données peuvent être biaisées à cause de la périodicité (pas de 12 pour des données annuelles, de 7, pour des données quotidiennes...) Pas un échantillonnage aléatoire si les individus ne sont pas rangés aléatoirement dans la base de sondage

B. Les méthodes d'échantillonnage aléatoire B1. L échantillonnage aléatoire simple B2. L échantillonnage systématique B3. L échantillonnage stratifié B4. L échantillonnage en grappes B5. L échantillonnage à plusieurs degrés B6. L échantillonnage en plusieurs phases B3. L échantillonnage stratifié (STSI) Démarche de sélection : 1. On subdivise la population en strates (groupes relativement homogènes) qui sont mutuellement exclusives 2. On choisit un mode de répartition de l'échantillon total entre les strates 3.Dans chacune des strates, on tire au hasard (SI) le nombre choisi d individus

B3. L échantillonnage stratifié Les variables de stratification doivent être : - Simples à utiliser - Faciles à observer - Étroitement reliées au thème de l enquête B3. L échantillonnage stratifié Avantages : Assure une certaine représentativité Limite le risque d'échantillons «extrêmes» Peut augmenter la précision Désavantages : Nécessite des informations sur et dans la base de sondage Exemple : Répartition géographique

B3. Estimateurs en échantillonnage stratifié Estimateur d'une proportion à partir de S échantillons de taille n s tirés aléatoirement dans S strates de taille N s : S s=1 N s p str = N p s Variance de cet estimateur : Var S p str = s=1 N s N 2 1 f s p s 1 p s n s f s = n s N s NB : fraction de sondage pour la strate s : B3. Estimateurs en échantillonnage stratifié Estimateur de la moyenne de X à partir de S échantillons de taille n s tirés aléatoirement dans S strates de taille N s : S s=1 N s X str = N X s Variance de cet estimateur : Var S X str = s=1 N s N NB : fraction de sondage pour la strate s : 2 Var s X 1 f s n s f s = n s N s

B3. Echantillonnage stratifié Développements L échantillonnage stratifié permet de réduire la variance des estimateurs grâce à l'information qui définit les strates Il existe diverses procédures d'allocation des n unités de l'échantillon dans les différentes strates n s =Cte Allocation égale ( ) Allocation proportionnelle ( f s =n s / N s =Cte) Allocation puissance Allocation optimale B3. Variance d'une moyenne (allocation proportionnelle) Echantillonnage stratifié (f s 0) : Var S X str = s=1 Echantillonnage aléatoire (décomposition de la variance) : S n Var X SI = s n n 1 s=1 N s N 2 Var s X n s = s=1 Xs X 2 S n s 1 n s s=1 n n 1 Var s X n s Var X str Var X SI si les valeurs moyennes sont différentes entre les strates S n s n Var s X 2 n s

B. Les méthodes d'échantillonnage aléatoire B1. L échantillonnage aléatoire simple B2. L échantillonnage systématique B3. L échantillonnage stratifié B4. L échantillonnage en grappes B5. L échantillonnage à plusieurs degrés B6. L échantillonnage en plusieurs phases B4. L échantillonnage par grappes On sélectionne au hasard un certain nombre d'unités primaires (grappes) pour représenter la population. On sélectionne tous les individus des grappes choisies Exemple : Sélection au hasard de 20 écoles primaires sur le département du Rhône (grappes) Enquêtes auprès de tous les enseignants de ces écoles

B4. L échantillonnage par grappes Avantages : Ne nécessite pas une liste globale de la population mais seulement des grappes. Coûts logistiques réduits (déplacement, logement des enquêteurs, etc.) Coûts de suivi et de supervision réduits Désavantage : Moindre précision Moindre variabilité (autocorrélation) Perte de contrôle sur la taille finale de l échantillon. B. Les méthodes d'échantillonnage aléatoire B1. L échantillonnage aléatoire simple B2. L échantillonnage systématique B3. L échantillonnage stratifié B4. L échantillonnage en grappes B5. L échantillonnage à plusieurs degrés B6. L échantillonnage en plusieurs phases

B5. L échantillonnage à plusieurs degrés Première étape : Echantillonnage par grappes Nouvelle base de sondage Deuxième étape : Echantillonnage aléatoire simple (SI) sur chaque grappe Echantillon NB : Les grappes peuvent elles-mêmes être définies en plusieurs étapes (vrai également pour B5) Exemple : - Echantillon aléatoire de villes françaises - Au sein des villes, échantillon aléatoire de quartiers - Dans chaque quartier de chaque ville on fait un échantillonnage SI de ménages B5. L échantillonnage à plusieurs degrés Avantages : Mêmes avantages que l'échantillonnage par grappes (coûts, etc.) Possibilité de contrôler la taille de l échantillon final Désavantage : Précision des résultats

B5. L échantillonnage par grappes à plusieurs degrés Souvent utilisé pour les enquêtes «face à face» Arbitrage coût qualité Imposé par la logistique (choix de quartiers dans une ville, de villages dans un département, etc.) Parfois implicitement utilisé : Observations individuelles à partir d'enquêtes ménages (grappe = ménage) Observation salariales ou produit à partir d'enquêtes entreprises (grappe = entreprise) B5. L échantillonnage par grappes à plusieurs degrés Question de compréhension : Explicitez clairement la différence entre l'échantillonnage par grappes à plusieurs degrés et l'échantillonnage par strates

B. Les méthodes d'échantillonnage aléatoire B1. L échantillonnage aléatoire simple B2. L échantillonnage systématique B3. L échantillonnage stratifié B4. L échantillonnage en grappes B5. L échantillonnage à plusieurs degrés B6. L échantillonnage en plusieurs phases B6. L échantillonnage à plusieurs phases Phase 1 : Les données de base sont collectées auprès d un échantillon de grande taille Phase 2 : Les informations collectées en première phase sont utilisées pour définir la procédure d'échantillonnage d'un souséchantillon Des données détaillées sont collectées sur le sous-échantillon

B6. L échantillonnage à plusieurs phases Exemple : Analyse des pratiques sportives Phase 1 : Echantillon aléatoire de grande taille comprenant très peu de questions dont : Pratiquez-vous un sport? Si oui, lequel Phase 2 : Echantillonnage SI ou par strates (en utilisant les informations collectées en phase 1) Questionnaire complet (uniquement auprès de sportifs) B. L échantillonnage aléatoire - Conclusions Le mode d'échantillonnage doit être choisi en fonction : De la question Du budget Pour chaque mode d'échantillonnage il existe des mesures de la précision des estimateurs : Permet de définir la taille minimale de l'échantillon pour une précision donnée Permet anticiper le degré de précision pour une taille d'échantillon donnée

Ch 2 L'échantillonnage A. Définition de l'échantillon B. L'échantillonnage aléatoire C. L'échantillonnage non aléatoire D. Les erreurs C. Méthodes empirique ou non aléatoires Les méthodes non aléatoires sont des méthodes où : La probabilité d'être enquêté n'est pas contrôlée L'échantillon final ne peut être considéré comme un échantillon aléatoire ATTENTION : Beaucoup de ces méthodes sont basées sur «le hasard»!!! Au hasard Aléatoire!!!! Ce sont des méthodes généralement peu fiables

C. Méthodes empirique ou non aléatoires Elles sont souvent utilisées Pour des études exploratoires Lorsque le budget est très limité Quand il est impossible ou non envisageable d utiliser la méthode aléatoire. C. Méthodes non aléatoires l échantillonnage à l aveuglette ou de commodité : «comme ça vient» Ex : les interviews dans la rue (hasard aléatoire!) L échantillonnage de volontaires : Ex : Expériences médicales ou psychologiques L échantillonnage au jugé : en fonction de «l idée qu on se fait» de la composition de la population Ex : Clients «types» en marketing

C. Méthodes non aléatoires La méthode des itinéraires : On impose à l'enquêteur un certain itinéraire en indiquant les points où il doit faire remplir un questionnaire L échantillonnage par quotas (aka «échantillonnage dirigé» ou «par choix raisonné») : On demande aux enquêteurs de faire un nombre d entrevues dans divers groupes établis en fonction du secteur géographique, de l âge, du sexe ou d autres caractéristiques L enquêteur doit respecter son quota. C. La méthode des quotas Largement utilisée dans les enquêtes d opinion et les études de marché : Ne suppose pas de liste des individus de la population Quotas définis à partir d'informations publiques (répartition de la population par sexe, age, zones géographiques, CSP, etc.) Permet d'obtenir un échantillon «représentatif» de la population «Peut permettre» une bonne précision des mesures

C. La méthode des quotas MAIS : La «représentativité» porte uniquement sur la structure selon les variables qui définissent les quotas : les autres dimensions sont ignorées et la structure de corrélation n'est pas assurée... La qualité dépend très fortement du contrôle des enquêteurs : RDC et 1er étages sur-représentés Enquêtes concentrées sur des «îlots» etc. Pour en savoir plus Les techniques de sondage P. Ardilly, édition TECHNIP 1994 http://www.unu.edu/unupress/food2/uin12 F/uin12f0c.htm

Méthodes non aléatoires Avantages : Moins coûteuses Plus faciles à réaliser Désavantages: Faible qualité Biais d'enquêteurs sur des quotas par groupes («60 ans et plus» : plus facile de trouver un 60 qu'un 105..., Surreprésentation des RDC et 1er étages) Pas d'expression théorique de la précision des mesures