Méthodologie et traitement d'une enquête

Documents pareils
STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Théorie des sondages : cours 5

Chapitre 3 : INFERENCE

Investissement dans la construction de nouveaux bâtiments résidentiels (travaux mis en place) Méthodologie

Les Français et les complémentaires santé

CONCEPTION ET TIRAGE DE L ÉCHANTILLON

La nouvelle planification de l échantillonnage

Critère du choix des variables auxiliaires à utiliser dans l'estimateur par calage

1. Les types d enquêtes

L information des Français vis-à-vis du nucléaire pour

Chapitre 2/ La fonction de consommation et la fonction d épargne

Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011

23. Interprétation clinique des mesures de l effet traitement

Evaluation de la variabilité d'un système de mesure

Probabilités conditionnelles Loi binomiale

POKER ET PROBABILITÉ

Observatoire des politiques publiques :

Algorithmes de recherche

Tablette tactile : la nouvelle nounou?

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Observatoire Economique et Statistique d Afrique Subsaharienne

Les intentions de vote pour les élections régionales en Midi-Pyrénées- Languedoc-Roussillon

Chapitre 11 METHODOLOGIE D ENQUÊTES

APPLICATION DU SCN A L'EVALUATION DES REVENUS NON DECLARES DES MENAGES

ANALYSE GLOBALE DES PROGRAMMES DE LA SHQ. SQEP 18 novembre 2011

TRANSPORT ET LOGISTIQUE :

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

EXCEL PERFECTIONNEMENT CALCULS AVANCES

Chapitre 3 - L'enquête descriptive simple

Lignes directrices de 2004 pour des sondages sur la satisfaction des demandeurs dans le cadre de l assurance-automobile

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

Introduction aux sondages

Évaluations aléatoires : Comment tirer au sort?

LES FRANÇAIS, L ÉPARGNE & LA RETRAITE

Guide méthodologique : Enquêtes en ligne

Lois de probabilité. Anita Burgun

Les Français et les nuisances sonores. Ifop pour Ministère de l Ecologie, du Développement Durable et de l Energie

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

VoIP, Mobile Office & M2M Equipements et projets d équipements

Logiciel Le Sphinx Plus 2 version 5. Le Sphinx Développement Chavanod

Services Observatoire 2010 de l opinion sur l image des banques

1. Introduction Création d'une requête...2

Regards de Français sur les objets connectés dans le domaine de l assurance

La culture financière des Français

Exercices sur le chapitre «Probabilités»

Table des matières: Guidelines Fonds de Pensions

Validation probabiliste d un Système de Prévision d Ensemble

Santé des TPE face à la crise

Les Français et le don d organes

Les Français et la liberté de la presse. Ifop pour Metronews et Reporters sans frontières

Le regard des Français sur le secret des échanges entre un avocat et son client. IFOP pour Ordre des avocats de Paris

Introduction à la méthodologie de la recherche

Exercice du cours Gestion Financière à Court Terme : «Analyse d un reverse convertible»

Fiche qualité relative à l enquête Santé et Itinéraire Professionnel 2010 (SIP) Carte d identité de l enquête

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

Statistiques Descriptives à une dimension

8 èmes Rencontres de l Épargne Salariale

Rapport Enquête de Conjoncture 1 er et 2 ème trimestres 2013

Les Français et le chauffage. Résultats de l étude menée

Les groupes de médecine familiale (GMF) Sondage Omniweb. Dossier septembre 2012

Etude de marché. Idée de depart. Etude de l environnement et des offres existantes. Clients. actuels. Choix de la cible précise

TESTS D'HYPOTHESES Etude d'un exemple

Centre d Analyse Stratégique

1 - Salaires nets tous secteurs confondus

PRÉSENTATION DES QUESTIONS DE LA FEUILLE DE LOGEMENT

Sondage d opinion auprès des Canadiens Perception à l égard des couples de même sexe PROJET

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Rappel sur les bases de données

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

Benny Creppy Claudia Senardière

Gestion et animation de sites web. Synthèse

ECR_DESCRIPTION CHAR(80), ECR_MONTANT NUMBER(10,2) NOT NULL, ECR_SENS CHAR(1) NOT NULL) ;

Du clic à la possession : Observatoire des attentes des e-consommateurs

Les débats sur l évolution des

Introduction à l approche bootstrap

La politique européenne de la Mutualité Française en matière de dispositifs médicaux

Les internautes et les comparateurs de prix

Pierre Marchand Consultant

Les Français et l assurance santé

Chapitre 3. Les distributions à deux variables

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Les salariés et les Jeux Olympiques de 2024 à Paris

Centre d'etudes Nucléaires de Fontenay-aux-Roses Direction des Piles Atomiques Département des Etudes de Piles

RESPONSABILITES ET ASSURANCE DANS LE DOMAINE ASSOCIATIF

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

La crise n'a pas entamé la générosité des belges

Emploi et Formation Secteur Publicité

LES FRANÇAIS ET LA QUESTION DE LA

JF/EP N Contacts IFOP : Jérôme Fourquet / Esteban Pratviel Tél : jerome.fourquet@ifop.com. pour

Les SCPI. François Longin 1

Apprentissage par renforcement (1a/3)

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

1. Vocabulaire : Introduction au tableau élémentaire

Santé environnement. Description du budget espace-temps et estimation de l exposition de la population française dans son logement

Enquête sur la santé des résidents des foyers Adoma de Saint-Quentin-en-Yvelines

Panel MBAweb MBA Recherche

Transcription:

Méthodologie et traitement d'une enquête L3 Econométrie M. Fournier fournier@gate.cnrs.fr Ch 2 L'échantillonnage * A. Définition de l'échantillon B. L'échantillonnage aléatoire C. L'échantillonnage non aléatoire * Remerciements : F. Kohler, Université Paris V.

Ch 2 L'échantillonnage A. Définition de l'échantillon B. L'échantillonnage aléatoire C. L'échantillonnage non aléatoire A. La base de sondage La base de sondage est la population totale à laquelle on a accès, = la population observée Deux types de bases de sondage : Les nomenclatures Les bases aléatoires

A. Les nomenclatures Liste de noms et d adresses qui donnent directement accès à des unités Exemples : Fichier clients Fichier adhérents Registres municipaux A. Les bases aléatoires Liste de «lieux» (géographiques ou non) qui donnent accès indirectement à des unités Exemples : Service d'une entreprise Quartier d'une ville Sortie de bureau de vote

A. Qualité de la base de sondage Exhaustivité : Couverture maximale de la population cible Unicité : Aucun «individu» ne doit y être représenté plusieurs fois Actualité : Elle doit être «à jour» NB : C'est le socle de l'enquête. Un biais à ce niveau se répercute sur la totalité du travail A. Définition des unités de l'enquête L unité d échantillonnage Unité de la base de sondage L unité déclarante Unité qui fournit l information qu exige l enquête L unité d analyse ou de référence C est l unité au sujet de laquelle l information est fournie

A. Exemples d'unités de l'enquête Enquête menée sur les nouveau-nés Unité d échantillonnage : Le ménage Unité déclarante Le membre de la famille qui répond à l'enquête (l un des deux parents, la grand-mère, la nounou, etc.) Unité d analyse Le nouveau-né A. Taille de l'échantillon et degré de précision Les résultats obtenus sur un échantillon ne sont que des réalisations d'estimateurs des valeurs recherchées Le degré de précision de ces estimateurs dépend : De la taille de l'échantillon Du mode d'échantillonnage

A. La taille de l échantillon Une procédure d'échantillonnage est toujours un compromis entre : le degré de précision désiré le budget disponible le temps disponible les contraintes logistiques La nature de ce compromis dépend de la taille et de la dispersion de la population du mode d'enquête et de la procédure d'échantillonnage Deux approches pour construire un échantillon Méthodes aléatoires (probabilistes) Chaque unité a une probabilité non nulle d être sélectionnée sur laquelle on a une information Méthodes non aléatoires (non probabilistes) On n'a aucune information ou une information incomplète sur la probabilité de sélectionner les unités

Ch 2 L'échantillonnage A. Définition de l'échantillon B. L'échantillonnage aléatoire C. L'échantillonnage non aléatoire B. Les méthodes d'échantillonnage aléatoire B1. L échantillonnage aléatoire simple B2. L échantillonnage systématique B3. L échantillonnage stratifié B4. L échantillonnage en grappes B5. L échantillonnage à plusieurs degrés B6. L échantillonnage en plusieurs phases

B. Les méthodes d'échantillonnage aléatoire B1. L échantillonnage aléatoire simple B2. L échantillonnage systématique B3. L échantillonnage stratifié B4. L échantillonnage en grappes B5. L échantillonnage à plusieurs degrés B6. L échantillonnage en plusieurs phases B1. L échantillonnage aléatoire simple Chaque «individu» de la base d'échantillonnage a la même probabilité d'être sélectionné pour figurer dans l échantillon Ce choix peut se faire avec remise ou sans remise : Avec remise : un même individu peut être sélectionné plusieurs fois Sans remise (cas le plus courant) : un individu ne peut être sélectionné plus d'une fois

B1. L échantillonnage aléatoire simple Avantages : «Représentativité» statistique (par le tirage aléatoire) assurée lorsque la taille de l'échantillon est grande Simplicité Inconvénients : Nécessite un accès exhaustif à la base d'échantillonnage La représentativité n'est pas assurée si la taille de l'échantillon est faible B1. Procédure SI : échantillonnage sans remise Une procédure simple pour obtenir un échantillon de taille n : 1. On aloue aléatoirement un réel «random» (compris entre 0 et 1) à chaque individu 2. On trie les individus par la variable random et on sélectionne les n premiers individus de la liste triée

B1. SI sous Excel Données individuelles en lignes : 1. insérer d'une nouvelle colonne 2. dans cette colonne, tirer aléatoirement un nombre compris entre 0 et 1 pour chaque ligne par la fonction «=ALEA()» 3. trier la base selon les valeurs de la nouvelle colonne 4. sélectionner les n premiers individus B1. Nombre d échantillon différents possibles Si l on note n la taille de l échantillon et N la taille de la population. On appelle f = n N la fraction de sondage

B1. Nombre d échantillon différents possibles Nombre de tirages avec remise possibles : N n Nombre de tirages sans remise possibles : C N n = N! n! N n! Chacun de ces tirages à la même probabilité d'être observé Chaque échantillon final a la même probabilité d'être obtenu B1. Moyenne empirique et échantillonnage SI La moyenne empirique d'une variable X sur l'échantillon X =... est un estimateur sans biais de la moyenne de X, de variance : Var X =...

B1. Moyenne empirique pour un SI Var X =... La précision de l'estimateur augmente : avec la taille de l'échantillon, avec la fraction de sondage Si l'on a une estimation de Var(X), on peut déterminer n de sorte à atteindre un niveau désiré de précision pour X B1. Proportions empiriques pour un SI Les proportions empiriques pour une variable muette I sur l'échantillon p=... sont des estimateurs sans biais des proportions de variance : Var p =...

B1. Proportions empiriques pour un SI Var p =... La précision de l'estimateur d'une proportion augmente avec : La taille de l'échantillon La fraction de sondage La précision en points de % (Variance et Ecart type) est plus faible pour des proportions proches de 50% NB : x (1-x) a son max en x = 1/2 B1. Proportions empiriques pour un SI Var p =... Pour un ordre de grandeur de la proportion attendue, on peut déterminer n de sorte à atteindre le niveau désiré de précision pour p

B1. Proportions empiriques pour un SI On a le plus souvent : f «petit» N «grand» Var p... Exercice : Pour p 50% et f 0, quel n faut il si on veut avoir un intervalle de confiance d'une amplitude de 2 points de pourcentage? B1. Proportions empiriques pour un SI Intervalle de confiance d'amplitude 0,002% à 95% (sous hypothèse de normalité) :

B1. Proportions empiriques pour un SI Intervalle de confiance pour un échantillon de 1000 individus et une proportion = 52 % : B1. Quelques exemples Sondage 2ème tour des élections présidentielles : Pour une proportion proche de 50% et une faible fraction de sondage (n << N), pour avoir un intervalle de confiance à 95% d'une amplitude de 2 points de pourcentage (e.g. [50%,52%]), il faut une taille d'échantillon minimale de 9606 individus.

B1. Quelques exemples Sondage 2ème tour des élections présidentielles : Niveau minimal observé pour avoir 95% de chances d'être au dessus de 50% selon les tailles d'échantillons : Taille échantillon Score minimal (95%) Score minimal (90%) 500 1,000 2,000 3,000 10,000 53.7% 52.7% 51.9% 51.6% 50.9% 52.9% 52.1% 51.5% 51.2% 50.7% B. Les méthodes d'échantillonnage aléatoire B1. L échantillonnage aléatoire simple B2. L échantillonnage systématique B3. L échantillonnage stratifié B4. L échantillonnage en grappes B5. L échantillonnage à plusieurs degrés B6. L échantillonnage en plusieurs phases

B2. L échantillonnage systématique Chaque individu de la base de sondage est numéroté de 1 jusqu à N (son rang) L entier voisin de N/n est noté r et appelé raison de sondage ou pas de sondage On choisit au hasard un entier naturel d entre 1 et r (point de départ) On sélectionne l'échantillon des individus de rang d + i.r (d+r, d+2r, d+3r, d+4r...) B2. L échantillonnage systématique Avantages : Facile à mettre en oeuvre (un seul individu est choisi au hasard) Bonne répartition de l échantillon dans l ensemble de la liste Si l'ordre des individus dans la base de sondage est distribuée aléatoirement, mêmes résultats que le SI Très utilisé en contrôle de qualité

B2. L échantillonnage systématique Désavantages : Les données peuvent être biaisées à cause de la périodicité (pas de 12 pour des données annuelles, de 7, pour des données quotidiennes...) Pas un échantillonnage aléatoire si les individus ne sont pas rangés aléatoirement dans la base de sondage B. Les méthodes d'échantillonnage aléatoire B1. L échantillonnage aléatoire simple B2. L échantillonnage systématique B3. L échantillonnage stratifié B4. L échantillonnage en grappes B5. L échantillonnage à plusieurs degrés B6. L échantillonnage en plusieurs phases

B3. L échantillonnage stratifié (STSI) Démarche de sélection : 1. On subdivise la population en strates (groupes relativement homogènes) qui sont mutuellement exclusives 2. On choisit un mode de répartition de l'échantillon total entre les strates 3.Dans chacune des strates, on tire au hasard (SI) le nombre choisi d individus B3. L échantillonnage stratifié Les variables de stratification doivent être : - Simples à utiliser - Faciles à observer - Étroitement reliées au thème de l enquête

B3. L échantillonnage stratifié Avantages : Assure une certaine représentativité Limite le risque d'échantillons «extrêmes» Peut augmenter la précision Désavantages : Nécessite des informations sur et dans la base de sondage Exemple : Répartition géographique B3. Estimateurs en échantillonnage stratifié Estimateur d'une proportion à partir de S échantillons de taille n s tirés aléatoirement dans S strates de taille N s : p str =... Variance de cet estimateur : Var p str =... NB : fraction de sondage pour la strate s : f s = n s N s

B3. Estimateurs en échantillonnage stratifié Estimateur de la moyenne de X à partir de S échantillons de taille n s tirés aléatoirement dans S strates de taille N s : X str =... Variance de cet estimateur : Var X str =... NB : fraction de sondage pour la strate s : f s = n s N s B3. Echantillonnage stratifié Développements L échantillonnage stratifié permet de réduire la variance des estimateurs grâce à l'information qui définit les strates Il existe diverses procédures d'allocation des n unités de l'échantillon dans les différentes strates Allocation égale ( n s =Cte) Allocation proportionnelle ( f s =n s / N s =Cte) Allocation puissance Allocation optimale

B3. Variance d'une moyenne (allocation proportionnelle) Echantillonnage stratifié (f s 0) : Var X str =... Echantillonnage aléatoire (décomposition de la variance) : Var X SI =... Var X str Var X SI si les valeurs moyennes sont différentes entre les strates B. Les méthodes d'échantillonnage aléatoire B1. L échantillonnage aléatoire simple B2. L échantillonnage systématique B3. L échantillonnage stratifié B4. L échantillonnage en grappes B5. L échantillonnage à plusieurs degrés B6. L échantillonnage en plusieurs phases

B4. L échantillonnage par grappes On sélectionne au hasard un certain nombre d'unités primaires (grappes) pour représenter la population. On sélectionne tous les individus des grappes choisies Exemple : Sélection au hasard de 20 écoles primaires sur le département du Rhône (grappes) Enquêtes auprès de tous les enseignants de ces écoles B4. L échantillonnage par grappes Avantages : Ne nécessite pas une liste globale de la population mais seulement des grappes. Coûts logistiques réduits (déplacement, logement des enquêteurs, etc.) Coûts de suivi et de supervision réduits Désavantage : Moindre précision Moindre variabilité (autocorrélation) Perte de contrôle sur la taille finale de l échantillon.

B. Les méthodes d'échantillonnage aléatoire B1. L échantillonnage aléatoire simple B2. L échantillonnage systématique B3. L échantillonnage stratifié B4. L échantillonnage en grappes B5. L échantillonnage à plusieurs degrés B6. L échantillonnage en plusieurs phases B5. L échantillonnage à plusieurs degrés Première étape : Echantillonnage par grappes Nouvelle base de sondage Deuxième étape : Echantillonnage aléatoire simple (SI) sur chaque grappe Echantillon NB : Les grappes peuvent elles-mêmes être définies en plusieurs étapes (vrai également pour B5) Exemple : - Echantillon aléatoire de villes françaises - Au sein des villes, échantillon aléatoire de quartiers - Dans chaque quartier de chaque ville on fait un échantillonnage SI de ménages

B5. L échantillonnage à plusieurs degrés Avantages : Mêmes avantages que l'échantillonnage par grappes (coûts, etc.) Possibilité de contrôler la taille de l échantillon final Désavantage : Précision des résultats B5. L échantillonnage par grappes à plusieurs degrés Souvent utilisé pour les enquêtes «face à face» Arbitrage coût qualité Imposé par la logistique (choix de quartiers dans une ville, de villages dans un département, etc.) Parfois implicitement utilisé : Observations individuelles à partir d'enquêtes ménages (grappe = ménage) Observation salariales ou produit à partir d'enquêtes entreprises (grappe = entreprise)

B5. L échantillonnage par grappes à plusieurs degrés Question de compréhension : Explicitez clairement la différence entre l'échantillonnage par grappes à plusieurs degrés et l'échantillonnage par strates B. Les méthodes d'échantillonnage aléatoire B1. L échantillonnage aléatoire simple B2. L échantillonnage systématique B3. L échantillonnage stratifié B4. L échantillonnage en grappes B5. L échantillonnage à plusieurs degrés B6. L échantillonnage en plusieurs phases

B6. L échantillonnage à plusieurs phases Phase 1 : Les données de base sont collectées auprès d un échantillon de grande taille Phase 2 : Les informations collectées en première phase sont utilisées pour définir la procédure d'échantillonnage d'un souséchantillon Des données détaillées sont collectées sur le sous-échantillon B6. L échantillonnage à plusieurs phases Exemple : Analyse des pratiques sportives Phase 1 : Echantillon aléatoire de grande taille comprenant très peu de questions dont : Pratiquez-vous un sport? Si oui, lequel Phase 2 : Echantillonnage SI ou par strates (en utilisant les informations collectées en phase 1) Questionnaire complet (uniquement auprès de sportifs)

B. L échantillonnage aléatoire - Conclusions Le mode d'échantillonnage doit être choisi en fonction : De la question Du budget Pour chaque mode d'échantillonnage il existe des mesures de la précision des estimateurs : Permet de définir la taille minimale de l'échantillon pour une précision donnée Permet anticiper le degré de précision pour une taille d'échantillon donnée Ch 2 L'échantillonnage A. Définition de l'échantillon B. L'échantillonnage aléatoire C. L'échantillonnage non aléatoire D. Les erreurs

C. Méthodes empirique ou non aléatoires Elles sont souvent utilisées Pour des études exploratoires Lorsque le budget est très limité Quand il est impossible ou non envisageable d utiliser la méthode aléatoire.

C. Méthodes non aléatoires l échantillonnage à l aveuglette ou de commodité : «comme ça vient» Ex : les interviews dans la rue (hasard aléatoire!) L échantillonnage de volontaires : Ex : Expériences médicales ou psychologiques L échantillonnage au jugé : en fonction de «l idée qu on se fait» de la composition de la population Ex : Clients «types» en marketing C. Méthodes non aléatoires La méthode des itinéraires : On impose à l'enquêteur un certain itinéraire en indiquant les points où il doit faire remplir un questionnaire L échantillonnage par quotas (aka «échantillonnage dirigé» ou «par choix raisonné») : On demande aux enquêteurs de faire un nombre d entrevues dans divers groupes établis en fonction du secteur géographique, de l âge, du sexe ou d autres caractéristiques L enquêteur doit respecter son quota.

C. La méthode des quotas Largement utilisée dans les enquêtes d opinion et les études de marché : Ne suppose pas de liste des individus de la population Quotas définis à partir d'informations publiques (répartition de la population par sexe, age, zones géographiques, CSP, etc.) Permet d'obtenir un échantillon «représentatif» de la population «Peut permettre» une bonne précision des mesures C. La méthode des quotas MAIS : La «représentativité» porte uniquement sur la structure selon les variables qui définissent les quotas : les autres dimensions sont ignorées et la structure de corrélation n'est pas assurée... La qualité dépend très fortement du contrôle des enquêteurs : RDC et 1er étages sur-représentés Enquêtes concentrées sur des «îlots» etc.

C. La méthode des quotas Méthodes non aléatoires Avantages : Moins coûteuses Plus faciles à réaliser Désavantages: Faible qualité Biais d'enquêteurs sur des quotas par groupes («60 ans et plus» : plus facile de trouver un 60 qu'un 105..., Surreprésentation des RDC et 1er étages) Pas d'expression théorique de la précision des mesures

Pour en savoir plus Les techniques de sondage P. Ardilly, édition TECHNIP 1994