Méthodologie et traitement d'une enquête L3 Econométrie M. Fournier fournier@gate.cnrs.fr Ch 2 L'échantillonnage * A. Définition de l'échantillon B. L'échantillonnage aléatoire C. L'échantillonnage non aléatoire * Remerciements : F. Kohler, Université Paris V.
Ch 2 L'échantillonnage A. Définition de l'échantillon B. L'échantillonnage aléatoire C. L'échantillonnage non aléatoire A. La base de sondage La base de sondage est la population totale à laquelle on a accès, = la population observée Deux types de bases de sondage : Les nomenclatures Les bases aléatoires
A. Les nomenclatures Liste de noms et d adresses qui donnent directement accès à des unités Exemples : Fichier clients Fichier adhérents Registres municipaux A. Les bases aléatoires Liste de «lieux» (géographiques ou non) qui donnent accès indirectement à des unités Exemples : Service d'une entreprise Quartier d'une ville Sortie de bureau de vote
A. Qualité de la base de sondage Exhaustivité : Couverture maximale de la population cible Unicité : Aucun «individu» ne doit y être représenté plusieurs fois Actualité : Elle doit être «à jour» NB : C'est le socle de l'enquête. Un biais à ce niveau se répercute sur la totalité du travail A. Définition des unités de l'enquête L unité d échantillonnage Unité de la base de sondage L unité déclarante Unité qui fournit l information qu exige l enquête L unité d analyse ou de référence C est l unité au sujet de laquelle l information est fournie
A. Exemples d'unités de l'enquête Enquête menée sur les nouveau-nés Unité d échantillonnage : Le ménage Unité déclarante Le membre de la famille qui répond à l'enquête (l un des deux parents, la grand-mère, la nounou, etc.) Unité d analyse Le nouveau-né A. Taille de l'échantillon et degré de précision Les résultats obtenus sur un échantillon ne sont que des réalisations d'estimateurs des valeurs recherchées Le degré de précision de ces estimateurs dépend : De la taille de l'échantillon Du mode d'échantillonnage
A. La taille de l échantillon Une procédure d'échantillonnage est toujours un compromis entre : le degré de précision désiré le budget disponible le temps disponible les contraintes logistiques La nature de ce compromis dépend de la taille et de la dispersion de la population du mode d'enquête et de la procédure d'échantillonnage Deux approches pour construire un échantillon Méthodes aléatoires (probabilistes) Chaque unité a une probabilité non nulle d être sélectionnée sur laquelle on a une information Méthodes non aléatoires (non probabilistes) On n'a aucune information ou une information incomplète sur la probabilité de sélectionner les unités
Ch 2 L'échantillonnage A. Définition de l'échantillon B. L'échantillonnage aléatoire C. L'échantillonnage non aléatoire B. Les méthodes d'échantillonnage aléatoire B1. L échantillonnage aléatoire simple B2. L échantillonnage systématique B3. L échantillonnage stratifié B4. L échantillonnage en grappes B5. L échantillonnage à plusieurs degrés B6. L échantillonnage en plusieurs phases
B. Les méthodes d'échantillonnage aléatoire B1. L échantillonnage aléatoire simple B2. L échantillonnage systématique B3. L échantillonnage stratifié B4. L échantillonnage en grappes B5. L échantillonnage à plusieurs degrés B6. L échantillonnage en plusieurs phases B1. L échantillonnage aléatoire simple Chaque «individu» de la base d'échantillonnage a la même probabilité d'être sélectionné pour figurer dans l échantillon Ce choix peut se faire avec remise ou sans remise : Avec remise : un même individu peut être sélectionné plusieurs fois Sans remise (cas le plus courant) : un individu ne peut être sélectionné plus d'une fois
B1. L échantillonnage aléatoire simple Avantages : «Représentativité» statistique (par le tirage aléatoire) assurée lorsque la taille de l'échantillon est grande Simplicité Inconvénients : Nécessite un accès exhaustif à la base d'échantillonnage La représentativité n'est pas assurée si la taille de l'échantillon est faible B1. Procédure SI : échantillonnage sans remise Une procédure simple pour obtenir un échantillon de taille n : 1. On aloue aléatoirement un réel «random» (compris entre 0 et 1) à chaque individu 2. On trie les individus par la variable random et on sélectionne les n premiers individus de la liste triée
B1. SI sous Excel Données individuelles en lignes : 1. insérer d'une nouvelle colonne 2. dans cette colonne, tirer aléatoirement un nombre compris entre 0 et 1 pour chaque ligne par la fonction «=ALEA()» 3. trier la base selon les valeurs de la nouvelle colonne 4. sélectionner les n premiers individus B1. Nombre d échantillon différents possibles Si l on note n la taille de l échantillon et N la taille de la population. On appelle f = n N la fraction de sondage
B1. Nombre d échantillon différents possibles Nombre de tirages avec remise possibles : N n Nombre de tirages sans remise possibles : C N n = N! n! N n! Chacun de ces tirages à la même probabilité d'être observé Chaque échantillon final a la même probabilité d'être obtenu B1. Moyenne empirique et échantillonnage SI La moyenne empirique d'une variable X sur l'échantillon X =... est un estimateur sans biais de la moyenne de X, de variance : Var X =...
B1. Moyenne empirique pour un SI Var X =... La précision de l'estimateur augmente : avec la taille de l'échantillon, avec la fraction de sondage Si l'on a une estimation de Var(X), on peut déterminer n de sorte à atteindre un niveau désiré de précision pour X B1. Proportions empiriques pour un SI Les proportions empiriques pour une variable muette I sur l'échantillon p=... sont des estimateurs sans biais des proportions de variance : Var p =...
B1. Proportions empiriques pour un SI Var p =... La précision de l'estimateur d'une proportion augmente avec : La taille de l'échantillon La fraction de sondage La précision en points de % (Variance et Ecart type) est plus faible pour des proportions proches de 50% NB : x (1-x) a son max en x = 1/2 B1. Proportions empiriques pour un SI Var p =... Pour un ordre de grandeur de la proportion attendue, on peut déterminer n de sorte à atteindre le niveau désiré de précision pour p
B1. Proportions empiriques pour un SI On a le plus souvent : f «petit» N «grand» Var p... Exercice : Pour p 50% et f 0, quel n faut il si on veut avoir un intervalle de confiance d'une amplitude de 2 points de pourcentage? B1. Proportions empiriques pour un SI Intervalle de confiance d'amplitude 0,002% à 95% (sous hypothèse de normalité) :
B1. Proportions empiriques pour un SI Intervalle de confiance pour un échantillon de 1000 individus et une proportion = 52 % : B1. Quelques exemples Sondage 2ème tour des élections présidentielles : Pour une proportion proche de 50% et une faible fraction de sondage (n << N), pour avoir un intervalle de confiance à 95% d'une amplitude de 2 points de pourcentage (e.g. [50%,52%]), il faut une taille d'échantillon minimale de 9606 individus.
B1. Quelques exemples Sondage 2ème tour des élections présidentielles : Niveau minimal observé pour avoir 95% de chances d'être au dessus de 50% selon les tailles d'échantillons : Taille échantillon Score minimal (95%) Score minimal (90%) 500 1,000 2,000 3,000 10,000 53.7% 52.7% 51.9% 51.6% 50.9% 52.9% 52.1% 51.5% 51.2% 50.7% B. Les méthodes d'échantillonnage aléatoire B1. L échantillonnage aléatoire simple B2. L échantillonnage systématique B3. L échantillonnage stratifié B4. L échantillonnage en grappes B5. L échantillonnage à plusieurs degrés B6. L échantillonnage en plusieurs phases
B2. L échantillonnage systématique Chaque individu de la base de sondage est numéroté de 1 jusqu à N (son rang) L entier voisin de N/n est noté r et appelé raison de sondage ou pas de sondage On choisit au hasard un entier naturel d entre 1 et r (point de départ) On sélectionne l'échantillon des individus de rang d + i.r (d+r, d+2r, d+3r, d+4r...) B2. L échantillonnage systématique Avantages : Facile à mettre en oeuvre (un seul individu est choisi au hasard) Bonne répartition de l échantillon dans l ensemble de la liste Si l'ordre des individus dans la base de sondage est distribuée aléatoirement, mêmes résultats que le SI Très utilisé en contrôle de qualité
B2. L échantillonnage systématique Désavantages : Les données peuvent être biaisées à cause de la périodicité (pas de 12 pour des données annuelles, de 7, pour des données quotidiennes...) Pas un échantillonnage aléatoire si les individus ne sont pas rangés aléatoirement dans la base de sondage B. Les méthodes d'échantillonnage aléatoire B1. L échantillonnage aléatoire simple B2. L échantillonnage systématique B3. L échantillonnage stratifié B4. L échantillonnage en grappes B5. L échantillonnage à plusieurs degrés B6. L échantillonnage en plusieurs phases
B3. L échantillonnage stratifié (STSI) Démarche de sélection : 1. On subdivise la population en strates (groupes relativement homogènes) qui sont mutuellement exclusives 2. On choisit un mode de répartition de l'échantillon total entre les strates 3.Dans chacune des strates, on tire au hasard (SI) le nombre choisi d individus B3. L échantillonnage stratifié Les variables de stratification doivent être : - Simples à utiliser - Faciles à observer - Étroitement reliées au thème de l enquête
B3. L échantillonnage stratifié Avantages : Assure une certaine représentativité Limite le risque d'échantillons «extrêmes» Peut augmenter la précision Désavantages : Nécessite des informations sur et dans la base de sondage Exemple : Répartition géographique B3. Estimateurs en échantillonnage stratifié Estimateur d'une proportion à partir de S échantillons de taille n s tirés aléatoirement dans S strates de taille N s : p str =... Variance de cet estimateur : Var p str =... NB : fraction de sondage pour la strate s : f s = n s N s
B3. Estimateurs en échantillonnage stratifié Estimateur de la moyenne de X à partir de S échantillons de taille n s tirés aléatoirement dans S strates de taille N s : X str =... Variance de cet estimateur : Var X str =... NB : fraction de sondage pour la strate s : f s = n s N s B3. Echantillonnage stratifié Développements L échantillonnage stratifié permet de réduire la variance des estimateurs grâce à l'information qui définit les strates Il existe diverses procédures d'allocation des n unités de l'échantillon dans les différentes strates Allocation égale ( n s =Cte) Allocation proportionnelle ( f s =n s / N s =Cte) Allocation puissance Allocation optimale
B3. Variance d'une moyenne (allocation proportionnelle) Echantillonnage stratifié (f s 0) : Var X str =... Echantillonnage aléatoire (décomposition de la variance) : Var X SI =... Var X str Var X SI si les valeurs moyennes sont différentes entre les strates B. Les méthodes d'échantillonnage aléatoire B1. L échantillonnage aléatoire simple B2. L échantillonnage systématique B3. L échantillonnage stratifié B4. L échantillonnage en grappes B5. L échantillonnage à plusieurs degrés B6. L échantillonnage en plusieurs phases
B4. L échantillonnage par grappes On sélectionne au hasard un certain nombre d'unités primaires (grappes) pour représenter la population. On sélectionne tous les individus des grappes choisies Exemple : Sélection au hasard de 20 écoles primaires sur le département du Rhône (grappes) Enquêtes auprès de tous les enseignants de ces écoles B4. L échantillonnage par grappes Avantages : Ne nécessite pas une liste globale de la population mais seulement des grappes. Coûts logistiques réduits (déplacement, logement des enquêteurs, etc.) Coûts de suivi et de supervision réduits Désavantage : Moindre précision Moindre variabilité (autocorrélation) Perte de contrôle sur la taille finale de l échantillon.
B. Les méthodes d'échantillonnage aléatoire B1. L échantillonnage aléatoire simple B2. L échantillonnage systématique B3. L échantillonnage stratifié B4. L échantillonnage en grappes B5. L échantillonnage à plusieurs degrés B6. L échantillonnage en plusieurs phases B5. L échantillonnage à plusieurs degrés Première étape : Echantillonnage par grappes Nouvelle base de sondage Deuxième étape : Echantillonnage aléatoire simple (SI) sur chaque grappe Echantillon NB : Les grappes peuvent elles-mêmes être définies en plusieurs étapes (vrai également pour B5) Exemple : - Echantillon aléatoire de villes françaises - Au sein des villes, échantillon aléatoire de quartiers - Dans chaque quartier de chaque ville on fait un échantillonnage SI de ménages
B5. L échantillonnage à plusieurs degrés Avantages : Mêmes avantages que l'échantillonnage par grappes (coûts, etc.) Possibilité de contrôler la taille de l échantillon final Désavantage : Précision des résultats B5. L échantillonnage par grappes à plusieurs degrés Souvent utilisé pour les enquêtes «face à face» Arbitrage coût qualité Imposé par la logistique (choix de quartiers dans une ville, de villages dans un département, etc.) Parfois implicitement utilisé : Observations individuelles à partir d'enquêtes ménages (grappe = ménage) Observation salariales ou produit à partir d'enquêtes entreprises (grappe = entreprise)
B5. L échantillonnage par grappes à plusieurs degrés Question de compréhension : Explicitez clairement la différence entre l'échantillonnage par grappes à plusieurs degrés et l'échantillonnage par strates B. Les méthodes d'échantillonnage aléatoire B1. L échantillonnage aléatoire simple B2. L échantillonnage systématique B3. L échantillonnage stratifié B4. L échantillonnage en grappes B5. L échantillonnage à plusieurs degrés B6. L échantillonnage en plusieurs phases
B6. L échantillonnage à plusieurs phases Phase 1 : Les données de base sont collectées auprès d un échantillon de grande taille Phase 2 : Les informations collectées en première phase sont utilisées pour définir la procédure d'échantillonnage d'un souséchantillon Des données détaillées sont collectées sur le sous-échantillon B6. L échantillonnage à plusieurs phases Exemple : Analyse des pratiques sportives Phase 1 : Echantillon aléatoire de grande taille comprenant très peu de questions dont : Pratiquez-vous un sport? Si oui, lequel Phase 2 : Echantillonnage SI ou par strates (en utilisant les informations collectées en phase 1) Questionnaire complet (uniquement auprès de sportifs)
B. L échantillonnage aléatoire - Conclusions Le mode d'échantillonnage doit être choisi en fonction : De la question Du budget Pour chaque mode d'échantillonnage il existe des mesures de la précision des estimateurs : Permet de définir la taille minimale de l'échantillon pour une précision donnée Permet anticiper le degré de précision pour une taille d'échantillon donnée Ch 2 L'échantillonnage A. Définition de l'échantillon B. L'échantillonnage aléatoire C. L'échantillonnage non aléatoire D. Les erreurs
C. Méthodes empirique ou non aléatoires Elles sont souvent utilisées Pour des études exploratoires Lorsque le budget est très limité Quand il est impossible ou non envisageable d utiliser la méthode aléatoire.
C. Méthodes non aléatoires l échantillonnage à l aveuglette ou de commodité : «comme ça vient» Ex : les interviews dans la rue (hasard aléatoire!) L échantillonnage de volontaires : Ex : Expériences médicales ou psychologiques L échantillonnage au jugé : en fonction de «l idée qu on se fait» de la composition de la population Ex : Clients «types» en marketing C. Méthodes non aléatoires La méthode des itinéraires : On impose à l'enquêteur un certain itinéraire en indiquant les points où il doit faire remplir un questionnaire L échantillonnage par quotas (aka «échantillonnage dirigé» ou «par choix raisonné») : On demande aux enquêteurs de faire un nombre d entrevues dans divers groupes établis en fonction du secteur géographique, de l âge, du sexe ou d autres caractéristiques L enquêteur doit respecter son quota.
C. La méthode des quotas Largement utilisée dans les enquêtes d opinion et les études de marché : Ne suppose pas de liste des individus de la population Quotas définis à partir d'informations publiques (répartition de la population par sexe, age, zones géographiques, CSP, etc.) Permet d'obtenir un échantillon «représentatif» de la population «Peut permettre» une bonne précision des mesures C. La méthode des quotas MAIS : La «représentativité» porte uniquement sur la structure selon les variables qui définissent les quotas : les autres dimensions sont ignorées et la structure de corrélation n'est pas assurée... La qualité dépend très fortement du contrôle des enquêteurs : RDC et 1er étages sur-représentés Enquêtes concentrées sur des «îlots» etc.
C. La méthode des quotas Méthodes non aléatoires Avantages : Moins coûteuses Plus faciles à réaliser Désavantages: Faible qualité Biais d'enquêteurs sur des quotas par groupes («60 ans et plus» : plus facile de trouver un 60 qu'un 105..., Surreprésentation des RDC et 1er étages) Pas d'expression théorique de la précision des mesures
Pour en savoir plus Les techniques de sondage P. Ardilly, édition TECHNIP 1994