Séminaire Environnement Constitution d échantillons pour études quantitatives Myriam Campardon Unité Mixte de Recherche Cemagref-ENGEES en Gestion des Services Publics Séminaire environnement - Ateliers enquête - 10 octobre 2006 1
Plan Une introduction à la théorie des sondages Les méthodes de sondage probabilistes Les méthodes de sondage empiriques Séminaire environnement - Ateliers enquête - 10 octobre 2006 2
Une introduction à la théorie des sondages Séminaire environnement - Ateliers enquête - 10 octobre 2006 3
Une introduction à la théorie des sondages Exemples de problèmes Population : ensemble des individus auxquels on s intéresse dans le cadre d une étude donnée Population Réservoir d eau Lycéens de la classe de T ale Électorat français Information recherchée Concentration en certaines bactéries Poids moyen Proportion de «oui» au référendum Séminaire environnement - Ateliers enquête - 10 octobre 2006 4
Une introduction à la théorie des sondages Pourquoi échantillonner? Recherche d information sur une population concrète et définie x x x x x x Recensement : Recueil des données sur la population entière (population de faible effectif) x x x x x x Sondage : Mesurer une partie seulement de la population pour économiser temps et argent (tirage d un échantillon) x x Séminaire environnement - Ateliers enquête - 10 octobre 2006 5
Une introduction à la théorie des sondages Estimation Les données obtenues par sondage fournissent une estimation des caractéristiques de la population. Selon l échantillon tiré les résultats varient. Séminaire environnement - Ateliers enquête - 10 octobre 2006 6
Une introduction à la théorie des sondages Un exemple simple Population N=6 a b c d e f total 1 2 4 6 7 16 36 Tirer un échantillon de n=3 individus pour estimer le total (T=36) Séminaire environnement - Ateliers enquête - 10 octobre 2006 7
Une introduction à la théorie des sondages une méthode de tirage simple tirage aléatoire simple (ou tirage exhaustif ou encore tirage sans remise). Chaque lettre a la même chance d être tirée Chaque combinaison de 3 lettres a la même chance de constituer l échantillon 20 échantillons possibles Cette méthode donne-t-elle une bonne estimation de la population totale?? Mesurer la précision et le biais Séminaire environnement - Ateliers enquête - 10 octobre 2006 8
Une introduction à la théorie des sondages Les 20 échantillons possibles Echantillon Total de l'échantillon Estimation du total de la population Erreur de l'estimation abc 7 14-22 abd 9 18-18 abe 10 20-16 abf 19 38 2 acd 11 22-14 ace 12 24-12 acf 21 42 6 ade 14 28-8 adf 23 46 10 aef 24 48 12 bcd 12 24-12 bce 13 26-10 bcf 22 44 8 bde 15 30-6 bdf 24 48 12 bef 25 50 14 cde 17 34-2 cdf 26 52 16 cef 27 54 18 def 29 58 22 Moyenne 18 36 0 Séminaire environnement - Ateliers enquête - 10 octobre 2006 9
Une introduction à la théorie des sondages Le biais Biais = moyenne des erreurs = 0 (espérance de l estimateur) Le tirage aléatoire simple est un plan de sondage donnant des estimations sans biais (valable pour toute population et tout effectif d échantillon) Prendre un grand échantillon ne réduit pas le biais!! Séminaire environnement - Ateliers enquête - 10 octobre 2006 10
Une introduction à la théorie des sondages La précision précision = carré moyen des erreurs = 175.2 (variance de l estimateur) Écart-type = 13.2, soit 37% du vrai total de la population Le tirage aléatoire simple n est pas très précis dans le cas de petites populations Séminaire environnement - Ateliers enquête - 10 octobre 2006 11
Une introduction à la théorie des sondages Illustration Estimations de la vraie valeur selon 2 plans de sondage (tous les échantillons possibles sont représentés) Vraie valeur Quel que soit l échantillon tiré selon le plan 1, l estimation de la vraie valeur sera précise mais «biaisée» (décalé et non centré, par rapport à la vraie valeur) Le plan 2 peut illustrer le plan se sondage aléatoire simple Séminaire environnement - Ateliers enquête - 10 octobre 2006 12
Les méthodes de sondage probabilistes Séminaire environnement - Ateliers enquête - 10 octobre 2006 13
Les méthodes de sondage probabilistes Sondages probabilistes Méthodes de sondage où : Chaque individu de la population a une probabilité connue et non nulle de figurer dans l échantillon Ces probabilités sont prises en compte pour le choix de la méthode de tirage et pour les estimations Possibilité de calculer, à partir de l échantillon, la précision de l estimation obtenue (IC) Les résultats sont généralisables à la population Séminaire environnement - Ateliers enquête - 10 octobre 2006 14
Les méthodes de sondage probabilistes Quelques méthodes Méthode/plan Caractéristiques Dans quel cas l utiliser? Exemple Sondage aléatoire simple (sans remise) Choix de l échantillon laissé au hasard Satisfaisante lorsque la population n est pas très variable (en particulier lorsque les proportions à estimer sont entre 20% et 80%) Stratification - Population divisée en strates (partition) - Échantillon tiré de façon indépendante dans chaque strate - On peut choisir la taille de l échantillon de chaque strate Gain de précision par rapport au sondage aléatoire simple dans la cas d une population hétérogène divisée en strates assez bien homogènes - Sondage sur la population d une ville hôtels et grandes maisons placés à part dans une strate - Estimer la récolte de blé à partir d un échantillon de fermes stratifier en fonction de la taille des fermes Sondage à 2 degrés L unité statistique peut être sous-échantillonnée : - Choix d un échantillon d unités primaires (UP) - Choix d un sous-échantillon d unités secondaires (US) dans chaque UP Quelques fois la seule méthode possible Liste des UP souvent facile à obtenir. Permet d éviter de lister toutes la population (US) Étude de la teneur en vitamine A du beurre produit par les laiteries on ne prendra pas tout le beurre de la laiterie Séminaire environnement - Ateliers enquête - 10 octobre 2006 15
Les méthodes de sondage probabilistes Taille d échantillon? Elle est déterminée en fonction du plan de sondage. Décider d abord de la valeur de l erreur que l on peut tolérer pour l estimation recherchée L expression de l erreur au risque 5% (avoir au + 5 chances sur 100 que l erreur dépasse la valeur fixée) donne n. Séminaire environnement - Ateliers enquête - 10 octobre 2006 16
Les méthodes de sondage empiriques Séminaire environnement - Ateliers enquête - 10 octobre 2006 17
Les méthodes de sondage empiriques Méthode des quotas Échantillon = Modèle réduit de la population Reproduction en proportions de certaines caractéristiques socio-démographiques de la population (âge, sexe, CSP) Hypothèse : «effet de halo» Représentativité de l échantillon (condition permettant d étendre les résultats et conclusions de l enquête à l ensemble de la population) Séminaire environnement - Ateliers enquête - 10 octobre 2006 18
Les méthodes de sondage empiriques Avantages / Inconvénients + rapide (et - coûteux) Individus interchangeables Préférable pour petits échantillons Précision pas calculable rigoureusement Postulat (difficulté de déterminer les caractéristiques pertinentes!) Séminaire environnement - Ateliers enquête - 10 octobre 2006 19
Les méthodes de sondage empiriques Quels quotas? Quotas simples : x% de femmes et y% de 20-25 ans Quotas croisés : z% de femmes de 20-25 ans Plutôt simples que croisés 2 à 3 quotas max. Fins de quotas Ne pas tricher Séminaire environnement - Ateliers enquête - 10 octobre 2006 20
Les méthodes de sondage empiriques Taille d échantillon Veut-on une certaine précision? Homogénéité de la population Ressources Séminaire environnement - Ateliers enquête - 10 octobre 2006 21
Documentation Théorie des sondages : Snedecor & Cochran, «Méthodes statistiques», 6 ème édition (bibliothèque) Les sondages, en général : articles sur Wikipédia Tuyaux sur les tailles d échantillon : http://www.surveystore.info/nsarticle/enqu ete-par-questionnaire.asp Séminaire environnement - Ateliers enquête - 10 octobre 2006 22
Qui interroger? Base de sondage disponible : Échantillon probabiliste (tirage aléatoire) Base de sondage non disponible : Échantillon empirique Séminaire environnement - Ateliers enquête - 10 octobre 2006 23
Et nous?? Absence d information sur la population étudiée Réduction des biais et contrôle de l échantillon : Éviter les enquêtes sur base volontaire! Quotas, unité géographique (région, département, ville, quartier), taille (ville, ménage, ) Temporalité (période, jour, plage horaire) Trouver une répartition qui assure une VARIETE max. Effectifs suffisants dans les «cases» Échantillons non représentatifs mais : Cohérence avec l objet de l étude Rigueur dans la réalisation et l analyse Séminaire environnement - Ateliers enquête - 10 octobre 2006 24