UE4 Évaluation des méthodes d analyses appliquées aux sciences de la vie et de la santé Échantillonnage Frédéric Mauny 04 et 10 octobre 2013 1 Plan du cours 1. Définitions 2. Base de sondage et tirage au sort 3. Principaux types de sondages aléatoires 4. Choix du mode de sondage 2 1
1. Définitions Populations & échantillons Biais et dispersion Différentes méthodes de sondage 3 Populations & échantillons Population = ensemble des individus (unités statistiques) Population cible : pour laquelle on veut recueillir des informations, à laquelle on voudrait généraliser les résultats. Population source : pour laquelle on peut recueillir des informations. de laquelle on extrait le(s) échantillon(s). 4 2
Populations & échantillons Recensement : exhaustif : tous les sujets de la population sont considérés. Échantillonnage (ou sondage) : procédé qui consiste à n observer qu une partie (échantillon) de la population étudiée, plusieurs échantillons peuvent être constitués. 5 Populations & échantillons Population cible Patients atteints d'une maladie Population source Patients suivis dans un hôpital Base de sondage Liste des consultations Échantillon Série de patients 6 3
Sondage L échantillon en lui-même n est pas intéressant, ce sont les conclusions sur la population d'origine que l on peut tirer de son observation qui en font l intérêt : inférence statistique. Avantages : plus rapide et moins cher qu'un recensement, informations recueillies plus détaillées. Inconvénient : incertitude quant à la possibilité d extrapoler à la population entière. 7 Populations & échantillons La principale qualité d'un échantillon est d'être «représentatif» : tout individu de la population peut figurer avec une probabilité connue dans l échantillon, condition assurée uniquement par le tirage au sort, conduit à des estimations non biaisées. C est le mode de constitution d un échantillon (et non les résultats obtenus) qui permet de le qualifier de représentatif. 8 4
1. Définitions Populations & échantillons Biais et dispersion Différentes méthodes de sondage 9 Biais et dispersion Biais = erreur systématique (1) Dispersion = erreur aléatoire (2) ou fluctuation d'échantillonnage a b c d 10 5
1. Définitions Populations & échantillons Biais et dispersion Différentes méthodes de sondage Sondage empirique ou méthode des "quotas" Sondage aléatoire Sondage pseudo-aléatoire 11 Sondage empirique (quotas) Largement utilisée dans les enquêtes d opinion et les études de marché. On construit un échantillon à l'image de la population en respectant les proportions de chaque catégorie dans la population d'origine On subdivise la population en catégories : sexe, âge, catégorie socioprofessionnelle On suppose que la variable étudiée est liée à la distribution des variables de contrôle. 12 6
Sondage empirique (ex.) Variable Modalités % visé % échantillon Sexe Masculin Féminin 47,8 52,2 49,2 50,8 Age 18 à 24 ans 25 à 34 ans 12,3 19,3 12,6 19,6 CSP chef de famille Agriculteur Ouvrier 2,3 22,8 2,5 19,9 13 Sondage empirique Avantages : ne nécessite pas une base de sondage, économique et rapide à mettre en œuvre, adaptée aux échantillons de faible effectif (<1000) et aux enquêtes avec un fort risque de refus de répondre. Inconvénients : ne permet pas d évaluer la précision des estimations, de calculer une marge d erreur, laisse beaucoup d initiative à l enquêteur. 14 7
Sondage empirique Très peu utilisé en recherche médicale et biologique. Quelques applications en sociologie médicale: attitudes de la population par rapport au test de dépistage d'un cancer, perception du risque,... 15 1. Définitions Populations & échantillons Biais et dispersion Différentes méthodes de sondage Sondage empirique ou méthode des "quotas" Sondage aléatoire Sondage pseudo-aléatoire 16 8
Sondage aléatoire On tire au sort les individus parmi tous ceux de la population. Cela suppose qu'on dispose d'une liste où est répertoriée toute la population : une base de sondage 17 1. Définitions Populations & échantillons Biais et dispersion Différentes méthodes de sondage Sondage empirique ou méthode des "quotas" Sondage aléatoire Sondage pseudo-aléatoire 18 9
Sondage pseudo-aléatoire En cas d'absence de base de sondage. On sélectionne les personnes selon un critère non aléatoire, mais supposé indépendant du phénomène à étudier : tous les gens nés un 30 septembre, "méthodes des itinéraires". Permet d'échapper en partie à la subjectivité de l'enquêteur. Parfois compliqué à mettre à œuvre. 19 Plan du cours 1. Définitions 2. Base de sondage et tirage au sort 3. Principaux types de sondages aléatoires 4. Choix du mode de sondage 20 10
2. Base de sondage et tirage au sort Listes Causes d erreur Principe du tirage au sort 21 Base de sondage : listes Listes de sujets : listes électorales, abonnés au téléphone, listes professionnelles... 22 11
Fichier ADELI = Automatisation DEs LIstes Listes de professionnels de santé : état civil situation professionnelle activités exercées Inscription obligatoire du diplôme Détails des professionnels concernés : médecin, pharmacien, chirurgien-dentiste, sage-femme femme, infirmier, infirmier de secteur psychiatrique, masseurkinésithérapeute, orthoptiste, orthophoniste, audioprothésiste, pédicure-podologue, opticien-lunetier, ergothérapeute, manipulateur d électroradiologie médicale, diététicien, psychomotricien, orthoprothésiste, podo-orthésiste, orthopédiste-orthésiste, oculariste, épithésiste, assistant de service social, psychologue 23 Base de sondage : listes Listes de sujets : listes électorales, abonnés au téléphone, listes professionnelles... Listes de logements (cadastre). Listes administratives : hôpitaux, écoles, entreprises, etc. Carte géographique : sondage aréolaires. 24 12
2. Base de sondage et tirage au sort Listes Causes d erreur Principe du tirage au sort 25 Causes d erreur Base incomplète : défaut le plus fréquent et le plus grave. Répétitions : repérées assez facilement dans l'échantillon, mais on oublie parfois de les rechercher dans la base. Données manquantes : ex: adresse (pour enquête postale ). 26 13
2. Base de sondage et tirage au sort Listes Causes d erreur Principe du tirage au sort JF Viel - UFR SMP Université de Franche-Comté 27 Tirage au sort (1) Informatique (fonction RANDOM des tableurs) Table de nombres au hasard 14
Tirage au sort (2) Mode d utilisation d une table de nombres au hasard Ex : tirer 100 sujets dans une base de 1000 individus, numérotés de 000 à 999. Dans une table, on prend les 100 premiers nombres de 3 chiffres en éliminant les répétitions. n 265, 364, 774, 836, 718, 574, 733, 144, 407, 422 Plan du cours 1. Définitions 2. Base de sondage et tirage au sort 3. Principaux types de sondages aléatoires 4. Choix du mode de sondage 30 15
3. Principaux types de sondages aléatoires Sondage élémentaire Sondage aléatoire simple Sondage aléatoire systématique Sondage stratifié Sondage en grappes Sondage à plusieurs degrés 31 Sondage aléatoire simple Tous les individus ont la même probabilité d être tiré au sort. Fraction ou taux de sondage : f=n/n Deux possibilités : avec remise : un individu peut être choisi plusieurs fois. sans remise : un individu déjà choisi ne peut l être de nouveau, différence importante si f est grand. 32 16
Sondage aléatoire simple Estimation sur l'échantillon d un pourcentage ou d une moyenne, et de leur variance. Précision : intervalle de confiance d un pourcentage : p + ε α p ( 1 p) / n intervalle de confiance d une moyenne : m + ε α s ² / n Intervalle de confiance (IC) : ε α = écart réduit pour un risque α prédéfini ε α = écart réduit pour un risque α prédéfini plus n augmente, plus l IC est réduit, donc plus l estimation est précise. 33 Exemple de calcul d IC n=50 personnes, p=20%, α=5% IC 95% = 0,20 + 1,96x = 0,09 à 0,31 0,20 (1 0,20) / 50 Le pourcentage réel dans la population d'origine (P) est compris entre 9 et 31%, (avec un risque d erreur consenti de 5%). Pour améliorer la précision, on peut : accepter un risque d erreur plus élevé, augmenter la taille de l échantillon. 17
Sondage aléatoire simple On peut calculer à partir de ces formules, le nombre de sujets nécessaire pour estimer le pourcentage ou la moyenne avec une précision et un risque d'erreur donnés. Pourcentage : imprécision : écart e = ε α d'où n = ε α ² p(1-p)/e² Moyenne : imprécision : écart e = ε α d'où n = s² (ε α /e)² p ( 1 p) / n s ² / n JF Viel - UFR SMP Université de Franche-Comté 35 Sondage aléatoire simple n = ε α ² p(1-p)/e² Pour calculer le nombre de sujets nécessaire il faut connaître au préalable le pourcentage (ou la moyenne) qu'on se propose d'estimer! étude pilote, bibliographie, avis d'expert. JF Viel - UFR SMP Université de Franche-Comté 36 18
Nombre de sujets nécessaire : ex. - Estimation d un % dans une population - ordre de grandeur connu = 10% - écart /imprécision souhaitée = 2% - risque d erreur accepté = 10% ε α = 1,64 - Taille de l'échantillon: - n = 1,64 2 (0,10 x 0,90)/(0,02) 2 = 605 personnes Sondage aléatoire simple Toutes ces formules supposent que les distributions suivent une loi normale : n 30, tirage avec remise. En cas de tirage sans remise : la variance est moindre, terme correctif : (N-n)/n = 1-f la taille de l'échantillon est moins grande : n* = n / [1+(n/N)] peu utilisé en pratique car N >> n 38 19
3. Principaux types de sondages aléatoires Sondage élémentaire Sondage aléatoire simple Sondage aléatoire systématique Sondage stratifié Sondage en grappes Sondage à plusieurs degrés 39 Sondage aléatoire systématique Unités de la population rangées de 1 à N Soit n la taille de l échantillon k = N/n = 1 / f, "pas" de sondage Principe : on tire au sort un entier d entre 1 et k, le d ième individu est le premier inclus, pour les autres, il suffit d ajouter le pas de sondage à d : d + k, d + 2k, d + 3k 40 20
Sondage aléatoire systématique Ex: tirer 10 sujets parmi 1000, N = 1000, n = 10, f = 0,01, k = 100 Tirage au sort d'un numéro entre 1 et 100 : 78 78 178 278 378 478 578 678 778 878 978 1 1000 41 Sondage aléatoire systématique Avantages : simplicité. Inconvénients : aucun moyen de connaître la variance des estimateurs, suppose l'absence de périodicité (ou de cycle) de la base de sondage : hommes : numéro pairs, femmes : numéros impairs 42 21
3. Principaux types de sondages aléatoires Sondage élémentaire Sondage aléatoire simple Sondage aléatoire systématique Sondage stratifié Sondage en grappes Sondage à plusieurs degrés 43 Sondage stratifié On divise la population étudiée en sous-populations (ou strates) plus homogènes. Les strates sont définies selon un critère simple (âge, sexe) lié à la variable à estimer. A l'intérieur de chaque strate, on effectue un sondage aléatoire. La variance à l'intérieur des strates est inférieure à la variance totale de la population : chacun des sondages partiels est précis. 44 22
Représentation graphique Sondage stratifié X X X S5 µ S4 S3 m µ m µ S2 S1 45 Sondage stratifié Efficacité d'une stratification X X 46 23
Sondage stratifié Avantages : la stratification réduit la variance des estimateurs, le gain de précision est d'autant plus grand qu'il existe une liaison forte entre le critère de stratification et la variable à étudier, on peut répartir l'échantillon entre différentes sous-populations présentant chacune un intérêt propre, de manière à obtenir pour chacune une estimation satisfaisante, les fractions de sondage peuvent différer entre strates. 47 3. Principaux types de sondages aléatoires Sondage élémentaire Sondage aléatoire simple Sondage aléatoire systématique Sondage stratifié Sondage en grappes Sondage à plusieurs degrés 48 24
Sondage en grappes On ne dispose pas toujours, comme base de sondage, d'une liste d'unités. Mais on peut disposer d'une liste de groupes d'unités (ou grappes) : logements, écoles, hôpitaux, cabinets médicaux Un sondage en grappes consiste à : choisir au hasard un échantillon de grappes, mener l'étude sur tous les individus que contiennent les grappes tirées, l'unité de sondage et l'unité statistique sont distinctes. 49 Sondage en grappes X Dans ce type d'échantillonnage, ou bien une grappe échappe en totalité à l'échantillon, ou bien elle est retenue tout entière. 50 25
Sondage en grappes Avantages : le tirage se fait dans une base de sondage moins étendue, dont il est facile de disposer, la concentration de plusieurs enquêtes au même endroit se traduit par un gain de temps et une économie. Inconvénient potentiel : en termes de précision, ce type de sondage peut selon les cas, se révéler avantageux ou comporter des inconvénients graves. 51 Sondage en grappes Variance totale = var. inter-g. + var. intra-grappes La précision est d'autant meilleure que : var. inter-grappes est petite (meilleurs estimateurs), var. intra-grappes est grande, des grappes très hétérogènes (var. intra-grappes grande) sont dites efficaces, des grappes très homogènes (va. intra-grappes petite) conduisent à un sondage de mauvaise qualité. 52 26
Sondage en grappes des grappes très hétérogènes (var. intra-grappes grande) sont dites efficaces des grappes très homogènes (var. intra-grappes petite) conduisent à un sondage de mauvaise qualité. 53 Sondage en grappes Par rapport à un sondage élémentaire les estimations sont : aussi précises si les grappes sont constituées au hasard, plus précises si les grappes sont plus hétérogènes que ne le voudrait le hasard et semblables entre elles, moins précises si les grappes sont plus homogènes que ne le voudrait le hasard et différentes les unes des autres. 54 27
Sondage en grappes Un sondage en grappes est généralement stratifié : ex: CHU, hôpitaux > 500 lits, hôpitaux < 500 lits. En pratique : préférer plus de grappes mais moins volumineuses, que moins de grappes mais plus volumineuses. Au moins 30 grappes. 55 3. Principaux types de sondages aléatoires Sondage élémentaire Sondage aléatoire simple Sondage aléatoire systématique Sondage stratifié Sondage en grappes Sondage à plusieurs degrés 56 28
Sondage à deux degrés Principe : un premier sondage désigne un échantillon d'unités collectives, ou unités «primaires» (comme pour un sondage en grappes), puis dans chacune des unités collectives, un second sondage ne retient que certaines unités statistiques, ou unités «secondaires» à étudier. deux degrés, car deux tirages au sort. 57 Sondage à deux degrés Avantages : d'abord ceux du sondage en grappes (concentration des enquêtes, économies ). ensuite, ceux d'un sondage à plusieurs degrés : un éventuel effet de grappe défavorable est atténué par le deuxième degré, bon compromis coût / précision. 58 29
Sondage à plusieurs degrés Autant de degrés que de tirages au sort. Ils sont généralement stratifiés. Le calcul des estimations (moyenne, pourcentage) et de leurs variances devient complexe. 59 Plan du cours 1. Définitions 2. Base de sondage et tirage au sort 3. Principaux types de sondages aléatoires 4. Choix du mode de sondage 60 30
4. Choix du mode de sondage oui Base de sondage "élémentaire" non Tirage au sort direct des unités statistiques Tirage au sort de groupes d unités - sondage en grappes Sondage élémentaire Sondage stratifié Un degré Plusieurs degrés 61 Conclusion Toujours exercer un regard critique! population cible? population source? qualité de la liste de sondage? tirage(s) au sort? méthode de sondage? calcul d'un nombre de sujets nécessaire? taille de l'échantillon? variance des estimateurs?... 31