Annie FOURRIER-REGLAT Marthe-Aline JUTAND avec la participation d Anne-Marie DUSSAIX INITIATION AUX METHODES DE SONDAGE APPLICATION A LA PHARMACO-EPIDEMIOLOGIE ARME-Pharmacovigilance Editions - Bordeaux (Association pour la Recherche MEthodologique en Pharmacovigilance)
Annie FOURRIER-REGLAT Marthe-Aline JUTAND avec la participation d Anne-Marie DUSSAIX INITIATION AUX METHODES DE SONDAGE APPLICATION A LA PHARMACO-EPIDEMIOLOGIE
CO-AUTEURS Annie FOURRIER-REGLAT INSERM Unité 657 Département de Pharmacologie Université Victor Segalen Bordeaux 2 33076 Bordeaux Cedex Marthe-Aline JUTAND Institut de Santé Publique, Epidémiologie et Développement (ISPED) Université Victor Segalen Bordeaux 2 33076 Bordeaux Cedex AVEC LA PARTICIPATION DE Anne-Marie DUSSAIX Département Systèmes d'information et de décision Ecole Supérieure des Sciences Economiques et Commerciales 95021 Cergy-Pontoise Cedex COMITE DE LECTURE Françoise HARAMBURU INSERM Unité 657 Centre de Pharmacovigilance Département de Pharmacologie 33076 Bordeaux Cedex Ghada MIREMONT-SALAME INSERM Unité 657 Centre de Pharmacovigilance Département de Pharmacologie 33076 Bordeaux Cedex Rachid SALMI Institut de Santé Publique, Epidémiologie et Développement (ISPED) Université Victor Segalen Bordeaux 2 33076 Bordeaux Cedex Hélène THEOPHILE ARME-Pharmacovigilance Université Victor Segalen Bordeaux 2 33076 Bordeaux Cedex
PUBLICATIONS ARME-PHARMACOVIGILANCE - La Lettre ARME-Pharmacovigilance 1989-2003 Bordeaux : ARME-Pharmacovigilance Editions, 2004 - Mesures de risque et d'association en pharmaco-épidémiologie. Bégaud B Bordeaux : ARME-Pharmacovigilance Editions, 1998 - Diccionario de farmacoepidemiologia. Bégaud B, Martin Arias LH Barcelona : Masson-Salvat Editions, 1996 - Nombre de sujets nécessaires pour démontrer l'équivalence entre deux risques. Tubert-Bitter P, Manfredi R, Bégaud B Bordeaux : ARME-Pharmacovigilance Editions, 1996 - Dictionnaire de Pharmaco-épidémiologie. Bégaud B 1 ère et 2 ème édition, Bordeaux : ARME-Pharmacovigilance Editions, 1995 3 ème édition, Bordeaux : ARME-Pharmacovigilance Editions, 1998 - Données françaises de morbidité utiles en Pharmacovigilance 1 ère édition, Bordeaux : ARME-Pharmacovigilance Editions, 1994 2 ème édition, Bordeaux : ARME-Pharmacovigilance Editions, 1997 - Cadre juridique des études de cohortes en Pharmacovigilance 1 ère édition, Bordeaux : ARME-Pharmacovigilance Editions, 1994 2 ème édition, Bordeaux : ARME-Pharmacovigilance Editions, 1995 - Etudes de cohortes en Pharmacovigilance 1 ère édition, Bordeaux : ARME-Pharmacovigilance Editions, 1993 2 ème édition, Bordeaux : ARME-Pharmacovigilance Editions, 1995 - Methodological approaches in pharmacoepidemiology : application to spontaneous reporting Amsterdam : Elsevier Science Publishers B.V., 1993 - Analyse d'incidence en Pharmacovigilance : application à la notification spontanée 1 ère édition, Bordeaux : ARME-Pharmacovigilance Editions, 1991 2 ème édition, Bordeaux : ARME-Pharmacovigilance Editions, 1992 2006, Arme-Pharmacovigilance Editions - Bordeaux Université Victor Segalen Bordeaux 2-33076 Bordeaux Cedex Dépôt légal - 3 ème trimestre 2006 Tous droits de reproduction réservés (article 40 de la loi du 11 Mars 1957) ISBN n 2-909176-21-5
ARME-Pharmacovigilance ARME-Pharmacovigilance est une association de type Loi 1901, fondée en 1988 qui a pour but la recherche et le perfectionnement de méthodes de surveillance et d évaluation des médicaments. ARME-Pharmacovigilance existe grâce à la participation et au soutien des laboratoires pharmaceutiques adhérents suivants : AstraZeneca Pierre Fabre Médicament GlaxoSmithKline I.R.I.S. Institut de Recherches Internationales Servier Lundbeck SAS Novartis Pharma Pfizer Produits Roche Sanofi-Aventis Viatris
P R E F A C E Ce livre concis, mais néanmoins complet, sur les méthodes de sondage est parti d un constat simple : tout le monde est familier de la notion de sondage, par la référence constante à ce mode d enquête dans les médias généralistes, mais l abord des techniques statistiques d échantillonnage apparaît toujours d une complexité effrayante pour nombres d apprenants et d enseignants. Face à cette difficulté, les professionnels qui auraient le plus besoin des résultats de sondages rigoureux peuvent avoir trois attitudes : une suspicion envers les sondages les plus populaires (politiques notamment ) qui manqueraient de crédibilité, une suspicion envers les sondages statistiques perçus comme des boîtes noires incompréhensibles ou un rejet complet de la méthode. Utilisant l approche pragmatique qui caractérise les livres d ARME- Pharmacovigilance, les auteurs nous proposent une initiation aux méthodes de sondage appliquées à la pharmaco-épidémiologie. Les premiers principes de ces méthodes sont abordés, à travers les sept chapitres, de manière pratique et illustrée, pour que l utilisateur des résultats des sondages ne soit jamais décontenancé par les aspects méthodologiques. Et pourtant les auteurs, deux statisticiennes et une pharmaco-épidémiologiste, ont réussi l exploit de respecter la rigueur du raisonnement statistique, en plaçant les formules mathématiques indispensables dans des encarts clairs et en fournissant à chaque étape des exemples complets mais simples. L intérêt premier de ce livre est en effet de partir d éléments concrets pour les utilisateurs de la pharmaco-épidémiologie, en commençant dès le premier chapitre par une explication du type de questions auxquelles les sondages peuvent répondre. Des éléments aussi complexes que les notions de représentativité, de strate
ou de grappe sont clairement présentés en alliant définitions rigoureuses et illustrations pratiques. La lecture de ce livre devrait réjouir les statisticiens comme les utilisateurs des résultats des études de pharmaco-épidémiologie. Les premiers y trouveront du matériel didactique simple mais précis et complet, leur permettant d expliquer les étapes et les contraintes d un sondage qu ils auraient à faire pour les seconds. Ces utilisateurs, pour leur part, trouveront probablement que les méthodes de sondages, même si elles reposent sur une théorie statistique très élaborée, peuvent perdre leur caractère de boîte noire et leur fournir des résultats utiles et crédibles. Le caractère très pragmatique de l approche des auteurs est également illustré par le dernier chapitre sur les méthodes de sondage non aléatoires : alors que ces méthodes sont souvent décriées par les statisticiens eux-mêmes, les auteurs ont pris le parti d en décrire, aussi précisément qu elles le font pour les sondages statistiques, les avantages, les inconvénients et la place que ces sondages peuvent tenir dans une démarche rigoureuse de pharmaco-épidémiologie. Pour finir, ce livre est aussi le fruit d une collaboration très riche entre les équipes de pharmaco-épidémiologie d ARME-Pharmacovigilance et de santé publique de l Institut de santé publique, d épidémiologie et de développement (ISPED) de l Université Victor Segalen Bordeaux 2. Cette collaboration, heureusement complétée par la contribution d une statisticienne de l École supérieure de sciences économiques et commerciales (ESSEC), illustre parfaitement la complémentarité des démarches méthodologiques propres à la santé publique et spécifiques de la pharmacoépidémiologie dans la connaissance du médicament et de ses effets sur la santé des populations. L. Rachid SALMI Directeur de l ISPED Bordeaux, mars 2006
S O M M A I R E CHAPITRE 1 : GENERALITES SUR LES SONDAGES... 1 1. De la question à la population-cible... 1 2. De la population-cible à l échantillon... 4 2.1. Base de sondage et population-source... 4 2.2. Unités d échantillonnage et unités statistiques... 6 3. Grandes familles de sondage... 7 4. De l échantillon à l information... 8 4.1. Types de variables étudiées... 8 4.2. Variabilité des observations... 9 5. Qualités d un échantillon...11 5.1. Notion de représentativité...11 5.2. Fluctuations d échantillonnage et précision des estimations...12 CHAPITRE 2 : DE LA POPULATION-CIBLE A LA POPULATION-SOURCE : LES BASES DE SONDAGE...15 1. Critères de choix des bases de sondage...15 1.1. Définition des unités statistiques...15 2. Existence et structure d une base de sondage...17 3. Exemples de bases de sondage pouvant être utiles en pharmaco-épidémiologie...18 3.1. Bases de sondage en population générale...18 3.2. Bases de sondage de sujets traités par un médicament...19 4. Que faire quand la base de sondage n existe pas ou est difficilement accessible?.20 4.1. La liste peut être établie en cours d étude...20 4.2. La liste ne peut être établie pour des raisons de faisabilité ou de coût...20 CHAPITRE 3 : PRINCIPALES PROCEDURES DE SELECTION ALEATOIRE D UN ECHANTILLON...23 1. Tirage au sort individuel de n éléments parmi N...24 2. Tirage au sort d un élément parmi N et sélection systématique des (n-1) autres éléments...25 3. Tirage de Poisson ou méthode de Bernoulli...27 4. Tirage au sort proportionnel à un critère quantitatif...29
CHAPITRE 4 : SONDAGE ALEATOIRE SIMPLE...33 1. Constitution d un échantillon en cas de sondage aléatoire simple...33 2. Estimateurs des paramètres de la population en cas de sondage aléatoire simple.34 2.1. Estimateur d une moyenne...34 2.2. Estimateur d un total...36 2.3. Estimateur d une proportion...38 2.4. Estimateur d un ratio...39 2.5. Conditions d application des formules...43 3. Nombre de sujets nécessaire en cas de sondage aléatoire simple...44 4. Conditions de réalisation en cas de sondage aléatoire simple...47 CHAPITRE 5 : SONDAGE ALEATOIRE STRATIFIE...49 1. Constitution d un échantillon aléatoire stratifie d échantillonnage...50 2. Choix de la variable de stratification...51 3. Estimateurs des paramètres de la population en cas de sondage aléatoire stratifié...51 3.1. Estimateur d une moyenne...52 3.2. Estimateur d un total...54 3.3. Estimateur d une proportion...55 3.4. Estimateur d un ratio...57 4. Détermination de la taille de l échantillon et de sa répartition dans chaque strate...60 4.1. Répartition des effectifs entre les strates...61 4.1.1. Répartition à allocation proportionnelle...61 4.1.2. Répartition avec allocation de Neyman...61 4.2. Détermination de la taille globale de l'échantillon dans les sondages stratifiés...62 CHAPITRE 6 : SONDAGE ALEATOIRE EN GRAPPES...65 1. Procédure d échantillonnage...65 2. Effet de grappe...66 3. Estimateurs des paramètres de la population en cas de sondage aléatoire en grappes...66 3.1. Estimateur d une moyenne...67 3.2. Estimateur d un total...69 3.3. Estimateur d une proportion...70 4. Nombre de sujets nécessaire en cas de sondage aléatoire en grappes...71 5. Généralisation des sondages : les sondages à plusieurs degrés...72
CHAPITRE 7 : METHODES DE SONDAGE NON ALEATOIRES...75 1. Généralités...75 2. Méthode des quotas...76 2.1. Définition...76 2.2. Mise en œuvre de la méthode des quotas...79 2.3. Inconvénients et avantages de la méthode des quotas...82 3. Access Panels...83 Références bibliographiques...87 Annexes...89
T A B L E D E S F O R M U L E S Encadré 1 : estimateurs d une moyenne en cas de sondage aléatoire simple sans remise...35 Encadré 2 : estimateurs d un total en cas de sondage aléatoire simple sans remise...36 Encadré 3 : estimateurs d une proportion en cas de sondage aléatoire simple sans remise...38 Encadré 4 : estimateurs d un ratio en cas de sondage aléatoire simple sans remise...40 Encadré 5 : formules pour le calcul du nombre de sujets nécessaire en cas de sondage aléatoire simple sans remise...45 Encadré 6 : estimateurs d une moyenne en cas de sondage aléatoire stratifié avec sondage aléatoire simple sans remise dans chaque strate...52 Encadré 7 : estimateurs d un total en cas de sondage aléatoire stratifié avec sondage aléatoire simple sans remise dans chaque strate...54 Encadré 8 : estimateurs d une proportion en cas de sondage aléatoire stratifié avec sondage aléatoire simple sans remise dans chaque strate...56 Encadré 9 : estimateurs d un ratio dans chaque strate de la population en cas de sondage aléatoire simple dans les strates...58 Encadré 10 : estimateurs d un ratio dans la population entière en cas de sondage aléatoire stratifié...58 Encadré 11 : estimateurs d une moyenne en cas de sondage aléatoire simple sans remise de grappes...67 Encadré 12 : estimateurs d un total en cas de sondage aléatoire en grappes...69
CHAPITRE 1 GENERALITES SUR LES SONDAGES La description des populations traitées par un médicament ou une classe thérapeutique est un objectif fréquent des études pharmacoépidémiologiques. Il est souvent difficile à la fois pour des raisons financières et logistiques de pouvoir recueillir des données sur la population entière. Le plus souvent, on se contente de travailler sur un échantillon, c est-à-dire une fraction ou sous-ensemble de cette population. Ceci présente bien sûr des avantages en termes de faisabilité et de coût, mais impose des contraintes pour que l information recueillie au niveau de l échantillon (estimation) soit le plus proche possible de celle de la population entière (paramètre). Le sondage est défini comme les étapes permettant de sélectionner un échantillon. 1. DE LA QUESTION A LA POPULATION-CIBLE La première étape d une étude est la formulation écrite de la question que l on se pose. Ceci permet en effet d identifier la population concernée par l étude ou plus exactement celle pour laquelle on souhaite obtenir une information. Cette population est généralement qualifiée de population-cible. La définition de celle-ci permet de préciser le champ de l étude et de définir les éléments qui seront les sujets de l étude. D une façon générale, les éléments composant la population-cible d une étude peuvent être des personnes, des objets, etc. 1
En pharmaco-épidémiologie, il s agit le plus souvent de sujets : - issus de la population générale dans son ensemble ou répondant à certains critères socio-démographiques ou géographiques, - atteints d une maladie donnée et susceptibles d être traités par un médicament ou une classe thérapeutique, - traités par un médicament ou une classe thérapeutique quelle qu en soit l indication. Il pourra parfois s agir d objets comme les ordonnances listées dans un ordonnancier d une pharmacie d officine ou présentées au remboursement à une caisse d Assurance Maladie pendant une période donnée. Exemples de questions et de population-cible en pharmaco-épidémiologie : Question Définition de la population-cible a. Quelle est la moyenne d âge des sujets traités par un nouvel hypolipémiant au cours du premier semestre d une année donnée? Les sujets traités par le nouvel hypolipémiant pendant l année d étude. Pour plus de précisions, il faudrait indiquer si l étude concerne des sujets nouvellement traités ou en cours de traitement, des sujets adultes quel que soit leur âge, des sujets traités dans une région donnée, une ville donnée, un pays entier. b. En France, quelle est la proportion d enfants qui, au moment de leur entrée en classe de sixième en septembre de l année écoulée, sont vaccinés contre l hépatite B? Les enfants entrant en classe de sixième en septembre de l année écoulée en France. c. Quelle est la proportion des sujets âgés de plus de 65 ans résidant dans le département de la Gironde traités de façon chronique (plus de 6 mois consécutifs) par une benzodiazépine? Les sujets de plus de 65 ans vivant dans le département de la Gironde. Il conviendra également de préciser ce que l on entend par «65 ans». S agitil de l âge des sujets au moment de l étude, au moment du début du traitement? Il est conseillé de définir la population par l année de naissance. 2
Les études sur population-cible entière sont possibles en pharmacoépidémiologie quand la question de l étude concerne une population de patients traités par un médicament délivré sur prescription et quand le nombre de sujets traités est faible ; c est notamment le cas : - de certains médicaments dont la commercialisation est récente, - de médicaments dont la prescription ou la délivrance sont soumises à des règles particulières (prescription réservée à des spécialistes, délivrance hospitalière, médicaments d exception, etc.). On peut citer comme exemples le suivi des sujets traités par tacrine ou clozapine. En reprenant la question (a), la majorité des sujets traités par un médicament hypolipémiant au cours des six premiers mois de l année donnée peut être identifiée par l intermédiaire des fichiers de remboursement du régime général de l Assurance Maladie que ce soit à l échelle du pays, d une région, d un département ou d une ville donnée. L âge étant une variable renseignée dans ces fichiers, l étude peut être conduite directement dans la base de données à partir de données existantes. Les sujets non affiliés au régime général ou n ayant pas présenté leur ordonnance au remboursement ne seront pas inclus dans l étude. Il conviendra de vérifier que la répartition de la population affiliée au régime général de l Assurance Maladie n est pas différente de celle des sujets non inclus, en particulier vis-à-vis de caractéristiques qui pourraient modifier la probabilité d être traité par le nouvel hypolipémiant. Si l objectif de l étude concernait l estimation d une caractéristique non disponible dans la base comme l indication du traitement, la présence d antécédents cardio-vasculaires, il serait alors nécessaire d interroger les sujets traités ou leur médecin généraliste. Dans ce cas, le recours à un échantillonnage de la base des sujets traités serait sans doute nécessaire afin de recueillir des informations complémentaires. 3
Dans la question (b), l estimation de la proportion d enfants vaccinés contre l hépatite B au moment de leur entrée en classe de sixième, peut difficilement être obtenue en allant interroger les parents des centaines de milliers d enfants entrant en sixième en France. Seule une étude sur échantillon peut permettre de faire cette estimation. L échantillonnage pourra alors passer par des échantillons successifs de départements, de communes, de classes d enfants. Ce type de méthode sera décrit ultérieurement (cf. Chapitre 6). 2. DE LA POPULATION-CIBLE A L ECHANTILLON La constitution d un échantillon nécessite de pouvoir identifier, d une manière ou d une autre, les sujets de la population-cible. On peut repérer les éléments de cette population au moyen d une liste pré-établie d individus ou de groupes d individus (liste des habitants d une ville, liste de communes, etc.), au moment d une circonstance particulière (admission à l hôpital, consultation chez un médecin, etc.). La liste permettant d identifier des éléments ou des groupes d éléments d une population constitue ce que l on appelle la base de sondage. 2.1. Base de sondage et population-source Les bases de sondage sont des listes qui énumèrent les individus ou des groupes d individus de la population qui serviront de base pour sélectionner l échantillon. Plusieurs situations peuvent être rencontrées : - soit on a accès à une liste de tous les individus de la population : 4
directement, quand la liste est composée des individus de la population (liste des élèves de sixième dans un collège par exemple), indirectement, quand la liste est composée d éléments qui regroupent les individus de la population. On peut citer comme listes de regroupement d individus : la liste des logements d une ville, le logement étant considéré comme un groupe d habitants ; la liste des écoles d un département, une école étant un groupe d élèves ; la liste des hôpitaux, un hôpital étant un groupe de services et un service étant un groupe de malades. La sélection de groupes dans un premier temps et ensuite l inclusion de tous les individus ou une sélection d individus des groupes sélectionnés (cf. Chapitre 6) peut ainsi simplifier le recueil de l information, - soit on a accès à une liste d une partie des individus, c est le cas des listes incomplètes (exemple : liste des assurés sociaux au régime général qui n inclut pas les assurés aux autres régimes (MSA, AMPI, etc.)), - soit on n a pas accès à une liste d individus, car la liste n existe pas, c est le cas des sujets qui vont consulter un médecin ou qui vont être hospitalisés pendant une période donnée. Chacun de ces cas de figure va impliquer une démarche différente de sélection qui sera traitée plus en détail dans les chapitres suivants. Les éléments qui composent la base de sondage constituent la populationsource de l étude. Cette population-source n est pas toujours superposable à la population-cible. Par exemple, les listes électorales ne concernent que la population âgée de 18 ans et plus et ne recouvrent pas l ensemble de cette population du fait, en particulier, de la non-inscription sur ces listes des générations les plus jeunes. 5
2.2. Unités d échantillonnage et unités statistiques Les éléments qui peuvent être sélectionnés à partir d une base de sondage sont appelés unités d échantillonnage. Les éléments qui feront l objet de mesures pour l enquête sont appelés unités statistiques. Les unités d échantillonnage et les unités statistiques sont confondues quand les éléments de la base de sondage sont directement les éléments de la population-source. Dans l exemple des enfants scolarisés en classe de sixième, si l étude a comme population-cible les enfants scolarisés pour la première fois en sixième dans un département ou une académie, on peut sans doute avoir accès directement aux listes de ces enfants. En revanche, si l étude concerne le territoire français, l obtention de ces listes peut être complexe. On peut alors imaginer de considérer comme base de sondage la liste des établissements scolaires, d en sélectionner un certain nombre et d aller interroger tout ou partie des enfants scolarisés en sixième dans ces établissements. Dans le premier cas, les enfants sont à la fois les unités d échantillonnage et les unités statistiques de l étude. Dans le second cas, les établissements scolaires sont les unités d échantillonnage et les enfants les unités statistiques. La population-source peut être une sous-population de la population-cible. Dans l exemple des enfants scolarisés en sixième, si l on ne peut avoir accès qu aux listes de scolarisation des collèges de l enseignement public, la population-source n inclura pas les enfants scolarisés dans le secteur privé. Si, pour une raison ou une autre, le fait d être scolarisé en public ou en privé est associé au fait d être vacciné ou non contre l hépatite B, l estimation de 6
la proportion d enfants vaccinés ne pourra être généralisée qu aux enfants du secteur public. 3. GRANDES FAMILLES DE SONDAGE Un sondage peut être effectué de multiples façons que l on regroupe en deux grandes familles : les sondages aléatoires et les sondages non-aléatoires, dits aussi empiriques. Dans un sondage aléatoire, tous les individus de la population-source ont une probabilité connue ou quantifiable et non nulle d'être sélectionnés pour faire partie de l échantillon. La sélection des individus constituant l échantillon s effectue par une procédure de tirage au sort. Seuls les sondages aléatoires permettent de fournir des estimations avec une précision connue, c est-à-dire avec un intervalle de confiance. Ce type de sondage s oppose aux sondages non-aléatoires où la sélection des individus n obéit plus au hasard, mais est définie selon des critères de faisabilité, de ressemblance à la population-cible et des critères subjectifs dépendant du choix des enquêteurs. Les sondages non-aléatoires satisfaisant aux critères de faisabilité sont par exemple les échantillons de sujets volontaires et les échantillons de convenance (exemple : on sélectionnera les clients d une pharmacie un jour donné). Les sondages non-aléatoires satisfaisant aux critères de ressemblance à la population-cible sont appelés échantillonnage par choix raisonné. La méthode des quotas fait partie de cette catégorie de sondage. Les enquêteurs doivent inclure un nombre donné d'individus présentant telle ou telle caractéristique dans des proportions voisines de celles de la population-cible. 7
Dès lors que les quotas sont respectés, le mode de sélection des individus est en partie laissé au libre choix de l'enquêteur. 4. DE L ECHANTILLON A L INFORMATION 4.1. Types de variables étudiées Les variables pour lesquelles on souhaite obtenir une information peuvent être de nature : - quantitative, c est-à-dire prendre des valeurs entre deux nombres limites. Le nombre de valeurs possibles peut être infini, on parle alors de variables quantitatives continues ou, se limiter à certaines valeurs, on parle alors de variables quantitatives discontinues ou discrètes. Exemples : - l âge des sujets traités par tel ou tel médicament est une variable quantitative continue, - le nombre de médicaments pris par personne par jour, le nombre de médicaments prescrits sur une ordonnance sont des variables quantitatives discontinues, - qualitative, c est-à-dire caractériser un état selon différentes modalités. Quand seuls deux états sont possibles, on parle de variables qualitatives binaires. Quand plusieurs modalités sont possibles et ordonnées, on parle de variables qualitatives ordinales. Quand plusieurs modalités sont possibles et non-ordonnées, on parle de variables qualitatives nominales. Les réponses aux questions «êtes-vous traité actuellement par le médicament A? (oui/non)», «êtes-vous de sexe féminin ou masculin? (Homme/Femme)», sont des variables qualitatives binaires. 8
La gravité d une maladie, mesurée de façon croissante, stade I, II, III ou IV est une variable qualitative ordinale. Le groupe sanguin est une variable nominale à 4 modalités, A, B, AB ou O. Les observations faites pour une variable quantitative sont le plus souvent résumées par une moyenne arithmétique : somme des valeurs de la variable mesurée pour chaque individu divisée par le nombre de sujets observés. Les observations faites pour une variable qualitative sont résumées par une proportion : nombre de sujets présentant une modalité de la variable rapportée au nombre de sujets observés. Cette proportion est la moyenne d une variable qui ne pourrait prendre que deux valeurs selon la présence (valeur = 1) ou l absence (valeur = 0) d une caractéristique donnée. Un troisième paramètre, le total des valeurs d une variable, peut être utilisé dans les deux situations. Quand il s agit d une variable binaire, le total représente le nombre de personnes présentant une caractéristique donnée (exemple : nombre de personnes malades dans une population). Quand il s agit d une variable quantitative, le total représente la somme des valeurs de la variable étudiée (exemple : nombre de boîtes de médicament A consommées dans une population). 4.2. Variabilité des observations Les individus d une population ne se ressemblent pas complètement et une variable peut prendre des valeurs différentes d un individu à un autre. Cette variabilité peut être due soit à des erreurs de mesures (questionnaires ou instruments non-standardisés) soit, le plus souvent, correspondre à la variabilité qui existe entre les sujets. Dans ce livre, nous ne nous intéresserons pas aux erreurs de mesure mais uniquement aux variations inter-sujets. 9
La dispersion des valeurs observées d une variable est le plus souvent quantifiée par la variance qui représente la moyenne du carré de l écart entre la valeur moyenne et chaque valeur individuelle observée d une variable. La racine carrée de la variance s appelle l écart-type. Ce paramètre est fondamental car deux populations peuvent avoir pour une variable donnée des moyennes égales mais des variances différentes. La population ayant la variance la plus élevée est la plus hétérogène puisque cela signifie que les valeurs sont plus dispersées autour de la moyenne que pour l autre population. 0,45 0,4 0,35 0,3 population A population B 0,25 0,2 0,15 0,1 0,05 0 11 12 13 14 15 16 17 18 19 valeurs de la variable Figure 1 : répartition d'une variable dans deux populations A et B ayant la même espérance (15) ; la variance dans la population A est plus petite que celle dans la population B. 10
5. QUALITES D UN ECHANTILLON L observation d un échantillon ne permet pas de décrire avec certitude une population, mais seulement d estimer les valeurs de certaines caractéristiques que l on souhaite connaître dans cette population. Les valeurs mesurées à l échelle d une population sont appelées paramètres. Celles réalisées au niveau d un échantillon ne permettent que des estimations de ces paramètres. Ces estimations sont calculées à partir des informations recueillies dans les échantillons à l aide de formules spécifiques que l on nomme estimateurs. L observation faite sur un échantillon unique donne une seule estimation, la répétition de l étude sur un autre échantillon de la même population aboutirait sans doute à une estimation différente : cette notion est appelée «fluctuation d échantillonnage». Nous verrons par la suite que la procédure utilisée pour constituer l échantillonnage détermine le choix d un estimateur. Un «bon» estimateur doit être «non biaisé», c est-à-dire que les estimations faites sur des échantillons successifs selon la même procédure ne doivent pas s écarter de façon systématique de la valeur du paramètre de la population. La moyenne de toutes ces estimations possibles est alors égale à la valeur du paramètre. Un estimateur est également de bonne qualité s il permet d estimer le paramètre avec une bonne précision, c est-à-dire que la variance des estimations obtenues est petite. 5.1. Notion de représentativité Pour extrapoler l information observée dans un échantillon à la population dont il est issu, il faut que l hétérogénéité des différents profils rencontrés 11
dans la population soit retrouvée dans l échantillon, c est-à-dire que celui-ci soit «représentatif» de la population-cible de l étude. L étape de sélection de l échantillon est primordiale pour satisfaire à la représentativité de la population. Reprenons l exemple de la vaccination contre l hépatite B des enfants scolarisés en classe de sixième. Supposons que les modalités d accès à la vaccination diffèrent en fonction de la scolarisation en secteur public ou privé. La sélection d enfants scolarisés en secteur public pourrait préférentiellement inclure des enfants moins vaccinés. L échantillon ne sera alors pas comparable à la population générale vis-à-vis de cette caractéristique. L estimation de la proportion d enfants vaccinés ne pourra être généralisée qu aux enfants du secteur public. 5.2. Fluctuations d échantillonnage et précision des estimations Si le tirage au sort de tous les échantillons était possible, à partir d une population de taille N et en utilisant la même méthode de sélection, les estimations ponctuelles des paramètres de la population seraient variables d'un échantillon à un autre, en raison de la composition différente des échantillons (fluctuations d échantillonnage). Etant donné que l on travaille sur un seul échantillon, il existe autour de l estimation ponctuelle faite dans cet échantillon une incertitude, que l on peut quantifier par la détermination d une fourchette de valeurs possibles du paramètre ou intervalle de confiance. Un intervalle de confiance à 95 % signifie que sur 100 échantillons de taille n sélectionnés aléatoirement selon une procédure identique parmi une population de N éléments, l intervalle de confiance calculé inclurait la valeur du paramètre de la population pour 95 d entre eux. 12
La précision d une estimation est d autant meilleure que l intervalle de confiance est étroit, c est-à-dire que les bornes de cet intervalle sont proches. Elle dépend essentiellement de la variance de la variable étudiée, du nombre n de sujets inclus dans l échantillon et du risque d erreur que l on accepte. L étendue de l intervalle de confiance est inversement proportionnelle à la taille n de l échantillon. Il est de toute façon impossible de fixer un risque nul, dans ce cas, l intervalle de confiance couvrirait la totalité des valeurs possibles du paramètre ; pour une proportion il serait alors [0 ; 1]. Ce qu il faut retenir Les études sur échantillon représentatif de la population-cible d une étude permettent l estimation des paramètres de cette population. La sélection des éléments de l échantillon se fait le plus souvent à partir de listes. Il faut autant que possible s assurer de la bonne couverture de la population-cible de l étude par ces listes. En pratique, les estimations des paramètres d une population sont obtenues à partir d un seul échantillon. Pour tenir compte des fluctuations d échantillonnage, elles doivent être assorties d un intervalle de confiance. 13
14
CHAPITRE 2 DE LA POPULATION-CIBLE A LA POPULATION-SOURCE : LES BASES DE SONDAGE La définition de la population-cible d une étude découle de celle de ses objectifs. Tenant compte de cette définition, il est ensuite nécessaire de sélectionner un groupe d individus le plus représentatif possible de la population-cible, qui constituera l échantillon de l étude. Comme cela a été abordé dans le chapitre précédent, l outil qui permet d identifier les éléments pouvant être inclus dans l échantillon, c est-à-dire la population-source de l étude, est appelé base de sondage. La base de sondage peut exister sous forme d une liste énumérant les éléments ou des groupes d éléments. La sélection des éléments en vue de constituer un échantillon peut se faire directement à partir d'une liste d individus (liste d habitants d une ville, liste de malades allant consulter un médecin, liste de malades hospitalisés, etc). Les unités d échantillonnage peuvent aussi être les unités statistiques. La sélection peut se faire indirectement à partir de groupes d individus (liste de régions, liste d habitations, liste d hôpitaux, liste de pharmacies, liste de médecins, etc.) : on parle alors de sondage en grappes ou à plusieurs degrés. Dans certains cas, cette liste n existe pas ou n est pas accessible mais peut être constituée au fur et mesure que se déroule l étude. 1. CRITERES DE CHOIX DES BASES DE SONDAGE 1.1. Définition des unités statistiques Pour choisir une base de sondage adéquate, la première étape consiste à 15
définir les unités statistiques, c est-à-dire les éléments d intérêt pour l étude. Les principales questions qui se posent en pharmaco-épidémiologie sont les suivantes : - connaître la fréquence d utilisation d un médicament dans la population générale ou dans certaines catégories de population, - connaître les caractéristiques des personnes utilisant un médicament (indications, antécédents, posologie, durée, co-prescriptions, etc.), - connaître les prescripteurs et les modalités de prescription d un médicament ou d une classe thérapeutique donnés. Pour le premier type de question, les unités statistiques sont des sujets issus de la population générale. Selon le type de médicament étudié, on pourra considérer la population toute entière ou se limiter à des catégories de population plus susceptibles d être traitées par le médicament étudié. Exemples : - supposons que l on souhaite connaître la prévalence d utilisation des benzodiazépines en France. L unité statistique sera définie comme toute personne résidant en France, - supposons que l on souhaite estimer la prévalence d utilisation des contraceptifs oraux dans une région donnée. L unité statistique peut être définie comme toute femme en âge de procréer résidant dans la région. Pour le second type, les unités statistiques sont des sujets issus de la population traitée par le médicament. Exemple : supposons que l on souhaite décrire les caractéristiques des sujets traités pour la première fois par un médicament hypolipémiant au cours d une année donnée en Bretagne. L unité statistique est définie comme toute personne débutant au cours de l année d étude un traitement par un médicament hypolipémiant et résidant en Bretagne. 16
Pour le troisième type, les unités statistiques sont issues de la population des médecins pouvant prescrire le médicament. Exemple : supposons que l on souhaite évaluer les critères de choix des antidépresseurs par les médecins en France. L unité statistique est définie comme tout médecin exerçant en France et pouvant prescrire un médicament antidépresseur. 2. EXISTENCE ET STRUCTURE D UNE BASE DE SONDAGE La définition des unités statistiques établie, il s agira alors de se poser les questions suivantes : - les unités statistiques qui nous intéressent sont-elles listées quelque part? Dans l affirmative, sont-elles listées individuellement ou en groupe? Sinon, comment peut-on y avoir accès? Exemple : la liste des affiliés et des bénéficiaires de la sécurité sociale en France est disponible dans les bases de remboursement de soins. Cet accès n est toutefois possible qu après accord de la Commission Nationale Informatique et Libertés (C.N.I.L.), - les sujets de la base de sondage peuvent-ils être repérés de façon précise? Les éléments de la liste sont-ils répertoriés sans ambiguïté et de façon suffisamment précise pour qu en cas de sélection, ils puissent être retrouvés ou identifiés facilement et sans faire d erreur? Exemple : si l on dispose de la liste des affiliés au régime général de l Assurance Maladie, on vérifiera que les adresses soient complètes, pour éviter les retours de courrier en cas d enquête par voie postale ou pour facilement identifier les logements en cas d enquête sur le terrain, etc., - les sujets sont-ils listés sans double compte? Est-il possible que certains sujets soient listés plusieurs fois sous un identifiant différent? 17
Exemple : supposons que l on souhaite sélectionner un échantillon de sujets vus en consultation par les médecins généralistes d une région. Il faudra vérifier qu en cas de consultation auprès de plusieurs médecins, certains patients ne soient pas répertoriés plusieurs fois, - les sujets de la base de sondage sont-ils tous présents sur la liste? La liste est-elle exhaustive? Exemple : si l on veut avoir accès aux personnes adultes habitant une ville, on peut avoir recours aux listes électorales. Les personnes ne pouvant ou n ayant pas choisi de figurer sur ces listes ne pourront pas être sélectionnées. Les réponses à toutes ces questions permettent d évaluer la qualité de la base de sondage pour l enquête. La non-exhaustivité, la présence de données incomplètes, les difficultés pour repérer les individus de façon précise sont autant d éléments qui pourront éventuellement compromettre la couverture de la population étudiée. Il est fortement conseillé de décrire les différences entre la population-source et la population-cible afin de juger l importance de cette erreur de non-couverture. Ce défaut de couverture est comparable à la situation des non-réponses dans une étude. 3. EXEMPLES DE BASES DE SONDAGE POUVANT ETRE UTILES EN PHARMACO-EPIDEMIOLOGIE 3.1. Bases de sondage en population générale Les bases de sondage les plus classiquement utilisées quand il s agit de travailler sur des échantillons de sujets issus de la population générale sont les listes électorales et l annuaire téléphonique. 18
Les listes électorales listent des personnes physiques. Leur principal avantage est d être facilement accessibles. En revanche, leur couverture ne concerne que les personnes en âge légal de participer aux votes et qui ont fait la démarche de s inscrire sur ces listes. Elles n incluent pas les étrangers ni les personnes privées de leurs droits civiques. Par ailleurs, le défaut d inscription sur les listes électorales peut conduire à un taux de couverture faible, par exemple pour les générations les plus jeunes. Les annuaires téléphoniques répertorient des ménages dont la composition peut varier de 1 à X personnes physiques. L intérêt de cette base de sondage a fortement diminué du fait notamment du nombre croissant d abonnés sur liste rouge et des personnes utilisant exclusivement des téléphones mobiles. 3.2. Bases de sondage de sujets traités par un médicament La constitution d échantillons de sujets susceptibles d être traités par un médicament peut se faire par l intermédiaire des bases de données des caisses d Assurance Maladie, des pharmaciens, des médecins prescripteurs. Dans les bases de données de l Assurance Maladie, on a accès à des données pré-enregistrées qui permettent de sélectionner directement les personnes affiliées au régime qu elles soient ou non traitées par un médicament. Ces bases de sondage ne pourront cependant concerner que des médicaments inscrits sur la liste des spécialités remboursées et qui auront fait l objet d une prescription et d un remboursement aux assurés. L identification des sujets traités par tel ou tel médicament par l intermédiaire de pharmaciens d officine sera indirecte puisqu elle suppose d abord la sélection d un échantillon de pharmacies. Cette sélection peut assez facilement être effectuée à partir des fichiers des pharmaciens obtenus par exemple au niveau de l Ordre des pharmaciens, des grossistes répartiteurs ou de l annuaire téléphonique. 19
La constitution d un échantillon de médecins susceptibles de prescrire un médicament peut se faire à partir des fichiers du conseil de l Ordre des médecins, des fichiers constitués à des fins de marketing, de l annuaire téléphonique, etc., à condition que les propriétaires de ces bases donnent leur accord. 4. QUE FAIRE QUAND LA BASE DE SONDAGE N EXISTE PAS OU EST DIFFICILEMENT ACCESSIBLE? Dans tous les cas, la population d intérêt est définie par une phrase caractérisant les personnes éligibles pour l étude (par exemple : les sujets consultant durant une période de 6 mois un médecin généraliste). En l absence de base de sondage, cette définition permet d identifier les unités statistiques. 4.1. La liste peut être établie en cours d étude Par exemple, si on souhaite réaliser une étude auprès des personnes venant acheter un médicament en pharmacie d officine pendant une période donnée, on peut considérer la population-source comme une file d attente dans laquelle on pourra de manière régulière et systématique sélectionner les individus de l échantillon au fur et à mesure qu ils s y intègrent. La même procédure pourra être appliquée pour les sujets consultant un médecin pendant une période donnée. 4.2. La liste ne peut être établie pour des raisons de faisabilité ou de coût Dans certains cas, l accès ou la constitution de la liste des individus d une population est fastidieuse ou dépasse le budget disponible pour l étude. La 20
sélection d individus est alors le plus souvent réalisée pour assurer au mieux la représentativité de la population-cible. On tiendra alors compte de la structure de la population vis-à-vis de certaines caractéristiques (distribution selon l âge, le sexe, etc.) pour construire un échantillon de structure comparable et répondant aux critères de définition des unités statistiques. Cet échantillon peut être considéré comme une reproduction miniature de la population-cible. Par exemple, si la population-cible est composée de 75 % de sujets âgés de plus de 65 ans, l échantillon devra avoir cette même proportion. Dans ce cas, on ne travaille pas à partir d une base de sondage à proprement parler et, en particulier, la sélection des individus de l échantillon n est pas aléatoire, elle est laissée à l initiative des enquêteurs sous certaines contraintes. Ceci constitue le principe de la méthode des quotas décrite au Chapitre 7. Ce qu il faut retenir La réalisation d un sondage aléatoire nécessite d avoir accès à des listes d individus ou de groupes d individus appelés base de sondage. Le choix de ces bases doit s appuyer sur des critères de qualité, en particulier celui d une bonne couverture de la population-cible. Cette question de la «bonne couverture» par la base de sondage doit être discutée. Quand les bases de sondage n existent pas, on peut les créer en cours d enquête ou avoir recours à des méthodes non-aléatoires de sélection assurant au mieux la représentativité de la population-cible. 21
22
CHAPITRE 3 PRINCIPALES PROCEDURES DE SELECTION ALEATOIRE D UN ECHANTILLON La sélection aléatoire d un échantillon à partir d une population-source consiste à construire un outil de sélection pour lequel chaque sujet a une chance non nulle d être inclus dans l étude. Le hasard doit être le seul facteur déterminant de l inclusion du sujet ; ceci est la différence primordiale avec les sélections non aléatoires qui donnent une autonomie de sélection à l enquêteur sous certaines contraintes. Une étape importante lors de la sélection d un échantillon est la détermination du nombre de sujets nécessaire. Deux situations peuvent se rencontrer : - soit ce nombre est limité a priori par des contraintes de faisabilité, - soit un calcul mathématique permet de le déterminer pour répondre, par exemple, à des contraintes de précision de l estimateur. Dans les deux cas, on note N la taille de la population-source et n la taille nécessaire de l échantillon. La proportion n/n est appelée taux de sondage ou fraction de sondage et sera notée f. Si f = 100 %, cela correspond à la réalisation d un recensement, c est-à-dire que toute la population est incluse dans l étude. Lors d un sondage aléatoire, il est nécessaire de définir la probabilité d inclusion de chaque unité statistique de la population-source, c est-à-dire la probabilité que l unité soit incluse dans l enquête lors de ce type de sélection. Un sondage est dit équiprobable si la probabilité d inclusion dans 23
l échantillon est la même pour chaque unité statistique de la populationsource. Lors de la sélection des unités statistiques, le tirage aléatoire peut être réalisé avec ou sans remise. En cas de tirage sans remise, une unité statistique déjà sélectionnée ne peut pas être sélectionnée de nouveau ; en revanche, lors d un tirage avec remise, un sujet peut être sélectionné plusieurs fois. Cette distinction modifie légèrement les estimateurs des différents paramètres que nous verrons dans les chapitres suivants. Cependant, en pratique, il est rare qu un sujet participe plusieurs fois à l enquête. Les quatre procédures principales de sélection aléatoire d unités statistiques à partir d une population-source sont : - le tirage au sort individuel de n éléments parmi N, - le tirage au sort d un élément parmi N et sélection systématique des (n-1) autres éléments, - le tirage de Poisson appelé aussi méthode de Bernoulli, - le tirage au sort proportionnel à un critère quantitatif. 1. TIRAGE AU SORT INDIVIDUEL DE n ELEMENTS PARMI N Quand la liste de tous les éléments d'une population est disponible et si elle n'est pas trop importante, il est relativement facile de numéroter tous les éléments de la population de 1 à N. La sélection aléatoire de n éléments différents est ensuite réalisée à partir de nombres générés à partir d'une table de nombres au hasard (cf. Annexe 1). On peut aussi utiliser une liste de nombres aléatoires générés par la plupart des logiciels d analyse statistique ou par certains calculateurs. Les nombres 24
égaux à zéro ou supérieurs à N ne devront pas être considérés. Cela revient à tirer par une main innocente n papiers parmi N papiers dans un chapeau. Exemple : une base de sondage est constituée de la liste de 25 malades numérotés de 01 à 25 et l'on souhaite sélectionner de façon aléatoire 5 malades. Dans la table de nombres au hasard (cf. Annexe 1), on choisit aléatoirement un point de départ (exemple : ligne 9 de la colonne 1) puis on considère les deux premiers chiffres des nombres de cette colonne ainsi que dans les colonnes suivantes jusqu à identifier 5 nombres à deux chiffres compris entre 01 et 25. Les numéros 17, 01, 12, 21, et 25 sont sélectionnés, les malades correspondant à ces numéros dans la population des 25 malades constitueront l échantillon de l étude. Afin d obtenir n individus distincts, il est parfois nécessaire de générer plus de n numéros parmi N. Imaginons que les numéros 09, 10, 09, 02 et 01 soient générés, l individu 09 ne pouvant être inclus deux fois dans l étude, il faut générer un sixième numéro pour la sélection du cinquième individu de l échantillon. 2. TIRAGE AU SORT D UN ELEMENT PARMI N ET SELECTION SYSTEMATIQUE DES (n-1) AUTRES ELEMENTS Quand la liste des éléments d une population n'est pas connue à l'avance, on peut procéder à un sondage systématique. Exemple : on souhaite sélectionner un échantillon de 4 malades consultant un médecin généraliste pendant le mois de janvier de l année écoulée pour estimer la proportion et les caractéristiques des sujets chez lesquels un antiinflammatoire non stéroïdien est prescrit. On ne peut pas établir à l'avance 25
la liste des malades qui seront vus en consultation par le médecin généraliste au cours du mois de l'étude. En revanche, on sait, en fonction de son activité de l'année précédente, que ce généraliste voit en moyenne 20 malades par jour. Pour obtenir un échantillon de 4 malades, il faut sélectionner un malade tous les 5 malades (20/4). En utilisant une table de nombres au hasard, on peut tirer au sort un numéro entre 1 et 5. Si le premier numéro qui se présente dans la première colonne de la ligne 1 de la table est le numéro 1, le premier individu qui sera vu en consultation à partir du premier janvier de l année écoulée sera interrogé sur la prise d AINS, suivi du sixième (1 + 5), puis du onzième (6 + 5), puis du seizième (11 + 5) malades vus en consultation. Dans cette procédure de sondage, on considère que la population-source peut être définie comme une liste fictive ou réelle répondant parfois à un certain ordre. Il peut s agir d un ordre alphabétique (exemple : annuaire téléphonique) ou chronologique (exemple : archives hospitalières) ou lié à tout autre critère (exemple : taille, lieu géographique). Une fois que le critère d ordre est choisi, chaque unité sera définie selon sa place dans la liste. Dans l exemple précédent, la place de chaque individu dépend de son moment de consultation. Pour formaliser la procédure de sélection, on définit dans un premier temps le pas de sondage k par la partie entière du rapport N/n. Puis on tire au sort un nombre entre 1 et k que l on note d. L individu en d ème position sera sélectionné ainsi que les individus positionnés au classement d + k ; d + 2k ; ; d + (n-1) k. L intérêt de cette méthode peut être, comme dans l exemple présenté, de pouvoir réaliser un 26
échantillon sans pour autant avoir la liste des sujets, mais uniquement leur ordre de passage (liste d attente par exemple). Pour que l échantillon soit représentatif, il ne faut pas utiliser cette méthode si la liste est ordonnée de façon cyclique. Dans ce cas, un tirage systématique risquerait d entraîner la sélection d individus semblables. Exemple : supposons que l on souhaite sélectionner 10 patients consultant chez un médecin généraliste qui voit en moyenne 20 patients par jour. On souhaite réaliser cette étude sur 5 jours en utilisant une sélection systématique. La population-source est donc constituée d environ N = 100 patients, le pas de sondage est alors k = 100/10 = 10. Un nombre est alors tiré au hasard entre 1 et 10, le nombre obtenu peut être 1. Ceci signifie que les sujets 1, 11, 21, 31, 41, 51, 61, 71, 81, 91 seront sélectionnés. Il se peut donc que ce soit toujours le premier patient de la matinée et le premier patient de l après-midi qui soient interrogés. Si le fait de se présenter en début de matinée ou en début d après-midi est associé au critère d intérêt de l étude, alors l échantillon ainsi obtenu risque de fournir une estimation biaisée de l information recherchée. 3. TIRAGE DE POISSON OU METHODE DE BERNOULLI Ce type de tirage consiste à élaborer un échantillonnage tel que les sélections de chaque individu soient indépendantes. Il peut être illustré à partir d un exemple. Exemple : supposons que l on souhaite réaliser un échantillon avec une fraction de sondage f de 1/10. On choisit au hasard un nombre entre 1 et 10, par exemple 7. Puis pour chaque individu de la population-source, on tire au sort un nombre entre 1 et 27
10. Seuls les individus pour lesquels on aura tiré le chiffre 7 seront inclus dans l échantillon. Ainsi, on espère que l échantillon final contienne 1/10 ème de la population, mais au final le résultat va fluctuer autour de 1/10 ème. Cette méthode peut être utilisée lorsque l on ne connaît pas précisément la taille de la population ou si l on souhaite inclure des sujets au fur et à mesure de leur arrivée. Ce type de sondage est très intéressant pour l analyse car les inclusions sont indépendantes et le problème avec remise ou sans remise ne se pose plus. En pratique, il n est pas facilement réalisable car il nécessite N tirages au sort au lieu de n ou 1 dans les procédures précédentes. Cependant il est parfois utilisé lorsque l on souhaite sélectionner un échantillon à partir d un fichier informatique. Pour chaque élément du fichier informatique on génère une nouvelle variable Y, en utilisant une fonction permettant de déterminer de manière aléatoire un nombre supérieur ou égal à 0 et inférieur à 1 (on peut utiliser, par exemple, la fonction «alea ()» du logiciel Excel). Si l on souhaite sélectionner environ un élément sur k éléments, on pourra alors sélectionner tous les éléments ayant une valeur de Y inférieure à 1/k. Ce type de sélection n assure pas le fait d avoir exactement 1/k éléments dans l échantillon. Exemple : supposons que l on ait un fichier de 20 éléments et que l on souhaite en sélectionner un quart parmi ceux-ci en utilisant une sélection de Poisson. Il s agit tout d abord de créer une nouvelle variable définissant un nombre aléatoire entre 0 et 1, puis de sélectionner tous les sujets ayant une valeur de la variable aléatoire inférieure à 0,25. 28
Tableau 1 : exemple de données pour un tirage de Poisson ou méthode de Bernoulli. Sujets Variable Y Appartient à l'échantillon 1 0,9478 non 2 0,2766 non 3 0,1381 oui 4 0,8205 non 5 0,8205 non 6 0,6736 non 7 0,1761 oui 8 0,7096 non 9 0,5750 non 10 0,3088 non 11 0,4512 non 12 0,5164 non 13 0,9790 non 14 0,1367 oui 15 0,5900 non 16 0,1142 oui 17 0,7957 non 18 0,6171 non 19 0,8950 non 20 0,4335 non Dans l exemple précédent 4 éléments ont été sélectionnés par cette méthode au lieu des 5 souhaités initialement. 4. TIRAGE AU SORT PROPORTIONNEL A UN CRITERE QUANTITATIF Dans les modes de tirage au sort présentés ci-dessus, toutes les unités ont la même probabilité de sélection. Or dans certains cas, il est souhaitable que la sélection soit réalisée avec des probabilités d'inclusion différentes en fonction de la valeur de certaines caractéristiques (taille de l unité, services hospitaliers en fonction du nombre de patients hospitalisés, officines en 29
fonction de leur chiffre d affaires, ménages en fonction du nombre d enfants). Pour réaliser un sondage de n sujets proportionnel à une caractéristique quantitative des unités, on peut utiliser la méthode des «effectifs cumulés». On élabore la liste des unités de la population-source en indiquant pour chaque unité i la valeur de la caractéristique considérée (p i ). En considérant successivement chaque unité, on établit les effectifs cumulés # p j. j"i Puis on réalise une sélection systématique en utilisant comme pas de sondage N " p j j=1 k =. On sélectionne un nombre entre 1 et k que l on note d. n Les unités satisfaisant la condition suivante seront sélectionnées : " p j < d + #k $ p j j<i j$i ", avec λ variant de 0 à (n-1). Exemple : on souhaite réaliser une sélection aléatoire de 3 établissements hospitaliers parmi 10 en tenant compte du nombre d infirmiers dans chaque structure. Tableau 2 : exemple de données pour un tirage au sort proportionnel à un critère quantitatif. N de l établissement Nombre d infirmiers Effectifs cumulés 1 30 30 2 88 118 3 107 225 4 110 335 5 52 387 6 140 527 7 87 614 8 95 709 9 200 909 10 90 999 30
Dans cet exemple k = 999 et n = 3. Le pas de sondage vaut k = 999/3 = 333. On tire au sort un nombre entre 1 et 333, par exemple 142. Le premier établissement sélectionné est donc l établissement n 3 puisque 142 est compris entre 118 et 225. Le deuxième établissement sélectionné est l établissement n 6 puisque 142 + 333 = 475 et que 475 est compris entre 387 et 527. Le troisième établissement sélectionné est l établissement n 9 puisque 142 + (2 333) = 808 et que 808 est compris entre 709 et 909. Pour améliorer la représentativité selon le critère taille, on peut ordonner les unités selon leur taille avant d appliquer la procédure. Ceci permet d assurer la présence de petits, moyens et gros établissements hospitaliers dans l échantillon. Exemple : la liste d établissements hospitaliers, de l exemple précédent, peut être ordonnée selon le nombre d infirmiers. Tableau 3 : exemple de données ordonnées pour un tirage au sort proportionnel à un critère quantitatif. N de l établissement Nombre d infirmiers Effectifs cumulés 1 30 30 5 52 82 7 87 169 2 88 257 10 90 347 8 95 442 3 107 549 4 110 659 6 140 799 9 200 999 31
Le pas de sondage est 333 comme dans l exemple précédent. Supposons que le nombre aléatoire sélectionné entre 1 et 333 soit le nombre 123. Le premier établissement sélectionné est donc l établissement n 7 puisque 123 est > 82 et 169). Le deuxième établissement sélectionné est l établissement n 3 puisque 123 + 333 = 456. Et enfin le troisième établissement sélectionné est l établissement n 6 puisque 456 + 333 = 789. Ce qu il faut retenir Le tirage au sort proportionnel est réalisé quand on souhaite que la probabilité de sélection dépende d une caractéristique quantitative. Pour le tirage au sort individuel de n éléments parmi N et le tirage au sort proportionnel, il est nécessaire de disposer d une liste exhaustive des unités. Pour le tirage au sort systématique et le tirage de Poisson, la liste peut être construite simultanément à la sélection. Ce choix dépend également des objectifs de l étude ; si l on souhaite en particulier favoriser la sélection d unités où la survenue de l événement étudié est associé à certaines caractéristiques comme la taille, le dernier type (proportionnel à un critère quantitatif) peut être utilisé. 32
CHAPITRE 4 SONDAGE ALEATOIRE SIMPLE Lors d un sondage aléatoire simple (SAS), les individus qui feront partie de l échantillon de l étude sont sélectionnés en une seule étape, directement à partir d une liste qui constitue la base de sondage. Les unités d échantillonnage et les unités statistiques sont confondues. Tirage au sort Population-source Echantillon Figure 2 : constitution d un échantillon à partir d une population lors d un sondage aléatoire simple. 1. CONSTITUTION D UN ECHANTILLON EN CAS DE SONDAGE ALEATOIRE SIMPLE Les sondages aléatoires simples consistent à tirer au sort n individus parmi N répertoriés dans une liste. Nous ne considérerons dans ce chapitre que les situations où le tirage au sort est sans remise, c est-à-dire qu une unité déjà sélectionnée ne peut l être une 33
seconde fois pour faire partie de l échantillon. Dans les sondages aléatoires simples sans remise, la probabilité d inclusion (π i ) d un individu de la population dans un échantillon de taille n est identique pour tous les individus répertoriés dans cette population. Pour tout individu i, elle est égale à : " i = n N où n correspond à la taille de l échantillon et N à la taille de la population. Ce rapport n/n représente aussi dans la situation d un sondage aléatoire simple, la fraction de sondage. Exemple : on veut estimer la proportion de sujets âgés de 25 à 54 ans traités par antihypertenseurs dans la région Aquitaine. On dénombre 1 213 500 sujets dans cette tranche d âge. On décide de sélectionner 4 854 personnes, soit un taux de sondage au 1/250 ème. Chaque sujet a donc une chance sur 250 d être sélectionné. On attribue pour chaque individu un nombre compris entre 1 et 1 213 500. Puis on génère 4 854 nombres aléatoires différents. Ces nombres définiront les sujets sélectionnés et donc à inclure dans l échantillon. Si des nombres aléatoires égaux sont générés, on ne les considérera qu une fois. 2. ESTIMATEURS DES PARAMETRES DE LA POPULATION EN CAS DE SONDAGE ALEATOIRE SIMPLE 2.1. Estimateur d une moyenne L estimateur de la moyenne d une variable quantitative X dans une population de taille N, ainsi que l estimateur de sa variance et l intervalle de confiance associé figurent dans l encadré 1. 34
Estimateur de la moyenne ˆ µ = n " x i i=1 n Estimateur de la variance de l estimateur de la moyenne vˆ a r(ˆ µ ) = N - n N " sx 2 n avec s x 2 = n " i=1 (x i - µ ˆ ) 2 n -1 Intervalle de confiance (100-α) % de la moyenne $ N - n µ ˆ ± z 1-"/2 N # s 2 ' & x ) %& n () NB : si le sondage est réalisé avec remise alors vˆ a r(ˆ µ ) = s x 2 n Encadré 1 : estimateurs d une moyenne en cas de sondage aléatoire simple sans remise. Exemple : on veut estimer la posologie moyenne prescrite pour un neuroleptique chez les patients qui débutent un traitement. En utilisant les fichiers de remboursement des caisses de l Assurance Maladie, 100 000 ordonnances correspondant à des sujets nouvellement traités ont été identifiées. On a sélectionné par tirage aléatoire simple sans remise un échantillon au 1/50 ème soit n = 2 000 prescriptions. La somme des posologies prescrites # n & " x i % ( $ i=1 ' dans l échantillon est de 21 700 mg et la posologie moyenne prescrite parmi les sujets qui débutent un traitement par ce médicament peut être estimée comme étant égale à : 21 700 µ ˆ = = 10,85 mg. 2 000 35
s x 2 = 140 mg 2 et la variance estimée de quotidienne prescrite est égale à : µ ˆ est de : 0,0686 mg 2. La borne inférieure de l intervalle de confiance à 95 % de la posologie 10,85-1,96 100 000-2 000 " 140 = 10,34 mg. 100 000 2 000 La borne supérieure de l intervalle de confiance à 95 % de la posologie quotidienne prescrite est égale à : 10,85+1,96 100 000-2 000 " 140 = 11,36 mg. 100 000 2 000 2.2. Estimateur d un total L estimateur du total d une caractéristique X, l estimateur de sa variance et l intervalle de confiance associé figurent dans l encadré 2. Estimateur du total ˆ T = n x i i=1 N" n = N ˆ µ Estimateur de la variance de l estimateur du total n vˆ a r( T ˆ # ) = N " (N - n) s x 2 & "(x i -µ ˆ ) 2 % ( où s2 x = i=1 $ n ' n-1 Intervalle de confiance (100-α)% du total $ T ˆ ± z 1-"/2 N # (N - n) s x 2 ' & ) %& n () NB : si le sondage est réalisé avec remise alors vˆ a r( T ˆ ) = N2 2 s x n Encadré 2 : estimateurs d un total en cas de sondage aléatoire simple sans remise. 36
Exemple : on souhaite estimer le nombre mensuel de visites chez un médecin généraliste des sujets âgés de plus de 60 ans vivant à domicile dans une ville où l on a recensé 10 000 habitants répondant à ces critères. Cent personnes ont été sélectionnées par sondage aléatoire simple sans remise dans cette population. Chaque personne sélectionnée a signalé au centre coordonnateur de l enquête toutes les visites chez un médecin généraliste pendant le mois suivant le début de l étude. Le nombre total des visites réalisées par les 100 personnes de l échantillon pendant le mois de l étude est égal à 150. Le nombre mensuel moyen de visites par personne est égal à 150/100 = 1,5. La variance estimée du nombre mensuel de visites peut être calculée en rapportant la somme de la différence entre chaque valeur observée avec la moyenne élevée au carré, avec le nombre d éléments dans l échantillon moins 1. Elle est dans cet exemple de 4,23. On peut estimer que dans la population le nombre mensuel total de visites chez un généraliste est de : # 10 000 "150 & % ( = 15 000 $ 100 ' avec une variance de : vˆ a r( T ˆ ) = 10 000 " ( 10 000-100) # 4,23& % ( = 4 187 700. $ 100 ' La borne inférieure de l intervalle de confiance à 95 % du nombre mensuel total de visites est : ( ) = 10 989 visites. 15 000-1,96 4 187 700 La borne supérieure de l intervalle de confiance à 95 % du nombre mensuel total de visites est : ( ) = 19 011 visites. 15 000 + 1,96 4 187 700 37
2.3. Estimateur d une proportion L estimateur de la proportion de sujets porteurs d une caractéristique Y (on note y = 1 les porteurs de la caractéristique et y = 0 les non-porteurs), de sa variance et l intervalle de confiance associé figurent dans l encadré 3. Estimateur de la proportion de sujets présentant la caractéristique y ˆ p y = n " y i i=1 n Estimateur de la variance de l estimateur de la proportion vˆ a r(ˆ p y ) = N - n N " p ˆ y (1- p ˆ y ) n -1 Intervalle de confiance (100-α) % de la proportion $ N - n p ˆ y ± z 1-"/2 N # p ˆ y (1- p ˆ y ) ' & ) %& n -1 () NB : si le sondage est réalisé avec remise alors vˆ a r(ˆ p y ) = p ˆ y (1- p ˆ y ) n -1 Encadré 3 : estimateurs d une proportion en cas de sondage aléatoire simple sans remise. Exemple : on souhaite estimer la proportion d enfants utilisant des psychotropes parmi les enfants scolarisés à la rentrée scolaire en cours préparatoire en France. Selon le ministère de l éducation nationale, une liste des enfants scolarisés est disponible et permet d en répertorier 350 000. Un échantillon au 1/100 ème soit n = 3 500 élèves est sélectionné par sondage aléatoire simple sans remise. Les parents de ces élèves sont interrogés par voie postale et il s avère 38
que 350 élèves ont utilisé au moins un médicament psychotrope pendant l année écoulée. On peut donc estimer la proportion d enfants utilisant au moins un médicament psychotrope par : p ˆ y = 350 = 0,10 = 10 %. 3 500 La borne inférieure de l intervalle de confiance à 95 % de la proportion d enfants utilisant au moins un psychotrope est : ˆ p y -1,96 " $ # 350 000-3 500 350 000 % " '( $ & # 0,10 ( 0,90 3 500-1 % ' = 0,0901 = 9,01 %. & La borne supérieure de l intervalle de confiance à 95 % de la proportion d enfants utilisant au moins un psychotrope est : ˆ p y +1,96 " $ # 350 000-3 500 350 000 % " '( $ & # 0,10 ( 0,90 3 500-1 % ' = 0,1099 = 10,99 %. & 2.4. Estimateur d un ratio Un ratio est défini comme le rapport entre les moyennes ou les totaux de deux variables X et Y : R = µ x µ y = T x T y µ y = moyenne de la variable Y T y = total pour la variable Y. Exemple : supposons que parmi 100 médecins, 40 aient été sélectionnés par tirage aléatoire simple sans remise. Les médecins de cet échantillon ont, pendant un mois, relevé pour chaque malade ayant eu une prescription d antihypertenseurs la présence ou non d une insuffisance rénale. Pour estimer la proportion de malades traités porteurs d une insuffisance rénale, on peut rapporter le nombre total de malades ayant une insuffisance rénale au nombre total de malades ayant eu une prescription d antihypertenseurs 39
dans le mois. Ce ratio est donc le rapport de deux estimations, dont il convient d estimer la variance et de calculer l intervalle de confiance. Pour chaque variable X et Y, les estimations du total, de la moyenne et des variances associées répondent aux formules proposées dans les paragraphes précédents. Les formules permettant d estimer le ratio, sa variance et de calculer l intervalle de confiance associé figurent dans l encadré 4. Il faut cependant souligner le fait que l estimateur du ratio est biaisé et donc que l estimation de la variance n est qu une approximation ; si n est grand, ce biais est négligeable. Estimateur du ratio ˆ R = n " x i i=1 n " y i i=1 µ x µ y = ˆ ˆ Estimateur de la variance de l estimateur du ratio vˆ a r( R ˆ ) " N - n N # 1 n # 1 µ ˆ 2 s x 2 + R ˆ 2 s 2 y - 2R ˆ s xy y où s 2 n (x x = i - µ ˆ x ) " 2 et i=1 (n -1) ( ) s 2 n (y i - µ ˆ y ) 2 y = " et (n -1) i=1 n # (x i - µ ˆ x ) "(y - µ ˆ i y ) s xy = i=1 n-1 [ ] Intervalle de confiance (100-α) % du ratio $ ˆ N - n R ± z 1-"/2 N # 1 n # 1 µ ˆ 2 # s x 2 + R ˆ 2 s 2 y - 2R ˆ ' & s xy y ( )) % & ( ) ( ) NB : si le sondage est réalisé avec remise alors vˆ a r( R ˆ ) " 1 n # 1 ˆ 2 µ s x 2 + R ˆ 2 2 s y - 2 R ˆ s xy y Encadré 4 : estimateurs d un ratio en cas de sondage aléatoire simple sans remise. 40
Exemple : si l on reprend l exemple précédent, dans une population de 100 médecins, on a sélectionné un échantillon de 40 médecins. Chaque médecin complète pendant un mois un questionnaire chaque fois qu il prescrit un médicament antihypertenseur en précisant si le malade présente ou non une insuffisance rénale. On souhaite estimer la proportion d insuffisance rénale parmi les malades traités par antihypertenseur. Le nombre total de prescriptions de médicaments antihypertenseurs observé pendant le mois de l étude est de 1 222 et le nombre total de malades avec une insuffisance rénale est de 100. Le nombre total de patients insuffisants rénaux divisé par le nombre total de prescriptions d antihypertenseurs permet d estimer cette proportion, avec son intervalle de confiance à 95 %. La proportion d insuffisants rénaux parmi les malades traités par antihypertenseurs peut être estimée à : 100 = 0,0818 = 8,18 %. 1 222 La variance estimée du nombre de prescriptions d antihypertenseurs est égale à 91,95, celle du nombre de cas d insuffisance rénale est de 2,41 et la covariance de ces deux variables est égale à 1,641. La variance du ratio ou du nombre moyen d insuffisance rénale diagnostiqué en cas de traitement peut être estimée à : 100-40 100 ( ) " 1 40 " 1 2 # 1 222& " # % 2,41+ (0,0818)2 & " 91,95-2 " 0,0818 "1,641( = 4,43 10-5. $ ' % ( $ 40 ' 41
Tableau 4 : exemple de données pour l estimation d un ratio en cas de sondage aléatoire simple sans remise. Identifiant y x 1 25 2 2 50 5 3 30 2 4 36 3 5 45 2 6 25 2 7 25 1 8 45 5 9 23 2 10 42 5 11 36 1 12 28 2 13 26 2 14 24 6 15 52 2 16 28 2 17 23 2 18 27 3 19 26 1 20 15 1 21 38 2 22 24 5 23 35 1 24 41 2 25 18 1 26 33 2 27 22 1 28 26 5 29 54 1 30 20 6 31 23 2 32 26 5 33 27 1 34 22 2 35 20 1 36 31 2 37 30 3 38 35 4 39 41 2 40 25 1 avec : x = nombre d insuffisants rénaux y = nombre de prescriptions d antihypertenseurs. 42
La borne inférieure de l intervalle de confiance à 95 % de cette estimation est égale à : # 0,0818-1,96 4,43"10-5 & % ( = 0,0688 soit 6,88 %. $ ' La borne supérieure de l intervalle de confiance à 95 % de cette estimation est égale à : # 0,0818 + 1,96 4,43"10-5 & % ( = 0,0949 soit 9,49 %. $ ' 2.5. Conditions d application des formules Les formules des différents intervalles de confiance présentées précédemment supposent que les estimateurs étudiés suivent approximativement une loi normale. Pour ce faire, il est nécessaire que les échantillons soient suffisamment grands. Deux situations différentes sont à considérer en fonction du type de variable étudiée, qui peut être quantitative ou binaire. Lorsque l on souhaite déterminer l intervalle de confiance : - d une proportion (variable recueillie de type binaire), l échantillon sera considéré comme grand si sa taille n est supérieure à [5/p] et à [5/(1-p)] où p représente la proportion dans la population. Il faut remarquer que comme la valeur de p n est pas connue et que l on souhaite l estimer justement par l intervalle de confiance, on ne peut valider ces conditions qu une fois les bornes p inf et p sup de l intervalle calculées. On vérifiera ensuite que : n p inf > 5 n (1 - p sup ) > 5 - d une moyenne (variable recueillie de type quantitative), l échantillon sera considéré comme grand si sa taille est supérieure à 30. Elles tiennent compte aussi du fait que les sondages sont effectués sans " N - n% remise et font intervenir dans le calcul de la variance le terme $ ' appelé # N & 43
facteur d exhaustivité. Celui-ci peut aussi s écrire (1-f), où la fraction de sondage. f = n N représente Quand f est faible (< 10 %), l absence de prise en compte de ce facteur d exhaustivité modifie peu l estimation de la variance de l estimation du N - n paramètre puisque n est très petit par rapport à N et que dans ce cas N est peu différent de 1. Dans les autres situations (taux de sondage supérieur à 10 %, sondage sans remise dans des populations de faible taille), l absence de prise en compte du facteur d exhaustivité peut aboutir à une surestimation de la variance et donc un intervalle de confiance plus large. Ceci peut, dans certaines situations où l on compare les estimations réalisées pour deux populations, conduire à conclure à tort à l égalité des paramètres. 3. NOMBRE DE SUJETS NECESSAIRE EN CAS DE SONDAGE ALEATOIRE SIMPLE D une manière générale dans les enquêtes par sondage, l'objectif est l'estimation de la valeur des paramètres de la population avec la meilleure précision relative possible. Les formules qui permettent le calcul du nombre minimal de sujets nécessaire pour estimer un paramètre dans le cadre des sondages aléatoires simples sans remise, figurent dans l encadré 5. 44
Moyenne n " Calcul exact 2 2 z 1-#/2 NV x 2 z 1-#/2 V x 2 + (N -1)$ 2 Calcul approché n " z 2 1-#/2 2 V x $ 2 Proportion z2 n " 1- #/2 Np y (1- p y ) (N -1)$ 2 p2 y + z2 1- #/2 p y (1- p y ) n " z 2 1-#/2(1- p y ) $ 2 p y Encadré 5 : formules pour le calcul du nombre de sujets nécessaire en cas de sondage aléatoire simple sans remise. Ce nombre dépend de : N : ε : nombre d individus dans la population-source précision ou différence relative entre la valeur du paramètre dans la population et ˆ dans l échantillon z 1-α/2 : valeur associée au degré de confiance de l information 1-α/2 obtenu p y : V x : sur la table de la loi normale centrée réduite (cf. annexe 2) proportion de sujets porteurs de la caractéristique y que l on cherche à estimer coefficient de variation ou rapport entre l écart-type et la moyenne de la variable. Dans la mesure où V x ou p y sont inconnus, les données d une étude pilote ou d une étude conduite dans un autre site sont nécessaires pour calculer le nombre de sujets. Exemple : on souhaite conduire une étude pour estimer la posologie quotidienne moyenne prescrite pour un nouvel anti-inflammatoire non stéroïdien (AINS) par les médecins généralistes de Gironde et la proportion de sujets atteints de polyarthrite rhumatoïde traités par ce nouvel AINS. 45
Selon le fichier des prescriptions informatisées disponibles auprès du régime général de l Assurance Maladie de la Gironde, on sait que 10 000 demandes de remboursement ont été faites depuis la commercialisation et que 50 % soit 5 000 prescriptions provenaient d un médecin généraliste. Les résultats d une étude similaire conduite dans un département voisin ayant inclus 250 prescriptions de médecins généralistes estiment la posologie moyenne de l AINS à 11,0 mg (écart-type : 3,4 mg) et la proportion des patients traités atteints de polyarthrite rhumatoïde à 70 %. On veut déterminer le nombre minimal de prescriptions à inclure pour déterminer ces deux paramètres avec une confiance de 95 % et une précision relative de 5 %. Selon les formules proposées dans l encadré 5, le nombre de prescriptions nécessaire pour estimer la posologie est de : exacte, et de : (1,96) 2 " (1,96) 2 # (250-1) " 5 000 " % $ 250 (250-1) 250 " (3,4)2 (11) 2 & ( ' " (3,4)2 + (5 000-1) " (0,05)2 2 (11) = 142,09 ) 143, selon la formule (1,96) 2 # (250-1) " " (3,4)2 & % $ 250 (11) 2 ( ' (0,05) 2 = 146,22 ) 147, selon la formule approchée. Le nombre de sujets nécessaire pour estimer la proportion de sujets atteints de polyarthrite traités par ce nouvel anti-inflammatoire est de : (1,96) 2 " 5 000 " 0,7 " 0,3 (5 000-1) " (0,05) 2 " (0,7) 2 ( ) + ( (1,96)2 " 0,7 " 0,3) exacte, = 582,02 # 583, selon la formule 46
et de : (1,96) 2 " 0,3 (0,05) 2 = 658,56 # 659, selon la formule approchée. " 0,7 On prendra le nombre de prescriptions pour estimer la proportion de sujets atteints de polyarthrite rhumatoïde soit 659, ce qui permettra d estimer la posologie avec une précision de 2,35 % selon la formule tirée du calcul de n : " = z 2 1-#/2 n V x 2 = (1,96) 2 (3,4) 2 (11) 2 659 = 0,02352. Remarques : le nombre de sujets nécessaire déterminé par les calculs précédents correspond à l effectif de réponses que l on souhaite obtenir lors du dépouillement de l enquête. Il ne faut pas oublier que, quelle que soit l enquête, le taux de répondeurs n est jamais de 100 %. Pour cette raison il est nécessaire de contacter un nombre supérieur de sujets. En supposant que le taux de réponse attendu soit t x et que le nombre de sujets nécessaire calculé soit n, il faut alors contacter n/t x sujets. 4. CONDITIONS DE REALISATION EN CAS DE SONDAGE ALEATOIRE SIMPLE Le sondage aléatoire simple est la technique de sondage la plus simple. Il est nécessaire de disposer d une liste exhaustive et sans double compte de tous les individus de la population pour que chaque unité ait la même probabilité de sélection. L obtention d une telle liste peut être compliquée et induire des complexités pouvant compromettre la faisabilité d une étude. Par exemple, quand les sujets de la population-source sont dispersés au plan géographique, on risque 47
de retrouver la même dispersion au niveau de l échantillon, ce qui peut rendre difficile la conduite de l étude et augmenter les coûts de déplacements. En pratique, il est rare que la constitution d un échantillon se limite à un tirage au sort dans une liste. Comme on le verra dans les chapitres suivants, on a plus souvent recours à des sondages plus complexes pour lesquels la sélection des sujets se fait en plusieurs étapes dans le but de réduire la variance des estimations ou parce que la liste des individus de la population n est pas disponible. Cependant la sélection aléatoire simple en constitue la base. Ce qu il faut retenir Un échantillon obtenu par la méthode de sondage aléatoire simple permet l équiprobabilité de sélection. Les formules des estimateurs de moyenne, proportion, total et ratio sont les formules connues classiquement, au coefficient d exhaustivité près [(N-n)/N] qui permet de tenir compte du tirage sans remise. La difficulté majeure de la mise en œuvre de cette méthode de sélection est la nécessité de la connaissance d une base de sondage des unités statistiques et de n tirages aléatoires. 48
CHAPITRE 5 SONDAGE ALEATOIRE STRATIFIE Nous avons indiqué dans les précédents chapitres que la précision d une estimation dépendait de la dispersion des valeurs de la variable étudiée (exprimée par sa variance dans la population) et de la taille n de l échantillon. Cette dispersion peut être moindre dans différents sous-groupes de la population. La population peut donc être considérée comme un ensemble de sous-populations disjointes appelées strates. Pour améliorer la précision des estimations, plutôt que d augmenter la taille de l échantillon, il peut être plus pertinent de sélectionner les individus dans chaque strate. Chaque strate est considérée comme une sous-population d individus homogènes vis-à-vis de la variable de stratification. Si la variable de stratification est corrélée à la variable que l on veut estimer, le sondage stratifié permet de diminuer les fluctuations d échantillonnage et donc de diminuer la variance de l estimation de la population. La sélection des éléments ou individus se fait de manière indépendante d une strate à l autre. Dans ce type de sondage, il est important de vérifier l exclusivité et l exhaustivité des strates, c est-à-dire que chaque unité appartienne sans ambiguïté à une strate et à une seule. Exemple : on souhaite estimer dans une population de médecins généralistes le nombre d effets indésirables diagnostiqués par mois parmi les malades vus en consultation. Il est raisonnable de penser que l incidence mensuelle des effets indésirables est corrélée au niveau d activité des médecins ou au nombre de malades vus 49
en consultation dans le mois. Avant de procéder à la sélection de l échantillon de médecins, on peut stratifier la liste des médecins généralistes en trois catégories selon le nombre de malades vus en moyenne par mois dans l année écoulée : activité faible (moins de 15 malades vus par jour), moyenne (de 15 à 25 malades vus par jour) et importante (plus de 25 malades vus par jour). La stratification peut également être utilisée lorsqu on souhaite surreprésenter dans l échantillon des catégories de population qui doivent faire l objet d études particulières. 1. CONSTITUTION D UN ECHANTILLON ALEATOIRE STRATIFIE D ECHANTILLONNAGE La population est dans un premier temps divisée en k strates mutuellement exclusives et exhaustives. La sélection dans chaque strate s effectue selon une des procédures décrites dans le Chapitre 2. Si N 1, N 2, N 3,.., N k sont les effectifs de chaque strate dans la population, n 1, n 2, n 3,, n k seront les nombres d éléments tirés au sort dans les strates 1, 2, 3,, k. Dans l échantillon, les strates sont les mêmes que dans la population et dans chaque strate h, le nombre d éléments n h est une fraction de N h. Dans le cas de sondage aléatoire simple sans remise réalisé dans chaque strate, le rapport n h /N h est la probabilité qu un élément de la strate h soit tiré au sort et représente aussi le taux de sondage dans la strate h. Il faut souligner que le taux de sondage peut être différent d une strate à l autre. Si l on reprend l exemple précédent : - la strate 1 représente les médecins qui ont une faible activité, elle est composée de 200 (N 1 ) médecins, 50
- la strate 2 représente les médecins qui ont une activité moyenne, elle est composée de 800 (N 2 ) médecins, - la strate 3 représente les médecins qui ont une activité importante, elle est composée de 150 (N 3 ) médecins. 2. CHOIX DE LA VARIABLE DE STRATIFICATION Le choix des variables de stratification doit favoriser la (les) variable(s) qui permet(tent) le mieux de constituer des groupes de sujets homogènes visà-vis des informations que l on veut recueillir, c est-à-dire des groupes dans lesquels la dispersion de la variable étudiée est réduite. Ce choix nécessite donc de disposer d informations annexes issues d études pilotes, d autres études ou de la consultation d experts. Dans le cas de variables de stratification quantitatives, le choix des seuils pour la construction des strates (exemple : limite des tranches d âge, des valeurs de la pression artérielle) est le plus souvent guidé par les connaissances disponibles de la relation entre la variable de stratification et la variable de l étude. Le nombre de strates ne doit pas être trop élevé car un découpage trop important de la population peut aboutir à des effectifs faibles par strate avec le risque de manquer de précision. 3. ESTIMATEURS DES PARAMETRES DE LA POPULATION EN CAS DE SONDAGE ALEATOIRE STRATIFIE Les estimateurs présentés ci-dessous sont donnés dans le cadre de sondages aléatoires simples sans remise d au moins 30 unités, réalisés dans chaque strate. 51
3.1. Estimateur d une moyenne L estimateur de la moyenne d une variable quantitative X dans chaque strate et dans la population, ainsi que l estimateur de sa variance et l intervalle de confiance associé figurent dans l encadré 6. Strate h de la population Population entière Moyenne ˆ µ h = n h " ih i=1x n h ˆ µ = k " h=1 N h N ˆ µ h Variance vˆ a r(ˆ µ h ) = N h - n h N h n h 2 s h n h "(x où s 2 ih - µ ˆ h ) 2 h = i=1 n h -1 vˆ a r(ˆ µ ) = k " 2 N ( $ h N 2 vˆ a r ˆ # h=1 µ h % ' & Intervalle de confiance (100-α)% # % N µ ˆ h ± z h - n h 1-" /2 $ % N h 2 s h n h & ( '( * k # 2, N µ ˆ ± z h 1-" /2 ) %, N 2 vˆ a r ˆ + h=1$ µ h &- (/ '/. Encadré 6 : estimateurs d une moyenne en cas de sondage aléatoire stratifié avec sondage aléatoire simple sans remise dans chaque strate. Afin d obtenir les estimations dans la population, il est nécessaire de les calculer dans chaque strate. Reprenons l exemple précédent de la population des 1 150 médecins, stratifiée selon le niveau d activité en trois strates : strate 1 : activité faible (N 1 = 200 médecins), strate 2 : activité moyenne (N 2 = 800), strate 3 : activité importante (N 3 = 150 médecins). Un total de 230 (n) médecins ont été sélectionnés par tirage au sort simple sans remise dans chaque strate avec un taux de sondage de 20 %, soit n 1 = 40 médecins dans la strate 1, n 2 = 160 dans la strate 2 et n 3 = 30 dans la strate 3. 52
Chaque médecin est chargé pendant un mois de remplir un questionnaire lors de l observation d un effet indésirable. Les données concernant le nombre d effets indésirables (n EI/mois) observés par les 6 premiers médecins de chaque strate pendant le mois de l étude figurent dans le Tableau 5. Tableau 5 : exemple de données en cas de sondage aléatoire stratifié. identifiant médecin Strate 1 Strate 2 Strate 3 n identifiant n identifiant EI/mois médecin EI/mois médecin n EI/mois 1 1 6 1 2 5 1 3 11 2 1 4 2 2 5 2 3 10 3 1 2 3 2 6 3 3 9 4 1 6 4 2 6 4 3 9 5 1 4 5 2 6 5 3 9 6 1 3 6 2 7 6 3 12 A partir de l ensemble des données disponibles et pour chaque strate, la moyenne, la variance ont été estimées et les intervalles de confiance ont été calculés (Tableau 6). Tableau 6 : exemple d estimateurs de moyenne, de variance et d intervalle de confiance en cas de sondage aléatoire stratifié avec sondage aléatoire simple sans remise dans chaque strate. Strate h ˆ µ h s h 2 vˆ a r µ ˆ h IC 95% µ ˆ h 1 4,165 2,570 0,0514 3,72-4,61 2 6,000 1,140 0,0057 5,85-6,15 3 9,270 5,400 0,1440 8,53-10,01 Dans la population entière des 1 150 médecins, on peut estimer la moyenne d effets indésirables observés par médecin et son intervalle de confiance à 95 % : 53
# µ ˆ = % 200 $ 1150 " 4,165 & # ( + % 800 ' $ 1150 " 6 & # ( + % 150 ' $ 1150 " 9,27 & ( = 6,107 ' sa variance est égale à : # vˆ a r(ˆ µ ) = 2002 & # % 1150 2 " 0,0514 ( + 8002 & # % $ ' 1150 2 " 0,0057 ( + 1502 & % $ ' 1150 2 " 0,144 ( = 0,0068 $ ' son intervalle de confiance à 95 % s étend de : à : ( ) = 5,946 6,107-1,96 " 0,0068 6,107 + ( 1,96 " 0,0068) = 6,269. 3.2. Estimateur d un total L estimateur du total d une variable quantitative X dans une population de taille N, ainsi que l estimateur de sa variance et l intervalle de confiance associé figurent dans l encadré 7. Total Strate h de la population n h N h " x ih i=1 = N h µ ˆ h n h ˆ T h = Population entière ˆ T = k " T ˆ h h=1 Variance vˆ a r( T ˆ " h ) = $ N h N h - n h # où s h 2 = i=1 % ' n h & ( ) s h 2 (x ih - µ ˆ h ) 2 Intervalle de confiance (100-α)% ) # + T ˆ h ± z % N 1-"/2 h N h - n h + * $ n h " n h -1 ( ) s h 2 n h &, (. '. - vˆ a r( T ˆ ) = $ & T ˆ ± z 1-"/2 %& k " vˆ a r(ˆ T h ) h=1 k vˆ a r( T ˆ ' # h )) () h=1 Encadré 7 : estimateurs d un total en cas de sondage aléatoire stratifié avec sondage aléatoire simple sans remise dans chaque strate. 54
Dans l exemple précédent, on peut estimer le nombre d effets indésirables, sa variance et déterminer dans chaque strate l intervalle de confiance associé (Tableau 7). Tableau 7 : exemple d estimateurs d un total, de variance et d intervalle de confiance en cas de sondage aléatoire stratifié. Strate h " h n h ˆ T h s h 2 vˆ a r T ˆ h IC 95% ˆ T h 1 200 40 833 2,57 2 056 744-922 2 800 160 4 800 1,14 3 648 4 681-4 919 3 150 30 1 391 5,40 3 240 1 279-1 503 Dans la population entière des 1 150 médecins, le nombre total d effets indésirables pendant le mois de l étude est estimé à : ˆ T = 833 + 4 800 +1 391 = 7 024 avec une variance estimée à : vˆ a r( T ˆ ) = 2 056 + 3 648 + 3 240 = 8 944 avec un intervalle de confiance à 95 % s étendant de : à : 7 024 - (1,96 8 944) " 6 838 7 024 + (1,96 8 944 ) " 7 209. 3.3. Estimateur d une proportion L estimateur de la proportion de sujets porteurs d une caractéristique Y (on note y = 1 les porteurs de la caractéristique Y et y = 0 les non porteurs), ainsi que l estimateur de sa variance et l intervalle de confiance associé figurent dans l encadré 8. 55
Proportion Strate h de la population ˆ p h = n h " y ih i=1 n h ˆ p = Population entière k N " h p ˆ h h=1 N " Variance vˆ a r(ˆ p h ) = N h - n h p ˆ h (1- p ˆ h ) $ N # h n h -1 Intervalle de confiance (100-α)% ) # N p ˆ h ± z h - n h p ˆ h (1- p ˆ h )&, + 1-"/2 % (. * + $ N h n h -1 '-. % ' & vˆ a r(ˆ p ) = k " 2 N ( h $ h=1# N vˆ % 2 a r(ˆ p h ) ' & $ p ˆ ± z N 2 k & h 1-"/2 # & N 2 vˆ a r ˆ h=1 % ( ) p h ' ) ) ( Encadré 8 : estimateurs d une proportion en cas de sondage aléatoire stratifié avec sondage aléatoire simple sans remise dans chaque strate. A partir des données de l exemple précédent, on souhaite estimer la proportion de médecins qui observent plus de 5 effets indésirables par mois. Une nouvelle variable binaire (y) a été définie, elle est égale à 0 quand le nombre d effets indésirables observés est inférieur ou égal à 5, elle est égale à 1 dans le cas contraire. Dans le Tableau 8, figurent les valeurs de ces variables pour les 6 premiers médecins de chaque strate. Tableau 8 : exemple de données en cas de sondage aléatoire stratifié. Strate 1 Strate 2 Strate 3 identifiant identifiant identifiant x y x y x y médecin médecin médecin 1 1 6 1 1 2 5 0 1 3 11 1 2 1 4 0 2 2 5 0 2 3 10 1 3 1 2 0 3 2 6 1 3 3 9 1 4 1 6 1 4 2 6 1 4 3 9 1 5 1 4 0 5 2 6 1 5 3 9 1 6 1 3 0 6 2 7 1 6 3 12 1 avec : x = nombre d effets indésirables par mois y = nombre d effets indésirables observés > 5. 56
A partir de l ensemble des données et pour chaque strate, la proportion de médecins observant plus de 5 effets indésirables et sa variance ont été estimées et l intervalle de confiance a été calculé. Tableau 9 : exemple d estimations de proportions dans les différentes strates d un échantillon. Strate h ˆ p h vˆ a r p ˆ h IC 95% ˆ p h 1 0,33 0,00454 0,20-0,46 2 0,63 0,00117 0,56-0,70 3 0,73 0,00544 0,59-0,87 La proportion de médecins qui observent plus de 5 effets indésirables par mois est estimée à : # p ˆ = % 200 $ 1150 " 0,33 & # ( + % 800 ' $ 1150 " 0,63 & # ( + % 150 ' $ 1150 " 0,73 & ( = 0,59 = 59 % ' sa variance à : # vˆ a r(ˆ p ) = 2002 & # % 1150 2 " 0,00454 ( + 8002 & # % $ ' 1150 2 " 0,00117 ( + 1502 & % $ ' 1150 2 " 0,00544 ( = 0,000797 $ ' son intervalle de confiance à 95 % s étend de : à : 0,59 - (1,96 0,000797) = 0,536 = 53,6 % 0,59 + (1,96 0,000797) = 0,646 = 64,6 %. 3.4. Estimateur d un ratio Les estimateurs permettant d estimer un ratio, sa variance et l intervalle de confiance associé dans chaque strate de la population figurent dans l encadré 9 et dans l encadré 10 pour l estimation dans la population entière. Il faut noter que dans le cas de l estimation d un ratio dans la population, il n est pas nécessaire de l avoir au préalable calculé dans chaque strate. 57
Ratio Variance R ˆ h = µ ˆ h,x (estimateur biaisé)* µ ˆ h,y vˆ a r( R ˆ h ) " N h - n h 1 1 N h n h ˆ 2 s 2 h,x + µ R ˆ 2 h s 2 h,y - 2R ˆ h s h,xy h,y ( ) et 2 s h,y où 2 s h,x n h = " i=1 (x ih - µ ˆ h,x ) 2 (n h -1) n (y ih - µ ˆ h,y ) 2 h = " et (n h -1) i=1 n h "(x ih - µ ˆ h,x )(y ih - µ ˆ h,y ) s h,xy = i=1 n h -1 Intervalle de confiance à (100-α) % R ˆ ± z vˆ a r( h 1-"/2 R ˆ h ) [ ] *NB : le biais de l estimateur est négligeable si la taille dans chaque strate est suffisamment grande. Encadré 9 : estimateurs d un ratio dans chaque strate de la population en cas de sondage aléatoire simple dans les strates. Ratio Variance R ˆ = µ ˆ x = µ ˆ y k " N ( $ h # N ˆ h=1 k " N ( $ h # N ˆ h=1 vˆ a r( R ˆ 1 ) " N 2ˆ 2 µ y k µ h,x µ h,y % k ' ( & = % ' ( & h=1 k h=1 N h ˆ µ h,x N h ˆ µ h,y N h (N h - n h ) 2 # s h,x + R ˆ 2 s 2 h,y h=1 n h ( - 2R ˆ s h,xy ) Intervalle de confiance à (100-α) % R ˆ ± z vˆ 1-"/2 a r( R ˆ ) [ ] Encadré 10 : estimateurs d un ratio dans la population entière en cas de sondage aléatoire stratifié. 58
Si l on reprend l exemple des médecins répartis en trois strates selon leur niveau d activité, les effets indésirables ont été classés en grave et non grave selon les critères internationaux. Ces données ne sont présentées que pour les 6 premiers médecins de chaque strate (Tableau 10). Tableau 10 : exemple de données en cas de sondage aléatoire stratifié. Strate 1 Strate 2 Strate 3 identifiant identifiant identifiant x y x y x y médecin médecin médecin 1 1 6 2 1 2 5 2 1 3 11 5 2 1 4 3 2 2 5 1 2 3 10 2 3 1 2 2 3 2 6 2 3 3 9 3 4 1 6 4 4 2 6 2 4 3 9 1 5 1 4 2 5 2 6 4 5 3 9 5 6 1 3 2 6 2 7 3 6 3 12 7 avec : x = nombre d effets indésirables par mois y = nombre d effets indésirables graves. On peut estimer la proportion d effets graves observés en rapportant la moyenne du nombre d effets graves observés à la moyenne du nombre d effets indésirables observés par médecin, il s agit donc d un ratio. Cette estimation peut se faire pour chaque strate et pour la population entière. Estimation par strate Pour chaque strate le ratio est estimé et son intervalle de confiance est calculé selon la formule indiquée dans le tableau précédent : 59
Tableau 11 : exemple de données pour l estimation par strates de la proportion d effets graves indésirables. Strate N h n h ˆ µ h,x ˆ µ h,y ˆ R h 2 s h,x 2 s h,y s h,xy vˆ a r( R ˆ h ) IC 95% R ˆ h 1 200 40 2,500 4,165 0,60 0,7 2,57 0,7 9,06 10-4 0,54-0,66 2 800 160 2,875 6,000 0,48 0,5 1,14-2,0 3,72 10-4 0,44-0,52 3 150 30 2,273 9,270 0,25 4,0 5,40 5,0 5,81 10-4 0,20-0,29 Estimation de la proportion d effets indésirables graves observés pour la population entière La moyenne du nombre d effets indésirables graves estimée est : # 200 % $ 1 150 " 2,5 & # ( + % 800 ' $ 1 150 " 2,875 & # ( + % 150 ' $ 1 150 " 2,273 & ( = 2,731. ' La moyenne du nombre total d effets indésirables est égale à 6,107 selon l estimation faite au paragraphe précédent et la proportion d effets indésirables graves dans la population peut être estimée à : R ˆ = 2,731 6,107 = 0,447 avec une variance estimée à : # 1 & % $ (1 150) 2 " 6,107 2 ( 470,16 +8 050,50 + 365,38 ' ( ) = 18.10-4 son intervalle de confiance allant de 0,421 à 0,474. 4. DETERMINATION DE LA TAILLE DE L ECHANTILLON ET DE SA REPARTITION DANS CHAQUE STRATE Différentes situations peuvent se présenter : - la taille de l échantillon est déjà définie pour des raisons de faisabilité ou d un calcul précédent et il s agit alors d optimiser la répartition de cet effectif au mieux entre les strates, 60
- la taille de l échantillon n est pas définie, il faut la calculer et la répartir au mieux entre les strates. 4.1. Répartition des effectifs entre les strates 4.1.1. Répartition à allocation proportionnelle Cette situation correspond à un taux de sondage identique dans chaque strate (n/n). Dans cette situation, la taille du sous-échantillon de chaque strate sera évaluée de la façon suivante : n h = N h N n. Ce type de sondage est aussi appelé sondage auto-pondéré. Ce type de sondage est celui réalisé dans l exemple précédent. 4.1.2. Répartition avec allocation de Neyman L allocation optimale, c est-à-dire la répartition de l échantillon entre les strates, doit permettre d obtenir une estimation la plus précise possible. Il s agit, lors de la répartition, de tenir compte de l importance de la variabilité dans chaque strate de la variable étudiée ainsi que de sa taille. Intuitivement, pour être représentatif d une strate homogène, il faut peu de sujets contrairement à la situation d une strate très hétérogène. Une strate ayant une hétérogénéité plus forte sera proportionnellement surreprésentée dans l échantillon final par rapport à une strate plus homogène. Dans cette situation la taille du sous-échantillon d une strate se calcule donc de la manière suivante : n h = N h" h n k # N h " h h=1 où σ h représente l écart-type dans la strate h. 61
La répartition ainsi obtenue permet d optimiser la répartition afin de minimiser la variance finale. On souhaite réaliser une nouvelle étude sur les effets indésirables en médecine générale auprès de 300 médecins en tenant compte des informations fournies par l étude citée dans les paragraphes précédents. Dans la strate 1 (activité faible), la variance du nombre d effets indésirables a été estimée à 2,57, à 1,14 dans la strate 2 et à 5,4 dans la strate 3. En utilisant ces informations ainsi que la formule de la répartition par allocation de Neyman, la répartition du nombre de médecins par strate sera pour cette étude : Dans la strate 1 égale à : 200 " 2,57 n 1 = " 300 = 63 200 " 2,57 + 800 " 1,14 +150 " 5,4 dans la strate 2 égale à 168 et dans la strate 3 égale à 69. 4.2. Détermination de la taille globale de l'échantillon dans les sondages stratifiés Il s agit de déterminer une taille d échantillon telle que l on puisse décrire l information avec une précision relative ε. Si on connaît la disparité de la variable étudiée entre les strates, on peut utiliser la formule ci-dessous qui fait intervenir la variance de la variable dans chaque strate ainsi que la taille de chaque strate : $ 2 z ' $ k 1-#/2 & % N 2 ) &, ( % h=1 n " - 2 $ + z 2 ' $ k 1-#/2 & % N 2 ) &, ( % h=1 2 2 N h *hx + h µ ˆ 2 2 N h * hx µ ˆ 2 ' ) ( ' ) ( où : " h = n h n. 62
Dans l exemple précédent, la taille globale de l échantillon était fixée à 300 médecins. Plaçons-nous maintenant dans le cas où nous souhaiterions déterminer la taille globale de l échantillon d une étude descriptive avec une précision relative de 5 %. Le tableau suivant résume les estimations obtenues à partir de l étude réalisée sur les 230 médecins. Tableau 12 : exemple de calcul du nombre de sujets nécessaire en cas de sondage aléatoire stratifié. Activité Nbre moyen effets/médecin/mois Variance nbre effets observés Faible 4,16 2,57 Moyenne 6,00 1,14 Importante 9,27 5,42 Dans cette étude, le nombre moyen global d effets indésirables avait été estimé à 6,107 et π h pour chaque strate en utilisant l allocation de Neyman : strate 1 : strate 2 : strate 3 : " 1 = 200 # 2,57 (200 # 2,57) + (800 # 1,14 ) + (150 # 5,4) = 0,21 " 2 = 0,56 " 3 = 0,23. Le nombre nécessaire pour estimer la moyenne du nombre d'effets indésirables observés par mois dans la population des 1 150 médecins avec une confiance de 95 % et une précision relative de 5 % est égal à : # 1,96 2 & # 200 2 ) 2,57 % $ 1150 2 ( ' 0,21 ) 6,107 2 + 8002 )1,14 0,56 ) 6,107 2 + 1502 ) 5,42 & % $ 0,23) 6,107 2 ( ' n " " 68 0,05 2 # + 1,962 & # (200 ) 2,57) + (800 )1,14) + (150 ) 5,42) & % $ 1150 2 ( % ' $ (6,107) 2 ( ' 63
avec une répartition en utilisant l allocation de Neyman : dans la strate 1 : n 1 = 0,21" 68 # 15 dans la strate 2 : dans la strate 3 : n 2 = 38 n 3 = 15. Ce qu il faut retenir La construction d un échantillon par sondage stratifié consiste à considérer des sous-ensembles de la population, appelés strates, qui sont des groupes d unités statistiques homogènes vis-à-vis de la variable de stratification. Le gain obtenu par la stratification est notamment de réduire la variabilité et donc d augmenter la précision des estimations. Ce gain est d autant plus important que le critère de stratification est corrélé aux variables d intérêt. Les strates n étant pas nécessairement de même taille, il peut être préférable d appliquer des taux de sondage différents par strate. Dans ce cas, le plan de sondage n est pas équiprobable et il conviendra d en tenir compte pour estimer les paramètres. 64
CHAPITRE 6 SONDAGE ALEATOIRE EN GRAPPES Dans certaines situations, l accès à la liste des unités statistiques composant la population d'étude n est pas possible. En revanche, on peut disposer d un répertoire de groupes d individus. C est le cas, par exemple, des listes d établissements scolaires, de logements d une ville, de services hospitaliers, etc. Ces groupes sont appelés des grappes. La composition de ces grappes est antérieure au plan de sondage et n a pas été réalisée a priori par rapport à une caractéristique corrélée au critère d intérêt contrairement à ce qui prévaut souvent lors de la construction de strates. 1. PROCEDURE D ECHANTILLONNAGE La population de N individus est constituée de M grappes. Un tirage aléatoire de m grappes est réalisé parmi le nombre total de grappes M et tous les individus composant les m grappes sont inclus pour faire partie de l échantillon. La sélection des m grappes peut être réalisée selon les procédures présentées dans le Chapitre 3. Dans la suite de ce chapitre, nous ne présenterons que la sélection aléatoire simple sans remise. Les M grappes n'étant pas nécessairement de taille identique, le nombre d individus composant l échantillon final n est pas connu à l avance. En moyenne, cette taille d'échantillon devrait être de : n = m" N M où N/M représente la taille moyenne d'une grappe. 65
2. EFFET DE GRAPPE L'effet de grappe mesure le degré d hétérogénéité entre les grappes. Si les grappes sont homogènes entre elles, on dit qu il n y a pas d effet de grappe. Les grappes peuvent alors être assimilées à des échantillons aléatoires et indépendants. La sélection d une seule grappe pourrait alors suffire pour estimer correctement le critère d intérêt. En revanche, si les grappes sont composées d éléments homogènes vis-à-vis des critères d intérêt, les grappes jouent alors le rôle d une strate. Dans ce cas, la sélection d un sous-ensemble de grappes aboutit à un échantillon non représentatif de la population-source. Pour cette raison, les grappes doivent être composées de sujets hétérogènes ; les grappes doivent aussi être disjointes, c'est-à-dire qu'un sujet appartient obligatoirement à une grappe et seulement à cette grappe. 3. ESTIMATEURS DES PARAMETRES DE LA POPULATION EN CAS DE SONDAGE ALEATOIRE EN GRAPPES Les formules proposées par la suite correspondent au cas d'un sondage par sélection des grappes selon un sondage aléatoire simple sans remise, avec l inclusion dans l échantillon de tous les individus faisant partie des grappes sélectionnées. Les estimateurs de ratio dans ce type de sondage ne seront pas abordés dans ce chapitre du fait de leur complexité de calcul qui dépasse le niveau souhaité de ce livre. 66
3.1. Estimateur d une moyenne L estimateur de la moyenne d une variable quantitative X dans une population de taille N, ainsi que l estimateur de sa variance et l intervalle de confiance associé, obtenu à partir d un échantillon de taille n figurent dans l encadré 11. Estimateur de la moyenne m " T j j=1 µ ˆ = n on note : N j x i j i=1 T j = " le total obtenu pour la grappe j N j étant l effectif de la grappe j Estimateur de la variance de l estimateur de la moyenne vˆ a r(ˆ µ ) = 1 " M - m n/m M " sm 2 (estimateur biaisé) n m " T m j j=1 "(T j - où s 2 m )2 j=1 m = peut être considérée comme la variance inter-grappe m -1 Remarque : n/m représente la taille moyenne d une grappe ; les formules sont acceptables uniquement si la taille des grappes est peu différente. Intervalle de confiance (100-α) % de la moyenne $ 1 µ ˆ ± z 1-"/2 # M - m n/m M # s 2 ' & m ) %& n () NB : si le sondage par grappes est réalisé avec remise alors vˆ a r(ˆ µ ) = s m 2 n Encadré 11 : estimateurs d une moyenne en cas de sondage aléatoire simple sans remise de grappes. 67
Exemple : on souhaite estimer le nombre moyen de prises de paracétamol par habitant et par trimestre dans une commune. La commune sur laquelle s effectue l étude dispose d une liste de 500 familles. L étude se réalise sur 40 familles sélectionnées par sondage aléatoire simple sans remise à partir de la liste fournie. Les personnes communiquent le nombre de prises de paracétamol consommé les 3 mois précédant l enquête. Les résultats figurent dans le tableau suivant : Tableau 13 : exemples de données en cas de sondage aléatoire en grappes. N de Membres des familles N de Membres des familles famille 1 er 2 ème 3 ème 4 ème 5 ème famille 1 er 2 ème 3 ème 4 ème 5 ème 1 13 11 16 11 21 2 4 2 0 2 2 13 5 18 9 22 12 7 3 1 1 3 2 6 0 3 4 23 8 9 3 0 4 4 5 4 7 5 8 24 5 4 8 0 7 5 7 13 3 4 3 25 3 3 2 0 2 6 5 15 2 23 1 26 7 5 8 0 7 4 0 5 12 3 27 6 7 9 1 6 8 3 6 6 6 28 13 8 8 0 9 0 5 29 15 15 10 3 30 9 2 12 7 11 1 1 31 31 12 15 13 21 9 11 32 5 1 3 4 1 13 6 2 10 23 1 33 0 3 1 2 2 14 9 2 14 3 0 34 4 6 7 3 0 15 0 1 5 3 0 35 3 4 4 1 8 16 0 1 4 4 5 36 6 3 8 17 0 3 4 3 7 37 0 2 3 6 6 18 2 4 1 1 38 13 19 1 2 39 3 6 3 1 3 20 4 5 2 21 1 40 7 1 2 Le nombre moyen de prises de paracétamol par trimestre estimé par personne vaut : ˆ µ = 890 165 = 5,39 68
où 890 représente le nombre total de prises de paracétamol pour les 165 personnes composant l échantillon. L estimateur de la variance du nombre moyen de prises par personne est : ( ) = vˆ a r µ ˆ 1 165/40 500-40 500 203, 37 165 2 = 0,27 car : s m = 203,37. L'intervalle de confiance à 95 % du nombre moyen de prises de paracétamol par habitant dans la commune est donc [4,37 ; 6,42]. 3.2. Estimateur d un total L estimateur du total d une caractéristique X, l estimateur de sa variance et l intervalle de confiance associé figurent dans l encadré 12. Estimateur du total m M" T j T ˆ j=1 = m Estimateur de la variance de l estimateur du total vˆ a r( T ˆ ) = M " (M - m) s m 2 m où s m 2 = m T j " m j=1 "(T j - j=1 m -1 m )2 peut être considérée comme la variance inter-grappe Intervalle de confiance (100-α) % du total $ T ˆ ± z 1-"/2 M # (M - m) s m 2 ' & ) %& m () Encadré 12 : estimateurs d un total en cas de sondage aléatoire en grappes. 69
Exemple : on souhaite estimer le total de prises de paracétamol par trimestre dans cette commune à partir des données précédentes. Le total est estimé à : 500 890/40 = 11 125. L'estimation de la variance de cette estimation de total vaut : 500 (500-40) 203,37/40 = 1 169 387,82. L'intervalle de confiance associé à 95 % est [9 005 ; 13 244]. 3.3. Estimateur d une proportion L estimateur de la proportion de sujets porteurs d une caractéristique Y (on note y = 1 les porteurs de la caractéristique et y = 0 les non porteurs), de sa variance et de l intervalle de confiance de la proportion dans la population figurent dans l encadré 12. Les formules sont identiques à celles présentées pour l estimateur de la moyenne (cf. page 67). Il faut simplement au numérateur considérer que le terme T j est le nombre total dans la grappe j de sujets porteurs de la caractéristique étudiée. Exemple : on souhaite estimer la proportion de personnes ayant un nombre de prises de paracétamol supérieur à 10 médicaments par semestre. L estimation de la proportion est estimée à 0,145 (14,5 %). L estimation de la variance de l estimation de la proportion est de 0,0014. L'intervalle de confiance associé à 95 % est [0,073 ; 0,218]. 70
Tableau 14 : exemples de données pour l estimation d une proportion en cas de sondage aléatoire en grappes. N de Membres des familles N de Membres des familles famille 1 er 2 ème 3 ème 4 ème 5 ème famille 1 er 2 ème 3 ème 4 ème 5 ème 1 1 1 1 1 21 0 0 0 0 0 2 1 0 1 0 22 1 0 0 0 0 3 0 0 0 0 0 23 0 0 0 0 0 4 0 0 0 0 0 24 0 0 0 0 0 5 0 1 0 0 0 25 0 0 0 0 0 6 0 1 0 1 0 26 0 0 0 0 7 0 0 0 1 0 27 0 0 0 0 0 8 0 0 0 0 28 1 0 0 0 9 0 0 29 1 1 10 0 30 0 0 1 0 11 0 0 31 1 12 1 1 1 0 1 32 0 0 0 0 0 13 0 0 0 1 0 33 0 0 0 0 0 14 0 0 1 0 0 34 0 0 0 0 0 15 0 0 0 0 0 35 0 0 0 0 0 16 0 0 0 0 0 36 0 0 0 17 0 0 0 0 0 37 0 0 0 0 0 18 0 0 0 0 38 1 19 0 0 39 0 0 0 0 0 20 0 0 0 1 0 40 0 0 0 4. NOMBRE DE SUJETS NECESSAIRE EN CAS DE SONDAGE ALEATOIRE EN GRAPPES Idéalement, le calcul du nombre de sujets nécessaire pour un sondage en grappes doit tenir compte d un éventuel effet de grappe. En pratique, cette prise en compte est difficile, notamment parce que l effet de grappe peut varier selon les paramètres que l on veut estimer et il est extrêmement rare que dans une étude, on s intéresse à une seule et même variable. Ce calcul utilise la formule suivante : nombre de grappes = n sas " effet de grappe n moyen de sujets par grappe 71
- n sas = nombre de sujets déterminé par les formules des sondages aléatoires simples - effet de grappe = effet de grappe pour la variable d intérêt. En cas de plusieurs variables d intérêt, on prendra l effet de grappe le plus important - n moyen de sujets par grappe = nombre moyen de sujets par grappe connu dans la population. Pour la plupart de ces informations, on tiendra compte des données de la littérature ou d autres études conduites antérieurement dans le même domaine. 5. GENERALISATION DES SONDAGES : LES SONDAGES A PLUSIEURS DEGRES En pratique courante, les sondages désignés comme «sondages en grappes» sont pour la plupart des sondages à plusieurs degrés. Exemple : si l on souhaite réaliser une enquête auprès des élèves de collège en France métropolitaine, on peut tout d abord sélectionner aléatoirement un certain nombre de départements puis demander la liste des collèges des départements sélectionnés et tirer au sort un certain nombre de collèges et enfin sélectionner aléatoirement des élèves dans chaque collège sélectionné. Il s agit donc d un sondage à 3 degrés de sélection avec : - une première sélection de départements (= unités primaires) - une sélection dans chaque département sélectionné de collèges (= unités secondaires) - une sélection dans chaque collège sélectionné d élèves (= unités tertiaires). 72
Les avantages de ce type de méthode sont de plusieurs ordres : - réduction des coûts de déplacements par concentration des interrogés si face à face, - multiplication du nombre d unités primaires. Exemple : si l on choisit de réaliser un sondage à 2 degrés à la place d un sondage en grappes, on peut choisir de prendre 3 fois plus d unités primaires que dans le sondage en grappes, puis sélectionner les unités secondaires avec un taux de sondage de 1/3. Chaque degré de sélection peut être réalisé par une des procédures vues au Chapitre 4. Nous n aborderons pas dans ce livre les formules des estimateurs des sondages à plusieurs degrés, ceci dépassant le niveau souhaité de ce livre. Ce qu il faut retenir Les sondages aléatoires en grappes ou à plusieurs degrés permettent la faisabilité d enquêtes pour lesquelles l accès aux listes d unités statistiques n est pas possible. De plus, ils permettent de réduire les coûts et de simplifier la mise en place des enquêtes. Pour tenir compte d un effet de grappe potentiel, il faut utiliser les estimateurs qui intègrent la variance inter-grappe. 73
74
CHAPITRE 7 METHODES DE SONDAGE NON ALEATOIRES Lorsque les méthodes précédemment décrites ne peuvent être utilisées pour des raisons méthodologiques ou de coûts, on peut avoir recours aux méthodes dites non aléatoires ou encore méthodes empiriques ou à choix raisonné. 1. GENERALITES Un sondage est non aléatoire lorsqu'il n'inclut pas de mécanisme de sélection aléatoire des individus de la population : la probabilité de sélection des individus de la population n'est donc pas connue, peut même être nulle pour certains, d'où l'existence de biais et l'impossibilité de calculer des marges d'erreur. Les méthodes non aléatoires, notamment la méthode des quotas, sont particulièrement utilisées dans les sondages d'opinion et les études de marché pour deux raisons principales : - la rareté ou la non-disponibilité des bases de sondage. En France, certaines bases de sondage sont difficilement ou pas du tout accessibles par les instituts de sondage privés : la base de sondage des logements issue du recensement est couverte par le secret statistique, de même que le fichier des clients domestiques d Electricité de France, etc. - le coût et les délais de réalisation. Dans le cas d'enquête à domicile, on considère qu'une enquête aléatoire sur adresses coûte environ trois fois plus 75
cher qu'une enquête par quotas (à effectif équivalent). Les méthodes d'échantillonnage non aléatoires les plus couramment utilisées sont : - les échantillons de convenance. L'étude est réalisée auprès d'un échantillon d'individus facilement interrogeables. Dans les études réalisées dans la rue, à la sortie d'un magasin ou dans un centre commercial, sans consigne particulière donnée aux enquêteurs, les échantillons obtenus sont des échantillons de convenance. Il est difficile de juger de la représentativité de ce type d'échantillon et de l'ampleur des biais de sélection possibles, - les échantillons de volontaires. Il s'agit d'échantillons constitués d'individus acceptant de répondre à un questionnaire inséré dans un magazine ou distribué dans des lieux publics. Là encore, la représentativité de ces échantillons ne peut être évaluée qu en confrontant par exemple a posteriori la structure des réponses obtenues à des connaissances a priori sur la population étudiée, - les échantillons par quotas. Ils sont de loin les plus utilisés pour les raisons évoquées plus haut (indisponibilité de bases de sondage, coût et délais de réalisation sur le terrain plus faibles que dans le cas d'une méthode aléatoire). 2. METHODE DES QUOTAS 2.1. Définition Comme l'écrit J. Desabie, la méthode des quotas repose sur l hypothèse suivante : «Les différents caractères que l'on peut observer dans une population n'étant pas indépendants entre eux, un échantillon identique à la population dans laquelle il est prélevé en ce qui concerne la distribution 76
statistique de certains caractères importants sera également peu différent de la population en ce qui concerne la distribution statistique des caractères qui ne sont pas contrôlés». La méthode des quotas consiste donc à construire un échantillon qui soit une maquette, un modèle réduit de la population étudiée. Le principe de la méthode est le suivant : - on choisit quelques caractéristiques appelées variables de quotas ou de contrôle dont on connaît la distribution dans la population étudiée ; par exemple, dans les enquêtes sur individus, ce seront généralement les critères socio-démographiques correspondant aux statistiques publiées après recensement par les instituts nationaux de statistique ou données par une grande enquête comme l'enquête Emploi de l'insee, - on donne à chaque enquêteur un plan de travail qui lui impose le respect de certaines proportions au sein de ses interviews. Exemple : un enquêteur doit réaliser 16 interviews dans une ville de la région Ouest (taille de la commune : 2 000 à 20 000 habitants), le champ de l'enquête étant les sujets de 15 ans et plus. Si les caractéristiques ou variables de quotas retenues sont le sexe, l'âge et la catégorie socio-professionnelle du chef de ménage, le plan de travail de l'enquêteur sera résumé dans la feuille de quota du Tableau 14. L'enquêteur doit donc interviewer 8 hommes et 8 femmes ; 3 interviewés doivent avoir entre 15 et 24 ans, 3 entre 25 et 34 ans, etc. La tâche de l'enquêteur sera assez facile pour les premiers interviewés, plus difficile pour les derniers : le bon enquêteur sait réaliser correctement ses fins de quotas et doit éviter de se retrouver dans la situation où son dernier interviewé doit être 77
une femme de 65 ans et plus dont la catégorie sociale du chef de ménage est «industriel, gros commerçant, profession libérale ou cadre supérieur». L'échantillon obtenu est ainsi représentatif de la population par rapport aux variables : sexe, âge et catégorie socio-professionnelle du chef de ménage en ce sens que, sur ces variables, l'échantillon respecte les proportions constatées dans la population. La représentativité sur des critères liés aux thèmes de l enquête doit être vérifiée a posteriori. Tableau 14 : exemple de feuille de quotas. Région Habitat ouest 2 000 à 20 000 habitants 16 interviews à réaliser Sexe de l'interviewé(e) Homme Femme Age de l'interviewé(e) 15-24 ans 25-34 ans 35-49 ans 50-64 ans 65 ans Catégorie sociale du chef de ménage Agriculteur et salarié agricole Artisan et salarié agricole Industriel, gros commerçant, profession libérale, cadre supérieur Cadre moyen, employé + divers Ouvrier + personnel service Inactif + retraité 8 ** ** ** ** ** ** ** ** 8 ** ** ** ** ** ** ** ** 3 ** ** ** 3 ** ** ** 4 ** ** ** ** 3 ** ** ** 3 ** ** ** 2 ** ** 2 ** ** 1 ** 2 ** ** 5 ** ** ** ** ** 4 ** ** ** ** 78
2.2. Mise en œuvre de la méthode des quotas La mise en œuvre de la méthode des quotas sera décrite à partir de l'exemple d'une enquête nationale en France sur un échantillon de 1 000 individus de 15 ans et plus, le questionnaire étant complété par l enquêteur à domicile (le plan de sondage est différent pour les enquêtes par téléphone). Le plan de sondage d'une telle enquête, combine en fait méthodes de sondage aléatoires et non aléatoires, ce qui n est pas toujours le cas : - on assure d'abord une représentativité géographique de l'échantillon en découpant la France selon la double stratification région et taille de commune et en affectant à chaque strate (exemple : région Nord et communes de 2 000 à 20 000 habitants) un nombre d'interviews proportionnel au nombre d'habitants dans cette strate, - dans chaque strate, le tirage de l'échantillon se fait à deux degrés : au premier degré, tirage aléatoire de communes avec des probabilités proportionnelles à leur taille ; puis dans chaque commune ainsi obtenue, sélection d'un nombre constant d'interviewés (quelle que soit la taille de la commune) par la méthode des quotas. Le fait d'interroger le même nombre d'individus par commune, grosse ou petite, n'est donc pas une faute de représentativité : il ne s'agit pas de représenter telle ou telle commune, mais la population de l'ensemble de ces communes ; or, si la méthode des quotas pouvait être assimilée à un tirage équiprobable, le plan de sondage donnerait bien à chaque individu en France, la même probabilité d'être interrogé. Pour minimiser les coûts de déplacement des enquêteurs, le nombre constant d'interviews à réaliser dans chaque commune tirée est généralement égal ou proportionnel au nombre de questionnaires qu'un enquêteur est 79
capable de réaliser en une journée, compte tenu de la longueur du questionnaire et du temps de recherche des interviewés. Si la taille de l échantillon est de 1 000 et le nombre d'enquêtes possibles dans une journée est de 10, on devra donc sélectionner au total 100 communes (ou points d'enquête), ce qui est la norme habituelle des sondages d'opinion. Puis, les individus interviewés seront sélectionnés par la méthode des quotas, la feuille de quotas donnée à l'enquêteur reproduisant la structure de la population de la strate pour les variables de quotas retenues (leur choix sera étudié plus loin). En pratique, on limite la liberté de choix des enquêteurs en ajoutant à la feuille de quotas des consignes de recherche afin de reproduire le plus possible un tirage équiprobable, par exemple : - ne pas effectuer plus d'une interview par immeuble ou dans plus d'une maison individuelle par rue, - varier les étages dans lesquels sont réalisées les interviews, - changer d'îlot ou de quartier après chaque enquête, - respecter la répartition indiquée des interviews dans la journée et en soirée, - ne pas interviewer une personne interrogée depuis moins d'un an. Il est aussi important de contrôler a posteriori le travail des enquêteurs, par une contre-enquête auprès de 5 à 10 % des interviewés (contre-visite, voie postale ou téléphone), afin de vérifier que les interviews ont été correctement réalisées. En ce qui concerne le choix des quotas, il est tout d'abord limité par l'existence de statistiques disponibles au niveau de la population : les variables de quotas doivent avoir une distribution connue au niveau de la population. Pour les enquêtes sur individus ou sur ménages, cette contrainte 80
limite souvent le choix aux caractéristiques socio-démographiques (sexe, âge, profession, nombre de personnes du ménage, taille de la commune, région ou département, etc.) connues par le dernier recensement ou éventuellement, réactualisées par l'enquête Emploi de l'insee. Pour d'autres types de populations, il n'est pas toujours facile d'obtenir des statistiques adéquates et récentes. Les variables de quotas doivent être facilement identifiables par l'enquêteur afin de ne pas donner lieu à un début de questionnaire fastidieux et inquisitorial. Comme dans la stratification, les quotas doivent être liés au sujet étudié mais il ne faut pas les multiplier afin de ne pas rendre le travail de l'enquêteur tellement difficile en fin de quotas qu'il serait conduit soit à ne pas remplir ses quotas (ce qui est acceptable dans une limite raisonnable), soit à tricher. Mieux vaut alors utiliser des variables jugées importantes comme variables de redressement, en pensant à les inclure dans le questionnaire. Les quotas fournis à l enquêteur ne sont pas des quotas croisés, mais des quotas marginaux, c'est-à-dire que l enquêteur sait combien il doit interroger de femmes et de personnes ayant un âge compris entre 15 et 24 ans mais il ne sait pas le nombre de femmes de 15 à 24 ans à interroger. Ainsi, si une enquête était réalisée en utilisant deux variables de contrôle (sexe et âge) et que l enquêteur doive interroger 16 personnes en connaissant les quotas sur chaque variable, cela reviendrait à compléter un tableau de contingence du type suivant pour lequel les marges seraient fixées. 81
Tableau 15 : exemple de tableau à compléter dans le cas d une enquête par la méthode des quotas (variables de contrôle = âge et sexe). Age 15-24 25-34 35-49 50-64 65 Sexe Total Femmes 8 Hommes 8 Total 3 3 4 3 3 16 Le fait de déterminer les quotas marginaux et non croisés permet de diminuer le temps de recherche des interviewés. Dans les enquêtes par téléphone, la méthode des quotas peut être utilisée en complément d'un sondage aléatoire sur annuaire téléphonique. Par exemple, dans l'enquête «126 000» réalisée par l Institut Médiamétrie, les 250 interviews réalisées par jour correspondent à des numéros de téléphone tirés dans les annuaires téléphoniques (selon un plan de sondage que nous ne détaillerons pas) et doivent de plus satisfaire des quotas croisés de «sexe âge activité». 2.3. Inconvénients et avantages de la méthode des quotas Les inconvénients de la méthode des quotas sont ceux des méthodes non aléatoires en général : - existence de biais que ne peuvent éviter les consignes de recherche spécifiées à l enquêteur. La qualité des enquêtes par quotas repose essentiellement sur la qualité du travail de l'enquêteur, - impossibilité de calculer des marges d'erreur ; on donne généralement comme approximation grossière, faute de mieux, les marges d'erreur du sondage aléatoire simple, 82
- non-connaissance des taux de réponse : dans une enquête par quotas, on n'a en général pas connaissance du nombre de «coups de sonnette» nécessaire pour réaliser une interview. Les avantages de la méthode des quotas sont essentiellement : - un coût plus faible et des délais de réalisation plus courts que ceux d'une enquête aléatoire, ce qui justifie son emploi lorsque les erreurs de mesure et les erreurs de non-réponse sont difficilement compressibles, comme dans les sondages d'opinion, - des résultats que l'on peut qualifier de fidèles, comme en témoigne la concordance des résultats donnés par différents instituts de sondage sur un sujet comme la cote de popularité des hommes politiques, malgré les différences de questions posées. 3. ACCESS PANELS Etant donné le nombre croissant d'études portant sur des sous-populations de plus en plus fines et la difficulté de réalisation des enquêtes ad hoc, de nombreux instituts gèrent des Access Panels. Ce sont de grands échantillons constitués d'individus pré-recrutés qui acceptent d'être interrogés, régulièrement ou à la demande, sur des sujets variés. Ces Access Panels peuvent être interrogés par téléphone, par voie postale ou par Internet (il s'agit dans ce cas d'access Panels d'internautes). Comme dans la méthode des quotas, ces échantillons sont représentatifs de la population sur quelques critères (par exemple, région, taille de commune de résidence, âge, catégorie socio-professionnelle du chef de ménage et nombre de personnes au foyer pour un Access Panel de ménages). 83
Qu'en est-il de la représentativité sur d'autres critères et sur les variables étudiées? On doit répondre à cette question au cas par cas. Les Access Panels rendent de grands services lorsque l'étude porte sur une sous-population rare (utilisateurs d'un produit à taux de pénétration faible ou produit utilisé rarement). En effet, supposons que l'on cherche à recueillir 200 réponses et que la proportion d'utilisateurs du produit est estimée à 1 % ; si l'on réalise l'enquête par téléphone, en faisant l'hypothèse d'un taux de réponse de 30 %, il faudrait 200 composer = 66 666 numéros de téléphone... 1 %" 30 % En utilisant un Access Panel de 30 000 individus, sur lequel on fait l'hypothèse d'un taux de réponse de 70 %, on obtiendra environ 210 réponses d'utilisateurs du produit. Ce qu il faut retenir La sélection aléatoire n étant pas toujours applicable pour des raisons de coût ou d accessibilité de base de sondage, l utilisation de méthodes non aléatoires peut être une solution. La méthode des quotas construit un échantillon ayant une structure semblable à celle de la population d étude, en laissant libre choix d inclusion aux enquêteurs sous certaines contraintes de répartition. Cette méthode est souvent utilisée en association à des étapes de sélection aléatoire. La sélection non aléatoire empêche la détermination des intervalles de confiance des estimations. L utilisation d Access Panels est parfois une solution lors de la recherche d un outil de sélection d un échantillon de population rare non répertoriée sur une liste mais définie par un certain comportement. 84
85
86
REFERENCES BIBLIOGRAPHIQUES - Ardilly P. Les techniques de sondage. Paris : Editions Technip, 1994 - Desabie J. Théorie et pratique des sondages. Paris : Dunod, 1966 - Dussaix AM, Grosbras JM. Exercice de sondages. Collection «Economie et statistique avancées». Paris : Economica édition, 1992 - Levy PS, Lemeshow S. Sampling of populations : methods and applications. 3rd edition. New-York : J. Wiley and Sons, Inc., 1999 - Tillé Y. Théorie des sondages : échantillonnage et estimation en populations finies. Paris : Dunod, 2001 - Warszawski J, Lellouch J. Méthodes d'estimation dans une enquête par sondage. Rev Epidemiol Sante Publique 1997 ; 45 : 150-68. 87
88
ANNEXE 1 Table de nombres au hasard 12393 59464 25186 74655 08008 73963 19756 49727 56869 90005 67116 72445 06828 86930 63688 08448 37757 96143 42306 15572 62359 58241 09397 14429 38227 38139 86032 50593 01159 08351 42811 73394 51865 27210 55606 29274 29495 94048 68367 62498 87603 23325 98550 85050 06934 29172 24103 41867 73206 97571 74941 24579 13376 87514 04768 53356 82313 36007 49492 85297 27765 09956 03077 41399 17181 01577 12448 81268 54965 34416 21170 40162 56810 59247 93783 71418 25907 54843 41494 35602 57482 77169 19478 02871 17799 32525 51728 45694 54285 88143 81462 63485 15554 80128 61934 76611 57520 23351 51816 09021 22175 06663 67178 80107 30762 61798 40835 71044 52492 52214 19600 18153 41586 09161 96162 34534 81595 66868 33504 72610 46030 30958 64522 99639 85047 70926 88702 68742 87687 42043 31179 37231 74706 10318 61917 14352 04593 75648 69843 56106 42899 33659 93701 62868 36808 53196 65988 99100 85613 33348 34696 71555 21717 64273 52057 80992 48174 40470 80426 91267 89
90
ANNEXE 2 α Z 1-α Z 1-α/2 0,450 0,126 0,755 0,400 0,253 0,842 0,350 0,385 0,935 0,300 0,524 1,036 0,250 0,674 1,150 0,200 0,842 1,282 0,150 1,0364 1,439 0,100 1,282 1,645 0,090 1,341 1,695 0,080 1,405 1,751 0,070 1,476 1,812 0,060 1,555 1,881 0,050 1,645 1,960 0,040 1,751 2,054 0,030 1,881 2,170 0,025 1,960 2,241 0,020 2,054 2,326 0,015 2,170 2,432 0,010 2,326 2,576 Fractiles de la loi normale centrée réduite. Pour une valeur donnée choisie de α, la valeur correspondante n'est pas la même selon que le test sera de type unilatéral (Z 1-α ) ou bilatéral (Z 1-α/2 ). 91