ÉCHANTILLON REPRÉSENTATIF (D UNE POPULATION FINIE) : DÉFINITION STATISTIQUE

Documents pareils
MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES

Remboursement d un emprunt par annuités constantes

Dirigeant de SAS : Laisser le choix du statut social

GENESIS - Generalized System for Imputation Simulations (Système généralisé pour simuler l imputation)

Les jeunes économistes

Impôt sur la fortune et investissement dans les PME Professeur Didier MAILLARD

Mesure avec une règle

Editions ENI. Project Collection Référence Bureautique. Extrait

COMPARAISON DE MÉTHODES POUR LA CORRECTION

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire

Montage émetteur commun

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations

Généralités sur les fonctions 1ES

BTS GPN 2EME ANNEE-MATHEMATIQUES-MATHS FINANCIERES MATHEMATIQUES FINANCIERES

Chapitre 3 : Incertitudes CHAPITRE 3 INCERTITUDES. Lignes directrices 2006 du GIEC pour les inventaires nationaux de gaz à effet de serre 3.

ÉLÉMENTS DE THÉORIE DE L INFORMATION POUR LES COMMUNICATIONS.

1.0 Probabilité vs statistique Expérience aléatoire et espace échantillonnal Événement...2

Plan. Gestion des stocks. Les opérations de gestions des stocks. Les opérations de gestions des stocks

STATISTIQUE AVEC EXCEL

Stéganographie Adaptative par Oracle (ASO)

Système solaire combiné Estimation des besoins énergétiques

UNIVERSITÉ DU QUÉBEC À MONTRÉAL L ASSURANCE AUTOMOBILE AU QUÉBEC : UNE PRIME SELON LE COÛT SOCIAL MARGINAL MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

I. Présentation générale des méthodes d estimation des projets de type «unité industrielle»

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

IDEI Report # 18. Transport. December Elasticités de la demande de transport ferroviaire: définitions et mesures

Q x2 = 1 2. est dans l ensemble plus grand des rationnels Q. Continuons ainsi, l équation x 2 = 1 2

santé Les arrêts de travail des séniors en emploi

Calculer le coût amorti d une obligation sur chaque exercice et présenter les écritures dans les comptes individuels de la société Plumeria.

TD 1. Statistiques à une variable.

Les prix quotidiens de clôture des échanges de quotas EUA et de crédits CER sont fournis par ICE Futures Europe

1. Les enjeux de la prévision du risque de défaut de paiement

Exercices d Électrocinétique

La théorie classique de l information. 1 ère partie : le point de vue de Kolmogorov.

LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régime») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF

Prêt de groupe et sanction sociale Group lending and social fine

Fiche n 7 : Vérification du débit et de la vitesse par la méthode de traçage

Paquets. Paquets nationaux 1. Paquets internationaux 11

hal , version 1-14 Aug 2009

DES EFFETS PERVERS DU MORCELLEMENT DES STOCKS

BUREAU D'APPLICATION DES METHODES STATISTIQUES ET INFORMATIQUES

La voix en images : comment l évaluation objectivée par logiciel permet d optimiser la prise en charge vocale

CREATION DE VALEUR EN ASSURANCE NON VIE : COMMENT FRANCHIR UNE NOUVELLE ETAPE?

Système de diffusion d information pour encourager les PME-PMI à améliorer leurs performances environnementales

UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D ACCIDENTS

EH SmartView. Identifiez vos risques et vos opportunités. Pilotez votre assurance-crédit. Services en ligne Euler Hermes

Terminal numérique TM 13 raccordé aux installations Integral 33

GEA I Mathématiques nancières Poly. de révision. Lionel Darondeau

Calcul de tableaux d amortissement

Économétrie. Annexes : exercices et corrigés. 5 e édition. William Greene New York University

Grandeur physique, chiffres significatifs

L enseignement virtuel dans une économie émergente : perception des étudiants et perspectives d avenir

La Quantification du Risque Opérationnel des Institutions Bancaires

Le Prêt Efficience Fioul

MINISTERE DE L ECONOMIE ET DES FINANCES

Page 5 TABLE DES MATIÈRES

VIELLE Marc. CEA-IDEI Janvier La nomenclature retenue 3. 2 Vue d ensemble du modèle 4

Pratique de la statistique avec SPSS

ACTE DE PRÊT HYPOTHÉCAIRE

CHAPITRE 14 : RAISONNEMENT DES SYSTÈMES DE COMMANDE

1 Introduction. 2 Définitions des sources de tension et de courant : Cours. Date : A2 Analyser le système Conversion statique de l énergie. 2 h.

Mes Objectifs. De, par, avec Sandrine le Métayer Lumières de Philippe Férat. spectacle produit par la Cie DORE

Séparation de Sources par lissage cepstral des masques binaires

Integral T 3 Compact. raccordé aux installations Integral 5. Notice d utilisation

PREMIERS PAS en REGRESSION LINEAIRE avec SAS. Josiane Confais (UPMC-ISUP) - Monique Le Guen (CNRS-CES-MATISSE- UMR8174)

RAPPORT DE STAGE. Approcher la frontière d'une sous-partie de l'espace ainsi que la distance à cette frontière. Sujet : Master II : SIAD

INTRODUCTION. Jean-Pierre MAGNAN Chef de la section des ouvrages en terre Département des sols et fondations Laboratoire central

Une analyse économique et expérimentale de la fraude à l assurance et de l audit

Thermodynamique statistique Master Chimie Université d Aix-Marseille. Bogdan Kuchta

Parlons. retraite. au service du «bien vieillir» L Assurance retraite. en chiffres* retraités payés pour un montant de 4,2 milliards d euros

Pourquoi LICIEL? Avec LICIEL passez à la vitesse supérieure EPROUVE TECHNICITE CONNECTE STABILITE SUIVIE COMMUNAUTE

Faire des régimes TNS les laboratoires de la protection sociale de demain appelle des évolutions à deux niveaux :

Intégration financière et croissance économique : évidence empirique dans. la région MENA

Be inspired. Numéro Vert. Via Caracciolo Milano tel fax

TRAVAUX PRATIQUES SPECTRO- COLORIMETRIE

Interface OneNote 2013

GATE Groupe d Analyse et de Théorie Économique DOCUMENTS DE TRAVAIL - WORKING PAPERS W.P Préférences temporelles et recherche d emploi

CHAPITRE DEUX : FORMALISME GEOMETRIQUE

AGROBASE : un système de gestion de données expérimentales

ErP : éco-conception et étiquetage énergétique. Les solutions Vaillant. Pour dépasser la performance. La satisfaction de faire le bon choix.

Documents de travail. «La taxe Tobin : une synthèse des travaux basés sur la théorie des jeux et l économétrie» Auteurs

Table des Matières RÉSUMÉ ANALYTIQUE... 1 I. CONTEXTE La dette publique du Gouvernement Contexte institutionnel de gestion de la

Projet de fin d études

ESTIMATION DES TITRES VIRAUX : UNE PROGRAMMATION PRATIQUE ET FIABLE SUR CALCULATRICE DE POCHE, ET ACCESSIBLE PAR l INTERNET

Corrections adiabatiques et nonadiabatiques dans les systèmes diatomiques par calculs ab-initio

Semestre : 4 Module : Méthodes Quantitatives III Elément : Mathématiques Financières Enseignant : Mme BENOMAR

Coefficient de partage

Evaluation de performances d'ethernet commuté pour des applications temps réel

Corrigé du problème de Mathématiques générales Partie I

L ABC du traitement cognitivo-comportemental de l insomnie primaire

CATALOGUE EXCLUSIF TOUCH MEDIA CATALOGUE DE SITES FORMATS GLOSSAIRE. Notre sélection de supports en représentation exclusive au Maroc

Version provisoire Ne pas citer sans l accord des auteurs

Analyse de sensibilité des modèles de simulation. Samuel Buis UMR 1114 EMMAH Avignon

Analyse des Performances et Modélisation d un Serveur Web

Des solutions globales fi ables et innovantes.

TABLE DES MATIERES CONTROLE D INTEGRITE AU SEIN DE LA RECHERCHE LOCALE DE LA POLICE LOCALE DE BRUXELLES-CAPITALE/IXELLES (DEUXIEME DISTRICT) 1

Chapitre IV : Inductance propre, inductance mutuelle. Energie électromagnétique

22 environnement technico-professionnel

Professionnel de santé équipé de Médiclick!

INTERNET. Initiation à

Transcription:

ÉCHANTILLON REPRÉSENTATIF (D UNE POPULATION FINIE) : DÉFINITION STATISTIQUE ET PROPRIÉTÉS Léo Gervlle-Réache, Vncent Coualler To cte ths verson: Léo Gervlle-Réache, Vncent Coualler. ÉCHANTILLON REPRÉSENTATIF (D UNE POPU- LATION FINIE) : DÉFINITION STATISTIQUE ET PROPRIÉTÉS. Échantllon représentatf, Sondage, Quotas, Probabltés d ncluson. 2011. <hal-00655566> HAL Id: hal-00655566 https://hal.archves-ouvertes.fr/hal-00655566 Submtted on 30 Dec 2011 HAL s a mult-dscplnary open access archve for the depost and dssemnaton of scentfc research documents, whether they are publshed or not. The documents may come from teachng and research nsttutons n France or abroad, or from publc or prvate research centers. L archve ouverte plurdscplnare HAL, est destnée au dépôt et à la dffuson de documents scentfques de nveau recherche, publés ou non, émanant des établssements d ensegnement et de recherche franças ou étrangers, des laboratores publcs ou prvés.

ECHANTILLON REPRESENTATIF (D UNE POPULATION FINIE) : DEFINITION STATISTIQUE ET PROPRIETES Léo Gervlle-Réache 1,2, Vncent Coualler 1,2 & Ncolas Pars 3 1. Unversté de Bordeaux 2, Bordeaux, F-33000, France 2. CNRS, UMR 5251, Bordeaux, F-33000, France 3. Optma-europe, Mérgnac, France Résumé : La noton de représentatvté d un échantllon est sous-jacente à la plupart des études par sondage. L dée, furtve, est que l échantllon dot produre des résultats «extrapolables» à la populaton d ntérêt. La formalsaton de cette «dée» : défnr la noton d échantllon représentatf, est une quête que certans poursuvent ardemment et que d autres ont abandonné. Nous proposons dans ce paper un regard sur cette noton qu débouche sur une défnton statstque. Mots clés : Echantllon représentatf, Sondage, Quotas, Probabltés d ncluson. 1. Introducton Qu est ce qu un échantllon représentatf, et pourquo cette noton de représentatvté est-elle un préalable à de nombreuses analyses de résultats de sondage? Il est ben évdent qu une analyse par échantllonnage en vue de décrre, prédre ou extrapoler à la populaton entère est la base des statstques, le problème étant de justfer les technques de statstque mathématque assocées. Avant même de parler de représentatvté, on dot défnr la noton de populaton, d échantllonnage dans cette populaton, et enfn d échantllon de cette populaton. Dans la sute, suvant les notatons de Cochran (1977) ou Ardlly (2006), une populaton de talle fne N est classquement défne comme un ensemble d untés dsjontes pouvant être ndexées par les N premers enters et représentée par P { u, 1,..., N} = = sans dstncton d ordre. Une méthode d échantllonnage est un algorthme permettant sans ambguïté de créer un échantllon, c est à dre de sélectonner sans dstncton d ordre une parte de P. Pusque les untés statstques sont dstnguables, l échantllonnage revent à décrre comment sont sélectonnés les ndces { 1,..., n } des n untés statstques de la populaton. Ans, échantllonner dans P est équvalent à échantllonner dans{ 1,..., N }. Enfn, un échantllon { u,..., u } 1 n est le résultat d une méthode d échantllonnage applquée une fos sur la populaton P. 1/11

La représentatvté d un échantllon ne peut donc être envsagée (une fos défne) qu en termes de qualté d un échantllon provenant d une méthode d échantllonnage donnée. C est donc la méthode d échantllonnage qu donnera aux échantllons leur qualté de représentatvté. Dans cet artcle, nous proposons une défnton d un échantllon représentatf d une populaton fne et démontrons quelques proprétés essentelles qu en découlent. 2. Notons de représentatvté d un échantllon dans la lttérature. La représentatvté est souvent un argument avancé pour justfer l usage des résultats d une enquête par sondage. Il exste cependant de nombreuses nterprétatons de ce terme et nous avons relevé quelques argumentares ou défntons de ce terme. a. Aperçu de notons relevées dans la lttérature. Pour Yves Tllé (2001) «Le concept de représentatvté est aujourd'hu à ce pont galvaudé qu'l est désormas porteur de nombreuses ambvalences. Cette noton, d'ordre essentellement ntutf, est non seulement sommare mas encore fausse et, à ben des égards, nvaldée par la théore.». Pour Jean Vallant (2005) «La défnton d'échantllon représentatf dffère selon que le plan d'échantllonnage est probablste ou non probablste : - un plan probablste fournt un échantllon représentatf dès lors que chaque ndvdu de la populaton a une probablté connue et non nulle d'être nclus dans l'échantllon. - un plan non probablste fournt un échantllon représentatf s la structure de l'échantllon pour certanes varables clés est smlare à celle de la populaton cble. Par exemple, on peut voulor construre un échantllon pour lequel les proportons de catégores d'ndvdus soent smlares dans l'échantllon à celles de la populaton cble (c'est le prncpe de la méthode dte des quotas).». Pour Pascal Ardlly (2006) «On dt qu un plan de sondage est représentatf d une expresson donnée et numérquement connue construte à partr d une varable auxlare (un total le plus souvent) lorsque, pour la méthode d échantllonnage chose, l estmateur estme parfatement ben (c est-à-dre avec un bas nul et une varance nulle) l expresson donnée 2/11

en queston. Ce terme ne s applque pas de façon satsfasante à un échantllon.» Pour Olver Sautory (2010) «Un échantllon n'est jamas représentatf "en so", l est représentatf par rapport à certanes varables». Pour l AFNOR et l ISO : Pas de défnton d échantllon représentatf ou de représentatvté dans l ISO 3534-1-Vocabulare et symboles- mas une défnton du terme échantllon : «Une ou pluseurs untés d échantllonnage prélevées dans une populaton et destnées à fournr des nformatons sur cette populaton. Note Un échantllon peut servr de base à une décson concernant cette populaton ou le processus qu l a produte». Pour le Sénat dans la proposton de lo du 14 féver 2010 sur les sondages : «Un sondage est une enquête statstque vsant à donner une ndcaton quanttatve, à une date détermnée, des opnons, souhats, atttudes ou comportements d une populaton par l nterrogaton d un échantllon représentatf de celle-c, qu l sot consttué selon la méthode des quotas ou selon la méthode aléatore» Pour Sheldon M. Ross (1999) «[ ] Thus, although t may seem paradoxcal, we are most lkely to obtan a representatve sample by choosng ts members n a totally random fashon wthout any pror consderatons of the elements that wll be chosen. In other words, we need not attempt to delberately choose the sample so that t contans, for nstance, the same gender percentage and the same percentage of people n each professon as found n the general populaton.». Enfn, pour Phlppe Dutarte (2005) «Volà une expresson qu, s elle n est pas précsée, peut sgnfer à peu près n mporte quo. Un échantllon consttué selon la méthode des quotas est évdemment «représentatf» des crtères correspondants aux quotas (sexe, âge, catégore socoprofessonnelle, régon, talle de la commune...) selon lesquels l a été fabrqué. Mas on n a aucun moyen de savor jusqu à quel pont l est «représentatf» de ce pour quo l a été prélevé, c est-à-dre le sujet du sondage, l opnon, le pourcentage que l on cherche à évaluer. L expresson «représentatf de la populaton françase», que l on lt souvent dans la presse, prête évdemment à confuson. On a l mpresson que l échantllon est «représentatf» de tout ce que l on veut. En statstque, on désgne plutôt par «échantllon représentatf», un échantllon où le hasard permet d évter les bas nconnus et d applquer le calcul des probabltés. La méthode optmale pour obtenr un échantllon «représentatf» est celle du sondage aléatore stratfé optmal.». 3/11

Cet évental de défntons, proprétés ou remses en cause de la représentatvté d un échantllon montre l apparente subtlté et complexté de cette noton. Pourtant, cette noton nous semble fondamentale. Nous pourrons éprouver, vor unfer les ponts de vue dès lors qu une défnton statstque unque s mpose. Dans cet artcle, nous proposons une défnton d un échantllon représentatf d une populaton fne et démontrons pluseurs proprétés essentelles qu en découlent. Deux dées fondamentales ont gudé notre réflexon : - La populaton est un échantllon représentatf - Un échantllon smple au hasard (équprobable) est un échantllon représentatf. b. Résultats représentatfs ou échantllons représentatfs? Un échantllon représentatf n est pas une fn en so. Ce que nous souhatons c est que les résultats ssus du tratement statstque de l échantllon pussent être «extrapolés» à la populaton. Auss, ce que l on souhate c est que les résultats soent «représentatfs». Un résultat représentatf est une dée assez clare. En tout cas, nous pouvons nous accorder sur une défnton statstque en ce qu concerne les résultats ssus des méthodes d échantllonnage probablstes. Un résultat sur l échantllon dot estmer une quantté dans la populaton. Ce que l on souhate clarement, d un pont de vue statstque, c est que cette estmaton sot sans bas. C est sur cette dée qu est construte la théore des sondages (vor par exemple Ardlly (2006)). Un résultat représentatf est donc, statstquement, un résultat ssu d un estmateur sans bas. On peut donc dre que l ensemble des résultats d un sondage est représentatf s chaque résultat est représentatf. A ce stade, nous pourrons étuder la proposton de défnton suvante : Défnton 0 : Un échantllon est représentatf pour une étude (c est à dre un ensemble de résultats) s et seulement s l ensemble des résultats de l étude est représentatf. Ic, un échantllon est représentatf s et seulement s tout résultat produt est un estmateur sans bas de la quantté recherchée dans la populaton. Ic, l échantllon est représentatf au regard de la qualté de l ensemble des résultats produts par l étude. Cependant, cette défnton condtonne la représentatvté de l échantllon aux seuls résultats produts. En un sens, c est suffsant car, «peut mporte pour les résultats non produts». Mas 4/11

c, un échantllon ne peut être représentatf «en so». Or, nous avons adms, par exemple, qu un échantllon smple au hasard dot être un échantllon représentatf, un échantllon représentatf «en so» ou «par défnton». Cette défnton est néanmons ntéressante. En effet, s l on démontre que tout résultat est ssu d un estmateur sans bas, alors l échantllon est représentatf. On aurat donc une méthode de démonstraton de la représentatvté de l échantllon au regard des tratements qu seront réalsés. Malheureusement, s nous souhatons estmer une quantté pour laquelle l n exste pas d estmateur sans bas quelque sot l échantllon (par exemple, le maxmum d une varable quanttatve n est estmé sans bas que s n=n), nous devrons conclure qu aucun échantllon représentatf n exste pour cette quantté. Or nous voulons qu un échantllon smple au hasard sot un échantllon représentatf. La défnton 0 est donc sans sute. 3. Défnton statstque d un échantllon représentatf d une populaton de talle fne. La statstque est basée sur la noton d nformaton et on posera que la populaton content toute l nformaton (sur cette populaton). La défnton d un échantllon représentatf ne peut pas dépendre des «maladresses» de méthodes d estmaton. On veut qu un échantllon pusse être représentatf en so. Dans la sute, on reprend les notatons de l ntroducton en notant S { } untés de l échantllon et E { u, S} = l échantllon lu même. =,..., 1 n les ndces des Défnton 1 : Une caractérstque d une populaton de talle N est un vecteur de talle N qu consgne, pour cette populaton les valeurs prses par chaque unté de la populaton à un moment donné (ex : âge de chaque personne). Il est clar qu une caractérstque C d une populaton peut s exprmer en termes d une dstrbuton emprque F N (C) smplement défne comme l ensemble des fréquences dans la populaton des valeurs prses par la caractérstque dans la populaton. Défnton 2 : L ensemble des caractérstques d une populaton de talle N est une matrce de talle NXK qu consgne, pour cette populaton les valeurs prses par chaque ndvdu pour 5/11

l ensemble des K caractérstques de la populaton (ex : âge, talle, CSP, ). Il est clar que l ensemble des caractérstques d une populaton peut s exprmer en termes d une dstrbuton emprque de dmenson K : FN ( C1,..., C K ). On note C (, k ) la valeur de la caractérstque C de l ndvdu k u de la populaton P. Défnton 3 : Echantllon représentatf d une caractérstque Un échantllon E composé de n untés { } u est représentatf de la caractérstque S k C d une populaton de talle N s l exste une méthode d échantllonnage probablste dans E d une unté u E telle que la lo de probablté de C (, k ) qu est la valeur de cette caractérstque pour l ndvdu u E, prs au hasard dans l échantllon, est égale à la lo de dstrbuton emprque F ( C ) de cette caractérstque dans la populaton P. N k Remarque : Cette défnton ne présuppose pas que la méthode d échantllonnage ntal de E dans P sot probablste. Elle mpose smplement la possblté de trer au hasard dans E selon une lo dont le transport sur la caractérstque correspond à la lo emprque de la caractérstque dans P. Comme pour toute méthode probablste, en notant E 1 l échantllon (de talle un) ssu de cette méthode de trage, on peut défnr les probabltés d ncluson condtonnelles : P = P( u E u E) pour S. 1 NB : ces probabltés sont dfférentes des probabltés d ncluson condtonnelles suvantes : Q = P( u E u E, u E,..., u E), S 1 1 2 n qu sont les probabltés d ncluson dans E1 connassant l ensemble de l échantllon E, et correspondent donc à la lo de trage de E 1 dans E avec Q = 1. S Défnton 4 : Echantllon représentatf d une populaton de talle fne. Un échantllon E composé de n untés { } u est représentatf d une populaton P s l exste S une méthode d échantllonnage probablste dans E d une unté u E telle que la lo de 6/11

probablté conjonte des caractérstques ( (,1),..., (, K) ) C C de l ndvdu u E prs au hasard dans l échantllon est égale à la lo de dstrbuton emprque de l ensemble des caractérstques dans la populaton P, c est à dre que F ( C,..., C ) = F ( C,..., C ). E1 1 K N 1 K En substance, un échantllon est donc représentatf s l est possble de trer au hasard dans cet échantllon un ndvdu dont la lo des caractérstques est celle de la populaton. Le hasard de ce trage n est pas nécessarement équprobable. On démontre qu un échantllon est représentatf s et seulement s on démontre que FE ( C 1 1,..., CK ) = FN ( C1,..., CK ). Proprété 1 : La populaton P est un échantllon représentatf de la populaton P. Démonstraton : S on tre au hasard équprobable (.e. { } 1.. la populaton, alors l est clar que FE ( C 1 1,..., CK ) = FN ( C1,..., CK ). Q = P = 1/ N = ) une unté u N de Proprété 2 : Un échantllonnage aléatore smple produt un échantllon représentatf de la populaton P. Démonstraton : S on tre au hasard équprobable, n ndvdus dans la populaton et que l on tre un ndvdu au hasard équprobable dans cet échantllon, l est clar que cela revent à trer un ndvdu au hasard équprobable drectement dans la populaton, revenant ans au cas de la proprété 1 et donc dans S. F ( C,..., C ) = F ( C,..., C ). Dans ce cas, Q = P = 1/ N, pour tout E1 1 K N 1 K Proprété 3 : S E est un échantllon de n ndvdus d une populaton P de talle N ssu d une méthode d échantllonnage probablste tel qu l exste une méthode d échantllonnage probablste d une unté u échantllon représentatf de P : E avec P( u E1) = 1/ N, pour tout = 1 N, alors E est un S P( u E1) = 1/ N pour tout = 1 N alors FE ( C 1 1,..., CK ) = FN ( C1,..., CK ), Démonstraton : Cette proprété est une conséquence drecte de la proprété 2. Ans, en substance, un échantllon est représentatf s sa constructon est «équvalente» à celle d un échantllon smple au hasard. 7/11

Proprété 4 : S E est un échantllon de n ndvdus d une populaton P de talle N est ssu d une méthode d échantllonnage probablste avec des probabltés d ncluson connues et supéreures ou égales à 1/N, (.e. P( u ) = P( u E) 1/ N, pour = 1... N), alors E est un échantllon représentatf de P : S P( u ) 1/ N pour tout = 1 N alors F ( C,..., C ) = F ( C,..., C ) E1 1 K N 1 K Démonstraton : s P( u ) 1/ N, on pose P 1/ ( N P( u )) = pour = 1... N. On obtent alors un ensemble de probabltés qu peut être la base d une méthode d échantllonnage condtonnel d un ndvdu dans l échantllon E. Alors, la probablté d ncluson de tout u dans E 1 est : P( u E1) = P( u E1 u E) P( u E) = P P( u ) = 1 / N pour tout =1 N. La proprété 3 nous dt que F ( C,..., C ) = F ( C,..., C ). E1 1 K N 1 K Remarque : La condton portant sur des probabltés d ncluson connues et supéreures ou égales à 1/N peut sembler surprenante. Pour autant cette condton est en réalté naturelle et essentelle. En effet, supposons que l on tre un échantllon de talle deux sur une populaton de talle 10 avec une méthode d échantllonnage telle que les probabltés d ncluson soent P(u 1 )=...= P(u 9 )=0,22 et P(u 10 )=0,02. Dans ce cas, P(u 10 )<1/10, l échantllon n est pas représentatf de la populaton P au sens de la défnton 4. Cet exemple montre qu un trop gros déséqulbre dans les probabltés d ncluson peut condure à un échantllon non représentatf. Cette lmte n est pas s surprenante : s l on s ntéresse à l estmaton d une proporton d une caractérstque D par l estmateur de Horvtz-Thomson, on peut trouver la formule par exemple dans Ardlly (2006 page 133) : «P ˆD 1 1 =» qu est, avec nos notatons, égale à 1 1. N P N P( u ) s D E D Or, s P( u ) < 1/ N, l estmaton de la proporton est supéreure à 1. Dans notre exemple, s l ndvdu n 10 est le seul à posséder le caractère D et s l ndvdu n 10 appartent à 1 1 l échantllon E, on estmera la proporton de D dans la populaton à : = 5, sot 10 0, 02 500%. 8/11

NB : La proprété d estmaton sans bas n est clarement pas suffsante pour garantr la représentatvté de l échantllon. En effet, dans l exemple précédant, l estmaton de la proporton de D dans la populaton est sans bas pusque : u 10 appartent à E avec probablté 0,02 et l estmaton vaut alors 500%, u 10 n appartent pas à E avec probablté 0,92 et l estmaton vaut alors 0%. Donc l espérance est ben de 0,02*500%=10% (comme dans la populaton). Mas l est clar qu aucun statstcen ne cautonnerat une estmaton de 500%. Donc on devra lmter l estmaton à 100%. Mas dans ce cas, l espérance de l estmateur sera de 0,02*100%=2%. L estmateur est alors basé. 4. Représentatvté et méthode des quotas. La méthode des quotas est la plus fréquemment utlsée pour tenter de construre un échantllon «représentatf». Pour Jérôme Fourquet en 2011 «C est en respectant cette méthode des quotas qu on arrve à avor un échantllon représentatf.». Pour L IPSOS (Page Web) «L nconvénent majeur de la méthode des quotas est de ne pas permettre de calculer scentfquement la marge d erreur du sondage. Les los statstques qu permettent de la détermner ne valent théorquement que pour les sondages aléatores. En pratque, on consdère cependant que la marge d erreur des sondages par quotas est égale ou nféreure à celle des sondages aléatores». Le prncpe des quotas est smple : connassant dans la populaton la dstrbuton de certanes caractérstques de la populaton, on sélectonnera des ndvdus de la populaton séquentellement jusqu à satsfacton (en proportons exactes) de ces dstrbutons. Cette seule contrante ne défnt pas les probabltés d ncluson de chaque ndvdu de la populaton. Pour autant, cette méthode ne sgnfe pas que les probabltés d ncluson soent nécessarement nconnues. Exemple : supposons que l on dspose d une base de sondage exhaustve et que l on sélectonne un échantllon de n ndvdus séquentellement selon la méthode des quotas de la manère suvante : le premer ndvdu de l échantllon est sélectonné au hasard smple (1/N) dans la populaton. Le second au hasard smple (1/(N-1)) et ans de sute. S, a un moment, l ndvdu ne satsfat pas aux quotas, on le retre de la base et on poursut au hasard smple. Une pette analyse de l échantllonnage montre que chaque ndvdu de la populaton a la 9/11

même probablté d ncluson dans l échantllon. On est donc c dans le cas d un échantllonnage stratfé, représentatf selon la défnton 4 et dont «la marge d erreur [ ] est égale ou nféreure à celle des sondages aléatores» (IPSOS). La méthode des Quotas n est donc pas «en so» une méthode emprque ou non probablste. Elle ne le devent que s les probabltés d ncluson sont nconnues. 5. Représentatvté et méthodes de redressement a posteror. Un redressement a pour but de retrouver dans l échantllon redressé certanes dstrbutons emprques exstant dans la populaton. Au fnal, nous obtenons pour les caractérstques redressées, des dstrbutons égales à celles de la populaton. Qu en est-l précsément pour les autres caractérstques (en partculer celles d ntérêt)? Pour répondre à cette queston, nous devons d abord répondre à la queston : pourquo avonsnous redressé a posteror l échantllon? Il est clar que s l échantllon est représentatf, nous n avons aucune rason d effectuer un redressement a posteror. Donc, notre échantllon n est, pour une rason ou pour une autre, pas représentatf, nous le savons et nous voudrons le rendre représentatf. La défnton 4 nous dt que tout cela n est que vane pene. En effet, nous ne pourrons en aucun cas démontrer la représentatvté de cet échantllon redressé. Remarque 1 : S un échantllon n est pas représentatf, un redressement même mûrement construt ne le rendra représentatf, au meux, que pour les caractérstques de redressement au sens de la défnton 3 (pour un calage sur marge par exemple). Remarque 2 : Un échantllon par quotas est représentatf des dstrbutons margnales des caractérstques prses en compte pas les quotas. De ce fat, cette méthode est dentque à un échantllonnage aléatore (non représentatf dû à un défaut de couverture ou des non-réponses) avec redressement par calage sur les mêmes caractérstques. 6. Concluson Ce paper propose une défnton d un échantllon représentatf d une populaton fne. Cette défnton n est pas basée sur la sélecton au hasard d ndvdus de la populaton mas la sélecton au hasard d un ndvdu de l échantllon. De ce fat, l n y a aucun a pror sur le mode de sélecton de l échantllon. Les propostons qu en découlent sont rches d ensegnements. Dans un premer temps, on démontre qu un échantllon aléatore smple est 10/11

ben représentatf. De plus, on montre que s la méthode d échantllonnage a des probabltés d ncluson trop dsparates, la représentatvté n est pas évdente. Enfn, on vot que la représentatvté de la méthode des quotas n a ren à enver à celle des échantllons aléatores avec redressement pour défaut de couverture ou non-réponse. Les dfférentes ctatons de la parte (2.a.) peuvent être commentées au regard de cette défnton de la représentatvté d un échantllon. Pour Yves Tllé et Pascal Ardlly, la représentatvté est une noton «nadaptée». Nous espérons que la défnton proposée dans cet artcle les fera changer d avs. Pour Olver Sautory, «Un échantllon n'est jamas représentatf "en so"». Notre défnton est basée sur le contrare. Pour Jean Vallant, l sufft que les probabltés d ncluson sot connues et non nulles. Nous avons montré le problème que pose l utlsaton de probabltés d ncluson nféreures à 1/N. Notre défnton est en revanche, totalement en accord avec la ctaton de Sheldon M. Ross et pour l essentel, en accord avec Phlppe Dutarte. Il est clar pour tous que la représentatvté de l échantllon est un déal. En effet, un taux de couverture de 100%, un taux de non-réponse de 0%, font parte des hypothèses du théorcen mas rarement de la réalté du statstcen. On peut alors se poser la queston de la constructon d un ndce de représentatvté qu aurat pour but de relatvser le plus objectvement possble (et de la manère la plus consensuelle) le défaut de représentatvté d un d échantllon. Bblographe [1] Ardlly P. (2006), Les technques de sondage, Edton TECHNIP. [2] Cochran W.G. (1977), Samplng technques, 3rd edton, Wley & Sons, NY. [3] Dutarte P. (2005), L'nducton statstque au lycée (ed : Dder). [4] Fourquet J. (2011), Emsson C dans l ar du 17 Févrer 2011. [5] Norme ISO 3534-1 (1996) Vocabulare et symboles. [6] Ross S.M. (1999), Introducton to Probablty and Statstcs, Elsever [7] Sautory O. (2010), Journée d études sur la représentatvté, ENS Pars. [8] Senat (2010), Proposton de lo du 14 féver 2010 relatve à la publcaton et à la dffuson de certans sondages d opnon. [9] Tllé Y. (2001), Théore des sondages, Edton DUNOD. [10] Vallant J. (2005), Intaton à la théore de l'échantllonnage, Web. 11/11