La représentativité à l'insee

Documents pareils
La nouvelle planification de l échantillonnage

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Théorie des sondages : cours 5

Fiche qualité relative à l enquête Santé et Itinéraire Professionnel 2010 (SIP) Carte d identité de l enquête

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Direction des Études et Synthèses Économiques Département des Comptes Nationaux Division des Comptes Trimestriels

AQUITAINE. Suivi de la Demande touristique ~

Critère du choix des variables auxiliaires à utiliser dans l'estimateur par calage

Faut-il pondérer? ...Ou l'éternelle question de l'économètre confronté à un problème de sondage. Laurent Davezies et Xavier D'Haultf uille.

Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011

Séance 4. Gestion de la capacité. Gestion des opérations et de la logistique

PRÉSENTATION DES QUESTIONS DE LA FEUILLE DE LOGEMENT

Le taux d'actualisation en assurance

Copropriété: 31, rue des Abondances Boulogne-Billancourt

Imputation du salaire d ego dans TeO

Chapitre 3 : INFERENCE

BILANS REGIONAUX DE L EMPLOI

Les Français et le chauffage. Résultats de l étude menée

NOTE D INFORMATION n 01 Janvier 2014

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Répondants et non-répondants dans les enquêtes. Analyse des séquences de contact

Elaboration des documents méthodologiques des comptes nationaux selon le SCN 1993 et préparation du passage au SCN 2008

LES INSUFFISANCES EN MATIERE D EQUIPEMENTS D IMAGERIE MEDICALE EN FRANCE : ETUDE SUR LES DELAIS D ATTENTE POUR UN RENDEZ-VOUS IRM EN 2013

Objectifs : piloter l organisation à travers des indicateurs (regroupés dans un tableau de bord), et informer des résultats la hiérarchie.

CONCEPTION ET TIRAGE DE L ÉCHANTILLON

Évaluations aléatoires : Comment tirer au sort?

ELEMENTS DE COMPTABILITE NATIONALE

Royaume du Maroc. La masse salariale et ses impacts sur les équilibres économiques et financiers

"La santé des étudiants en 2009"

Chapitre 3. Les distributions à deux variables

Enquête sur les investissements dans l industrie

COTISATION FONCIÈRE DES ENTREPRISES COTISATION SUR LA VALEUR AJOUTÉE DES ENTREPRISES

ANALYSE GLOBALE DES PROGRAMMES DE LA SHQ. SQEP 18 novembre 2011

Chapitre 8. Estimation de la valeur d un bien immobilier

Description des variables de la base de données. a. Attractivité démographique pour les différents types de population

Chapitre 3 - L'enquête descriptive simple

FOTO - L OMNIBUS MENSUEL DE CROP LE NOUVEAU CROP-EXPRESS

Car Insurance Survey. L assurance automobile RC chez les jeunes. Statistics Belgium. Rapport final


La classification automatique de données quantitatives

APPLICATION DU SCN A L'EVALUATION DES REVENUS NON DECLARES DES MENAGES

Investissement dans la construction de nouveaux bâtiments résidentiels (travaux mis en place) Méthodologie

Les artisans du bâtiment : une profession aux multiples facettes

Sondage d opinion sur les livres, les longs métrages, les périodiques canadiens et les œuvres musicales

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Introduction aux sondages

METHODOLOGIE GENERALE DE LA RECHERCHE EPIDEMIOLOGIQUE : LES ENQUETES EPIDEMIOLOGIQUES

Sommaire. Rentabilité du retour d une franchise de baseball de la Ligue majeure de baseball à Montréal (les «Expos»)

Benny Creppy Claudia Senardière

Prudence, Epargne et Risques de Soins de Santé Christophe Courbage

Internet modifie la relation des Français. ais à leurs banques. Présentation du 12 janvier 2010

Sommaire La méthodologie Les résultats de l'étude... 4

TEST DE DÉPISTAGE DE L IMMUNITÉ CONTRE LE

La crise n'a pas entamé la générosité des belges

Comment va la vie en France?

Les Français et l assurance Prévoyance

Entretien portant sur la location (exemple)

Et si on utilisait le vélo?

INDICE CPQ-LÉGER MARKETING DE CONFIANCE DANS L ÉCONOMIE QUÉBÉCOISE

Rendez-vous de Insee. «Des projections de ménages aux besoins. en logement» Mardi 11 décembre Annaïg LE MEUR, SIAL/DPH

Sondage d opinion auprès des Canadiens Perception à l égard des couples de même sexe PROJET

LA SOCIÉTÉ D'ASSURANCE-DÉPÔTS DES CAISSES POPULAIRES

La douzième Conférence internationale des statisticiens du travail, ...

Panel MBAweb MBA Recherche

POINTS DE VUE DES CANADIENS SUR LA COUVERTURE DES MÉDICAMENTS D ORDONNANCE

Les groupes de médecine familiale (GMF) Sondage Omniweb. Dossier septembre 2012

1 - Salaires nets tous secteurs confondus

ENQUETE DE BRANCHE Prothésistes dentaires

Institut économique de Montréal. Rapport d un sondage omnibus. Juin 2005

Le niveau de revenus des ménages est associé à la couverture vaccinale par le vaccin pneumocoque conjugué chez les enfants d'ile-de-france

Écoutez ce qui se dit sur l épargne-retraite au Canada

Crédit à la consommation, un bon outil pour la rentrée?

SOMMAIRE. Ce document sur le RGPH 2014 comporte des fiches sur :

Les enjeux du quotidien

Utilisation des médicaments au niveau des soins primaires dans les pays en développement et en transition

Baromètre PME Wallonie Bruxelles : Quatrième trimestre 2013

Les crédits nouveaux à l habitat des ménages : les tendances à mi 2014

Arrêtons. «Article 11

MODULE SOCIO-DEMOGRAPHIQUE

Thème 2 : Le rôle du «secteur informel» dans l intégration régionale

Collecte Nicole Cadenel 12/11/2014

Les Entreprises d Economie Sociale en Poitou Charentes. Vendredi 6 novembre 2009 NIORT Espace Alizé

Cet article s attache tout d abord

En 2014, comment mener à bien une enquête aléatoire en population générale par téléphone?

Demandeurs d'emploi inscrits et offres collectées par Pôle emploi en Guadeloupe en février 2015

REGLEMENT RELATIF AUX AIDES REGIONALES EN FAVEUR DES ELEVES ET ETUDIANTS EN FORMATIONS SOCIALES, PARAMEDICALES ET DE SANTE

TRANSPORT EN COMMUN - SERVICE DE DESCENTE ENTRE DEUX ARRÊTS VISANT EN EXCLUSIVITÉ LES FEMMES : DISCRIMINATION FONDÉE SUR LE SEXE?

INTERROGATION ECRITE N 3 PFEG INTERROGATION ECRITE N 3 PFEG

ENQUÊTE AUPRÈS DES EMPLOYEURS DE BLIND RIVER

Observatoire Economique et Statistique d Afrique Subsaharienne

Service Public Fédéral FINANCES Expertise et support stratégique. Bruxelles, le 11 décembre 2012

Tableau 1 : Structure du tableau des données individuelles. INDIV B i1 1 i2 2 i3 2 i4 1 i5 2 i6 2 i7 1 i8 1

Les paradoxes des marchés de bureaux et du logement Les prévisions IEIF : l année dangereuse Entre rechute et guérison?

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

La Banque Nationale divulgue des résultats record au premier trimestre de 2014

La Clé de notre succès est "r + a + r = rr" ( Relevanz + aléatoire + rotation = résultat de la recherche)

La fumée de tabac secondaire (FTS) en Mauricie et au Centre-du- Québec, indicateurs du plan commun tirés de l ESCC de

Loyers et revenus depuis les années 1970

Transcription:

Journée sur la représentativité Société Française de Statistique Centre Maurice Halbwachs 4 février 2010 - Paris La représentativité à l'insee Olivier Sautory (Insee)

Plan de la communication ce mot qui dérange promenade dans le site web de l'insee un mini-cours de sondage (chapitre 1) les méthodes utilisées à l'insee pour assurer une forme de représentativité et ce qui vient tout gâcher!

Ce mot qui dérange 1/3 Pour commencer, une parabole : Vous avez dit représentatif? racontée par Jean-Claude Deville lors du colloque Au Royaume des Sondages, Bruxelles, novembre 1988 (actes édités par J.-J. Droesbee et G. Thoveron, Éditions de l'université de Bruxelles)

Ce mot qui dérange 2/3 - je voudrais un échantillon représentatif - qu'est-ce que vous appelez représentatif? - je pensais que vous me le diriez - le problème, c'est que je ne sais pas trop! - quelle taille pour mon échantillon? - quel est votre budget? - 12 000 - faites la division! Malgré tout, les échanges continuent : le demandeur souhaite un "modèle réduit" de la population, de taille suffisante pour avoir confiance dans les résultats de son enquête

Ce mot qui dérange 3/3 Le mot représentativité n'est pas beaucoup apprécié par les méthodologues de l'insee ni par les auteurs des bons manuels de sondage! Yves Tillé, Théorie des sondages, Dunod, 2001 Voir invoquée la "représentativité" dans un rapport d'enquête pour justifier de la qualité d'un sondage peut presque à coup sûr laisser soupçonner que l'étude a été réalisée dans une méconnaissance totale de la théorie de l'échantillonnage. Le concept de représentativité est aujourd'hui à ce point galvaudé qu'il est désormais porteur de nombreuses ambivalences. Cette notion, d'ordre essentiellement intuitif, est non seulement sommaire mais encore fausse et, à bien des égards, invalidée par la théorie. Raison pour laquelle ce terme sera volontairement évité dans cet ouvrage.

Promenade dans le site www.insee.fr (1/7) Quelques utilisations du mot représentativité sur le site Web de l'insee Les individus de l'échantillon démographique permanent sont sélectionnés de manière à assurer la représentativité et la permanence de cet échantillon au cours du temps. Le nouveau recensement de la population s appuie sur une méthodologie adaptée à la taille de la commune. Recensées une fois tous les cinq ans, les communes de moins de 10 000 habitants ont été réparties en cinq groupes, selon des règles précises qui garantissent chaque année une même représentativité statistique. L enquête Vacances, fondée sur les méthodes d échantillonnage de l Insee assurant la représentativité des résultats pour les ménages

Promenade dans le site www.insee.fr (2/7) Une direction régionale peut réaliser des enquêtes locales, auprès des ménages ou auprès des entreprises, ou bien réaliser des extensions d'enquêtes nationales (augmentation de l'échantillon de manière à avoir une représentativité régionale ou locale) Enquêtes annuelles de recensement Le tirage des échantillons annuels assure une bonne représentativité régionale. Pour le Poitou-Charentes, l incertitude pour une population de 1 600 000 personnes est de l ordre de 0,3 % soit 4 800 habitants.

Promenade dans le site www.insee.fr (3/7) Enquête emploi en continu 2007 Les résultats publiés ici sont ainsi représentatifs de la totalité de la population de la France métropolitaine. Dans l'enquête annuelle, les résultats n'étaient représentatifs que de la population vivant en logements ordinaires : il faut donc tenir compte de cette différence de méthodologie pour interpréter les écarts entre les chiffres issus de l'enquête annuelle et ceux issus de la nouvelle enquête.

Promenade dans le site www.insee.fr (4/7) Les enquêtes de fréquentation dans l'hôtellerie Les hôtels sont enquêtés toute l année selon un échantillonnage permettant une représentativité par région et par espace fréquenté (mer, montagne, ville, campagne). Enquêtes de conjoncture auprès des entreprises Pour assurer une bonne représentativité, l'échantillon est stratifié selon deux critères : le secteur d'activité (défini au niveau 90 ou 600 de la Nomenclature d'activités et de Produits) et la taille de l'entreprise (exprimée en tranche d'effectifs ou de chiffres d'affaires).

Enquête Etude de l'histoire familiale de 1999 Promenade dans le site www.insee.fr (5/7) Pour gagner en représentativité sur le thème des langues régionales, certaines aires géographiques (Corse, Alsace, Flandres, Pays catalan, Pays basque, Moselle, Bretagne) ont été volontairement surévaluées dans l'échantillon. Enquête «Exhaustivité» 2001 (statistiques d'état civil) 2 000 communes ont été interrogées sur le nombre de naissances vivantes, mariages et décès qu'elles ont enregistrés en 1999 et 2000. Les communes ont été sélectionnées suivant deux critères : la tranche d'unité urbaine et l'évolution des mariages entre 1997 et 1999 selon les fichiers de l'état civil. Le premier critère est destiné à avoir une représentativité de l'ensemble des communes, aussi bien les petites que les très grandes. Le second critère a été choisi pour sur-représenter les communes les plus suspectes statistiquement, c'est-à-dire celles qui ont connu une forte baisse de leurs mariages depuis 1997.

Promenade dans le site www.insee.fr (6/7) Enquêtes permanentes des Conditions de vie (EPCV) Des pondérations sont calculées ex post afin d assurer une représentativité de l'échantillon par rapport à la population présente sur le territoire. La méthode de "calage sur marges" consiste à modifier les poids des ménages répondants de telle manière que le total de certaines variables (les critères cités ci-dessous) estimé à partir des répondants de l échantillon soit égal au "vrai" total (ou "marges") connu par ailleurs : - au niveau du ménage : le nombre total de personnes composant le ménage, le statut d'activité de la personne de référence, la catégorie de commune de résidence (taille de l unité urbaine) ; - au niveau des personnes composant le ménage : le nombre de personnes dans chaque sous-catégorie de sexe et âge décennal.

Promenade dans le site www.insee.fr (7/7) Indices de prix de production et d importation de l industrie française Les indices sont calculés à partir de relevés de prix mensuels (ou trimestriels pour certaines branches) de quelque 26 000 produits recueillis auprès d un échantillon représentatif de 3 900 entreprises ( ) Les entreprises enquêtées sont échantillonnées à partir de bases de sondage dont dispose l Insee. Chaque entreprise sélectionnée est visitée par un ingénieur-enquêteur de l'insee. Lors de l'entretien sont déterminées les transactionstémoins, à la fois représentatives des évolutions de prix de l'entreprise et facilement mobilisables, afin de limiter - autant que faire se peut la charge de réponse de l entreprise.

Sondage aléatoire, ou probabiliste Short course - ch 1 (1/12) Le choix des unités appartenant à l échantillon est réalisé de façon aléatoire, à partir d'une base de sondage, i.e. une liste de tous les individus de la population, - exhaustive - sans doubles comptes - contenant des identifiants de bonne qualité - éventuellement : contenant des informations sur les individus, utilisables pour le plan d échantillonnage, ou pour le redressement. Chaque unité de la population a une probabilité connue, fixée, d être sélectionnée. En cas d absence de base de sondage : - s il existe une base de groupes d individus : sondages à plusieurs degrés (exemple : sondage aréolaire) - populations intermédiaires

Short course - ch 1 (2/12) Sondage empirique Les unités sont choisies de manière (relativement) arbitraire (exemple : méthode des unités-types, méthode des quotas) on ne connaît pas la probabilité qu a une unité de figurer dans l échantillon. Une base de sondage n'est pas nécessaire.

Population U de taille N Plan de sondage, échantillonnage Échantillon de taille n (sans répétitions) = partie de la population : s = {...... } U 1 j n j = ensemble des échantillons s sans répétitions Short course - ch 1 (3/12) Définir un plan de sondage, c'est choisir les probabilités de sélection des différents échantillons. (s, p(s)) ; s, p(s) = 1 s Dans la pratique : le plus souvent, on utilise des procédures de sélection (modes de tirage) sur les unités de U, plutôt que sur les échantillons.

Short course - ch 1 (4/12) Exemple U = {A, B, C, D, E, F} Liste des échantillons s de taille 2 : Échantillon 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Éléments A A A A A B B B B C C C D D E B C D E F C D E F D E F E F F p(s) 1/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15 1/15 Sondage aléatoire simple de taille n = plan de sondage tel que tous les échantillons de taille n ont la même probabilité p(s) d'être sélectionnés (et p(s) = 0 pour les échantillons de taille n).

Short course - ch 1 (5/12) Probabilités d'inclusion simple (ou probabilités de sélection) π = Pr ( s) = probabilité que l unité appartienne à l échantillon tiré Cas d'un sondage aléatoire simple : π = constante = n/n (chaque individu a la même probabilité d'appartenir à l'échantillon). Mais on peut avoir π =constante pour d'autres plans de sondage! Dans la pratique, il arrive fréquemment que les plans de sondage mis en œuvre soient à probabilités inégales.

Définition d'un estimateur Variable d'intérêt Y (numérique) prenant les valeurs (Y 1 Y Y N ) (supposées inconnues) sur la population U. On s'intéresse à une caractéristique de la variable Y, par exemple son total T( Υ) = Y, sa moyenne Y, ou tout paramètre d'intérêt de la forme : U θ = f (Y...Y...Y ) Remarque : la variable Y peut être une variable indicatrice valant 1 si l'individu présente un certain caractère et 0 sinon. Alors : T(Y) = nombre d'individus dans la population présentant ce caractère Y = proportion d'individus présentant ce caractère. 1 N Short course - ch 1 (6/12)

Short course - ch 1 (7/12) Définition d'un estimateur (suite) Une fois l'échantillon s tiré selon le plan de sondage défini, on estime θ par une valeur dépendant des données de l échantillon, notée ˆθ(s), appelée estimation : θˆ(s) = g(y...y...y ) La fonction θˆ est appelée estimateur. 1 j n Dans le cas de l'estimation d'un total, l'estimateur sera le plus souvent une fonction linéaire des valeurs observées : Tˆ Y (s) = s w Les w (s) seront appelés les poids des individus de l'échantillon. Ils pourront dépendre de l'échantillon s qui a été sélectionné. (s) y

Espérance d'un estimateur = valeur moyenne de θˆ obtenue avec le plan de sondage considéré Biais de l estimateur : Caractéristiques d'un estimateur E(θˆ ) s p(s) θˆ (s) Si B(θˆ) = 0 θˆ estimateur sans biais Variance d'un estimateur (variance d échantillonnage) = B( θˆ) = E(θˆ) θ Short course - ch 1 (8/12) V(ˆ) θ = s p(s) [ θˆ(s) E(ˆ) θ ] 2 = mesure de la dispersion des valeurs θˆ(s) autour de la valeur moyenne Le Graal du sondeur : un estimateur sans biais de variance nulle!

Exemple Population U A B C D E F Valeurs Y 2 6 8 10 10 12 On veut estimer la moyenne de Y : θ = Y ( = 8) À partir d'un échantillon s = { 1, 2 }, on calcule la moyenne y y θˆ (s) y 1 + 2 = = 2 Échantillon 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 Short course - ch 1 (9/12) Éléments Valeurs A A A A A B B B B C C C D D E B C D E F C D E F D E F E F F 2 2 2 2 2 6 6 6 6 8 8 8 10 10 10 6 8 10 10 12 8 10 10 12 10 10 12 10 12 12 Moyenne 4 5 6 6 7 7 8 8 9 9 9 10 10 11 11 On a : E( y) = 8 = Y et V(y) = 64 /15 = 4.27

Dans le cas d'un sondage aléatoire simple, on a : V(y) 1 ( n 1 N ( 1 f ), où f = n / N avec S 2 = variance de la variable Y dans la population La précision : = )S E(y) = Y augmente si la taille de l échantillon augmente 2 = la représentativité (au sens précision) dépend de la taille de l'échantillon mais aussi de la variable d'intérêt! S 2 n Short course - ch 1 (10/12) augmente si la dispersion S² de la variable dans la population diminue dépend très peu de la taille de la population : souvent f << 1 Encore faut-il pouvoir évaluer cette précision! sondage probabiliste

Short course - ch 1 (11/12) Estimation sans biais d'un total (plan de sondage quelconque) Population : U = {1 N} s : échantillon de taille n tiré de U selon un plan de sondage P={p(s)}, donnant les probabilités d'inclusion π = Pr ( s). Y = variable d'intérêt, dont on veut estimer le total sur la population Tˆ y π (Y) = = s π s w y est un estimateur sans biais du total T(Y) = estimateur d'horvitz-thompson de T(Y) Poids des observations : w =1/π = poids de sondage, poids d'échantillonnage, poids d'horvitz-thompson. Une définition extensive : un échantillon s est représentatif d'une population U s'il permet d'estimer sans biais des caractéristiques définies sur U tout échantillon probabiliste est représentatif!

Une définition de la représentativité proposée par Háje, Sampling from a finite population (1981) Une stratégie est définie par un plan d'échantillonnage P = {s, p(s) } et une méthode d'estimation, utilisant des poids {w (s), s}. Une stratégie {P, (w (s))} est représentative pour les variables X 1 X j X J si : j = 1...J w (s) x = T( Χ ) s pour tout échantillon s sélectionné selon le plan P. Une telle stratégie est efficace (en termes de précision) pour l'estimation d'un total T(Y) si la variable Y est corrélée aux variables auxiliaires X 1 X j X J. j Short course - ch 1 (12/12) j

Les méthodes assurant la représentativité - échantillonnage (1/13) Sondage à probabilités proportionnelles à la taille Choix optimal des probabilités d'inclusion (cas d'un échantillonnage de taille fixe n) Si les probabilités d inclusion π sont proportionnelles aux Y, alors Tˆ (Y) = T(Y) s (Graal atteint!) π Les valeurs Y étant inconnues, on choisit les π proportionnelles aux valeurs X d une variable positive X connue sur la population et supposée bien corrélée à Y. On parle de tirage à probabilités proportionnelles à la taille, ou ppt (car la variable X est souvent une "taille").

Remarques Les méthodes assurant la représentativité - échantillonnage (2/13) 1. On a le droit de sélectionner les individus avec des probabilités inégales! Et cela peut être bénéfique en termes de précision! la "représentativité" définie comme : chaque individu a la même chance d'appartenir à l'échantillon n'est pas adaptée. PONDÉRER N EST PAS TRICHER! Le poids "rectifie" l importance plus ou moins grande donnée à l unité lors du tirage. 2. Toutes les probabilités d'inclusion π doivent être non nulles. Si certaines π sont nulles, l'estimateur d'horvitz-thompson est biaisé : E Tˆ Y T(Y) ( ) π(y) = π U > 0 Il y a défaut de couverture : l'échantillon n'est plus représentatif de U (définition extensive)

Les méthodes assurant la représentativité - échantillonnage (3/13) Propriétés du sondage ppt Avec des probabilités d inclusion proportionnelles aux valeurs X, on obtient donc : Tˆ (X) = T(X) s π La stratégie {P ppt,(w HT )}, où P ppt est le plan de sondage à probabilités proportionnelles à la variable X, et w HT les poids d'horvitz-thompson, est représentative pour la variable de taille X. L'information auxiliaire utilisée est la connaissance de la valeur de la variable X sur chaque individu de la population. Cette stratégie est efficace pour estimer le total d'une variable Y approximativement proportionnelle à X.

Les méthodes assurant la représentativité - échantillonnage (4/13) Sondage stratifié on partitionne la population U en H parties, appelées strates, notées U 1 U h U H + + + + + + + + + + + + + + + + + + + + + + + + + dans chaque strate U h, un échantillon s (h) est tiré selon un plan de sondage p h. échantillon total : s = s K ( 1) s(2) s(h) On suppose dans la suite que l'on réalise un sondage aléatoire simple dans chaque strate : π = n h / N h = f h pour U h (f h = taux de sondage dans la strate U h ).

Les méthodes assurant la représentativité - échantillonnage (5/13) Estimation de la taille d'une strate Estimer la taille N h d'une strate U h revient à estimer le total de la variable indicatrice d'appartenance à U h : 1 si Uh I1 U h () = 0 sinon 1I U () N h h De façon immédiate : Nˆ h = = w HT = n h = Nh π n s La stratégie {SAS stratifié, (w HT )} est représentative pour la variable (qualitative) de stratification. L'information auxiliaire utilisée est l'appartenance des individus aux différentes strates, i.e. la connaissance de la valeur de la variable de stratification sur chaque individu de la population. Cette stratégie est efficace pour estimer le total d'une variable Y liée à la variable de stratification (strates homogènes pour Y). s ( h ) h

Les méthodes assurant la représentativité - échantillonnage (6/13) Stratification : allocation de l'échantillon L allocation proportionnelle La répartition de l échantillon dans les différentes strates est identique à la répartition de la population selon ces strates : n h n N h = h = 1... H N Alors f h = n h / N h = constante, les π sont égales, les poids sont égaux. On lit souvent : l échantillon est représentatif selon la variable de stratification, au sens "modèle réduit" de la population!

Les méthodes assurant la représentativité - échantillonnage (7/13) Stratification : allocation de l'échantillon L allocation optimale de Neyman On the two different aspects of the representative method : the method of stratified sampling and the method of purposive selection. Journal of the Royal Statistical Society (1934) Les n h qui minimisent la variance de l estimateur stratifié d'un total T(Y) sous la contrainte n h = n sont : h Nh Sh n h = n i.e. f H h proportionnel à Sh N S = 1 où S h désigne la variance de la variable d'intérêt dans la strate U h l'échantillon "modèle réduit" ne va pas chercher l'information "là où elle est" (tout au moins pour la variable Y ).

Les méthodes assurant la représentativité - échantillonnage (8/13) Sondage équilibré Un échantillon s est équilibré sur une variable X si et seulement si l estimateur d'horvitz-thompson du total de X prend une valeur identique à celle (connue) du total de X sur la population. X est appelée variable d équilibrage. Un plan de sondage est équilibré si et seulement si tout échantillon tiré selon ce plan de sondage est équilibré : s x = X = π Nota : X peut être une variable vectorielle. : s U T(X)

Les méthodes assurant la représentativité - échantillonnage (9/13) Caractéristiques de l'échantillonnage équilibré Un échantillonnage équilibré peut être utilisé à partir de n'importe quel ensemble donné de probabilités d'inclusion, qui demeurent inchangées après équilibrage. On peut équilibrer sur des variables quantitatives et qualitatives (par l'intermédiaire des variables indicatrices associées aux modalités). Il n'est pas toujours possible d'obtenir un échantillon parfaitement équilibré : les contraintes d'équilibrage peuvent ne pas être tout à fait satisfaites. Les calculs peuvent être longs si la base de sondage est volumineuse. Un algorithme de mise en œuvre de l'échantillonnage équilibré a été mis au point par Jean-Claude Deville et Yves Tillé (2000) : la méthode du Cube, et une macro SAS (CUBE) a été développée. Elle est téléchargeable depuis le site Web de l'insee.

Les méthodes assurant la représentativité - échantillonnage (10/13) Propriétés du sondage équilibré Par construction, la stratégie {Sondage équilibré, (w HT )} est représentative pour les variables d'équilibrage. L'information auxiliaire utilisée est la connaissance des valeurs des variables d'équilibrage sur chaque individu de la base de sondage. Cette stratégie est efficace pour estimer le total d'une variable Y liée aux variables d'équilibrage : la variance de l'estimateur ne dépend que de la variabilité de Y non prise en compte par les variables d'équilibrage Plus précisément : la variance est fonction des résidus d'une régression linéaire de Y sur les variables d'équilibrage.

Les méthodes assurant la représentativité - échantillonnage (11/13) Équilibrage : exemples d utilisation à l Insee (1/3) Enquêtes annuelles de recensement Pour les communes de moins de 10 000 habitants, on a sélectionné, au sein de chaque région, 5 groupes de rotation équilibrés selon des critères mesurés au RP 99 : le nombre de logements (individuels / collectifs), le nombre de personnes selon 5 tranches d'âge, le nombre de femmes, le nombre d'hommes, la population totale par département. Pour les communes de 10 000 habitants ou plus, on a sélectionné, au sein de chaque commune, 5 groupes d'adresses équilibrés selon les mêmes critères que pour les groupes de rotation de communes. Une année donnée, on sélectionne au sein du groupe d'adresses concerné (hors adresses "de grande taille") un échantillon équilibré selon le nombre de logements (individuels / collectifs) et le nombre de logements des IRIS.

Les méthodes assurant la représentativité - échantillonnage (12/13) Équilibrage : exemples d utilisation à l Insee (2/3) Échantillon-maître (OCTOPUSSE), utilisé pour le tirages des enquêtes-ménages à l'insee. Le tirage des unités primaires, appelées ZAE (Zones d'action Enquêteurs), est un tirage stratifié par région, à probabilités proportionnelles à leur taille (nombre de logements principaux au RP99), et équilibré selon les critères suivants : nombre de résidences principales par groupe de rotation revenu fiscal total par groupe de rotation nombre de logements en zone rurale, en zone péri-urbaine, en zone urbaine + des variables d'équilibrage supplémentaires en Île-de-France : âge, type de ménage, caractéristiques de l'habitat, statut d'occupation, nombre d'étrangers

Les méthodes assurant la représentativité - échantillonnage (13/13) Équilibrage : exemples d utilisation à l Insee (3/3) Enquête emploi en continu : nouvel échantillon tiré à partir des fichiers de la taxe d'habitation. Sondage aréolaire : tirage de 3 211 secteurs (zones géographiques) parmi 200 000, stratifié par région et équilibré sur des critères d âge, de revenus, de type d espace, de type de logements, avec des probabilités d'inclusion proportionnelles au nombre de résidences principales.

Les méthodes assurant la représentativité - estimation (1/6) Estimation par le ratio Un échantillon s a été tiré au sein de la population U, selon un plan de sondage P quelconque, et des probabilités d'inclusion π. Y variable d'intérêt, total estimé sur s par : y Tˆ (Y) π = s π X variable mesurée sur s, total estimé par : x Tˆ π(x) = π et dont le total T(X) sur la population est connu. s L'estimateur par le ratio (ou par "règle de trois") du total T(Y) est défini par : T(X) Tˆratio (Y) = Tˆ π(y) Tˆ (X) Interprétation en termes de poids individuels Tˆ ratio (Y) = s T(X) Tˆ (X) π 1 π y = s w ratio y π où w ratio = T(X) Tˆ (X) π 1 π

Les méthodes assurant la représentativité - estimation (2/6) Propriétés de l'estimation par le ratio Si on utilise ces poids (qui dépendent de l'échantillon s sélectionné) pour estimer le total de toute variable d'intérêt, on a en particulier : Tˆratio (X) = T(X) La stratégie {P,(w ratio )} est représentative pour la variable de ratio X. L'information auxiliaire utilisée est la connaissance du total de la variable X sur la population. Cette stratégie est efficace pour estimer le total d'une variable Y approximativement proportionnelle à X.

Les méthodes assurant la représentativité - estimation (3/6) Estimation par post-stratification On suppose que le plan P est un sondage aléatoire simple. On définit après l'enquête des groupes d'individus, appelés poststrates, notées U h, et on suppose connues les tailles N h de ces poststrates dans la population. L'estimateur post-stratifié du total T(Y) est défini par : _ post (Y) = où y = moyenne de Y dans s (h) = s U h h Tˆ H h= 1 N h _ y h Interprétation en termes de poids individuels Tˆ post (Y) 1 H = N h y = h 1 n = h s s ( h ) w post y où w post = N n h h si s (h)

Les méthodes assurant la représentativité - estimation (3/6) Propriétés de la post-stratification Si on utilise ces poids (qui dépendent de l'échantillon s sélectionné) pour estimer les tailles N h des post-strates, on trouve : Nˆ = h post N h La stratégie {P,(w post )} est représentative pour la variable (qualitative) de post-stratification. L'information auxiliaire utilisée est la taille des post-strates dans la population. Cette stratégie est efficace pour estimer le total d'une variable Y liée à la variable de post-stratification (post-strates homogènes pour Y).

Estimation par calage J variables auxiliaires X 1 X j X J (quantitatives ou indicatrices associées aux modalités de variables qualitatives) connues sur s, et dont on connaît les totaux sur la population : T(Χ ) = x. On cherche des poids w Les méthodes assurant la représentativité - estimation (4/6) j U j proches des poids de sondage 1/π "distance") vérifiant les équations de calage : j = 1...J s w x j = (au sens d'une certaine T(Χ j ) Les poids w calage d'optimisation. sont obtenus en résolvant un problème

Les méthodes assurant la représentativité - estimation (5/6) Propriétés de l'estimation par calage On utilise ces poids (qui dépendent de l'échantillon s sélectionné) pour estimer le total T(Y) de toute variable d'intérêt : Tˆ calage (Y) = s w calage y Par construction, la stratégie {P,(w calage )} est représentative pour les variables de calage. L'information auxiliaire utilisée est la connaissance des totaux des variables de calage dans la population. Cette stratégie est efficace pour estimer le total d'une variable Y liée aux variables de calage : la variance de l'estimateur ne dépend que de la variabilité de Y non prise en compte par les variables de calage. Plus précisément : la variance est fonction des résidus d'une régression linéaire de Y sur les variables de calage.

Les méthodes assurant la représentativité - estimation (6/6) Calage : exemples d utilisation à l Insee Méthodes de calage utilisées dans la plupart des enquêtes-ménages de l'insee (macro SAS Calmar, téléchargeable depuis le site Web de l'insee). Variables de calage habituelles pour les échantillons de ménages : âge de la personne de référence du ménage, sa catégorie socioprofessionnelle, le nombre de personnes du ménage, la catégorie de la commune de résidence. Possibilité de caler simultanément des échantillons de ménages et des échantillons d'individus. Utilisation croissante dans le cas des enquêtes-entreprises.

et ce qui vient tout gâcher Et la non-réponse dans tout ça? Qu'elle soit totale (un individu n a pas du tout répondu à l enquête) ou partielle (l individu n'a pas répondu à certaines questions), la nonréponse vient en général détruire la représentativité (dans tous les sens du terme), car les non-répondants n'ont en général pas les mêmes caractéristiques que les répondants. Sans traitement statistique pour corriger cette non-réponse, les estimateurs calculés sur l'échantillon des répondants sont biaisés.

et ce qui vient tout gâcher Et la non-réponse dans tout ça? Les méthodes de correction de la non-réponse sont fondées sur des "modèles de réponse", reposant sur la connaissance de facteurs explicatifs de la non-réponse, qui doivent être connus sur les répondants et les non-répondants. Les méthodes de calage peuvent êtres mises en œuvre pour corriger la non-réponse.

En guise de conclusion (1/2) Les différents sens du mot représentativité : couverture : toute unité de la population peut être sélectionnée dans l'échantillon si possible : utiliser une base de sondage absence de biais de sélection : assurée par une sélection aléatoire de l'échantillon (en l'absence de non-réponse ) sondage probabiliste chaque individu a la même probabilité d'être sélectionné sondage équiprobable : mais il peut être plus efficace de sélectionner avec des probabilités inégales! taille de l'échantillon : choisir une taille suffisante pour atteindre une précision requise ; mais dépend de la variable d'intérêt! diversité, hétérogénéité : les unités de l'échantillon doivent refléter la variabilité de certains critères dans la population stratification ; mais pas nécessairement efficace!

En guise de conclusion (2/2) modèle réduit : répartition de l'échantillon selon un ou plusieurs critères identique à celle de la population stratification avec allocation proportionnelle, équilibrage avec des probabilités d'inclusion égales peut être moins efficace qu'avec des probabilités inégales! représentativité au sens de Háje : estimation parfaite de totaux de variables auxiliaires équilibrage, calage efficacité si corrélation entre variables auxiliaires et variables d'intérêt peut être utile en termes de communication Un échantillon n'est jamais représentatif "en soi"!