Cours de sondages approfondis

Documents pareils
Théorie des sondages : cours 5

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

La nouvelle planification de l échantillonnage

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Fiche qualité relative à l enquête Santé et Itinéraire Professionnel 2010 (SIP) Carte d identité de l enquête

Modèles et Méthodes de Réservation

CONCEPTION ET TIRAGE DE L ÉCHANTILLON

VI. Tests non paramétriques sur un échantillon

Faut-il pondérer? ...Ou l'éternelle question de l'économètre confronté à un problème de sondage. Laurent Davezies et Xavier D'Haultf uille.

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

Probabilités III Introduction à l évaluation d options

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Observatoire Economique et Statistique d Afrique Subsaharienne

La classification automatique de données quantitatives

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

TABLE DES MATIERES. C Exercices complémentaires 42

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Probabilités sur un univers fini

1 Complément sur la projection du nuage des individus

Cours de Probabilités et de Statistique

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Probabilités sur un univers fini

PROBABILITES ET STATISTIQUE I&II

Introduction à l'actuariat

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

Calculs de probabilités conditionelles

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

L exclusion mutuelle distribuée

Chapitre 3. Les distributions à deux variables

Introduction à l approche bootstrap

En 2014, comment mener à bien une enquête aléatoire en population générale par téléphone?

Interception des signaux issus de communications MIMO

Optimisation des fonctions de plusieurs variables


Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Simulation de variables aléatoires

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Cours d analyse numérique SMI-S4

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable


Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

6 ème. Rallye mathématique de la Sarthe 2013/ ère épreuve de qualification : Problèmes Jeudi 21 novembre 2013

Chapitre 3 : INFERENCE

Gestion réactive des opérations de maintien et d actualisation réglementaire et technologique des systèmes complexes.

Mesure et gestion des risques d assurance

Cours de Tests paramétriques

On ne peut pas entendre la forme d un tambour

Programmation linéaire

Travaux dirigés d introduction aux Probabilités

Probabilités. C. Charignon. I Cours 3

Exercices supplémentaires sur l introduction générale à la notion de probabilité

Pourquoi l apprentissage?

Rappels sur les suites - Algorithme

Prudence, Epargne et Risques de Soins de Santé Christophe Courbage

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

Moments des variables aléatoires réelles

ENSPS 3A ISAV Master ISTI AR. J. Gangloff

ENS de Lyon TD septembre 2012 Introduction aux probabilités. A partie finie de N

RECHERCHE ET ANALYSE QUALITATIVE :

INF6304 Interfaces Intelligentes

Conventions d écriture et outils de mise au point

Programmation Linéaire - Cours 1

Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011

Feuille d exercices 2 : Espaces probabilisés

Dérivation : cours. Dérivation dans R

FORMULAIRE DE STATISTIQUES

NOMBRES COMPLEXES. Exercice 1 :

Organisation d une action de prévention collective en entreprise

Rétablissement d un réseau cellulaire après un désastre

4. Martingales à temps discret

Analyse de la variance Comparaison de plusieurs moyennes

Programmation linéaire et Optimisation. Didier Smets

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

STATISTIQUES. UE Modélisation pour la biologie

L évolution des modes de communication, comment adapter les enquêtes en population générale? L expérience de l enquête KABP VIH/sida 2010

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

FctsAffines.nb 1. Mathématiques, 1-ère année Edition Fonctions affines

COURS COLLÉGIAUX PRÉALABLES À L ADMISSION

Journées Télécom-UPS «Le numérique pour tous» David A. Madore. 29 mai 2015

Qu est ce qu un réseau social. CNAM Séminaire de Statistiques Appliquées 13/11/2013. F.Soulié Fogelman 1. Utilisation des réseaux sociaux pour le

LES GENERATEURS DE NOMBRES ALEATOIRES

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Transcription:

Cours de sondages approfondis 1ère séance : rappels Xavier d Haultfœuille 1

Introduction Objectif du cours : aborder quelques techniques récentes en sondages, et plus précisément : - en échantillonnage : tirages équilibrés, tirage indirect... - en redressement : traitement de la non-réponse partielle (par imputation) et totale (par calage). - en estimation : calcul de précision dans des plans complexes, pour des statistiques complexes. Bibliographie conseillée P. Ardilly (2006), Les techniques de sondage. C. E. Särndal, B. Swensson et J. Wreitman (1992), Model Assisted Survey Sampling, Springer- Verlag. Y. Tillé (2001), Théorie des sondages : Échantillonnage et estimation en populations finies : cours et exercices, Dunod. 2

1. Rappels sur la théorie des sondages : définitions On dispose d une population U = {1,..., N}. A chaque individu k correspond un caractère y k. On parle de caractère plutôt que de variables pour préciser que y k n est pas aléatoire. L objectif est d estimer un paramètre θ = f(y), où y = (y 1,..., y N ). Deux solutions pour ce faire : On dispose de données exhaustives sur la population (fichiers administratifs, recensements). θ est (en théorie) parfaitement connu. Il n est pas possible (pour des raisons de confidentialité et/ou de coût) d observer le vecteur complet y. On a alors recours à un sondage. Un plan de sondage peut être défini comme une loi de probabilité p(.) sur l ensemble des parties de U. On note S une variable aléatoire de loi p(.). S est un échantillon aléatoire ( l échantillon ). On a alors, pour tout s U, P(S = s) = p(s) 3

1. Rappels sur la théorie des sondages : définitions On définit également : les variables d appartenance à l échantillon, I k = 1{k S}. la taille de l échantillon n S = #S = k U I k. En général, n S est aléatoire. la probabilité d inclusion π k de l individu k : π k = P(k S). On a : π k = E(1{k S}) = s p(s)1{k s} = s k p(s). = E(I k ). les probabilités d inclusion d ordre deux π kl des individus k et l. π kl = P((k, l) S). On a : π kl s (k,l) = E(1{k S}1{l S}) = = E(I k I l ). Les covariances kl = Cov(I k, I l ). On a : kl = π kl π k π l. p(s). 4

2. Rappels sur la théorie des sondages : échantillonnage Définition 1 Un plan est dit de taille fixe lorsque n S est constante. On note alors n S = n et on définit également le taux de sondage par f = n/n. Propriétés du sondage de taille fixe : π k = n. (1) l U,l k l U,l k k U π kl = (n 1) π k. (2) kl = kk = π k (1 π k ). (3) Définition 2 Un sondage est dit à probabilités inégales lorsqu il existe k l tel que π k π l. 5

2. Rappels sur la théorie des sondages : échantillonnage Quelques exemples importants de sondages... Exemple 1 le sondage aléatoire simple (SAS) : tous les échantillons de taille n sont équiprobables. Dans ce cas, p(s) = 1{#s = n} CN n. Exercices : 1) montrer simplement, en utilisant (1) et (2) : π k = n N, π kl = 2) Proposer un algorithme de tirage d un SAS. n(n 1) N(N 1) Exemple 2 : le sondage bernoullien. (I 1,..., I N ) sont i.i.d. de loi B(p). Dans ce cas, p(s) = p #s (1 p) N #s. 6

2. Rappels sur la théorie des sondages : échantillonnage Exemple 3 : le sondage stratifié. U = H h=1 U h où (U 1,..., U H ) est une partition de U. Les U h sont les strates de la population. On tire un sondage aléatoire simple de taille n h au sein de chaque strate. Les tirages sont indépendants d une strate à l autre. Il s agit donc d un tirage de taille fixe n = H h=1 n h, vérifiant π k = n h(k) /N h(k) et où h(k) est la strate de k. Intérêt du sondage stratifié? π kl = n h(k)(n h(k) 1) N h(k) (N h(k) 1) 1{h(k) = h(l)} + n h(k)n h(l) N h(k) N h(l) 1{h(k) h(l)} Exemple 4 : le sondage par grappe. On définit U = N g i= U g. Les U g sont les grappes d unités. On tire un sondage aléatoire simple de taille n g de grappes. Toutes les unités de la grappe sont donc interrogées. On a, en notant g(k) la grappe de k, π k = n g /N g et π kl = n g 1{g(k) = g(l)} + n g(n g 1) 1{g(k) g(l)}. N g N g (N g 1) Quel est l intérêt du sondage par grappe? Son inconvénient? 7

3. Rappels sur la théorie des sondages : échantillonnage Exemple 5 Le tirage systématique. Il s agit d un algorithme de tirage de taille fixe et à probabilités inégales On définit V 0 = 0, V k = l k π l. Soit U U[0; 1]. On tire alors S = {k/ j {0,..., n 1}/V k 1 U + j < V k } Exercice : montrer qu on a bien n S = n et P(k S) = π k. Exemple 6 Le plan Poissonnien. On suppose que les (I 1,..., I N ) sont indépendants, avec I k Be(π k ). On a dans ce cas π kl = π k π l et il est même possible d expliciter p(s) : p(s) = N k=1 π 1{k s} 1{k / s} k (1 π k ) 8

3. Rappels sur la théorie des sondages : échantillonnage Exemple 7 Plans à deux degrés. On suppose que U = i I U i, (U 1,..., U I ) partition de U. Les U i sont les unités primaires. Un plan à deux degrés consiste : à tirer des unités primaires parmi les (U i ) i I. On note S I l échantillon correspondant. à tirer un échantillon (d unités secondaires) au sein de chaque unité primaire sélectionnée. On note S i l échantillon correspondant à l unité primaire i. L échantillon final est alors S = i SI S i. On suppose de plus que : - pour tout i, S i est indépendant de S I ; - les (S i ) i I sont indépendants les uns des autres. Le tirage à deux degrés généralise le tirage stratifié et le tirage par grappes. 9

3. Rappels sur la théorie des sondages : échantillonnage Les probabilités d inclusion vérifient alors, en notant i(k) l unité primaire contenant k et π 1i (resp. π 2k ) la probabilité d inclusion de l unité primaire i (resp. de l unité secondaire k) : π k = P(i(k) S I ) P(k S i(k) ) = π 1i(k) π 2k Les probabilités d inclusion d ordre deux s écrivent quant à elles : π kl = π 1i(k) π 2kl si i(k) = i(l) = π 1i(k)i(l) π 2k π 2l sinon. Quel est l intérêt des sondages à deux degrés? 10

4. Rappels sur la théorie des sondages : estimation Intéressons-nous maintenant à l estimation, à partir de S, d un paramètre θ = f(y). On cherche quelques critères pour choisir un estimateur θ. 1) absence de biais : pour tout y, E( θ) = θ. Problème : ne restreint pas suffisamment la classe des estimateurs. Exemple : le π estimateur (ou estimateur de Horvitz-Thompson) d un total t y = k U y k défini par : Mais du coup, pour tout a, l estimateur t yπ = k S y k π k t y,a = t yπ a( N yπ N), Nyπ = k S 1 π k (4) est également sans biais. 2) optimalité : pour tout y, θ = arg inf θ V ( θ ). Godambe (1955) : il n existe pas d estimateur optimal de y. 11

4. Rappels sur la théorie des sondages : estimation 3) admissibilité : θ est admissible s il n existe pas d estimateurs de variance plus faible pour tout y. Problème : ne restreint pas suffisamment la classe des estimateurs (par exemple tous les estimateurs du type (4) sont admissibles). 4) hyperadmissibilité : θ est hyperadmissible s il est admissible pour tout domaine non-vide de U. Hanurav (1968) : le seul estimateur sans biais hyperadmissible est le π- estimateur. Résultat critiqué par Basu (1971) avec l exemple demeuré célèbre de la mesure du poids total des éléphants d un cirque. 12

4. Rappels sur la théorie des sondages : estimation Précision du π estimateur. Le π-estimateur du total t y = k U y k s écrit t yπ = k S y k π k = k U y k I k π k. Sa variance vaut donc V ( t yπ ) = y k y l kl π k π l (k,l) U 2 Dès que π kl > 0 pour tout k, l, on peut l estimer sans biais par V ( t yπ ) = (k,l) S 2 y k y l π k π l π kl kl. Cet estimateur présente l inconvénient de pouvoir prendre des valeurs négatives. Si le plan est de taille fixe, on peut utiliser un autre estimateur, basé sur la proposition suivante. Proposition 3 (Sen-Yates-Grundy) Pour un plan de taille fixe, V ( t yπ ) = 1 ( yk y ) 2 l kl. 2 π k π l k l U 2 13

La variance peut donc être estimée sans biais par V ( t yπ ) = 1 ( yk y ) 2 l kl. 2 π k π l π kl k l S 2 Cette variance est positive sous la condition (dite de Sen-Yates-Grundy) π kl π k π l pour tout k, l. Comment peut-on interpréter cette condition? Preuve : On a 1 2 k l U 2 ( yk y ) 2 l kl = π k π l k l = k l y k y l π k π l kl k y k y l π k π l kl k l k yk 2 πk 2 yk 2 πk 2 kl k l kl = k l = k,l y k y l kl π k π l k y k y l kl π k π l yk 2 πk 2 ( π k (1 π k )) d après (3) 14

4. Rappels sur la théorie des sondages : estimation Cas particuliers : sondage aléatoire simple. Le π estimateur du total t y est égal dans ce cas à t yπ = N n On peut l estimer sans biais par Preuves : exercice. V ( t yπ ) = N 2 (1 f) S2 y n, S2 y = 1 N 1 V ( t yπ ) = N 2 n (1 f)s2 y n, s2 y = 1 n 1 k S y k. Sa variance s écrit : (y k y) 2. k U (y k ŷ) 2. k S 15

- Comparaison avec un tirage avec remise de taille n : on a dans ce dernier cas V ( t yπ ) = N 2σ2 y n, On améliore donc la précision du facteur (1 f). σ2 y = 1 N (y k y) 2. k U - Comparaison avec le plan bernoullien. Soit n = p N (n est la taille moyenne de l échantillon). On a : V ( t yπ ) = N 2 (1 p) 1 N k U y2 k n Le tirage de taille fixe permet, en terme de variance, d éliminer les effets de translation sur y. 16

4. Rappels sur la théorie des sondages : estimation Autres sondages : - Sondage stratifié. On a : t yπ = H t yh, V ( t yπ ) = h=1 H h=1 N 2 h(1 f h ) S2 yh n h. Le sondage sera d autant plus précis que les strates sont différentes les unes des autres en termes de y. - Sondage par grappes. Notons Y g = k U g y k, Y = 1 N g G g=1 Y g. On a : V ( t yπ ) = N 2 g (1 f g ) S2 yg n g, S 2 yg = 1 N g 1 Le sondage sera d autant plus précis que les grappes sont semblables. - Sondage poissonnien. Par indépendance des (I k ), on a V ( t yπ ) = k U y 2 k π k (1 π k ) G (Y g Y ) 2. g=1 17

4. Rappels sur la théorie des sondages : estimation Sondages à deux degrés : la variance du π estimateur s écrit : V ( t yπ ) = V UP + V US où V US = i I Elle peut être estimée sans biais par V UP = (i,j) I 2 t yit yj π 1i π 1j 1ij V ( t yiπ ) π 1i, V ( t yiπ ) = (k,l) U 2 i y k y l π 2k π 2l 2kl V ( t yπ ) = V UP + V US Avec V US = i SI V UP = (i,j) S 2 I t yiπ t yjπ π 1i π 1j 1ij π 1ij V ( t yiπ ) π 1i, V ( t yiπ ) = (k,l) S 2 i y k y l π 2k π 2l 2kl π 2kl. 18

4. Rappels sur la théorie des sondages : estimation Remarques : - V UP et V US ne sont pas des estimateurs sans biais : E( V UP ) > V UP. - En général V UP >> V US et on pourra se contenter d estimer le premier terme. Preuve des formules précédentes : exercice. 19