Introduction à la théorie des sondages - Cours 2

Documents pareils
Théorie des sondages : cours 5

La nouvelle planification de l échantillonnage

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

Chapitre 3. Les distributions à deux variables

Moments des variables aléatoires réelles

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Introduction à la statistique non paramétrique

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Soutenance de stage Laboratoire des Signaux et Systèmes

Limites finies en un point

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Modèles et Méthodes de Réservation

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

La classification automatique de données quantitatives

Estimation et tests statistiques, TD 5. Solutions

FOTO - L OMNIBUS MENSUEL DE CROP LE NOUVEAU CROP-EXPRESS

Probabilités conditionnelles Loi binomiale

Cours de Tests paramétriques

MODÈLE CROP DE CALIBRATION DES PANELS WEB

M2 IAD UE MODE Notes de cours (3)

Centre d'etudes Nucléaires de Fontenay-aux-Roses Direction des Piles Atomiques Département des Etudes de Piles

PROBABILITES ET STATISTIQUE I&II

Loi d une variable discrète

PRIME D UNE OPTION D ACHAT OU DE VENTE

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

Chapitre 3 : INFERENCE

Statistiques Descriptives à une dimension

Développement décimal d un réel

3 Approximation de solutions d équations

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

FIMA, 7 juillet 2005

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Loi binomiale Lois normales

FONCTION DE DEMANDE : REVENU ET PRIX

Statistique Descriptive Élémentaire

3. Agrégats, ratios et équilibres macroéconomiques

Le niveau de revenus des ménages est associé à la couverture vaccinale par le vaccin pneumocoque conjugué chez les enfants d'ile-de-france

Comment se servir de cet ouvrage? Chaque chapitre présente une étape de la méthodologie

3. Caractéristiques et fonctions d une v.a.

L exclusion mutuelle distribuée

Continuité et dérivabilité d une fonction

Correction du Baccalauréat S Amérique du Nord mai 2007

Exo7. Limites de fonctions. 1 Théorie. 2 Calculs

1 Objectifs. Traitement statistique des données d enquête avec introduction à SPSS. Plan

Markov processes and applications to queueing/risk/storage theory and mathematical biology

TD d économétrie appliquée : Introduction à STATA

8.1 Généralités sur les fonctions de plusieurs variables réelles. f : R 2 R (x, y) 1 x 2 y 2

Simulation de variables aléatoires

Introduction à l'actuariat

Texte Agrégation limitée par diffusion interne

Relation entre deux variables : estimation de la corrélation linéaire

Calculs de probabilités conditionelles

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Température corporelle d un castor (une petite introduction aux séries temporelles)

Le théorème des deux fonds et la gestion indicielle

I. Polynômes de Tchebychev

Probabilités sur un univers fini

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Exercices Alternatifs. Une fonction continue mais dérivable nulle part

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

I La théorie de l arbitrage fiscal de la dette (8 points)

4. Résultats et discussion

Couples de variables aléatoires discrètes

Baromètre des professions Février 2015

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

1 Complément sur la projection du nuage des individus

Introduction à l approche bootstrap

Théorie et codage de l information

Dérivés Financiers Contrats à terme

Sur certaines séries entières particulières

Cours de méthodes de scoring

POINTS DE VUE DES CANADIENS SUR LA COUVERTURE DES MÉDICAMENTS D ORDONNANCE

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Les groupes de médecine familiale (GMF) Sondage Omniweb. Dossier septembre 2012

Fonctions de deux variables. Mai 2011

Lois de probabilité. Anita Burgun

Interception des signaux issus de communications MIMO

un environnement économique et politique

Les devoirs en Première STMG

LE PROBLEME DU PLUS COURT CHEMIN

Pour l épreuve d algèbre, les calculatrices sont interdites.

Dans une année, il y a 12 mois. Dans une année, il y a 52 semaines. Dans une année, il y a 4 trimestres. Dans une année, il y a 365 jours.

DU RAPATRIEMENT DE LA CONSTITUTION PRÉSENTÉE PAR CROP. de la vie aux idées

Introduction à la Statistique Inférentielle

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Les Français et le libéralisme

Chapitre 2 Le problème de l unicité des solutions

Le modèle de régression linéaire

LE MARCHÉ DE L IMMOBILIER D ENTREPRISE

Santé environnement. Description du budget espace-temps et estimation de l exposition de la population française dans son logement

Exemples d application

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Compression Compression par dictionnaires

Transcription:

Introduction à la théorie des sondages - Cours 2 Antoine Rebecq antoine.rebecq@insee.fr INSEE, direction de la méthodologie 17 mars 2015 1 / 95

Sommaire I 1 Correction du QCM 2 L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal 3 sur un domaine d un ratio 2 / 95

Sommaire II Échantillonnage dans le temps Conclusion sur le SAS 3 / 95

Chapitre 1 Correction du QCM 4 / 95

Rappel sur les π k π k = P(k S) = P(δ k = 1) = p(s) s k π kl = P(k, l S) = P(δ k δ l = 1) = p(s) s k,l (où δ k est l indicatrice d appartenance de k à S, appelée aussi variable de Cornfield) 5 / 95

Rappel sur les estimateurs pondérés Estimateur pondéré : ˆΦ = k s w k y k Estimateur pondéré de la moyenne : ˆΦ = 1 w k y k N k s 6 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Chapitre 2 7 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Plan de sondage sans remise - définition On note S l ensemble des parties de U. Le plan de sondage p est une loi de probabilité sur S tel que : s S, p(s) 0 p(s) = 1 s S 8 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Exemple Soit U = {1, 2, 3}. On a alors : S = {{1}, {2}, {3}, {1, 2}, {1, 3}, {2, 3}, {1, 2, 3}} On peut définir un plan de sondage p par : p({1}) = 0 p({1, 2}) = 1 2 p({1, 2, 3}) = 0 p({2}) = 0 p({1, 3}) = 1 3 p({3}) = 0 p({2, 3}) = 1 6 9 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Exemple d estimation Avec ce plan de sondage, on tente d estimer le revenu moyen à l aide de la moyenne dans l échantillon (estimation plugin). Le revenu dans la population est : Y 1 = 1000 Y 2 = 2000 Y 3 = 3000 On a donc : Ȳ = 2000 10 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Exemple d estimation Loi de l estimateur ˆΦ : ˆΦ 1 = ˆΦ 2 = ˆΦ 3 = 1000 + 2000 2 1000 + 3000 2 2000 + 3000 2 = 1500, probabilité 1 2 = 2000, probabilité 1 3 = 2500, probabilité 1 6 11 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Exemple d estimation L espérance de l estimateur est donc : E[ˆΦ] = 1 2 1500 + 1 3 2000 + 1 6 2500 1833 Ȳ = 2000 ˆΦ est donc biaisé (ce n est pas une surprise!) 12 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Espérance E(ˆΦ) = s p(s) ˆΦ(s) C est la valeur moyenne de ˆΦ obtenue avec le plan de sondage considéré sur tous les échantillons possibles. 13 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Partie 1 L estimateur de Horvitz-Thompson pour un total ou une moyenne 14 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Définition Définition L estimateur d Horvitz-Thompson (ou π-estimateur) est défini : y k π k pour un total : ˆT yπ = k s pour une moyenne : ˆȳ π = 1 N k s y k π k C est donc un estimateur pondéré utilisant les poids w k = 1 π k 15 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal sans biais Théorème Si k U, π k > 0, alors l estimateur d Horvitz-Thompson est sans biais pour le total et la moyenne. 16 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal sans biais Démonstration. E[ ˆT yπ ] = E = E = k U [ k s [ k U y k π k ] y k δ k π k y k E[δ k ] π k ] = k U y k = T (y) 17 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Exemple On reprend le plan de la slide 9. Le plan est de taille fixe 2 et : π 1 = 5 6 π 2 = 2 3 π 3 = 1 2 18 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Exemple La loi de l estimateur d Horvitz-Thompson Φ HT est donc : ˆ Φ HT 1 = 6 5 1000 + 3 2 2000 = 4200, probabilité 1 2 ˆ Φ HT 2 = 6 5 1000 + 2 3000 = 7200, probabilité 1 3 ˆ Φ HT 3 = 3 2 2000 + 2 3000 = 9000, probabilité 1 6 19 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Exemple d estimation L espérance de l estimateur est donc : Et : E[ ˆ Φ HT ] = 1 2 4200 + 1 3 7200 + 1 6 9000 = 6000 = Y E[ ˆȲ HT ] = 1 3 ˆ Φ HT = 2000 = Ȳ... ce qui permet de vérifier que ˆ Φ HT est sans biais. 20 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Variance de l estimateur de Horvitz-Thompson Propriété La variance de l estimateur de Horvitz-Thompson s écrit : Var[ˆT yπ ] = y k y l kl π k π l k U l U (où : kl = π kl π k π l ) 21 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Variance de l estimateur de Horvitz-Thompson Démonstration. Var(ˆt yπ ) = Var( k U = k U = k U = k,l U yk 2 πk 2 yk 2 πk 2 y k π k δ k ) Var(δ k ) + k U l U,l k π k (1 π k ) + k U y k π k y l π l kl y k π k y l π l Cov(δ k, δ l ) l U,l k y k π k y l π l (π kl π k π l ) 22 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Variance pour un plan de taille fixe Propriété Si le plan de sondage est de taille fixe (formule de Yates-Grundy) : Var(ˆt yπ ) = 1 2 k U l U,l k ( y k y l ) 2 kl π k π l 23 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Variance de l estimateur de Horvitz-Thompson Démonstration. Découle de la formule de Horwitz-Thompson quand le plan de sondage est de taille fixe. Pour démontrer la formule, il vaut mieux procéder à rebours : 1 2 = 1 2 = 1 2 = k U = k U k U l U,l k k U l U,l k ( y k y l ) 2 kl π k π l ( y k y l ) 2 (π k π l π kl ) π k π l ( y 2 k π 2 k U l U,l k k l U,l k y 2 k π 2 k + y l 2 πl 2 (π k π l π kl ) k U 2 y ky l π k π l )(π k π l π kl ) l U,l k yk 2 ( π l 1 yk 2 π kl ) π k π k π k l U,l k k U y k y l (1 π kl π k π l ) l U,l k y k y l (1 π kl π k π l ) 24 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Variance de l estimateur de Horvitz-Thompson Démonstration. Or, d après le cours 1, on a dans le cas taille fixe : k U π k = n et l U,l k π kl = π k (n 1), cela donne : 1 2 k U l U,l k ( y k y l ) 2 kl π k π l = yk 2 (n π k π k(n 1) ) π k π k k U k U = yk 2 π π 2 k (1 π k ) k U k k U l U,l k = y k y l kl π k π l k,l U l U,l k y k y l π k π l (π k π l π kl ) y k y l (1 π kl π k π l ) Et on retombe bien sur la formule d Horvitz-Thompson. 25 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal : calculer la variance de l estimateur d Horvitz-Thompson dans le cas de la slide 9, et vérifier les formules de Yates-Grundy et de Horvitz-Thompson dans ce cas. 26 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal de variance Les quantités précédentes sont les vraies variances. On peut utiliser les estimateurs suivants, qui sont sans biais dès lors que k, l, π kl > 0 : ˆ Var(ˆt yπ ) = k s yk 2 πk 2 Pour un plan de taille fixe : (1 π k ) k s Var(ˆt ˆ yπ ) = 1 2 k s l s,l k l s,l k y k y l π k π l π kl (π k π l π kl ) ( y k π k y l π l ) 2 π kπ l π kl π kl 27 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Construction d un intervalle de confiance On fait l hypothèse : ˆΦ(s) N (Φ, Var(Φ)) L intervalle de confiance à 95% est défini par : IC 95% = [ˆΦ 2σ(ˆΦ); ˆΦ + 2σ(ˆΦ)] L intervalle de confiance estimé est défini par : IC ˆ 95% = [ˆΦ 2ˆσ(ˆΦ); ˆΦ + 2ˆσ(ˆΦ)] 28 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Remarque Remarque : si le plan de sondage ne vérifie pas : k l U, π kl π k π l 0 (condition de Sen-Yates-Grundy), ces estimateurs de variance peuvent prendre des valeurs négatives. 29 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Partie 2 L estimateur de Hájek 30 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Définition L estimateur de Horvitz-Thompson de la moyenne nécessite la connaissance de N, la taille de la population. On peut utiliser dans ce cas l estimateur : ˆȳ H = k s k s y k π k 1 π k 31 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Propriété L estimateur de Hájek est biaisé, mais en général, le biais est négligeable. 32 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Estimateur de Hájek du total L estimateur de Hájek peut être utilisé pour estimer un total : y k ˆ T (Y ) H = N k s k s π k 1 π k... mais cela impose de connaître N. 33 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Partie 3 Recherche d un estimateur optimal 34 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Estimateur de Horvitz-Thompson L estimateur de Horvitz-Thompson constitue le fondement de l estimation par sondage (même si d autres estimateurs peuvent être utilisés, la logique de construction découle souvent de celle de Horvitz-Thompson, voir cours suivants) 35 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Estimateur de Horvitz-Thompson L estimateur de Horvitz-Thompson n est pas le seul estimateur sans biais. 36 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Recherche d optimalité Existe-t-il un estimateur optimal en sondages? Question centrale pour les théoriciens des sondages dans les années 1950 à 1970 : Godambe, Hanurav, Basu, etc. 37 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Recherche d optimalité Théorème (Godambe, 1955) Dans la classe des estimateurs sans biais, pour un plan sans remise avec n < N tel que k U, π k > 0, il n existe pas d estimateur optimal de ȳ 38 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Recherche d optimalité Démonstration. Si les k U, π k > 0, alors il existe toujours au moins un estimateur sans biais : l estimateur d Horvitz-Thompson. Mais on peut également définir : ˆȳ 2 = ˆȳ π + x ˆ x π, où x est un total supposé connu sur la population. ˆȳ 2 est la somme d estimateurs sans biais, il est donc également sans biais. De plus, si k, x k = y k, alors : EQM(ˆȳ 2) = EQM( x) = 0 Ainsi, un estimateur optimal doit avoir une variance inférieure ou égale à 0, ce qui n est possible que par recensement. 39 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Admissibilité Définition (Admissibilité) Pour un plan donné p, un estimateur ˆΦ est dit admissible si et seulement s il n existe pas d estimateur meilleur que ˆΦ pour toute valeur de y 40 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Admissibilité Découle sur des résultats assez pauvres : beaucoup d estimateurs sont admissibles (Horvitz-Thomspon, différence, etc.) 41 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Admissibilité Définition (Hyperadmissibilité) Un estimateur est dit hyperadmissible s il est admissible pour tout domaine non-vide de U 42 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal Admissibilité L estimateur d Horvitz-Thompson est le seul estimateur sans biais hyperadmissible. Mais ce résultat n est pas si intéressant en soi! (voir éléphants de Basu) 43 / 95

L estimateur de Horvitz-Thompson pour un total ou une moyenne L estimateur de Hájek Recherche d un estimateur optimal sans biais L estimation par un estimateur sans biais est un choix, qui peut parfois ne pas être judicieux. Lien intéressant à ce sujet : http://www.johndcook.com/blog/bias_consistency/ 44 / 95

Chapitre 3 45 / 95

Partie 1 46 / 95

Définition sans remise (SAS) de taille n : plan de sondage sans remise de taille fixe n tel que tous les échantillons de taille n ont la même probabilité d être tirés. Cette probabilité vaut : p(s) = 1 ( n N) si s = n = 0 sinon. On note le taux de sondage : f = n N 47 / 95

Probabilités d inclusion k U, π k = P(k s) = n N = f k l U, π k,l = P(k l s) = n(n 1) N(N 1) 48 / 95

Notations On note, dans la population : Total : T (Y ) = k U Y k Moyenne : Ȳ = 1 Y k N k U Variance : S 2 = 1 N 1 k U ( Yk Ȳ ) 2 49 / 95

Notations On note, dans l échantillon s : Total : nȳ = k s y k Moyenne : ȳ = 1 y k n k s Variance : s 2 = 1 (y k ȳ) 2 n 1 k s 50 / 95

Partie 2 51 / 95

Estimateur d Horvitz-Thompson L estimateur d Horvitz-Thompson pour le total et la moyenne s écrit : ˆ T (Y ) = k s ˆȲ = 1 N 1 y k = N π k n k s 1 π k y k = ȳ k s y k = Nȳ 52 / 95

Poids de sondage Les poids pour l estimation par Horvitz-Thompson sont : w k = 1 π k = N n On peut dire que l individu k représente w k = N n population U. individus de la Attention, w k n est pas un effectif (en particulier, w k n est pas forcément entier!) 53 / 95

Précision Théorème En utilisant la formule de Yates-Grundy, la vraie variance des estimateurs d Horvitz-Thompson s écrit : Var(ȳ) = (1 f ) S 2 n Var( T(Y)) ˆ = N 2 (1 f ) S 2 n 54 / 95

Précision Démonstration. Var[ˆȲ] = 1 N 2 Var[ T(Y)] ˆ = 1 2N 2 = 1 2N 2 = N n nn = N n nn S2 = (1 f ) S2 n k U l U,l k ( yk N n k U l U,l k 1 2N(N 1) ( yk y ) 2 l kl π k π l y ) l N 2 n(n n) n N 2 (N 1) k U l U,l k (y k y l ) 2 55 / 95

de la précision Théorème La variance empirique (ou dispersion) dans l échantillon s 2 = 1 (y k ȳ) 2 est un estimateur sans biais de n 1 k s S 2 = 1 ( Yk Ȳ ) 2 N 1 k U 56 / 95

= S 2 57 / 95 Correction du QCM de la précision Démonstration. E[s 2 ] = E 1 (y k ȳ) 2 n 1 k s = E 1 (y k y l ) 2 2n(n 1) k s l s,l k 1 = (y k y l ) 2 E(δ k δ l ) 2n(n 1) k U l U,l k 1 2 n(n 1) = (y k y l ) 2n(n 1) N(N 1) k U l U,l k 1 = (y k y l ) 2 2N(N 1) k U l U,l k

de la précision On peut estimer sans biais la variance de l estimateur d Horvitz-Thompson par : Var(ȳ) ˆ = (1 f ) s2 n Var( ˆ T (Y ˆ )) = N 2 (1 f ) s2 n 58 / 95

Partie 3 59 / 95

On cherche à estimer P la proportion d individus portant une caractéristique dans la population U. p, la proportion dans s d individus portant la caractéristique, est un estimateur sans biais de P. 60 / 95

Variance N P(1 P) Var(p) = (1 f ) N 1 n Var(p) ˆ p(1 p) = (1 f ) n 1 61 / 95

Précision Demi-longueur de l intervalle de confiance : L = 2 Coefficient de variation estimé : ˆ CV (p) = p(1 p) n 1 Var(p) ˆ p 1 = (1 f ) n 1 1 p p 62 / 95

Taille pour une précision absolue donnée On fixe L ( précision absolue ). Si f 0, on a : n 4p(1 p) L 2 Cas général (f pas forcément petit, et niveau de confiance z, quantile d ordre 1 α 2 de la loi N (0, 1)) : n = 1 + n 0 1 + n 0 N avec : n 0 = z2 p(1 p) L 2 63 / 95

Taille pour une précision relative donnée On se fixe une précision relative δ, définie par le rapport de la demi-longueur de l intervalle de confiance à l estimation : δ = 2ˆσ p 64 / 95

Taille pour une précision relative donnée De manière équivalente, on peut fixer le coefficient de variation : Si f 0 : CV ˆ (p) = δ 2 = (1 f ) 1 p p(n 1) n 1 p p( CV ˆ (p)) 2 65 / 95

Taille pour une précision relative donnée Taille de l échantillon pour une précision relative de ±δ% selon la valeur de la proportion recherchée : 0,05 0,10 0,20 0,30 0,40 0,50 1 % 760000 360000 160000 93333 60000 40000 2 % 190000 90000 40000 23333 15000 10000 3 % 84444 40000 17778 10370 6667 4444 4 % 47500 22500 10000 5833 3750 2500 5 % 30400 14400 6400 3733 2400 1600 10 % 7600 3600 1600 933 600 400 66 / 95

: surface cultivée Exemple d application : la législation sur la méthode des quotas, en France. http://www.commission-des-sondages.fr/oblig/ instituts.htm http://www.ipsos.fr/faq http://www.20minutes.fr/politique/ 1567767-20150320-elections-departementales-ump-udi-30-67 / 95

Partie 4 68 / 95

: surface cultivée On veut estimer la surface moyenne cultivée dans les fermes d un canton rural. Sur N = 2010 fermes que comprend ce canton, on en tire 100 par sondage aléatoire simple. On mesure y k la surface cultivée dans la ferme k (en hectares), et on trouve : y k = 2907 ha k s k s y 2 k = 154593 ha2 1 Donner un estimateur sans biais pour la moyenne 2 Donner un intervalle de confiance à 95% pour cet estimateur 69 / 95

Partie 5 70 / 95

Paragraphe 1 sur un domaine 71 / 95

Notations U d U = sous-population d intérêt N d = taille de U d (connue ou inconnue) P d = N d N = taille relative de U d Q d = 1 P d s d = s U d n d = taille de s d p d = n d n = taille relative de s d q d = 1 p d 72 / 95

de la taille d un domaine On définit sur U la variable Z indicatrice d appartenance au domaine : Z k = 1 si k U d Z k = 0 sinon 73 / 95

de la taille d un domaine Alors : T (Z) = k U Z k = N d Z = N d N = P d z = 1 z k = p d n k s S 2 = N N 1 P dq d s 2 = n n 1 p dq d 74 / 95

de la taille d un domaine Théorème Nˆ d = N p d = N nd n est un estimateur sans biais de N d Pˆ d = p d est un estimateur sans biais de P d 75 / 95

de la taille d un domaine Démonstration. Toutes ces quantités s écrivent sous la forme d un total (via Z) et correspondent à l estimateur d Horvitz-Thompson, qui est sans biais. 76 / 95

de la taille d un domaine On a aussi : Var( ˆN d ) = N 2 N P d Q d (1 f ) N 1 n Var( ˆP N d ) = Var(p d ) = (1 f) N 1 P d Q d n Var( ˆ Nˆ d ) = N 2 (1 f ) p dq d n 1 Var( ˆ Pˆ d ) = Var(p ˆ d ) = (1 f ) p dq d n 1 77 / 95

d un total sur un domaine On veut estimer le total T Ud (Y ) d une variable Y sur le domaine U d. On définit sur U la variable Y d par : Y d k Y d k = Y k si k U d = 0 sinon Alors le total à estimer s écrit : T (Y d ) = k U Y d k = k U d Y k = T Ud (Y ) 78 / 95

d un total sur un domaine Un estimateur sans biais de T Ud (Y ) est : ˆT Ud (Y ) = n d n Nȳ d où : ȳ d = 1 n d k s d y k 79 / 95

d un total sur un domaine Et pour ce qui est de la précision : Var(ˆT Ud (Y)) = N 2 (1 f ) S 2 Y d n avec S 2 Y = 1 d N 1 Var( ˆ ˆT Ud (Y )) = N 2 (1 f ) s2 Y d n avec s2 Y = 1 d n 1 avec : Y d = moyenne de Y d sur U y d = moyenne de Y d sur s k U k s (Y d k Y d ) 2 (y d k y d ) 2 80 / 95

d un total sur un domaine Remarque sur la précision : Si on pose : alors on a : Ȳ d = 1 Y k = moyenne de Y sur U d N d k U d S d 2 = 1 (Y k N d 1 Ȳd) 2 = dispersion de Y sur U d k U d Var(ˆT Ud (Y)) N 2 d ( 1 E(n d ) 1 N d ) [ 1 1 ] N d 1 1 S 2 d + N N d N 1 Ȳd 2 N C est donc la taille (attendue) de l échantillon dans le domaine qui est déterminante et non n. 81 / 95

Estimateur alternatif pour le total Si on connaît la taille du domaine N d, un autre estimateur naturel de T Ud (Y ) est : ˆT alt U d (Y ) = N d ȳ d C est-à-dire que l on remplace un estimateur sans biais de N d : Nˆ d = n d n N par N d. En général, ˆT alt U d (Y ) est préférable à ˆT Ud (Y ). 82 / 95

de la moyenne sur un domaine On veut estimer : Y d = T U d (Y ) N d. On peut utiliser : Y ˆ d = ˆT Ud (Y ) Y ˆ d alt = N d si on connaît N d ˆT U alt d (Y ) = y d que l on connaisse N d ou non! N d Ce dernier estimateur est assez intuitif (plugin!), et est en général meilleur que le premier. 83 / 95

Paragraphe 2 d un ratio 84 / 95

d un ratio On cherche à estimer le rapport des totaux (ou des moyennes) de deux variables X et Y : R = T (X ) T (Y ) = X Ȳ Attention! L estimateur d Horvitz-Thompson est sans biais quand on estime un total ou une moyenne. 85 / 95

d un ratio On peut utiliser l estimateur : Son biais s écrit : ˆR = T (X ˆ ) ˆ X T (Y ˆ ) = ˆȲ = x ȳ B( ˆR) 1 X 2 (1 f )S XY RSX 2 n où : S XY = 1 (y k ȳ)(x k x) N 1 k U 86 / 95

Précision de l estimateur du ratio Son écart quadratique moyen et l EQM estimé s écrivent : EQM( ˆR) = 1 f n X 2 (S 2 Y + R2 S 2 X 2RS XY ) EQM( ˆ ˆR) = 1 f n x 2 (s2 Y + ˆR 2 sx 2 2 ˆRs XY ) 87 / 95

Paragraphe 3 Échantillonnage dans le temps 88 / 95

Problème On veut estimer l évolution de la moyenne d une variable Y entre deux dates 1 et 2 : Y = Ȳ 1 Ȳ 2 89 / 95

Méthode 1 Méthode 1 : On tire deux échantillons indépendants aux dates 1 et 2, selon un sondage aléatoire simple. On a alors : Y ˆ = ȳ 2 ȳ 1 un estimateur sans biais de Y, de variance : Var( ˆ Y) = Var(ȳ 1 ) + Var(ȳ 2 ) 90 / 95

Méthode 2 : panel Méthode 2 : On utilise un panel, c est-à-dire que l on tire un échantillon en date 1, et on le réinterroge à la date 2. On a alors : Y ˆ = ȳ 2 ȳ 1 un estimateur sans biais de Y, de variance : Var( ˆ Y) = Var(ȳ 1 ) + Var(ȳ 2 ) 2Cov(ȳ 1, ȳ 2 ) où : Cov(ȳ 1, ȳ 2 ) = (1 f ) S 12 n et : S 12 = 1 (Y 1k N 1 Ȳ1)(Y 2k Ȳ2) k U 91 / 95

Méthode 2 : panel Dans les bons cas, on a : S 12 > 0, d où : Var( ˆ Y) < Var(ȳ 1 ) + Var(ȳ 2 ) 92 / 95

Exemple : enquête emploi à l INSEE Année Trimestre Sous-échantillons T1 6 5 4 3 2 1 n T2 7 6 5 4 3 2 T3 8 7 6 5 4 3 T4 9 8 7 6 5 4 T1 10 9 8 7 6 5 n+1 T2 11 10 9 8 7 6 T3 12 11 10 9 8 7 T4 13 12 11 10 9 8 93 / 95

Paragraphe 4 Conclusion sur le SAS 94 / 95

Conclusion sur le SAS Les estimateurs ont une forme simple Ne nécesssite aucune information sur les individus de la base de sondage Est essentiel pour comprendre les plans de sondage plus complexes Peut permettre d approximer les plans de sondage plus complexes 95 / 95