Stratification a posteriori

Documents pareils
Théorie des sondages : cours 5

Leçon N 4 : Statistiques à deux variables

Chapitre 3. Les distributions à deux variables

PRIME D UNE OPTION D ACHAT OU DE VENTE

STA108 Enquêtes et sondages. Sondages àplusieurs degrés et par grappes

CONCEPTION ET TIRAGE DE L ÉCHANTILLON

Chapitre 3 : INFERENCE

Les Français et le chauffage. Résultats de l étude menée

Cours (7) de statistiques à distance, élaboré par Zarrouk Fayçal, ISSEP Ksar-Said, LES STATISTIQUES INFERENTIELLES

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Suites numériques 4. 1 Autres recettes pour calculer les limites

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

NOTIONS DE PROBABILITÉS

La nouvelle planification de l échantillonnage

Tests de comparaison de moyennes. Dr Sahar BAYAT MASTER 1 année UE «Introduction à la biostatistique»

Introduction à l approche bootstrap

Exemple 4.4. Continuons l exemple précédent. Maintenant on travaille sur les quaternions et on a alors les décompositions

VI. Tests non paramétriques sur un échantillon

INF6304 Interfaces Intelligentes

Chapitre 3 : Principe des tests statistiques d hypothèse. José LABARERE

MODÈLE CROP DE CALIBRATION DES PANELS WEB

Résolution d équations non linéaires

Analyse de la variance Comparaison de plusieurs moyennes

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

La représentativité d un échantillon et son test par le Khi-deux Testing the representativeness of a sample

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Probabilités sur un univers fini

Calcul élémentaire des probabilités

CAPTEURS - CHAINES DE MESURES

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Limites finies en un point

III- Raisonnement par récurrence

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

PLAN STATISTIQUE AUTOMOBILE DU QUÉBEC Définitions

Bulletin de service Bureaux d agents, de courtiers en immeubles et d évaluateurs de biens immobiliersetdes autres activités liées à l immobilier

Enquête auprès du grand public sur le projet de réforme du système ferroviaire Vague 2 Juin 2014

1. Les comptes de dépôt et d épargne

Introduction. Préambule. Le contexte

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Encryptions, compression et partitionnement des données

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

FOTO - L OMNIBUS MENSUEL DE CROP LE NOUVEAU CROP-EXPRESS

Car Insurance Survey. L assurance automobile RC chez les jeunes. Statistics Belgium. Rapport final

Fonctions de plusieurs variables

Probabilités sur un univers fini

Examen Médian - 1 heure 30

Exercice : la frontière des portefeuilles optimaux sans actif certain

Introduction à l économétrie : Spécifications, formes fonctionnelles, hétéroscédasticité et variables instrumentales

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

La fumée de tabac secondaire (FTS) en Mauricie et au Centre-du- Québec, indicateurs du plan commun tirés de l ESCC de

Suites numériques 3. 1 Convergence et limite d une suite

Le Statut Auto-Entrepreneur

Cours 9 : Plans à plusieurs facteurs

Valeur verte des logements d après les bases Notariales BIEN et PERVAL Synthèse

Les intentions de vote pour les élections régionales en Midi-Pyrénées- Languedoc-Roussillon

Santé environnement. Description du budget espace-temps et estimation de l exposition de la population française dans son logement

Cours 1. Bases physiques de l électronique

Investissement dans la construction de nouveaux bâtiments résidentiels (travaux mis en place) Méthodologie

Évaluation de la régression bornée

Hedging delta et gamma neutre d un option digitale

Sommaire La méthodologie Les résultats de l'étude... 4

Crédit à la consommation, un bon outil pour la rentrée?

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

La classification automatique de données quantitatives

Les incitations fiscales aux dons sont-elles efficaces?

Critère du choix des variables auxiliaires à utiliser dans l'estimateur par calage

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Continuité en un point

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

SudoClick Reconnaissance de grilles de sudoku pour téléphones portables

Évaluations aléatoires : Comment tirer au sort?

L exclusion mutuelle distribuée

Rapport 2, Juin 2015

Les Français et les nuisances sonores. Ifop pour Ministère de l Ecologie, du Développement Durable et de l Energie

Comment les Français gèrent l eau dans leurs foyers?

Baromètre des professions Février 2015

Modèles et Méthodes de Réservation

TESTS D HYPOTHÈSE FONDÉS SUR LE χ².

Annexe commune aux séries ES, L et S : boîtes et quantiles

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Analyse des correspondances avec colonne de référence

L ALGORITHMIQUE. Algorithme

Coup de Projecteur sur les Réseaux de Neurones

Le modèle de Black et Scholes

Rédiger et administrer un questionnaire

Module 16 : Les fonctions de recherche et de référence

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #16

CALCUL D UN SCORE ( SCORING) Application de techniques de discrimination LES OBJECTIFS DU SCORING

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Chapitre 2 Introduction aux objectifs des coûts. Pr. Zoubida SAMLAL-Doctorante en Risk Management MBA, CFA

Le montant des garanties constituées aux fins du STPGV est-il excessif?

TURBOS Votre effet de levier sur mesure

LISTE D EXERCICES 2 (à la maison)

Les imperfections de concurrence dans l industrie bancaire : spécificités et conséquences

Exploitation et analyse des données appliquées aux techniques d enquête par sondage. Introduction.

Lignes directrices de 2004 pour des sondages sur la satisfaction des demandeurs dans le cadre de l assurance-automobile

Plateforme d observation sociale et médico-sociale

Chapitre 2 Le problème de l unicité des solutions

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Transcription:

1 1 IRMA, Université de Strasbourg Strasbourg, France Master 2ème Année 19-10-2011

Ce chapitre s appuie essentiellement sur le livre : «Méthodes statistiques des sondages», Jean-Marie Grosbras, Economica.

Sommaire 1 Définition 2 3 4 5 6

Définition La stratification a posteriori est une méthode de redressement d échantillon sur une variable qualitative.

Sommaire 1 Définition 2 3 4 5 6

Un échantillon de 1 000 personnes interrogées sur la question «Allez-vous au cinéma au moins une fois par mois?» Nous avons croisé cette question avec une autre question «Avez-vous une télévision?»

Voici la répartition des réponses obtenues Cinéma oui non total Télé oui 20 680 700 non 80 220 300 total 100 900 1 000 100 personnes répondent «oui» à la première question, ce qui nous permet d estimer le pourcentage à 10%. Le calcul que nous avons fait s écrit de la façon suivante π = 20 700 700 1 000 + 80 300 300 = 0, 10. 1 000

Remarque Dans l échantillon, il y a une sous représentation des possesseurs de télévisions. Comment le savons-nous? Par d autres sources qui nous indiquent qu il y a 80% de gens qui possèdent une télévision. Conséquence L estimation du pourcentage ne se calcule plus de la même façon! Rectifions le calcul π = 20 700 800 1 000 + 80 300 200 = 0, 076 1 000 ou encore π est égal à 7, 6%. Que faut-il en conclure?

Sommaire 1 Définition 2 3 4 5 6

Nous étudions un caractère X sur une population. Nous connaissons un autre caractère Y sur cette même population et surtout sa distribution. L échantillon n est pas stratifié a priori sur Y mais pour chacune des unités échantillonnées on relève le couple (x i ; y i ). Nous définissons, à posteriori, des strates selon les valeurs de Y. Nous repondérons les données par les poids véritables des strates définies sur Y.

Si ce critère Y est corrélé avec X, c est-à-dire si la variabilité de X s explique en partie par des différences entre les classes de Y, le calage de l échantillon lui donne alors une représentativité plus fidèle et conduit à des résultats plus fiables. C est pourquoi les questionnaires comportent souvent en plus des questions qui abordent le thème de l étude, des éléments de description de l unité interrogée comme par exemple, le nombre de personnes du ménage, le nombre d enfants, la CSP des adultes, les caractéristiques du logement... Ces éléments permettent de juger de la qualité de l échantillon et de suggérer des calages éventuels.

Sommaire Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total 1 Définition 2 3 4 5 6

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Définition L estimateur d une moyenne µ de la population U est défini par µ post = N h N µ h, où N h représente l effectif des strates a posteriori et µ h = 1 n h X hi. n h i=1

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Remarque C est la même formule que la moyenne µ st d un échantillon stratifié a priori. Mais c est seulement une apparence! En effet Dans le calcul de µ st, les µ h sont fondés sur des tailles n h fixées à l avance. Dans le calcul de µ post, les µ h sont fondés sur des tailles n h qui ne sont pas fixées à l avance, mais qui sont des résultats constatés sur l échantillon. Donc les tailles n h sont des quantités aléatoires.

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Comment faire dans les calculs si les n h sont aléatoires? La démarche se fait en deux étapes. Nous fixons d abord les n h. Puis nous introduisons l aléatoire sur les n h. C est cette démarche qui va nous permettre de calculer l espérance de µ post pour savoir si µ post est un estimateur biaisé ou pas.

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Calcul de l espérance de µ post Nous avons par conditionnement D autre part, nous avons E [ µ post ] = E [E [ µ post n h ]]. E [ µ post n h ] = = = µ. N h N E [ µ h n h ] N h N µ h

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total D où, nous en concluons que E [ µ post ] = E [E [ µ post n h ]] = E [µ] d après ce que l on vient d établir = µ. Propriété Nous montrons, par calcul, que µ post est un estimateur sans biais d une moyenne µ de la population U.

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Définition L estimateur d un total T d une population U est défini par T post = N h µ h, où N h représente l effectif des strates a posteriori et µ h = 1 n h x hi. n h i=1

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Propriété Nous montrons, par calcul comme précedemment, que T post est un estimateur sans biais d un total T d une population U, i.e. [ ] ] E [ Tpost = E N h µ h = T.

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Calcul de la variance de µ post Nous procédons de la même manière que nous avons calculé l espérance de cet estimateur, c est à dire en conditionnant par n h. Par conséquent, nous obtenons Var [ µ post ] = Var [E [ µ post n h ]] + E [Var [ µ post n h ]]. Or nous avons montré précedemment que Par conséquent, nous avons E [ µ post n h ] = µ. Var [E [ µ post n h ]] = Var [µ] = 0.

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Reste plus qu à calculer le second membre de l équation de la variance. Var [ µ post n h ] = = = N 2 h N 2 Var [ µ h n h ] N 2 h N h n h N 2 N h n h S 2 h,c N 2 h N 2 1 n h S 2 h,c 1 N N h N S2 h,c.

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Par conséquent, nous avons E[Var[ µ post n h ]] = E = [ Il ne reste plus qu à calculer [ 1 E N 2 h N 2 1 n h S 2 h,c 1 N Nh 2 [ 1 N 2 S2 h,c E n h ]. n h ] 1 N N h N S2 h,c ] N h N S2 h,c.

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Posons Remarquons que De plus, nous avons π h = N h N et π h = n h n. E[ π h ] = π h. n h = n n h n = n π h = n( π h π h + π h ) ( = nπ h 1 + π ) h π h. π h

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Par conséquent nous en tirons que Comme π h π h π h 1 = 1 n h nπ h 1 1 + π. h π h π h tend vers 0, nous pouvons faire un développement limité sur l égalité ci-dessus et nous obtenons que : ( ( )) 1 = 1 1 π h π h + ( π h π h ) 2 ( π h π h ) 2 n h nπ h π h πh 2 + o P πh 2.

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total [ ] 1 E n h [( = 1 E 1 π h π h + ( π h π h ) 2 nπ h π h πh 2 ( ) )] ( π h π h ) 2 +o P π 2 h ( = 1 1 0 nπ h [ ( )]) ( π h π h ) 2 ( π h π h ) 2 +E + o P. π 2 h π 2 h

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Calculons maintenant [ ( )] ( π h π h ) 2 ( π h π h ) 2 E + o P. π 2 h En remarquant que E[( π h π h ) 2 ] est égale à la variance de l estimateur π h et que l on est dans un cas de tirage à PESR, nous obtenons que E [ ( π h π h ) 2 π 2 h ( )] ( π h π h ) 2 + o P π 2 h π 2 h N n π h (1 π h ) 1 N 1 n πh 2.

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Finalement, nous avons [ ] 1 E n h 1 nπ h ( 1 + N n Nn ) (1 π h ). π h

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total D où, nous en déduisons que Var [ µ post ] π 2 h S2 h,c 1 N ( ) 1 + N n (1 π h ) nπ h Nn 2 πh 2 π h Sh,c 2.

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total En développant et en réorganisant les termes, nous obtenons Var [ µ post ] 1 n + 1 n π h Sh,c 2 1 N N n Nn N n Nn π h Sh,c 2 (1 π h )Sh,c 2 π h Sh,c 2 + 1 n N n Nn (1 π h )Sh,c 2.

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Finalement, nous obtenons que Var [ µ post ] (1 f ) n variance de x post N h N S2 h,c + (1 f ) n 2 N N h N S2 h,c + le prix à payer pour n avoir pas tenu compte de la stratification dès le départ. Remarque Cette dernière quantité tend vers 0 lorsque n devient grand.

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Propriété Nous montrons, par des calculs analogues à ceux développés pour l estimateur de la moyenne, que [ ] Var Tpost N ( (1 f ) n + (1 f ) n 2 N h Sh,c 2 ) (N N h )Sh,c 2.

Sommaire 1 Définition 2 3 4 5 6

Nous rappelons que Var[ µ] = (1 f ) n (1 f ) n S 2 c ( N h N S2 h,c + N h N ( X h µ ) ) 2 et Var [ µ post ] (1 f ) n ( N h N S2 h,c + 1 n N N h N S2 h,c ).

D où, nous en déduisons que n (1 f ) (Var [ µ] Var [ µ post]) N h N ( X h µ ) 2 1 n N N h N S2 h,c. La stratification a posteriori se justifie lorsque cette quantité est largement positive.

Remarques 1. La variable étudiée doit-être corrélée avec le critère de stratification, c est-à-dire avoir une valeur élevée du rapport de corrélation inter-strate. 2. n doit être assez grand, puisque on se sert de 1/n 0 lorsque n +. Donc c est inutile de repondérer les petits échantillons. 3. (N N h )/N doit être très petit, puisque on se sert de cette hypothèse pour faire un développement limité. Il faut donc que N h /N doit être grand. Par conséquent, c est inutile d avoir beaucoup de petites strates.

Sommaire Le problème La méthode RAS La méthode ASAM 1 Définition 2 3 4 5 6

Le problème La méthode RAS La méthode ASAM Retour à l exemple «Cinéma et Télévision» Nous avons le tableau suivant : B 1 B 2 total A 1 20 680 700 A 2 80 220 300 total 100 900 1 000 En réalité, la marge sur A est (800, 200).

Le problème La méthode RAS La méthode ASAM Comme nous l avons montré au début de ce chapitre, la moyenne calée sur A se calcule par 1 800 y i + 200 y i. 1 000 700 300 i A 1 i A 2 Les observations de A 1 sont redressées par 800/700 et celles de A 2 par 200/300. Imaginons que l échantillon soit déformé par rapport à B. Nous savons par d autres sources, que la marge de B est en réalité (80, 920).

Le problème La méthode RAS La méthode ASAM Problème Nous voulons caler l échantillon sur les deux critères simultanément. Solution idéale Connaître les effectifs théoriques croisés mais en réalité on ne dispose que des marges.

Le problème La méthode RAS La méthode ASAM Problème Estimer les coefficients de redressement par case, respectant les conditions à la marge. Quatre Solutions La méthode RAS La méthode ASAM L ajustement par l analyse des données La méthode de Lemel (1976) Nous ne développerons pas les deux dernières méthodes, mais nous renvoyons au livre de Jean-Marie Grosbras pour de plus amples renseignements sur ces deux méthodes.

Le problème La méthode RAS La méthode ASAM La méthode RAS : Le principe Le tableau à ajuster est A = (a ij ). Le total de ligne est a i., le total théorique est r i. Le total de ligne est a.j, le total théorique est s j. On commence par ajuster les totaux en ligne : a ij a ij = a ij (r i /a i. ). Puis on ajuste les totaux en colonne : a ij a ij = a ij (s j /a.j ). En ajustant les totaux en colonne, on a détruit l ajustement des totaux en ligne. On recommence... On itère le processus jusqu à convergence.

Le problème La méthode RAS La méthode ASAM Avec les données de l exemple «Cinéma-Télévision», nous avons 15 20 45 12 100 A = 45 67 23 12 67 23 91 15 r = 150 150 77 33 91 35 200 s = [170 150 190 90]

Le problème La méthode RAS La méthode ASAM La méthode RAS donne 16 24 42 18 100 41 73 20 16 150 51 21 62 16 150 62 32 66 40 200 170 150 190 90 600

Le problème La méthode RAS La méthode ASAM Ajustement Statistique et Algébrique d une Matrice (ASAM) Cette méthode est plus générale et englobe comme cas particulier la méthode RAS. Idée Si l échantillon n est pas trop mauvais, la structure croisée observée doit avoir des similitudes avec la «vraie» structure. On a un tableau (a ij ) tel que T = i j a ij. On chercher un tableau (x ij ), proche de (a ij ) tel que x ij = r i, j x ij = s j, i xij = T.

Le problème La méthode RAS La méthode ASAM La méthode ASAM consiste en la résolution du programme suivant 1 min (x ij a ij ) 2 x ij ρ ij avec x ij = r i, j i j x ij = s j, i x ij = T. Les ρ ij sont à choisir si nous voulons moduler l importance de chaque case. i j

Le problème La méthode RAS La méthode ASAM Remarques La méthode ASAM est une méthode des moindres carrés pondérés et contraints. Il existe des programmes traitant ce genre de problème. Le choix optimal pour les ρ ij est de les prendre proportionnels aux variances des a ij, considérés comme des variables aléatoires ρ ij = cvar[a ij ].

Le problème La méthode RAS La méthode ASAM Suite des remarques Nous prenons dons les ρ ij représentatifs de ce que nous pouvons connaître des variances des effectifs a ij. La méthode RAS est un cas particulier de la méthode ASAM dans le cas où les a ij sont proportionnels à leur variance. La méthode ASAM est plus satisfaisante puisqu elle recherche une similitude de structure. Elle est évidemment plus coûteuse.