Stratification a posteriori

1 1 IRMA, Université de Strasbourg Strasbourg, France Master 2ème Année 19-10-2011

Ce chapitre s appuie essentiellement sur le livre : «Méthodes statistiques des sondages», Jean-Marie Grosbras, Economica.

Sommaire 1 Définition 2 3 4 5 6

Définition La stratification a posteriori est une méthode de redressement d échantillon sur une variable qualitative.

Un échantillon de 1 000 personnes interrogées sur la question «Allez-vous au cinéma au moins une fois par mois?» Nous avons croisé cette question avec une autre question «Avez-vous une télévision?»

Voici la répartition des réponses obtenues Cinéma oui non total Télé oui 20 680 700 non 80 220 300 total 100 900 1 000 100 personnes répondent «oui» à la première question, ce qui nous permet d estimer le pourcentage à 10%. Le calcul que nous avons fait s écrit de la façon suivante π = 20 700 700 1 000 + 80 300 300 = 0, 10. 1 000

Remarque Dans l échantillon, il y a une sous représentation des possesseurs de télévisions. Comment le savons-nous? Par d autres sources qui nous indiquent qu il y a 80% de gens qui possèdent une télévision. Conséquence L estimation du pourcentage ne se calcule plus de la même façon! Rectifions le calcul π = 20 700 800 1 000 + 80 300 200 = 0, 076 1 000 ou encore π est égal à 7, 6%. Que faut-il en conclure?

Nous étudions un caractère X sur une population. Nous connaissons un autre caractère Y sur cette même population et surtout sa distribution. L échantillon n est pas stratifié a priori sur Y mais pour chacune des unités échantillonnées on relève le couple (x i ; y i ). Nous définissons, à posteriori, des strates selon les valeurs de Y. Nous repondérons les données par les poids véritables des strates définies sur Y.

Si ce critère Y est corrélé avec X, c est-à-dire si la variabilité de X s explique en partie par des différences entre les classes de Y, le calage de l échantillon lui donne alors une représentativité plus fidèle et conduit à des résultats plus fiables. C est pourquoi les questionnaires comportent souvent en plus des questions qui abordent le thème de l étude, des éléments de description de l unité interrogée comme par exemple, le nombre de personnes du ménage, le nombre d enfants, la CSP des adultes, les caractéristiques du logement... Ces éléments permettent de juger de la qualité de l échantillon et de suggérer des calages éventuels.

Sommaire Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total 1 Définition 2 3 4 5 6

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Définition L estimateur d une moyenne µ de la population U est défini par µ post = N h N µ h, où N h représente l effectif des strates a posteriori et µ h = 1 n h X hi. n h i=1

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Remarque C est la même formule que la moyenne µ st d un échantillon stratifié a priori. Mais c est seulement une apparence! En effet Dans le calcul de µ st, les µ h sont fondés sur des tailles n h fixées à l avance. Dans le calcul de µ post, les µ h sont fondés sur des tailles n h qui ne sont pas fixées à l avance, mais qui sont des résultats constatés sur l échantillon. Donc les tailles n h sont des quantités aléatoires.

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Comment faire dans les calculs si les n h sont aléatoires? La démarche se fait en deux étapes. Nous fixons d abord les n h. Puis nous introduisons l aléatoire sur les n h. C est cette démarche qui va nous permettre de calculer l espérance de µ post pour savoir si µ post est un estimateur biaisé ou pas.

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Calcul de l espérance de µ post Nous avons par conditionnement D autre part, nous avons E [ µ post ] = E [E [ µ post n h ]]. E [ µ post n h ] = = = µ. N h N E [ µ h n h ] N h N µ h

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total D où, nous en concluons que E [ µ post ] = E [E [ µ post n h ]] = E [µ] d après ce que l on vient d établir = µ. Propriété Nous montrons, par calcul, que µ post est un estimateur sans biais d une moyenne µ de la population U.

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Définition L estimateur d un total T d une population U est défini par T post = N h µ h, où N h représente l effectif des strates a posteriori et µ h = 1 n h x hi. n h i=1

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Propriété Nous montrons, par calcul comme précedemment, que T post est un estimateur sans biais d un total T d une population U, i.e. [ ] ] E [ Tpost = E N h µ h = T.

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Calcul de la variance de µ post Nous procédons de la même manière que nous avons calculé l espérance de cet estimateur, c est à dire en conditionnant par n h. Par conséquent, nous obtenons Var [ µ post ] = Var [E [ µ post n h ]] + E [Var [ µ post n h ]]. Or nous avons montré précedemment que Par conséquent, nous avons E [ µ post n h ] = µ. Var [E [ µ post n h ]] = Var [µ] = 0.

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Reste plus qu à calculer le second membre de l équation de la variance. Var [ µ post n h ] = = = N 2 h N 2 Var [ µ h n h ] N 2 h N h n h N 2 N h n h S 2 h,c N 2 h N 2 1 n h S 2 h,c 1 N N h N S2 h,c.

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Par conséquent, nous avons E[Var[ µ post n h ]] = E = [ Il ne reste plus qu à calculer [ 1 E N 2 h N 2 1 n h S 2 h,c 1 N Nh 2 [ 1 N 2 S2 h,c E n h ]. n h ] 1 N N h N S2 h,c ] N h N S2 h,c.

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Posons Remarquons que De plus, nous avons π h = N h N et π h = n h n. E[ π h ] = π h. n h = n n h n = n π h = n( π h π h + π h ) ( = nπ h 1 + π ) h π h. π h

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Par conséquent nous en tirons que Comme π h π h π h 1 = 1 n h nπ h 1 1 + π. h π h π h tend vers 0, nous pouvons faire un développement limité sur l égalité ci-dessus et nous obtenons que : ( ( )) 1 = 1 1 π h π h + ( π h π h ) 2 ( π h π h ) 2 n h nπ h π h πh 2 + o P πh 2.

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total [ ] 1 E n h [( = 1 E 1 π h π h + ( π h π h ) 2 nπ h π h πh 2 ( ) )] ( π h π h ) 2 +o P π 2 h ( = 1 1 0 nπ h [ ( )]) ( π h π h ) 2 ( π h π h ) 2 +E + o P. π 2 h π 2 h

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Calculons maintenant [ ( )] ( π h π h ) 2 ( π h π h ) 2 E + o P. π 2 h En remarquant que E[( π h π h ) 2 ] est égale à la variance de l estimateur π h et que l on est dans un cas de tirage à PESR, nous obtenons que E [ ( π h π h ) 2 π 2 h ( )] ( π h π h ) 2 + o P π 2 h π 2 h N n π h (1 π h ) 1 N 1 n πh 2.

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Finalement, nous avons [ ] 1 E n h 1 nπ h ( 1 + N n Nn ) (1 π h ). π h

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total D où, nous en déduisons que Var [ µ post ] π 2 h S2 h,c 1 N ( ) 1 + N n (1 π h ) nπ h Nn 2 πh 2 π h Sh,c 2.

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total En développant et en réorganisant les termes, nous obtenons Var [ µ post ] 1 n + 1 n π h Sh,c 2 1 N N n Nn N n Nn π h Sh,c 2 (1 π h )Sh,c 2 π h Sh,c 2 + 1 n N n Nn (1 π h )Sh,c 2.

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Finalement, nous obtenons que Var [ µ post ] (1 f ) n variance de x post N h N S2 h,c + (1 f ) n 2 N N h N S2 h,c + le prix à payer pour n avoir pas tenu compte de la stratification dès le départ. Remarque Cette dernière quantité tend vers 0 lorsque n devient grand.

Estimation d une moyenne par stratification a posteriori Estimation d un total par stratification a posteriori Variance de l estimateur de la moyenne Variance de l estimateur du total Propriété Nous montrons, par des calculs analogues à ceux développés pour l estimateur de la moyenne, que [ ] Var Tpost N ( (1 f ) n + (1 f ) n 2 N h Sh,c 2 ) (N N h )Sh,c 2.

Nous rappelons que Var[ µ] = (1 f ) n (1 f ) n S 2 c ( N h N S2 h,c + N h N ( X h µ ) ) 2 et Var [ µ post ] (1 f ) n ( N h N S2 h,c + 1 n N N h N S2 h,c ).

D où, nous en déduisons que n (1 f ) (Var [ µ] Var [ µ post]) N h N ( X h µ ) 2 1 n N N h N S2 h,c. La stratification a posteriori se justifie lorsque cette quantité est largement positive.

Remarques 1. La variable étudiée doit-être corrélée avec le critère de stratification, c est-à-dire avoir une valeur élevée du rapport de corrélation inter-strate. 2. n doit être assez grand, puisque on se sert de 1/n 0 lorsque n +. Donc c est inutile de repondérer les petits échantillons. 3. (N N h )/N doit être très petit, puisque on se sert de cette hypothèse pour faire un développement limité. Il faut donc que N h /N doit être grand. Par conséquent, c est inutile d avoir beaucoup de petites strates.

Sommaire Le problème La méthode RAS La méthode ASAM 1 Définition 2 3 4 5 6

Le problème La méthode RAS La méthode ASAM Retour à l exemple «Cinéma et Télévision» Nous avons le tableau suivant : B 1 B 2 total A 1 20 680 700 A 2 80 220 300 total 100 900 1 000 En réalité, la marge sur A est (800, 200).

Le problème La méthode RAS La méthode ASAM Comme nous l avons montré au début de ce chapitre, la moyenne calée sur A se calcule par 1 800 y i + 200 y i. 1 000 700 300 i A 1 i A 2 Les observations de A 1 sont redressées par 800/700 et celles de A 2 par 200/300. Imaginons que l échantillon soit déformé par rapport à B. Nous savons par d autres sources, que la marge de B est en réalité (80, 920).

Le problème La méthode RAS La méthode ASAM Problème Nous voulons caler l échantillon sur les deux critères simultanément. Solution idéale Connaître les effectifs théoriques croisés mais en réalité on ne dispose que des marges.

Le problème La méthode RAS La méthode ASAM Problème Estimer les coefficients de redressement par case, respectant les conditions à la marge. Quatre Solutions La méthode RAS La méthode ASAM L ajustement par l analyse des données La méthode de Lemel (1976) Nous ne développerons pas les deux dernières méthodes, mais nous renvoyons au livre de Jean-Marie Grosbras pour de plus amples renseignements sur ces deux méthodes.

Le problème La méthode RAS La méthode ASAM La méthode RAS : Le principe Le tableau à ajuster est A = (a ij ). Le total de ligne est a i., le total théorique est r i. Le total de ligne est a.j, le total théorique est s j. On commence par ajuster les totaux en ligne : a ij a ij = a ij (r i /a i. ). Puis on ajuste les totaux en colonne : a ij a ij = a ij (s j /a.j ). En ajustant les totaux en colonne, on a détruit l ajustement des totaux en ligne. On recommence... On itère le processus jusqu à convergence.

Le problème La méthode RAS La méthode ASAM Avec les données de l exemple «Cinéma-Télévision», nous avons 15 20 45 12 100 A = 45 67 23 12 67 23 91 15 r = 150 150 77 33 91 35 200 s = [170 150 190 90]

Le problème La méthode RAS La méthode ASAM La méthode RAS donne 16 24 42 18 100 41 73 20 16 150 51 21 62 16 150 62 32 66 40 200 170 150 190 90 600

Le problème La méthode RAS La méthode ASAM Ajustement Statistique et Algébrique d une Matrice (ASAM) Cette méthode est plus générale et englobe comme cas particulier la méthode RAS. Idée Si l échantillon n est pas trop mauvais, la structure croisée observée doit avoir des similitudes avec la «vraie» structure. On a un tableau (a ij ) tel que T = i j a ij. On chercher un tableau (x ij ), proche de (a ij ) tel que x ij = r i, j x ij = s j, i xij = T.

Le problème La méthode RAS La méthode ASAM La méthode ASAM consiste en la résolution du programme suivant 1 min (x ij a ij ) 2 x ij ρ ij avec x ij = r i, j i j x ij = s j, i x ij = T. Les ρ ij sont à choisir si nous voulons moduler l importance de chaque case. i j

Le problème La méthode RAS La méthode ASAM Remarques La méthode ASAM est une méthode des moindres carrés pondérés et contraints. Il existe des programmes traitant ce genre de problème. Le choix optimal pour les ρ ij est de les prendre proportionnels aux variances des a ij, considérés comme des variables aléatoires ρ ij = cvar[a ij ].

Le problème La méthode RAS La méthode ASAM Suite des remarques Nous prenons dons les ρ ij représentatifs de ce que nous pouvons connaître des variances des effectifs a ij. La méthode RAS est un cas particulier de la méthode ASAM dans le cas où les a ij sont proportionnels à leur variance. La méthode ASAM est plus satisfaisante puisqu elle recherche une similitude de structure. Elle est évidemment plus coûteuse.