Régression en composantes principales en sondages

Régression en composantes principales en sondages (en collaboration avec H. Cardot, M.-A.Shehzad et A. Vanheuverzwyn) IMB, Université de Bourgogne-Dijon et Médiamétrie camelia.goga@u-bourgogne.fr 7ème Colloque sur les Sondages 5-7 Novembre ENSAI 1/30

Plan de l exposé 1 Motivation : exemple des enquêtes sur l audience (Médiamétrie) 2 Calage sur composantes principales : information auxiliaire complète 3 Calage sur composantes principales estimées 4 Application sur les données Médiamétrie 2/30

Motivation : enquête sur l audience à Médiamétrie 3/30

L enquête sur l audience à Médiamétrie Information auxiliaire : information externe (recensement ou une autre enquête) en lien avec les objectifs de l enquête en cours ; Objectif : améliorer la précision des estimations en l utilisant au niveau de l échantillonnage ou de l estimation ; Enquêtes à Médiamétrie : mesurent l audience de la télévision en France passage au numérique et l apparition de la TNT : les données sont de plus en plus nombreuses ; développement des offres numériques avec voie de retour permet de savoir à chaque instant, le nombre de boîtiers allumés sur chaque chaîne. Comment utiliser autant d information auxiliaire? 4/30

Cadre et notations Soit la population U = {1,..., k,..., N} On sélectionne un échantillon s U de taille n selon p(s) ; les probabilités d inclusion π k et π kl Soit Y la variable d intérêt et on veut estimer t y = U y k X 1,..., X p variables auxiliaires : âge, CSP, région Insee... x k = (X 1k,..., X pk ) pour k = 1,..., N X = (x 1,..., x N ) L estimateur d Horvitz-Thompson (HT) sans information auxiliaire : ˆt yd = y k = d k y k π s k s 5/30

Estimation en présence du sur-calage Difficultés possibles On suppose que le nombre de variables auxiliaires (ou de calage) est très grand. 1 des poids w k négatifs ou trop grands. 2 utiliser trop de variables de calage peut augmenter la variance (Silva and Skinner, 1997) Solutions : 1 choisir les variables les plus pertinentes ; 2 utiliser une inverse généralisée (solution proposée dans CAL- MAR2) ; 3 relâcher les équations de calage. 6/30

Construction des composantes principales (CP) Soient λ 1 λ 2... λ p > 0 les valeurs propres de N 1 X X et v 1,..., v p les vecteurs propres associés : ( ) N 1 X X v j = λ j v j, j = 1,..., p. Les composantes principales de X, notées Z 1,..., Z p, sont les combinaisons linéaires de variables de départ, X 1,..., X p et qui contiennent le maximum d information. Z j = Xv j, j = 1,..., p. On ne garde que les r premières CP correspondant aux r plus grandes valeurs propres, avec r << p. 8/30

Utilisation de l Soient les nouvelles variables Z 1,..., Z r où Z j = (z kj ) k U, et les z kj, k U s appellent les scores de Z j. La matrice d information auxiliaire est maintenant donnée par avec z k = (z k1,..., z kr ). Z = (Z 1,..., Z r ) = (z k ) k U On réduit le problème de p variables de départ X 1,..., X p à r nouvelles variables, Z 1,..., Z r conservant le maximum de variabilité. 9/30

Calage sur composantes principales On utilise comme variables de calage les r composantes principales, Z 1,..., Z r Objectif (avec la distance de chi-deux) : trouver des poids de calage w = (w k ) k s qui vérifient (w k d k ) 2 w = argmin w k s d k ˆt w,zj = t Zj pour j = 1,..., r. Les équations de calage peuvent être écrites sous la forme k s w k z k = k U z k 10/30

L estimateur dépend d un paramètre r à choisir : r = 0 : on obtient l estimateur d Horvitz-Thompson ˆt yd qui n utilise pas d information auxiliaire. r = p : on obtient l estimateur calé sur les p variables de départ. Il faut trouver le bon compromis. L estimateur par calage du total, ˆt w,p C = k s w ky k, est un estimateur par la régression généralisée : ˆt w,p C = ˆt yd (ˆt zd t z ) ˆβZ où ( ) 1 ˆβ Z = d k z k z T k d k z k y k. k s k s 11/30

Lien avec l approche model-assisted Soit le modèle linéaire On peut montrer que ξ : y k = x k β + ε k, k U ˆt w,p C = ˆt yd (ˆt xd t x ) ˆβP C, ˆβ P C = (v 1,..., v r ) ˆβZ. L estimateur ˆt w,p C est un estimateur de type model-assisted linéaire quand le coefficient de régression β est estimé par ˆβ P C. L estimateur ˆt w,p C est biaisé sous le plan p( ) ainsi que sous le modèle ξ, mais il est sans biais sous le plan et le modèle, Bias p,ξ (ˆt w,p C t y ) = 0. 12/30

Calage sur le moment d ordre deux Pour des variables X j standardisées, les CPs ont la propriété suivante : 1 N Z jz j = 1 zkj 2 = λ j, j = 1,..., p N k U On peut considérer un calage sur le moment d ordre deux des CPs (Ren, 2000) avec Z 2 j = (z2 jk ) k U. w c (w k d k ) 2 = argmin w d k q k ˆt w,zj = t Zj, j = 1,..., r ˆt w,z 2 j = t Z 2 j, j = 1,..., r s et 13/30

Estimation des composantes principales On a besoin de connaître x k pour tous les k U pour pouvoir déterminer les valeurs et vecteurs propres de la matrice de variance-covariance 1 N X X = 1 N U x kx k. Il est possible d étendre cette approche pour le cas où on ne connaît x k que sur l échantillon mais avec des totaux k U x k connus ; On centre les variables dans la population (on connaît leur moyennes) et on les réduit dans l échantillon ; 15/30

On estime la matrice de variance-covariance par ˆΓ = 1ˆN d k (x k ˆX)(x k ˆX) s Soient ˆλ j, ˆv j les valeurs, resp. les vecteurs propres de ˆΓ, ˆΓˆv j = ˆλ j ˆv j, j = 1,..., p On estime les composantes Z j par Ẑ j = Xˆv j. On prend comme variables de calage Ẑj, j = 1,..., r de totaux connus. 16/30

L estimateur par calage sur les composantes principales estimées Ẑj, est donné par ˆt w,p C = ˆt yd (ˆtẑd ) tẑ ˆβẐ = ˆt yd (ˆt xd t x ) ˆβ P C où ( ) 1 ˆβẐ = d k ẑ k ẑ T k d k ẑ k y k. k s k s ˆβ P C = (ˆv 1,..., ˆv r )ˆβẐ. 17/30

Hypothèses On suppose que : (A1) π k > λ > 0 pour tous k U; (A2) lim N n max k l π kl π k π l <. 1 (A3) lim N N U y2 k <. n (A4) lim N N = π (0, 1). (A5) x k < pour tous k U. Alors, ˆβẐ β Z = o p (1) avec β Z = ( k U z kz T k ) 1 k U z ky k et N 1 (ˆt w,p C t y ) = N 1 (ˆt diff t y ) + o p (n 1/2 ) où ˆt diff = ˆt yd (ˆt zd t z ) βz. 18/30

Données Médiamétrie (1) Population d étude U composée de N = 5 329 individus qui regardent une chaîne de TV sur deux semaines consécutives de septembre 2010 ; Le paramètre d intérêt : la durée totale d écoute sur lundi de la deuxième semaine ; La variable Y contient beaucoup de zéros (plus de 30%). On considère un échantillon s de taille n = 500 tiré par sondage aléatoire simple sans remise dans U. 20/30

Données Médiamétrie : Information auxiliaire 19 variables qualitatives de type socio-démographique (région, sexe, CSP, internet... ) avec 52 modalités en tout ; age : en continu ; On considère de plus comme variable auxiliaire la durée totale d écoute pour la première semaine de septembre 2010 : avec cette variable, on a R 2 = 0.50, sans cette variable, on a R 2 = 0.11. Matrice d information auxiliaire X de dimension 5 329 54 ; La matrice X contient l intercept ; on calcule les CP de X sans l intercept (et après avoir centré et réduit) et la matrice des CP est [1 Z 1... Z p 1 ]. 21/30

Estimation On sélectionne un échantillon s de taille n = 500 selon un plan aléatoire simple sans remise dans U. On considère n.sim = 1000 simulations. L estimateur GREG ne marche pas toujours car la matrice X sπ s X s a beaucoup de fois λ min égale à zéro). On utilise l inverse généralisée. 22/30

Comparaison entre ˆt ridge, ˆt P C et ˆt HT biais relatif : plus petit que 0.2%. B b=1 RB = ˆθ (j) /B t y le rapport de variances (sur les B échantillons), par rapport à l estimateur de Horvitz-Thompson ˆt (b) yd, var θ var HT = 1 B 1 B t y B b=1 (ˆθ (b) t y ) 2 B (b) b=1 (ˆt yd t y). 2 23/30

Gain par rapport a l'estimateur de Horvitz-Thompson rapport var(pc)/var(ht) 0.0 0.5 1.0 1.5 2.0 2.5 3.0 0 10 20 30 40 50 nombre de cp en bleu : le rapport entre la variance de l estimateur obtenu par calage exact (calculé avec l inverse généralisée) et l estimateur d Horvitz-Thompson ; 24/30

Coefficient de variation des poids en fonction de r et de n Coefficient de variation des poids pour n=500 et simulations 0.05 0.10 0.15 0.20 0.25 0.30 0.35 CV moyen sur 1000 simulations 0.0 0.1 0.2 0.3 0.4 GREG 7 11 18 20 25 30 35 40 45 47 50 7 11 18 20 25 30 35 40 45 47 50 Le coefficient de variation des poids cv(w) = 1000 simulations. var(w) w nombre de CP est calculé pour 25/30

Etude avec calage pénalisé On calcule les poids ridge pour 150 valeurs de λ : λ = 4 2 h, h [ 25, 25] On calcule l estimateur par calage pénalisé ou ridge ˆt w,λ pour chaque λ et pour B = 500 simulations. On compare la variance de ˆt w,λ lors de 500 simulations avec la variance de ˆt yd On remarque (dans le graphique log 2 (λ) [ 23, 27]) 1 pour λ grand, ˆt w,λ est aussi efficace que l estimateur d Horvitz- Thompson 2 pour λ très proche de zéro, on a un gain très important. 26/30

Gain par rapport à l'estimateur HT Rapport de variances var(ridge)/var(ht) 0.5 0.6 0.7 0.8 0.9 1.0-20 -10 0 10 20 Log(K) 27/30

Nous avons répété 10 fois la simulation. pour K petit, le gain est important ; pour K grand, l estimator ˆt ridge s approche de ˆt HT. 28/30

Conclusion et perspectives On propose une nouvelle méthode pour réduire le grand nombre de variables auxiliaires en sondages ; Cette méthode est facilement mise en oeuvre ; Elle a l avantage par rapport à la régression ridge de pouvoir faire un calage sur le moment d ordre deux ; Elle permet d obtenir de gains importants en termes de variance ; 29/30

Courte bibliographie Chambers, R. (1996), Robust case-weighting for multi-purpose establishments surveys, Journal of official statistics, vol.12, 1996, 3-32 ; Deville, J.-C., 1999. Variance estimation for complex statistics and estimators : linearization and residual techniques. Survey Methodology 25, 193 204. Deville, J.-C., Särndal, C.-E., 1992. Calibration estimators in survey sampling. Journal of the American Statistical Association 87, 376 382. Rao, J.N.K. and Singh, A.C. (2009), Range restricted weight calibration for survey data using ridge regression, Pakistan Journal of Statistics, 25, 371-384. Ren, R. (2000), Utilisation d information auxiliaire par calage sur fonction de répartition, thèse de l Université Paris Dauphine. Silva, P.L.N. and Skinner, C. (1997). Variable selection for regression estimation in finite population, Survey Methodology, 23, 23-32. Tillé, Y. and Guggemos, F., (2010) Penalized calibration in survey sampling : Design-based estimation assisted by mixed models. Journal of Statistical Planning and Inference 140 (2010) 3199 3212. 30/30