Régression en composantes principales en sondages

Documents pareils
Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Théorie des sondages : cours 5

Critère du choix des variables auxiliaires à utiliser dans l'estimateur par calage

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

La nouvelle planification de l échantillonnage

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

23. Interprétation clinique des mesures de l effet traitement

Cours d Analyse. Fonctions de plusieurs variables

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Introduction à l approche bootstrap

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Déroulement d un projet en DATA MINING, préparation et analyse des données. Walid AYADI

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Analyse empirique et modélisation de la dynamique de la topologie de l Internet

Enjeux mathématiques et Statistiques du Big Data

Apprentissage non paramétrique en régression

Évaluation de la régression bornée

TABLE DES MATIERES. C Exercices complémentaires 42

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

L exclusion mutuelle distribuée

Modélisation aléatoire en fiabilité des logiciels

SAS ENTERPRISE MINER POUR L'ACTUAIRE

Modèles et Méthodes de Réservation

FONCTION DE DEMANDE : REVENU ET PRIX

Oscillations libres des systèmes à deux degrés de liberté

Etude des propriétés empiriques du lasso par simulations

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

Faut-il pondérer? ...Ou l'éternelle question de l'économètre confronté à un problème de sondage. Laurent Davezies et Xavier D'Haultf uille.

Théorie de l estimation et de la décision statistique

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Modèle de calcul des paramètres économiques

Analyse de la variance Comparaison de plusieurs moyennes

Exercice : la frontière des portefeuilles optimaux sans actif certain

Statistiques à une variable

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Centre d'etudes Nucléaires de Fontenay-aux-Roses Direction des Piles Atomiques Département des Etudes de Piles

Probabilités sur un univers fini

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Économétrie, causalité et analyse des politiques

FORMULAIRE DE STATISTIQUES

Codage d information. Codage d information : -Définition-

Resolution limit in community detection

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Non-réponse et données manquantes. Sylvie Rousseau & Gilbert Saporta décembre 2011

La Recherche du Point Optimum de Fonctionnement d un Générateur Photovoltaïque en Utilisant les Réseaux NEURO-FLOUS

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Mini_guide_Isis.pdf le 23/09/2001 Page 1/14

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Modélisation géostatistique des débits le long des cours d eau.

CCP PSI Mathématiques 1 : un corrigé

CHAPITRE IV Oscillations libres des systèmes à plusieurs degrés de liberté

Pacte de responsabilité et de solidarité. Réunion du 6 juin 2014 AGEN

Intégration de la dimension sémantique dans les réseaux sociaux

Chapitre 3. Les distributions à deux variables

Les débats sur l évolution des

Article. Peut-on établir des statistiques officielles à partir d enquêtes en ligne reposant sur le principe de l autosélection? par Jelke Bethlehem

EVALUATION DE LA QUALITE DES SONDAGES EN LIGNE : CAS D UN SONDAGE D OPINION AU BURKINA FASO

MODELES DE DUREE DE VIE

Probabilités III Introduction à l évaluation d options

Feuille 6 : Tests. Peut-on dire que l usine a respecté ses engagements? Faire un test d hypothèses pour y répondre.

1 Complément sur la projection du nuage des individus


Mémoire d actuariat - promotion complexité et limites du modèle actuariel, le rôle majeur des comportements humains.

Filtres passe-bas. On utilise les filtres passe-bas pour réduire l amplitude des composantes de fréquences supérieures à la celle de la coupure.

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Probabilités sur un univers fini

Feuille d exercices 2 : Espaces probabilisés

Le modèle de Black et Scholes

La diffusion des technologies de l information et de la communication dans la société française

Systèmes de transmission

CHAPITRE V SYSTEMES DIFFERENTIELS LINEAIRES A COEFFICIENTS CONSTANTS DU PREMIER ORDRE. EQUATIONS DIFFERENTIELLES.

Biostatistiques : Petits effectifs

COORDINATION NON COOPÉRATIVE: MÉTHODES D ENCHÈRES

Ordonnancement robuste et décision dans l'incertain

Introduction aux sondages

Les mesures de performance ajustée au risque

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #12

Mini_guide_Isis_v6.doc le 10/02/2005 Page 1/15

Modélisation et simulation

Loi binomiale Lois normales

DETERMINATION DE L INCERTITUDE DE MESURE POUR LES ANALYSES CHIMIQUES QUANTITATIVES

1 Démarrer L écran Isis La boite à outils Mode principal Mode gadget Mode graphique...

Package TestsFaciles

L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ

Plus courts chemins, programmation dynamique

RO04/TI07 - Optimisation non-linéaire

Apprendre en pratique - dès le début.

Circuits RL et RC. Chapitre Inductance

(Customer Relationship Management, «Gestion de la Relation Client»)

Observatoire de l équipement audiovisuel des foyers

Transcription:

Régression en composantes principales en sondages (en collaboration avec H. Cardot, M.-A.Shehzad et A. Vanheuverzwyn) IMB, Université de Bourgogne-Dijon et Médiamétrie camelia.goga@u-bourgogne.fr 7ème Colloque sur les Sondages 5-7 Novembre ENSAI 1/30

Plan de l exposé 1 Motivation : exemple des enquêtes sur l audience (Médiamétrie) 2 Calage sur composantes principales : information auxiliaire complète 3 Calage sur composantes principales estimées 4 Application sur les données Médiamétrie 2/30

Motivation : enquête sur l audience à Médiamétrie 3/30

L enquête sur l audience à Médiamétrie Information auxiliaire : information externe (recensement ou une autre enquête) en lien avec les objectifs de l enquête en cours ; Objectif : améliorer la précision des estimations en l utilisant au niveau de l échantillonnage ou de l estimation ; Enquêtes à Médiamétrie : mesurent l audience de la télévision en France passage au numérique et l apparition de la TNT : les données sont de plus en plus nombreuses ; développement des offres numériques avec voie de retour permet de savoir à chaque instant, le nombre de boîtiers allumés sur chaque chaîne. Comment utiliser autant d information auxiliaire? 4/30

Cadre et notations Soit la population U = {1,..., k,..., N} On sélectionne un échantillon s U de taille n selon p(s) ; les probabilités d inclusion π k et π kl Soit Y la variable d intérêt et on veut estimer t y = U y k X 1,..., X p variables auxiliaires : âge, CSP, région Insee... x k = (X 1k,..., X pk ) pour k = 1,..., N X = (x 1,..., x N ) L estimateur d Horvitz-Thompson (HT) sans information auxiliaire : ˆt yd = y k = d k y k π s k s 5/30

Estimation en présence du sur-calage Difficultés possibles On suppose que le nombre de variables auxiliaires (ou de calage) est très grand. 1 des poids w k négatifs ou trop grands. 2 utiliser trop de variables de calage peut augmenter la variance (Silva and Skinner, 1997) Solutions : 1 choisir les variables les plus pertinentes ; 2 utiliser une inverse généralisée (solution proposée dans CAL- MAR2) ; 3 relâcher les équations de calage. 6/30

Motivation : enquête sur l audience à Médiamétrie 7/30

Construction des composantes principales (CP) Soient λ 1 λ 2... λ p > 0 les valeurs propres de N 1 X X et v 1,..., v p les vecteurs propres associés : ( ) N 1 X X v j = λ j v j, j = 1,..., p. Les composantes principales de X, notées Z 1,..., Z p, sont les combinaisons linéaires de variables de départ, X 1,..., X p et qui contiennent le maximum d information. Z j = Xv j, j = 1,..., p. On ne garde que les r premières CP correspondant aux r plus grandes valeurs propres, avec r << p. 8/30

Utilisation de l Soient les nouvelles variables Z 1,..., Z r où Z j = (z kj ) k U, et les z kj, k U s appellent les scores de Z j. La matrice d information auxiliaire est maintenant donnée par avec z k = (z k1,..., z kr ). Z = (Z 1,..., Z r ) = (z k ) k U On réduit le problème de p variables de départ X 1,..., X p à r nouvelles variables, Z 1,..., Z r conservant le maximum de variabilité. 9/30

Calage sur composantes principales On utilise comme variables de calage les r composantes principales, Z 1,..., Z r Objectif (avec la distance de chi-deux) : trouver des poids de calage w = (w k ) k s qui vérifient (w k d k ) 2 w = argmin w k s d k ˆt w,zj = t Zj pour j = 1,..., r. Les équations de calage peuvent être écrites sous la forme k s w k z k = k U z k 10/30

L estimateur dépend d un paramètre r à choisir : r = 0 : on obtient l estimateur d Horvitz-Thompson ˆt yd qui n utilise pas d information auxiliaire. r = p : on obtient l estimateur calé sur les p variables de départ. Il faut trouver le bon compromis. L estimateur par calage du total, ˆt w,p C = k s w ky k, est un estimateur par la régression généralisée : ˆt w,p C = ˆt yd (ˆt zd t z ) ˆβZ où ( ) 1 ˆβ Z = d k z k z T k d k z k y k. k s k s 11/30

Lien avec l approche model-assisted Soit le modèle linéaire On peut montrer que ξ : y k = x k β + ε k, k U ˆt w,p C = ˆt yd (ˆt xd t x ) ˆβP C, ˆβ P C = (v 1,..., v r ) ˆβZ. L estimateur ˆt w,p C est un estimateur de type model-assisted linéaire quand le coefficient de régression β est estimé par ˆβ P C. L estimateur ˆt w,p C est biaisé sous le plan p( ) ainsi que sous le modèle ξ, mais il est sans biais sous le plan et le modèle, Bias p,ξ (ˆt w,p C t y ) = 0. 12/30

Calage sur le moment d ordre deux Pour des variables X j standardisées, les CPs ont la propriété suivante : 1 N Z jz j = 1 zkj 2 = λ j, j = 1,..., p N k U On peut considérer un calage sur le moment d ordre deux des CPs (Ren, 2000) avec Z 2 j = (z2 jk ) k U. w c (w k d k ) 2 = argmin w d k q k ˆt w,zj = t Zj, j = 1,..., r ˆt w,z 2 j = t Z 2 j, j = 1,..., r s et 13/30

Motivation : enquête sur l audience à Médiamétrie 14/30

Estimation des composantes principales On a besoin de connaître x k pour tous les k U pour pouvoir déterminer les valeurs et vecteurs propres de la matrice de variance-covariance 1 N X X = 1 N U x kx k. Il est possible d étendre cette approche pour le cas où on ne connaît x k que sur l échantillon mais avec des totaux k U x k connus ; On centre les variables dans la population (on connaît leur moyennes) et on les réduit dans l échantillon ; 15/30

On estime la matrice de variance-covariance par ˆΓ = 1ˆN d k (x k ˆX)(x k ˆX) s Soient ˆλ j, ˆv j les valeurs, resp. les vecteurs propres de ˆΓ, ˆΓˆv j = ˆλ j ˆv j, j = 1,..., p On estime les composantes Z j par Ẑ j = Xˆv j. On prend comme variables de calage Ẑj, j = 1,..., r de totaux connus. 16/30

L estimateur par calage sur les composantes principales estimées Ẑj, est donné par ˆt w,p C = ˆt yd (ˆtẑd ) tẑ ˆβẐ = ˆt yd (ˆt xd t x ) ˆβ P C où ( ) 1 ˆβẐ = d k ẑ k ẑ T k d k ẑ k y k. k s k s ˆβ P C = (ˆv 1,..., ˆv r )ˆβẐ. 17/30

Hypothèses On suppose que : (A1) π k > λ > 0 pour tous k U; (A2) lim N n max k l π kl π k π l <. 1 (A3) lim N N U y2 k <. n (A4) lim N N = π (0, 1). (A5) x k < pour tous k U. Alors, ˆβẐ β Z = o p (1) avec β Z = ( k U z kz T k ) 1 k U z ky k et N 1 (ˆt w,p C t y ) = N 1 (ˆt diff t y ) + o p (n 1/2 ) où ˆt diff = ˆt yd (ˆt zd t z ) βz. 18/30

Motivation : enquête sur l audience à Médiamétrie 19/30

Données Médiamétrie (1) Population d étude U composée de N = 5 329 individus qui regardent une chaîne de TV sur deux semaines consécutives de septembre 2010 ; Le paramètre d intérêt : la durée totale d écoute sur lundi de la deuxième semaine ; La variable Y contient beaucoup de zéros (plus de 30%). On considère un échantillon s de taille n = 500 tiré par sondage aléatoire simple sans remise dans U. 20/30

Données Médiamétrie : Information auxiliaire 19 variables qualitatives de type socio-démographique (région, sexe, CSP, internet... ) avec 52 modalités en tout ; age : en continu ; On considère de plus comme variable auxiliaire la durée totale d écoute pour la première semaine de septembre 2010 : avec cette variable, on a R 2 = 0.50, sans cette variable, on a R 2 = 0.11. Matrice d information auxiliaire X de dimension 5 329 54 ; La matrice X contient l intercept ; on calcule les CP de X sans l intercept (et après avoir centré et réduit) et la matrice des CP est [1 Z 1... Z p 1 ]. 21/30

Estimation On sélectionne un échantillon s de taille n = 500 selon un plan aléatoire simple sans remise dans U. On considère n.sim = 1000 simulations. L estimateur GREG ne marche pas toujours car la matrice X sπ s X s a beaucoup de fois λ min égale à zéro). On utilise l inverse généralisée. 22/30

Comparaison entre ˆt ridge, ˆt P C et ˆt HT biais relatif : plus petit que 0.2%. B b=1 RB = ˆθ (j) /B t y le rapport de variances (sur les B échantillons), par rapport à l estimateur de Horvitz-Thompson ˆt (b) yd, var θ var HT = 1 B 1 B t y B b=1 (ˆθ (b) t y ) 2 B (b) b=1 (ˆt yd t y). 2 23/30

Gain par rapport a l'estimateur de Horvitz-Thompson rapport var(pc)/var(ht) 0.0 0.5 1.0 1.5 2.0 2.5 3.0 0 10 20 30 40 50 nombre de cp en bleu : le rapport entre la variance de l estimateur obtenu par calage exact (calculé avec l inverse généralisée) et l estimateur d Horvitz-Thompson ; 24/30

Coefficient de variation des poids en fonction de r et de n Coefficient de variation des poids pour n=500 et simulations 0.05 0.10 0.15 0.20 0.25 0.30 0.35 CV moyen sur 1000 simulations 0.0 0.1 0.2 0.3 0.4 GREG 7 11 18 20 25 30 35 40 45 47 50 7 11 18 20 25 30 35 40 45 47 50 Le coefficient de variation des poids cv(w) = 1000 simulations. var(w) w nombre de CP est calculé pour 25/30

Etude avec calage pénalisé On calcule les poids ridge pour 150 valeurs de λ : λ = 4 2 h, h [ 25, 25] On calcule l estimateur par calage pénalisé ou ridge ˆt w,λ pour chaque λ et pour B = 500 simulations. On compare la variance de ˆt w,λ lors de 500 simulations avec la variance de ˆt yd On remarque (dans le graphique log 2 (λ) [ 23, 27]) 1 pour λ grand, ˆt w,λ est aussi efficace que l estimateur d Horvitz- Thompson 2 pour λ très proche de zéro, on a un gain très important. 26/30

Gain par rapport à l'estimateur HT Rapport de variances var(ridge)/var(ht) 0.5 0.6 0.7 0.8 0.9 1.0-20 -10 0 10 20 Log(K) 27/30

Nous avons répété 10 fois la simulation. pour K petit, le gain est important ; pour K grand, l estimator ˆt ridge s approche de ˆt HT. 28/30

Conclusion et perspectives On propose une nouvelle méthode pour réduire le grand nombre de variables auxiliaires en sondages ; Cette méthode est facilement mise en oeuvre ; Elle a l avantage par rapport à la régression ridge de pouvoir faire un calage sur le moment d ordre deux ; Elle permet d obtenir de gains importants en termes de variance ; 29/30

Courte bibliographie Chambers, R. (1996), Robust case-weighting for multi-purpose establishments surveys, Journal of official statistics, vol.12, 1996, 3-32 ; Deville, J.-C., 1999. Variance estimation for complex statistics and estimators : linearization and residual techniques. Survey Methodology 25, 193 204. Deville, J.-C., Särndal, C.-E., 1992. Calibration estimators in survey sampling. Journal of the American Statistical Association 87, 376 382. Rao, J.N.K. and Singh, A.C. (2009), Range restricted weight calibration for survey data using ridge regression, Pakistan Journal of Statistics, 25, 371-384. Ren, R. (2000), Utilisation d information auxiliaire par calage sur fonction de répartition, thèse de l Université Paris Dauphine. Silva, P.L.N. and Skinner, C. (1997). Variable selection for regression estimation in finite population, Survey Methodology, 23, 23-32. Tillé, Y. and Guggemos, F., (2010) Penalized calibration in survey sampling : Design-based estimation assisted by mixed models. Journal of Statistical Planning and Inference 140 (2010) 3199 3212. 30/30