Propriétés asymptotiques d estimateurs non paramétriques model-based de la fonction de répartition sur un petit domaine

Documents pareils
Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Principe de symétrisation pour la construction d un test adaptatif

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Application Form/ Formulaire de demande

Une approche non paramétrique Bayesienne pour l estimation de densité conditionnelle sur les rangs

Echantillonnage Non uniforme

Keywords: Probability of catastrophic events, Bivariate extreme value theory, Heavy tailed distributions, ALS methods.

Introduction à la statistique non paramétrique

Consultants en coûts - Cost Consultants

Post-processing of multimodel hydrological forecasts for the Baskatong catchment

Tests exacts d indépendance sérielle dans les cas de distributions continues et discrètes

Exemple PLS avec SAS

English Q&A #1 Braille Services Requirement PPTC Q1. Would you like our proposal to be shipped or do you prefer an electronic submission?

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

AICp. Vincent Vandewalle. To cite this version: HAL Id: inria

PREPROCESSING PAR LISSAGE LOESS POUR ACP LISSEE

Table des matières. I Mise à niveau 11. Préface

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

Research/activity time (hours/month) / Temps consacré à la recherche/l'activité (heures/mois)

Évaluation de la régression bornée

Instructions Mozilla Thunderbird Page 1

Détection spatiale de données aberrantes. Application à la surveillance de la qualité de l'air.

Forthcoming Database

Application of Current-Status Survival Analysis Methodology to Estimation of Age at First Sex: Uganda

Modélisation géostatistique des débits le long des cours d eau.

RISK-BASED TRANSPORTATION PLANNING PRACTICE: OVERALL METIIODOLOGY AND A CASE EXAMPLE"' RESUME

Mon Service Public - Case study and Mapping to SAML/Liberty specifications. Gaël Gourmelen - France Telecom 23/04/2007

Evaluation des modèles non-linéaires à effets mixtes

First Nations Assessment Inspection Regulations. Règlement sur l inspection aux fins d évaluation foncière des premières nations CONSOLIDATION

I. Programmation I. 1 Ecrire un programme en Scilab traduisant l organigramme montré ci-après (on pourra utiliser les annexes):

How to Login to Career Page

Discours du Ministre Tassarajen Pillay Chedumbrum. Ministre des Technologies de l'information et de la Communication (TIC) Worshop on Dot.

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Programming Server-Side Web Applications with Object-Oriented PHP NC Group Syllabus. Duration: 75 hours 1-2-2

BIG Data et R: opportunités et perspectives

Bigdata et Web sémantique. les données + l intelligence= la solution

Once the installation is complete, you can delete the temporary Zip files..

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

MELTING POTES, LA SECTION INTERNATIONALE DU BELLASSO (Association étudiante de lʼensaparis-belleville) PRESENTE :

Population responses to environmental forcing : approaches to model and monitor habitat characteristics

ETABLISSEMENT D ENSEIGNEMENT OU ORGANISME DE FORMATION / UNIVERSITY OR COLLEGE:

BNP Paribas Personal Finance

IPSAS 32 «Service concession arrangements» (SCA) Marie-Pierre Cordier Baudouin Griton, IPSAS Board

Eléments de statistique

Christian BONTEMPS né le 08 juillet 1969

Exemples d application

iqtool - Outil e-learning innovateur pour enseigner la Gestion de Qualité au niveau BAC+2

Comprehensive study on Internet related issues / Étude détaillée sur les questions relatives à l Internet. November/Novembre 2014

Efficacité énergétique des logements à haute performance énergétique, HPE : Application au site de Béchar

Utilisation du Logiciel de statistique SPSS 8.0

INSTITUT MARITIME DE PREVENTION. For improvement in health and security at work. Created in 1992 Under the aegis of State and the ENIM

8. Cours virtuel Enjeux nordiques / Online Class Northern Issues Formulaire de demande de bourse / Fellowship Application Form

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Must Today s Risk Be Tomorrow s Disaster? The Use of Knowledge in Disaster Risk Reduction

0 h(s)ds et h [t = 1 [t, [ h, t IR +. Φ L 2 (IR + ) Φ sur U par

Notice Technique / Technical Manual

CLIQUEZ ET MODIFIEZ LE TITRE

INF6304 Interfaces Intelligentes

Caroline Hurault-Delarue 1, Cécile Chouquet 2, Nicolas Savy 2, Isabelle Lacroix 1, Christine Damase- Michel 1

FUTURES COMPRENDRE VOTRE RELEVE DE COMPTE. WH SELFINVEST Est Luxemburg, France, Belgium, Poland, Germany, Netherlands

Analyse fonctionnelle Théorie des représentations du groupe quantique compact libre O(n) Teodor Banica Résumé - On trouve, pour chaque n 2, la classe

Natixis Asset Management Response to the European Commission Green Paper on shadow banking

COPYRIGHT Danish Standards. NOT FOR COMMERCIAL USE OR REPRODUCTION. DS/EN 61303:1997

Supervision et infrastructure - Accès aux applications JAVA. Document FAQ. Page: 1 / 9 Dernière mise à jour: 15/04/12 16:14

COUNCIL OF THE EUROPEAN UNION. Brussels, 18 September 2008 (19.09) (OR. fr) 13156/08 LIMITE PI 53

REMOTE DATA ACQUISITION OF EMBEDDED SYSTEMS USING INTERNET TECHNOLOGIES: A ROLE-BASED GENERIC SYSTEM SPECIFICATION

CONFERENCE PALISADE. Optimisation robuste d un plan d expériences par simulation Monte-Carlo Concepts de «Design Space» et de «Quality by Design»

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

Cette Leçon va remplir ces attentes spécifiques du curriculum :

F-7a-v3 1 / Bourses de mobilité / Mobility Fellowships Formulaire de demande de bourse / Fellowship Application Form

FCM 2015 ANNUAL CONFERENCE AND TRADE SHOW Terms and Conditions for Delegates and Companions Shaw Convention Centre, Edmonton, AB June 5 8, 2015

Gestion des prestations Volontaire

CONVENTION DE STAGE TYPE STANDART TRAINING CONTRACT

Optimized Protocol Stack for Virtualized Converged Enhanced Ethernet

La gestion des flux de trafic aérien en Europe : état de l art, problèmes et perspectives

Économetrie non paramétrique I. Estimation d une densité

CURRENT UNIVERSITY EDUCATION SYSTEM IN SPAIN AND EUROPE

Une introduction. Lionel RIOU FRANÇA. Septembre 2008

86 rue Julie, Ormstown, Quebec J0S 1K0

La méthode de régression par discontinuité et l évaluation des politiques de l emploi

Institut français des sciences et technologies des transports, de l aménagement

Introduction à l approche bootstrap

Parallélisation de l algorithme des k-médoïdes. Application au clustering de courbes.

UNIVERSITE D ANTANANARIVO FACULTE DES SCIENCES DEPARTEMENT DE BIOLOGIE ET ECOLOGIE VEGETALES

Value at Risk. CNAM GFN 206 Gestion d actifs et des risques. Grégory Taillard. 27 février & 13 mars 20061

PIB : Définition : mesure de l activité économique réalisée à l échelle d une nation sur une période donnée.

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

TÅÎCHÔ COMMUNITY GOVERNMENT ACT LOI SUR LE GOUVERNEMENT COMMUNAUTAIRE TÅÎCHÔ RÈGLEMENT SUR LES DETTES (GOUVERNEMENT COMMUNAUTAIRE TÅÎCHÔ) R

Christian BONTEMPS né le 08 juillet 1969

Préparer un état de l art

INSTRUCTIONS. Comment compléter le formulaire. How to complete this form. Instructions

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

Plan. Department of Informatics

PAR_ _09543_EUR DATE: 17/12/2014. Suite à l'avis PAR_ _08654_EUR

Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009. Pôle de Calcul Intensif pour la mer, 11 Decembre 2009

Bourses d excellence pour les masters orientés vers la recherche

Transcription:

Manuscrit auteur, publié dans "42èmes Journées de Statistique (2010)" Propriétés asymptotiques d estimateurs non paramétriques model-based de la fonction de répartition sur un petit domaine Sandrine Casanova & Eve Leconte TSE (GREMAQ), Université Toulouse 1 Capitole, 21, allée de Brienne, 31000 TOULOUSE, France E-mail : sandrine.casanova@tse-fr.eu, eve.leconte@tse-fr.eu Résumé Nous nous intéressons à l estimation de la fonction de répartition (f.d.r.) en sondage sur des sous-populations (domaines). Si un domaine est de taille suffisante, l estimation de la f.d.r. se base uniquement sur les individus du domaine et les estimateurs produits sont de précision acceptable. Cependant, dans la plupart des applications, les tailles d écantillons correspondant à des petits domaines ne sont pas suffisantes. L estimation se fonde alors sur une information auxiliaire fournie par une covariable et de l information est empruntée aux autres domaines. Dans ce contexte, Cambers et Tzavidis (2006) ont proposé un estimateur paramétrique de la f.d.r. sur un domaine, basé sur des quantiles. Casanova (2007, 2010) a adapté cet estimateur au cas non paramétrique et a proposé un autre estimateur basé sur les quantiles. Ces estimateurs se placent dans un cadre model-based où le problème est de prédire la variable d intérêt pour les individus non écantillonnés du domaine. Pour un individu fixé, sa variable d intérêt peut toujours être vue comme le quantile conditionnel à la valeur de sa covariable pour un certain ordre appelé ordrequantile. Les ordres-quantiles des individus de l ensemble des écantillons sont estimés et on prédit ensuite à l aide de polynômes locaux la variable d intérêt d un individu ors écantillon par les quantiles conditionnels associés aux ordres qui décrivent ou résument le domaine de l individu. Nous nous focalisons ici sur les propriétés asymptotiques de ces estimateurs avec une approce model-based : nous étudions leur biais asymptotique sous le modèle ainsi que leur convergence en moyenne quadratique. Abstract We work on estimating te cumulative distribution function (c.d.f.) in survey sampling on a sub-population (domain). If te size of te domain is large enoug, te estimation of te c.d.f. relies on data from sample units in te domain and te resultant estimates will be of acceptable precision. However, in most practical applications, sample sizes are not large enoug to produce sufficiently precise estimators. In suc situations, te estimation 1

is based on auxiliary information related to te variable of interest and information is borrowed from te oter domains. In tis framework, Cambers et Tzavidis (2006) ave proposed a parametric estimator of te c.d.f. in a domain based on quantiles. Casanova (2007, 2010) as adapted tis estimator to a nonparametric approac and as proposed anoter estimator based on quantiles. Te considered estimators are in a model-based framework were te problem is te prediction of te interest variable for te non-sampled units of te domain. For a given unit, te interest variable can be seen as te conditional quantile to te covariate of te unit for an order called quantile-order. Te quantileorders of te sample observations are estimated and local polynomials tecniques are ten used to predict te interest variable for te non-sampled individuals of te domain by conditional quantiles associated to te quantile-orders wic describe or resume te domain. We focus ere on asymptotic properties of te new estimators in a model-based framework : asymptotic bias under te model and mean squared error convergence will be considered. Mots-clés : sondages, fonction de répartition, information auxiliaire, model-based, domaine, polynômes locaux, quantiles conditionnels, propriétés asymptotiques. 1 Introduction Soit une population U partitionnée en m sous-populations ou domaines U i de taille N i, i = 1,, m. Soient s un écantillon de U de taille n et s i = s U i un écantillon du domaine U i de taille n i. En sondage, on s intéresse à l estimation de la fonction de répartition (f.d.r.) d une variable d intérêt Y sur le domaine U i définie par : F i (y) = 1 N i j U i 1I(y ij y) que l on peut décomposer en F i (y) = 1 1I(y ij y) + 1I(y ij y) (1) N i i s j j U i \s i où y ij est la variable d intérêt mesurée pour le j-ième individu du domaine U i. On suppose que y ij est seulement connue sur s i. Un estimateur naturel de la f.d.r. sur le domaine U i est la fonction de répartition empirique définie par : ˆF Emp i (y) = 1 1I(y ij y). n i j s i Si la taille d écantillon est trop faible, ce qui est le cas pour de petits domaines, on peut améliorer l estimation à l aide d une information auxiliaire apportée par une covariable et emprunter de la force aux voisins. Ceci nous permet d estimer le deuxième terme dans la décomposition de la f.d.r. (1) en estimant les y ij des individus non écantillonnés. 2

Dans ce cadre, Casanova (2007, 2010) a proposé deux estimateurs non paramétriques de la f.d.r sur un domaine en prédisant les y ij des individus non écantillonnés par des quantiles conditionnels estimés à l aide des polynômes locaux. Le deuxième estimateur est une adaptation d un estimateur proposé dans un cadre paramétrique par Cambers et Tzavidis (2006). Les deux métodes d estimation sont rappelées dans la section 2. En section 3, nous nous intéressons aux propriétés asymptotiques de ces estimateurs. 2 Estimation non paramétrique de la f.d.r. sur un petit domaine Les deux estimateurs proposés par Casanova (2007, 2010) comportent deux étapes, la première étant commune aux deux estimateurs. Etape 1 : estimation non paramétrique des ordres-quantiles des points écantillonnés de l ensemble des domaines Pour une observation (y k, x k ), il existe un ordre q k [0, 1] tel que y k est le quantile conditionnel à x k d ordre q k. Cet ordre, appelé ordre-quantile conditionnel, classe l observation dans l écantillon. Les ordres-quantiles conditionnels des observations d un domaine le situent par rapport à l ensemble de tous les domaines. Une estimation naturelle de l ordre-quantile conditionnel peut se faire à l aide de l estimateur de Nadaraya-Watson de la f.d.r. conditionnelle : ( ) xk x l 1I(y l y k )K ˆq k (y k, x k ) = ( ) xk x, où K est un noyau de densité et une fenêtre l K appropriée. Caque domaine U i peut donc être décrit par l ensemble des ordres-quantiles estimés sur le sous-écantillon s i. Nous noterons ces ordres {ˆq ik, k = 1,... n i }. Alternativement, la position du domaine U i dans la population peut être résumée par l ordre-quantile moyen des points écantillonnés du domaine, noté ˆq i = 1 ˆq ik. Etape 2 : estimations de la variable d intérêt pour les points non écantillonnés du domaine Pour incorporer l information auxiliaire apportée par la variable x, on suppose le modèle de superpopulation suivant, noté ξ : y ij = m(q, x ij ) + ε ij où q est un réel fixé de [0, 1] et où les ε ij sont i.i.d. de distribution G tels que P (ε ij 0 X ij = x ij ) = q. Sous ce modèle, m(q, x ij ) est le quantile de y ij conditionnnellement à x ij. 3

Premier estimateur : Pour caque individu j de U i \ s i de covariable x ij, comme son domaine est décrit par les n i ordres-quantiles {ˆq ik, k = 1,... n i }, on peut donc calculer n i prédictions ˆm(ˆq ik, x ij ) de y ij à l aide d estimateurs des quantiles conditionnels à x ij d ordre ˆq ik. Casanova (2007, 2010) propose d utiliser les polynômes locaux (constante linéaire) pour estimer ces quantiles conditionnels selon le modèle ξ en utilisant les individus écantillonnés de tous les domaines. La métode de la constante linéaire pour estimer un quantile conditionnel consiste, pour un x ij donné et un ordre ˆq ik fixé, à trouver θ minimisant : ρˆqik (y l θ)k( x ij x l ) (2) où ρ q est la fonction de perte suivante : ρ q (u) = { (1 q)u si u < 0 qu si u 0. Un estimateur de la f.d.r. sur le domaine U i s en déduit donc d après la formule (1) : ˆF i C (y) = 1 1I(y ij y) + 1 1I( ˆm(ˆq ik, x ij ) y) N i j s i j U i \s i Cette estimation utilise l écantillon s de la population totale et de la force est donc empruntée à tous les domaines. Deuxième estimateur : Cet estimateur adapte au cas non paramétrique la tecnique de Cambers et Tzavidis (2006), qui considère que caque domaine U i peut être résumé par son ordre-quantile moyen ˆq i. Pour caque domaine U i fixé, on estime à l aide de l écantillon total s, par la métode de la constante linéaire, les n i quantiles conditionnels {m(ˆq i, x ik ), k s i } par la formule (2). Cela permet de calculer les n i résidus des points écantillonnés de ce domaine : ˆɛ ik = y ik ˆm(ˆq i, x ik ), k s i. Pour caque individu non écantillonné de U i de covariable x ij, ces n i résidus pemettent de construire n i prédictions de la forme ˆm(ˆq i, x ij ) + ˆɛ ik de y ij, où les ˆm(ˆq i, x ij ) sont encore calculés grâce à la formule (2). L estimateur de la f.d.r. de Y dans le domaine U i qui en résulte est alors défini par : ˆF i CT (y) = 1 1I(y ij y) + 1 1I( ˆm(ˆq i, x ij ) + ˆɛ ik y). N i j s i j U i \s i 4

3 Propriétés asymptotiques Casanova (2010) a montré à l aide d études de simulation l apport de ces métodes par rapport à l estimateur empirique de la fonction de répartition sur le domaine. Nous allons nous intéresser dans cette présentation à deux propriétés asymptotiques de ces nouveaux estimateurs. Dans un premier temps, nous allons étudier leur biais asymptotique sous le modèle. Ensuite, nous envisagerons la convergence de ces estimateurs en moyenne quadratique. Pour cela, nous nous inspirerons des tecniques utilisées dans les articles de Cambers et al. (1992), Dorfman et Hall (1993) et Jonson et al. (2004), auteurs qui se sont intéressés à la convergence d estimateurs model-based de la f.d.r. en population finie. 4 Bibliograpie [1] Aragon Y. et Casanova S. (2007). Estimation de la fonction de répartition sur un domaine à l aide des quantiles et des M-quantiles conditionnels,xxxixèmes Journées de Statistique, Angers. [2] Casanova S. (2010). Using M-quantiles to estimate a cumulative distribution function in a domain. En révision aux Annales d Economie et de Statistique. [3] Cambers, R. L., Dorfman, A. H. and Hall, P. (1992). Properties of estimators of te finite population distribution function. Biometrika, 79, 3, 577-582. [4] Cambers, R. L. and Tzavidis, N. (2006). M-quantiles models for small area estimation, Biometrika, 93, 255 268. [5] Dorfman, A.H. and Hall, P. (1993). Estimators of te finite population distribution function using nonparametric regression. Te Annals of Statistics, 21, 3, 1452 1475. [6] Jonson, A., A., Breidt, F. J. and Opsomer, J. D. (2008), Estimating distribution functions from survey data using nonparametric regression. Journal of Statistical Teory and Practice, 2, 419 431. 5