Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes



Documents pareils
Principe de symétrisation pour la construction d un test adaptatif

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

PROBABILITES ET STATISTIQUE I&II

Simulation de variables aléatoires

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Approche modèle pour l estimation en présence de non-réponse non-ignorable en sondage

Keywords: Probability of catastrophic events, Bivariate extreme value theory, Heavy tailed distributions, ALS methods.

Modélisation aléatoire en fiabilité des logiciels

FIMA, 7 juillet 2005

Introduction à la statistique non paramétrique

Économetrie non paramétrique I. Estimation d une densité

Programmes des classes préparatoires aux Grandes Ecoles

Modélisation géostatistique des débits le long des cours d eau.

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Texte Agrégation limitée par diffusion interne

TABLE DES MATIERES. C Exercices complémentaires 42

Echantillonnage Non uniforme

NON-LINEARITE ET RESEAUX NEURONAUX

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Chapitre 3. Les distributions à deux variables

MODELES DE DUREE DE VIE

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Évaluation de la régression bornée

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Chapitre 2 Le problème de l unicité des solutions

Modèle GARCH Application à la prévision de la volatilité

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Etude des propriétés empiriques du lasso par simulations

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

La fonction exponentielle

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Modèles bi-dimensionnels de coques linéairement élastiques: Estimations de l écart entre leurs solutions.

aux différences est appelé équation aux différences d ordre n en forme normale.

I. Polynômes de Tchebychev

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

TABLE DES MATIÈRES. Bruxelles, De Boeck, 2011, 736 p.

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Statistiques Décisionnelles L3 Sciences Economiques & Gestion Faculté d économie, gestion & AES Université Montesquieu - Bordeaux

Tests exacts d indépendance sérielle dans les cas de distributions continues et discrètes

Approche par groupe de gènes pour les données longitudinales d expression génique avec une application dans un essai vaccinal contre le VIH

3. Conditionnement P (B)

T.P. FLUENT. Cours Mécanique des Fluides. 24 février 2006 NAZIH MARZOUQY

TABLE DES MATIÈRES. PRINCIPES D EXPÉRIMENTATION Planification des expériences et analyse de leurs résultats. Pierre Dagnelie

Que faire lorsqu on considère plusieurs variables en même temps?

Probabilités III Introduction à l évaluation d options

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Travail en collaboration avec F.Roueff M.S.Taqqu C.Tudor

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Prédiction et Big data

Méthodes de Simulation

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

Application des courbes ROC à l analyse des facteurs pronostiques binaires

Annexe commune aux séries ES, L et S : boîtes et quantiles

APPROCHE DE MODELISATION DE LA PROPAGATION DE L INCENDIE DANS UN EDIFICE ET SON INTEGRATION DANS UN SYSTEME DECISIONNEL

Sur quelques applications des processus de branchement en biologie moléculaire

Moments des variables aléatoires réelles

CNAM léments de cours Bonus-malus et Crédibilité

3. Caractéristiques et fonctions d une v.a.

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Encryptions, compression et partitionnement des données

Correction du Baccalauréat S Amérique du Nord mai 2007

Analyse en Composantes Principales

Introduction à l approche bootstrap

I Stabilité, Commandabilité et Observabilité Introduction Un exemple emprunté à la robotique Le plan Problème...

TSTI 2D CH X : Exemples de lois à densité 1

Dualité dans les espaces de Lebesgue et mesures de Radon finies

UNIVERSITÉ DU QUÉBEC À MONTRÉAL TESTS EN ÉCHANTILLONS FINIS DU MEDAF SANS LA NORMALITÉ ET SANS LA CONVERGENCE

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

COMPARAISON DE LOGICIELS TESTANT L INDEPENDANCE DE VARIABLES BINAIRES

Suites numériques 4. 1 Autres recettes pour calculer les limites

Approximations variationelles des EDP Notes du Cours de M2

Introduction au datamining

Processus de comptage, Poisson mélange, fonction de perte exponentielle, système bonus-malus.

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Exercices Alternatifs. Quelqu un aurait-il vu passer un polynôme?

Travaux dirigés d introduction aux Probabilités

Etude de fonctions: procédure et exemple

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Complément d information concernant la fiche de concordance

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

IFT3245. Simulation et modèles

La méthode de régression par discontinuité et l évaluation des politiques de l emploi

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

Capes Première épreuve

Mesures gaussiennes et espaces de Fock

FICHE UE Licence/Master Sciences, Technologies, Santé Mention Informatique

Équation de Langevin avec petites perturbations browniennes ou

CHAPITRE I. Modélisation de processus et estimation des paramètres d un modèle

TRS: Sélection des sous-graphes représentants par l intermédiaire des attributs topologiques et K-medoïdes

Jean-Baptiste AUBIN Maître de Conférence en Statistique

Classification Automatique de messages : une approche hybride

Transcription:

de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,zguessoum@usthb.dz 2 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie, fhamrani@usthb.dz Résumé. Nous comparons dans ce travail de simulation les performances de l estimateur à noyau de la fonction de régression pour un modèle tronqué à gauche (RLT), lorsque les données sont indépendantes, α-melangeantes puis associées. Nous rappelons les résultats théoriques obtenus dans les deux premiers cas et nous présentons nos résultats dans le dernier cas c-à-d associé. Mots-clés. Alpha-mélange, Association, Estimateur à noyau, régression non paramétrique, Troncature aléatoire gauche. Abstract. Our interest in this work of simulation is to compare the performance of the kernel estimator of the regression function in the random left truncated (RLT) model, when the data are independent, α-mixing and associated. We recall some results for the first and second case and we give our result in the associated case. Keywords. : Alpha-mixing, Association,Kernel estimator, Nonparametric regression, Random left-truncation model. 1 Introduction Soit (X i, Y i ); i = 1,, N} une suite strictement stationnaire de vecteurs aléatoires définie dans le même espace de probabilté (Ω, F, P) à valeurs dans R d R, ayant la même loi que (X, Y ). Si X et Y ne sont pas independants et X est observable, il est raisonnable de prédire Y à partir des informations apportées par X. Cette relation dite de régression est modélisée par Y i = m(x i ) + ɛ i ; i = 1,, N, où m(.) désigne la fonction de régression et ɛ i ; i = 1,, N} est une suite d erreurs indépendante de X i ; i = 1,, N}. Il est connu que le meilleur prédicteur conditionnel de Y sachant X ( au sens des moindres carrés) est donné par m(x) = E [Y/X = x], x R d, qui peut être écrit sous la forme suivante m(x) = ψ(x) v(x) 1

avec ψ(x) = yf(x, y)dy, f(.,.) est la densié conjointe de (X, Y ) et v(.) est la densité R marginale de X. Dans certains échantillons de survie, il arrive que la variable d intérêt Y ne soit pas complétement observable. Nous nous intéressons ici au modèle de troncature à gauche qui, à l origine, est apparu en astronomie et ensuite a été étendu à plusieurs domaines. Dans ce modèle, nous n observons Y i que si Y i T i, où T i, i = 1,, N} désigne une suite de variables de troncature de même loi que T. Il est clair que nous disposons alors d un échantillon observé (X i, Y i, T i ); i = 1,, n} de taille n N. En pratique, Le fait de supposer que les données sont toujours indépendantes est peu réaliste, c est pour cela que depuis quelques années plusieurs auteurs ont concentré leurs études sur des données présentant une certaine forme de dépendance. Dans ce travail de simulation, nous nous intéressons à l estimateur à noyau de la fonction de régression pour un modèle tronqué à gauche. Nous rappelons ainsi les résultats existant sur sa convergence dans le cas des données indépendantes (E. Ould Said and M. Lemdani 2006), α mélangeantes (H. Y. Liang,D. L. Li and Y. C. Qi 2009) et nous présentons nos résultats dans le cas associé. Une famille finie de variables aléatoires Y = (Y 1..., Y N ) est dite associée si cov(f(y ), g(y )) 0 pour toutes fonctions f et g non décroissante de R N dans R pour lesquelles cette covariance existe. Une famille infinie est dite associée si toute sous famille finie est associée. Nous effectuons des simulations de l estimateur dans les differents modèles afin de vérifier sa qualité et de confronter les résultats pratiques à ceux attendus par la théorie. 2 Définition de l estimateur et présentations des résultats E. Ould Said and M. Lemdani (2006) ont défini un estimateur de la fonction régression pour un modèle tronqué à gauche par avec ˆψ n (x) = α n n i=1 Y i G n (Y i ) K d ˆm n (x) = ˆψ n (x) ˆv n (x) ( ) x Xi h n et ˆv n (x) = α n n i=1 1 G n (Y i ) K d ( ) x Xi K d : R d R est la fonction à noyau, h n est appelée fenêtre qui tend vers 0 quand n, G n est l estimateur de Lynden-bell (1971) de la F.r G de la v.a de troncature T, α n est l estimateur de α := P(Y T ) proposé par S.He and G. Yang,(1998). 2 h n

Dans le cas independant et d = 1, E. Ould Said and M. Lemdani (2006) ont établi sa convergence uniforme ainsi que sa normalité asymptotique. Quand les données sont α-melangeantes, H. Y. Liang,D. L. Li and Y. C. Qi (2009) ont donné le taux de convergence uniforme de cet estimateur et H. Y. Liang (2011) a étudié son comportement asymptotique. Dans le cas où les (X i, Y i ) i=1,,n sont associés, nous avons établi la convergence uniforme sur un compact D du même estimateur sous certaines conditions sur la fenêtre, le noyau et des conditions de régularité sur les densités conjointes et marginales. Notre résultat est énoncé dans le théorème suivant dans lequel on supposera aussi une décroissance exponentielle du coefficient de covariance liant la suite (X i, Y i ) i=1,,n. Théorème : sup ˆm n (x) m n (x) = O x D avec 0 < θ < log n 2γ, κ, γ sont des réels positifs. 4γ+18+3κ ( ) } θ log log n h n P - p.s quand n n Si nous comparons notre vitesse de convergence avec celles obtenues dans les cas indépendant et α-mélangeant, nous voyons apparaître un terme dépendant de θ, qui est dû à l effet de l association. Notons que notre vitesse est légérement meilleure que celle obtenue dans le cas indépendant par E. Ould Said and M. Lemdani (2006) grâce à une condition de symétrie sur le noyau, et qu elle est similaire à celle obtenue par H. Y. Liang,D. L. Li and Y. C. Qi (2009) dans le cas alpha-mélangeant. 3 Simulation Dans cette partie, nous réalisons des simulations pour étudier la performance de l estimateur ˆm n (x) de m(x) dans le cas où d = 1 sur des échantillons de taille finie. L estimateur ˆm n (x) dépend du choix du noyau et de la fenêtre h n. Le choix du noyau influe peu sur la performance de cet estimateur ce qui nous a conduit à privilégier la solution classique du noyau gaussien dans tous les modèles. Le choix de la fenêtre h n est, en revanche, crucial. Nous choisissons dans les différentes cas les fenêtres optimales suivantes : cas indépendant : h n = Cn 1/5 ( obtenue par B. W. Silverman (1986) pour les données complètes), cas α-mélange et associé : h n = C ( ) logn 1/3( n obtenue par E. Liebscher (2002) pour les données complètes α-mélangeantes). avec C une constante à adapter pour chaque modèle. 3

On simule dans un premier temps, N valeurs (X i, Y i, T i ) i=1,,n du triplet de variables aléatoires (X, Y, T ) avec T indépendante de (X, Y ), et T exp(λ), λ est adapté de manière à obtenir les différentes valeurs de α. Ensuite on retient les observations (X i, Y i, T i ) i=1,,n vérifiant Y i T i. Dans les graphes suivants on remarque que la qualité de l estimateur est affecté beaucoup plus par n la taille de l échantillon que par le taux de troncature α. Cas indépendant : Xi N(0, 1), Y i = 2X i + 1 + ɛ i, ɛ i N(0.2, 1). Fig. 1 m(x) = 2x + 1 avec α 70% et n = 50, 100, 300, respectivement. Cas α melange : Xi = 0.1X i 1 + ɛ 1i, ɛ 1i N(0, 1), Y i = 2X i + 1 + ɛ 2i, ɛ 2i N(0.2, 1). Fig. 2 m(x) = 2x + 1 avec α 70% et n = 50, 100, 300, respectivement. 4

Cas associé : Xi = exp(w i 1 /2) exp(w i 2 /2), W i sont N+1 v.a iid N(0, 1), Y i = 2X i + 1 + ɛ i, ɛ i N(0.2, 1). Fig. 3 m(x) = 2x + 1 avec α 70% et n = 50, 100, 300, respectivement. Bibliographie [1] He,S., Yang,G.(1998). Estimation of the truncation probability in the random truncation model. The Annals of Statistics. Vol 26 : 1011-1027. [2] Liang,H.Y.,Li,D. L.,Qi, Y.C. (2009).Strong convergence in nonparametric regression with truncated dependent data. J.Multivariate Anal. Vol 100 :162-174. [3] Liang,H.Y.(2011). Asymptotic normality for regression function estimate under truncation and α-mixing conditions. C. Statistics-Theory and Methods. Vol 40 :1999-2021. [4] Liebscher,E. (2002). Kernel density and hazard rate estimation for censored data under α-mixing condition. Ann.Inst.Statist.Math. Vol 34 :19-28. [5] Lynden-Bell, D., (1971). A method of allowing for known observational selection in small samples applied to 3CR quasars. Monthly Notices Royal Astronomy Society Vol 155 : 95-118. [6] Ould Saïd,E. Lemdani,M. (2006). Asymptotic properties of a nonparametric regression function estimator with randomly truncated data.ann.inst.statist.math. Vol 58 :357-378. 5