1 DA et PX-DA pour l estimation bayésienne dans un modèle de régression probit

Documents pareils
Simulation de variables aléatoires

MCMC et approximations en champ moyen pour les modèles de Markov

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Méthodes de Simulation

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Probabilités III Introduction à l évaluation d options

3 Approximation de solutions d équations

Texte Agrégation limitée par diffusion interne

TD1 Signaux, énergie et puissance, signaux aléatoires

Température corporelle d un castor (une petite introduction aux séries temporelles)

FIMA, 7 juillet 2005

Chapitre 3. Les distributions à deux variables

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE

MATHS FINANCIERES. Projet OMEGA

Intégration et probabilités TD1 Espaces mesurés Corrigé

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

4. Martingales à temps discret

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

OM 1 Outils mathématiques : fonction de plusieurs variables

Suites numériques 4. 1 Autres recettes pour calculer les limites

ENS de Lyon TD septembre 2012 Introduction aux probabilités. A partie finie de N

Dualité dans les espaces de Lebesgue et mesures de Radon finies

La classification automatique de données quantitatives

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Sommaire Chapitre 1 Chapitre 2 Chapitre 3 Chapitre 4 Chapitre 5 Chapitre 6 Chapitre 7. ARC EPS Eco-microbiologie Prévisionnelle Statistique

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

L E Ç O N. Marches aléatoires. Niveau : Terminale S Prérequis : aucun

Espérance conditionnelle

TSTI 2D CH X : Exemples de lois à densité 1

Définitions. Numéro à préciser. (Durée : )

Modélisation aléatoire en fiabilité des logiciels

1.1 Codage de source et test d hypothèse

Intégration sur des espaces produits

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

8.1 Généralités sur les fonctions de plusieurs variables réelles. f : R 2 R (x, y) 1 x 2 y 2

de calibration Master 2: Calibration de modèles: présentation et simulation d

Chapitre 3. Algorithmes stochastiques. 3.1 Introduction

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

IFT3245. Simulation et modèles

Processus aléatoires avec application en finance

Cours de méthodes de scoring

Modélisation et simulation

Feuille TD n 1 Exercices d algorithmique éléments de correction

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

F411 - Courbes Paramétrées, Polaires

Calcul intégral élémentaire en plusieurs variables

MÉTHODE DE MONTE CARLO.

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

Chapitre 2 Le problème de l unicité des solutions

Transmission d informations sur le réseau électrique

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Raisonnement probabiliste

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Cours d initiation à la programmation en C++ Johann Cuenin

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Correction de l examen de la première session

Couples de variables aléatoires discrètes

Probabilités sur un univers fini

Notes du cours MTH1101N Calcul I Partie II: fonctions de plusieurs variables

G.P. DNS02 Septembre Réfraction...1 I.Préliminaires...1 II.Première partie...1 III.Deuxième partie...3. Réfraction

Exercices types Algorithmique et simulation numérique Oral Mathématiques et algorithmique Banque PT

Chp. 4. Minimisation d une fonction d une variable

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Programmes des classes préparatoires aux Grandes Ecoles

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

MIS 102 Initiation à l Informatique

I3, Probabilités 2014 Travaux Dirigés F BM F BM F BM F BM F B M F B M F B M F B M

Simulation : application au système bonus-malus en responsabilité civile automobile

Annexe commune aux séries ES, L et S : boîtes et quantiles

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Image d un intervalle par une fonction continue

Suites numériques 3. 1 Convergence et limite d une suite

Cours d Analyse. Fonctions de plusieurs variables

ESSEC. Cours «Management bancaire» Séance 3 Le risque de crédit Le scoring

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Algorithmes pour la planification de mouvements en robotique non-holonome

Programmation linéaire

aux différences est appelé équation aux différences d ordre n en forme normale.

8 Ensemble grand-canonique

Introduction à l étude des Corps Finis

Corrigé des TD 1 à 5

FORMULAIRE DE STATISTIQUES

Correction du baccalauréat ES/L Métropole 20 juin 2014

Théorie de l estimation et de la décision statistique

Intégration et probabilités ENS Paris, TD (20)13 Lois des grands nombres, théorème central limite. Corrigé :

Projet de Traitement du Signal Segmentation d images SAR

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

La NP-complétude. Johanne Cohen. PRISM/CNRS, Versailles, France.

Précision d un résultat et calculs d incertitudes

Résolution d équations non linéaires

Introduction à la statistique non paramétrique

Incertitude et variabilité : la nécessité de les intégrer dans les modèles

MARTINGALES POUR LA FINANCE

Transcription:

Méthodes de Monte Carlo par Chaînes de Markov et Applications M2 MVA 2012-2013 TD séance du 19 Novembre 2012 Rappel. Soit f : R d R une fonction mesurable telle que π(f 2 <. On dit qu un TLC est vérifié pour la fonction f si il existe une constante σ 2 (f positive ou nulle telle que n 1 (1 n f(x k π(f n k=0 P ξ = N(0,σ 2 (f. Nous avons vu que sous certaines conditions sur la chaîne (X k k, ( n 1 2 σ 2 1 (f = lim n n E π {f(x k π(f}. k=0 L objectif de cette séance est de considérer un problème d estimation de la moyenne a posteriori dans un modèle de régression probit et (i de comparer deux algorithmes MCMC DA et Parameter- Expanded DA (PX-DA pour le calcul de cette moyenne via la comparaison de leur variance σ 2 (f; (ii de comparer différents estimateurs de la variance asymptotique σ 2 (f lorsque (X k k est issue d un algorithme MCMC. 1 DA et PX-DA pour l estimation bayésienne dans un modèle de régression probit 1.1 Modèle de régression probit On dispose d observations binaires {d k } 1 k m modélisées comme une réalisation des v.a. {D k } 1 k m indépendantes, de loi de Bernoulli telles que P(D k = 1 = Φ(β T v k où {v 1,,v m } est une collection de régresseurs (connus v k R d et β R d est un vecteur inconnu (d < m. Φ désigne la fonction de répartition d une v.a. gaussienne N(0, 1. L objectif est d estimer β à l aide des observations {d k } 1 k m et de la matrice des régresseurs (par convention, les vecteurs sont des vecteurs-colonne v1 T V = Rm d. v T m 1

1.2 Jeu de données On considère le jeu de données Latent Membranous Lupus Nephritis 1 constitué de m = 55 observations binaires (présence/absence de maladie, de d = 3 régresseurs v k = (1,v k (1,v k (2 où v k (i sont des covariables indiquant la quantité de certains anti-corps chez l individu k. Ce jeu de données est disponible sur la page web du cours 2 sous la forme d un tableau m 4 contenant en ligne k le vecteur : (d k,1,v k (1,v k (2. 1.3 Inférence bayésienne La vraisemblance des observations est donnée m ( Φ(β T v k d k ( 1 Φ(β T v k 1 d k. On introduit un prior plat sur le paramètre β R d. Par suite, la loi cible est une loi sur R d de log-densité notée log f X et donnée par (on omet la dépendance en d k,v k m ( log f X (β = dk log Φ(β T v k + (1 d k log Φ(β T v k. (1 1.4 Algorithme DA pour le modèle de régression probit L algorithme DA est décrit en Annexe A en toute généralité. Ci-après, on décrit cet algorithme lorsqu appliqué au problème de régression probit. On pourra vérifier que l algorithme qui suit produit une chaîne (( n,β n n telle que la marginale (β n n est une chaîne de Markov de probabilité invariante f X (voir indications en Annexe A. Notons y TN(µ,1,d(y la densité d une loi Gaussienne de moyenne µ et variance 1 tronquée TN(µ,1,d(y = N(µ,1(y1I R +(y1i d=1 + N(µ,1(y1I R (y1i d=0. On pose Γ = (V T V 1 H = ΓV T. Pour le jeu de données considéré, la matrice V est de rang plein et Γ est bien définie [RH07] Algorithme DA Etant donnée ( n,β n R m R d, simuler ( n+1,β n+1 par : Tirer indépendamment n+1,1,, n+1,m de loi n+1,k TN(β T n v k,1,d k et appeler le résultat n+1 = ( n+1,1,, n+1,m. Simuler β n+1 N( H n+1,γ. 1 inflammation des reins causée par le lupus, maladie auto-immune qui survient lorsque le système immunitaire s attaque aux cellules de l organisme et les détruit. Jeu de données décrit en [VDM01] 2 http://perso.telecom-paristech.fr/ gfort, rubrique Teaching 2

1.5 Algorithme PX-DA pour le modèle de régression probit L algorithme PX-DA est décrit en Annexe B en toute généralité. Ci-après, on décrit cet algorithme lorsqu appliqué au problème de régression probit. On pourra vérifier que l algorithme qui suit produit une chaîne de Markov (β n n de probabilité invariante f X (voir indications en Annexe B. Algorithme PX-DA Etant donnée β n R d, simuler β n+1 par : Tirer n+1,1,, n+1,m indépendantes de loi n+1,k TN(β T n v k,1,d k et poser n+1 = ( n+1,1,, n+1,m R m. Simuler µ n+1 Gamma ( m 2, 1 2 T n+1 (I V ΓV T n+1. Simuler β n+1 N( µ n+1 Hn+1,Γ. 2 Application numérique 1 Ecrire un programme pour simuler une trajectoire de longueur N max de l algorithme DA. On pourra initialiser la chaîne en X 0 = ( 1.778 4.374 2.482. 2 Ecrire un programme pour simuler une trajectoire de longueur N max de l algorithme PX-DA. On pourra initialiser la chaîne en le même point initial X 0 que pour DA. 3 Modifier le code de PX-DA pour associer à la trajectoire de la chaîne, la suite des points de regénération (voir ci-dessous. 4 Comparer l estimateur de l espérance a posteriori β := βf X (βdβ obtenu par DA et par PX-DA. Pour ce faire, a pour chacun des deux algorithmes et pour chacune des 3 composantes de β, tracer l évolution de l estimateur en fonction de n (sur la même figure. b pour chacun des deux algorithmes et chacune des 3 composantes, estimer un intervalle de confiance asymptotique donné par le TCL pour l estimation de β,i. On pourra considérer l estimateur par batch means (BM. 5 Pour chaque composante i, comparer les estimateurs de la variance asymptotique pour l estimation de β,i par PX-DA, et étudier le rôle de certains paramètres d implémentation de ces estimateurs. Pour ce faire, on pourra par exemple a Relancer N fois l algorithme PX-DA. 3

b Utiliser chacune de ces N trajectoires pour calculer N estimations d intervalles de confiance (asymptotiques à 95%. Compter le nombre d intervalles de confiance (asymptotiques qui contiennent la vraie valeur 3 ( 3.0166 6.9107 3.9792 et comparer cette fréquence à 95%. c Répéter l étude (5b pour différents estimateurs de ces intervalles de confiance : BM avec b n n 1/3 ; BM avec b n n et RS. 6 Qu en concluez-vous? (vous pourrez comparer vos conclusions à celles de [FJ10]. Condition de minoration, algorithme PX-DA L algorithme PX-DA construit une chaîne de la forme β n 1 n β n n+1 β n+1 n+2. Pour construire les instants de regénération, il faut minorer le noyau de transition β n β n+1. Il y a deux stratégies possibles (voir Annexe C: soit on considère qu une transition de l algorithme est donnée par ( n,β n ( n+1,β n+1, soit on considère qu elle est donnée par (β n, n+1 (β n+1, n+2. D après l expression de la minoration donnée en Annexe C, l apparition d un instant de regénération est d autant plus fréquente que dans la stratégie 1 (resp. stratégie 2 n+1 est dans un hypercube (resp. β n+1 est dans un hypercube. Puisque n R m et β n R d, nous choisirons la stratégie 1 ssi m < d. Dans le cas du modèle de régression probit, la transition (β n, n+1 (β n+1, n+2 est une regénération avec probabilité donnée par 4 ( d exp i=1 {c i W n,i 1I R +(W n,i + d i W n,i 1I R (W n,i W n,i β n+1,i } 1I D (β n+1, où W n = ( µ n+1 n+1 y T V. Ici, D = [c 1,d 1 ] [c 2,d 2 ] [c 3,d 3 ]. On pourra construire c i,d i de la façon suivante (d après [RH07]: lancer une trajectoire de PX-DA de 20000 itérations. calculer la valeur moyenne de la chaîne le long de cette trajectoire : notée β ; y sera la valeur moyenne des tirages n. pour chaque composante i, calculer l écart-type standard pour l estimation de β,i le long de cette trajectoire, notée s i. poser c i = β,i 0.09s i ; d i = β,i + 0.09s i. 3 la valeur de β n est pas connue; la valeur donnée a été estimée à partir d une très longue trajectoire (10 8 itérations de l algorithme PX-DA et sera donc considérée comme la vraie valeur 4 cette affirmation est prouvée dans [RH07]; elle s obtient en appliquant les résultats de l Annexe C avec f 1 = f X. 4

A Algorithme DA L algorithme Data Augmentation est indiqué pour les situations où la loi cible f X peut s écrire comme la marginale d une loi jointe f(x,y à condition de savoir simuler sous les lois conditionnelles x f X (x y et y f X (y x. Voir par exemple [Hob11] pour une présentation générale de cet algorithme. Supposons qu il existe une densité de probabilité f(x,y sur R d R l telle que f X (x = f(x,ydy. On note f (y = f(x,ydx, X = {x R d,f X (x > 0} et = {y R l,f (y > 0} 1. Soit x,x X X. On définit p(x,x := f X (x y f X (y x dy. Vérifier que p est un noyau de transition de Markov. Proposer un algorithme pour simuler sous la loi de densité x p(x,x à partir d un échantillonneur des lois x f X (x y et y f X (y x. 2. Montrer que ce noyau est réversible par rapport à la densité cible f X (x. 3. Mise en oeuvre sur le modèle de régression probit: (voir [Hob11, RH07] (a montrer que la densité m f(x,y = N(vk T x,1(y k(1i R +(y k 1I dk =1 + 1I R (y k 1I dk =0 vérifie f X (x = f(x,ydy où f X est donnée par Eq. (1. (b Montrer que et que f X (x y N( Hy;Γ(x, m f X (y x N(vk T x,1(y k(1i R +(y k 1I dk =1 + 1I R (y k 1I dk =0. B Algorithme PX-DA L algorithme DA introduit une variable auxiliaire X n n+1 X n+1 pour simuler X n+1 à partir de X n. L algorithme PX-DA introduit un niveau de flexibilité supplémentaire en considérant deux variables auxiliaires X n n+1 n+1 X n+1 pour simuler X n+1 à partir de X n. 5

Pour obtenir n+1 à partir de n+1, on se donne une famille de transformations T µ : indexées par µ M et une loi de probabilité ω sur M. Dans la suite, on va se restreindre aux transformations de la forme = T µ ( = µ µ R +, et ω désignera la densité d une loi sur R + (par rapport à Lebesgue. On supposera que = µ pour tout µ > 0. Voir par exemple [Hob11] pour des familles T µ plus générales. Remarquons que f X (x = f(x,ydy = f(x,µzµ l dz = f(x,µzµ l dz {z:µz } ce qui entraine que f X (x = f X (xω(µdµ = R + ( f(x,µzµ l ω(µdµ dz. R + Ainsi, on a écrit f X comme la marginale d une loi f (x,y définie par f (x,y = f(x,µyµ l ω(µdµ. R + PX-DA est l algorithme DA appliqué avec cette loi marginale f, à condition de savoir simuler sous les lois marginales f X et f X. 1. Montrer que pour simuler sous la loi conditionnelle f X ( x il suffit de Tirer indépendamment µ et sous la loi resp. ω et f X ( x Retourner /µ. 2. Mise en oeuvre sur le modèle de régression probit : (voir [Hob11, RH07] a On considère ω(µ µ 2α 1 exp( µ 2 δ sur R + où α,δ > 0. Vérifier que ω est la loi de U lorsque U Gamma(α,δ. b En déduire un algorithme pour simuler sous f X ( x. c Montrer que f X (x y = R + f X (x µy H(µ y dµ où pour tout y, µ H(µ y est une densité sur R + proportionnelle à H(µ y µ 2α 1 exp ( 0.5µ 2 (2δ + y T (I V ΓV T y 1I R +(y. d Vérifier que µ H(µ y est la loi de V où ( V Gamma α + m 2,δ + 1 2 yt (I V ΓV T y. e En déduire un algorithme pour simuler sous f X ( y. Lorsque l on applique cet algorithme avec α = δ = 0, cela signifie que l on met un prior plat sur µ (ω(µ = 1 pour tout µ et dans ce cas, f X = f X (voir [LW99]. 6

C Condition de minoration pour un algorithme de Gibbs Soit un algorithme de Gibbs pour la simulation d un couple de v.a. (U,V de loi jointe f. Notont f 1 (resp. f 2 sa première marginale (resp. sa seconde. Alors le noyau de transition est donné par p((u,v;(u,v = f 1 (u v f 2 (v u. On fixe une valeur v et un sous-ensemble D de l espace d état de U. Alors, p((u,v;(u,v = f 1(u v f 1 (u v f 1(u v f 2 (v u 1I D (u cinf D f 1 ( v f 1 ( v 1 c f 1(u v f 2 (v u où c := 1I D (u f 1 (u v f 2 (v u du dv = 1I D (u f 1 (u v du. La condition de minoration est donc vérifiée avec s(u,v := cinf D f 1 ( v f 1 ( v Q(u,v := 1 c f 1(u v f 2 (v u 1I D (u. La probabilité de regénération est donnée par s(u,vq(u,v p((u,v;(u,v = f 1(u v f 1 (u v ( f 1 ( v inf D f 1 ( v 1I D (u. Elle est en particulier nulle pour tout u / D. References [FJ10] J.M. Flegal and G. L. Jones. Batch means and spectral variance estimators in markov chain monte carlo. Ann. Statist., 38, 2010. [Hob11] J.P. Hobert. Handbook of Markov Chain Monte Carlo, chapter The data augmentation algorithm: theory and methodology. Chapman & Hall, 2011. [LW99] J.S. Liu and.n. Wu. Parameter expansion for data augmentation. J. Amer. Statist. Assoc., 94, 1999. [RH07] V. Roy and J.P. Hobert. Convergence rates and asymptotics standard errors for markov chain monte carlo algorithms for bayesian probit regression. J.R.Statist.Soc.B, 69, 2007. [VDM01] D.A. Van Dyk and X.L. Meng. The art of data augmentation. J. Comput. Graph. Statist., 10, 2001. 7