Méthodes de Monte Carlo par Chaînes de Markov et Applications M2 MVA 2012-2013 TD séance du 19 Novembre 2012 Rappel. Soit f : R d R une fonction mesurable telle que π(f 2 <. On dit qu un TLC est vérifié pour la fonction f si il existe une constante σ 2 (f positive ou nulle telle que n 1 (1 n f(x k π(f n k=0 P ξ = N(0,σ 2 (f. Nous avons vu que sous certaines conditions sur la chaîne (X k k, ( n 1 2 σ 2 1 (f = lim n n E π {f(x k π(f}. k=0 L objectif de cette séance est de considérer un problème d estimation de la moyenne a posteriori dans un modèle de régression probit et (i de comparer deux algorithmes MCMC DA et Parameter- Expanded DA (PX-DA pour le calcul de cette moyenne via la comparaison de leur variance σ 2 (f; (ii de comparer différents estimateurs de la variance asymptotique σ 2 (f lorsque (X k k est issue d un algorithme MCMC. 1 DA et PX-DA pour l estimation bayésienne dans un modèle de régression probit 1.1 Modèle de régression probit On dispose d observations binaires {d k } 1 k m modélisées comme une réalisation des v.a. {D k } 1 k m indépendantes, de loi de Bernoulli telles que P(D k = 1 = Φ(β T v k où {v 1,,v m } est une collection de régresseurs (connus v k R d et β R d est un vecteur inconnu (d < m. Φ désigne la fonction de répartition d une v.a. gaussienne N(0, 1. L objectif est d estimer β à l aide des observations {d k } 1 k m et de la matrice des régresseurs (par convention, les vecteurs sont des vecteurs-colonne v1 T V = Rm d. v T m 1
1.2 Jeu de données On considère le jeu de données Latent Membranous Lupus Nephritis 1 constitué de m = 55 observations binaires (présence/absence de maladie, de d = 3 régresseurs v k = (1,v k (1,v k (2 où v k (i sont des covariables indiquant la quantité de certains anti-corps chez l individu k. Ce jeu de données est disponible sur la page web du cours 2 sous la forme d un tableau m 4 contenant en ligne k le vecteur : (d k,1,v k (1,v k (2. 1.3 Inférence bayésienne La vraisemblance des observations est donnée m ( Φ(β T v k d k ( 1 Φ(β T v k 1 d k. On introduit un prior plat sur le paramètre β R d. Par suite, la loi cible est une loi sur R d de log-densité notée log f X et donnée par (on omet la dépendance en d k,v k m ( log f X (β = dk log Φ(β T v k + (1 d k log Φ(β T v k. (1 1.4 Algorithme DA pour le modèle de régression probit L algorithme DA est décrit en Annexe A en toute généralité. Ci-après, on décrit cet algorithme lorsqu appliqué au problème de régression probit. On pourra vérifier que l algorithme qui suit produit une chaîne (( n,β n n telle que la marginale (β n n est une chaîne de Markov de probabilité invariante f X (voir indications en Annexe A. Notons y TN(µ,1,d(y la densité d une loi Gaussienne de moyenne µ et variance 1 tronquée TN(µ,1,d(y = N(µ,1(y1I R +(y1i d=1 + N(µ,1(y1I R (y1i d=0. On pose Γ = (V T V 1 H = ΓV T. Pour le jeu de données considéré, la matrice V est de rang plein et Γ est bien définie [RH07] Algorithme DA Etant donnée ( n,β n R m R d, simuler ( n+1,β n+1 par : Tirer indépendamment n+1,1,, n+1,m de loi n+1,k TN(β T n v k,1,d k et appeler le résultat n+1 = ( n+1,1,, n+1,m. Simuler β n+1 N( H n+1,γ. 1 inflammation des reins causée par le lupus, maladie auto-immune qui survient lorsque le système immunitaire s attaque aux cellules de l organisme et les détruit. Jeu de données décrit en [VDM01] 2 http://perso.telecom-paristech.fr/ gfort, rubrique Teaching 2
1.5 Algorithme PX-DA pour le modèle de régression probit L algorithme PX-DA est décrit en Annexe B en toute généralité. Ci-après, on décrit cet algorithme lorsqu appliqué au problème de régression probit. On pourra vérifier que l algorithme qui suit produit une chaîne de Markov (β n n de probabilité invariante f X (voir indications en Annexe B. Algorithme PX-DA Etant donnée β n R d, simuler β n+1 par : Tirer n+1,1,, n+1,m indépendantes de loi n+1,k TN(β T n v k,1,d k et poser n+1 = ( n+1,1,, n+1,m R m. Simuler µ n+1 Gamma ( m 2, 1 2 T n+1 (I V ΓV T n+1. Simuler β n+1 N( µ n+1 Hn+1,Γ. 2 Application numérique 1 Ecrire un programme pour simuler une trajectoire de longueur N max de l algorithme DA. On pourra initialiser la chaîne en X 0 = ( 1.778 4.374 2.482. 2 Ecrire un programme pour simuler une trajectoire de longueur N max de l algorithme PX-DA. On pourra initialiser la chaîne en le même point initial X 0 que pour DA. 3 Modifier le code de PX-DA pour associer à la trajectoire de la chaîne, la suite des points de regénération (voir ci-dessous. 4 Comparer l estimateur de l espérance a posteriori β := βf X (βdβ obtenu par DA et par PX-DA. Pour ce faire, a pour chacun des deux algorithmes et pour chacune des 3 composantes de β, tracer l évolution de l estimateur en fonction de n (sur la même figure. b pour chacun des deux algorithmes et chacune des 3 composantes, estimer un intervalle de confiance asymptotique donné par le TCL pour l estimation de β,i. On pourra considérer l estimateur par batch means (BM. 5 Pour chaque composante i, comparer les estimateurs de la variance asymptotique pour l estimation de β,i par PX-DA, et étudier le rôle de certains paramètres d implémentation de ces estimateurs. Pour ce faire, on pourra par exemple a Relancer N fois l algorithme PX-DA. 3
b Utiliser chacune de ces N trajectoires pour calculer N estimations d intervalles de confiance (asymptotiques à 95%. Compter le nombre d intervalles de confiance (asymptotiques qui contiennent la vraie valeur 3 ( 3.0166 6.9107 3.9792 et comparer cette fréquence à 95%. c Répéter l étude (5b pour différents estimateurs de ces intervalles de confiance : BM avec b n n 1/3 ; BM avec b n n et RS. 6 Qu en concluez-vous? (vous pourrez comparer vos conclusions à celles de [FJ10]. Condition de minoration, algorithme PX-DA L algorithme PX-DA construit une chaîne de la forme β n 1 n β n n+1 β n+1 n+2. Pour construire les instants de regénération, il faut minorer le noyau de transition β n β n+1. Il y a deux stratégies possibles (voir Annexe C: soit on considère qu une transition de l algorithme est donnée par ( n,β n ( n+1,β n+1, soit on considère qu elle est donnée par (β n, n+1 (β n+1, n+2. D après l expression de la minoration donnée en Annexe C, l apparition d un instant de regénération est d autant plus fréquente que dans la stratégie 1 (resp. stratégie 2 n+1 est dans un hypercube (resp. β n+1 est dans un hypercube. Puisque n R m et β n R d, nous choisirons la stratégie 1 ssi m < d. Dans le cas du modèle de régression probit, la transition (β n, n+1 (β n+1, n+2 est une regénération avec probabilité donnée par 4 ( d exp i=1 {c i W n,i 1I R +(W n,i + d i W n,i 1I R (W n,i W n,i β n+1,i } 1I D (β n+1, où W n = ( µ n+1 n+1 y T V. Ici, D = [c 1,d 1 ] [c 2,d 2 ] [c 3,d 3 ]. On pourra construire c i,d i de la façon suivante (d après [RH07]: lancer une trajectoire de PX-DA de 20000 itérations. calculer la valeur moyenne de la chaîne le long de cette trajectoire : notée β ; y sera la valeur moyenne des tirages n. pour chaque composante i, calculer l écart-type standard pour l estimation de β,i le long de cette trajectoire, notée s i. poser c i = β,i 0.09s i ; d i = β,i + 0.09s i. 3 la valeur de β n est pas connue; la valeur donnée a été estimée à partir d une très longue trajectoire (10 8 itérations de l algorithme PX-DA et sera donc considérée comme la vraie valeur 4 cette affirmation est prouvée dans [RH07]; elle s obtient en appliquant les résultats de l Annexe C avec f 1 = f X. 4
A Algorithme DA L algorithme Data Augmentation est indiqué pour les situations où la loi cible f X peut s écrire comme la marginale d une loi jointe f(x,y à condition de savoir simuler sous les lois conditionnelles x f X (x y et y f X (y x. Voir par exemple [Hob11] pour une présentation générale de cet algorithme. Supposons qu il existe une densité de probabilité f(x,y sur R d R l telle que f X (x = f(x,ydy. On note f (y = f(x,ydx, X = {x R d,f X (x > 0} et = {y R l,f (y > 0} 1. Soit x,x X X. On définit p(x,x := f X (x y f X (y x dy. Vérifier que p est un noyau de transition de Markov. Proposer un algorithme pour simuler sous la loi de densité x p(x,x à partir d un échantillonneur des lois x f X (x y et y f X (y x. 2. Montrer que ce noyau est réversible par rapport à la densité cible f X (x. 3. Mise en oeuvre sur le modèle de régression probit: (voir [Hob11, RH07] (a montrer que la densité m f(x,y = N(vk T x,1(y k(1i R +(y k 1I dk =1 + 1I R (y k 1I dk =0 vérifie f X (x = f(x,ydy où f X est donnée par Eq. (1. (b Montrer que et que f X (x y N( Hy;Γ(x, m f X (y x N(vk T x,1(y k(1i R +(y k 1I dk =1 + 1I R (y k 1I dk =0. B Algorithme PX-DA L algorithme DA introduit une variable auxiliaire X n n+1 X n+1 pour simuler X n+1 à partir de X n. L algorithme PX-DA introduit un niveau de flexibilité supplémentaire en considérant deux variables auxiliaires X n n+1 n+1 X n+1 pour simuler X n+1 à partir de X n. 5
Pour obtenir n+1 à partir de n+1, on se donne une famille de transformations T µ : indexées par µ M et une loi de probabilité ω sur M. Dans la suite, on va se restreindre aux transformations de la forme = T µ ( = µ µ R +, et ω désignera la densité d une loi sur R + (par rapport à Lebesgue. On supposera que = µ pour tout µ > 0. Voir par exemple [Hob11] pour des familles T µ plus générales. Remarquons que f X (x = f(x,ydy = f(x,µzµ l dz = f(x,µzµ l dz {z:µz } ce qui entraine que f X (x = f X (xω(µdµ = R + ( f(x,µzµ l ω(µdµ dz. R + Ainsi, on a écrit f X comme la marginale d une loi f (x,y définie par f (x,y = f(x,µyµ l ω(µdµ. R + PX-DA est l algorithme DA appliqué avec cette loi marginale f, à condition de savoir simuler sous les lois marginales f X et f X. 1. Montrer que pour simuler sous la loi conditionnelle f X ( x il suffit de Tirer indépendamment µ et sous la loi resp. ω et f X ( x Retourner /µ. 2. Mise en oeuvre sur le modèle de régression probit : (voir [Hob11, RH07] a On considère ω(µ µ 2α 1 exp( µ 2 δ sur R + où α,δ > 0. Vérifier que ω est la loi de U lorsque U Gamma(α,δ. b En déduire un algorithme pour simuler sous f X ( x. c Montrer que f X (x y = R + f X (x µy H(µ y dµ où pour tout y, µ H(µ y est une densité sur R + proportionnelle à H(µ y µ 2α 1 exp ( 0.5µ 2 (2δ + y T (I V ΓV T y 1I R +(y. d Vérifier que µ H(µ y est la loi de V où ( V Gamma α + m 2,δ + 1 2 yt (I V ΓV T y. e En déduire un algorithme pour simuler sous f X ( y. Lorsque l on applique cet algorithme avec α = δ = 0, cela signifie que l on met un prior plat sur µ (ω(µ = 1 pour tout µ et dans ce cas, f X = f X (voir [LW99]. 6
C Condition de minoration pour un algorithme de Gibbs Soit un algorithme de Gibbs pour la simulation d un couple de v.a. (U,V de loi jointe f. Notont f 1 (resp. f 2 sa première marginale (resp. sa seconde. Alors le noyau de transition est donné par p((u,v;(u,v = f 1 (u v f 2 (v u. On fixe une valeur v et un sous-ensemble D de l espace d état de U. Alors, p((u,v;(u,v = f 1(u v f 1 (u v f 1(u v f 2 (v u 1I D (u cinf D f 1 ( v f 1 ( v 1 c f 1(u v f 2 (v u où c := 1I D (u f 1 (u v f 2 (v u du dv = 1I D (u f 1 (u v du. La condition de minoration est donc vérifiée avec s(u,v := cinf D f 1 ( v f 1 ( v Q(u,v := 1 c f 1(u v f 2 (v u 1I D (u. La probabilité de regénération est donnée par s(u,vq(u,v p((u,v;(u,v = f 1(u v f 1 (u v ( f 1 ( v inf D f 1 ( v 1I D (u. Elle est en particulier nulle pour tout u / D. References [FJ10] J.M. Flegal and G. L. Jones. Batch means and spectral variance estimators in markov chain monte carlo. Ann. Statist., 38, 2010. [Hob11] J.P. Hobert. Handbook of Markov Chain Monte Carlo, chapter The data augmentation algorithm: theory and methodology. Chapman & Hall, 2011. [LW99] J.S. Liu and.n. Wu. Parameter expansion for data augmentation. J. Amer. Statist. Assoc., 94, 1999. [RH07] V. Roy and J.P. Hobert. Convergence rates and asymptotics standard errors for markov chain monte carlo algorithms for bayesian probit regression. J.R.Statist.Soc.B, 69, 2007. [VDM01] D.A. Van Dyk and X.L. Meng. The art of data augmentation. J. Comput. Graph. Statist., 10, 2001. 7