MÉTHODE DE MONTE CARLO PAR CHAÎNE DE MARKOV. Alexandre Popier Université du Maine, Le Mans A. Popier (Université du Maine) MCMC. 1 / 31
PLAN DU COURS 1 RAPPELS SUR LES CHAÎNES DE MARKOV Théorème ergodique Vitesse de convergence? 2 ALGORITHME DE PROPP-WILSON 3 ALGORITHME DE METROPOLIS-HASTINGS 4 ÉCHANTILLONNAGE DE GIBBS A. Popier (Université du Maine) MCMC. 2 / 31
INTRODUCTION. BUT Calculer une espérance E(X) avec X de loi donnée (dite cible). REMARQUE : pas nécessaire de simuler un échantillon suivant la loi cible (échantillonnage d importance). LOIS MAL CONNUES. Modèles avec probabilité connue à constante près : mécanique statistique, Ising : f (s) exp H s i J i s i s j, s i { 1, 1}. (i,j) E A. Popier (Université du Maine) MCMC. 3 / 31
INTRODUCTION. BUT Calculer une espérance E(X) avec X de loi donnée (dite cible). LOIS MAL CONNUES. Inférence statistique : soit X = (X 1,..., X n ) un n-échantillon de loi de densité connue à un paramètre θ près. Approche bayésienne : θ v.a. de loi - appelée loi a priori - de densité π(θ). Loi de θ sachant X dite loi a posteriori : π (θ X=x) (θ) = π(θ)f (X θ) (x) Θ π(θ)f (X θ)(x)dθ π(θ)f (X θ)(x), avec f (X θ) densité conditionnelle de X sachant θ. A. Popier (Université du Maine) MCMC. 3 / 31
INTRODUCTION. BUT Calculer une espérance E(X) avec X de loi donnée (dite cible). LOIS MAL CONNUES. Inférence statistique : soit X = (X 1,..., X n ) un n-échantillon de loi de densité connue à un paramètre θ près. Approche bayésienne : Estimateur bayésien : T (x) = argmin T L(θ, T (x))π (θ X=x) dθ, p.p. Θ Exemple : L(θ, T (x)) = θ T (x) 2 T (x) = E(θ X = x). A. Popier (Université du Maine) MCMC. 3 / 31
MÉTHODE MCMC. DÉFINITION On appelle algorithme MCMC (pour Monte Carlo Markov Chain) toute méthode produisant une chaîne de Markov (X (n) ) ergodique de loi stationnaire la distribution cible. REMARQUE : structure lourde, mais naturelle dans algorithmes d optimisation stochastique (Robbins-Moro, recuit simulé, algorithmes génétiques) ; parfois seule possibilité (inférence statistique) ou plus efficace qu un algorithme de rejet. A. Popier (Université du Maine) MCMC. 4 / 31
PLAN 1 RAPPELS SUR LES CHAÎNES DE MARKOV Théorème ergodique Vitesse de convergence? 2 ALGORITHME DE PROPP-WILSON 3 ALGORITHME DE METROPOLIS-HASTINGS 4 ÉCHANTILLONNAGE DE GIBBS A. Popier (Université du Maine) MCMC. 5 / 31
PLAN 1 RAPPELS SUR LES CHAÎNES DE MARKOV Théorème ergodique Vitesse de convergence? 2 ALGORITHME DE PROPP-WILSON 3 ALGORITHME DE METROPOLIS-HASTINGS 4 ÉCHANTILLONNAGE DE GIBBS A. Popier (Université du Maine) MCMC. 6 / 31
THÉORÈME ERGODIQUE. NOTATIONS : matrice de transition P sur espace d états fini ou dénombrable E, (X x n ) n N : chaîne de Markov d état initial x et de matrice de transition P. Une mesure π sur E est un vecteur dont tous les termes sont positifs. Elle est invariante si πp = π. Une probabilité π est une mesure telle que E Une probabilité π est réversible si Alors elle est invariante. (x, y) E 2, π y P(y, x) = π x P(x, y). π(x) = 1. A. Popier (Université du Maine) MCMC. 7 / 31
THÉORÈME ERGODIQUE. NOTATIONS : matrice de transition P sur espace d états fini ou dénombrable E, (X x n ) n N : chaîne de Markov d état initial x et de matrice de transition P. THÉORÈME ERGODIQUE Soit P une matrice de transition irréductible. On suppose qu il existe une probabilité invariante π. Alors : 1 π est l unique probabilité invariante et π(x) > 0 pour tout x E. 2 Tous les états sont récurrents (chaîne dite récurrence positive). 3 Pour tout état x E et toute fonction f : E R telle que E f (x) π(x) < + 1 lim n + n n f (Xk x ) = E k=1 f (x)π(x), P p.s. A. Popier (Université du Maine) MCMC. 7 / 31
PRINCIPE. MÉTHODE Pour calculer une intégrale par rapport à π, remplacer la simulation d une suite de v.a. i.i.d. de loi π par celle d une chaîne de Markov irréductible de probabilité invariante π, puis la loi forte des grands nombres par le théorème ergodique. PROBLÈME : il n existe pas d analogue du théorème central limite, permettant d obtenir la vitesse de convergence dans le théorème ergodique ("toutes" les vitesses sont possibles!). A. Popier (Université du Maine) MCMC. 8 / 31
PLAN 1 RAPPELS SUR LES CHAÎNES DE MARKOV Théorème ergodique Vitesse de convergence? 2 ALGORITHME DE PROPP-WILSON 3 ALGORITHME DE METROPOLIS-HASTINGS 4 ÉCHANTILLONNAGE DE GIBBS A. Popier (Université du Maine) MCMC. 9 / 31
THÉORÈME CENTRAL LIMITE. THÉORÈME Soient (X n ) n N chaîne irréductible de matrice de transition P, π l unique probabilité invariante. Alors il existe σ f 0 tel que la suite ( 1 n 1 n f (X k ) n k=0 E converge en loi vers σ f Z, avec Z N (0, 1). f (x)π(x) ) A. Popier (Université du Maine) MCMC. 10 / 31
THÉORÈME CENTRAL LIMITE. CALCUL DE σ f : f doit vérifier les hypothèses du théorème ergodique. On pose f = f E f (x)π(x), et pour i E, Alors (I P)Q f = f et (Qf ) x = + n=0 E x ( f (X n )). σf 2 = µ x ((Q f ) x ) 2 µ x (PQ f ) 2 x x E x E = 2 µ x (Q f ) x fx 2 µ x f x. x E x E A. Popier (Université du Maine) MCMC. 10 / 31
APÉRIODICITÉ. DÉFINITION Un état x est apériodique s il existe N N tel que (P n )(x, x) > 0 pour tout n N. LEMME Si P est irréductible et s il existe un état apériodique x, alors pour tout (y, z) E 2, il existe M N tel que (P n )(y, z) > 0 pour n M. En particulier tous les états sont apériodiques. THÉORÈME (KOLMOGOROV) Soient P une matrice irréductible, récurrente positive et apériodique et π l unique probabilité invariante. Alors pour tout x E, lim P(X n = x) = π x. n + A. Popier (Université du Maine) MCMC. 11 / 31
DANS LE CAS FINI. THÉORÈME Soient (X n ) n N irréductible apériodique sur un espace d états E fini, de matrice de transition P avec λ 1 = 1 > λ 2 >... > λ d > 1 valeurs propres de P, α = sup{ λ i, 2 i d} ]0, 1[, et π l unique probabilité réversible. Alors pour tout x E, tout n 1 et tout f : E R, avec E π (f ) = x E f (x)π(x), Var π (f ) = x E [f (x) E π (f )] 2 π(x), on obtient : [E(f (X n ) X 0 = x) E π (f )] 2 α2n π(x) Var π(f ). A. Popier (Université du Maine) MCMC. 12 / 31
CONDITION DE DOEBLIN. Pour tout (x, y) E 2, lim n + (Pn )(x, y) = µ y. CONDITION DE DOEBLIN : il existe une mesure non nulle π sur E et n 0 N tels que : NOTATION : β = x E m x. (x, y) E 2, (P n 0 )(x, y) m y. Si E est fini : LEMME Soit P irréductible et apériodique. La condition de Doeblin est satisfaite. Quand E est infini, en général pour tout n N et tout y E, inf x E (Pn )(x, y) = 0. A. Popier (Université du Maine) MCMC. 13 / 31
CONVERGENCE EXPONENTIELLE. THÉORÈME Supposons P irréductible et vérifiant la condition de Doeblin. Alors P est récurrente positive et apériodique, et si π désigne sa probabilité invariante, pour tout i E et n N : (P n )(x, y) π y 2(1 β) [n/n0]. y E Pour α R, [α] est la partie entière de α. A. Popier (Université du Maine) MCMC. 14 / 31
MCMC. MÉTHODE Pour calculer une intégrale par rapport à π, simuler une chaîne irréductible de probabilité réversible π, utiliser le théorème ergodique, contrôler l erreur via un des résultats précédents. PROBLÈME : σ f, n 0, β, α, Var π (f ) ne sont pas calculables. EN PRATIQUE : simuler en faisant démarrer d un état quelconque, jusqu à un instant N : préchauffage ; évaluer f (X N+κM ), κ 1 (M inférieur à N) : les X N+κM sont "presque" indépendantes (propriété de mélange) ; poser 1 K f (X N+κM ). K κ=1 A. Popier (Université du Maine) MCMC. 15 / 31
PLAN 1 RAPPELS SUR LES CHAÎNES DE MARKOV Théorème ergodique Vitesse de convergence? 2 ALGORITHME DE PROPP-WILSON 3 ALGORITHME DE METROPOLIS-HASTINGS 4 ÉCHANTILLONNAGE DE GIBBS A. Popier (Université du Maine) MCMC. 16 / 31
RAPPEL. PROPOSITION Soit (X n ) n N la chaîne de Markov de matrice de transition P. Alors il existe une application f : [0, 1] E E t.q. pour tout n X n+1 = f (X n, U n ), avec U n uniforme sur [0, 1]. Alors P(x, y) = P(f (U n, x) = y). Pour (U n ) n suite de v.a. i.i.d. : f n = f Un = f (U n,.) : E E et D n = f U1... f Un, G n = f Un... f U1. ALGORITHMES CLASSIQUES : simuler G n. ALGORITHME DE PROPP-WILSON : simuler D n! A. Popier (Université du Maine) MCMC. 17 / 31
L ALGORITHME. ALGORITHME DE PROPP-WILSON 1 D 0 (x) = x pour tout x. 2 Si pour 0 k n, D k simulée, et si D n n est pas constante, alors tirer U n+1 uniforme sur [0, 1], D n+1 = D n f n+1. RÉSULTAT : si l algorithme s arrête, le résultat est la v.a. Z = D T (x) avec T = inf {n N, D n constante}. C est le temps de coalescence de D n. A. Popier (Université du Maine) MCMC. 18 / 31
ÉTUDE THÉORIQUE. THÉORÈME Si P est irréductible et apériodique, et si T < + p.s., alors Z est distribuée selon la probabilité invariante π. PROBLÈMES : Coalescence de D n? Pas toujours vérifiée. Hypothèse suffisante : A E, A > 1 = P( f (A, U n ) < A ) α > 0. Pour E de grande taille, difficile à mettre en œuvre (calculs d images longs). En pratique ne calculer que l image de quelques points et s arrrêter lorsque les images de ces points sont les mêmes. A. Popier (Université du Maine) MCMC. 19 / 31
PLAN 1 RAPPELS SUR LES CHAÎNES DE MARKOV Théorème ergodique Vitesse de convergence? 2 ALGORITHME DE PROPP-WILSON 3 ALGORITHME DE METROPOLIS-HASTINGS 4 ÉCHANTILLONNAGE DE GIBBS A. Popier (Université du Maine) MCMC. 20 / 31
L ALGORITHME : LES DONNÉES. DONNÉES : matrice de transition Q sur espace d états fini ou dénombrable E, avec Q(x, y) > 0 = Q(y, x) > 0. π probabilité sur E, h :]0, + [ ]0, 1] t.q. h(u) = uh(1/u). Exemples On définit h(u) = min(1, u), h(u) = u 1 + u. ( ) π(y)q(y, x) h si Q(x, y) 0, α(x, y) = π(x)q(x, y) 0 sinon. A. Popier (Université du Maine) MCMC. 21 / 31
L ALGORITHME : DESCRIPTION. PAR RÉCURRENCE : 1 Choisir x 0 E fixé t.q. π(x 0 ) > 0. 2 Si pour 0 k n, X k = x k a été calculé, alors : ALGORITHME A. Simuler Y n et U n indépendantes de X k, k n, et indépendantes t.q. Y n de loi Q(x n,.), i.e. : y E, P(Y n = y) = Q(x n, y) ; U n uniforme sur [0, 1]. B. Calculer X n+1 par la règle : si U n α(x n, Y n), X n+1 = Y n : transition acceptée ; si U n > α(x n, Y n), X n+1 = X n : transition rejetée. A. Popier (Université du Maine) MCMC. 22 / 31
L ALGORITHME : REMARQUES. La chaîne ainsi créée ne visite que les états t.q. π(x) > 0. Pas de problème de division par zéro dans h. Choix de Q : doit respecter les propriétés qui suivent, doit faire en sorte que les Yn "faciles" à simuler. Choix de x 0 : sans véritable importance. A. Popier (Université du Maine) MCMC. 23 / 31
ÉTUDE DE LA CHAÎNE CONSTRUITE. PROPOSITION Le processus (X n ) est une chaîne de Markov de matrice de transition P définie par ( ) π(y)q(y, x) P(x, y) = Q(x, y)α(x, y) = Q(x, y)h, si x y, π(x)q(x, y) P(x, x) = 1 y x P(x, y). De plus π est une probabilité réversible pour P. PROPOSITION Si Q est irréductible, alors la matrice de transition P est irréductible. Si Q est apériodique, ou si h < 1, alors P est apériodique. A. Popier (Université du Maine) MCMC. 24 / 31
DIFFÉRENTS CAS. ALGORITHME DE METROPOLIS ou symétrique : PROPOSITION (ALGORITHME DE METROPOLIS) Soit π une probabilité non constante sur E, Q une matrice de transition symétrique irréductible. Alors la matrice de transition P est irréductible apériodique. PROCÉDURE DE TEST : ( α(x, y) = min 1, π(y) ). π(x) "Optimal" si π(y n )/π(x n ) pas trop petit... A. Popier (Université du Maine) MCMC. 25 / 31
DIFFÉRENTS CAS. ALGORITHME INDÉPENDANT : Q(x, y) = q(y) (toutes les lignes sont égales). ( α(x, y) = min 1, π(y)q(x) ). π(x)q(y) Valeur de Y n indépendante de X n ; mais rejet dépendant de X n. PROPOSITION Si q est strictement positive (presque partout sur le support de π), la matrice de transition P est irréductible apériodique. A. Popier (Université du Maine) MCMC. 25 / 31
DIFFÉRENTS CAS. ALGORITHME À MARCHE ALÉATOIRE : Q(x, y) = q(y x). ( ) π(y)q(x y) α(x, y) = min 1,. π(x)q(y x) Si q est symétrique, q(t) = q( t), α(x, y) = min EXEMPLE : q(t) = 1 2 (δ 1 + δ 1 ). ( 1, π(y) ). π(x) PROPOSITION Si q est non nulle sur un "voisinage" de 0, la matrice de transition P est irréductible apériodique. A. Popier (Université du Maine) MCMC. 25 / 31
CAS DES MESURES DE GIBBS. DÉFINITION Soit E fini, β > 0 constante et V : E R fonction. La mesure de Gibbs associée à β et V est définie par : π(x) = exp( βv (x)) Z β où Z β est la constante de normalisation : Z β = x E exp( βv (x)). PROPOSITION Ces probabilités maximisent l entropie H(µ) = x E µ(x) ln(µ(x)), avec y ln(y) = 0 si y = 0, parmi les probabilités µ t.q. x E V (x)µ(x) = C fixée. A. Popier (Université du Maine) MCMC. 26 / 31
CAS DES MESURES DE GIBBS. DÉFINITION Soit E fini, β > 0 constante et V : E R fonction. La mesure de Gibbs associée à β et V est définie par : π(x) = exp( βv (x)) Z β où Z β est la constante de normalisation : Z β = x E exp( βv (x)). Choisir Q symétrique et irréductible ; alors : α(x, y) = min(1, π(y)/π(x)) = exp( β(v (y) V (x)) + ). A. Popier (Université du Maine) MCMC. 26 / 31
EXTENSION À DES ESPACES NON DÉNOMBRABLES. DÉFINITION L algorithme de Metropolis-Hastings associé à la loi cible de densité f et à la loi instrumentale q produit une chaîne de Markov (x (n) ) de transition : pour x (n) donné, 1 générer y q(y x (n) ), 2 prendre { x (n+1) y avec probabilité α(x = (n), y), x (n) avec probabilité 1 α(x (n), y), ( ) f (y)q(x (n) y) où α(x, y) = h f (x (n) )q(y x (n). ) A. Popier (Université du Maine) MCMC. 27 / 31
PLAN 1 RAPPELS SUR LES CHAÎNES DE MARKOV Théorème ergodique Vitesse de convergence? 2 ALGORITHME DE PROPP-WILSON 3 ALGORITHME DE METROPOLIS-HASTINGS 4 ÉCHANTILLONNAGE DE GIBBS A. Popier (Université du Maine) MCMC. 28 / 31
DISTINCTION AVEC METROPOLIS-HASTINGS. Taux d acceptation uniformément égal à 1. Critères sur taux d acceptation optimaux non valables. Convergence à établir suivant d autres crières. Limitations fortes sur le choix des paramètres des lois instrumentales. Connaissance préalable de certaines propriétés (probabilistes ou analytiques) de la loi cible. Nécessairement multidimensionnel. Ne fonctionne pas lorsque le nombre de variables est variable. A. Popier (Université du Maine) MCMC. 29 / 31
STRUCTURE DE L ALGORITHME. HYPOTHÈSES : il existe p > 1 t.q. x dans l espace d états se décompose en (x 1, x 2,..., x p ) ; les densités conditionnelles correspondantes sont simumlables. ALGORITHME D ÉCHANTILLONNAGE DE GIBBS. Transition de x (n) à x (n+1) : 1. x (n+1) 1 f 1 (x 1 x (n) 2,..., x (n) p ), 2. x (n+1) 2 f 2 (x 2 x (n+1) 1, x (n) 3,..., x (n) p ),... P. x (n+1) p f p (x p x (n+1) 1,..., x (n+1) p 1 ). A. Popier (Université du Maine) MCMC. 30 / 31
ANALYSE DE L ALGORITHME. THÉORÈME. L algorithme d échantillonnage de Gibbs admet f comme loi invariante, donc limite si la chaîne produite est ergodique. THÉORÈME. L algorithme d échantillonnage de Gibbs correspond à la composition de p algorithmes de Metropolis-Hastings de probabilités d acceptation uniformément égales à 1. LEMME (HAMMERSLEY-CLIFFORD) La connaissance de toutes les lois conditionnelles permet de calculer la loi jointe (sous une condition dite de positivité). A. Popier (Université du Maine) MCMC. 31 / 31