Cours 3 : L échantillonneur de Gibbs

Documents pareils
Méthodes de Simulation

MCMC et approximations en champ moyen pour les modèles de Markov

PROBABILITES ET STATISTIQUE I&II

OM 1 Outils mathématiques : fonction de plusieurs variables

4. Martingales à temps discret

3 Approximation de solutions d équations

Chapitre 2 Le problème de l unicité des solutions

Espérance conditionnelle

Calcul différentiel sur R n Première partie

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Limites finies en un point

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

Simulation de variables aléatoires

Température corporelle d un castor (une petite introduction aux séries temporelles)

Probabilités III Introduction à l évaluation d options

Théorie de l estimation et de la décision statistique

Cours Fonctions de deux variables

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Résolution de systèmes linéaires par des méthodes directes

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Algorithmes pour la planification de mouvements en robotique non-holonome

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Calcul intégral élémentaire en plusieurs variables

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Résolution d équations non linéaires

MATHS FINANCIERES. Projet OMEGA

Cours d analyse numérique SMI-S4

MÉTHODE DE MONTE CARLO.

Cours de méthodes de scoring

Processus aléatoires avec application en finance

Chapitre 3. Les distributions à deux variables

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Fonctions de plusieurs variables

ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE

Cours d Analyse. Fonctions de plusieurs variables

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Pierre Thérond Année universitaire

Amphi 3: Espaces complets - Applications linéaires continues

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Intégrales doubles et triples - M

Continuité en un point

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Intégration sur des espaces produits

Statistique Bayésienne

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Moments des variables aléatoires réelles


Introduction au Data-Mining

Cours 7 : Utilisation de modules sous python

Équations non linéaires

Fonctions de plusieurs variables

Texte Agrégation limitée par diffusion interne

Correction du Baccalauréat S Amérique du Nord mai 2007

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Corrigé Problème. Partie I. I-A : Le sens direct et le cas n= 2

Raisonnement probabiliste

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

FIMA, 7 juillet 2005

Quantification Scalaire et Prédictive

Image d un intervalle par une fonction continue

M2 IAD UE MODE Notes de cours (3)

Couples de variables aléatoires discrètes

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Chapitre 3. Algorithmes stochastiques. 3.1 Introduction

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

UNE REPRESENTATION GRAPHIQUE DE LA LIAISON STATISTIQUE ENTRE DEUX VARIABLES ORDONNEES. Éric TÉROUANNE 1

VARIABLES LATENTES ET MODÉLISATION STATISTIQUE EN ASSURANCE

Programmes des classes préparatoires aux Grandes Ecoles

STATISTIQUES. UE Modélisation pour la biologie

Modélisation et simulation

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Problème 1 : applications du plan affine

Modélisation aléatoire en fiabilité des logiciels

Le modèle de Black et Scholes

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

Probabilités et statistique. Benjamin JOURDAIN

Modèles et Méthodes de Réservation

Économetrie non paramétrique I. Estimation d une densité

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Programmation linéaire et Optimisation. Didier Smets

Renforcement des trois compétences : compréhension orale, expression orale et expression écrite à partir de documents et vidéos.

Cours d introduction à la théorie de la détection

Produits de crédit en portefeuille

Théorie des Graphes Cours 3: Forêts et Arbres II / Modélisation

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

TD1 Signaux, énergie et puissance, signaux aléatoires

de calibration Master 2: Calibration de modèles: présentation et simulation d

Dynamique des protéines, simulation moléculaire et physique statistique

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Théorème du point fixe - Théorème de l inversion locale

Simulation : application au système bonus-malus en responsabilité civile automobile

Représentation géométrique d un nombre complexe

Chapitre 0 Introduction à la cinématique

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Transcription:

Cours 3 : L échantillonneur de Gibbs 1) Principes généraux 2) Complétion 3) Convergence 4) Le théorème de Hammersley-Clifford 5) Modèles hiérarchiques 6) Augmentation de données 7) Algorithme MCMC hybride 8) Dangers p. 1/30

Principes généraux Pour simuler suivant une loi f(θ) avec θ = (θ 1,...,θ p ), on peut utiliser l idée suivante Initialisation : générer un vecteur θ = (θ 1,...,θ p ) suivant une loi de proposition initiale π 0 Simuler suivant les lois conditionnelles for i = 1, 2,...,p. Θ i θ 1,θ 2,...,θ i 1,θ i+1,...,θ p f i (θ i θ 1,θ 2,...,θ i 1,θ i+1,...,θ p ) p. 2/30

L échantillonneur de Gibbs Étant donné θ (t) = ( ) θ (t) 1,...,θ(t) p, 1. Générer θ (t+1) 1 f 1 (θ 1 θ (t) 2,...,θ(t) p ), 2. Générer θ (t+1) 2 f 2 (θ 2 θ (t+1)... p. Générer θ (t+1) p 1,θ (t) 3,...,θ(t) p ), f p (θ p θ (t+1) 1,θ (t+1) 2,...,θ (t+1) p 1 ), Seules les lois conditionnelles f 1,...,f p sont utilisées pour la simulation. Donc, même pour un problème de grande dimension, toutes les simulations sont univariées! p. 3/30

Propriétés Taux d acceptation égal à 1 Choix de la loi de proposition imposé par la méthode Nécessite de connaître les lois conditionnelles de f Ne peut s appliquer si le vecteur paramètre à simuler est de dimension variable Algorithme multi-dimensionnel par construction p. 4/30

Cas bidimensionnel Pour simuler suivant (X,Y ) f(x,y) l échantillonneur de Gibbs se réduit à Simuler x 0 et pour t = 1, 2,..., générer (x t,y t ) comme suit 1. y t f y x ( x t 1 ), 2. x t f x y ( y t ), où f y x et f x y sont les lois conditionnelles du couple (X,Y ). Remarque : (x t ) t, (y t ) t et (x t,y t ) t sont des chaînes de Markov. p. 5/30

Cas Gaussien : X i N(m, σ 2 ) Vraisemblance f(x m,σ 2 ) ( σ 2) n/2 exp ( 1 2σ 2 ) n (x i m) 2 i=1 Lois a priori Moyenne Variance m N ( m 0,σ 2 0 σ 2 IG (α,β) ) p. 6/30

Lois conditionnelles moyenne m σ 2,x N ( M, Σ 2) avec M = nσ2 0 nσ 2 0 + σ 2 ( 1 n n i=1 ( x i )+ σ 2 σ 2 + nσ 2 0 ) m 0 et Σ 2 = σ2 σ 2 0 σ 2 + nσ 2 0 variance σ 2 m, x IG ( n 2 + α, 1 2 ) n (x i m) 2 + β i=1 Donc, on peut simuler des couples (m,σ 2 ) avec l échantillonneur de Gibbs p. 7/30

Monte Carlo Statistical Methods The Gibbs Sampler General Principles Example of results with n = 10 observations from the N(0, 1) distribution Number of Iterations 1

Monte Carlo Statistical Methods The Gibbs Sampler General Principles Example of results with n = 10 observations from the N(0, 1) distribution Number of Iterations 1, 2

Monte Carlo Statistical Methods The Gibbs Sampler General Principles Example of results with n = 10 observations from the N(0, 1) distribution Number of Iterations 1, 2, 3

Monte Carlo Statistical Methods The Gibbs Sampler General Principles Example of results with n = 10 observations from the N(0, 1) distribution Number of Iterations 1, 2, 3, 4

Monte Carlo Statistical Methods The Gibbs Sampler General Principles Example of results with n = 10 observations from the N(0, 1) distribution Number of Iterations 1, 2, 3, 4, 5

Monte Carlo Statistical Methods The Gibbs Sampler General Principles Example of results with n = 10 observations from the N(0, 1) distribution Number of Iterations 1, 2, 3, 4, 5, 10

Monte Carlo Statistical Methods The Gibbs Sampler General Principles Example of results with n = 10 observations from the N(0, 1) distribution Number of Iterations 1, 2, 3, 4, 5, 10, 25

Monte Carlo Statistical Methods The Gibbs Sampler General Principles Example of results with n = 10 observations from the N(0, 1) distribution Number of Iterations 1, 2, 3, 4, 5, 10, 25, 50

Monte Carlo Statistical Methods The Gibbs Sampler General Principles Example of results with n = 10 observations from the N(0, 1) distribution Number of Iterations 1, 2, 3, 4, 5, 10, 25, 50, 100

Monte Carlo Statistical Methods The Gibbs Sampler General Principles Example of results with n = 10 observations from the N(0, 1) distribution Number of Iterations 1, 2, 3, 4, 5, 10, 25, 50, 100, 500

A Markov Chain Monte Carlo Primer MCMC Basics The Gibbs Sampler Example of Results with, Left n = 10 Observations; Right, n = 100 Observations from the N(0, 1) Distribution 8 2 7 1.8 1.6 6 1.4 5 1.2 σ 2 4 σ 2 1 3 0.8 0.6 2 0.4 1 0.2 0 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 µ 0 1 0.8 0.6 0.4 0.2 0 0.2 0.4 0.6 0.8 1 µ

Complétion Définition : la densité g est une complétion de f si g(θ,η)dη = f(θ), Z i.e. si f est une loi marginale de g. Intérêt : les lois conditionnelles de g sont parfois plus simples à simuler que celles de f (e.g. analyse Bayésienne hiérarchique). Notations : pour p > 1, soit Y = (θ, η) de densité g(y) = g(y 1,...,y p ) et de lois conditionnelles Y i y 1,...,y i 1,y i+1,...,y p g i (y i y 1,...,y i 1,y i+1,...,y p ) p. 8/30

Echantillonneur de Gibbs après complétion Étant donné y (t) = ( ) y (t) 1,...,y(t) p, 1. Générer y (t+1) 1 g 1 (y 1 y (t) 2,...,y(t) p ), 2. Générer y (t+1) 2 g 2 (y 2 y (t+1)... p. Générer y (t+1) p 1,y (t) 3,...,y(t) p ), g p (y p y (t+1) 1,y (t+1) 2,...,y (t+1) p 1 ), p. 9/30

Exemple : loi Cauchy-Normale (1) Posterior Complétion On a f(θ θ 0 ) e θ2 /2 [1 + (θ θ 0 ) 2 ] ν f(θ θ 0 ) 0 e θ2 /2 e [1+(θ θ 0) 2 ] η/2 η ν 1 dη d où g(θ,η) e θ2 /2 e [1+(θ θ 0) 2 ] η/2 η ν 1 p. 10/30

Exemple : loi Cauchy-Normale (2) Lois conditionnelles g 1 (η θ) = Ga (ν, 1 + (θ θ ) 0) 2 2 ( ) θ0 η g 2 (θ η) = N 1 + η, 1. 1 + η, Le paramètre η n a pas d intérêt physique et sert uniquement à simplifier la simulation d un échantillon θ (t). p. 11/30

Condition de positivité Positivité g (i) (y i ) > 0, i = 1,,p où g (i) est la loi marginale de Y i (ou support de la loi cible g égal au produit cartésien des supports des g (i) ) Pour montrer la convergence de l échantillonneur de Gibbs, la loi cible doit vérifier la condition de positivité. Contre-exemple g(y 1,y 2 ) = 1 2π [I ǫ(y 1,y 2 ) + I ǫ (y 1,y 2 )], où ǫ et ǫ sont deux disques de rayons 1 centrés sur (1, 1) et ( 1, 1). p. 12/30

Illustration de la non-positivité Initialisation Aléatoire µ 2-1 0 1 2 3 4-1 0 1 2 3 4 µ 1 p. 13/30

Illustration de la non-positivité Gibbs coincé autour du mauvais mode µ 2-1 0 1 2 3-1 0 1 2 3 µ 1 p. 14/30

Convergence de l échantillonneur de Gibbs Si la condition de positivité est vérifiée et si le noyau de transition est absolument continu par rapport à g, on a Ergodicité Si h(y) g(y)dy <, alors lim T 1 T T t=1 h(y (t) ) = h(y)g(y)dy Convergence en variation totale K n (y, )µ(dy) g lim n = 0 TV pour toute loi initiale µ. p. 15/30

Remarques L échantillonneur de Gibbs est la composition de p algorithmes de Metropolis-Hastings avec des probabilités d acceptation uniformément égales à 1. Échantillonneur de Gibbs à balayage aléatoire p. 16/30

Le théorème de Hammersley-Clifford Une loi jointe est caractérisée par l ensemble de ses lois conditionnelles. Dimension 2 Si la densité jointe g(y 1,y 2 ) a des lois conditionnelles notées g 1 (y 1 y 2 ) et g 2 (y 2 y 1 ), alors (Hammersley and Clifford, 1970) g(y 1,y 2 ) = g 2 (y 2 y 1 ) g2 (v y 1 )/g 1 (y 1 v) dv. p. 17/30

Généralisation Sous l hypothèse de positivité, une loi jointe g peut s écrire g(y 1,...,y p ) p j=1 g lj (y lj y l1,...,y lj 1,y l j+1,...,y l p ) g lj (y l j y l1,...,y lj 1,y l j+1,...,y l p ) pour toute permutation l définie sur {1,...,p} et tout y Y. p. 18/30

Modèles hiérarchiques L échantillonneur de Gibbs est particulièrement bien adapté aux modèles hiérarchiques : Les paramètres inconnus sont munis de lois a priori ainsi que les hyperparamètres associés En général, on introduit des lois non informatives au dernier niveau de la hiérarchie p. 19/30

Exemple Données Poissonniennes X i P (λ 1 ) pour i = 1,...,l 1, X i P (λ 2 ) pour i = l 1 + 1,...,n, avec l 1 connu. Lois a priori sur les paramètres λ 1 Ga (α,β), λ 2 Ga (α,β), α = 2. Loi a priori sur les hyperparamètres f(β) = 1 β I R +(β) p. 20/30

Loi jointe f (x,λ,β) 1 β l 1 i=1 Loi conditionnelles [ λ x i ] n 1 x i! e λ 1 i=l 1 +1 [ λ x i ] 2 2 x i! e λ 2 i=1 β α Γ (α) λα 1 i e βλ i pour les paramètres λ i ( l1 ) λ 1 β,x Ga x i + α,β + l 1 λ 2 β,x Ga pour β Matlab : simu-poisson i=1 ( n i=l 1 +1 x i + α,β + n l 1 ) β x,λ Ga (2α,λ 1 + λ 2 ), p. 21/30

Données Poissonniennes cachées Observations 0 1 2 3 4 ou plus Nombre 139 128 55 25 13 Données : observations du nombre de données égales à 0, 1, 2, 3 et du nombre de données 4. Vraisemblance ( 3 l(x 1,...,x 5 ;λ) e 347λ λ 128+55 2+25 3 1 e λ i=0 λ i i! ) 13, Idée : on munit λ d une loi a priori π(λ) = 1/λ et on complète ce paramètre par y = (y 1,...,y 13 ). p. 22/30

Loi a posteriori ( 13 l(λ,y 1,...,y 13 x 1,...,x 5 ) e 347λ λ 128+55 2+25 3 i=1 λ y i e λ ) 1 λ, Lois conditionnelles y i λ P(λ)I yi 4,i = 1,..., 13 λ y Ga ( 313 + 13 i=1 y i, 360 ) Estimateur de λ λ = 1 360T T t=1 ( 313 + 13 i=1 y (t) i ) Rao-Blackwellization p. 23/30

Conditionnement - Rao-Blackwellization Espérances conditionnelles E[h(Λ)] = E [E[h(Λ) Y ]] Estimateurs Ici on sait calculer g(y ) = E[h(Λ) Y ]. On en déduit deux estimateurs Î 1 = 1 T T h(λ t ) Î 2 = 1 T t=1 T g(y t ) = 1 T T E[h(Λ) Y t ] t=1 t=1 Réduction de variance p. 24/30

Résultats de simulation 0.9 1.0 1.1 1.2 lambda 0 100 200 300 400 500 p. 25/30 1.021 1.022 1.023 1.024 1.025 0 10 20 30 40

Algorithme MCMC hybride Motivations La convergence de l échantillonneur de Gibbs peut être lente car on simule une seule composante à chaque itération Pas de problème avec la loi de proposition comme avec l algorithme de Metropolis-Hastings Certaines lois conditionnelles peuvent être impossibles à simuler Définition : un algorithme MCMC hybride est une méthode MCMC utilisant simultanément des étapes d échantillonneur de Gibbs et des étapes de Metropolis-Hastings p. 26/30

Algorithme MCMC hybride Remplacer chaque étape i où une simulation suivant la loi conditionnelle g i (y i )y j,j i est impossible par 1. Simuler ỹ i q i (y i y (t+1) 1,...,y (t) i,y (t) i+1,...,y(t) p ), 2. Prendre y (t+1) i = ỹ i avec probabilité ρ y (t) i avec probabilité 1 ρ ρ = 1 g i y i y (t+1) g i 1,..., y (t) y (t) i y (t+1) i 1,..., y (t) i, y (t) i+1,..., y(t) p, y (t) i+1,..., y(t) p q i q i y (t) i y (t+1) 1,..., y i, y (t) i+1,..., y(t) p y i y (t) 1,..., y(t) i, y (t) i+1,..., y(t) p Remarque : l étape de Metropolis-Hastings n est utilisée qu une fois (et la convergence est assurée). Matlab : metropolis_within_gibbs p. 27/30

Dangers Modèle à effets aléatoires Y ij = µ + α i + ε ij, i = 1,...,I, j = 1,...,J, avec Lois a priori α i N(0,σ 2 ) et ε ij N(0,τ 2 ), La loi a priori de Jeffreys (impropre) pour les paramètres µ, σ et τ est π(µ,σ 2,τ 2 ) = 1 σ 2 τ 2. p. 28/30

Lois conditionnelles Les lois conditionnelles sont définies par ( ) α i y,µ,σ 2,τ 2 J(ȳi µ) N J + τ 2 σ 2, (Jτ 2 + σ 2 ) 1 µ α,y,σ 2,τ 2 N(ȳ ( ᾱ,τ 2 /JI) ), σ 2 α,µ,y,τ 2 I IG 2, 1 αi 2, 2 ( i ) τ 2 α,µ,y,σ 2 IJ IG 2, 1 (y ij α i µ) 2, 2 i,j, et sont faciles à simuler. Mais la loi jointe n existe pas! p. 29/30

Simulations Évolution de µ (t) et histogramme pour 1000 itérations freq. 0 5 10 15 20 25 30-8 -6-4 -2 0 observations -4-3 -2-1 0 (1000 iterations) p. 30/30