MCMC et approximations en champ moyen pour les modèles de Markov



Documents pareils
Modélisation aléatoire en fiabilité des logiciels

Méthodes de Simulation

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Raisonnement probabiliste

NON-LINEARITE ET RESEAUX NEURONAUX

Théorie de l estimation et de la décision statistique

I Stabilité, Commandabilité et Observabilité Introduction Un exemple emprunté à la robotique Le plan Problème...

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Apprentissage Automatique

Probabilités III Introduction à l évaluation d options

4.2 Unités d enseignement du M1

Quantification Scalaire et Prédictive

Classification non supervisée

Texte Agrégation limitée par diffusion interne

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

L analyse d images regroupe plusieurs disciplines que l on classe en deux catégories :

Marc Bocquet CEREA, École des Ponts ParisTech Université Paris-Est et INRIA

Soutenance de stage Laboratoire des Signaux et Systèmes

Principe de symétrisation pour la construction d un test adaptatif

TP N 57. Déploiement et renouvellement d une constellation de satellites

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

Cours de Master Recherche

La fonction exponentielle

Chapitre 3. Algorithmes stochastiques. 3.1 Introduction

Modélisation et simulation

Modélisation du comportement habituel de la personne en smarthome

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Interception des signaux issus de communications MIMO

TABLE DES MATIERES. C Exercices complémentaires 42

Echantillonnage Non uniforme

Agrégation des portefeuilles de contrats d assurance vie

UNIVERSITE DES ANTILLES et DE LA GUYANE Campus de Fouillole BP Pointe-à-Pitre Cedex CONTRAT LE MASTER NOM DU DOMAINE STS

de calibration Master 2: Calibration de modèles: présentation et simulation d

Résumés des projets de GMM5-2014/2015

Contrôle stochastique d allocation de ressources dans le «cloud computing»

Les algorithmes de base du graphisme

Object Removal by Exemplar-Based Inpainting

T.P. FLUENT. Cours Mécanique des Fluides. 24 février 2006 NAZIH MARZOUQY

La classification automatique de données quantitatives

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

VARIABLES LATENTES ET MODÉLISATION STATISTIQUE EN ASSURANCE

Inférence d un réseau bayésien augmenté visant à confronter :

Master Modélisation Aléatoire Paris VII, Cours Méthodes de Monte Carlo en nance et C++, TP n 2.

Solvabilité II Les impacts sur la tarification et l offre produit

TRAITEMENT DES DONNEES MANQUANTES AU MOYEN DE L ALGORITHME DE KOHONEN

CHAPITRE 5. Stratégies Mixtes

Laboratoire 4 Développement d un système intelligent

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Prédiction et Big data

Techniques de Lyapunov en contrôle quantique pour le couplage dipolaire et polarisabilité

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

1 Recherche en table par balayage

4 Exemples de problèmes MapReduce incrémentaux

CarrotAge, un logiciel pour la fouille de données agricoles

Simulation de variables aléatoires

Soit la fonction affine qui, pour représentant le nombre de mois écoulés, renvoie la somme économisée.

Théorèmes de Point Fixe et Applications 1

8 Ensemble grand-canonique

Web Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.

Introduction au Data-Mining

Master IAD Module PS. Reconnaissance de la parole (suite) Alignement temporel et Programmation dynamique. Gaël RICHARD Février 2008

Health Monitoring pour la Maintenance Prévisionnelle, Modélisation de la Dégradation

Résumé des communications des Intervenants

Surveillance et maintenance prédictive : évaluation de la latence de fautes. Zineb SIMEU-ABAZI Univ. Joseph Fourier, LAG)

Sujet 1 : Diagnostique du Syndrome de l apnée du sommeil par des techniques d analyse discriminante.

Réseaux bayésiens : Apprentissage et diagnostic de systemes complexes

Apprentissage statistique dans les graphes et les réseaux sociaux

Applications en imagerie cérébrale (MEG/EEG)

Une réponse (très) partielle à la deuxième question : Calcul des exposants critiques en champ moyen

Résolution d équations non linéaires

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

Introduction aux Statistiques et à l utilisation du logiciel R

Chaînes de Markov au lycée

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Introduction au datamining

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Mesure et gestion des risques d assurance

Rapport de projet Risque de Crédit, Risque de Défaut : Étude de l influence du taux de recouvrement sur le prix de CDOs.

Théorie des probabilités

Modèles et Méthodes de Réservation

Programmes des classes préparatoires aux Grandes Ecoles

Sommaire Chapitre 1 Chapitre 2 Chapitre 3 Chapitre 4 Chapitre 5 Chapitre 6 Chapitre 7. ARC EPS Eco-microbiologie Prévisionnelle Statistique

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Couplage efficace entre Optimisation et Simulation stochastique Application à la maintenance optimale d une constellation de satellites

Calculating Greeks by Monte Carlo simulation

Outils logiciels pour la combinaison de vérification fonctionnelle et d évaluation de performances au sein de CADP

Analyse de la vidéo. Chapitre La modélisation pour le suivi d objet. 10 mars Chapitre La modélisation d objet 1 / 57

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Entraînement au concours ACM-ICPC

Mesure agnostique de la qualité des images.

La méthode des éléments finis et le contrôle des calculs

Vérification audiovisuelle de l identité

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Le modèle de Black et Scholes

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Une application des algorithmes génétiques à l ordonnancement d atelier

R-ICP : une nouvelle approche d appariement 3D orientée régions pour la reconnaissance faciale

Simulation Matlab/Simulink d une machine à induction triphasée. Constitution d un référentiel

Transcription:

MCMC et approximations en champ moyen pour les modèles de Markov Gersende FORT LTCI CNRS - TELECOM ParisTech En collaboration avec Florence FORBES (Projet MISTIS, INRIA Rhône-Alpes). Basé sur l article: A convergence theorem for Variational EM-like algorithms : application to image segmentation. IEEE Transactions on Image Processing, 16(3):824-837,2007

Problème y : Vecteur d observations, de (grande) dimension N. ψ : paramètre qui gouverne la loi des observations L Y ( ; ψ) Objectif : estimer le paramètre ψ au sens du maximum de vraisemblance max ψ L Y (y; ψ), dans un contexte de données latentes, à structure de dépendance complexe.

Problème 1. Inférence dans les modèles à données manquantes EM Champ de markov caché 2. EM variationnel VEM Champ moyen 3. Coupler approximation type champ moyen, et simulation Approches purement déterministes Approches purement stochastiques Approches déterministes + stochastiques. 4. Comparaison des approches : estimation de paramètres dans un modèle de Potts caché.

Inférence dans des modèles à données manquantes I. Inférence dans les modèles à données manquantes

Inférence dans des modèles à données manquantes Algorithme EM Algorithme EM Résolution itérative du problème d optimisation max ψ L Y (y; ψ). Chaque itération comporte deux étapes: (i) Etape E : Z Q(ψ; ψ (t) ) := ln L (Z,Y ) (z,y; ψ) L Z Y (z y; ψ (t) ) h = E ln L (Z,Y ) (Z,y; ψ) y; ψ (t)i. (ii) Etape M : ψ (t+1) := max ψ Q(ψ; ψ(t) ).

Inférence dans des modèles à données manquantes Algorithme EM Algorithme EM Résolution itérative du problème d optimisation max ψ L Y (y; ψ). Chaque itération comporte deux étapes: (i) Etape E : Z Q(ψ; ψ (t) ) := ln L (Z,Y ) (z,y; ψ) L Z Y (z y; ψ (t) ) h = E ln L (Z,Y ) (Z,y; ψ) y; ψ (t)i. (ii) Etape M : Par construction : ψ (t+1) := max ψ Q(ψ; ψ(t) ). L Y (y; ψ (t+1) ) L Y (y; ψ (t) ). Convergence de la suite {ψ (t) } vers un max local de ψ L Y (y; ψ).

Inférence dans des modèles à données manquantes Estimation de paramètres dans modèle HMRF Hidden Markov Random Field (discret): loi des données latentes: Champ de Markov (discret) L Z (z; ψ) = W (β) 1 exp( H(z; β)), ψ = (β, ) z Z avec W (β) = z exp( H(z; β)) H(z; β) = c C V c (z c ).

Inférence dans des modèles à données manquantes Estimation de paramètres dans modèle HMRF Hidden Markov Random Field (discret): loi des données latentes: Champ de Markov (discret) L Z (z; ψ) = W (β) 1 exp( H(z; β)), ψ = (β, ) z Z avec W (β) = z exp( H(z; β)) H(z; β) = c C V c (z c ). Attache aux données : N L Y Z (y z; ψ) = p k (y k z k ; θ) ψ = (β,θ). k=1

Inférence dans des modèles à données manquantes Estimation de paramètres dans modèle HMRF Hidden Markov Random Field (discret): loi des données latentes: Champ de Markov (discret) L Z (z; ψ) = W (β) 1 exp( H(z; β)), ψ = (β, ) z Z avec W (β) = z exp( H(z; β)) H(z; β) = c C V c (z c ). Attache aux données : N L Y Z (y z; ψ) = p k (y k z k ; θ) ψ = (β,θ). k=1 Difficultés Loi sur un espace de grande dimension. Constante de normalisation W (β) incalculable.

Inférence dans des modèles à données manquantes Estimation de paramètres dans modèle HMRF EM pour inférence dans HMRF non implémentable car Etape E : intégration sous une loi complexe LZ Y, en grande dimension: ex. Z = {1,,K} N

Inférence dans des modèles à données manquantes Estimation de paramètres dans modèle HMRF EM pour inférence dans HMRF non implémentable car Etape E : intégration sous une loi complexe LZ Y, en grande dimension: ex. Z = {1,,K} N Etape M : Il faut savoir maximiser en ψ = (β,θ) X L Y Z (y z; θ) L Z Y (z y; ψ (t) ) ln W (β) X z z H(z; β) L Z Y (z y; ψ (t) ) En pratique, la maximisation en θ: explicite. Mais la maximisation en β demande la connaissance de W (β).

Variational EM et Approximation en champ moyen II. Variational EM et Approximation en champ moyen

Variational EM et Approximation en champ moyen Relecture de l EM Autre lecture de l EM: Pour toute probabilité q sur Z, ln L Y (y; ψ) = Z L (Z,Y ) (z,y; ψ) dz = ln { } L(Z,Y ) (z,y; ψ) ln q(z) Z Z L (Z,Y ) (z,y; ψ) q(z) q(z) dz =: F (q,ψ). q(z) dz,

Variational EM et Approximation en champ moyen Relecture de l EM Autre lecture de l EM: Pour toute probabilité q sur Z, ln L Y (y; ψ) = Z L (Z,Y ) (z,y; ψ) dz = ln { } L(Z,Y ) (z,y; ψ) ln q(z) Z Z L (Z,Y ) (z,y; ψ) q(z) q(z) dz =: F (q,ψ). Avec égalité : ln L Y (y; ψ) = F ( L Z Y (z y; ψ), ψ ) q(z) dz,

Variational EM et Approximation en champ moyen Relecture de l EM Autre lecture de l EM: Pour toute probabilité q sur Z, ln L Y (y; ψ) = Z L (Z,Y ) (z,y; ψ) dz = ln { } L(Z,Y ) (z,y; ψ) ln q(z) Z Z L (Z,Y ) (z,y; ψ) q(z) q(z) dz =: F (q,ψ). Avec égalité : ln L Y (y; ψ) = F ( L Z Y (z y; ψ), ψ ) EM = maximisation alternée de F : pour (q (t),ψ (t) ) mise à jour de la loi: q (t+1) = argmax q F (q,ψ (t) ) rép.: q (t+1) = L Z Y (z y; ψ (t) ) q(z) dz,

Variational EM et Approximation en champ moyen Relecture de l EM Autre lecture de l EM: Pour toute probabilité q sur Z, ln L Y (y; ψ) = Z L (Z,Y ) (z,y; ψ) dz = ln { } L(Z,Y ) (z,y; ψ) ln q(z) Z Z L (Z,Y ) (z,y; ψ) q(z) q(z) dz =: F (q,ψ). Avec égalité : ln L Y (y; ψ) = F ( L Z Y (z y; ψ), ψ ) EM = maximisation alternée de F : pour (q (t),ψ (t) ) mise à jour de la loi: q (t+1) = argmax q F (q,ψ (t) ) rép.: q (t+1) = L Z Y (z y; ψ (t) ) q(z) dz, mise à jour du paramètre: ψ (t+1) = argmax ψ F (q (t),ψ) = argmax ψ Q(ψ,ψ (t) ).

Variational EM et Approximation en champ moyen Variational EM (VEM) Variational EM Relâcher les contraintes d optimisation de l EM : considérer un sous-espace des probabilités sur Z, celles de forme produit NY q(z) = q k (z k ). ne rien changer pour ψ. k=1

Variational EM et Approximation en champ moyen Variational EM (VEM) Variational EM Relâcher les contraintes d optimisation de l EM : considérer un sous-espace des probabilités sur Z, celles de forme produit NY q(z) = q k (z k ). ne rien changer pour ψ. Choisir q revient à résoudre l équation au point fixe ln q k (e) = c k + ln L Z Y (z y; ψ (t) ) δ e(z k ) q j (z j ), z j k k=1 qui ne dépend que des q j,j N k, du fait de la structure markovienne.

Variational EM et Approximation en champ moyen Variational EM (VEM) Variational EM pour inférence dans les HMRF Résultats de convergence : oui. Identification des points limites: Pour l inférence dans les HMRF permet de contourner une des difficultés rencontrée par l EM: étape E. mais la mise à jour de ψ demande toujours le calcul de W (β).

Variational EM et Approximation en champ moyen Approximation en champ moyen Champ moyen A l origine, pour approcher le calcul de l espérance sous une loi de Gibbs. Négliger les fluctuations des voisins, en les fixant à leur valeur moyenne pour la loi ainsi définie.

Variational EM et Approximation en champ moyen Approximation en champ moyen Champ moyen A l origine, pour approcher le calcul de l espérance sous une loi de Gibbs. Négliger les fluctuations des voisins, en les fixant à leur valeur moyenne pour la loi ainsi définie. En pratique: Q définir une loi produit q(z) = N k=1 q k(z k ), solution d une équation au point fixe. Dans le contexte : mesure de Gibbs loi a posteriori L Z Y (z y; ψ (t) ) même équation au point fixe que pour VEM.

Variational EM et Approximation en champ moyen Approximation en champ moyen Champ moyen A l origine, pour approcher le calcul de l espérance sous une loi de Gibbs. Négliger les fluctuations des voisins, en les fixant à leur valeur moyenne pour la loi ainsi définie. En pratique: Q définir une loi produit q(z) = N k=1 q k(z k ), solution d une équation au point fixe. Dans le contexte : mesure de Gibbs loi a posteriori L Z Y (z y; ψ (t) ) même équation au point fixe que pour VEM. En conclusion : Approximation champ moyen Variational EM

Approximations déterministes, Approximations par simulation III. Approximations déterministes, Approximations par simulation

Approximations déterministes, Approximations par simulation Approximations de l EM purement déterministes Approx. purement déterministes ex. Algorithme Mean-Field Etape E : substituée par une espérance sous la loi produit q (t+1) Etape M : propager cette approximation à l expression de la loi jointe: l étape de maximisation devient explicite. Pas de résultats sur le comportement asymptotique de l algorithme.

Approximations déterministes, Approximations par simulation Approximations de l EM purement stochastiques Approx. purement stochastiques ex. Algorithme MC2-EM Etape E : calcul des espérances par Monte Carlo (MCMC). Etape M : calcul de la constante de normalisation par Monte Carlo W (β) = X z exp( H(z; β)) = X z exp( H(z; β)) π(z) π(z). Dès lors que l erreur d approximation dûe à la simulation est contrôlée : convergence vers les mêmes points limites que l EM.

Approximations déterministes, Approximations par simulation Coupler les deux approches VEM et Simulations (I) ex. Algorithme MC VEM Etape E : substituée par une espérance sous la loi produit q (t+1) Etape M : calcul de la constante de normalisation par Monte Carlo W (β) = X z exp( H(z; β)) = X z exp( H(z; β)) π(z) π(z). Dès lors que l erreur d approximation dûe à la simulation est contrôlée : convergence vers les mêmes points limites que le VEM.

Approximations déterministes, Approximations par simulation Coupler les deux approches VEM et Simulations (II) ex. Algorithme Simulated Field Etape E : type VEM en fixant les voisins à une valeur simulée (ne pas résoudre l équation au point fixe) Etape M : propager l approximation champ moyen à l expression de la loi jointe; l étape de maximisation devient réalisable. Pas de résultats sur le comportement asymptotique de l algorithme. A priori, {ψ (t) } chaîne de Markov, pas de raisons d observer une convergence trajectorielle.

Estimation d un Potts caché IV. Applications

Estimation d un Potts caché Modèle Champs de Markov (caché): Potts à K classes, voisinage 1er ordre L Z (z; ψ) exp( β i j z i,z j,) z i {e 1,,e K }. Attache aux données: gaussien L Y Z (y z; ψ) = N k=1 N (µ zk,σ 2 z k )(y k ). Paramètre: β,µ 1,,µ K,σ 2 1,,σ 2 K. Possibilité aussi : d estimer les données cachées (ex. par MAP).

Estimation d un Potts caché Data 1 : données simulées K = 2, images 100 100. Paramètre θ (attache aux données) : toujours bien estimé. Résultat d estimation de β et erreur de classification: algorithm β error rate ref. true values 0.78 - - ind-em - 15.91 (0.33) 15.85 (0.26) Mean Field 0.94 (2.83 10e-2) 10.28 (0.49) 9.77 (0.42) Simulated Field 0.78 (2.24 10e-2) 10.96 (0.43) 11.04 (0.48) MCVEM 0.73 (1.77 10e-2) 9.87 (0.42) 9.77 (0.42) MC2-EM 0.77 (1.44 10e-2) 9.81 (0.39) 9.81 (0.39) Gibbsian-EM 0.77 (2.23 10e-2) 9.79 (0.40) 9.81 (0.39)

Estimation d un Potts caché Data 2 : données simulées K = 3, images 100 100. Paramètre θ (attache aux données) : toujours bien estimé. Résultat d estimation de β et erreur de classification: algorithm β error rate ref. true values 0.90 - - ind-em - 21.31 (0.60) 21.14 (0.50) Mean Field 1.03 (2.45 10e-2) 14.03 (0.60) 13.78 (0.59) Simulated Field 0.90 (2.45 10e-2) 15.67 (0.56) 15.69 (0.64) MCVEM 0.85 (1.89 10e-2) 14.02 (0.59) 13.78 (0.59) MC2-EM 0.89 (1.36 10e-2) 13.77 (0.53) 13.79 (0.54) Gibbsian-EM 0.89 (2.23 10e-2) 13.77 (0.53) 13.79 (0.54)

Estimation d un Potts caché Data 3 : données simulées K = 4, images 100 100. Paramètre θ (attache aux données) : toujours bien estimé. Résultat d estimation de β et erreur de classification: algorithm β error rate ref. true values 1 - - ind-em - 24.23 (0.54) 23.87 (0.45) Mean Field 1.05 ( 1.95 10e-2) 18.32 (0.51) 18.38 (0.45) Simulated Field 0.90 (1.64 10e-2) 20.73 (0.55) 20.82 (0.48) MCVEM 0.81 (1.17 10e-2) 18.66 (0.50) 18.38 (0.45) MC2-EM 0.89 (1.07 10e-2) 18.15 (0.49) 18.24 (0.47) Gibbsian-EM 0.89 (1.67 10e-2) 18.14 (0.50) 18.24 (0.47)

Estimation d un Potts caché Data 4: Logo Image 133 142; 2 couleurs. Estimation des paramètres algorithm β µ 1 µ 2 σ 1 σ 2 error rate true values - 51 255 130 300 - ind-em - 52 255 128 304 22.69 Mean Field 4.22 53 260 130 306 3.10 Simulated Field 2.15 52 250 128 302 3.42 MCVEM 0.93 50 262 125 305 2.89 MC2-EM 0.91 50 261 125 305 2.89 Gibbsian-EM 1.82 52 251 128 303 2.92

Estimation d un Potts caché Data 4: Logo (suite) 0.22 6 0.2 5 0.18 0.16 4 0.14 3 0.12 0.1 2 0.08 0.06 1 0.04 0 0 20 40 60 80 100 120 140 160 180 200 0.02 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5 (gauche) Sensibilité aux paramètres d implémentation Mean Field, Simulated Field and MCVEM (droite) Evolution de l erreur de classification en fonction de β (et sensibilité à la non-unicité de la solution de l équation au point fixe)

Estimation d un Potts caché Data 4: Logo (suite) Image 133 142; 2 couleurs. Segmentation : Fig.: [top, from left to right] original image, noise-corrupted image, initial segmentation using kmeans, ind-em, MC2-EM; [bottom, from left to right] Gibbsian-EM, Simulated Field, Mean Field, MCVEM, MCVEM + Median Filter

Estimation d un Potts caché Data 5: Image satellite Image 256 256 Segmentation :