Introduction aux méthodes de simulation particulaires. Jean Bérard

Introduction aux méthodes de simulation particulaires Jean Bérard

2 Avertissement Ces notes sont en cours d élaboration, il se peut donc qu y subsistent un certain nombre d erreurs, d incohérences, et/ou de passages inachevés. Elles ne constituent qu un résumé de cours très succinct dont le but principal est de fournir un plan, des références bibliographiques, et la description d un certain nombre d idées importantes.

Table des matières Introduction 5 1 Inférence pour les modèles de Markov cachés 15 1.1 Définitions générales et rappels..................... 15 1.1.1 Noyaux de transition....................... 15 1.1.2 Chaînes de Markov cachées................... 16 1.2 Loi a posteriori des états cachés..................... 17 1.3 Récurrence «avant-arrière» (ou «forward-backward»)......... 18 1.4 Représentations markoviennes...................... 21 1.4.1 Les noyaux ˆp k........................... 21 1.4.2 Les noyaux ˇp k........................... 22 1.4.3 Les noyaux p k........................... 22 1.4.4 Conditionnement gauche-droite................. 22 1.5 Initialisation en 1............................ 23 1.6 Approximations particulaires...................... 23 1.6.1 Algorithme SIS.......................... 24 1.6.2 Algorithme SISR......................... 24 1.6.3 Algorithme i.i.d. séquentiel................... 25 1.7 Comportement asymptotique...................... 26 1.7.1 Consistance............................ 27 1.7.2 Normalité asymptotique..................... 30 1.7.3 Comportement en temps long.................. 34 2 Méthodes de Monte-Carlo par chaînes de Markov 41 2.1 Algorithme de Metropolis-Hastings................... 41 2.1.1 Exemples............................. 48 2.2 Echantillonnage de Gibbs........................ 51 2.2.1 Exemples............................. 57 2.2.2 L algorithme Monte-Carlo EM pour l inférence des chaînes de Markov cachées.......................... 58

4 2.3 Contrôle de la convergence........................ 60

Introduction Ces notes sont consacrées aux méthodes de simulation particulaires, dont l idée centrale est l approximation de distributions de probabilité par des populations de particules. Il s agit d un sujet très vaste, dont seuls certains aspects seront abordés en détail. Dans ce qui suit, nous donnons une petite liste d exemples illustrant l emploi de méthodes particulaires dans différents domaines. La présentation qui suit est volontairement très informelle. Nous nous permettrons donc d omettre certaines hypothèses techniques, et nous nous contenterons parfois d énoncés un peu vagues ou inccomplètement rigoureux. Préliminaire : la méthode de Monte-Carlo classique Supposons donnée une variable aléatoire X de loi µ à valeurs dans un espace mesurable (S, S). La base de la méthode de Monte Carlo classique est de partir de N variables aléatoires i.i.d. X 1,..., X N de loi µ, et d utiliser l approximation, valable lorsque N est grand, µ 1 δ N X i =: µ N. Les variables aléatoires X i constituent la population de «particules» employées pour l approximation de µ, chaque particule se voyant attribuer un poids égal à 1/N. Par exemple, si f est une fonction (mesurable, et disons bornée) de S dans R, la loi des grands nombres garantit que, lorsque N est grand, Ef(X) < f, µ N >= 1 N f(x i ). Une remarque élémentaire mais importante est que, si l on part de N variables aléatoires i.i.d. Y 1,..., Y N de loi ν sur S, et que µ possède une densité par rapport à ν que nous noterons φ, alors on a par exemple l approximation µ 1 N φ(y i )δ Yi =: µ N,

6 chaque particule se voyant accorder un poids égal à φ(y i )/N. En effet, la loi des grands nombres nous montre que < f, µ N >= 1 N φ(y i )f(y i ) E(φ(Y )f(y )) = On vérifie également que la somme des poids 1 N φ(y i )f(y i ) S f(s)φ(s)dν(s) = S f(s)dµ(s) = Ef(X). est voisine de 1 lorsque N est grand. Si l on souhaite que la somme des poids soit exactement égale à 1, on peut normaliser les poids en considérant à la place de µ N 1 N φ(y i) φ(y i )δ Yi =: µ N. Méthodes particulaires pour les équations de diffusion et de transport Commençons par l équation de diffusion suivante : p(, t) t = 1 2 d i,j=1 2 x i x j (a ij ( )p(, t)) d x i (b i ( )p(, t)), où p(, t) désigne une mesure de probabilité sur R d, b = (b i ) 1 i d est une fonction de R d dans lui-même supposée suffisamment régulière, et a = (a ij ) 1 i,j d est une fonction de R d dans l ensemble des matrices carrées d d à coefficients réels s écrivant sous la forme a(x) = σ(x) t σ(x), où σ est une fonction de de R d dans l ensemble des matrices carrées d d à coefficients réels supposée suffisament régulière. Cette équation est à comprendre au sens faible où, pour toute fonction-test f de R d dans R assez régulière, on doit avoir < p(, t), f >= t p(, t), 1 2 d 2 f a ij ( ) + x i x j i,j=1 d b i ( ) f. x i Sous des hypothèses de régularité suffisantes, il existe, pour toute condition initiale p(, 0), une unique solution valable pour tout t 0 de cette équation aux dérivées partielles. Du côté probabiliste, on considère le processus de diffusion (X t ) t 0 à valeurs dans R d défini de la manière suivante : dx t = b(x t )dt + σ(x t )dw t.

Introduction 7 Le lien avec ce qui précède provient du fait suivant : en posant p(, t) = loi de X t, on obtient une solution de l équation aux dérivées partielles précédente. Une approximation particulaire des solutions de cette équation peut donc être obtenue en considérant un système de N diffusions (X 1,N t,..., X N,N t ) t 0 i.i.d. évoluant comme ci-dessus, pour lequel on a donc, lorsque N est grand, p(, t) 1 N δ X i,n. t On note qu il n y a pas dans le système ci-dessus d interaction entre les différentes trajectoires de diffusion, celles-ci pouvant être simulées indépendamment. Considérons à présent l équation de McKean-Vlasov p(, t) t = 1 2 d i,j=1 2 x i x j (a ij [, p(, t)]p(, t)) d x i (b i [, p(, t)]p(, t)). Comme précédemment, p(, t) désigne une mesure de probabilité sur R d, tandis que pour x R d et p une mesure de probabilité sur R d, on a b[x, p] = b(x, y)dp(y), R d où b(x, y) R d, et σ(x, p) = σ(x, y)dp(y), R d a[x, p] = σ[x, p] t σ[x, p] et σ[x, p] = σ(x, y)dp(y), R d où σ est une matrice réelle d d. Toutes les fonctions ci-dessus sont supposées assez régulières, et l équation s entend au sens faible décrit ci-dessus. Sous des hypothèses de régularité suffisantes, il existe alors, pour toute condition initiale p(, 0), une unique solution valable pour tout t 0 de cette équation aux dérivées partielles. On considère alors le système de diffusions en interaction (X 1,N t,..., X 1,N t ) t 0, évoluant de la manière suivante : dx i,n t = b[x i,n t, µ N t ]dt + σ[x i,n t, µ N t ]dw i,n t,

8 où µ N t := 1 N δ X i,n, t et où les (W i,n t ) t 0 sont des mouvements Browniens sur R d indépendants, avec comme condition initiale le fait que X 1,N 0,..., X N,N 0 sont i.i.d. de loi p(, 0). Sous des hypothèses convenables, le système de diffusions ainsi obtenu fournit une approximation particulaire de la solution de l équation de McKean Vlasov ci-dessus : pour tout t 0, p(, t) µ N t. Bien que, du fait de l interaction entre les trajectoires, il n y ait pas indépendance entre celles-ci, cette dépendance disparaît pourtant lorsque l on considère un nombre fixé de trajectoires, dans la limite où N tend vers l infini. Autrement dit, pour une famille fixée d indices i 1,..., i k, on a, lorsque N est grand, que, pour tout t 0, loi(x i 1,N,..., X i k,n ) p(, t) k. Cette propriété est nommée «propagation du chaos». Pour en apprendre davantage sur le sujet, consulter par exemple [5, 6]. Bootstrap L idée sous-jacente aux méthodes de bootstrap est d étudier les propriétés de divers objets statistiques (estimateurs, intervalles de confiance, etc.) à partir de simulations réalisées en se basant sur des données observées disponibles. Apparue à la fin des années 1970, cette approche a constitué une révolution en statistique, ouvrant la possibilité de méthodes d inférence fiables non restreintes au cadre limité des modèles paramétriques pour lesquels des calculs explicites sont possibles. Le caractère automatique de la méthode, qui substitue des calculs numériques intensifs effectués par ordinateur selon une procédure standard à une analyse mathématique ardue devant être renouvelée pour chaque nouveau modèle, ajoute encore à son attrait, si bien que les méthodes de bootstrap constituent aujourd hui un outil incontournable dans de nombreuses situations de modélisation statistique. Pour illustrer le principe de base de la méthode, supposons par exemple que nous soyons en présence d une distribution de probabilité µ, et que nous cherchions à estimer un paramètre scalaire apparaissant comme une fonction de µ : θ = T (µ), à partir de données mesurées pouvant être modélisées comme un échantillon de variables i.i.d. X := (X 1,..., X N ) distribuées selon µ. Le paramètre θ peut être par exemple : l espérance, la variance, la médiane, etc.

Introduction 9 Le «principe du plug-in» suggère de remplacer µ dans la définition de θ par son approximation µ N := 1 δ N X i, et donc d utiliser comme estimateur de θ ˆθ := T (µ N ). Comment obtenir des informations sur la qualité de cet estimateur? Supposons (ce qui n est évidemment pas réaliste puisque µ n est pas connue exactement) que la valeur de θ = T (µ) soit connue, et qu il soit possible d effectuer des simulations selon la loi µ. Il serait alors possible de simuler des échantillons X (1) := (X 1 1,..., X N 1 ),..., X (B) := (X 1 B,..., X N B ) indépendants, chaque X (k) suivant la même loi que l échantillon X = (X 1,..., X N ) utilisé pour l estimation. En posant µ k N := 1 N δ X i, ˆθk := T (µ k k N), on constate que ˆθ 1,..., ˆθ B constitue un échantillon de variables aléatoires de même loi que ˆθ, et donc que 1 B δˆθk B k=1 fournit une approximation de la loi de ˆθ lorsque B est assez grand, permettant de mesurer la concentration de cette loi autour de la vraie valeur de θ = T (µ), supposée connue. En réalité, nous ne connaissons ni la vraie valeur de θ, qui est ce que nous cherchons à estimer, ni µ, ce qui compromet quelque peu les chances de pouvoir simuler des variables selon µ. L idée du boostrap (tout au moins dans sa forme la plus rudimentaire) est d appliquer la stratégie décrite ci-dessus en remplaçant µ par son approximation µ N obtenue à partir des données mesurées. En effet, il est facile de simuler selon la loi µ N, puisque cela revient simplement à choisir uniformément une valeur parmi X 1,..., X N, et la valeur T (µ N ) est forcément connue puisqu il s agit justement de notre estimateur ˆθ. Nous obtiendrons ainsi une approximation de la loi non pas de ˆθ, mais de l estimateur ˆθ obtenu, les valeurs de X 1,..., X N étant données, en partant d un échantillon X 1,..., X N

10 de v.a. i.i.d. distribuées selon la loi µ N, et en calculant ˆθ = T (µ N), où µ N := 1 N δ X i. On étudiera alors la concentration de la loi de ˆθ autour de T (µ N ), comme une approximation de la concentration de la loi de ˆθ autour de θ = T (µ), en espérant que µ N est suffisamment proche de µ pour que cette approximation soit satisfaisante. De manière plus explicite, on simulera donc des échantillons on posera X (1) := (X1 1,..., X1 N ),..., X(B) := (X1 B,..., XB N ), µ k N := 1 N δ X i k, ˆθk := T (µ k N ), et l on étudiera la concentration de la loi empirique 1 B autour de la valeur T (µ N ). Pour en apprendre plus sur le bootstrap, consulter par exemple [4, 12] B k=1 δˆθk Inférence bayésienne En statistique paramétrique classique, le modèle le plus habituel est le suivant. Une famille d observations est décrite par une variable aléatoire X, dont la loi dépend d un paramètre θ. On supposera ainsi que X suit une loi dont la densité (typiquement par rapport à la mesure de Lebesgue sur R d ou sur un sous-ensemble de R d, ou par rapport à la mesure de dénombrement dans le cas d une variable discrète) s écrit p θ ( ). On cherche alors à inférer la valeur de θ associée aux observations en utilisant par exemple la méthode du maximum de vraisemblance. Les modèles bayésiens supposent en plus la donnée d une loi a priori sur la valeur du paramètre, le résultat de l inférence sur le paramètre étant la loi a posteriori de celui-ci, c est-à-dire la loi du paramètre conditionnellement aux observations. On modélisera le couple (observation, paramètre) par un couple de variables aléatoires (X, Θ), la densité conditionnelle de X sachant la valeur Θ = θ étant donnée par

Introduction 11 p θ ( ), la densité de Θ étant, quant à elle, notée π( ). Par conséquent, la loi jointe du couple (X, Θ) sera donnée par f(x, θ) = p θ (x)π(θ). Avec ces notations, on constate que l objet que l on cherche à inférer, c est-à-dire la loi de Θ conditionnelle aux observations X = x, a pour densité π x (θ) = f(x, θ) f(x, θ)dλ(θ), où λ désigne la mesure de référence par rapport à laquelle la densité de Θ est définie. Cette formule explicite n est malheureusement pas forcément exploitable pour en déduire des informations sur la loi π x, par exemple parce que le facteur de normalisation f(x, θ)dλ(θ) ne peut pas être facilement calculé ou approché de manière convenable. La possibilité d utiliser les méthodes de Monte Carlo par chaînes de Markov (MCMC) pour échantillonner directement la loi π x a constitué une véritable révolution en statistique bayésienne, en permettant de dépasser le cadre restrictif des modèles pour lesquels un calcul explicite de la loi a posteriori est possible. Pour exposer très simplement le principe de base d une approche MCMC en statistique bayésienne, donnons une définition succincte de l algorithme de Metropolis dans un cadre général. On suppose donc donnée une mesure de probabilité ν sur un espace mesurable (S, S) possédant une densité g par rapport à une mesure de référence σ finie, ainsi qu un noyau de transition K de S dans lui-même, soit, pour fixer les idées, la donnée pour tout x S d une densité de probabilité k(x, ) sur S. L algorithme de Metropolis consiste, à partir d une valeur initiale Z 0 S, à construire une chaîne de Markov (Z n ) n 0 en itérant la procédure suivante : étant donnés Z 0,..., Z n, on génère Y selon la loi K(Z n, ). Si g(y )k(y, Z n ) g(z n )k(z n, Y ), on pose Z n+1 := Y. Dans le cas contraire, on choisit Z n+1 := Y avec une probabilité de g(y )K(Y, Z n )/g(z n )K(Z n, Y ), et Z n+1 := Z n dans le cas contraire. Sous des hypothèses génériques de régularité et de non-dégénérescence, la chaîne de Markov ainsi obtenue est ergodique et possède ν pour unique loi invariante. En particulier, on a que, lorsque N est grand, 1 N δ Zi ν, et l algorithme de Metropolis fournit ainsi une approximation particulaire de ν. On note que l application de l algorithme ne nécessite la connaissance de la densité g qu à une constante multiplicative près, ce qui permet donc de l appliquer au cas de la loi a posteriori décrit ci-dessus, où l on ne connaît généralement pas la constante

12 de normalisation f(x, θ)dλ(θ), mais où f(x, θ) est connue explicitement. Il suffit pour cela de disposer d un noyau de transition possédant les quelques propriétés de régularité nécessaires et facilement simulable, ce qui n est en général pas très difficile. Pour en savoir plus sur les méthodes bayésiennes, y compris les aspects computationnels, voir [10, 11]. Inférence pour les modèles de Markov cachés Rappelons la définition d une chaîne de Markov cachée : on se donne un espace d états cachés S et un espace d états observés V (que, pour simplifier, nous supposerons pour l instant finis), une loi initiale ν sur S, une famille de noyaux de transition (p k ) k 0 sur S, et une famille (q k ) k 0 de noyaux de transition de S vers V, c est-à-dire que, pour tout k 0 et x S, p k (x, ) est une probabilité sur S et q k (x, ) est une probabilité sur V. Une chaîne de Markov cachée associée à ces éléments est une suite de couples de variables aléatoires (X n, Y n ) n 0 telle que (X n ) n 0 est une chaîne de Markov associée à la loi initiale ν et à la famille de noyaux de transition (p k ) k 0, tandis que, conditionnellement à (X n ) n 0, les variables aléatoires (Y k ) k 0 sont indépendantes, la loi de Y k sur V étant donnée par q k (X k, ). Comme la terminologie le suggère, ce type de modèles est employé pour décrire des suites de variables observées Y 0, Y 1,..., dont la dépendance est en fait contrôlée par une suite markovienne de variables non-observées X 0, X 1,.... Parmi les différents problèmes d inférence posés par ces modèles (estimation des paramètres, du nombre d états cachés, etc.), l un d entre eux au centre de tout un ensemble de méthodes particulaires : l inférence des variables cachées X 0, X 1,... étant données les observations Y 0, Y 1,.... Exemple spécifique : le problème du filtrage. Autrement dit, la détermination de la loi de X m étant données les observations Y 0 = y 0,..., Y m = y m. (Exemple d application : on reçoit en temps réel des mesures bruitées de la position d un objet dont la vitesse de déplacement est modélisée par un processus markovien, et l on cherche à déterminer au mieux sa position au vu des observations disponibles.) Etant donnée une suite y 0, y 1,..., y m de valeurs observées, appelons Φ ν,m m la loi de X m conditionnelle à l événement Y 0:m = y 0:m. La suite Φ ν,m m obéit à une relation de récurrence que nous allons énoncer, après avoir introduit les notations nécessaires. Etant donnée un noyau de transition de S dans lui-même et une mesure de probabilité µ sur S, on définit µp comme la mesure de probabilité (µp)(x) = u S µ(u)p(u, x).

Introduction 13 Autrement dit, si Z est distribué selon µ, et si Z est obtenu en effectuant un pas du noyau p à partir de Z, alors Z est distribué selon la loi µp. D autre part, étant donnée une fonction f : S R + et une mesure de probabilité µ sur S, on définit la mesure de probabilité S f (µ) sur S par S f (µ)(x) = µ(x)f(x) u S µ(u)f(u). On vérifie alors que la suite des lois Φ ν,n obéit à la récurrence suivante : Concernant Φ ν,0, on a d autre part Φ ν,n+1 = S qn+1 (,y n+1 )(Φ ν,n p n ). Φ ν,0 = S q0 (,y 0 )(ν). On voit ainsi que l on a à résoudre une récurrence non-linéaire à valeurs dans les mesures de probabilité sur S. Il est possible de donner une interprétation particulaire aux étapes de cette récurrence, ce qui fournit un algorithme de résolution particulaire pour celle-ci. De manière générale, si une loi µ est approchée par une population sous la forme µ N = 1 N δ xi µ, i=0 on obtient une approximation de µp en tirant d abord N v.a. i.i.d. de loi µ N, soit W 1,..., W N et en effectuant, au départ de chaque W i, un pas selon le noyau p, pour produire une variabe R i. On voit qu ainsi µp µ N p 1 N δ R i. i=0 On préfèrera généralement effectuer un pas selon p au départ de chaque x i, pour limiter le bruit d échantillonnage. De même, une approximation de S f (µ) est obtenue en attribuant à chaque x i un poids égal à f(x i ) et en tirant Z 1,..., Z N de manière i.i.d. selon la loi N f(x i)δ xi N f(x i). On obtient ainsi un l algorithme particulaire suivant pour l estimation de Φ ν,n. Algorithme 1 (Algorithme SISR, version de base) L algorithme suivant produit séquentiellement des approximations particulaires de Φ ν,0 0,..., Φ ν,m m.

14 Initialisation : on part d un échantillon i.i.d. ξ N,1 1,..., ξn,n 1 distribué selon N,i ν, chaque ξ 1 possède un poids égal à 1. N,i Mutation : on obtient chaque ξ k+1 en faisant un pas en partant de ξn,i k selon le noyau p k, chaque ξ N,i k+1 se voit attribuer un poids égal à ω N,i k+1 := q k+1( ξ N,i k+1, y k+1). ξ N,1:N k+1 en utili- Sélection : on rééchantillonne ξ N,1:N k+1 de manière i.i.d. parmi sant les poids ω N,1:N k+1, i.e. selon la loi 1 N j=1 ωn,j k+1 ω N,i k+1 δ ξn,i. k+1 L approximation souhaitée est alors que, lorsque N est grand, Φ ν,n+1 1 N δ ξ n,i. Pour en savoir plus sur l estimation dans les modèles de Markov cachés, voir par exemple [2].

Chapitre 1 Inférence pour les modèles de Markov cachés Notre référence principale pour ce chapitre est l ouvrage 1 [2]. Voir également l ouvrage de référence [3] qui traite (entre autres) des méthodes particulaires dans le cadre général de l approximation des formules de type Feynman-Kac. 1.1 Définitions générales et rappels 1.1.1 Noyaux de transition Définition 1 Etant donnés deux espaces mesurables (S 1, S 1 ) et (S 2, S 2 ), on appelle noyau de transition non-normalisé de S 1 vers S 2 toute application p(, ) de S 1 S 2 dans R + telle que : pour tout A S 2, x p(x, A) est une application mesurable de (S 1, S 1 ) dans R muni de sa tribu Borélienne ; pour tout x S 1, p(x, ) est une mesure positive sur (S 2, S 2 ). On parlera simplement de noyau de transition non-normalisé sur (S, S) lorsque (S 1, S 1 ) = (S 2, S 2 ) = (S, S). Lorsque p(x, ) est, pour tout x, une mesure de probabilité, on parle simplement de noyau de transition. On dit que le noyau p possède une densité par rapport à la mesure positive µ sur S 2 s il existe une fonction h définie sur S 1 S 2, à valeurs dans R +, mesurable par rapport à S 1 S 2, et telle que, pour tout x S, h(x, ) est une densité pour p(x, ) par rapport à µ. Rappelons l action d un noyau de transition (non-nécessairement normalisé) p de (S 1, S 1 ) et (S 2, S 2 ) sur une mesure positive π définie sur (S 1, S 1 ) : il s agit de la 1. Une version très abrégée du contenu de l ouvrage se trouve (octobre 2010) à l adresse http ://www.ime.usp.br/ ebp/ebp13/mainbras.pdf

16 Modèles de Markov cachés mesure positive sur (S 2, S 2 ) définie par (πp)(a) = p(s, A)dπ(s). S 1 Si π est une mesure de probabilité et p un noyau de transition, pπ est alors une mesure de probabilité, qui fournit la loi de la variable aléatoire Z 2 obtenue en générant Z 1 selon la loi π, puis, conditionnellement à Z 1, Z 2 selon la loi p(z 1, ). Rappelons également l action d un noyau de transition (non-nécessairement normalisé) sur les fonctions : étant donné un noyau ) p de (S 1, S 1 ) et (S 2, S 2 ) et une fonction mesurable sur (S 1, S 1 ) à valeurs réelles, on définit formellement la fonction pf sur (S 1, S 1 ) par (pf)(x) := f(s)dp(x, s). Pour que cette action soit bien définie, on suppose par exemple que f est positive, ou que f est bornée et que p(x, ) est une mesure de masse finie pour tout x S 1. La fonction pf est alors mesurable sur (S 1, S 1 ). Etant données une mesure positive ν sur (S 0, S 0 ) et une suite de noyaux de transition non-normalisés p 0,..., p m, où p i est un noyau de (S i, S i ) vers (S i, S i+1 ), on notera M ν,p0:m la mesure positive définie sur (S 0 S m, S 0 S m ) par M ν,p0:m 1 (A) := dν(x 0 ) x 0 S 0 dp 0 (x 0, x 1 ) x 1 S 1 dp m 1 (x m 1, x m )1(x 0:m A). x m S m Lorsque J désigne une sous-famille d indices de {0,..., m}, nous désignerons par M J ν,p 0:m 1 la mesure image de M ν,p0:m 1 par la projection x 0:m (x j, j J). 1.1.2 Chaînes de Markov cachées Une suite de variables aléatoires (X k ) k 0 à valeurs dans S est une chaîne de Markov associée à la suite de noyaux de transition (p k ) k 0 sur S lorsque, pour tout k 0, et tout A S, on a P (X k+1 A σ(x 0,..., X k )) = p k (X k, A) p.s. Etant donnée une telle chaîne de Markov, la loi jointe de X 0,..., X m n est autre que M ν,p0:m 1 (A), où ν désigne la loi de X 0. De manière générale, étant donnés un espace d états cachés (S, S) et un espace d états observés (V, V), une suite de noyaux de transition (p k ) k 0 sur S et (q k ) k 0 de S dans V, on dit qu une suite de variables aléatoires (X k, Y k ) k 0 à valeurs dans S V est une chaîne de Markov cachée associés aux noyaux (p k ) k 0 et (q k ) k 0 si

Inférence pour les modèles de Markov cachés 17 elle constitue une chaîne de Markov pour les noyaux de transition (r k ) k 0 définis sur (S V, S V ) par r k ((x, y), C) = dp k (x, x ) dq k (x, y )1((x, y ) C). x S y V On vérifie que cette définition généralise bien celle donnée dans le cas discret en introduction. En particulier, étant donnée une chaîne de Markov cachée (X n, Y n ) n 0 comme ci-dessus, on a, pour tout m 0, et pour tous B 0,..., B m V, P (Y 0 B 0,..., Y m B m σ(x 1,..., X m )) = q 0 (X 0, B 0 ) q m (X m, B m ) p.s. Ensemble d hypothèses 1 Nous supposerons dans la suite qu il existe une mesure positive µ σ-finie sur (S, S) telles que les noyaux q k (x, ) possèdent par rapport à µ une densité g k (x, ). 1.2 Loi a posteriori des états cachés L objet central auquel on s intéresse est la loi de la suite des états cachés conditionnellement aux observations. Dans la suite, nous noterons ν la loi de X 0. On note d abord que la loi jointe de (X 0:m, Y 0,m ) s écrit g 0 (x 0, y 0 ) g m (x m, y m )dm ν,p0:m 1 (x 0:m )dµ (m+1) (y 0:m ). Ainsi, la loi de Y 0:m a pour densité par rapport à µ (m+1) la densité définie pour tout y 0:m V m+1 par L ν,m (y 0:m ) := dm ν,p0:m 1 (x 0:m )g 0 (x 0, y 0 ) g m (x m, y m ), x 0:m S m+1 et, pour y 0:m V m+1 tel que L ν,m (y 0:m ) > 0, la loi de X 0:m conditionnelle à Y 0:m = y 0:m, notée Φ ν,0:m m, s écrit dφ ν,0:m m (x 0:m ) = L ν,m (y 0:m ) 1 g 0 (x 0, y 0 ) g m (x m, y m )dm ν,p0:m 1. Dans la suite, nous nous intéresserons particulièrement à la loi conditionnelle de X k sachant les observations Y 0:m = y 0:m, que nous noterons Φ ν,k m, et qui n est autre que la marginale de Φ ν,0:m m sur la coordonnée x k. Remarque 1 Dans la suite, nous supposerons toujours donnée une séquence y 0:m d observations par rapport auxquelles diverses lois conditionnelles sont considérées. La dépendance des diverses quantités par rapport à m ou y 0:m ne sera pas toujours explicitement mentionnée, pour alléger les notations.

18 Modèles de Markov cachés 1.3 Récurrence «avant-arrière» (ou «forward-backward») On introduit le noyau α ν,k de (V k+1, V (k+1) ) vers (S, S) défini de la manière suivante : α ν,k (y 0:k, ) est obtenu en projetant sur la k ème coordonnée la mesure définie comme g(x 0, y 0 ) g(x k, y k )dm ν,p0:k 1 (x 0:k ). On définit également une fonction sur V m k S par β k (y k+1:m, x k ) = dm k+1:m δ xk,p S m k k:m 1 (x k+1:m )g(x k+1, y k+1 ) g(x m, y m ). Proposition 1 Pour tout 0 k m, la loi de X k sachant Y 0:m = y 0:m est donnée par dφ ν,k m = L ν,m (y 0:m ) 1 β k (y k+1:m, x k )dα ν,k (y 0:k, x k ). Corollaire 2 Pour tout 0 k m, L ν,m (y 0:m ) = β k (y k+1:m, x k )dα ν,k (y 0:k, x k ). S Proposition 2 (Récurrence «vers l avant») Pour tout 0 k m 1, on a : dα ν,k+1 (y 0:k, x k+1 ) = d(α ν,k (y 0:k, )p k )(x k+1 )g k+1 (x k+1, y k+1 ). L initialisation est donnée par dα ν,0 (x 0, y 0 ) = dν(x 0 )g 0 (x 0, y 0 ). Proposition 3 (Récurrence «vers l arrière») Pour tout 0 k m 1, on a β k (y k+1,m, x k ) = dp k (x k, x k+1 )g k+1 (x k+1, y k+1 )β k+1 (y k+2:m, x k+1 ). L initialisation est donnée par β m (x m ) = 1. A supposer que les diverses intégrations nécessaires puissent être effectivement calculées, on obtient l algorithme «avant-arrière» suivant pour le calcul des lois Φ ν,k k. Algorithme 2 (Algorithme «avant-arrière») L algorithme suivant permet de calculer, pour tout k, la loi Φ ν,k k Etape 1 : calculer récursivement (vers l avant) α 0, α 1,..., α m ; Etape 2 : calculer récursivement (vers l arrière) β m, β m 1,..., β 0 ;

Inférence pour les modèles de Markov cachés 19 Etape 3 : normaliser la mesure définie par β k (y k+1:m, x k )dα ν,k (y 0:k, x k ) en la divisant par L ν,m (y 0:m ) = β k (y k+1:m, x k )dα ν,k (y 0:k, x k ). S On note que, dans le cas où S est un ensemble fini, les intégrations nécessaires se ramènent à des sommes portant sur les éléments de S, et peuvent donc être calculées numériquement sous réserve que le cardinal de S soit raisonnable. Il est possible de travailler directement avec des versions normalisées de α et de β, ce qui présente l avantage (numérique) de limiter les variations d ordre de grandeur des quantités manipulées dans la récurrence, et de permettre une interprétation probabiliste plus directe des quantités manipulées. On définit ainsi la version normalisée de α k par ᾱ ν,k (y 0:k, ) := α ν,k(y 0:k, ) α ν,k (y 0:k, S). Proposition 4 La version normalisée de α k est la loi de X k conditionnée à Y 0:k = y 0:k, i.e. ᾱ ν,k (y 0:k, ) = Φ ν,k k ( ). Corollaire 3 La constante de normalisation dans la définition ci-dessus vérifie α ν,k (y 0:k, S) = L ν,k (y 0:k ). On définit également une version normalisée de β k par β k (y k+1:m, ) := L ν,k(y 0:k ) L ν,m (y 0:m ) β k(y k+1:m, ). Proposition 5 Avec la définition ci-dessus, β k (y k+1:m, x k )dᾱ ν,k (y 0:k, x k ) = 1. Corollaire 4 La version normalisée de β k (y k+1:m, ) définie ci-dessus donne la densité de la loi de X k conditionnelle aux observations Y 0:m = y 0:m par rapport à la loi Φ ν,k de X k conditionnelle aux observations Y 0:k = y 0:k. Autrement dit : dφ ν,k m = β k (y k+1:m, x k )dᾱ ν,k (y 0:k, x k ) = β k (y k+1:m, x k )dφ ν,k k (x k ). Ainsi, si l on connaît ᾱ ν,k et β k plutôt que α ν,k et β k, on a directement accès à Φ ν,k m sans qu il soit nécessaire d effectuer une normalisation comme dans la dernière étape de l algorithme «avant-arrière» décrit ci-dessus.

20 Modèles de Markov cachés Proposition 6 (Récurrence «avant» normalisée) On a alors la récurrence «vers l avant» suivante pour la loi de filtrage (déjà vue en introduction) : pour tout 0 k m 1, dᾱ ν,k+1 (y 0:k, x k+1 ) = d(ᾱ ν,k(y 0:k, )p k )(x k+1 )g k+1 (x k+1, y k+1 ) S d(ᾱ. ν,kp k )(x k+1 )g k+1 (x k+1, y k+1 ) La récurrence ci-dessus peut se décomposer en deux étapes ayant une interprétation probabiliste et particulaire (nous utilisons la notation Φ ν,k k plutôt que ᾱ ν,k car c est celle qui sera employée dans la suite) : passage de Φ ν,k k à Φ ν,k k p k ; re-pondération de la probabilité Φ ν,k k p k ainsi obtenue proportionnellement à la fonction de poids g k+1 (, y k+1 ). Introduisons les noyaux non-normalisés T 0,..., T m 1 définis par dt k (x k, x k+1 ) = L ν,k(y 0:k ) L ν,k+1 (y 0:k+1 ) dp k(x k, x k+1 )g k+1 (x k+1, y k+1 ). La relation de récurrence avant se réécrit sous la forme suivante. Proposition 7 Φ ν,k+1 k+1 = Φ ν,k k T k ). On note qu une relation de récurrence similaire à celle vérifiée par les Φ ν,k k est également vérifiée par les Φ ν,0:k k. Proposition 8 Pour 0 k m 1, dφ ν,0:k+1 k+1 (x 0:k+1 ) = L ν,k(y 0:k ) L ν,k+1 (y 0:k+1 ) dm Φ ν,0:k k,p k (x 0:k+1 )g k+1 (x k+1, y k+1 ). On définit les constantes de normalisation c ν,k pour 0 k m par c ν,k := d(ᾱ ν,k 1 p k 1 )(x k+1 )g k (x k, y k ) pour 1 k m, et, pour k = 0, par c ν,0 := dᾱ ν,0 (x 0 )g 0 (x 0, y 0 ). Proposition 9 On a les identités pour 1 k m, et, pour k = 0, S S c ν,k = L ν,k(y 0:k ) L ν,k 1 (y 0:k+1 ) c ν,0 = L ν,0 (y 0 ).

Inférence pour les modèles de Markov cachés 21 Avec ces notations, on peut écrire les relations de récurrence «vers l arrière» de la manière suivante. Proposition 10 Pour tout 0 k m 1, β k (x k ) = c 1 ν,k+1 dp k (x k, x k+1 )g k+1 (x k+1, y k+1 ) β k+1 (x k+1 ), avec comme condition initiale β m (x m ) = 1. On obtient ainsi l algorithme avant-arrière normalisé suivant. Algorithme 3 (Algorithme «avant-arrière» normalisé) L algorithme suivant permet de calculer, pour tout k, la loi Φ ν,k k Etape 1 : calculer récursivement (vers l avant) ᾱ 0, α 1,..., α m, en calculant simultanément les constantes de normalisation c 0,..., c m. Etape 2 : calculer récursivement (vers l arrière) β m, β m 1,..., β 0. 1.4 Représentations markoviennes La loi de X 0:m conditionnellement aux observations Y 0:m = y 0:m est encore la loi d une chaîne de Markov, mais dont les noyaux doivent être convenablement modifiés. 1.4.1 Les noyaux ˆp k Etant donnée une suite de valeurs y 0:m S m+1, on définit pour tout 0 k m 1 le noyau de transition ˆp k sur (S, S) par dˆp k (x k, x k+1 ) = β k+1(y k+1:m, x k+1 ) g k+1 (x k+1, y k+1 )dp k (x k, x k+1 ), β k (y k:m, x k ) si β k (y k:m, x k ) > 0, et par n importe quel noyau lorsque β k (y k:m, x k ) = 0. Proposition 11 On a l identité Φ ν,0:m m = M Φν,0 m,ˆp 0:m 1. On voit ainsi qu il est possible d accéder à la loi de X k conditionnelle à Y 0:m en calculant récursivement les β k pour k de m à 0 au moyen de la récurrence «arrière», puis en utilisant la représentation markovienne ci-dessus.

22 Modèles de Markov cachés 1.4.2 Les noyaux ˇp k Il est possible d obtenir une représentation markovienne allant dans le sens «arrière» sous réserve d hypothèses de régularité peu contraignantes. On cherche, pour tout 0 k m 1, un noyau de transition ˇp ν,k de (S, S) vers lui-même, satisfaisant l identité dφ ν,k k (x k )dp k (x k, x k+1 ) = dˇp ν,k (x k+1, x k )dφ ν,k+1 k (x k+1 ), (1.1) ce qui, de manière purement formelle, s écrit dˇp ν,k (x k+1, x k ) = dp k(x k, x k+1 ) dφ ν,k+1 k (x k+1 ) dφ ν,k k(x k ). Cette écriture a un sens rigoureux au moins dans le cas où S est discret, ou encore dans le cas où les noyaux p k sont dominés par une même mesure positive sur (S, S). Proposition 12 Si les noyaux (ˇp ν,k ) 0 k m 1 vérifient (1.1), alors Φ ν,m:0 m = M Φν,m m,ˇp m 1:0. 1.4.3 Les noyaux p k On note que la relation de récurrence «avant» pour les lois de filtrage ne permet pas de fournir une représentation markovienne du même type. On peut tenter de définir, pour 0 k m 1, le noyau p k par d p k (x k, x k+1 ) = dp k (x k, x k+1 )g k+1 (x k+1, y k+1 ) x k+1 S dp k(x k, x k+1 )g k+1 (x k+1, y k+1 ) = dt k(x k x k+1), T k (x k, S) mais, en général, Φ ν,m m ne coïncide pas avec la loi de x m sous la mesure M Φν,0 0, p 0:m 1. 1.4.4 Conditionnement gauche-droite On note également le résultat du conditionnement par les états situés respectivement à gauche et à droite (on suppose ici que les noyaux p k possèdent une densité h k par rapport à une mesure de référence σ finie. On a alors que, sous Φ ν,0:m m, la densité de X k conditionnelle à (X j ) j k = (x j ) j k ne dépend que des valeurs de x k 1 et x k+1, et est, à une constante multiplicative près, donnée pour toute valeur x k par h k (x k 1, x k )h k+1 (x k, x k+1 )g k (x k, y k ).

Inférence pour les modèles de Markov cachés 23 1.5 Initialisation en 1 Pour des raisons de cohérence des notations, il sera commode dans la suite de considérer notre problème comme portant sur une chaîne de Markov cachée initialisée en 1 plutôt qu en 0. On introduit à cette fin le noyau de transition p 1 de S dans lui-même défini par p 1 (x 1, ) = δ x 1, et g 1 (x 1, y 1 ) = 1 pour tous x 1 S et y 1 V. En fait, la loi conditionnelle des états cachés conditionnellement aux observations pour le problème initialisé en 1 coïncide exactement avec celle correspondant au problème initialisé en 0, car, pour le problème initialisé en 1, la loi de X 0:k conditionnellement à Y 1:k = y 1:k s identifie à la loi de X 0:k conditionnellement à Y 0:k = y 0:k pour le problème initialisé en 0.sur les coordonnées. Avec notre choix, on a X 1 = X 0 p.s., et la loi de X 1 est en particulier égale à ν. Du fait que g 1 est prise constante, on a également que la loi de X 1 conditionnelle à la valeur de Y 1, quelle que soit celle-ci, est simplement donnée par Φ ν, 1 1 = ν. En étendant les définitions précédentes, on dispose des objets T 1, β 1, ˆp 1 et L 1, et l on vérifie facilement que l opérateur T 1, qui vérifie que est donné par Φ ν,0 0 = T 1 ν = T 1 Φ ν, 1 1, dt 1 (x 0, x) = 1 L 0 dp 1 (x 0, x)g 0 (x). De même, gr ce à la relation de récurrence arrière, on constate que β 1 = β 0. Par ailleurs, ˆp 1 = p 1. Enfin, L 1 ne dépend pas de y 1, car L 1 1. (On peut donc utiliser de manière cohérente la notation L 1 = L 1 (y 0: 1 ).) 1.6 Approximations particulaires Nous décrivons dans cette section plusieurs algorithmes particulaires destinés à approcher numériquement les loi de filtrage Φ ν,k k.

24 Modèles de Markov cachés 1.6.1 Algorithme SIS Rappelons la relation de récurrence pour les lois de filtrage : pour tout 0 k m 1, dφ ν,k+1 k+1 (y 0:k, x k+1 ) = d(φ ν,k kp k )(x k+1 )g k+1 (x k+1, y k+1 ) S d(φ ν,k kp k )(x k+1 )g k+1 (x k+1, y k+1 ), cette étape de récurrence pouvant se décomposer en deux étapes : passage de Φ ν,k k (y 0:k, ) à Φ ν,k k (y 0:k, )p k ; re-pondération de la probabilité Φ ν,k k (y 0:k, )p k ainsi obtenue proportionnellement à la fonction de poids g k+1 (, y k+1 ). Il est facile de produire une approximation particulaire de la première étape, car partant de ξ k distribuée selon Φ ν,k k, une variable ξ k+1 obtenue en faisant un pas en partant de ξ k selon le noyau p k est distribuée selon Φ ν,k k (y 0:k, )p k. Le problème est l étape de re-pondération. Une possibilité est de travailler avec des échantillons pondérés. En effet, si ξ N,1 k constitue un échantillon distribué selon Φ ν,k k (y 0:k, )p k, on obtient, en attribuant à chaque ξ N,i k+1 un poids égal := g k+1 (ξ N,i k+1, y k+1), un échantillon pondéré donnant une approximation de à ω N,i k,..., ξ N,N k Φ ν,k+1 k+1, au sens (pour l instant vague) où, pour une vaste classe de fonctions f, lorsque N est grand, 1 N j=1 ωn,j k+1 ω N,i k+1 f(ξn,i k+1 ) < f, Φ ν,k+1 k+1 >. On peut itérer cette idée, ce qui donne lieu à l algorithme d échantillonnage d importance séquentiel suivant (SIS pour Sequential Importance Sampling). Algorithme 4 (Algorithme SIS) L algorithme suivant produit séquentiellement des approximations particulaires de Φ ν,0 0,..., Φ ν,m m. Initialisation : on part d un échantillon i.i.d. ξ N,1 1,..., ξn,n 1 ν, et chaque ξ N,i 1 se voit attribuer un poids égal à 1. Itération : Etant donnés (ξ N,1:N k un pas en partant de ξ N,i k selon : 1.6.2 Algorithme SISR distribué selon, ω N,1:N k en faisant selon le noyau p k. On met alors à jour les poids ), on obtient chaque ξ N,i k+1 ω N,i k+1 := ωn,i k g k+1 (ξ N,i k+1, y k+1). Le gros problème de l algorithme SIS est la dégéneresence des poids dès que le nombre d itérations dépasse quelques unités. L algorithme SISR (Sequential Importance Sampling with Resampling) tente de résoudre ce problème en ajoutant à chaque étape une phase de ré-échantillonnage proportionnellement aux poids.

Inférence pour les modèles de Markov cachés 25 Algorithme 5 (Algorithme SISR, version de base) L algorithme suivant produit séquentiellement des approximations particulaires de Φ ν,0 0,..., Φ ν,m m. Initialisation : on part d un échantillon i.i.d. ξ N,1 1,..., ξn,n 1 distribué selon N,i ν, chaque ξ 1 possède un poids égal à 1. N,i Mutation : on obtient chaque ξ k+1 en faisant un pas en partant de ξn,i k selon le noyau p k, chaque ξ N,i k+1 se voit attribuer un poids égal à ω N,i k+1 := g k+1( ξ N,i k+1, y k+1). ξ N,1:N k+1 en utili- Sélection : on rééchantillonne ξ N,1:N k+1 de manière i.i.d. parmi sant les poids ω N,1:N k+1, i.e. selon la loi 1 N j=1 ωn,j k+1 ω N,i k+1 δ ξn,i. k+1 Il peut également être intéressant d utiliser un autre noyau markovien que p k pour la mutation. Les poids doivent alors être modifiés pour en tenir compte. Algorithme 6 (Algorithme SISR, version générale) L algorithme suivant produit séquentiellement des approximations particulaires de Φ ν,0 0,..., Φ ν,m m. Initialisation : on part d un échantillon i.i.d. ξ N,1 distribué selon ξ N,i 1 ν, chaque possède un poids égal à 1. Mutation : on obtient chaque le noyau r k, chaque ξ N,i k+1 ξ N,i k+1 1,..., ξn,n 1 en faisant un pas en partant de ξn,i k se voit attribuer un poids égal à ω N,i k+1 := g k+1( ξ N,i k+1, y k+1) dp k((ξ N,i k, ) N,i dr k ((ξ N,i ( ξ k+1, ) ). k selon ξ N,1:N k+1 en utili- Sélection : on rééchantillonne ξ N,1:N k+1 de manière i.i.d. parmi sant les poids ω N,1:N k+1, i.e. selon la loi 1 N j=1 ωn,j k+1 1.6.3 Algorithme i.i.d. séquentiel ω N,i k+1 δ ξn,i. k+1 Dans cette section, nous décrivons une variante de l algorithme SISR que nous appellerons algorithme i.i.d. séquentiel. On a la relation, pour tout k 1, Φ ν,k+1 k+1 = T k Φ ν,k k.

26 Modèles de Markov cachés L algorithme SISR utilisait la décomposition de T k en deux étapes, l une de mutation, et l autre de sélection. Une autre idée consiste, pour passer d une approximation particulaire de Φ ν,k k à une approximation particulaire de Φ ν,k+1 k+1, à échantillonner N particules de manière i.i.d. selon la loi obtenue en appliquant T k à l approximation particulaire de Φ ν,k k et en normalisant. Algorithme 7 (Algorithme i.i.d. séquentiel) L algorithme suivant produit séquentiellement des approximations particulaires de Φ ν,0 0,..., Φ ν,m m. Initialisation : on part d un échantillon i.i.d. ξ N,1 1,..., ξn,n 1 distribué selon N,i ν, chaque ξ 1 possède un poids égal à 1. Echantillonnage : générer ξ N,1:N k+1 comme un échantillon i.i.d. distribué selon la loi Ψ N k T k (Ψ N k T k)(s), où Ψ N k := 1 N δ ξ N,i. k On note que l on peut réécrire la loi utilisée pour l échantillonnage comme le mélange de lois Ψ N k T k N (Ψ N k T k)(s) = γ N,i T k (ξ N,i k, ) k T k (ξ N,i k, S), où γ N,i k := T k (ξ N,i k, S) N T k(ξ N,i k, S). 1.7 Comportement asymptotique Dans cette partie, on s intéresse au comportement asymptotique des approximations particulaires obtenues par les algorithmes particulaires décrits dans la partie précédente. Nous prendrons comme classe de fonctions de référence auxquelles l approximation particulaire est susceptible d être appliquée l ensemble B(S) des fonctions boréliennes bornées de (S, S) dans R. Définition 2 Nous appellerons famille d échantillons pondérés toute famille de variables aléatoires (Z N,i, ρ N,i ), où N 1 et 1 i N, Z N,i X et ρ N,i 0, telle que S N := N ρn,i > 0 avec probabilité 1 pour tout N 1.

Inférence pour les modèles de Markov cachés 27 1.7.1 Consistance Nous dirons qu une telle famille est une approximation particulaire consistante d une mesure de probabilité χ sur S si, lorsque N tend vers l infini, on a, pour tout f B(S), la convergence en probabilité 1 S N ρ N,i f(z N,i P ) < f, χ >. Etape de mutation de SISR Pour analyser l étape de mutation de l algorithme SISR, nous nous placerons dans le cadre général suivant. Soit L un noyau de transition non-normalisé de S vers lui-même, et soit K un noyau de transition de S vers lui-même tel qu il existe une application mesurable h de (S S, S S) dans R + telle que, pour tout x S, h(x, ) est une densité de L(x, ) par rapport à K(x, ). On suppose à présent que l on dispose d un échantillon pondéré (ξ N,i, 1), et que, pour tout N, on a que, conditionnellement à ξ N,1:N, les ξ N,i sont des variables aléatoires à valeurs dans X, indépendantes, et telles que, pour tout i, ξ N,i suit la loi R(ξ N,i, ). On définit alors ω N,i := h(ξ N,i, ξ N,i ). Proposition 13 Sous l hypothèse que h est bornée, le fait que (ξ N,i, 1) soit une approximation particulaire consistante de χ implique que ( ξ N,i, ω N,i ) est une approximation particulaire consistante de χ := χl (χl)(s). En prenant L défini par dl(x k, x k+1 ) = dp k (x k, x k+1 )g k+1 (x k+1, y k+1 ) et K = p k, on retrouve l étape de mutation de l algorithme SISR de base. La proposition cidessus inclut également l étape de mutation de la version générale de l algorithme. Preuve : On pose S N := N ωn,i. Ce que l on veut prouver est que, pour toute f B(S), on a la convergence en probabilité 1 S N ω N,i f( ξ N,i P < f, χl > ) (χl)(s). (1.2) Il suffit en fait de prouver que, pour toute f B(S), on a 1 N ω N,i f( ξ N,i P ) < f, χl >. (1.3)

28 Modèles de Markov cachés En effet, en prenant f 1 dans la limite ci-dessus, on obtient le fait que S N N = 1 N ω N,i P (χl)(s), et le résultat souhaité (1.2) se déduit ainsi de (1.3). Notons G N la tribu σ(ξ N,i, 1 i N). On observe d abord que, par définition, E( ω N,i f( ξ N,i ) G N ) = h(ξ N,i, x)f(x)dk(ξ N,i, x) = (Lf)(ξ N,i ). Ensuite, comme (ξ N,i, 1) est une approximation particulaire consistante de χ, on en déduit que 1 N N E( ω N,i f( ξ N,i ) G N ) = 1 N 1 N (Lf)(ξ N,i P ) < Lf, ν >=< f, νl >. Par conséquent, il suffit de montrer que ( ω N,i f( ξ N,i ) 1 N ) N E ω N,i f( ξ N,i ) G N P 0 pour conclure. Or, conditionnellement à G N, les variables ω N,i f( ξ N,i ), 1 i N sont indépendantes, et, par hypothèse, bornées. On dispose donc d une borne du type ( ) 1 V ω N,i f( ξ N,i ) G N C N N p.s. d où, pour tout a > 0, ( 1 P ω N,i f( ξ N,i ) 1 N ) N N E( ω N,i f( ξ N,i ) G N ) a a C N, ce qui donne la conclusion voulue. Etape de sélection de SISR Pour analyser l étape de sélection de l algorithme SISR, nous nous placerons dans le cadre général suivant. Nous supposerons que l on dispose d un échantillon pondéré ( ξ N,i, ω N,i ) Considérons maintenant des variables ξ N,i obtenues par rééchantillonnage i.i.d. de cet échantillon, c est-à-dire que, conditionnellement à ξ N,1:N, les ξ N,i sont des variables aléatoires à valeurs dans S, i.i.d., et telle que, pour tout i, ξ N,i suit la loi 1 N,i ω S δ ξn,i. N

Inférence pour les modèles de Markov cachés 29 Proposition 14 Si ( ξ N,i, ω N,i ) constitue une approximation particulaire consistante d une mesure de probabilité τ sur (S, S), et si les poids vérifient une borne de la forme ω N,i C p.s., alors (ξ N,i, 1) constitue une approximation particulaire consistante de τ. Preuve : On introduit H N, la tribu engendrée par les ξ N,1:N, et l on considère f B(S). On note d abord que E(f(ξ N,i ) H N ) = 1 S N d où le fait que ( ) 1 E f(ξ N,i ) H N N = 1 S N j=1 ω N,j f( ξ N,j ), j=1 ω N,j f( ξ N,j P ) < f, τ >. Ensuite, exactement la même stratégie de preuve que pour la proposition précédente, en utilisant l hypothèse de bornitude des poids (et le fait que f également est bornée). Consistance de SISR En regroupant les propositions précédentes, on obtient le théorème suivant concernant l algorithme SISR. Ensemble d hypothèses 2 Supposons que : pour tout 0 k m et tout x k S, x k g k (x k, y k ) est strictement positive et bornée ; pour tout 0 k m 1, il existe une version strictement positive et bornée h k de la densité de p k par rapport à r k. Théorème 1 Sous l ensemble d hypothèses 2, pour tout 0 k m, l échantillon (ξ N,i k, 1) produit par l algorithme SISR constitue une approximation particulaire consistante de Φ ν,k k. Consistance de l algorithme i.i.d. séquentiel Avec des arguments similaires à ceux employés pour l algorithme SISR, on prouve le théorème suivant. Ensemble d hypothèses 3 Supposons que, pour tout 0 k m et tout x k S, x k g k (x k, y k ) est strictement positive et bornée.

30 Modèles de Markov cachés Théorème 2 Sous l ensemble d hypothèses 3, pour tout 0 k m, l échantillon (ξ N,i k, 1) produit par l algorithme i.i.d. séquentiel constitue une approximation particulaire consistante de Φ ν,k k. 1.7.2 Normalité asymptotique Etant donné un échantillon pondéré (Z N,i, ρ N,i ) constituant une approximation particulaire consistante d une mesure de probabilité χ sur S, nous dirons que (Z N,i, ρ N,i ) satisfait un théorème de la limite centrale avec fonction de variance v, où v est une fonction de B(S) dans R +, si, lorsque N tend vers l infini, on a, pour tout f B(S), la convergence en loi ) N 1/2 ( 1 S N ρ N,i f(z N,i ) < f, χ > Etape de mutation de SISR d N (0, v(f)). On suppose à nouveau que l on dispose d un échantillon pondéré (ξ N,i, 1), et que, pour tout N, on a que, conditionnellement à ξ N,1:N, les ξ N,i sont des variables aléatoires à valeurs dans S, indépendantes, et telle que, pour tout i, ξ N,i suit la loi K(ξ N,i, ). On définit alors ω N,i := h(ξ N,i, ξ N,i ). Proposition 15 Sous l hypothèse que h est bornée, le fait que (ξ N,i, 1) soit une approximation particulaire consistante de χ satisfaisant un théorème de la limite centrale avec fonction de variance v implique que ( ξ N,i, ω N,i ) est une approximation χl (χl)(s) particulaire consistante de satisfaisant un théorème de la limite centrale avec fonction de variance ṽ définie par où ṽ(f) := w(f) := v(l(f < f, χ >)) + w(l(f < f, χ >)) (χl)(s) 2, dχ(x)dk(x, x )(h(x, x )f(x )) 2 dχ(x)(lf(x)) 2. Nous nous appuierons pour la preuve sur un léger renforcement du théorème classique de Lindeberg-Feller (Proposition 9.5.12 dans [2]). Théorème 3 Etant donnée une famille V N,i N 1, 1 i N, de variables aléatoires à valeurs réelles, et une famille de sous-tribus F N telles que, conditionnellement à F N, les variables V N,1,..., V N,N sont indépendantes, alors, sous les hypothèses suivantes : (i) pour tous N, i, E((V N,i ) 2 F N ) < +,

Inférence pour les modèles de Markov cachés 31 (ii) il existe une constante v > 0 telle que, (iii) pour tout ɛ > 0, E((V N,i ) 2 F N ) (E(V N,i F N )) 2 P v, E((V N,i ) 2 1( V N,i P ɛ) F N ) 0, alors, pour tout λ R, on a [ ( ) ] E exp iλ (V N,i E(V N,i P F N )) F N exp( (λ 2 /2)v). Preuve de la proposition : Quitte à soustraire une constante, on suppose que < f, χ >= 0. En utilisant le fait que S N P (χl)(s), N on voit qu il suffit d établir la convergence vers la loi gaussienne N (0, v(lf) + w(f)) de 1 N 1/2 ω N,i f( ξ N,i ) = A N + B N N 1/2, où et A N := B N := ω N,i f( ξ N,i ) E( ω N,i f( ξ N,i ) G N ) E( ω N,i f( ξ N,i ) G N ) = Lf(ξ N,i ). Gr ce au théorème de la limite centrale satisfait par (ξ N,i, 1), on a la convergence en loi N 1/2 d B N N (0, v(lf)), d où, pour tout λ, le fait que [ E exp ( iλn 1/2 B N )] P exp( (λ 2 /2)v(Lf)). (1.4) Ensuite, on vérifie facilement qu il est possible d appliquer le théorème de Lindeberg- Feller renforcé donné ci-dessus avec V N,i := N 1/2 ω N,i f( ξ N,i ) et F N := G N. On en déduit que, pour tout λ,

32 Modèles de Markov cachés [ ) ] E exp (iλn 1/2 P A N F N exp( (λ 2 /2)w(f)). (1.5) En combinant (1.4) et (1.5), on en déduit facilement que, pour tous λ 1 et λ 2, [ ( )] E exp iλn 1/2 P (λ 1 A N + λ 2 B N ) exp( (λ 2 1/2)v(Lf) (λ 2 2/2)w(f)), d où le résultat voulu. Etape de sélection de SISR Nous supposerons donc que l on dispose d un échantillon pondéré ( ξ N,i, ω N,i ). Considérons maintenant des variables ξ N,i obtenues par ré-échantillonnage i.i.d. de cet échantillon, c est-à-dire que, conditionnellement à ξ N,1:N, les ξ N,i sont des variables aléatoires à valeurs dans S, i.i.d., et telle que, pour tout i, ξ N,i suit la loi 1 S N N,i ω δ ξn,i. Proposition 16 Si ( ξ N,i, ω N,i ) constitue une approximation particulaire consistante d une mesure de probabilité τ sur (S, S) satisfaisant un théorème de la limite centrale avec fonction de variance ṽ, et si les poids vérifient une borne de la forme ω N,i C p.s., alors (ξ N,i, 1) constitue une approximation particulaire consistante de τ satisfaisant un théorème de la limite centrale avec fonction de variance v définie par v(f) = ṽ(f)+ < (f < f, τ >) 2, τ >= ṽ(f) + V τ (f). Preuve : Sans perte de généralité, on suppose que < f, τ >= 0, et l on écrit avec et B N := N 1/2 A N := N f(ξ N,i ) = N 1/2 (A N + B N ), (f(ξ N,i ) E(f(ξ N,i ) H N ) E(f(ξ N,i ) H N ) = Ñ S N N j=1 ω N,j f( ξ N,j ). Le théorème limite central supposé pour ( ξ N,i, ω N,i ) entraîne la convergence en loi N 1/2 B N d N (0, ṽ(f)).