Filtrage Bayésien et Approximation Particulaire

Transcription

1 École Nationale Supérieure de Techniques Avancées Filière : Finance quantitative Module : Automatique avancée Filtrage Bayésien et Approximation Particulaire version provisoire du 10 septembre 2007 François Le Gland IRISA / INRIA Rennes

2

3 i Objectif du cours Le filtrage consiste à estimer de façon récursive un état caché au vu d observations. Le domaine d application principal est la localisation, la navigation et la poursuite de mobiles, dans le domaine militaire, mais aussi en robotique mobile, en vision par ordinateur, en communications sans fil (GSM en extérieur, WiFi en indoor), où il s agit de combiner : un modèle a priori de déplacement du mobile, des mesures issues de capteurs, et éventuellemnent une base de mesures de références, disponibles par exemples sous la forme d une carte numérique (modèle numérique de terrain, carte de couverture, etc.). Le problème de filtrage possède une solution explicite, appelée filtre de Kalman, dans le cas particulier des systèmes linéaires gaussiens. Dans le cas plus général des modèles de Markov cachés, des méthodes de simulations efficaces sont apparues récemment, sous le nom de filtrage particulaire. L objectif de ce cours est de présenter différents algorithmes de filtrage particulaire, de les mettre en œuvre dans le cadre de travaux pratiques, et de démontrer quelques résultats de convergence en utilisant le cadre très général de l approximation particulaire des flots de Feynman Kac.

4 ii

5 Table des matières 1 Introduction stimation bayésienne Cadre gaussien Systèmes linéaires gaussiens 11 3 Filtrage de Kalman Filtre de Kalman Filtre de Kalman linéarisé, filtre de Kalman étendu Au delà des systèmes linéaires gaussiens Systèmes non linéaires à bruits non gaussiens Modèles de Markov cachés Chaînes de Markov à paramètres markoviens Chaînes de Markov partiellement observées Borne de Cramér Rao a posteriori 33 6 Filtrage bayésien Modèles de Markov cachés Chaînes de Markov partiellement observées Généralisation : flots de Feynman Kac Modèle A Modèle B iii

6 iv TABL DS MATIÈRS 8 Méthodes de Monte Carlo Acceptation / rejet Échantillonnage pondéré Redistribution (échantillonnage selon un mélange fini) Approximations particulaires Échantillonnage pondéré (SIS) Échantillonnage / ré échantillonnage (SIR) Ré échantillonnage adaptatif Filtres de Kalman en interaction Systèmes conditionnellement linéaires gaussiens Flot paramétré Flot mixte Approximation particulaire stimation d erreur Théorème central limite Échantillonnage pondéré (SIS) Échantillonnage / ré échantillonnage (SIR) A Inversion matricielle 101 B Intégrales gaussiennes 105 C Inégalités 109 D Théorème central limite 113

7 Chapitre 1 Introduction Le filtrage consiste à estimer l état d un système dynamique, c est à dire évoluant au cours du temps, à partir d observations partielles, généralement bruitées. Typiquement, on dispose d une suite Y 1, Y 2,, Y n d observations, obtenues après traitement préalable du signal brut recueilli au niveau des capteurs. Chaque observation Y n est reliée à l état inconnu X n par une relation du type Y n = h(x n ) + V n, où V n est un bruit, qui modélise l erreur d observation. Pour aller plus loin, il est nécessaire de définir plus précisément la notion de bruit. 1.1 stimation bayésienne Dans de nombreux cas, la prise en compte de l information a priori peut se ramener au problème statique suivant : étant donnés deux vecteurs aléatoires X et Y, qu apporte le fait d observer la réalisation Y = y sur la connaissance que l on a de X? Soit X et Y deux variables aléatoires à valeurs dans et dans F respectivement, et soit φ une application mesurable définie sur à valeurs dans R p. Par définition, un estimateur de φ(x) à partir de l observation de Y est un vecteur aléatoire ψ(y ), où ψ est une application mesurable définie sur F à valeurs dans R p (par abus de notation, la variable aléatoire ψ(y ) sera également notée ψ). stimateur MMS Soit ψ un estimateur de φ(x) sachant Y. Naturellement ψ = ψ(y ) n est pas égal à φ(x) : une mesure de l écart entre l estimateur et la vraie valeur est fournie par la matrice (de dimension p p) de corrélation d erreur dont la trace [ (ψ(y ) φ(x))(ψ(y ) φ(x)) ], (1.1) trace [ (ψ(y ) φ(x))(ψ(y ) φ(x)) ] = ψ(y ) φ(x) 2, 1

8 2 CHAPITR 1. INTRODUCTION est l erreur quadratique moyenne. L estimateur du minimum d erreur quadratique moyenne (MMS, pour minimum mean square error) de φ(x) sachant Y est un estimateur φ tel que [ ( φ(y ) φ(x))( φ(y ) φ(x)) ] [ (ψ(y ) φ(x))(ψ(y ) φ(x)) ], au sens des matrices symétriques, pour tout autre estimateur ψ. La Proposition 1.1 ci dessous montre que cet estimateur est obtenu à l aide de la distribution de probabilité conditionnelle de X sachant Y = y, définie à partir de la distribution de probabilité jointe de (X, Y ) par la décomposition P[X dx, Y dy] = P[X dx Y = y] P[Y dy]. (1.2) Proposition 1.1 Soit X et Y deux variables aléatoires à valeurs dans et F respectivement, et soit φ une application mesurable définie sur à valeurs dans R p. L estimateur MMS de φ(x) sachant Y est la moyenne conditionnelle de φ(x) sachant Y, i.e. φ(y) = [φ(x) Y = y] = φ(x) P[X dx Y = y]. Preuve. Pour tout estimateur ψ, la décomposition entraîne ψ(y ) φ(x) = φ(y ) φ(x) + ψ(y ) φ(y ), [ (ψ(y ) φ(x))(ψ(y ) φ(x)) ] = = [ ( φ(y ) φ(x))( φ(y ) φ(x)) ] + [ (ψ(y ) φ(y ))(ψ(y ) φ(y )) ] + [ (ψ(y ) φ(y ))( φ(y ) φ(x)) ] + [ ( φ(y ) φ(x))(ψ(y ) φ(y )) ], et on remarque que [ (ψ(y ) φ(y ))( φ(y ) φ(x)) ] = = = F F (ψ(y) φ(y))( φ(y) φ(x)) P[X dx, Y dy] (ψ(y) φ(y))( φ(y) φ(x)) P[X dx Y = y] P[Y dy] = F(ψ(y) φ(y)) { ( φ(y) φ(x)) P[X dx Y = y] } P[Y dy] = 0, par définition de φ(y). On a donc [ (ψ(y ) φ(x))(ψ(y ) φ(x)) ] = = [ ( φ(y ) φ(x))( φ(y ) φ(x)) ] + [ (ψ(y ) φ(y ))(ψ(y ) φ(y )) ] [ ( φ(y ) φ(x))( φ(y ) φ(x)) ], au sens des matrices symétriques, avec égalité pour ψ = φ.

9 1.1. STIMATION BAYÉSINN 3 Remarque 1.2 Compte tenu que le vecteur aléatoire ( φ(y ) φ(x)) est centré, la matrice de corrélation d erreur est aussi la matrice de covariance d erreur, dans le cas particulier de l estimateur φ. Borne de Cramér Rao a posteriori On suppose à présent que = R m, c est à dire que X et Y sont des variables aléatoires à valeurs dans R m et F respectivement, et soit φ une application mesurable définie sur R m à valeurs dans R p. Le biais de l estimateur ψ de φ(x) sachant Y est défini par b(ψ, x) = [ψ(y ) X = x] φ(x). On suppose que la distribution de probabilité jointe des vecteurs aléatoires X et Y possède une densité P[X dx, Y dy] = p(x, y) dx λ(dy), sur R m F, suffisamment régulière par rapport à la variable x R m, avec les deux factorisations alternatives p(x, y) = p(x y) p(y) = p(y x)p(x), en termes de distributions de probabilités conditionnelles et marginales, et en particulier P[X dx] = p(x) dx avec p(x) = p(x, y) λ(dy). On suppose que 2 Rm { 2 x2p(x, y) λ(dy)dx = x 2 p(x, y) λ(dy) } dx = p (x)dx = 0. F R m R m F F Proposition 1.3 Si le biais b(ψ, x) = [ψ(y ) X = x] φ(x) = de l estimateur ψ vérifie R m (b(ψ, x)p(x)) dx = 0, F (ψ(y) φ(x))p(y x) λ(dy), alors la matrice de covariance de l erreur d estimation (ψ(y ) φ(x)) est minorée (au sens des matrices symétriques) par la relation suivante C = [ (ψ(y ) φ(x))(ψ(y ) φ(x)) ] M J 1 M. Dans cette formule, la matrice d information J (de dimension m m) et la matrice de sensibilité M (de dimension p m) ne dépendent pas de l estimateur ψ, et sont définies par J = [ 2 x 2 log p(x, Y )] et M = [φ (X)], respectivement, et la matrice d information J est supposée inversible.

10 4 CHAPITR 1. INTRODUCTION Preuve. Par définition b(ψ, x)p(x) = (ψ(y) φ(x))p(y x)p(x) λ(dy) = F F (ψ(y) φ(x))p(x, y) λ(dy), et la matrice jacobienne (de dimension p m) associée vérifie (b(ψ, x)p(x)) = φ (x) p(x, y) λ(dy) + (ψ(y) φ(x)) p(x, y) λ(dy) F F x = φ (x)p(x) + (ψ(y) φ(x)) log p(x, y) p(x, y) λ(dy). x n intégrant par rapport à la variable x R m, il vient (b(ψ, x)p(x)) dx R m = φ (x)p(x)dx + R m R m = [φ (X)] + [ (ψ(y ) φ(x)) log p(x, Y )], x et pour tout estimateur ψ tel que B(ψ) = 0, on a donc F F (ψ(y) φ(x)) log p(x, y) p(x, y) λ(dy)dx x [ (ψ(y ) φ(x)) log p(x, Y )] = M, x où la matrice M ne dépend pas de ψ. D autre part, il résulte de l identité 2 1 log p(x, y) = x2 p(x, y) entre matrices de dimension m m, que [ ( log p(x, Y )) x et par hypothèse on a donc log p(x, Y )] = x 2 x2p(x, y) ( log p(x, y)) x R m [ ( log p(x, Y )) x F log p(x, y), x 2 x 2p(x, y) λ(dy)dx [ 2 log p(x, Y )], x2 log p(x, Y )] = J. x On introduit ensuite le vecteur aléatoire ψ(y ) φ(x) C Z = et on vérifie que [Z Z ] = ( log p(x, Y )) x M M. J Compte tenu que la matrice symétrique [Z Z ] est semi définie positive, il résulte du Lemme A.3 d inversion matricielle que le complément de Schur = C M J 1 M est également une matrice semi définie positive, c est à dire que C M J 1 M.

11 1.1. STIMATION BAYÉSINN 5 Remarque 1.4 Par définition de l estimateur MMS, on a nécessairement [ (ψ(y ) φ(x))(ψ(y ) φ(x)) ] [ ( φ(y ) φ(x))( φ(y ) φ(x)) ] M J 1 M, pour tout estimateur ψ, et la borne la plus à gauche est atteinte pour ψ = φ. La borne donnée par l estimateur MMS est donc plus fine que la borne de Cramér Rao a posteriori, mais aussi plus difficile à calculer : le plus souvent en effet on ne dispose pas de l expression de l estimateur MMS, mais l expression des matrices J et M est assez facile à obtenir. La borne de Cramér Rao a posteriori peut même être assez grossière et atteinte par aucun estimateur, et on déduit de l encadrement ci dessus que si la borne de Cramér Rao a posteriori est atteinte, alors elle est nécessairement atteinte pour l estimateur MMS ψ = φ. xemple 1.5 Soit X et V deux vecteurs aléatoires gaussiens indépendants, de moyenne X et 0, et de matrice de covariance Q X et Q V, respectivement, et on pose Y = h(x) + V. Si les matrices de covariance Q X et Q V sont inversibles, alors on a p(y x) exp{ 1 2 (y h(x)) Q 1 V (y h(x)) }, et de sorte que p(x) exp{ 1 2 (x X) Q 1 X (x X) }, log p(x, y) = log p(y x) log p(x) et 2 = 1 2 (y h(x)) Q 1 V (y h(x)) (x X) Q 1 X (x X) + cste, x 2 log p(x, y) = (h (x)) Q 1 V d où l expression de la matrice de Fisher compte tenu que J = [ 2 x 2 log p(x, Y )] = [(h (X)) Q 1 V h (x) + (y h(x)) Q 1 V h (x) + Q 1 X, = [(h (X)) Q 1 V h (X)] + Q 1 X, [V Q 1 V h (X)] = 0. h (X)] + [V Q 1 V h (X)] + Q 1 X Dans le cas particulier où l application h(x) = H x est linéaire, on obtient J = H Q 1 V H + Q 1 X et J 1 = Q X Q X H (H Q X H + Q V ) 1 H Q X, d après le Lemme A.1 d inversion matricielle.

12 6 CHAPITR 1. INTRODUCTION 1.2 Cadre gaussien Dans le cas particulier des vecteurs aléatoires gaussiens, le résultat général obtenu ci dessus peut être précisé de la façon suivante. Proposition 1.6 Soit Z = (X, Y ) un vecteur aléatoire gaussien de dimension m + d, de moyenne et de matrice de covariance X Z = et Q Z = Ȳ respectivement. Si la matrice Q Y est inversible, alors la densité conditionnelle p X Y =y (x) du vecteur aléatoire X sachant Y = y, est une densité gaussienne de moyenne et de matrice de covariance Q X Q Y X X(y) = X + Q XY Q 1 Y (y Ȳ ), R = Q X Q XY Q 1 Y Q Y X, Q XY complément de Schur de la matrice Q Y dans la matrice bloc Q Z. Q Y, Remarque 1.7 On vérifie aisément que 0 R Q X, au sens des matrices symétriques (la majoration est immédiate et la minoration résulte du Lemme A.3), c est à dire que l utilisation de l information supplémentaire Y = y, ne peut que réduire l incertitude que l on a sur le vecteur aléatoire X. n outre, la matrice R ne dépend pas de y, et peut donc être calculée avant même de disposer de la valeur prise par l observation Y. Remarque 1.8 Soit X = X(Y ) l estimateur du minimum de variance de X sachant Y. Compte tenu que X = X + Q XY Q 1 Y (Y Ȳ ), dépend de façon affine du vecteur aléatoire Y, on en déduit que (X, X, Y ) est un vecteur aléatoire gaussien, comme transformation affine du vecteur aléatoire gaussien Z = (X, Y ). xemple 1.9 Soit X et V deux vecteurs aléatoires gaussiens indépendants, de moyenne X et 0, et de matrice de covariance Q X et Q V, respectivement, et on pose Y = H X + V. Le vecteur aléatoire Z = (X, Y ) est alors gaussien, de moyenne et de matrice de covariance X Z = et Q Z = Q X H X H Q X Q X H H Q X H + Q V,

13 1.2. CADR GAUSSIN 7 respectivement. Si la matrice Q V est inversible, alors a fortiori la matrice Q Y = H Q X H + Q V est inversible, et il découle de la Proposition 1.6 que la densité conditionnelle p X Y (x) du vecteur aléatoire X sachant Y, est une densité gaussienne de moyenne et de matrice de covariance déterministe X(Y ) = X + Q X H (H Q X H + Q V ) 1 (Y H X), R = Q X Q X H (H Q X H + Q V ) 1 H Q X, complément de Schur de la matrice Q Y = H Q X H + Q V dans la matrice bloc Q Z. Si en outre la matrice Q X est inversible, alors il découle du Lemme A.1 d inversion matricielle que la matrice R est inversible, et R 1 = H Q 1 V H + Q 1 X = J, d après l expression obtenue dans l xemple 1.5 pour la matrice de Fisher. Dans ce cas particulier, la borne de Cramér Rao a posteriori est donc atteinte, puisque [ ( X(Y ) X)( X(Y ) X) ] = R = J 1. Pour finir, on peut montrer directement la relation J = R 1 sans utiliser l expression obtenue dans l xemple 1.5. n effet, si la matrice R est inversible, ce qui est garanti dès que les matrices Q X et Q V sont inversibles, alors on a de sorte que et p(x y) exp{ 1 2 (x X(y)) R 1 (x X(y))}, log p(x y) = 1 2 (x X(y)) R 1 (x X(y)) + cste, 2 x 2 log p(x y) = R 1, et on retrouve bien l expreesion de la matrice de Fisher J = [ 2 x 2 log p(x Y )] = R 1. Preuve de la Proposition 1.6 (cas particulier). On donne une première démonstration, dans le cas où la matrice bloc Q Z est inversible. Dans ce cas, les lois des vecteurs aléatoires gaussiens Y et Z ont chacune une densité, et par définition p X Y =y (x) = p X,Y (x, y) p Y (y) = 1 ( 2π) exp { 1 m+d 2 det Q (z Z) Q 1 } Z (z Z) Z 1 ( 2π) exp { 1 d 2 det Q (y Ȳ ) Q 1 Y (y Ȳ ) }, Y avec z = (x, y). Il résulte du Lemme A.3 d inversion matricielle que detq Z = detr det Q Y, et I 0 R 1 0 I Q XY Q 1 Q 1 Z = Y. Q 1 Y Q XY I 0 Q 1 Y 0 I

14 8 CHAPITR 1. INTRODUCTION Compte tenu que I Q XY Q 1 Y 0 I x X (x X) Q XY Q 1 Y (y Ȳ ) = = x X(y), y Ȳ y Ȳ y Ȳ on obtient (z Z) Q 1 Z (z Z) = (x X(y)) R 1 (x X(y)) + (y Ȳ ) Q 1 Y (y Ȳ ), et p X Y =y (x) = 1 ( 2π) m det R exp{ 1 2 (x X(y)) R 1 (x X(y)) }, ce qui montre le résultat. Preuve de la Proposition 1.6 (cas général). Dans le cas où la matrice bloc Q Z n est pas nécessairement inversible, on montre que la fonction caractéristique de la loi conditionnelle du vecteur aléatoire X sachant Y est égale à exp{i u X 1 2 u Ru}, c est à dire que la loi conditionnelle du vecteur aléatoire X sachant Y est une loi gaussienne de moyenne X et de matrice de covariance R. On vérifie que [ exp{i v Y } exp{i u X 1 2 u R u} ] = exp{i u X i u Q XY Q 1 Y Ȳ 1 2 u R u} [ exp{i v Y } exp{i u Q XY Q 1 Y Y } ] = exp{i u X i u Q XY Q 1 Y Ȳ 1 2 u R u} Φ Y (v + Q 1 Y Q Y X u) = exp{i u X i u Q XY Q 1 Y Ȳ 1 2 u Q X u u Q XY Q 1 Y Q Y X u + i (v + u Q XY Q 1 Y )Ȳ 1 2 (v + u Q XY Q 1 Y )Q Y (v + Q 1 = exp{i u X + i v Ȳ 1 2 u Q X u u Q XY v 1 2 v Q Y v} Y Q Y X u)} = Φ X,Y (u, v) = [ exp{i v Y } exp{i u X} ], et compte tenu que v R d est arbitraire, on obtient [ exp{i u X} Y ] = exp{i u X 1 2 u R u}.

15 1.2. CADR GAUSSIN 9 Conclusion Il est donc important de disposer d une information a priori sur l état inconnu X n, par exemple de disposer d une équation d état décrivant l évolution de X n quand n varie. On considérera deux types de modèles : les systèmes linéaires gaussiens, les chaînes de Markov à espace d état fini, et dans chacun de ces deux cas, il sera possible de résoudre exactement le problème de filtrage de façon optimale, par la mise en œuvre : du filtre de Kalman, dans le cas des systèmes linéaires gaussiens, des équations forward backward de Baum, ou de l algorithme de Viterbi, dans le cas des chaînes de Markov à état fini. Ces deux cas peuvent être vus comme des cas particuliers de modèles beaucoup plus généraux : les chaînes de Markov à espace d état quelconque (fini, dénombrable, continu, hybride, etc.), et dans ce cas il ne sera pas possible de résoudre exactement le problème de filtrage de façon optimale, qui s exprime pourtant très simplement en termes de flots de Feynman Kac, et il faudra avoir recours à la mise en œuvre de méthodes de résolution approchées, en l occurrence : de filtres particulaires, c est à dire de méthodes de Monte Carlo avec interaction.

16 10 CHAPITR 1. INTRODUCTION

17 Chapitre 2 Systèmes linéaires gaussiens On considère une suite d états cachés {X k } à valeurs dans R m, vérifiant X k = F k X k 1 + f k + G k W k, (2.1) où {X k } et {W k } prennent respectivement leurs valeurs dans R m et R p, et une suite d observations {Y k } à valeurs dans R d, vérifiant et on suppose que Y k = H k X k + h k + V k, (2.2) la condition initiale X 0 est gaussienne, de moyenne X 0 et de covariance Q X 0, la suite {W k } est un bruit blanc gaussien, de matrice de covariance Q W k, la suite {V k } est un bruit blanc gaussien, de matrice de covariance Q V k, les suites {W k } et {V k } et la condition initiale X 0 sont mutuellement indépendants. La signification du modèle (2.1) est la suivante même si l état X k 1 = x est connu exactement à l instant (k 1), on peut seulement dire que l état X k à l instant k est incertain, et distribué comme un vecteur aléatoire gaussien, de moyenne F k x + f k et de matrice de covariance G k Q W k G k, si l état X k 1 est incertain à l instant (k 1), et distribué comme un vecteur aléatoire gaussien, de moyenne X k 1 et de matrice de covariance Q X k 1, alors cette incertitude se propage à l instant k : même en absence de bruit, c est à dire même si G k = 0, l état X k à l instant k est incertain, et distribué comme un vecteur aléatoire gaussien, de moyenne F k Xk 1 + f k et de matrice de covariance F k Q X k F k. 11

18 12 CHAPITR 2. SYSTÈMS LINÉAIRS GAUSSINS Proposition 2.1 La suite {Z k = (X k, Y k )} est un processus aléatoire gaussien à valeurs dans R m+d. n particulier à l instant k, le vecteur aléatoire Z k est gaussien, de moyenne et de matrice de covariance respectivement, avec X k Ȳ k et Q X k Q Y X k Q XY k Q Y k, X k = F k Xk 1 + f k et Ȳ k = H k Xk + h k, et Q X k = F k Q X k 1 F k + G k Q W k G k, QXY k = Q X k H k et Q Y k = H k Q X k H k + QV k. Preuve. Comme sortie d un système linéaire à entrées gaussiennes, la suite {Z k } est un processus aléatoire gaussien. n effet, pour tout instant n, il existe une matrice A n et un vecteur a n de dimensions appropriées tels que Z 0 Z 1. Z n = X 0 Y 0 X 1 Y 1. X n Y n = A n X 0 W 1. W n V 1. V n + a n. D après les hypothèses le vecteur aléatoire (X 0, W 1,, W n, V 1,, V n ) est gaussien, donc le vecteur aléatoire (Z 0, Z 1,, Z n ) est gaussien, comme transformation affine d un vecteur aléatoire gaussien. Par ailleurs, d après (2.1) et d après (2.2) Par différence de sorte que X k = [X k ] = F k [X k 1 ] + f k + G k [W k ] = F k Xk 1 + f k, Ȳ k = [Y k ] = H k [X k ] + h k + [V k ] = H k Xk + h k. X k X k = F k (X k 1 X k 1 ) + G k W k et Y k Ȳk = H k (X k X k ) + V k, Q X k = [ (X k X k ) (X k X k ) ] = [ (F k (X k 1 X k 1 ) + G k W k ) (F k (X k 1 X k 1 ) + G k W k ) ] = F k [ (X k 1 X k 1 ) (X k 1 X k 1 ) ] F k + G k [W k W k ] G k + F k [ (X k 1 X k 1 )W k ] G k + G k [W k (X k 1 X k 1 ) ] F k = F k Q X k 1 F k + G k Q W k G k,

19 13 où on a utilisé dans la dernière égalité le fait que (X k 1 X k 1 ) est indépendant de W k, donc [ (X k 1 X k 1 )Wk ] = 0. Par ailleurs Q XY k = [ (X k X k ) (Y k Ȳk) ] = [ (X k X k ) (H k (X k X k ) + V k ) ] = [ (X k X k ) (X k X k ) ] H k + [ (X k X k )V k ] = Q X k H k, où on a utilisé dans la dernière égalité le fait que (X k X k ) est indépendant de V k, donc [ (X k X k )Vk ] = 0. Finalement Q Y k = [ (Y k Ȳk) (Y k Ȳk) ] = [ (H k (X k X k ) + V k ) (H k (X k X k ) + V k ) ] = H k [ (X k X k ) (X k X k ) ] H k + [V k V k ] + H k [ (X k X k )V k ] + [V k (X k X k ) ] H k = H k Q X k H k + QV k, où on a encore utilisé dans la dernière égalité le fait que (X k X k ) est indépendant de V k, donc [ (X k X k )Vk ] = 0.

20 14 CHAPITR 2. SYSTÈMS LINÉAIRS GAUSSINS

21 Chapitre 3 Filtrage de Kalman Le problème de filtrage (en temps discret) se présente en général de la manière suivante : on considère {X k }, un processus (dont les caractéristiques statistiques sont connues) représentant l état d un système non observé. A l instant k, on recueille une observation Y k qui est formée d un signal (i.e. une fonction h(x k ) de l état X k ) et d un bruit additif V k : Y k = h(x k ) + V k. Les caractéristiques statistiques du bruit de mesure {V k } sont également supposées connues. A l instant k, on dispose de l information Y 0:k = (Y 0,, Y k ) et le but est d obtenir le plus d information possible sur l état du système X k (on veut, par exemple, pouvoir calculer un estimateur X k de X k ). On a vu en 1.1 que la solution est de calculer la loi conditionnelle de X k sachant Y 0:k. Dans le cas des systèmes décrits au Chapitre 2, on est dans un cadre gaussien et l évolution de cette loi conditionnelle (déterminée par sa moyenne et sa matrice de covariance) est régie par un système dynamique (le filtre de Kalman Bucy) simple à mettre en œuvre, voir en 3.1. Dans tous les autres cas (non linéaires), l évolution de cette loi conditionnelle est determinée par un tout autre type de systèmes souvent impossibles à utiliser en pratique. Mais les techniques développées dans le cas linéaire peuvent s étendre au cas non linéaire par des méthodes de linéarisation, voir en 3.2. Les filtres ainsi obtenus sont très souvent utilisés en pratique mais ont parfois des performances peu satisfaisantes. 3.1 Filtre de Kalman On considère un système linéaire du type (2.1) (2.2), c est à dire X k = F k X k 1 + f k + G k W k, (3.1) Y k = H k X k + h k + V k, (3.2) avec les hypothèses faites au Chapitre 2. A l instant k, on dispose de l information Y 0:k = (Y 0, Y 1,, Y k ). 15

22 16 CHAPITR 3. FILTRAG D KALMAN L objectif est d estimer le vecteur aléatoire X k à partir de Y 0:k, de façon optimale et récursive. Si on adopte le critère du minimum de variance, il s agit d après le paragraphe 1.1 de calculer la loi conditionnelle du vecteur aléatoire X k sachant Y 0:k. Comme le cadre est gaussien, il suffit de calculer la moyenne et la matrice de covariance X k = [X k Y 0:k ] et P k = [(X k X k ) (X k X k ) Y 0:k ]. On définit également les quantités suivantes X k = [X k Y 0:k 1 ] et P k = [(X k X k ) (X k X k ) Y 0:k 1 ]. D après la remarque 1.7, les matrices de covariances conditionnelles P k et P k des observations, c est à dire que ne dépendent pas P k = [(X k X k ) (X k X k ) ] et P k = [(X k X k ) (X k X k ) ]. Supposons connue la loi conditionnelle du vecteur aléatoire X k 1 sachant Y 0:k 1. Pour calculer la loi conditionnelle du vecteur aléatoire X k sachant Y 0:k, on procède en deux étapes. Dans l étape de prédiction, on calcule la loi conditionnelle du vecteur aléatoire X k sachant les observations passées Y 0:k 1, ce qui est facile à partir de l équation (3.1). Dans l étape de correction, on utilise la nouvelle observation Y k. n particulier, on considère la composante de l observation Y k qui apporte une information nouvelle par rapport aux observations passées Y 0:k 1, c est à dire D après l équation (3.2), on a I k = Y k [Y k Y 0:k 1 ]. I k = Y k (H k [X k Y 0:k 1 ] + h k + [V k Y 0:k 1 ]) = Y k (H k X k + h k), compte tenu que V k et Y 0:k 1 sont indépendants. Lemme 3.1 Le processus {I k } est un processus gaussien à valeurs dans R d, appelé processus d innovation. n particulier, I k est un vecteur aléatoire gaussien de dimension d, de moyenne nulle et de matrice de covariance indépendant de Y 0:k 1. Q I k = H k P k H k + QV k, Preuve. D après la Remarque 1.8, l observation prédite [Y k Y 0:k 1 ] dépend de façon affine des observations passées (Y 0, Y 1,, Y k 1 ), et donc l innovation I k dépend de façon affine des observations (Y 0, Y 1,, Y k ). On en déduit que (I 0, I 1,, I k ) est un vecteur aléatoire

23 3.1. FILTR D KALMAN 17 gaussien, comme transformation affine d un vecteur aléatoire gaussien. Pour la même raison, (Y 0, Y 1,, Y k 1, I k ) est un vecteur aléatoire gaussien, et compte tenu que [I k Y 0:k 1 ] = 0, par définition, le vecteur aléatoire I k est indépendant de Y 0:k 1. D après l équation (3.2), on a et on en déduit que Q I k = [I k I k ] I k = Y k (H k X k + h k) = H k (X k X k ) + V k, = [(H k (X k X k ) + V k) (H k (X k X k ) + V k) ] = H k [(X k X k ) (X k X k ) ] H k + [V k (X k X k ) ] H k +H k [(X k X k )V k ] + [V k V k ] = H k P k H k + QV k. Dans cette dernière égalité, on a utilisé le fait que (X k X k ) est indépendant de V k, donc [(X k X k )V k ] = 0. Remarque 3.2 On a également [(X k X k ) I k ] = [(X k X k ) (H k (X k X k ) + V k) ] = [(X k X k )(X k X k ) ] H k + [(X k X k )V k ] = P k H k. Remarque 3.3 Compte tenu que la distribution de probabilité conditionnelle de Y k sachant Y 0:k 1 est gaussienne, de moyenne H k X k +h k et de matrice Q I k inversible, on obtient l expression suivante L n = = 1 q det Q I k exp{ 1 2 (Y k H k X k h k) (Q I k ) 1 (Y k H k X k h k) } 1 q det Q I k exp{ 1 2 I k (QI k ) 1 I k }, pour la vraisemblance du modèle, a une constante multiplicative près.

24 18 CHAPITR 3. FILTRAG D KALMAN Théorème 3.4 (Filtre de Kalman Bucy) On suppose que la matrice de covariance Q V k est inversible, pour tout instant k. Alors { X k } et {P k } sont définis par les équations suivantes X k = F k X k 1 + f k, et P k = F k P k 1 F k + G k Q W k G k, X k = X k + K k [Y k (H k X k + h k)], où la matrice P k = [I K k H k ] P k, K k = P k H k [H k P k H k + QV k ] 1, est appelée gain de Kalman, et avec les initialisations X 0 = X 0 = [X 0 ], P 0 = QX 0 = cov(x 0 ). Remarque 3.5 La suite {P k } ne dépend pas des observations, ni des coefficients {f k } et {h k }. lle peut donc être pré calculée, en particulier dans le cas simple où les coefficients {F k }, {G k }, {H k }, {Q W k } et {QV k } sont constants, c est à dire où pour tout k 0. F k = F, G k = G, H k = H, Q W k = QW, Q V k = QV, Remarque 3.6 Si les coefficients F k, f k et G k dans l équation (2.1) et les coefficients H k et h k dans l équation (2.2) dépendent des observations Y 0:k 1, alors la suite {Z k = (X k, Y k )}, et a fortiori la suite {X k }, n est plus gaussienne, mais conditionnellement à Y 0:k 1 le couple (X k, Y k ) est gaussien. On dit que la suite {X k } est conditionnellement gaussienne, et on vérifie facilement que la loi conditionnelle de X k sachant Y 0:k est gaussienne, de moyenne X k et de matrice de covariance P k données encore par les équations du Théorème 3.4. Preuve. On procède en plusieurs étapes. Le point central est la Proposition 1.6 qui sera constamment utilisée. xpression de X 0 et P 0 en fonction de X 0 et P 0 : Le vecteur aléatoire (X 0, Y 0 ) est gaussien, de moyenne et de matrice de covariance données par X 0 Q X 0 Q X 0 H 0 et, H 0 X0 + h 0 H 0 Q X 0 H 0 Q X 0 H 0 + QV 0 respectivement. D après la Proposition 1.6, la loi de X 0 sachant Y 0 est gaussienne, de moyenne X 0 = X 0 + Q X 0 H0 [H 0 Q X 0 H0 + Q V 0 ] 1 [Y 0 (H 0 X0 + h 0 )], et de matrice de covariance P 0 = Q X 0 Q X 0 H0 [H 0 Q X 0 H0 + Q V 0 ] 1 H 0 Q X 0.

25 3.1. FILTR D KALMAN 19 xpression de X k et P k en fonction de X k 1 et P k 1 : Le vecteur aléatoire (X k, Y 0,, Y k 1 ) est gaussien, et d après la Proposition 1.6, la loi de X k sachant Y 0:k 1 est gaussienne, de moyenne X k et de matrice de covariance P k. D après l équation (3.1), c est à dire X k = F k X k 1 + f k + G k W k, on a X k = [X k Y 0:k 1 ] = F k [X k 1 Y 0:k 1 ] + f k + G k [W k Y 0:k 1 ] = F k Xk 1 + f k, compte tenu que W k et Y k 1 sont indépendants. Par différence X k X k = F k (X k 1 X k 1 ) + G k W k, de sorte que P k = [(X k X k ) (X k X k ) ] = [(F k (X k 1 X k 1 ) + G k W k ) (F k (X k 1 X k 1 ) + G k W k ) ] = F k [(X k 1 X k 1 ) (X k 1 X k 1 ) ] F k + G k [W k (X k 1 X k 1 ) ] F k +F k [(X k 1 X k 1 )W k ] G k + G k [W k W k ] G k = F k P k 1 F k + G k Q W k G k. Dans cette dernière égalité, on a utilisé le fait que (X k 1 X k 1 ) est indépendant de W k, donc [(X k 1 X k 1 )Wk ] = 0. xpression de X k et P k en fonction de X k et P k : Le vecteur aléatoire (X k, Y 0,, Y k ) est gaussien, et d après la Proposition 1.6, la loi de X k sachant Y 0:k est gaussienne, de moyenne X k et de matrice de covariance déterministe P k. D après le Lemme 3.1 X k = [X k Y 0:k ] = X k + [X k X k Y 0:k] = X k + [X k X k Y 0:k 1, I k ] Par différence = X k + [X k X k I k]. X k X k = (X k X k ) ( X k X k ) = (X k X k ) [X k X k I k],

26 20 CHAPITR 3. FILTRAG D KALMAN de sorte que P k = [ (X k X k ) (X k X k ) ] = [ ((X k X k ) [X k X k I k]) ((X k X k ) [X k X k I k]) ]. Il suffit donc de calculer la moyenne conditionnelle et la matrice de covariance conditionnelle du vecteur aléatoire (X k X k ) sachant I k. Le vecteur aléatoire (X k X k, I k) est un vecteur aléatoire gaussien, de moyenne nulle et de matrice de covariance P k P k H k. H k P k H k P k H k + QV k Si la matrice Q V k est inversible, alors a fortiori la matrice QI k = H k P k H k + QV k et d après la Proposition 1.6, on a immédiatement est inversible, X k = X k + P k H k [H k P k H k + QV k ] 1 I k, et ce qui termine la démonstration. P k = P k P k H k [H k P k H k + QV k ] 1 H k P k, 3.2 Filtre de Kalman linéarisé, filtre de Kalman étendu On considère un système non linéaire X k = b k (X k 1 ) + σ k (X k 1 )W k, Y k = h k (X k ) + V k, (3.3) où {X k }, {Y k }, {W k }, {V k } prennent respectivement leurs valeurs dans R m, R d, R p et R d, et où les fonctions b k, σ k et h k sont définies sur R m, à valeurs dans R m, R m p et R d respectivement. On suppose que les fonctions b k et h k sont dérivables. {W k } et {V k } sont des bruits blancs gaussiens (de covariances respectives Q W k et Q V k ) indépendants entre eux et indépendants de la condition initiale X 0. Pour le système (3.3), la plupart des propriétés obtenues au Chapitre 2 ne sont plus vraies. n particulier le processus {Z k = (X k, Y k )} solution de (3.3) n est pas gaussien, et les moments conditionnels de X k sachant Y 0:k ne peuvent pas être calculés de manière simple. n linéarisant le système (3.3) autour d une suite déterministe donnée, ou bien autour de l estimateur courant, on peut obtenir des algorithmes sous optimaux, qui sont décrits ci dessous. Dans les chapitres suivants, on abandonnera ce point de vue, et on s attachera d abord à caractériser la loi conditionnelle de l état caché sachant les observations, soit par une représentation probabiliste, soit par une équation récurrente dans l espace des distributions de probabilité, et on proposera ensuite des approximations numériques reposant sur méthodes de simulation de type Monte Carlo.

27 3.2. FILTR D KALMAN LINÉARISÉ, FILTR D KALMAN ÉTNDU 21 Filtre de Kalman linéarisé On se donne une suite (déterministe) { x k } à valeurs dans R m, appelée trajectoire nominale (on peut prendre par exemple x k comme une approximation de la moyenne de X k ). La méthode consiste à linéariser les fonctions b k et σ k autour de x k 1, c est à dire b k (x) b k ( x k 1 ) + b k ( x k 1)(x x k 1 ) et σ k (x) σ k ( x k 1 ), et la fonction h k autour de x k, c est à dire Le système (3.3) est alors remplacé par h k (x) h k ( x k ) + h k ( x k)(x x k ). X k = F k (X k 1 x k 1 ) + f k + G k W k, Y k = H k (X k x k ) + h k + V k, avec F k = b k ( x k 1), f k = b k ( x k 1 ), G k = σ k ( x k 1 ), H k = h k ( x k) et h k = h k ( x k ). On applique alors exactement le filtre de Kalman Bucy à ce nouveau système, d où l algorithme sous optimal suivant X k = b k( x k 1 ) + b k ( x k 1)( X k 1 x k 1 ), et P k = b k ( x k 1)P k 1 (b k ( x k 1)) + σ k ( x k 1 )Q W k (σ k( x k 1 )), X k = X k + K k [ Y k h k ( x k)( X k x k) h k ( x k )], P k = [I K k h k ( x k)] P k, avec la matrice de gain K k = P k h k ( x k) [ h k ( x k)p k (h k ( x k)) + Q V k ] 1. A la place de la première et la troisième de ces équations, on peut utiliser X k = b k( X k 1 ), X k = X k + K k [Y k h k ( X k )]. On choisit l initialisation X 0 et P 0 de telle sorte que N( X 0, P 0 de la loi de X 0. ) soit une bonne approximation

28 22 CHAPITR 3. FILTRAG D KALMAN Filtre de Kalman étendu Au lieu de linéariser autour d une trajectoire nominale déterministe { x k }, on peut utiliser l estimateur courant, au vu de la Remarque 3.6. La méthode consiste à linéariser les fonctions b k et σ k autour de X k 1, c est à dire b k (x) b k ( X k 1 ) + b k ( X k 1 )(x X k 1 ) et σ k (x) σ k ( X k 1 ), et à linéariser la fonction h k autour de X k, c est à dire Le système (3.3) est alors remplacé par h k (x) h k ( X k ) + h k ( X k )(x X k ). X k = F k (X k 1 X k 1 ) + f k + G k W k, Y k = H k (X k X k ) + h k + V k, avec F k = b k ( X k 1 ), f k = b k ( X k 1 ), G k = σ k ( X k 1 ), H k = h k ( X k ) et h k = h k ( X k ). On applique alors exactement le filtre de Kalman Bucy à ce nouveau système, d où l algorithme sous optimal suivant X k = b k( X k 1 ), et P k = b k ( X k 1 )P k 1 (b k ( X k 1 )) + σ k ( X k 1 )Q W k (σ k( X k 1 )), X k = X k + K k [Y k h k ( X k )], avec la matrice de gain P k = [I K k h k ( X k )] P k, K k = P k (h k ( X k )) [h k ( X k )P k (h k ( X k )) + Q V k ] 1. On choisit l initialisation X 0 et P 0 de telle sorte que N( X 0, P 0 de la loi de X 0. ) soit une bonne approximation Remarque 3.7 Dans cet algorithme, la suite {P k } dépend des observations, et ne peut donc pas être pré calculée.

29 Chapitre 4 Au delà des systèmes linéaires gaussiens 4.1 Systèmes non linéaires à bruits non gaussiens Il s agit de la classe la plus générale de modèles d état, et c est aussi un cas particulier de la classe plus générale des modèles de Markov cachés (pour lesquels l espace d état peut être très général). On considère donc une suite d états cachés {X k } à valeurs dans R m, vérifiant X k = f k (X k 1, W k ) avec W k p W k (dw), (4.1) avec des entrées bruitées {W k } à valeurs dans R p, pas nécessairement gaussiennes, et une condition initiale X 0 η 0 (dx) pas nécessairement gaussienne, et une suite d observations {Y k } à valeurs dans R d, vérifiant Y k = h k (X k ) + V k avec V k qk V (v)dv, (4.2) avec des bruits d observation {V k } additifs, à valeurs dans R d, pas nécessairement gaussiens, mais de loi qk V (v)dv absolument continue par rapport à la mesure de Lebesgue dv. Les bruits blancs {W k } et {V k } sont indépendants entre eux et indépendants de la condition initiale X 0. On ne suppose pas que les fonctions f k et h k sont dérivables. Pour la suite, il sera suffisant de faire l hypothèse suivante : pour tout instant k il est facile de simuler un vecteur aléatoire selon la loi p W k (dw) de W k, la loi du vecteur aléatoire V k admet une densité qk V (v) qu il est facile d évaluer pour tout v R d. Proposition 4.1 La suite {X k } est une chaîne de Markov à valeurs dans R m, c est à dire que la loi conditionnelle par rapport au passé P[X k dx X 0:k 1 ] = P[X k dx X k 1 ], 23

30 24 CHAPITR 4. AU DLÀ DS SYSTÈMS LINÉAIRS GAUSSINS ne dépend que du passé immédiat, avec les probabilités de transition P[X k dx X k 1 = x] = Q k (x, dx ), défini par Q k φ(x) = [ φ(x k ) X k 1 = x] = φ(f k (x, w)) p W k (dw), R p pour toute fonction test φ mesurable bornée, définie sur R m. Preuve. Compte tenu que W k est indépendant de X 0:k 1, on a [ φ(x k ) X 0:k 1 ] = [ φ(f k (X k 1, W k )) X 0:k 1 ] = R p φ(f k (X k 1, w)) p W k (dw), pour toute fonction φ mesurable bornée définie sur R m. Clairement, le résultat ne dépend que de X k 1, c est à dire que [ φ(x k ) X 0:k 1 ] = [ φ(x k ) X k 1 ], et [ φ(x k ) X k 1 = x] = φ(f k (x, w)) p W k (dw). R p Remarque 4.2 Si f k (x, w) = b k (x) + w, et si la loi p W k (dw) de W k admet une densité encore notée p W k (w), c est à dire si pw k (dw) = pw k (w)dw, alors Q k (x, dx ) = p W k (x b k (x))dx c est à dire que le noyau Q k (x, dx ) admet une densité. n effet, le changement de variable x = b k (x) + w donne immédiatement Q k φ(x) = φ(b k (x) + w) p W k (w)dw = φ(x ) p W k (x b k (x))dx, R m R m pour toute fonction test φ mesurable bornée, définie sur R m. Remarque 4.3 n général, le noyau Q k (x, dx ) n admet pas de densité. n effet, conditionnellement à X k 1 = x, le vecteur aléatoire X k appartient nécessairement au sous ensemble M(x) = {x R m : il existe w R p tel que x = f k (x, w)}, et dans le cas où p < m ce sous ensemble M(x) est généralement, sous certaines hypothèses de régularité, une sous variété différentielle de dimension p dans l espace R m. Il ne peut donc pas y avoir de densité pour la loi Q k (x, dx ) du vecteur aléatoire X k. Proposition 4.4 La suite {Y k } vérifie l hypothèse de canal sans mémoire, c est à dire que pour tout instant n

31 4.1. SYSTÈMS NON LINÉAIRS À BRUITS NON GAUSSINS 25 conditionnellement aux états cachés X 0:n les observations Y 0:n sont mutuellement indépendantes, ce qui se traduit par P[Y 0:n dy 0:n X 0:n ] = P[Y k dy k X 0:n ], pour tout k = 0,, n, la loi conditionnelle de Y k sachant X 0:n ne dépend que de X k, ce qui se traduit par P[Y k dy k X 0:n ] = P[Y k dy k X k ], avec les probabilités d émission et on définit la fonction de vraisemblance P[Y k dy X k = x] = q V k (y h k(x))dy, g k (x) = q V k (Y k h k (x)), qui mesure l adéquation d un état quelconque x R m avec l observation Y k. n d autres termes, la loi conditionnelle jointe des observations Y 0:n sachant les états cachés X 0:n vérifie P[Y 0:n dy 0:n X 0:n = x 0:n ] = qk V (y k h k (x k )) dy 0 dy n. xemple 4.5 Dans le cas particulier où le bruit additif V k est un vecteur aléatoire gaussien centré et de matrice de covariance identité, alors la probabilité d émission P[Y k dy X k = x] = 1 (2π) d/2 exp{ 1 2 y h k(x) 2 } dy, est absolument continue, et la fonction de vraisemblance, définie à une constante multiplicative près, est donnée par g k (x) = exp{ 1 2 Y k h k (x) 2 }.

32 26 CHAPITR 4. AU DLÀ DS SYSTÈMS LINÉAIRS GAUSSINS Preuve. Pour toute famille Ψ 0,, Ψ n de fonctions mesurables bornées définies sur R d, et compte tenu que les vecteurs aléatoires V 0,, V n sont mutuellement indépendants et indépendants du vecteur aléatoire X 0:n, on a [Ψ 0 (Y 0 ) Ψ n (Y n ) X 0:n ] = [Ψ 0 (h 0 (X 0 ) + V 0 ) Ψ n (h n (X n ) + V n ) X 0:n ] = R d Ψ 0 (h 0 (X 0 ) + v 0 ) Ψ n (h n (X n ) + v n ) P[V 0:n dv 0:n ] R d = Ψ k (h k (X k ) + v k ) P[V k dv k ] R d = = R d Ψ k (h k (X k ) + v k ) q V k (v k)dv k R d Ψ k (y k ) q V k (y k h k (X k ))dy k }{{} P[Y k dy k X k ] = [Ψ k (Y k ) X k ]. 4.2 Modèles de Markov cachés Plus généralement, on peut aussi considérer un modèle de Markov caché où les états cachés {X k } forment une chaîne de Markov à valeurs dans un espace qui peut être très général, par exemple un espace hybride continu / discret, un sous ensemble défini par des contraintes, une variété différentielle, un graphe, etc., de noyaux de transition et de loi initiale P[X k dx X k 1 = x] = Q k (x, dx ), P[X 0 dx] = η 0 (dx), et où les observations {Y k } vérifient l hypothèse de canal sans mémoire, c est à dire que pour tout instant n conditionnellement aux états cachés X 0:n les observations Y 0:n sont mutuellement indépendantes, ce qui se traduit par P[Y 0:n dy 0:n X 0:n ] = P[Y k dy k X 0:n ], pour tout k = 0,, n, la loi conditionnelle de Y k sachant X 0:n ne dépend que de X k, ce qui se traduit par P[Y k dy X 0:n ] = P[Y k dy X k ],

33 4.3. CHAÎNS D MARKOV À PARAMÈTRS MARKOVINS 27 avec la probabilité d émission P[Y k dy X k = x] = g k (x, y)λ F k (dy), où la mesure positive λ F k (dy) définie sur F ne dépend pas de l état caché x, et par abus de notation on définit la fonction de vraisemblance g k (x) = g k (x, Y k ), qui mesure l adéquation d un état quelconque x avec l observation Y k. La situation est complètement décrite par le diagramme suivant X k 1 X k X k+1 Y k 1 Y k Y k+1 où les flèches représentent la dépendance entre variables aléatoires. n d autres termes, la loi conditionnelle jointe des observations Y 0:n sachant les états cachés X 0:n vérifie P[Y 0:n dy 0:n X 0:n = x 0:n ] = g k (x k, y k ) λ F 0 (dy 0 ) λ F n (dy n ). Ce modèle peut paraître très abstrait à première vue, mais pour la suite il suffira que l hypothèse suivante soit vérifiée : pour tout instant k = 1,, n il est facile de simuler pour tout x, un vecteur aléatoire selon la loi Q k (x, dx ), il est facile d évaluer pour tout x, la fonction de vraisemblance g k (x ). 4.3 Chaînes de Markov à paramètres markoviens Certains problèmes sont décrits par une chaîne de Markov {Y k }, et pour disposer d une plus grande possibilité de modélisation on propose de faire dépendre les noyaux de transitions d une suite de variables aléatoires latentes {X k }, formant elle même une chaîne de Markov. Cette situation se rencontre par exemple dans les modèles à volatilité stochastique, et à la différence de la situation précédente, l estimation de la suite latente n est pas un objectif en soi. Dans ces modèles, les états cachés {X k } forment une chaîne de Markov à valeurs dans un espace, de noyaux de transition et de loi initiale P[X k dx X k 1 = x] = Q k (x, dx ), P[X 0 dx] = η 0 (dx), et conditionnellement aux états cachés, les observations {Y k } forment une chaîne de Markov à valeurs dans F, c est à dire que pour tout instant n

34 28 CHAPITR 4. AU DLÀ DS SYSTÈMS LINÉAIRS GAUSSINS conditionnellement aux états cachés X 0:n les observations Y 0:n forment une chaîne de Markov, ce qui se traduit pour tout k = 1,, n, par P[Y k dy Y 0:k 1, X 0:n ] = P[Y k dy Y k 1, X 0:n ], pour k = 0, la loi conditionnelle de Y 0 sachant X 0:n ne dépend que de X 0, ce qui se traduit par P[Y 0 dy X 0:n ] = P[Y 0 dy X 0 ], avec la probabilité initiale P[Y 0 dy X 0 = x] = g 0 (x, y)λ F 0 (dy), où la mesure positive λ F 0 (dy) définie sur F ne dépend pas de l état caché x, et par abus de notation on définit la fonction de vraisemblance g 0 (x) = g 0 (x, Y 0 ), qui mesure l adéquation d un état quelconque x avec l observation initiale Y 0, pour tout k = 1,, n, la loi conditionnelle de Y k sachant Y k 1 et X 0:n ne dépend que de Y k 1 et de X k, ce qui se traduit par avec la probabilité d émission P[Y k dy k Y k 1, X 0:n ] = P[Y k dy k Y k 1, X k ], P[Y k dy Y k 1 = y, X k = x ] = g k (x, y, y )λ F k (y, dy ), où la mesure positive λ F k (y, dy ) définie sur F ne dépend pas de l état caché x, et par abus de notation on définit la fonction de vraisemblance g k (x ) = g k (x, Y k 1, Y k ), qui mesure l adéquation d un état quelconque x avec les observations successives Y k 1 et Y k. La situation est complètement décrite par le diagramme suivant X k 1 X k X k+1 Y k 1 Y k Y k+1 où les flèches représentent la dépendance entre variables aléatoires. n d autres termes, la loi conditionnelle jointe des observations Y 0:n sachant les états cachés X 0:n vérifie P[Y 0:n dy 0:n X 0:n = x 0:n ] = g 0 (x 0, y 0 ) λ F 0 (dy 0 ) = [g 0 (x 0, y 0 ) g k (x k, y k 1, y k ) λ F k (y k 1, dy k ) g k (x k, y k 1, y k )] λ F 0 (dy 0 ) λ F k (y k 1, dy k ).

35 4.4. CHAÎNS D MARKOV PARTILLMNT OBSRVÉS Chaînes de Markov partiellement observées ncore plus généralement, on peut considérer un modèle où les états cachés {X k } ne forment plus nécessairement une chaîne de Markov, mais où conjointement états cachés et observations {Z k } avec Z k = (X k, Y k ) pour tout instant k, forment une chaîne de Markov à valeurs dans F, de loi initiale P[X 0 dx, Y 0 dy] = γ 0 (y, dx) λ F 0 (dy), (4.3) où la mesure positive λ F 0 (dy) définie sur F, ne dépend pas de l état caché x, et de probabilités de transition P[X k dx, Y k dy X k 1 = x, Y k 1 = y] = R k (y, y, x, dx ) λ F k (y, dy ), (4.4) où la mesure positive λ F k (y, dy ) définie sur F, dépend de l observation précédente y F mais ne dépend pas de la transition cachée (x, x ). n d autres termes, la loi jointe des états cachés X 0:n et des observations Y 0:n vérifie P[X 0:n dx 0:n, Y 0:n dy 0:n ] = γ 0 (y 0, dx 0 ) λ F 0 (dy 0 ) = [γ 0 (y 0, dx 0 ) R k (y k 1, y k, x k 1, dx k ) λ F k (y k 1, dy k ) R k (y k 1, y k, x k 1, dx k )] λ F 0 (dy 0 ) Ce modèle général inclut comme cas particulier λ F k (y k 1, dy k ). les modèles de Markov cachés, avec γ 0 (y, dx) = η 0 (dx)g 0 (x, y) et R k (y, x, dx ) = Q k (x, dx )g k (x, y ), les modèles auto régressifs à paramètres markoviens, avec γ 0 (y, dx) = η 0 (dx)g 0 (x, y) et R k (y, y, x, dx ) = Q k (x, dx )g k (x, y, y ). n toute généralité, les mesures positives γ 0 (y, dx) et les noyaux positifs R k (y, y, x, dx ) peuvent être factorisés comme γ 0 (y, dx) = W 0 (y, x)p 0 (y, dx) et R k (y, y, x, dx ) = W k (y, y, x, x ) P k (y, y, x, dx ), respectivement, c est à dire comme le produit d une fonction de pondération positive W 0 (y, x) ou W k (y, y, x, x ), et d une distribution de probabilité p 0 (y, dx) ou d un noyau markovien P k (y, y, x, dx ).

36 30 CHAPITR 4. AU DLÀ DS SYSTÈMS LINÉAIRS GAUSSINS Une telle factorisation n est évidemment pas unique, mais il existe toujours au moins la factorisation donnée par γ 0 (y, dx) γ 0 (y, dx) = γ 0 (y, ), γ }{{} 0 (y, ) }{{} ĝ 0 (y) η 0 (y, dx) et R k (y, y, x, dx ) = R k (y, y, x, ) } {{ } ĝ k (x, y, y ) R k (y, y, x, dx ) R k (y, y,, x, ) }{{} Q k (y, y, x, dx ) avec l interprétation suivante : en intégrant (4.3) par rapport à x, on obtient d où on déduit que P[Y 0 dy] = ĝ 0 (y) λ F 0 (dy), P[X 0 dx Y 0 = y] = η 0 (y, dx), et en intégrant (4.4) par rapport à x, on obtient d où on déduit que P[Y k dy X k 1 = x, Y k 1 = y] = ĝ k (x, y, y ) λ F k (y, dy ), P[X k dx X k 1 = x, Y k 1 = y, Y k = y ] = Q k (y, y, x, dx ), et la situation est complètement décrite par le diagramme suivant X k 1 X k X k+1 Y k 1 Y k Y k+1 où les flèches représentent la dépendance entre variables aléatoires. Dans le cas particulier des modèles de Markov cachés, cette décomposition fait intervenir la probabilité d émission où la fonction positive P[Y k dy X k 1 = x] = ĝ k (x, y )λ F k (dy ), ĝ k (x, y ) = Q k (x, dx )g k (x, y ), dépend de x mais pas de x F, et peut être interprétée pour tout état x et pour toute observation y F comme une mesure quantitative du recouvrement entre l application x g k (x, y ) et la distribution de probabilité Q k (x, dx ),

37 4.4. CHAÎNS D MARKOV PARTILLMNT OBSRVÉS 31 et la transition de probabilité P[X k dx X k 1 = x, Y k = y ] = Q k (y, x, dx ), où le noyau markovien Q k (y, x, dx ) dépend de l observation y F, et la situation est complètement décrite par le diagramme suivant X k 1 X k X k+1 Y k 1 Y k Y k+1 où les flèches représentent la dépendance entre variables aléatoires. xemple 4.6 On considère un système non linéaire avec des bruits gaussiens additifs et une fonction d observation linéaire X k = f k (X k 1 ) + σ k (X k 1 )W k, Y k = H k X k + h k + V k, où la condition initiale X 0 est une variable aléatoire gaussienne de moyenne X 0 et de matrice de covariance Q X 0, et où les suites {W k} et {V k } sont des bruits blancs gaussiens indépendants, indépendants de la condition initiale X 0, de matrices de covariance Q W k et Q V k respectivement, avec Q V k inversible. Il résulte de la Proposition 1.6 que conditionnellement à Y 0 = y, la variable aléatoire X 0 est gaussienne, de moyenne m 0 (y) = X 0 + Q X 0 H0 [H 0 Q X 0 H0 + Q V 0 ] 1 (y H 0 X0 h 0 ), et de matrice de covariance P 0 = Q X 0 Q X 0 H0 [H 0 Q X 0 H0 + Q V 0 ] 1 H 0 Q X 0, de sorte qu il est facile de simuler une variable aléatoire selon la distribution de probabilité η 0 (y, dx) = Γ(dx, m 0 (y), P 0 ), pour tout y F. Grâce à la linéarité de la fonction d observation, on a X k = f k (X k 1 ) + σ k (X k 1 )W k, Y k = H k f k (X k 1 ) + h k + H k σ k (X k 1 )W k + V k,

38 32 CHAPITR 4. AU DLÀ DS SYSTÈMS LINÉAIRS GAUSSINS d où on déduit que conditionnellement à X k 1 = x, le vecteur aléatoire (X k, Y k ) est gaussien, de moyenne et de matrice de covariance f k (x) Σ k (x) Σ k (x)h k et, H k f k (x) + h k H k Σ k (x) H k Σ k (x)hk + QV k respectivement, avec Σ k (x) = σ k (x)q W k σ k (x). Compte tenu que la matrice QV k est inversible, la matrice H k Σ k (x)hk + QV k est inversible a fortiori, et il résulte de la Proposition 1.6 que conditionnellement à X k 1 = x, la variable aléatoire Y k est gaussienne, de moyenne H k f k (x) + h k et de matrice de covariance inversible H k Σ k (x)hk + QV k, de sorte qu il est facile d évaluer la fonction positive pour tout x et tout y F, ĝ k (x, y ) = q(y H k f k (x) h k, H k Σ k (x)h k + QV k ), conditionnellement à (X k 1 = x, Y k = y ) la variable aléatoire X k est gaussienne, de moyenne m k (y, x) = f k (x) + Σ k (x)h k [H k Σ k (x)h k + QV k ] 1 (y H k f k (x) h k ), et de matrice de covariance P k (x) = Σ k (x) Σ k (x)h k [H k Σ k (x)h k + QV k ] 1 H k Σ k (x), de sorte qu il est facile de simuler une variable aléatoire selon la distribution de probabilité pour tout x et tout y F. Q k (y, x, dx ) = Γ(dx, m k (y, x), P k (x)),

39 Chapitre 5 Borne de Cramér Rao a posteriori Pour évaluer la performance des algorithmes numériques de filtrage non linéaire, y compris les nombreuses variantes du filtrage particulaire, il est utile de disposer d une borne inférieure sur l erreur commise par un estimateur quelconque de l état caché. S il s agit d estimer un paramètre fixe, il est bien connu que la matrice d information de Fisher associée au modèle statistique permet d obtenir une telle borne inférieure, sous le nom de borne de Cramér Rao. Dans le cas du filtrage bayésien, il s agit d estimer un paramètre aléatoire (et dynamique), à savoir la suite des états cachés, pour lequel on dispose d un modèle a priori : dans ce cadre bayésien, on peut utiliser la notion de borne de Cramér Rao a posteriori, pour laquelle des algorithmes de calcul récursifs efficaces ont été obtenus. On considère le modèle général d une chaîne de Markov partiellement observée, et on suppose qu il existe pour k = 0, une densité jointe initiale P[X 0 dx, Y 0 dy] = r 0 (x, y)dx λ F 0 (dy), pour tout k = 1,, n, des densités de transition On peut poser dans ce cas P[X k dx, Y k dy X k 1 = x, Y k 1 = y] = r k (y, y, x, x )dx λ F k (y, dy ), X 0:n = (X 0,, X n ) et Y 0:n = (Y 0,, Y n ), et se ramener au problème statique considéré dans la Proposition 1.3 ci dessus pour l estimation du vecteur aléatoire φ(x 0:n ) = X n, sachant Y 0:n. Théorème 5.1 Sous les hypothèses de la Proposition 1.3, la matrice de corrélation de l erreur d estimation (ψ(y 0:n ) X n ) est minorée par la relation suivante [ (ψ(y 0:n ) X n ) (ψ(y 0:n ) X n ) ] J 1 n, 33

Montrer encore