Filtrage de Kalman François Le Gland INRIA Rennes et IRMAR http://www.irisa.fr/aspi/legland/rennes-1/ 1/110
François Le Gland téléphone : 02 99 84 73 62 / 06 95 02 13 16 e mail : francois.le gland@inria.fr formation ingénieur Ecole Centrale Paris (1978) DEA de Probabilités à Paris 6 (1979) thèse en Mathématiques Appliquées à Paris Dauphine (1981) carrière professionnelle : chercheur à l INRIA (directeur de recherche depuis 1991) à Rocquencourt jusqu en 1983 à Sophia Antipolis de 1983 à 1993 à Rennes depuis 1993 membre de l IRISA de 1993 à 2011 membre de l IRMAR depuis 2012 2/110
responsable de l équipe thèmes ASPI : Applications Statistiques des Systèmes de Particules en Interaction http://www.irisa.fr/aspi/ filtrage particulaire, et applications en localisation, navigation et poursuite assimilation de données séquentielle inférence statistique des modèles de Markov cachés simulation d évènements rares, et extensions en simulation moléculaire optimisation globale analyse mathématique des méthodes particulaires 3/110
contrats industriels avec France Télécom R&D, sur la localisation de terminaux mobiles Thalès Communications, sur la navigation par corrélation de terrain DGA / Techniques Navales, sur l optimisation du positionnement et de l activation de capteurs projets ANR FIL, sur la fusion de données pour la localisation PREVASSEMBLE, sur les méthodes d ensemble pour l assimilation de données et la prévision en météorologie et en océanographie projets européens HYBRIDGE, puis ifly, sur les méthodes de Monte Carlo conditionnelles pour l évaluation de risque dans la gestion du trafic aérien collaboration avec l ONERA 4/110
Introduction au filtrage nécessité / utilité d un modèle a priori exploitation du modèle a priori Estimation bayésienne Systèmes linéaires gaussiens Extensions aux systèmes non linéaires 5/110
Cadre général il s agit d estimer, si possible de manière récursive, l état X n d un système (par exemple, position et vitesse d un mobile) au vu d observations bruitées Y 0:n = (Y 0 Y n ) reliées à l état par une relation du genre Y k = h k (X k )+V k nombreuses applications en localisation, navigation et poursuite de mobiles poursuite de cible (avion, missile, drône, bâtiment de surface, sous marin) suivi d objets dans des séquences vidéo navigation en environnement intérieur (robot mobile, piéton) navigation inertielle, recalage avec un modèle numérique de terrain navigation de terminaux mobiles, recalage avec une carte de couverture 6/110
il s agit dans ce cas de déterminer position et vitesse d un mobile, en utilisant comme observations des mesures partielles issues de capteurs (i) mesures directes distance par rapport à une ou plusieurs stations angle par rapport à une direction de référence proximité par rapport à une ou plusieurs stations altitude par rapport à un niveau de référence ou par rapport au relief (ii) mesures indirectes, combinées avec une base de mesures géo référencées, disponibles par exemple sous la forme d une carte numérique altitude du relief + modèle numérique de terrain atténuation de la puissance du signal reçu + carte de couverture 7/110
Nécessité d un modèle a priori sans information supplémentaire, observer Y k = h k (X k )+V k pose un nouveau problème d estimation à chaque nouvel instant (pas d accumulation des observations) + dans chacun de ces problèmes d estimation séparément, la dimension m de l état caché est (souvent) plus grande que la dimension d de l observation estimer l état caché X k au vu de la seule observation Y k et même sans bruit d observation V k, est un problème mal posé la relation possède plus d inconnues que d équations même dans le cas favorable où m = d, la relation non linéaire peut posséder plusieurs solutions distinctes la suite reconstituée peut être globalement peu pertinente (en tant que suite), même si séparément chacune des estimations marginales est pertinente (incohérence temporelle) 8/110
Exemple on considère le cas très simple où X k x, et x R m est un paramètre fixe mais inconnu on désigne par x 0 la vraie valeur du paramètre pour simplifier, on suppose que les observations d dimensionnelles (Y 1,Y 2,,Y n ) dépendent linéairement du paramètre Y k = Hx +V k où H est une matrice d m, et on suppose que 1 n V k 0 n k=1 quand le nombre n d observations tend vers l infini si m = d, et si la matrice carrée H est inversible, alors on peut considérer l estimateur suivant x n = H 1 ( 1 n Y k ) = H 1 (Hx 0 + 1 n V k ) = x 0 +H 1 ( 1 n n n k=1 k=1 à la limite quand le nombre n d observations tend vers l infini, l estimateur x n converge vers la vraie valeur du paramètre n V k ) k=1 9/110
si m > d, alors le problème est en général mal posé, même dans le cas favorable où la matrice H est de rang maximal égal à d si on considère le problème d optimisation suivant min x R m { 1 2 n Y k Hx 2 } k=1 les conditions d optimalité du premier ordre pour la minimisation par rapport à x R m du critère n n n 1 2 Y k Hx 2 = 1 2 Y k 2 x H ( Y k )+n 1 2 x H Hx k=1 s écrivent k=1 k=1 n H Y k = nh Hx = Hx = 1 n k=1 compte tenu que la matrice H est de rang plein dans le cas précédent, où m = d et la matrice H est inversible, on obtient la solution unique n k=1 x n = H 1 ( 1 n Yk ) 10/110 Y k
dans le cas considéré ici, il y a un nombre infini de solutions, et on peut seulement affirmer que on vérifie que x n { x R m : Hx = 1 n n n } Y k k=1 n H x n = 1 n k=1 Y k = Hx 0 + 1 n et à la limite quand le nombre n d observations tend vers l infini, on obtient H x n Hx 0 c est à dire qu asymptotiquement, lorsque le bruit d observation a été éliminé par moyennisation, on sait seulement que le paramètre inconnu x appartient au sous espace affine I(x 0 ) de dimension (m d) défini par I(x 0 ) = { x R m : Hx = Hx 0 } k=1 V k 11/ 110
l existence d un nombre infini de solutions possibles n est donc pas liée à la présence du bruit d observation elle existe même en absence de bruit d observation, c est à dire même si V k 0 pour lever l indétermination x I(x 0 ), on essaye d utiliser des informations supplémentaires sur le paramètre inconnu x, par exemple : x est proche de µ, c est à dire qu on introduit une information a priori on peut formaliser la prise en compte de cette information supplémentaire en considérant le problème d optimisation suivant min x R m { 1 2 n Y k Hx 2 + 1 2 (x µ) Σ 1 (x µ) } k=1 où Σ est une matrice symétrique définie positive, de dimension m 12/ 110
les conditions d optimalité du premier ordre pour la minimisation par rapport à x R m du critère s écrivent 1 2 n Y k Hx 2 + 1 2 (x µ) Σ 1 (x µ) k=1 = 1 2 H ( n n Y k 2 x H ( Y k )+n 1 2 x H Hx k=1 k=1 + 1 2 µ Σ 1 µ x Σ 1 µ+ 1 2 x Σ 1 x n Y k )+Σ 1 µ = (nh H +Σ 1 )x k=1 = (H H + 1 n Σ 1 )x = H ( 1 n n Y k )+ 1 n Σ 1 µ k=1 13/ 110
en utilisant le lemme d inversion matricielle (à venir), on obtient (H H + 1 n Σ 1 ) 1 = nσ nσh (HΣH + 1 n I) 1 HΣ on en déduit que (H H + 1 n Σ 1 ) 1 H = ΣH (HΣH + 1 n I) 1 et (H H + 1 n Σ 1 ) 1 1 n Σ 1 = I ΣH (HΣH + 1 n I) 1 H ce qui donne la solution unique suivante x n = ΣH (HΣH + 1 n I) 1 ( 1 n Y k )+[I ΣH (HΣH + 1 n n I) 1 H]µ k=1 on vérifie que x n = ΣH (HΣH + 1 n I) 1 Hx 0 +[I ΣH (HΣH + 1 n I) 1 H]µ n Vk ) +ΣH (HΣH + 1 n I) 1 ( 1 n 14/ 110
et à la limite quand le nombre n d observations tend vers l infini, l estimateur x n converge vers la valeur on vérifie que x = ΣH (HΣH ) 1 Hx 0 +[I ΣH (HΣH ) 1 H]µ Hx = Hx 0, c est à dire que x appartient au sous espace affine I(x 0 ), et on peut montrer qu il s agit du point projeté orthogonal (pour le produit scalaire associé à la matrice Σ 1 ) du point µ sur le sous espace affine I(x 0 ), solution du problème d optimisation min x I(x 0 ) c est à dire du problème d optimisation { 1 2 (x µ) Σ 1 (x µ) } { min 1 x R m 2 (x µ) Σ 1 (x µ) } sous la contrainte Hx = Hx 0 en d autres termes, l accumulation des observations permet d apprendre le sous espace affine I(x 0 ), et l information a priori permet de choisir un point particulier dans ce sous espace 15/ 110
approche variationnelle pour lever l indétermination ou l incohérence temporelle : introduire des informations supplémentaires sur la suite cachée, sous la forme de fonctions de coût portant sur l état initial et sur les transitions entre deux états successifs par exemple, le critère à minimiser par rapport à la suite x 0:n = (x 0,x 1,,x n ) J(x 0:n ) = c 0 (x 0 )+ n c k (x k 1,x k )+ k=1 n d k (x k ) k=0 combine des fonctions de coût qui représentent une information a priori sur la suite recherchée un terme d attache aux données, par exemple de la forme d k (x) = 1 2 Y k h k (x) 2 avec l intreprétation que la suite recherchée doit vérifier à chaque instant l équation d observation en un sens approché ou qui peuvent juste représenter une contrainte (ou une propriété) que la suite recherchée devrait vérifier (ou posséder) 16/ 110
typiquement, l information a priori est représentée par c 0 (x) = 1 2 x µ 2 et c k (x,x ) = 1 2 x f k (x) 2 avec l interprétation que l état initial x 0 recherché doit être proche de µ la transition (x k 1,x k ) recherchée doit vérifier l équation x k = f k (x k 1 ) en un sens approché cette régularisation (du point de vue de l optimisation) peut s interpréter comme l ajout d une information a priori (du point de vue de l estimation statistique) 17/ 110
plus généralement, on peut représenter l information a priori par c 0 (x) = logp 0 (x) et c k (x,x ) = logp k (x x) et minimiser le critère J(x 0:n ) = logp 0 (x 0 ) n logp k (x k x k 1 )+ k=1 n d k (x k ) revient alors à maximiser (estimateur MAP (maximum a posteriori)) exp{ J(x 0:n )} = p 0 (x 0 ) n p k (x k x k 1 ) exp{ k=1 } {{ } p 0:n (x 0:n ) k=0 n d k (x k )} où p 0:n (x 0:n ) représente la densité de probabilité conjointe des états successifs X 0:n = (X 0,X 1,,X n ) de la chaîne de Markov caractérisée par la densité de probabilité initiale p 0 (x 0 ) et les densités de probabilité de transition p k (x x) k=0 18/ 110
approche statistique avec un point de vue pragmatique : au lieu de rechercher un maximum de la densité a posteriori, on choisit d échantillonner cette densité, ce qui permet par exemple de calculer des espérances (ou des intégrales) du type f(x 0:n ) exp{ J(x 0:n )} dx 0:n E E = E E f(x 0:n ) exp{ = E[f(X 0:n ) exp{ n d k (x k )} p 0:n (x 0:n ) dx 0:n k=0 n d k (X k )}] on verra comment résoudre ce problème de manière approchée, en simulant des échantillons de variables aléatoires distribuées (approximativement) selon la distribution de Gibbs Boltzmann trajectorielle définie ci dessus k=0 lien entre les deux approches : méthode asymptotique de Laplace 19/ 110
Résumé nécessité / utilité d un modèle a priori pour compléter l information apportée par les observations pour faire le lien entre des observations reçues à des instants différents (compte tenu que le mobile...s est déplacé entre ces instants) ce modèle peut être rustique ou grossier, et il est souvent bruité (on accepte l idée que le modèle est nécessairement faux, et on essaye de quantifier, de manière statistique, l erreur de modélisation) 20/ 110
Modèles modèle (du plus simple au plus général) modèle d état (espace d état continu R m ) linéaire, bruits gaussiens non linéaire, bruits gaussiens modèle d état général : non linéaire, bruits non gaussiens modèle de Markov caché (HMM), et extensions modèle de Markov caché (état caché markovien, observations indépendantes / markoviennes conditionnellement aux états cachés) chaîne de Markov partiellement observée (états cachés et observations conjointement markoviens) 21/ 110
espace d état général fini, dénombrable espace euclidien, variété hybride continu / discret avec contraintes graphe (collection de nœuds et d arêtes) 22/ 110
Exploitation du modèle a priori approche bayésienne, fusion d information : loi a posteriori obtenue en combinant loi a priori (modèle d état) vraisemblance (adéquation entre mesures et états) mise en œuvre récursive grâce à la propriété de Markov principe général : à l aide de la formule de Bayes, la loi conditionnelle de X 0:n sachant Y 0:n s exprime à partir de la loi de X 0:n la loi conditionnelle de Y 0:n sachant X 0:n, souvent facile à évaluer par exemple dans le modèle additif Y k = h k (X k )+V k 23/ 110
en principe, la loi conditionnelle de X n sachant Y 0:n s obtient facilement par marginalisation en pratique, cette loi conditionnelle n a d expression explicite que dans certains cas particuliers chaîne de Markov à espace d état fini modèle linéaire gaussien d où l intérêt pour les méthodes de simulation de type Monte Carlo dans le cas général : le filtrage particulaire offre une manière numériquement efficace de mettre en œuvre les méthodes bayésiennes 24/ 110
Introduction au filtrage Estimation bayésienne estimation bayésienne borne de Cramér Rao a posteriori cadre gaussien Systèmes linéaires gaussiens Extensions aux systèmes non linéaires 25/ 110
Estimation bayésienne soit Z = (X,Y) à valeurs dans E F (par exemple E = R m, F = R d ) de loi jointe connue (par exemple donnée par une densité p(x,y)) objectif : exploiter au mieux l observation de Y pour améliorer la connaissance de la composante cachée X un estimateur ψ de la statistique φ = φ(x) à valeurs dans R p est une application définie sur F, à valeurs dans R p mesure de l écart entre ψ(y) et φ(x) : erreur quadratique moyenne E ψ(y) φ(x) 2 trace de la matrice de corrélation de l erreur d estimation E[(ψ(Y) φ(x))(ψ(y) φ(x)) ] symétrique semi définie positive, de dimension p p 26/ 110
estimateur MMSE (minimum mean square error) : estimateur φ tel que E[( φ(y) φ(x))( φ(y) φ(x)) ] E[(ψ(Y) φ(x))(ψ(y) φ(x)) ] pour tout autre estimateur ψ, au sens des matrices symétriques a fortiori E φ(y) φ(x) 2 E ψ(y) φ(x) 2 pour tout autre estimateur ψ Proposition l estimateur MMSE de la statistique φ = φ(x) au vu de l observation Y est la moyenne conditionnelle de φ(x) sachant Y φ(y) = E[φ(X) Y] = φ(x) P[X dx Y] E 27/ 110
Preuve pour un estimateur ψ quelconque ψ(y) φ(x) = φ(y) φ(x)+ψ(y) φ(y) entraîne E[(ψ(Y) φ(x))(ψ(y) φ(x)) ] = E[( φ(y) φ(x))( φ(y) φ(x)) ] +E[(ψ(Y) φ(y))(ψ(y) φ(y)) ] +E[( φ(y) φ(x))(ψ(y) φ(y)) ]+( ) si les deux produits croisés sont nuls, alors E[(ψ(Y) φ(x))(ψ(y) φ(x)) ] E[( φ(y) φ(x))( φ(y) φ(x)) ] au sens des matrices symétriques, avec égalité pour ψ(y) = φ(y) 28/ 110
il reste à vérifier que E[( φ(y) φ(x))(ψ(y) φ(y)) ] = E[E[ φ(y) φ(x) Y](ψ(Y) φ(y)) ] = E[( φ(y) E[φ(X) Y])(ψ(Y) φ(y)) ] = 0 par définition de φ(y) = E[φ(X) Y] pros : solution universelle (la loi conditionnelle de X sachant Y permet de construire l estimateur MMSE de n importe quelle statistique φ = φ(x)) cons : solution infini dimensionnelle (distribution ou densité de probabilité) 29/ 110
Borne de Cramér Rao a posteriori l erreur quadratique moyenne associée à l estimateur bayésien fournit une borne inférieure, atteinte (par l estimateur bayésien) mais souvent difficile à évaluer la borne de Cramér Rao a posteriori (différente de la borne paramétrique) est plus facilement calculable mais pas nécessairement atteinte hypothèse : la loi jointe de Z = (X,Y) possède une densité (assez régulière) sur R m F P[X dx,y dy] = p(x,y)dx λ(dy) obtenue souvent grâce à la factorisation (formule de Bayes) p(x,y) = p(x y)p(y) = p(y x)p(x) et cette densité vérifie 2 R m F x2p(x,y) λ(dy)dx = p (x)dx = 0 R m 30/ 110
on définit le biais de l estimateur ψ comme b(ψ,x) = E[ψ(Y) X = x] φ(x) = (ψ(y) φ(x))p(y x) λ(dy) Théorème si la matrice d information de Fisher F J = E[ 2 x 2 logp(x,y)] est inversible, alors matrice de dimension m m avec E[(ψ(Y) φ(x))(ψ(y) φ(x)) ] MJ 1 M M = E[φ (X)] matrice de dimension p m pour tout estimateur ψ tel que R m (b(ψ,x)p(x)) dx = 0 31/ 110
Preuve par définition b(ψ,x)p(x) = (ψ(y) φ(x))p(x,y) λ(dy) F et la matrice jacobienne (de dimension p m) associée vérifie (b(ψ,x)p(x)) = φ (x) F = φ (x)p(x)+ p(x,y) λ(dy)+ (ψ(y) φ(x)) p(x,y) λ(dy) F x (ψ(y) φ(x)) logp(x,y) p(x,y) λ(dy) x F en intégrant par rapport à la variable x R m et avec l hypothèse, il vient φ (x)p(x)dx + (ψ(y) φ(x)) logp(x,y) p(x,y) λ(dy)dx R m x R m F = E[φ (X)]+E[(ψ(Y) φ(x)) x logp(x,y)] = 0 32/110
c est à dire que E[(ψ(Y) φ(x)) x logp(x,y)] = M d autre part, il résulte de l identité 2 x 2 logp(x,y) = 1 p(x,y) entre matrices de dimension m m, que 2 x 2p(x,y) ( x logp(x,y)) x logp(x,y) E[( x logp(x,y)) x logp(x,y)] = et par hypothèse R m F 2 2 x2p(x,y) λ(dy)dx E[ x 2 logp(x,y)] E[( x logp(x,y)) x logp(x,y)] = J 33/ 110
on introduit ensuite le vecteur aléatoire (de dimension p + m) ψ(y) φ(x) ( ) ( C M et sa matrice de covariance M J x logp(x,y)) compte tenu que cette matrice est symétrique semi définie positive, on vérifie que pour tout vecteur u R p ( u (J 0 1 M u) ) ( ) ( ) C M u M J J 1 M u ( u (J = 1 M u) ) ( ) (C MJ 1 M )u 0 = u (C MJ 1 M )u c est à dire que le complément de Schur = C MJ 1 M est également une matrice symétrique semi définie positive, d où C MJ 1 M 34/ 110
Utilisation pratique pour évaluer à l avance la performance d un estimateur donné ψ(y) de la variable cachée X au vu de l observation Y, on réalise M simulations indépendantes (X j,y j ) pour tout j = 1 M on évalue empiriquement la matrice de corrélation des erreurs d estimation E[(ψ(Y) X) (ψ(y) X) ] 1 M (ψ(y j ) X j ) (ψ(y j ) X j ) M pour avoir une idée de la performance, et on compare avec la borne J 1 pour avoir une idée de la marge d amélioration possible pour calculer la matrice d information de Fisher J intervenant dans la borne, on évalue empiriquement la matrice J = E[ 2 x 2 logp(x,y)] 1 M 2 M x 2 logp(xj,y j ) j=1 j=1 35/ 110
Remarque borne calculable à l avance, pas de connaissance nécessaire de la vraie valeur (qui n existe d ailleurs pas dans le cadre bayésien) moyenne sur toutes les réalisations possibles de l observation et de la composante cachée conjointement par contraste, dans la borne de Cramér Rao paramétrique (vs. borne de Cramér Rao a posteriori) il n y a pas de loi a priori sur la composante cachée θ Théorème si la matrice d information de Fisher J(θ) = E[ 2 logp(y θ) θ] θ2 matrice de dimension m m est inversible, alors E[(ψ(Y) φ(θ))(ψ(y) φ(θ)) θ] φ (θ)j 1 (θ)(φ (θ)) pour tout estimateur ψ sans biais, c est à dire tel que E[ψ(Y) θ] = φ(θ) 36/ 110
Remarque décomposition loi jointe = loi conditionnelle loi marginale p(x,y) = p(x y)p(y) = p(y x)p(x) d où les expressions équivalentes suivantes J = E[ 2 x 2 logp(x,y)] = E[ 2 logp(x Y)] x2 = E[ 2 2 logp(y X)] E[ x2 x 2 logp(x)] = E[ E[ 2 logp(y X) X] ] E[ 2 x2 }{{} x 2 logp(x)] J(X) 37/ 110
Exemple soit X et V deux vecteurs aléatoires gaussiens indépendants de moyenne X et 0, de matrice de covariance Q X et Q V, et on pose Y = h(x)+v si Q X et Q V sont inversibles, alors p(y x) exp{ 1 2 (y h(x)) Q 1 V (y h(x))} d où p(x) exp{ 1 2 (x X) Q 1 X (x X)} logp(x,y) = 1 2 (y h(x)) Q 1 V (y h(x))+1 2 (x X) Q 1 X (x X)+cste 2 x 2 logp(x,y) = (h (x)) Q 1 V h (x) (y h(x)) Q 1 et la matrice d information de Fisher J = E[ 2 x 2 logp(x,y)] = E[(h (X)) Q 1 V h (X)] E[V Q 1 V h (x)+q 1 X V h (X)] +Q 1 X } {{ } 0 38/ 110
dans le cas particulier où h(x) = Hx J = H Q 1 V H+Q 1 X et J 1 = Q X Q X H (HQ X H +Q V ) 1 HQ X repose sur le lemme d inversion matricielle suivant Lemme soit Q et R deux matrices symétriques définies positives, de dimension m et d respectivement, et soit H une matrice d m, alors (H R 1 H +Q 1 ) 1 = Q QH (HQH +R) 1 HQ Remarque cette formule d inversion permet de remplacer l inversion de la matrice (H R 1 H +Q 1 ) de dimension m, par l inversion de la matrice (HQH +R) de dimension d, avec en général d m 39/ 110
Preuve on remarque d abord que HQH +R R et H R 1 H +Q 1 Q 1 au sens des matrices symétriques, ce qui prouve que les matrices (HQH +R) et (H R 1 H +Q 1 ) sont inversibles 40/ 110
on vérifie alors que [Q QH (HQH +R) 1 HQ] [H R 1 H +Q 1 ] = QH R 1 H +I QH (HQH +R) 1 (HQH +R R)R 1 H QH (HQH +R) 1 H = QH R 1 H +I QH R 1 H +QH (HQH +R) 1 H QH (HQH +R) 1 H = I 41/ 110
Cadre gaussien estimateur MMSE dans le cas gaussien soit Z = (X,Y) vecteur aléatoire gaussien à valeurs dans ( R m R d de ) moyenne Z = ( X,Ȳ), de matrice de covariance Q QX Q Z = XY Q YX Proposition la loi conditionnelle de X sachant Y est gaussienne, de moyenne X(Y) et de matrice de covariance R (ne dépendant pas de Y), et si la matrice de covariance Q Y est inversible, alors X(Y) = X +Q XY Q 1 Y (Y Ȳ) Q Y et 0 R = Q X Q XY Q 1 Y Q YX Q X complément de Schur de la matrice Q Y dans la matrice bloc Q Z 42/ 110
Remarque on vérifie que 0 R Q X au sens des matrices symétriques, c est à dire que l utilisation de l information supplémentaire (Y = y), ne peut que réduire l incertitude que l on a sur le vecteur aléatoire X la majoration R Q X est évidente, et la minoration R 0 résulte de l identité ( u (Q 1 Y Q YX u) ) Q X Q XY u 0 = Q YX Q Y Q 1 ( u (Q 1 Y Q YX u) ) (Q X Q XY Q 1 Y Q YX)u = u R u 0 Y Q YX u pour tout vecteur u R m, ce qui permet de conclure que R 0 43/ 110
Remarque la matrice R ne dépend pas de y, et peut donc être calculée avant même de disposer de la valeur y prise par l observation Y Remarque soit X = X(Y) l estimateur MMSE de X sachant Y compte tenu que X = X +Q XY Q 1 Y (Y Ȳ) dépend de façon affine du vecteur aléatoire Y, on en déduit que (X, X,Y) est un vecteur aléatoire gaussien, comme transformation affine du vecteur aléatoire gaussien Z = (X,Y) 44/ 110
Remarque si Y = (Y,Y ) où les composantes Y et Y sont indépendantes X Q X Q XY Q XY Z = Ȳ et Q Z = Q Y X Q Y 0 Ȳ Q Y X 0 Q Y et si les matrices Q Y et Q Y sont inversibles, alors la distribution de probabilité conditionnelle du vecteur aléatoire X sachant Y = y, avec y = (y,y ), est une distribution de probabilité gaussienne de moyenne X(y) = X +Q XY Q 1 Y (y Ȳ) ( ) ( = X QXY Q + XY QY 0 0 Q Y ) 1 ( y Ȳ y Ȳ = X +Q XY Q 1 Y (y Ȳ )+Q XY Q 1 Y (y Ȳ ) ) 45/ 110
et de matrice de covariance R = Q X Q XY Q 1 Y Q YX ( ) ( ) 1 ( ) QXY Q = Q X XY QY 0 QY X 0 Q Y = Q X Q XY Q 1 Y Q Y X Q XY Q 1 Y Q Y X Q Y X 46/ 110
Preuve de la Proposition on pose Ξ = X Q XY Q 1 Y Y, et on vérifie que le vecteur aléatoire (Ξ, Y) est gaussien, comme transformation affine du vecteur aléatoire gaussien Z = (X,Y) on vérifie que Ξ = E[Ξ] = X Q XY Q 1 Y Ȳ et par différence Ξ Ξ = (X X) Q XY Q 1 Y (Y Ȳ) 47/ 110
on en déduit facilement la matrice de covariance Q Ξ = E[(Ξ Ξ) (Ξ Ξ) ] = E[((X X) Q XY Q 1 Y (Y Ȳ)) ((X X) Q XY Q 1 Y (Y Ȳ)) ] = E[(X X) (X X) ] E[(X X) (Y Ȳ) ] Q 1 Y Q YX Q XY Q 1 Y E[(Y Ȳ) (X X) ] +Q XY Q 1 Y E[(Y Ȳ) (Y Ȳ) ] Q 1 Y Q YX = Q X Q XY Q 1 Y Q YX = R et la matrice de corrélation Q ΞY = E[(Ξ Ξ) (Y Ȳ) ] = E[((X X) Q XY Q 1 Y (Y Ȳ)) (Y Ȳ) ] = E[(X X) (Y Ȳ) ] Q XY Q 1 Y E[(Y Ȳ) (Y Ȳ) ] = 0 48/ 110
en particulier, les vecteurs aléatoires gaussiens Ξ et Y sont décorrélés, donc indépendants il suffit alors d exprimer la fonction caractéristique de la distribution de probabilité conditionnelle du vecteur aléatoire X = Ξ+Q XY Q 1 Y Y sachant Y, soit E[exp{i u X} Y] = E[exp{i u (Ξ+Q XY Q 1 Y Y)} Y] = exp{i u Q XY Q 1 Y Y} E[exp{i u Ξ}] = exp{i u Q XY Q 1 Y Y} exp{i u ( X Q XY Q 1 Y Ȳ) 1 2 u R u} = exp{i u ( X +Q XY Q 1 Y (Y Ȳ)) 1 2 u R u} = exp{i u X(Y) 1 2 u R u} on reconnait la fonction caractéristique d un vecteur aléatoire gaussien de moyenne X(Y) et de matrice de covariance R 49/ 110
Exemple soit X et V deux vecteurs aléatoires gaussiens indépendants de moyenne X et 0, de matrice de covariance Q X et Q V, et on pose Y = HX +V alors Z = (X,Y) vecteur aléatoire gaussien à valeurs dans R m R d de moyenne ( Z = ( X,H X), de matrice de covariance QX Q X H ) Q Z = HQ X HQ X H +Q V si Q V est inversible, alors a fortiori HQ X H +Q V est inversible, et et X(Y) = X +Q X H (HQ X H +Q V ) 1 (Y H X) 0 R = Q X Q X H (HQ X H +Q V ) 1 HQ X Q X complément de Schur de la matrice HQ X H +Q V dans la matrice bloc Q Z si de plus Q X est inversible, alors (lemme d inversion matricielle) R = (H Q 1 X H +Q 1 V ) 1 = J 1 50/ 110
la moyenne conditionnelle X(Y) est l estimateur MMSE de X sachant Y, donc pour tout estimateur ψ on a E[(ψ(Y) X)(ψ(Y) X) ] E[( X(Y) X)( X(Y) X) ] = R J 1 i.e. la borne de Cramér Rao a posteriori J 1 est atteinte dans le cas gaussien Remarque autre démonstration de J 1 = R p(x y) exp{ 1 2 (x X(y)) R 1 (x X(y))} d où logp(x y) = 1 2 (x X(y)) R 1 (x X(y))+cste 2 logp(x y) = R 1 x2 et la matrice d information de Fisher J = E[ 2 logp(x Y)] = R 1 x2 51/ 110
Introduction au filtrage Estimation bayésienne Systèmes linéaires gaussiens systèmes linéaires gaussiens filtre de Kalman illustration lisseur de Kalman Extensions aux systèmes non linéaires 52/ 110
Systèmes linéaires gaussiens suite d états cachés {X k } à valeurs dans R m, vérifiant X k = F k X k 1 +f k +W k et suite d observations {Y k } à valeurs dans R d, vérifiant hypothèses : Y k = H k X k +h k +V k état initial X 0 gaussien, de moyenne X 0 et de matrice de covariance Q X 0 bruit d état {W k } blanc gaussien, de matrice de covariance Q W k bruit d observation {V k } blanc gaussien, de matrice de covariance Q V k suites {W k } et {V k } et état initial X 0 mutuellement indépendants 53/ 110
interprétation du modèle a priori X k = F k X k 1 +f k +W k en terme de propagation des incertitudes même si l état X k 1 = x est connu exactement à l instant (k 1), on peut seulement dire que l état X k à l instant k est incertain, et distribué comme un vecteur aléatoire gaussien, de moyenne F k x +f k et de matrice de covariance Qk W si l état X k 1 est incertain à l instant (k 1), et distribué comme un vecteur aléatoire gaussien, de moyenne X k 1 et de matrice de covariance Qk 1 X, alors cette incertitude se propage à l instant k : même en absence de bruit, l état X k à l instant k est incertain, et distribué comme un vecteur aléatoire gaussien, de moyenne F k Xk 1 +f k et de matrice de covariance F k Qk 1 X F k 54/ 110
Proposition la suite {Z k = (X k,y k )} est un processus aléatoire gaussien Preuve pour tout instant n, le vecteur aléatoire (Z 0,Z 1,,Z n ) peut s exprimer comme transformation affine du vecteur aléatoire (X 0,W 1,,W n,v 0,V 1,,V n ) qui par hypothèse est un vecteur aléatoire gaussien, donc le vecteur aléatoire (Z 0,Z 1,,Z n ) est gaussien, comme transformation affine d un vecteur aléatoire gaussien 55/ 110
Résumé on rappelle qu il s agit d estimer de façon optimale et récursive, le vecteur aléatoire X k à partir de Y 0:k = (Y 0,,Y k ), dans le modèle X k = F k X k 1 +f k +W k Y k = H k X k +h k +V k si on adopte le critère MMSE, alors il s agit de calculer la distribution de probabilité conditionnelle du vecteur aléatoire X k sachant Y 0:k, et comme le cadre est gaussien, il suffit de calculer la moyenne et la matrice de covariance déterministe X k = E[X k Y 0:k ] et P k = E[(X k X k ) (X k X k ) ] on définit également les quantités suivantes X k = E[X k Y 0:k 1 ] et P k = E[(X k X k ) (X k X k ) ] 56/ 110
en revanche, le calcul direct à partir des formules de conditionnement dans les vecteurs aléatoires gaussiens est de taille croissante non récursif 57/ 110
Filtre de Kalman supposons connue la distribution de probabilité conditionnelle du vecteur aléatoire X k 1 sachant Y 0:k 1 : pour calculer la distribution de probabilité conditionnelle du vecteur aléatoire X k sachant Y 0:k, on procède en deux étapes dans l étape de prédiction, on calcule la distribution de probabilité conditionnelle du vecteur aléatoire X k sachant les observations passées Y 0:k 1, ce qui est facile à partir de l équation d état dans l étape de correction, on utilise la nouvelle observation Y k, et particulièrement la composante de l observation Y k qui apporte une information nouvelle par rapport aux observations passées Y 0:k 1, c est à dire I k = Y k E[Y k Y 0:k 1 ] d après l équation d observation, on a I k = Y k (H k E[X k Y 0:k 1 ]+h k +E[V k Y 0:k 1 ]) = Y k (H k X k +h k) où on a utilisé l indépendance de V k et de Y 0:k 1 58/110
et indépendant de Y 0:k 1 59/110 Remarque par définition, toute fonction des variables (Y 0,,Y k 1,Y k ) peut s exprimer en fonction des variables (Y 0,,Y k 1,I k ), et réciproquement on en déduit que (Y 0:k 1,I k ) contient exactement la même information que Y 0:k Lemme la suite {I k } est un processus gaussien, appelé processus d innovation en particulier, le v.a. I k est gaussien, de moyenne nulle et de matrice de covariance Q I k = H k P k H k +Q V k et indépendant de Y 0:k 1 plus généralement, le v.a. (X k X k,i k) est gaussien, de moyenne nulle et de matrice de covariance ( P k P ) k H k H k P k H k P k H k +QV k
Preuve d après la théorie du conditionnement dans les v.a. gaussiens, l observation prédite E[Y k Y 0:k 1 ] dépend de façon affine des observations passées (Y 0,Y 1,,Y k 1 ), et donc l innovation I k dépend de façon affine des observations (Y 0,Y 1,,Y k ) on en déduit que le v.a. (I 0,I 1,,I k ) est gaussien, comme transformation affine du v.a. gaussien (Y 0,Y 1,,Y k ) toujours d après la théorie du conditionnement dans les v.a. gaussiens, l état prédit X k = E[X k Y 0:k 1 ] dépend de façon affine des observations passées (Y 0,Y 1,,Y k 1 ) on en déduit que le v.a. (Y 0,Y 1,,Y k 1,X k X k,i k) est gaussien et en particulier le v.a. (X k X k,i k) est gaussien comme transformation affine d un v.a. gaussien, et compte tenu que E[X k X k Y 0:k 1] = 0 et E[I k Y 0:k 1 ] = 0 par définition, le v.a. (X k X k,i k) est indépendant de Y 0:k 1 60/ 110
d après l équation d observation, on a et on en déduit que I k = Y k (H k X k +h k) = H k (X k X k )+V k Q I k = E[I k I k] = E[(H k (X k X k )+V k) (H k (X k X k )+V k) ] = H k E[(X k X k ) (X k X k ) ] H k +E[V k V k ] +E[V k (X k X k ) ] H k +H k E[(X k X k )V k ] = H k P k H k +Q V k où on a utilisé dans la dernière égalité, l indépendance de (X k X k ) et de V k, donc E[(X k X k )V k ] = 0 61/ 110
on a également E[(X k X k ) I k] = E[(X k X k ) (H k (X k X k )+V k) ] = E[(X k X k )(X k X k ) ] H k +E[(X k X k )V k ] = P k H k où on a utilisé dans la dernière égalité, l indépendance de (X k X k ) et de V k, donc E[(X k X k )V k ] = 0 62/ 110
Théorème [Filtre de Kalman] on suppose que la matrice de covariance Qk V est inversible, pour tout instant k alors les suites { X k } et {P k } sont définies par les équations suivantes X k = F k Xk 1 +f k et où la matrice P k = F k P k 1 F k +Q W k X k = X k +K k [Y k (H k X k +h k)] P k = [I K k H k ] P k K k = P k H k [H k P k H k +Q V k ] 1 est appelée gain de Kalman, avec les initialisations X 0 = X 0 = E[X 0 ] et P 0 = QX 0 = cov(x 0 ) 63/ 110
Remarque la suite {P k } ne dépend pas des observations : elle peut donc être pré calculée Remarque si les coefficients F k et f k dans l équation d état et les coefficients H k et h k dans l équation d observation dépendent des observations passées Y 0:k 1, alors la suite {Z k = (X k,y k )}, et a fortiori la suite {X k }, n est plus gaussienne, mais conditionnellement à Y 0:k 1 le couple (X k,y k ) est gaussien on dit que la suite {X k } est conditionnellement gaussienne, et on vérifie que la distribution de probabilité conditionnelle du v.a. X k sachant Y 0:k est gaussienne, de moyenne X k et de matrice de covariance P k données encore par les équations du Théorème 64/ 110
Preuve on procède en plusieurs étapes, en s appuyant sur la théorie du conditionnement dans les v.a. gaussiens initialisation expression de X 0 et P 0 en fonction de X 0 et P 0 le v.a. (X 0,Y 0 ) est gaussien, de moyenne et de matrice de covariance données par X 0 H 0 X 0 +h 0 et ( P 0 P 0 H 0 H 0 P 0 H 0 P 0 H 0 +QV 0 ) on en déduit que la distribution de probabilité conditionnelle du v.a. X 0 sachant Y 0 est gaussienne, de moyenne X 0 = X 0 +P 0 H 0 [H 0 P 0 H 0 +Q V 0 ] 1 [Y 0 (H 0 X 0 +h 0)] et de matrice de covariance déterministe P 0 = P 0 P 0 H 0 [H 0 P 0 H 0 +Q V 0 ] 1 H 0 P 0 65/ 110
étape de prédiction expression de X k et P k en fonction de X k 1 et P k 1 le v.a. (X k,y 0,,Y k 1 ) est gaussien, de sorte que la distribution de probabilité conditionnelle du v.a. X k sachant Y 0:k 1 est gaussienne, de moyenne X k et de matrice de covariance P k d après l équation d état on a X k = F k X k 1 +f k +W k X k = E[X k Y 0:k 1 ] = F k E[X k 1 Y 0:k 1 ]+f k +E[W k Y 0:k 1 ] = F k Xk 1 +f k compte tenu que W k et Y 0:k 1 sont indépendants par différence X k X k = F k (X k 1 X k 1 )+W k 66/ 110
on en déduit que P k = E[(X k X k ) (X k X k ) ] = E[(F k (X k 1 X k 1 )+W k ) (F k (X k 1 X k 1 )+W k ) ] = F k E[(X k 1 X k 1 ) (X k 1 X k 1 ) ] Fk +E[W k Wk ] +E[W k (X k 1 X k 1 ) ] Fk +F k E[(X k 1 X k 1 )Wk ] = F k P k 1 F k +Q W k où on a utilisé dans la dernière égalité, l indépendance de (X k 1 X k 1 ) et de W k, donc E[(X k 1 X k 1 )W k ] = 0 67/ 110
étape de correction expression de X k et P k en fonction de X k et P k le v.a. (X k,y 0,,Y k ) est gaussien, de sorte que la distribution de probabilité conditionnelle du v.a. X k sachant Y 0:k est gaussienne, de moyenne X k et de matrice de covariance déterministe P k compte tenu de l indépendance entre I k et Y 0:k 1, on a par différence X k = E[X k Y 0:k ] = X k +E[X k X k Y 0:k] = X k +E[X k X k Y 0:k 1,I k ] = X k +E[X k X k I k] X k X k = (X k X k ) ( X k X k ) = (X k X k ) E[X k X k I k] 68/ 110
de sorte que P k = E[(X k X k ) (X k X k ) ] = E[((X k X k ) E[X k X k I k]) ((X k X k ) E[X k X k I k]) ] il suffit donc de calculer la moyenne conditionnelle et la matrice de covariance conditionnelle du v.a. (X k X k ) sachant I k, or le v.a. (X k X k,i k) est gaussien, de moyenne nulle et de matrice de covariance ( P k P ) k H k H k P k H k P k H k +QV k si la matrice Qk V est inversible, alors a fortiori la matrice Qk I = H k P k H k +QV k est inversible, et on en déduit que X k = X k +P k H k [H k P k H k +Q V k ] 1 I k et P k = P k P k H k [H k P k H k +Q V k ] 1 H k P k 69/ 110
Lisseur de Kalman il s agit estimer l état caché X k pour un instant k, intermédiaire entre l instant initial 0 et l instant final n, au vu de toutes les observations Y 0:n = (Y 0,,Y n ) si on adopte le critère MMSE, alors il s agit de calculer la distribution de probabilité conditionnelle du vecteur aléatoire X k sachant Y 0:n, et comme le cadre est gaussien, il suffit de calculer la moyenne et la matrice de covariance déterministe X n k = E[X k Y 0:n ] et P n k = E[(X k X n k) (X k X n k) ] clairement, X n n = X n et P n n = P n pour k = n 76/ 110
Théorème [Lisseur de Kalman] on suppose que les matrices de covariance Qk V et QW k sont inversibles, pour tout instant k alors { X k n} et {Pn k } sont définis par les équations rétrogrades suivantes X n k 1 = X k 1 +L k ( X n k X k ) Pk 1 n = P k 1 L k (P k Pn k) L k avec la matrice de gain L k = P k 1 Fk (P k ) 1 et avec les initialisations X n n = X n et Pn n = P n Remarque si la matrice de covariance Q W k est inversible, alors a fortiori la matrice de covariance P k = F k P k 1 F k +QW k est inversible 77/ 110
Preuve on remarque que le v.a. Y k = H k X k +h k +V k peut s exprimer comme transformation affine du v.a. (X k,v k ), et donc a fortiori comme transformation affine du v.a. (Y 0:k 1,X k X k,v k) de même, le v.a. Y k+p = H k+p X k+p +h k+p +V k+p peut s exprimer comme transformation affine du v.a. (X k+p,v k+p ), et par transitivité comme transformation affine du v.a. (X k,w k+1,,w k+p,v k+p ), et donc a fortiori comme transformation affine du v.a. (Y 0:k 1,X k X k,w k+1,,w k+p,v k+p ) on en déduit que le v.a. Y 0:n = (Y 0:k 1,Y k,,y n ) peut s exprimer comme transformation affine du v.a. (Y 0:k 1,X k X k,z k+1:n) où Z k+1:n = (W k+1,,w n,v k,v k+1,,v n ) par définition et on vérifie que les v.a. Y 0:k 1, X k X k et Z k+1:n sont mutuellement indépendants 78/ 110
il en résulte que U n k 1 = E[X k 1 Y 0:k 1,X k X k,z k+1:n] = X k 1 +E[X k 1 X k 1 Y 0:k 1,X k X k,z k+1:n] = X k 1 +E[X k 1 X k 1 Y 0:k 1 ]+E[X k 1 X k 1 X k X k ] +E[X k 1 X k 1 Z k+1:n ] = X k 1 +E[X k 1 X k 1 X k X k ] compte tenu que E[X k 1 X k 1 Y 0:k 1 ] = 0 par définition, et où on a utilisé dans la dernière égalité le fait que (X k 1 X k 1 ) est indépendant de Z k+1:n, donc E[X k 1 X k 1 Z k+1:n ] = 0 par différence X k 1 U n k 1 = (X k 1 X k 1 ) (U n k 1 X k 1 ) = (X k 1 X k 1 ) E[X k 1 X k 1 X k X k ] 79/110
de sorte que E[(X k 1 U n k 1) (X k 1 U n k 1) ] = E[((X k 1 X k 1 ) E[X k 1 X k 1 X k X k ]) ((X k 1 X k 1 ) E[X k 1 X k 1 X k X k ]) ] il suffit donc de calculer la moyenne conditionnelle et la matrice de covariance conditionnelle du v.a. (X k 1 X k 1 ) sachant (X k X k ) d après la théorie du conditionnement dans les v.a. gaussiens, l état estimé X k 1 = E[X k 1 Y 0:k 1 ] et l état prédit X k = E[X k Y 0:k 1 ] dépendent de façon affine des observations passées (Y 0,,Y k 1 ), de sorte que le v.a. (X k 1 X k 1,X k X k ) dépend de façon affine du v.a. (Y 0,,Y k 1,X k 1,X k ) on en déduit que le v.a. (X k 1 X k 1,X k X k transformation affine d un v.a. gaussien ) est gaussien, comme 80/ 110
par différence X k X k = F k (X k 1 X k 1 )+G k W k de sorte que E[(X k 1 X k 1 )(X k X k ) ] = E[(X k 1 X k 1 )(F k (X k 1 X k 1 )+G k W k ) ] = E[(X k 1 X k 1 )(X k 1 X k 1 ) ] F k +E[(X k 1 X k 1 )W k ] G k = P k 1 F k dans cette dernière égalité, on a utilisé le fait que (X k 1 X k 1 ) et W k sont indépendants, donc E[(X k 1 X k 1 )W k ] = 0 on en déduit que le v.a. gaussien (X k 1 X k 1,X k X k moyenne nulle et de matrice de covariance ( Pk 1 P k 1 Fk ) ) est de F k P k 1 P k 81/ 110
par hypothèse, la matrice P k est inversible, et on en déduit que Uk 1 n = X k 1 +P k 1 Fk (P k ) 1 (X k X k ) = X k 1 +L k (X k X k ) et E[(X k 1 Uk 1) n (X k 1 Uk 1) n ] = P k 1 P k 1 Fk (P k ) 1 F k P k 1 = P k 1 L k P k L k on rappelle que (Y 0:k 1,X k X k,z k+1:n) contient davantage d information que Y 0:n, de sorte que X n k 1 = E[X k 1 Y 0:n ] = E[U n k 1 Y 0:n ] = X k 1 +L k ( X n k X k ) par différence X k 1 X n k 1 = (X k 1 U n k 1)+(U n k 1 X n k 1) et U n k 1 X n k 1 = L k (X k X n k) 82/ 110
de sorte que Pk 1 n = E[(X k 1 X k 1) n (X k 1 X k 1) n ] = E[((X k 1 Uk 1)+(U n k 1 n X k 1)) n ((X k 1 Uk 1)+(U n k 1 n X k 1)) n ] = E[(X k 1 Uk 1) n (X k 1 Uk 1) n ]+E[(Uk 1 n X k 1) n (Uk 1 n X k 1) n ] +E[(Uk 1 n X k 1) n (X k 1 Uk 1) n ] +E[(X k 1 Uk 1) n (Uk 1 n X k 1) n ] = (P k 1 L k P k L k)+l k Pk n L k dans cette dernière égalité, on a utilisé le fait que (Uk 1 n X k 1 n ) dépend de (Y 0:k 1,X k X k,z k+1:n) et E[X k 1 Uk 1 n Y 0:k 1,X k X k,z k+1:n] = 0 par définition donc E[(X k 1 U n k 1 ) (Un k 1 X n k 1 ) ] = 0 83/ 110
Introduction au filtrage Estimation bayésienne Systèmes linéaires gaussiens Extensions aux systèmes non linéaires borne de Cramér Rao a posteriori filtre de Kalman étendu (linéarisation) filtre de Kalman unscented (quadrature) 84/ 110
Borne de Cramér Rao a posteriori suite d états cachés {X k } à valeurs dans R m, vérifiant X k = b k (X k 1 )+σ k (X k 1 )W k et suite d observations {Y k } à valeurs dans R d, vérifiant hypothèses : Y k = h k (X k )+V k état initial X 0 pas nécessairement gaussien bruit d état {W k } blanc gaussien, de matrice de covariance Q W k bruit d observation {V k } blanc gaussien, de matrice de covariance Q V k suites {W k } et {V k } et état initial X 0 mutuellement indépendants fonctions b k, σ k et h k dérivables 85/ 110
si les matrices de covariance Σ k (x) = σ k (x)q W k (σ k (x)) sont inversibles pour tout x R m, alors il existe des densités de transition définies par P[X k dx X k 1 = x] = p k (x x)dx et si les matrices de covariance Qk V densités d émission définies par sont inversibles, alors il existe des clairement P[Y k dy X k = x] = q k (y x)dy p k (x x) = 1 exp{ 1 2 (x b k (x)) (Σ k (x)) 1 (x b k (x))} det(2πσ k (x)) et q k (y x) = 1 det(2πq Vk ) exp{ 1 2 (y h k(x)) (Q V k ) 1 (y h k (x))} 86/ 110
Théorème pour tout estimateur ψ(y 0:n ) de l état caché X n à partir des observations Y 0:n, l erreur quadratique moyenne est minorée par E[(ψ(Y 0:n ) X n ) (ψ(y 0:n ) X n ) ] J 1 n et la matrice d information de Fisher J n peut se calculer de la façon récursive suivante avec D k = E[ D k = E[ J k = D + k D k (J k 1 +D k ) 1 D k 2 x 2 k 1 logp k (X k X k 1 )] 2 x k 1 x k logp k (X k X k 1 )] D + k = E[ 2 xk 2 logp k (X k X k 1 )] E[ 2 xk 2 logq k (Y k X k )] 87/ 110
Remarque dans le cas particulier où les coefficients σ k (x) = I ne dépendent pas de x R m, et si les matrices de covariance Q W k et Q V k sont inversibles, alors D k = E[(b k(x k 1 )) (Q W k ) 1 b k(x k 1 )] D k = E[(b k(x k 1 )) ] (Q W k ) 1 D + k = (Q W k ) 1 +E[(h k(x k )) (Q V k ) 1 h k(x k )] 88/ 110
Utilisation pratique pour évaluer à l avance la performance d un estimateur donné ψ(y 0:n ) de l état caché X n au vu des observations Y 0:n = (Y 0,,Y n ), on réalise M simulations indépendantes X j n et Y j 0:n = (Yj 0,,Yj n) pour tout j = 1 M on évalue empiriquement l erreur quadratique moyenne E[(ψ(Y 0:n ) X n ) (ψ(y 0:n ) X n ) ] 1 M M (ψ(y j 0:n ) Xj n) (ψ(y j 0:n ) Xj n) j=1 pour avoir une idée de la performance, et on compare avec la borne J 1 n pour avoir une idée de la marge d amélioration possible 89/ 110
Calcul numérique approché pour calculer la matrice d information de Fisher J n intervenant dans la borne, on réalise M simulations indépendantes X j 0:n = (Xj 0,,Xj n) pour tout j = 1 M on évalue empiriquement, pour tout instant k = 1 n, les matrices D k = E[(b k(x k 1 )) (Q W k ) 1 b k(x k 1 )] 1 M M (b k(x j k 1 )) (Qk W ) 1 b k(x j k 1 ) j=1 D k = E[(b k(x k 1 )) ] (Q W k ) 1 1 M M (b k(x j k 1 )) (Qk W ) 1 j=1 90/ 110
et D + k = (Q W k ) 1 +E[(h k(x k )) (Q V k ) 1 h k(x k )] (Q W k ) 1 + 1 M M (h k(x j k )) (Qk V ) 1 h k(x j k ) j=1 et on calcule récursivement J k = D + k D k (J k 1 +D k ) 1 D k en utilisant les approximations empiriques des matrices D k, D k et D + k 91/ 110
Filtre de Kalman étendu (linéarisation) suite d états cachés {X k } à valeurs dans R m, vérifiant X k = b k (X k 1 )+σ k (X k 1 )W k et suite d observations {Y k } à valeurs dans R d, vérifiant hypothèses : Y k = h k (X k )+V k état initial X 0 pas nécessairement gaussien bruit d état {W k } blanc gaussien, de matrice de covariance Q W k bruit d observation {V k } blanc gaussien, de matrice de covariance Q V k inversible suites {W k } et {V k } et état initial X 0 mutuellement indépendants fonctions b k et h k dérivables 92/ 110
idée : linéariser les fonctions b k et σ k autour de X k 1, c est à dire b k (x) b k ( X k 1 )+b k( X k 1 )(x X k 1 ) et σ k (x) σ k ( X k 1 ) et linéariser la fonction h k autour de X k, c est à dire h k (x) h k ( X k )+h k( X k )(x X k ) on introduit le système conditionnellement linéaire gaussien X k = F k X k 1 +f k +G k W k Y k = H k X k +h k +V k avec F k = b k( X k 1 ), f k = b k( X k 1 ) X k 1 +b k ( X k 1 ) et G k = σ k ( X k 1 ) et avec H k = h k( X k ) et h k = h k( X k ) X k +h k( X k ) on remarque que F k Xk 1 +f k = b k ( X k 1 ) et H k X k +h k = h k ( X k ) 93/110
on applique alors exactement le filtre de Kalman à ce nouveau système, d où l algorithme sous optimal suivant et X k = b k ( X k 1 ) P k = b k( X k 1 )P k 1 (b k( X k 1 )) +σ k ( X k 1 )Q W k (σ k ( X k 1 )) X k = X k +K k [Y k h k ( X k )] P k = [I K k h k( X k )] P k avec la matrice de gain K k = P k (h k( X k )) [h k( X k )P k (h k( X k )) +Qk V ] 1 on choisit l initialisation X 0 et P 0 de telle sorte que N( X 0,P 0 ) soit une bonne approximation de la distribution de probabilité du v.a. X 0 94/ 110
Approximation gaussienne suite d états cachés {X k } à valeurs dans R m, vérifiant X k = b k (X k 1 )+σ k (X k 1 )W k et suite d observations {Y k } à valeurs dans R d, vérifiant hypothèses : Y k = h k (X k )+V k état initial X 0 gaussien, de moyenne X 0 et de matrice de covariance Q X 0 bruit d état {W k } blanc gaussien, de matrice de covariance Q W k bruit d observation {V k } blanc gaussien, de matrice de covariance Q V k inversible suites {W k } et {V k } et état initial X 0 mutuellement indépendants fonctions b k et h k pas nécessairement dérivables 95/ 110
idée : au lieu de s appuyer sur une linéarisation des fonctions autour de l estimateur courant, on se propose ici de remplacer les différentes distributions de probabilité conditionnelles par des distributions de probabilité gaussiennes ayant même moyenne et même matrice de covariance d utiliser des formules de quadrature, développées initialement pour le calcul numérique d intégrales, pour approcher ces moyennes et ces matrices de covariance conditionnelles le premier point peut s interpréter comme une projection, au sens de la distance de Kullback Leibler, sur la famille des distributions de probabilité gaussiennes 96/ 110
Moments le calcul des deux premiers moments de la distribution de probabilité conditionnelle µ k (dx) = P[X k dx Y 0:k 1 ] est facile : par définition compte tenu que X k = E[X k Y 0:k 1 ] = E[b k (X k 1 ) Y 0:k 1 ]+E[σ k (X k 1 ) W k Y 0:k 1 ] = b k (x)µ k 1 (dx) E[σ k (X k 1 ) W k Y 0:k 1 ] = E[E[σ k (X k 1 ) W k X k 1,Y 0:k 1 ] Y 0:k 1 ] = E[σ k (X k 1 ) E[W k X k 1,Y 0:k 1 ] Y 0:k 1 ] = 0 où on a utilisé dans la dernière égalité l indépendance de (X k 1,Y 0,,Y k 1 ) et de W k, donc E[W k X k 1,Y 0:k 1 ] = 0 par différence X k X k = (b k(x k 1 ) X k )+σ k(x k 1 ) W k 97/110
et la matrice de covariance est donnée par P k = E[(X k X k ) (X k X k ) Y 0:k 1 ] = E[((b k (X k 1 ) X k )+σ k(x k 1 )W k ) ((b k (X k 1 ) X k )+σ k(x k 1 )W k ) Y 0:k 1 ] = E[(b k (X k 1 ) X k ) (b k(x k 1 ) X k ) Y 0:k 1 ] +E[σ k (X k 1 )W k Wk σk(x k 1 ) Y 0:k 1 ] +E[σ k (X k 1 )W k (b k (X k 1 ) X k ) Y 0:k 1 ] = +E[(b k (X k 1 ) X k ) W k σk(x k 1 ) Y 0:k 1 ] (b k (x) X k ) (b k(x) X k ) µ k 1 (dx) + σ k (x) Qk W σk(x)µ k 1 (dx) 98/ 110
compte tenu que E[σ k (X k 1 )W k W k σ k(x k 1 ) Y 0:k 1 ] = E[E[σ k (X k 1 )W k W k σ k(x k 1 ) X k 1,Y 0:k 1 ] Y 0:k 1 ] = E[σ k (X k 1 ) E[W k W k X k 1,Y 0:k 1 ] σ k(x k 1 ) Y 0:k 1 ] = E[σ k (X k 1 ) Q W k σ k(x k 1 ) Y 0:k 1 ] où on a utilisé dans la dernière égalité l indépendance de (X k 1,Y 0,,Y k 1 ) et de W k, donc E[W k W k X k 1,Y 0:k 1 ] = Q W k, et compte tenu que E[σ k (X k 1 )W k (b k (X k 1 ) X k ) Y 0:k 1 ] = E[E[σ k (X k 1 )W k (b k (X k 1 ) X k ) X k 1,Y 0:k 1 ] Y 0:k 1 ] = E[σ k (X k 1 )E[W k X k 1,Y 0:k 1 ] (b k (X k 1 ) X k ) Y 0:k 1 ] = 0 où on a encore utilisé dans la dernière égalité l indépendance de (X k 1,Y 0,,Y k 1 ) et de W k, donc E[W k X k 1,Y 0:k 1 ] = 0 99/ 110
en revanche, le calcul des deux premiers moments de la distribution de probabilité conditionnelle µ k (dx) = P[X k dx Y 0:k ] n est pas immédiat, et on commence par le calcul des deux premiers moments de la distribution de probabilité conditionnelle jointe du v.a. (X k,y k ) sachant Y 0:k 1, qui est plus facile : on rappelle que X k = b k (x)µ k 1 (dx) déjà obtenu plus haut, et Ŷ k = E[Y k Y 0:k 1 ] = E[h k (X k ) Y 0:k 1 ]+E[V k Y 0:k 1 ] = h k (x)µ k (dx) par différence Y k Ŷ k = (h k (X k ) Ŷ k )+V k 100/ 110
et la matrice de covariance est donnée (i) par P k = (b k (x) X k ) (b k(x) X k ) µ k 1 (dx) + σ k (x) Q W k σ k(x)µ k 1 (dx) déjà obtenu plus haut, (ii) par Ξ k = E[(Y k Ŷ k )(Y k Ŷ k ) Y 0:k 1 ] = E[((h k (X k ) Ŷ k )+V k)((h k (X k ) Ŷ k )+V k) Y 0:k 1 ] = E[(h k (X k ) Ŷ k ) (h k(x k ) Ŷ k ) Y 0:k 1 ]+E[V k Vk Y 0:k 1 ] +E[V k (h k (X k ) Ŷ k ) Y 0:k 1 ] = +E[(h k (X k ) Ŷ k ) V k Y 0:k 1 ] (h k (x) Ŷ k )(h k(x) Ŷ k ) µ k (dx)+qv k 101/ 110
compte tenu que E[V k (h k (X k ) Ŷ k ) Y 0:k 1 ] = E[E[V k (h k (X k ) Ŷ k ) X k,y 0:k 1 ] Y 0:k 1 ] = E[E[V k X k,y 0:k 1 ] (h k (X k ) Ŷ k ) Y 0:k 1 ] = 0 où on a utilisé dans la dernière égalité l indépendance de (X k,y 0,,Y k 1 ) et de V k, donc E[V k X k,y 0:k 1 ] = 0 et (iii) par C k = E[(X k X k )(Y k Ŷ k ) Y 0:k 1 ] = E[(X k X k )(h k(x k ) Ŷ k ) Y 0:k 1 ]+E[(X k X k )V k Y 0:k 1 ] = (x X k )(hk(x) Ŷ k ) µ k (dx) 102/ 110
si on remplace la distribution de probabilité conditionnelle jointe par la distribution de probabilité gaussienne de moyenne et de matrice de covariance ( ) ( ) X k P Ŷ et k C k C k k Ξ k alors on obtient par conditionnement les approximations suivantes X k = X k +C k Ξ 1 k (Y k Ŷ k ) et P k = P k C k Ξ 1 k C k pour les deux premiers moments de la distribution de probabilité conditionnelle µ k Remarque ces équations ne sont pas fermées, c est à dire que les moments X k et P k ne s expriment pas en fonction des moments X k 1 et P k 1 seulement, mais en fonction de toute la distribution de probabilité conditionnelle µ k 1 de même, les moments X k et P k ne s expriment pas en fonction des moments X k et P k seulement, mais en fonction de toute la distribution de probabilité conditionnelle µ k 103/ 110
Principe de fermeture on adopte le principe de projection énoncé plus haut on remplace la distribution de probabilité conditionnelle µ k 1 par la distribution de probabilité gaussienne de moyenne X k 1 et de matrice de covariance P k 1 = S k 1 Sk 1 en effectuant le changement de variable x = X k 1 +S k 1 u, on obtient les approximations X k b k (u) exp{ 1 du 2 u 2 } (2π) m/2 et P k ( b k (u) X k )( b k (u) X k ) exp{ 1 du 2 u 2 } (2π) m/2 + σ k (u)q W k σ k(u) exp{ 1 2 u 2 } du (2π) m/2 où par définition b k (u) = b k ( X k 1 +S k 1 u) et σ k (u) = σ k ( X k 1 +S k 1 u) 104/110
de même, on remplace la distribution de probabilité conditionnelle µ k par la distribution de probabilité gaussienne de moyenne X k et de matrice de covariance P k = S k (S k ) en effectuant le changement de variable x = X k +S k u, on obtient les approximations Ŷ k ĥ k (u) exp{ 1 2 u 2 } R m du (2π) m/2 et Ξ k (ĥk(u) Ŷ k )(ĥk(u) Ŷ k ) exp{ 1 du 2 u 2 } R (2π) m m/2 +QV k et pour la matrice de corrélation C k S k u(ĥk(u) Ŷ k ) exp{ 1 du 2 u 2 } R (2π) m m/2 où par définition ĥ k (u) = h k ( X k +S k u) 105/ 110
Résumé il reste donc à calculer les intégrales des fonctions non linéaires b k (u), b k (u) b k (u), σ k(u)qk W σ k (u), ĥk(u), uĥ k (u) et ĥ k (u)ĥ k (u) par rapport à la densité gaussienne réduite centrée Remarque si on suppose que les fonctions b k et h k sont dérivables, et qu on utilise un développement limité au premier ordre au voisinage de u = 0 dans les intégrales ci dessus, on retrouve les équations du filtre de Kalman étendu l idée ici est de ne pas linéariser, et de calculer les intégrales en utilisant des formules de quadrature 106/ 110
Formules de quadrature en dimension m, la densité de probabilité gaussienne centrée réduite (de matrice de covariance identité) est représentée par 2m + 1 points de quadrature (u m,,u m ) appelés σ points, et définis par u 0 = 0, u i = e i m+κ et u i = u i où e i désigne le i ème vecteur de base, affectés des poids w 0 = κ m+κ et w i = w i = 1 2(m+κ) ( ) pour tout i = 1 m (d autres choix de σ points sont possibles) on vérifie que les deux premiers moments sont pris en compte exactement +m i= m w i = 1, +m i= m w i u i = 0 et +m i= m w i u i u i = m e i ei = I i=1 107/ 110