Introduction au filtrage Estimation bayésienne Systèmes linéaires gaussiens Extensions aux systèmes non linéaires. Filtrage de Kalman
|
|
- Bérengère Marie-Josèphe Malenfant
- il y a 5 ans
- Total affichages :
Transcription
1 Filtrage de Kalman François Le Gland INRIA Rennes et IRMAR 1/110
2 François Le Gland téléphone : / e mail : francois.le gland@inria.fr formation ingénieur Ecole Centrale Paris (1978) DEA de Probabilités à Paris 6 (1979) thèse en Mathématiques Appliquées à Paris Dauphine (1981) carrière professionnelle : chercheur à l INRIA (directeur de recherche depuis 1991) à Rocquencourt jusqu en 1983 à Sophia Antipolis de 1983 à 1993 à Rennes depuis 1993 membre de l IRISA de 1993 à 2011 membre de l IRMAR depuis /110
3 responsable de l équipe thèmes ASPI : Applications Statistiques des Systèmes de Particules en Interaction filtrage particulaire, et applications en localisation, navigation et poursuite assimilation de données séquentielle inférence statistique des modèles de Markov cachés simulation d évènements rares, et extensions en simulation moléculaire optimisation globale analyse mathématique des méthodes particulaires 3/110
4 contrats industriels avec France Télécom R&D, sur la localisation de terminaux mobiles Thalès Communications, sur la navigation par corrélation de terrain DGA / Techniques Navales, sur l optimisation du positionnement et de l activation de capteurs projets ANR FIL, sur la fusion de données pour la localisation PREVASSEMBLE, sur les méthodes d ensemble pour l assimilation de données et la prévision en météorologie et en océanographie projets européens HYBRIDGE, puis ifly, sur les méthodes de Monte Carlo conditionnelles pour l évaluation de risque dans la gestion du trafic aérien collaboration avec l ONERA 4/110
5 Introduction au filtrage nécessité / utilité d un modèle a priori exploitation du modèle a priori Estimation bayésienne Systèmes linéaires gaussiens Extensions aux systèmes non linéaires 5/110
6 Cadre général il s agit d estimer, si possible de manière récursive, l état X n d un système (par exemple, position et vitesse d un mobile) au vu d observations bruitées Y 0:n = (Y 0 Y n ) reliées à l état par une relation du genre Y k = h k (X k )+V k nombreuses applications en localisation, navigation et poursuite de mobiles poursuite de cible (avion, missile, drône, bâtiment de surface, sous marin) suivi d objets dans des séquences vidéo navigation en environnement intérieur (robot mobile, piéton) navigation inertielle, recalage avec un modèle numérique de terrain navigation de terminaux mobiles, recalage avec une carte de couverture 6/110
7 il s agit dans ce cas de déterminer position et vitesse d un mobile, en utilisant comme observations des mesures partielles issues de capteurs (i) mesures directes distance par rapport à une ou plusieurs stations angle par rapport à une direction de référence proximité par rapport à une ou plusieurs stations altitude par rapport à un niveau de référence ou par rapport au relief (ii) mesures indirectes, combinées avec une base de mesures géo référencées, disponibles par exemple sous la forme d une carte numérique altitude du relief + modèle numérique de terrain atténuation de la puissance du signal reçu + carte de couverture 7/110
8 Nécessité d un modèle a priori sans information supplémentaire, observer Y k = h k (X k )+V k pose un nouveau problème d estimation à chaque nouvel instant (pas d accumulation des observations) + dans chacun de ces problèmes d estimation séparément, la dimension m de l état caché est (souvent) plus grande que la dimension d de l observation estimer l état caché X k au vu de la seule observation Y k et même sans bruit d observation V k, est un problème mal posé la relation possède plus d inconnues que d équations même dans le cas favorable où m = d, la relation non linéaire peut posséder plusieurs solutions distinctes la suite reconstituée peut être globalement peu pertinente (en tant que suite), même si séparément chacune des estimations marginales est pertinente (incohérence temporelle) 8/110
9 Exemple on considère le cas très simple où X k x, et x R m est un paramètre fixe mais inconnu on désigne par x 0 la vraie valeur du paramètre pour simplifier, on suppose que les observations d dimensionnelles (Y 1,Y 2,,Y n ) dépendent linéairement du paramètre Y k = Hx +V k où H est une matrice d m, et on suppose que 1 n V k 0 n k=1 quand le nombre n d observations tend vers l infini si m = d, et si la matrice carrée H est inversible, alors on peut considérer l estimateur suivant x n = H 1 ( 1 n Y k ) = H 1 (Hx n V k ) = x 0 +H 1 ( 1 n n n k=1 k=1 à la limite quand le nombre n d observations tend vers l infini, l estimateur x n converge vers la vraie valeur du paramètre n V k ) k=1 9/110
10 si m > d, alors le problème est en général mal posé, même dans le cas favorable où la matrice H est de rang maximal égal à d si on considère le problème d optimisation suivant min x R m { 1 2 n Y k Hx 2 } k=1 les conditions d optimalité du premier ordre pour la minimisation par rapport à x R m du critère n n n 1 2 Y k Hx 2 = 1 2 Y k 2 x H ( Y k )+n 1 2 x H Hx k=1 s écrivent k=1 k=1 n H Y k = nh Hx = Hx = 1 n k=1 compte tenu que la matrice H est de rang plein dans le cas précédent, où m = d et la matrice H est inversible, on obtient la solution unique n k=1 x n = H 1 ( 1 n Yk ) 10/110 Y k
11 dans le cas considéré ici, il y a un nombre infini de solutions, et on peut seulement affirmer que on vérifie que x n { x R m : Hx = 1 n n n } Y k k=1 n H x n = 1 n k=1 Y k = Hx n et à la limite quand le nombre n d observations tend vers l infini, on obtient H x n Hx 0 c est à dire qu asymptotiquement, lorsque le bruit d observation a été éliminé par moyennisation, on sait seulement que le paramètre inconnu x appartient au sous espace affine I(x 0 ) de dimension (m d) défini par I(x 0 ) = { x R m : Hx = Hx 0 } k=1 V k 11/ 110
12 l existence d un nombre infini de solutions possibles n est donc pas liée à la présence du bruit d observation elle existe même en absence de bruit d observation, c est à dire même si V k 0 pour lever l indétermination x I(x 0 ), on essaye d utiliser des informations supplémentaires sur le paramètre inconnu x, par exemple : x est proche de µ, c est à dire qu on introduit une information a priori on peut formaliser la prise en compte de cette information supplémentaire en considérant le problème d optimisation suivant min x R m { 1 2 n Y k Hx (x µ) Σ 1 (x µ) } k=1 où Σ est une matrice symétrique définie positive, de dimension m 12/ 110
13 les conditions d optimalité du premier ordre pour la minimisation par rapport à x R m du critère s écrivent 1 2 n Y k Hx (x µ) Σ 1 (x µ) k=1 = 1 2 H ( n n Y k 2 x H ( Y k )+n 1 2 x H Hx k=1 k= µ Σ 1 µ x Σ 1 µ+ 1 2 x Σ 1 x n Y k )+Σ 1 µ = (nh H +Σ 1 )x k=1 = (H H + 1 n Σ 1 )x = H ( 1 n n Y k )+ 1 n Σ 1 µ k=1 13/ 110
14 en utilisant le lemme d inversion matricielle (à venir), on obtient (H H + 1 n Σ 1 ) 1 = nσ nσh (HΣH + 1 n I) 1 HΣ on en déduit que (H H + 1 n Σ 1 ) 1 H = ΣH (HΣH + 1 n I) 1 et (H H + 1 n Σ 1 ) 1 1 n Σ 1 = I ΣH (HΣH + 1 n I) 1 H ce qui donne la solution unique suivante x n = ΣH (HΣH + 1 n I) 1 ( 1 n Y k )+[I ΣH (HΣH + 1 n n I) 1 H]µ k=1 on vérifie que x n = ΣH (HΣH + 1 n I) 1 Hx 0 +[I ΣH (HΣH + 1 n I) 1 H]µ n Vk ) +ΣH (HΣH + 1 n I) 1 ( 1 n 14/ 110
15 et à la limite quand le nombre n d observations tend vers l infini, l estimateur x n converge vers la valeur on vérifie que x = ΣH (HΣH ) 1 Hx 0 +[I ΣH (HΣH ) 1 H]µ Hx = Hx 0, c est à dire que x appartient au sous espace affine I(x 0 ), et on peut montrer qu il s agit du point projeté orthogonal (pour le produit scalaire associé à la matrice Σ 1 ) du point µ sur le sous espace affine I(x 0 ), solution du problème d optimisation min x I(x 0 ) c est à dire du problème d optimisation { 1 2 (x µ) Σ 1 (x µ) } { min 1 x R m 2 (x µ) Σ 1 (x µ) } sous la contrainte Hx = Hx 0 en d autres termes, l accumulation des observations permet d apprendre le sous espace affine I(x 0 ), et l information a priori permet de choisir un point particulier dans ce sous espace 15/ 110
16 approche variationnelle pour lever l indétermination ou l incohérence temporelle : introduire des informations supplémentaires sur la suite cachée, sous la forme de fonctions de coût portant sur l état initial et sur les transitions entre deux états successifs par exemple, le critère à minimiser par rapport à la suite x 0:n = (x 0,x 1,,x n ) J(x 0:n ) = c 0 (x 0 )+ n c k (x k 1,x k )+ k=1 n d k (x k ) k=0 combine des fonctions de coût qui représentent une information a priori sur la suite recherchée un terme d attache aux données, par exemple de la forme d k (x) = 1 2 Y k h k (x) 2 avec l intreprétation que la suite recherchée doit vérifier à chaque instant l équation d observation en un sens approché ou qui peuvent juste représenter une contrainte (ou une propriété) que la suite recherchée devrait vérifier (ou posséder) 16/ 110
17 typiquement, l information a priori est représentée par c 0 (x) = 1 2 x µ 2 et c k (x,x ) = 1 2 x f k (x) 2 avec l interprétation que l état initial x 0 recherché doit être proche de µ la transition (x k 1,x k ) recherchée doit vérifier l équation x k = f k (x k 1 ) en un sens approché cette régularisation (du point de vue de l optimisation) peut s interpréter comme l ajout d une information a priori (du point de vue de l estimation statistique) 17/ 110
18 plus généralement, on peut représenter l information a priori par c 0 (x) = logp 0 (x) et c k (x,x ) = logp k (x x) et minimiser le critère J(x 0:n ) = logp 0 (x 0 ) n logp k (x k x k 1 )+ k=1 n d k (x k ) revient alors à maximiser (estimateur MAP (maximum a posteriori)) exp{ J(x 0:n )} = p 0 (x 0 ) n p k (x k x k 1 ) exp{ k=1 } {{ } p 0:n (x 0:n ) k=0 n d k (x k )} où p 0:n (x 0:n ) représente la densité de probabilité conjointe des états successifs X 0:n = (X 0,X 1,,X n ) de la chaîne de Markov caractérisée par la densité de probabilité initiale p 0 (x 0 ) et les densités de probabilité de transition p k (x x) k=0 18/ 110
19 approche statistique avec un point de vue pragmatique : au lieu de rechercher un maximum de la densité a posteriori, on choisit d échantillonner cette densité, ce qui permet par exemple de calculer des espérances (ou des intégrales) du type f(x 0:n ) exp{ J(x 0:n )} dx 0:n E E = E E f(x 0:n ) exp{ = E[f(X 0:n ) exp{ n d k (x k )} p 0:n (x 0:n ) dx 0:n k=0 n d k (X k )}] on verra comment résoudre ce problème de manière approchée, en simulant des échantillons de variables aléatoires distribuées (approximativement) selon la distribution de Gibbs Boltzmann trajectorielle définie ci dessus k=0 lien entre les deux approches : méthode asymptotique de Laplace 19/ 110
20 Résumé nécessité / utilité d un modèle a priori pour compléter l information apportée par les observations pour faire le lien entre des observations reçues à des instants différents (compte tenu que le mobile...s est déplacé entre ces instants) ce modèle peut être rustique ou grossier, et il est souvent bruité (on accepte l idée que le modèle est nécessairement faux, et on essaye de quantifier, de manière statistique, l erreur de modélisation) 20/ 110
21 Modèles modèle (du plus simple au plus général) modèle d état (espace d état continu R m ) linéaire, bruits gaussiens non linéaire, bruits gaussiens modèle d état général : non linéaire, bruits non gaussiens modèle de Markov caché (HMM), et extensions modèle de Markov caché (état caché markovien, observations indépendantes / markoviennes conditionnellement aux états cachés) chaîne de Markov partiellement observée (états cachés et observations conjointement markoviens) 21/ 110
22 espace d état général fini, dénombrable espace euclidien, variété hybride continu / discret avec contraintes graphe (collection de nœuds et d arêtes) 22/ 110
23 Exploitation du modèle a priori approche bayésienne, fusion d information : loi a posteriori obtenue en combinant loi a priori (modèle d état) vraisemblance (adéquation entre mesures et états) mise en œuvre récursive grâce à la propriété de Markov principe général : à l aide de la formule de Bayes, la loi conditionnelle de X 0:n sachant Y 0:n s exprime à partir de la loi de X 0:n la loi conditionnelle de Y 0:n sachant X 0:n, souvent facile à évaluer par exemple dans le modèle additif Y k = h k (X k )+V k 23/ 110
24 en principe, la loi conditionnelle de X n sachant Y 0:n s obtient facilement par marginalisation en pratique, cette loi conditionnelle n a d expression explicite que dans certains cas particuliers chaîne de Markov à espace d état fini modèle linéaire gaussien d où l intérêt pour les méthodes de simulation de type Monte Carlo dans le cas général : le filtrage particulaire offre une manière numériquement efficace de mettre en œuvre les méthodes bayésiennes 24/ 110
25 Introduction au filtrage Estimation bayésienne estimation bayésienne borne de Cramér Rao a posteriori cadre gaussien Systèmes linéaires gaussiens Extensions aux systèmes non linéaires 25/ 110
26 Estimation bayésienne soit Z = (X,Y) à valeurs dans E F (par exemple E = R m, F = R d ) de loi jointe connue (par exemple donnée par une densité p(x,y)) objectif : exploiter au mieux l observation de Y pour améliorer la connaissance de la composante cachée X un estimateur ψ de la statistique φ = φ(x) à valeurs dans R p est une application définie sur F, à valeurs dans R p mesure de l écart entre ψ(y) et φ(x) : erreur quadratique moyenne E ψ(y) φ(x) 2 trace de la matrice de corrélation de l erreur d estimation E[(ψ(Y) φ(x))(ψ(y) φ(x)) ] symétrique semi définie positive, de dimension p p 26/ 110
27 estimateur MMSE (minimum mean square error) : estimateur φ tel que E[( φ(y) φ(x))( φ(y) φ(x)) ] E[(ψ(Y) φ(x))(ψ(y) φ(x)) ] pour tout autre estimateur ψ, au sens des matrices symétriques a fortiori E φ(y) φ(x) 2 E ψ(y) φ(x) 2 pour tout autre estimateur ψ Proposition l estimateur MMSE de la statistique φ = φ(x) au vu de l observation Y est la moyenne conditionnelle de φ(x) sachant Y φ(y) = E[φ(X) Y] = φ(x) P[X dx Y] E 27/ 110
28 Preuve pour un estimateur ψ quelconque ψ(y) φ(x) = φ(y) φ(x)+ψ(y) φ(y) entraîne E[(ψ(Y) φ(x))(ψ(y) φ(x)) ] = E[( φ(y) φ(x))( φ(y) φ(x)) ] +E[(ψ(Y) φ(y))(ψ(y) φ(y)) ] +E[( φ(y) φ(x))(ψ(y) φ(y)) ]+( ) si les deux produits croisés sont nuls, alors E[(ψ(Y) φ(x))(ψ(y) φ(x)) ] E[( φ(y) φ(x))( φ(y) φ(x)) ] au sens des matrices symétriques, avec égalité pour ψ(y) = φ(y) 28/ 110
29 il reste à vérifier que E[( φ(y) φ(x))(ψ(y) φ(y)) ] = E[E[ φ(y) φ(x) Y](ψ(Y) φ(y)) ] = E[( φ(y) E[φ(X) Y])(ψ(Y) φ(y)) ] = 0 par définition de φ(y) = E[φ(X) Y] pros : solution universelle (la loi conditionnelle de X sachant Y permet de construire l estimateur MMSE de n importe quelle statistique φ = φ(x)) cons : solution infini dimensionnelle (distribution ou densité de probabilité) 29/ 110
30 Borne de Cramér Rao a posteriori l erreur quadratique moyenne associée à l estimateur bayésien fournit une borne inférieure, atteinte (par l estimateur bayésien) mais souvent difficile à évaluer la borne de Cramér Rao a posteriori (différente de la borne paramétrique) est plus facilement calculable mais pas nécessairement atteinte hypothèse : la loi jointe de Z = (X,Y) possède une densité (assez régulière) sur R m F P[X dx,y dy] = p(x,y)dx λ(dy) obtenue souvent grâce à la factorisation (formule de Bayes) p(x,y) = p(x y)p(y) = p(y x)p(x) et cette densité vérifie 2 R m F x2p(x,y) λ(dy)dx = p (x)dx = 0 R m 30/ 110
31 on définit le biais de l estimateur ψ comme b(ψ,x) = E[ψ(Y) X = x] φ(x) = (ψ(y) φ(x))p(y x) λ(dy) Théorème si la matrice d information de Fisher F J = E[ 2 x 2 logp(x,y)] est inversible, alors matrice de dimension m m avec E[(ψ(Y) φ(x))(ψ(y) φ(x)) ] MJ 1 M M = E[φ (X)] matrice de dimension p m pour tout estimateur ψ tel que R m (b(ψ,x)p(x)) dx = 0 31/ 110
32 Preuve par définition b(ψ,x)p(x) = (ψ(y) φ(x))p(x,y) λ(dy) F et la matrice jacobienne (de dimension p m) associée vérifie (b(ψ,x)p(x)) = φ (x) F = φ (x)p(x)+ p(x,y) λ(dy)+ (ψ(y) φ(x)) p(x,y) λ(dy) F x (ψ(y) φ(x)) logp(x,y) p(x,y) λ(dy) x F en intégrant par rapport à la variable x R m et avec l hypothèse, il vient φ (x)p(x)dx + (ψ(y) φ(x)) logp(x,y) p(x,y) λ(dy)dx R m x R m F = E[φ (X)]+E[(ψ(Y) φ(x)) x logp(x,y)] = 0 32/110
33 c est à dire que E[(ψ(Y) φ(x)) x logp(x,y)] = M d autre part, il résulte de l identité 2 x 2 logp(x,y) = 1 p(x,y) entre matrices de dimension m m, que 2 x 2p(x,y) ( x logp(x,y)) x logp(x,y) E[( x logp(x,y)) x logp(x,y)] = et par hypothèse R m F 2 2 x2p(x,y) λ(dy)dx E[ x 2 logp(x,y)] E[( x logp(x,y)) x logp(x,y)] = J 33/ 110
34 on introduit ensuite le vecteur aléatoire (de dimension p + m) ψ(y) φ(x) ( ) ( C M et sa matrice de covariance M J x logp(x,y)) compte tenu que cette matrice est symétrique semi définie positive, on vérifie que pour tout vecteur u R p ( u (J 0 1 M u) ) ( ) ( ) C M u M J J 1 M u ( u (J = 1 M u) ) ( ) (C MJ 1 M )u 0 = u (C MJ 1 M )u c est à dire que le complément de Schur = C MJ 1 M est également une matrice symétrique semi définie positive, d où C MJ 1 M 34/ 110
35 Utilisation pratique pour évaluer à l avance la performance d un estimateur donné ψ(y) de la variable cachée X au vu de l observation Y, on réalise M simulations indépendantes (X j,y j ) pour tout j = 1 M on évalue empiriquement la matrice de corrélation des erreurs d estimation E[(ψ(Y) X) (ψ(y) X) ] 1 M (ψ(y j ) X j ) (ψ(y j ) X j ) M pour avoir une idée de la performance, et on compare avec la borne J 1 pour avoir une idée de la marge d amélioration possible pour calculer la matrice d information de Fisher J intervenant dans la borne, on évalue empiriquement la matrice J = E[ 2 x 2 logp(x,y)] 1 M 2 M x 2 logp(xj,y j ) j=1 j=1 35/ 110
36 Remarque borne calculable à l avance, pas de connaissance nécessaire de la vraie valeur (qui n existe d ailleurs pas dans le cadre bayésien) moyenne sur toutes les réalisations possibles de l observation et de la composante cachée conjointement par contraste, dans la borne de Cramér Rao paramétrique (vs. borne de Cramér Rao a posteriori) il n y a pas de loi a priori sur la composante cachée θ Théorème si la matrice d information de Fisher J(θ) = E[ 2 logp(y θ) θ] θ2 matrice de dimension m m est inversible, alors E[(ψ(Y) φ(θ))(ψ(y) φ(θ)) θ] φ (θ)j 1 (θ)(φ (θ)) pour tout estimateur ψ sans biais, c est à dire tel que E[ψ(Y) θ] = φ(θ) 36/ 110
37 Remarque décomposition loi jointe = loi conditionnelle loi marginale p(x,y) = p(x y)p(y) = p(y x)p(x) d où les expressions équivalentes suivantes J = E[ 2 x 2 logp(x,y)] = E[ 2 logp(x Y)] x2 = E[ 2 2 logp(y X)] E[ x2 x 2 logp(x)] = E[ E[ 2 logp(y X) X] ] E[ 2 x2 }{{} x 2 logp(x)] J(X) 37/ 110
38 Exemple soit X et V deux vecteurs aléatoires gaussiens indépendants de moyenne X et 0, de matrice de covariance Q X et Q V, et on pose Y = h(x)+v si Q X et Q V sont inversibles, alors p(y x) exp{ 1 2 (y h(x)) Q 1 V (y h(x))} d où p(x) exp{ 1 2 (x X) Q 1 X (x X)} logp(x,y) = 1 2 (y h(x)) Q 1 V (y h(x))+1 2 (x X) Q 1 X (x X)+cste 2 x 2 logp(x,y) = (h (x)) Q 1 V h (x) (y h(x)) Q 1 et la matrice d information de Fisher J = E[ 2 x 2 logp(x,y)] = E[(h (X)) Q 1 V h (X)] E[V Q 1 V h (x)+q 1 X V h (X)] +Q 1 X } {{ } 0 38/ 110
39 dans le cas particulier où h(x) = Hx J = H Q 1 V H+Q 1 X et J 1 = Q X Q X H (HQ X H +Q V ) 1 HQ X repose sur le lemme d inversion matricielle suivant Lemme soit Q et R deux matrices symétriques définies positives, de dimension m et d respectivement, et soit H une matrice d m, alors (H R 1 H +Q 1 ) 1 = Q QH (HQH +R) 1 HQ Remarque cette formule d inversion permet de remplacer l inversion de la matrice (H R 1 H +Q 1 ) de dimension m, par l inversion de la matrice (HQH +R) de dimension d, avec en général d m 39/ 110
40 Preuve on remarque d abord que HQH +R R et H R 1 H +Q 1 Q 1 au sens des matrices symétriques, ce qui prouve que les matrices (HQH +R) et (H R 1 H +Q 1 ) sont inversibles 40/ 110
41 on vérifie alors que [Q QH (HQH +R) 1 HQ] [H R 1 H +Q 1 ] = QH R 1 H +I QH (HQH +R) 1 (HQH +R R)R 1 H QH (HQH +R) 1 H = QH R 1 H +I QH R 1 H +QH (HQH +R) 1 H QH (HQH +R) 1 H = I 41/ 110
42 Cadre gaussien estimateur MMSE dans le cas gaussien soit Z = (X,Y) vecteur aléatoire gaussien à valeurs dans ( R m R d de ) moyenne Z = ( X,Ȳ), de matrice de covariance Q QX Q Z = XY Q YX Proposition la loi conditionnelle de X sachant Y est gaussienne, de moyenne X(Y) et de matrice de covariance R (ne dépendant pas de Y), et si la matrice de covariance Q Y est inversible, alors X(Y) = X +Q XY Q 1 Y (Y Ȳ) Q Y et 0 R = Q X Q XY Q 1 Y Q YX Q X complément de Schur de la matrice Q Y dans la matrice bloc Q Z 42/ 110
43 Remarque on vérifie que 0 R Q X au sens des matrices symétriques, c est à dire que l utilisation de l information supplémentaire (Y = y), ne peut que réduire l incertitude que l on a sur le vecteur aléatoire X la majoration R Q X est évidente, et la minoration R 0 résulte de l identité ( u (Q 1 Y Q YX u) ) Q X Q XY u 0 = Q YX Q Y Q 1 ( u (Q 1 Y Q YX u) ) (Q X Q XY Q 1 Y Q YX)u = u R u 0 Y Q YX u pour tout vecteur u R m, ce qui permet de conclure que R 0 43/ 110
44 Remarque la matrice R ne dépend pas de y, et peut donc être calculée avant même de disposer de la valeur y prise par l observation Y Remarque soit X = X(Y) l estimateur MMSE de X sachant Y compte tenu que X = X +Q XY Q 1 Y (Y Ȳ) dépend de façon affine du vecteur aléatoire Y, on en déduit que (X, X,Y) est un vecteur aléatoire gaussien, comme transformation affine du vecteur aléatoire gaussien Z = (X,Y) 44/ 110
45 Remarque si Y = (Y,Y ) où les composantes Y et Y sont indépendantes X Q X Q XY Q XY Z = Ȳ et Q Z = Q Y X Q Y 0 Ȳ Q Y X 0 Q Y et si les matrices Q Y et Q Y sont inversibles, alors la distribution de probabilité conditionnelle du vecteur aléatoire X sachant Y = y, avec y = (y,y ), est une distribution de probabilité gaussienne de moyenne X(y) = X +Q XY Q 1 Y (y Ȳ) ( ) ( = X QXY Q + XY QY 0 0 Q Y ) 1 ( y Ȳ y Ȳ = X +Q XY Q 1 Y (y Ȳ )+Q XY Q 1 Y (y Ȳ ) ) 45/ 110
46 et de matrice de covariance R = Q X Q XY Q 1 Y Q YX ( ) ( ) 1 ( ) QXY Q = Q X XY QY 0 QY X 0 Q Y = Q X Q XY Q 1 Y Q Y X Q XY Q 1 Y Q Y X Q Y X 46/ 110
47 Preuve de la Proposition on pose Ξ = X Q XY Q 1 Y Y, et on vérifie que le vecteur aléatoire (Ξ, Y) est gaussien, comme transformation affine du vecteur aléatoire gaussien Z = (X,Y) on vérifie que Ξ = E[Ξ] = X Q XY Q 1 Y Ȳ et par différence Ξ Ξ = (X X) Q XY Q 1 Y (Y Ȳ) 47/ 110
48 on en déduit facilement la matrice de covariance Q Ξ = E[(Ξ Ξ) (Ξ Ξ) ] = E[((X X) Q XY Q 1 Y (Y Ȳ)) ((X X) Q XY Q 1 Y (Y Ȳ)) ] = E[(X X) (X X) ] E[(X X) (Y Ȳ) ] Q 1 Y Q YX Q XY Q 1 Y E[(Y Ȳ) (X X) ] +Q XY Q 1 Y E[(Y Ȳ) (Y Ȳ) ] Q 1 Y Q YX = Q X Q XY Q 1 Y Q YX = R et la matrice de corrélation Q ΞY = E[(Ξ Ξ) (Y Ȳ) ] = E[((X X) Q XY Q 1 Y (Y Ȳ)) (Y Ȳ) ] = E[(X X) (Y Ȳ) ] Q XY Q 1 Y E[(Y Ȳ) (Y Ȳ) ] = 0 48/ 110
49 en particulier, les vecteurs aléatoires gaussiens Ξ et Y sont décorrélés, donc indépendants il suffit alors d exprimer la fonction caractéristique de la distribution de probabilité conditionnelle du vecteur aléatoire X = Ξ+Q XY Q 1 Y Y sachant Y, soit E[exp{i u X} Y] = E[exp{i u (Ξ+Q XY Q 1 Y Y)} Y] = exp{i u Q XY Q 1 Y Y} E[exp{i u Ξ}] = exp{i u Q XY Q 1 Y Y} exp{i u ( X Q XY Q 1 Y Ȳ) 1 2 u R u} = exp{i u ( X +Q XY Q 1 Y (Y Ȳ)) 1 2 u R u} = exp{i u X(Y) 1 2 u R u} on reconnait la fonction caractéristique d un vecteur aléatoire gaussien de moyenne X(Y) et de matrice de covariance R 49/ 110
50 Exemple soit X et V deux vecteurs aléatoires gaussiens indépendants de moyenne X et 0, de matrice de covariance Q X et Q V, et on pose Y = HX +V alors Z = (X,Y) vecteur aléatoire gaussien à valeurs dans R m R d de moyenne ( Z = ( X,H X), de matrice de covariance QX Q X H ) Q Z = HQ X HQ X H +Q V si Q V est inversible, alors a fortiori HQ X H +Q V est inversible, et et X(Y) = X +Q X H (HQ X H +Q V ) 1 (Y H X) 0 R = Q X Q X H (HQ X H +Q V ) 1 HQ X Q X complément de Schur de la matrice HQ X H +Q V dans la matrice bloc Q Z si de plus Q X est inversible, alors (lemme d inversion matricielle) R = (H Q 1 X H +Q 1 V ) 1 = J 1 50/ 110
51 la moyenne conditionnelle X(Y) est l estimateur MMSE de X sachant Y, donc pour tout estimateur ψ on a E[(ψ(Y) X)(ψ(Y) X) ] E[( X(Y) X)( X(Y) X) ] = R J 1 i.e. la borne de Cramér Rao a posteriori J 1 est atteinte dans le cas gaussien Remarque autre démonstration de J 1 = R p(x y) exp{ 1 2 (x X(y)) R 1 (x X(y))} d où logp(x y) = 1 2 (x X(y)) R 1 (x X(y))+cste 2 logp(x y) = R 1 x2 et la matrice d information de Fisher J = E[ 2 logp(x Y)] = R 1 x2 51/ 110
52 Introduction au filtrage Estimation bayésienne Systèmes linéaires gaussiens systèmes linéaires gaussiens filtre de Kalman illustration lisseur de Kalman Extensions aux systèmes non linéaires 52/ 110
53 Systèmes linéaires gaussiens suite d états cachés {X k } à valeurs dans R m, vérifiant X k = F k X k 1 +f k +W k et suite d observations {Y k } à valeurs dans R d, vérifiant hypothèses : Y k = H k X k +h k +V k état initial X 0 gaussien, de moyenne X 0 et de matrice de covariance Q X 0 bruit d état {W k } blanc gaussien, de matrice de covariance Q W k bruit d observation {V k } blanc gaussien, de matrice de covariance Q V k suites {W k } et {V k } et état initial X 0 mutuellement indépendants 53/ 110
54 interprétation du modèle a priori X k = F k X k 1 +f k +W k en terme de propagation des incertitudes même si l état X k 1 = x est connu exactement à l instant (k 1), on peut seulement dire que l état X k à l instant k est incertain, et distribué comme un vecteur aléatoire gaussien, de moyenne F k x +f k et de matrice de covariance Qk W si l état X k 1 est incertain à l instant (k 1), et distribué comme un vecteur aléatoire gaussien, de moyenne X k 1 et de matrice de covariance Qk 1 X, alors cette incertitude se propage à l instant k : même en absence de bruit, l état X k à l instant k est incertain, et distribué comme un vecteur aléatoire gaussien, de moyenne F k Xk 1 +f k et de matrice de covariance F k Qk 1 X F k 54/ 110
55 Proposition la suite {Z k = (X k,y k )} est un processus aléatoire gaussien Preuve pour tout instant n, le vecteur aléatoire (Z 0,Z 1,,Z n ) peut s exprimer comme transformation affine du vecteur aléatoire (X 0,W 1,,W n,v 0,V 1,,V n ) qui par hypothèse est un vecteur aléatoire gaussien, donc le vecteur aléatoire (Z 0,Z 1,,Z n ) est gaussien, comme transformation affine d un vecteur aléatoire gaussien 55/ 110
56 Résumé on rappelle qu il s agit d estimer de façon optimale et récursive, le vecteur aléatoire X k à partir de Y 0:k = (Y 0,,Y k ), dans le modèle X k = F k X k 1 +f k +W k Y k = H k X k +h k +V k si on adopte le critère MMSE, alors il s agit de calculer la distribution de probabilité conditionnelle du vecteur aléatoire X k sachant Y 0:k, et comme le cadre est gaussien, il suffit de calculer la moyenne et la matrice de covariance déterministe X k = E[X k Y 0:k ] et P k = E[(X k X k ) (X k X k ) ] on définit également les quantités suivantes X k = E[X k Y 0:k 1 ] et P k = E[(X k X k ) (X k X k ) ] 56/ 110
57 en revanche, le calcul direct à partir des formules de conditionnement dans les vecteurs aléatoires gaussiens est de taille croissante non récursif 57/ 110
58 Filtre de Kalman supposons connue la distribution de probabilité conditionnelle du vecteur aléatoire X k 1 sachant Y 0:k 1 : pour calculer la distribution de probabilité conditionnelle du vecteur aléatoire X k sachant Y 0:k, on procède en deux étapes dans l étape de prédiction, on calcule la distribution de probabilité conditionnelle du vecteur aléatoire X k sachant les observations passées Y 0:k 1, ce qui est facile à partir de l équation d état dans l étape de correction, on utilise la nouvelle observation Y k, et particulièrement la composante de l observation Y k qui apporte une information nouvelle par rapport aux observations passées Y 0:k 1, c est à dire I k = Y k E[Y k Y 0:k 1 ] d après l équation d observation, on a I k = Y k (H k E[X k Y 0:k 1 ]+h k +E[V k Y 0:k 1 ]) = Y k (H k X k +h k) où on a utilisé l indépendance de V k et de Y 0:k 1 58/110
59 et indépendant de Y 0:k 1 59/110 Remarque par définition, toute fonction des variables (Y 0,,Y k 1,Y k ) peut s exprimer en fonction des variables (Y 0,,Y k 1,I k ), et réciproquement on en déduit que (Y 0:k 1,I k ) contient exactement la même information que Y 0:k Lemme la suite {I k } est un processus gaussien, appelé processus d innovation en particulier, le v.a. I k est gaussien, de moyenne nulle et de matrice de covariance Q I k = H k P k H k +Q V k et indépendant de Y 0:k 1 plus généralement, le v.a. (X k X k,i k) est gaussien, de moyenne nulle et de matrice de covariance ( P k P ) k H k H k P k H k P k H k +QV k
60 Preuve d après la théorie du conditionnement dans les v.a. gaussiens, l observation prédite E[Y k Y 0:k 1 ] dépend de façon affine des observations passées (Y 0,Y 1,,Y k 1 ), et donc l innovation I k dépend de façon affine des observations (Y 0,Y 1,,Y k ) on en déduit que le v.a. (I 0,I 1,,I k ) est gaussien, comme transformation affine du v.a. gaussien (Y 0,Y 1,,Y k ) toujours d après la théorie du conditionnement dans les v.a. gaussiens, l état prédit X k = E[X k Y 0:k 1 ] dépend de façon affine des observations passées (Y 0,Y 1,,Y k 1 ) on en déduit que le v.a. (Y 0,Y 1,,Y k 1,X k X k,i k) est gaussien et en particulier le v.a. (X k X k,i k) est gaussien comme transformation affine d un v.a. gaussien, et compte tenu que E[X k X k Y 0:k 1] = 0 et E[I k Y 0:k 1 ] = 0 par définition, le v.a. (X k X k,i k) est indépendant de Y 0:k 1 60/ 110
61 d après l équation d observation, on a et on en déduit que I k = Y k (H k X k +h k) = H k (X k X k )+V k Q I k = E[I k I k] = E[(H k (X k X k )+V k) (H k (X k X k )+V k) ] = H k E[(X k X k ) (X k X k ) ] H k +E[V k V k ] +E[V k (X k X k ) ] H k +H k E[(X k X k )V k ] = H k P k H k +Q V k où on a utilisé dans la dernière égalité, l indépendance de (X k X k ) et de V k, donc E[(X k X k )V k ] = 0 61/ 110
62 on a également E[(X k X k ) I k] = E[(X k X k ) (H k (X k X k )+V k) ] = E[(X k X k )(X k X k ) ] H k +E[(X k X k )V k ] = P k H k où on a utilisé dans la dernière égalité, l indépendance de (X k X k ) et de V k, donc E[(X k X k )V k ] = 0 62/ 110
63 Théorème [Filtre de Kalman] on suppose que la matrice de covariance Qk V est inversible, pour tout instant k alors les suites { X k } et {P k } sont définies par les équations suivantes X k = F k Xk 1 +f k et où la matrice P k = F k P k 1 F k +Q W k X k = X k +K k [Y k (H k X k +h k)] P k = [I K k H k ] P k K k = P k H k [H k P k H k +Q V k ] 1 est appelée gain de Kalman, avec les initialisations X 0 = X 0 = E[X 0 ] et P 0 = QX 0 = cov(x 0 ) 63/ 110
64 Remarque la suite {P k } ne dépend pas des observations : elle peut donc être pré calculée Remarque si les coefficients F k et f k dans l équation d état et les coefficients H k et h k dans l équation d observation dépendent des observations passées Y 0:k 1, alors la suite {Z k = (X k,y k )}, et a fortiori la suite {X k }, n est plus gaussienne, mais conditionnellement à Y 0:k 1 le couple (X k,y k ) est gaussien on dit que la suite {X k } est conditionnellement gaussienne, et on vérifie que la distribution de probabilité conditionnelle du v.a. X k sachant Y 0:k est gaussienne, de moyenne X k et de matrice de covariance P k données encore par les équations du Théorème 64/ 110
65 Preuve on procède en plusieurs étapes, en s appuyant sur la théorie du conditionnement dans les v.a. gaussiens initialisation expression de X 0 et P 0 en fonction de X 0 et P 0 le v.a. (X 0,Y 0 ) est gaussien, de moyenne et de matrice de covariance données par X 0 H 0 X 0 +h 0 et ( P 0 P 0 H 0 H 0 P 0 H 0 P 0 H 0 +QV 0 ) on en déduit que la distribution de probabilité conditionnelle du v.a. X 0 sachant Y 0 est gaussienne, de moyenne X 0 = X 0 +P 0 H 0 [H 0 P 0 H 0 +Q V 0 ] 1 [Y 0 (H 0 X 0 +h 0)] et de matrice de covariance déterministe P 0 = P 0 P 0 H 0 [H 0 P 0 H 0 +Q V 0 ] 1 H 0 P 0 65/ 110
66 étape de prédiction expression de X k et P k en fonction de X k 1 et P k 1 le v.a. (X k,y 0,,Y k 1 ) est gaussien, de sorte que la distribution de probabilité conditionnelle du v.a. X k sachant Y 0:k 1 est gaussienne, de moyenne X k et de matrice de covariance P k d après l équation d état on a X k = F k X k 1 +f k +W k X k = E[X k Y 0:k 1 ] = F k E[X k 1 Y 0:k 1 ]+f k +E[W k Y 0:k 1 ] = F k Xk 1 +f k compte tenu que W k et Y 0:k 1 sont indépendants par différence X k X k = F k (X k 1 X k 1 )+W k 66/ 110
67 on en déduit que P k = E[(X k X k ) (X k X k ) ] = E[(F k (X k 1 X k 1 )+W k ) (F k (X k 1 X k 1 )+W k ) ] = F k E[(X k 1 X k 1 ) (X k 1 X k 1 ) ] Fk +E[W k Wk ] +E[W k (X k 1 X k 1 ) ] Fk +F k E[(X k 1 X k 1 )Wk ] = F k P k 1 F k +Q W k où on a utilisé dans la dernière égalité, l indépendance de (X k 1 X k 1 ) et de W k, donc E[(X k 1 X k 1 )W k ] = 0 67/ 110
68 étape de correction expression de X k et P k en fonction de X k et P k le v.a. (X k,y 0,,Y k ) est gaussien, de sorte que la distribution de probabilité conditionnelle du v.a. X k sachant Y 0:k est gaussienne, de moyenne X k et de matrice de covariance déterministe P k compte tenu de l indépendance entre I k et Y 0:k 1, on a par différence X k = E[X k Y 0:k ] = X k +E[X k X k Y 0:k] = X k +E[X k X k Y 0:k 1,I k ] = X k +E[X k X k I k] X k X k = (X k X k ) ( X k X k ) = (X k X k ) E[X k X k I k] 68/ 110
69 de sorte que P k = E[(X k X k ) (X k X k ) ] = E[((X k X k ) E[X k X k I k]) ((X k X k ) E[X k X k I k]) ] il suffit donc de calculer la moyenne conditionnelle et la matrice de covariance conditionnelle du v.a. (X k X k ) sachant I k, or le v.a. (X k X k,i k) est gaussien, de moyenne nulle et de matrice de covariance ( P k P ) k H k H k P k H k P k H k +QV k si la matrice Qk V est inversible, alors a fortiori la matrice Qk I = H k P k H k +QV k est inversible, et on en déduit que X k = X k +P k H k [H k P k H k +Q V k ] 1 I k et P k = P k P k H k [H k P k H k +Q V k ] 1 H k P k 69/ 110
70 Lisseur de Kalman il s agit estimer l état caché X k pour un instant k, intermédiaire entre l instant initial 0 et l instant final n, au vu de toutes les observations Y 0:n = (Y 0,,Y n ) si on adopte le critère MMSE, alors il s agit de calculer la distribution de probabilité conditionnelle du vecteur aléatoire X k sachant Y 0:n, et comme le cadre est gaussien, il suffit de calculer la moyenne et la matrice de covariance déterministe X n k = E[X k Y 0:n ] et P n k = E[(X k X n k) (X k X n k) ] clairement, X n n = X n et P n n = P n pour k = n 76/ 110
71 Théorème [Lisseur de Kalman] on suppose que les matrices de covariance Qk V et QW k sont inversibles, pour tout instant k alors { X k n} et {Pn k } sont définis par les équations rétrogrades suivantes X n k 1 = X k 1 +L k ( X n k X k ) Pk 1 n = P k 1 L k (P k Pn k) L k avec la matrice de gain L k = P k 1 Fk (P k ) 1 et avec les initialisations X n n = X n et Pn n = P n Remarque si la matrice de covariance Q W k est inversible, alors a fortiori la matrice de covariance P k = F k P k 1 F k +QW k est inversible 77/ 110
72 Preuve on remarque que le v.a. Y k = H k X k +h k +V k peut s exprimer comme transformation affine du v.a. (X k,v k ), et donc a fortiori comme transformation affine du v.a. (Y 0:k 1,X k X k,v k) de même, le v.a. Y k+p = H k+p X k+p +h k+p +V k+p peut s exprimer comme transformation affine du v.a. (X k+p,v k+p ), et par transitivité comme transformation affine du v.a. (X k,w k+1,,w k+p,v k+p ), et donc a fortiori comme transformation affine du v.a. (Y 0:k 1,X k X k,w k+1,,w k+p,v k+p ) on en déduit que le v.a. Y 0:n = (Y 0:k 1,Y k,,y n ) peut s exprimer comme transformation affine du v.a. (Y 0:k 1,X k X k,z k+1:n) où Z k+1:n = (W k+1,,w n,v k,v k+1,,v n ) par définition et on vérifie que les v.a. Y 0:k 1, X k X k et Z k+1:n sont mutuellement indépendants 78/ 110
73 il en résulte que U n k 1 = E[X k 1 Y 0:k 1,X k X k,z k+1:n] = X k 1 +E[X k 1 X k 1 Y 0:k 1,X k X k,z k+1:n] = X k 1 +E[X k 1 X k 1 Y 0:k 1 ]+E[X k 1 X k 1 X k X k ] +E[X k 1 X k 1 Z k+1:n ] = X k 1 +E[X k 1 X k 1 X k X k ] compte tenu que E[X k 1 X k 1 Y 0:k 1 ] = 0 par définition, et où on a utilisé dans la dernière égalité le fait que (X k 1 X k 1 ) est indépendant de Z k+1:n, donc E[X k 1 X k 1 Z k+1:n ] = 0 par différence X k 1 U n k 1 = (X k 1 X k 1 ) (U n k 1 X k 1 ) = (X k 1 X k 1 ) E[X k 1 X k 1 X k X k ] 79/110
74 de sorte que E[(X k 1 U n k 1) (X k 1 U n k 1) ] = E[((X k 1 X k 1 ) E[X k 1 X k 1 X k X k ]) ((X k 1 X k 1 ) E[X k 1 X k 1 X k X k ]) ] il suffit donc de calculer la moyenne conditionnelle et la matrice de covariance conditionnelle du v.a. (X k 1 X k 1 ) sachant (X k X k ) d après la théorie du conditionnement dans les v.a. gaussiens, l état estimé X k 1 = E[X k 1 Y 0:k 1 ] et l état prédit X k = E[X k Y 0:k 1 ] dépendent de façon affine des observations passées (Y 0,,Y k 1 ), de sorte que le v.a. (X k 1 X k 1,X k X k ) dépend de façon affine du v.a. (Y 0,,Y k 1,X k 1,X k ) on en déduit que le v.a. (X k 1 X k 1,X k X k transformation affine d un v.a. gaussien ) est gaussien, comme 80/ 110
75 par différence X k X k = F k (X k 1 X k 1 )+G k W k de sorte que E[(X k 1 X k 1 )(X k X k ) ] = E[(X k 1 X k 1 )(F k (X k 1 X k 1 )+G k W k ) ] = E[(X k 1 X k 1 )(X k 1 X k 1 ) ] F k +E[(X k 1 X k 1 )W k ] G k = P k 1 F k dans cette dernière égalité, on a utilisé le fait que (X k 1 X k 1 ) et W k sont indépendants, donc E[(X k 1 X k 1 )W k ] = 0 on en déduit que le v.a. gaussien (X k 1 X k 1,X k X k moyenne nulle et de matrice de covariance ( Pk 1 P k 1 Fk ) ) est de F k P k 1 P k 81/ 110
76 par hypothèse, la matrice P k est inversible, et on en déduit que Uk 1 n = X k 1 +P k 1 Fk (P k ) 1 (X k X k ) = X k 1 +L k (X k X k ) et E[(X k 1 Uk 1) n (X k 1 Uk 1) n ] = P k 1 P k 1 Fk (P k ) 1 F k P k 1 = P k 1 L k P k L k on rappelle que (Y 0:k 1,X k X k,z k+1:n) contient davantage d information que Y 0:n, de sorte que X n k 1 = E[X k 1 Y 0:n ] = E[U n k 1 Y 0:n ] = X k 1 +L k ( X n k X k ) par différence X k 1 X n k 1 = (X k 1 U n k 1)+(U n k 1 X n k 1) et U n k 1 X n k 1 = L k (X k X n k) 82/ 110
77 de sorte que Pk 1 n = E[(X k 1 X k 1) n (X k 1 X k 1) n ] = E[((X k 1 Uk 1)+(U n k 1 n X k 1)) n ((X k 1 Uk 1)+(U n k 1 n X k 1)) n ] = E[(X k 1 Uk 1) n (X k 1 Uk 1) n ]+E[(Uk 1 n X k 1) n (Uk 1 n X k 1) n ] +E[(Uk 1 n X k 1) n (X k 1 Uk 1) n ] +E[(X k 1 Uk 1) n (Uk 1 n X k 1) n ] = (P k 1 L k P k L k)+l k Pk n L k dans cette dernière égalité, on a utilisé le fait que (Uk 1 n X k 1 n ) dépend de (Y 0:k 1,X k X k,z k+1:n) et E[X k 1 Uk 1 n Y 0:k 1,X k X k,z k+1:n] = 0 par définition donc E[(X k 1 U n k 1 ) (Un k 1 X n k 1 ) ] = 0 83/ 110
78 Introduction au filtrage Estimation bayésienne Systèmes linéaires gaussiens Extensions aux systèmes non linéaires borne de Cramér Rao a posteriori filtre de Kalman étendu (linéarisation) filtre de Kalman unscented (quadrature) 84/ 110
79 Borne de Cramér Rao a posteriori suite d états cachés {X k } à valeurs dans R m, vérifiant X k = b k (X k 1 )+σ k (X k 1 )W k et suite d observations {Y k } à valeurs dans R d, vérifiant hypothèses : Y k = h k (X k )+V k état initial X 0 pas nécessairement gaussien bruit d état {W k } blanc gaussien, de matrice de covariance Q W k bruit d observation {V k } blanc gaussien, de matrice de covariance Q V k suites {W k } et {V k } et état initial X 0 mutuellement indépendants fonctions b k, σ k et h k dérivables 85/ 110
80 si les matrices de covariance Σ k (x) = σ k (x)q W k (σ k (x)) sont inversibles pour tout x R m, alors il existe des densités de transition définies par P[X k dx X k 1 = x] = p k (x x)dx et si les matrices de covariance Qk V densités d émission définies par sont inversibles, alors il existe des clairement P[Y k dy X k = x] = q k (y x)dy p k (x x) = 1 exp{ 1 2 (x b k (x)) (Σ k (x)) 1 (x b k (x))} det(2πσ k (x)) et q k (y x) = 1 det(2πq Vk ) exp{ 1 2 (y h k(x)) (Q V k ) 1 (y h k (x))} 86/ 110
81 Théorème pour tout estimateur ψ(y 0:n ) de l état caché X n à partir des observations Y 0:n, l erreur quadratique moyenne est minorée par E[(ψ(Y 0:n ) X n ) (ψ(y 0:n ) X n ) ] J 1 n et la matrice d information de Fisher J n peut se calculer de la façon récursive suivante avec D k = E[ D k = E[ J k = D + k D k (J k 1 +D k ) 1 D k 2 x 2 k 1 logp k (X k X k 1 )] 2 x k 1 x k logp k (X k X k 1 )] D + k = E[ 2 xk 2 logp k (X k X k 1 )] E[ 2 xk 2 logq k (Y k X k )] 87/ 110
82 Remarque dans le cas particulier où les coefficients σ k (x) = I ne dépendent pas de x R m, et si les matrices de covariance Q W k et Q V k sont inversibles, alors D k = E[(b k(x k 1 )) (Q W k ) 1 b k(x k 1 )] D k = E[(b k(x k 1 )) ] (Q W k ) 1 D + k = (Q W k ) 1 +E[(h k(x k )) (Q V k ) 1 h k(x k )] 88/ 110
83 Utilisation pratique pour évaluer à l avance la performance d un estimateur donné ψ(y 0:n ) de l état caché X n au vu des observations Y 0:n = (Y 0,,Y n ), on réalise M simulations indépendantes X j n et Y j 0:n = (Yj 0,,Yj n) pour tout j = 1 M on évalue empiriquement l erreur quadratique moyenne E[(ψ(Y 0:n ) X n ) (ψ(y 0:n ) X n ) ] 1 M M (ψ(y j 0:n ) Xj n) (ψ(y j 0:n ) Xj n) j=1 pour avoir une idée de la performance, et on compare avec la borne J 1 n pour avoir une idée de la marge d amélioration possible 89/ 110
84 Calcul numérique approché pour calculer la matrice d information de Fisher J n intervenant dans la borne, on réalise M simulations indépendantes X j 0:n = (Xj 0,,Xj n) pour tout j = 1 M on évalue empiriquement, pour tout instant k = 1 n, les matrices D k = E[(b k(x k 1 )) (Q W k ) 1 b k(x k 1 )] 1 M M (b k(x j k 1 )) (Qk W ) 1 b k(x j k 1 ) j=1 D k = E[(b k(x k 1 )) ] (Q W k ) 1 1 M M (b k(x j k 1 )) (Qk W ) 1 j=1 90/ 110
85 et D + k = (Q W k ) 1 +E[(h k(x k )) (Q V k ) 1 h k(x k )] (Q W k ) M M (h k(x j k )) (Qk V ) 1 h k(x j k ) j=1 et on calcule récursivement J k = D + k D k (J k 1 +D k ) 1 D k en utilisant les approximations empiriques des matrices D k, D k et D + k 91/ 110
86 Filtre de Kalman étendu (linéarisation) suite d états cachés {X k } à valeurs dans R m, vérifiant X k = b k (X k 1 )+σ k (X k 1 )W k et suite d observations {Y k } à valeurs dans R d, vérifiant hypothèses : Y k = h k (X k )+V k état initial X 0 pas nécessairement gaussien bruit d état {W k } blanc gaussien, de matrice de covariance Q W k bruit d observation {V k } blanc gaussien, de matrice de covariance Q V k inversible suites {W k } et {V k } et état initial X 0 mutuellement indépendants fonctions b k et h k dérivables 92/ 110
87 idée : linéariser les fonctions b k et σ k autour de X k 1, c est à dire b k (x) b k ( X k 1 )+b k( X k 1 )(x X k 1 ) et σ k (x) σ k ( X k 1 ) et linéariser la fonction h k autour de X k, c est à dire h k (x) h k ( X k )+h k( X k )(x X k ) on introduit le système conditionnellement linéaire gaussien X k = F k X k 1 +f k +G k W k Y k = H k X k +h k +V k avec F k = b k( X k 1 ), f k = b k( X k 1 ) X k 1 +b k ( X k 1 ) et G k = σ k ( X k 1 ) et avec H k = h k( X k ) et h k = h k( X k ) X k +h k( X k ) on remarque que F k Xk 1 +f k = b k ( X k 1 ) et H k X k +h k = h k ( X k ) 93/110
88 on applique alors exactement le filtre de Kalman à ce nouveau système, d où l algorithme sous optimal suivant et X k = b k ( X k 1 ) P k = b k( X k 1 )P k 1 (b k( X k 1 )) +σ k ( X k 1 )Q W k (σ k ( X k 1 )) X k = X k +K k [Y k h k ( X k )] P k = [I K k h k( X k )] P k avec la matrice de gain K k = P k (h k( X k )) [h k( X k )P k (h k( X k )) +Qk V ] 1 on choisit l initialisation X 0 et P 0 de telle sorte que N( X 0,P 0 ) soit une bonne approximation de la distribution de probabilité du v.a. X 0 94/ 110
89 Approximation gaussienne suite d états cachés {X k } à valeurs dans R m, vérifiant X k = b k (X k 1 )+σ k (X k 1 )W k et suite d observations {Y k } à valeurs dans R d, vérifiant hypothèses : Y k = h k (X k )+V k état initial X 0 gaussien, de moyenne X 0 et de matrice de covariance Q X 0 bruit d état {W k } blanc gaussien, de matrice de covariance Q W k bruit d observation {V k } blanc gaussien, de matrice de covariance Q V k inversible suites {W k } et {V k } et état initial X 0 mutuellement indépendants fonctions b k et h k pas nécessairement dérivables 95/ 110
90 idée : au lieu de s appuyer sur une linéarisation des fonctions autour de l estimateur courant, on se propose ici de remplacer les différentes distributions de probabilité conditionnelles par des distributions de probabilité gaussiennes ayant même moyenne et même matrice de covariance d utiliser des formules de quadrature, développées initialement pour le calcul numérique d intégrales, pour approcher ces moyennes et ces matrices de covariance conditionnelles le premier point peut s interpréter comme une projection, au sens de la distance de Kullback Leibler, sur la famille des distributions de probabilité gaussiennes 96/ 110
91 Moments le calcul des deux premiers moments de la distribution de probabilité conditionnelle µ k (dx) = P[X k dx Y 0:k 1 ] est facile : par définition compte tenu que X k = E[X k Y 0:k 1 ] = E[b k (X k 1 ) Y 0:k 1 ]+E[σ k (X k 1 ) W k Y 0:k 1 ] = b k (x)µ k 1 (dx) E[σ k (X k 1 ) W k Y 0:k 1 ] = E[E[σ k (X k 1 ) W k X k 1,Y 0:k 1 ] Y 0:k 1 ] = E[σ k (X k 1 ) E[W k X k 1,Y 0:k 1 ] Y 0:k 1 ] = 0 où on a utilisé dans la dernière égalité l indépendance de (X k 1,Y 0,,Y k 1 ) et de W k, donc E[W k X k 1,Y 0:k 1 ] = 0 par différence X k X k = (b k(x k 1 ) X k )+σ k(x k 1 ) W k 97/110
92 et la matrice de covariance est donnée par P k = E[(X k X k ) (X k X k ) Y 0:k 1 ] = E[((b k (X k 1 ) X k )+σ k(x k 1 )W k ) ((b k (X k 1 ) X k )+σ k(x k 1 )W k ) Y 0:k 1 ] = E[(b k (X k 1 ) X k ) (b k(x k 1 ) X k ) Y 0:k 1 ] +E[σ k (X k 1 )W k Wk σk(x k 1 ) Y 0:k 1 ] +E[σ k (X k 1 )W k (b k (X k 1 ) X k ) Y 0:k 1 ] = +E[(b k (X k 1 ) X k ) W k σk(x k 1 ) Y 0:k 1 ] (b k (x) X k ) (b k(x) X k ) µ k 1 (dx) + σ k (x) Qk W σk(x)µ k 1 (dx) 98/ 110
93 compte tenu que E[σ k (X k 1 )W k W k σ k(x k 1 ) Y 0:k 1 ] = E[E[σ k (X k 1 )W k W k σ k(x k 1 ) X k 1,Y 0:k 1 ] Y 0:k 1 ] = E[σ k (X k 1 ) E[W k W k X k 1,Y 0:k 1 ] σ k(x k 1 ) Y 0:k 1 ] = E[σ k (X k 1 ) Q W k σ k(x k 1 ) Y 0:k 1 ] où on a utilisé dans la dernière égalité l indépendance de (X k 1,Y 0,,Y k 1 ) et de W k, donc E[W k W k X k 1,Y 0:k 1 ] = Q W k, et compte tenu que E[σ k (X k 1 )W k (b k (X k 1 ) X k ) Y 0:k 1 ] = E[E[σ k (X k 1 )W k (b k (X k 1 ) X k ) X k 1,Y 0:k 1 ] Y 0:k 1 ] = E[σ k (X k 1 )E[W k X k 1,Y 0:k 1 ] (b k (X k 1 ) X k ) Y 0:k 1 ] = 0 où on a encore utilisé dans la dernière égalité l indépendance de (X k 1,Y 0,,Y k 1 ) et de W k, donc E[W k X k 1,Y 0:k 1 ] = 0 99/ 110
94 en revanche, le calcul des deux premiers moments de la distribution de probabilité conditionnelle µ k (dx) = P[X k dx Y 0:k ] n est pas immédiat, et on commence par le calcul des deux premiers moments de la distribution de probabilité conditionnelle jointe du v.a. (X k,y k ) sachant Y 0:k 1, qui est plus facile : on rappelle que X k = b k (x)µ k 1 (dx) déjà obtenu plus haut, et Ŷ k = E[Y k Y 0:k 1 ] = E[h k (X k ) Y 0:k 1 ]+E[V k Y 0:k 1 ] = h k (x)µ k (dx) par différence Y k Ŷ k = (h k (X k ) Ŷ k )+V k 100/ 110
95 et la matrice de covariance est donnée (i) par P k = (b k (x) X k ) (b k(x) X k ) µ k 1 (dx) + σ k (x) Q W k σ k(x)µ k 1 (dx) déjà obtenu plus haut, (ii) par Ξ k = E[(Y k Ŷ k )(Y k Ŷ k ) Y 0:k 1 ] = E[((h k (X k ) Ŷ k )+V k)((h k (X k ) Ŷ k )+V k) Y 0:k 1 ] = E[(h k (X k ) Ŷ k ) (h k(x k ) Ŷ k ) Y 0:k 1 ]+E[V k Vk Y 0:k 1 ] +E[V k (h k (X k ) Ŷ k ) Y 0:k 1 ] = +E[(h k (X k ) Ŷ k ) V k Y 0:k 1 ] (h k (x) Ŷ k )(h k(x) Ŷ k ) µ k (dx)+qv k 101/ 110
96 compte tenu que E[V k (h k (X k ) Ŷ k ) Y 0:k 1 ] = E[E[V k (h k (X k ) Ŷ k ) X k,y 0:k 1 ] Y 0:k 1 ] = E[E[V k X k,y 0:k 1 ] (h k (X k ) Ŷ k ) Y 0:k 1 ] = 0 où on a utilisé dans la dernière égalité l indépendance de (X k,y 0,,Y k 1 ) et de V k, donc E[V k X k,y 0:k 1 ] = 0 et (iii) par C k = E[(X k X k )(Y k Ŷ k ) Y 0:k 1 ] = E[(X k X k )(h k(x k ) Ŷ k ) Y 0:k 1 ]+E[(X k X k )V k Y 0:k 1 ] = (x X k )(hk(x) Ŷ k ) µ k (dx) 102/ 110
97 si on remplace la distribution de probabilité conditionnelle jointe par la distribution de probabilité gaussienne de moyenne et de matrice de covariance ( ) ( ) X k P Ŷ et k C k C k k Ξ k alors on obtient par conditionnement les approximations suivantes X k = X k +C k Ξ 1 k (Y k Ŷ k ) et P k = P k C k Ξ 1 k C k pour les deux premiers moments de la distribution de probabilité conditionnelle µ k Remarque ces équations ne sont pas fermées, c est à dire que les moments X k et P k ne s expriment pas en fonction des moments X k 1 et P k 1 seulement, mais en fonction de toute la distribution de probabilité conditionnelle µ k 1 de même, les moments X k et P k ne s expriment pas en fonction des moments X k et P k seulement, mais en fonction de toute la distribution de probabilité conditionnelle µ k 103/ 110
98 Principe de fermeture on adopte le principe de projection énoncé plus haut on remplace la distribution de probabilité conditionnelle µ k 1 par la distribution de probabilité gaussienne de moyenne X k 1 et de matrice de covariance P k 1 = S k 1 Sk 1 en effectuant le changement de variable x = X k 1 +S k 1 u, on obtient les approximations X k b k (u) exp{ 1 du 2 u 2 } (2π) m/2 et P k ( b k (u) X k )( b k (u) X k ) exp{ 1 du 2 u 2 } (2π) m/2 + σ k (u)q W k σ k(u) exp{ 1 2 u 2 } du (2π) m/2 où par définition b k (u) = b k ( X k 1 +S k 1 u) et σ k (u) = σ k ( X k 1 +S k 1 u) 104/110
99 de même, on remplace la distribution de probabilité conditionnelle µ k par la distribution de probabilité gaussienne de moyenne X k et de matrice de covariance P k = S k (S k ) en effectuant le changement de variable x = X k +S k u, on obtient les approximations Ŷ k ĥ k (u) exp{ 1 2 u 2 } R m du (2π) m/2 et Ξ k (ĥk(u) Ŷ k )(ĥk(u) Ŷ k ) exp{ 1 du 2 u 2 } R (2π) m m/2 +QV k et pour la matrice de corrélation C k S k u(ĥk(u) Ŷ k ) exp{ 1 du 2 u 2 } R (2π) m m/2 où par définition ĥ k (u) = h k ( X k +S k u) 105/ 110
100 Résumé il reste donc à calculer les intégrales des fonctions non linéaires b k (u), b k (u) b k (u), σ k(u)qk W σ k (u), ĥk(u), uĥ k (u) et ĥ k (u)ĥ k (u) par rapport à la densité gaussienne réduite centrée Remarque si on suppose que les fonctions b k et h k sont dérivables, et qu on utilise un développement limité au premier ordre au voisinage de u = 0 dans les intégrales ci dessus, on retrouve les équations du filtre de Kalman étendu l idée ici est de ne pas linéariser, et de calculer les intégrales en utilisant des formules de quadrature 106/ 110
101 Formules de quadrature en dimension m, la densité de probabilité gaussienne centrée réduite (de matrice de covariance identité) est représentée par 2m + 1 points de quadrature (u m,,u m ) appelés σ points, et définis par u 0 = 0, u i = e i m+κ et u i = u i où e i désigne le i ème vecteur de base, affectés des poids w 0 = κ m+κ et w i = w i = 1 2(m+κ) ( ) pour tout i = 1 m (d autres choix de σ points sont possibles) on vérifie que les deux premiers moments sont pris en compte exactement +m i= m w i = 1, +m i= m w i u i = 0 et +m i= m w i u i u i = m e i ei = I i=1 107/ 110
Chapitre 3. Mesures stationnaires. et théorèmes de convergence
Chapitre 3 Mesures stationnaires et théorèmes de convergence Christiane Cocozza-Thivent, Université de Marne-la-Vallée p.1 I. Mesures stationnaires Christiane Cocozza-Thivent, Université de Marne-la-Vallée
Plus en détail3 Approximation de solutions d équations
3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle
Plus en détailSimulation de variables aléatoires
Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo
Plus en détail3. Conditionnement P (B)
Conditionnement 16 3. Conditionnement Dans cette section, nous allons rappeler un certain nombre de définitions et de propriétés liées au problème du conditionnement, c est à dire à la prise en compte
Plus en détailQuantification Scalaire et Prédictive
Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction
Plus en détailFormes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions
Formes quadratiques Imen BHOURI 1 Ce cours s adresse aux étudiants de niveau deuxième année de Licence et à ceux qui préparent le capes. Il combine d une façon indissociable l étude des concepts bilinéaires
Plus en détailMoments des variables aléatoires réelles
Chapter 6 Moments des variables aléatoires réelles Sommaire 6.1 Espérance des variables aléatoires réelles................................ 46 6.1.1 Définition et calcul........................................
Plus en détailFonctions de plusieurs variables
Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme
Plus en détailCours Fonctions de deux variables
Cours Fonctions de deux variables par Pierre Veuillez 1 Support théorique 1.1 Représentation Plan et espace : Grâce à un repère cartésien ( ) O, i, j du plan, les couples (x, y) de R 2 peuvent être représenté
Plus en détailProgrammes des classes préparatoires aux Grandes Ecoles
Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme
Plus en détailEspérance conditionnelle
Espérance conditionnelle Samy Tindel Nancy-Université Master 1 - Nancy Samy T. (IECN) M1 - Espérance conditionnelle Nancy-Université 1 / 58 Plan 1 Définition 2 Exemples 3 Propriétés de l espérance conditionnelle
Plus en détailOM 1 Outils mathématiques : fonction de plusieurs variables
Outils mathématiques : fonction de plusieurs variables PCSI 2013 2014 Certaines partie de ce chapitre ne seront utiles qu à partir de l année prochaine, mais une grande partie nous servira dès cette année.
Plus en détailMCMC et approximations en champ moyen pour les modèles de Markov
MCMC et approximations en champ moyen pour les modèles de Markov Gersende FORT LTCI CNRS - TELECOM ParisTech En collaboration avec Florence FORBES (Projet MISTIS, INRIA Rhône-Alpes). Basé sur l article:
Plus en détailFiltrage stochastique non linéaire par la théorie de représentation des martingales
Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de
Plus en détailFonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre
IUFM du Limousin 2009-10 PLC1 Mathématiques S. Vinatier Rappels de cours Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre 1 Fonctions de plusieurs variables
Plus en détailI. Polynômes de Tchebychev
Première épreuve CCP filière MP I. Polynômes de Tchebychev ( ) 1.a) Tout réel θ vérifie cos(nθ) = Re ((cos θ + i sin θ) n ) = Re Cn k (cos θ) n k i k (sin θ) k Or i k est réel quand k est pair et imaginaire
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailI. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.
I. Introduction. 1. Objectifs. Le but de ces quelques séances est d introduire les outils mathématiques, plus précisément ceux de nature probabiliste, qui interviennent dans les modèles financiers ; nous
Plus en détailChapitre 3. Algorithmes stochastiques. 3.1 Introduction
Chapitre 3 Algorithmes stochastiques 3.1 Introduction Les algorithmes stochastiques sont des techniques de simulation numériques de chaînes de Markov, visant à résoudre des problèmes d optimisation ou
Plus en détailMéthodes de Simulation
Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents
Plus en détailMéthodes de quadrature. Polytech Paris-UPMC. - p. 1/48
Méthodes de Polytech Paris-UPMC - p. 1/48 Polynôme d interpolation de Preuve et polynôme de Calcul de l erreur d interpolation Étude de la formule d erreur Autres méthodes - p. 2/48 Polynôme d interpolation
Plus en détailaux différences est appelé équation aux différences d ordre n en forme normale.
MODÉLISATION ET SIMULATION EQUATIONS AUX DIFFÉRENCES (I/II) 1. Rappels théoriques : résolution d équations aux différences 1.1. Équations aux différences. Définition. Soit x k = x(k) X l état scalaire
Plus en détailLimites finies en un point
8 Limites finies en un point Pour ce chapitre, sauf précision contraire, I désigne une partie non vide de R et f une fonction définie sur I et à valeurs réelles ou complees. Là encore, les fonctions usuelles,
Plus en détailCapacité d un canal Second Théorème de Shannon. Théorie de l information 1/34
Capacité d un canal Second Théorème de Shannon Théorie de l information 1/34 Plan du cours 1. Canaux discrets sans mémoire, exemples ; 2. Capacité ; 3. Canaux symétriques ; 4. Codage de canal ; 5. Second
Plus en détailExercices - Fonctions de plusieurs variables : corrigé. Pour commencer
Pour commencer Exercice 1 - Ensembles de définition - Première année - 1. Le logarithme est défini si x + y > 0. On trouve donc le demi-plan supérieur délimité par la droite d équation x + y = 0.. 1 xy
Plus en détailDifférentiabilité ; Fonctions de plusieurs variables réelles
Différentiabilité ; Fonctions de plusieurs variables réelles Denis Vekemans R n est muni de l une des trois normes usuelles. 1,. 2 ou.. x 1 = i i n Toutes les normes de R n sont équivalentes. x i ; x 2
Plus en détailApprentissage non paramétrique en régression
1 Apprentissage non paramétrique en régression Apprentissage non paramétrique en régression Résumé Différentes méthodes d estimation non paramétriques en régression sont présentées. Tout d abord les plus
Plus en détailThéorème du point fixe - Théorème de l inversion locale
Chapitre 7 Théorème du point fixe - Théorème de l inversion locale Dans ce chapitre et le suivant, on montre deux applications importantes de la notion de différentiabilité : le théorème de l inversion
Plus en détailAnalyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I
Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques
Plus en détailExamen optimisation Centrale Marseille (2008) et SupGalilee (2008)
Examen optimisation Centrale Marseille (28) et SupGalilee (28) Olivier Latte, Jean-Michel Innocent, Isabelle Terrasse, Emmanuel Audusse, Francois Cuvelier duree 4 h Tout resultat enonce dans le texte peut
Plus en détailBaccalauréat ES Pondichéry 7 avril 2014 Corrigé
Baccalauréat ES Pondichéry 7 avril 204 Corrigé EXERCICE 4 points Commun à tous les candidats. Proposition fausse. La tangente T, passant par les points A et B d abscisses distinctes, a pour coefficient
Plus en détailSouad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/
Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation
Plus en détailFONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)
FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4) Bernard Le Stum Université de Rennes 1 Version du 13 mars 2009 Table des matières 1 Fonctions partielles, courbes de niveau 1 2 Limites et continuité
Plus en détailLe modèle de Black et Scholes
Le modèle de Black et Scholes Alexandre Popier février 21 1 Introduction : exemple très simple de modèle financier On considère un marché avec une seule action cotée, sur une période donnée T. Dans un
Plus en détailTexte Agrégation limitée par diffusion interne
Page n 1. Texte Agrégation limitée par diffusion interne 1 Le phénomène observé Un fût de déchets radioactifs est enterré secrètement dans le Cantal. Au bout de quelques années, il devient poreux et laisse
Plus en détailRaisonnement probabiliste
Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte
Plus en détailLoi d une variable discrète
MATHEMATIQUES TD N : VARIABLES DISCRETES - Corrigé. P[X = k] 0 k point de discontinuité de F et P[X = k] = F(k + ) F(k ) Ainsi, P[X = ] =, P[X = 0] =, P[X = ] = R&T Saint-Malo - nde année - 0/0 Loi d une
Plus en détailÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE
ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE JEAN-DENIS FOUKS, EMMANUEL LESIGNE ET MARC PEIGNÉ J.-D. Fouks. École Supérieure d Ingénieurs de Poitiers. 40 avenue du Recteur Pineau, 860 Poitiers
Plus en détailSoutenance de stage Laboratoire des Signaux et Systèmes
Soutenance de stage Laboratoire des Signaux et Systèmes Bornes inférieures bayésiennes de l'erreur quadratique moyenne. Application à la localisation de points de rupture. M2R ATSI Université Paris-Sud
Plus en détailExercices - Polynômes : corrigé. Opérations sur les polynômes
Opérations sur les polynômes Exercice 1 - Carré - L1/Math Sup - Si P = Q est le carré d un polynôme, alors Q est nécessairement de degré, et son coefficient dominant est égal à 1. On peut donc écrire Q(X)
Plus en détailDe même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que
Introduction. On suppose connus les ensembles N (des entiers naturels), Z des entiers relatifs et Q (des nombres rationnels). On s est rendu compte, depuis l antiquité, que l on ne peut pas tout mesurer
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détailProbabilités III Introduction à l évaluation d options
Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un
Plus en détailCours de méthodes de scoring
UNIVERSITE DE CARTHAGE ECOLE SUPERIEURE DE STATISTIQUE ET D ANALYSE DE L INFORMATION Cours de méthodes de scoring Préparé par Hassen MATHLOUTHI Année universitaire 2013-2014 Cours de méthodes de scoring-
Plus en détailChapitre 2. Eléments pour comprendre un énoncé
Chapitre 2 Eléments pour comprendre un énoncé Ce chapitre est consacré à la compréhension d un énoncé. Pour démontrer un énoncé donné, il faut se reporter au chapitre suivant. Les tables de vérité données
Plus en détailExo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.
Exo7 Matrice d une application linéaire Corrections d Arnaud odin. Exercice Soit R muni de la base canonique = ( i, j). Soit f : R R la projection sur l axe des abscisses R i parallèlement à R( i + j).
Plus en détailNotes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables
Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables Guy Desaulniers Département de mathématiques et de génie industriel École Polytechnique de Montréal Automne 2014 Table des matières
Plus en détailModélisation aléatoire en fiabilité des logiciels
collection Méthodes stochastiques appliquées dirigée par Nikolaos Limnios et Jacques Janssen La sûreté de fonctionnement des systèmes informatiques est aujourd hui un enjeu économique et sociétal majeur.
Plus en détailRésolution de systèmes linéaires par des méthodes directes
Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.
Plus en détailCapes 2002 - Première épreuve
Cette correction a été rédigée par Frédéric Bayart. Si vous avez des remarques à faire, ou pour signaler des erreurs, n hésitez pas à écrire à : mathweb@free.fr Mots-clés : équation fonctionnelle, série
Plus en détailModèles à Événements Discrets. Réseaux de Petri Stochastiques
Modèles à Événements Discrets Réseaux de Petri Stochastiques Table des matières 1 Chaînes de Markov Définition formelle Idée générale Discrete Time Markov Chains Continuous Time Markov Chains Propriétés
Plus en détailCours d analyse numérique SMI-S4
ours d analyse numérique SMI-S4 Introduction L objet de l analyse numérique est de concevoir et d étudier des méthodes de résolution de certains problèmes mathématiques, en général issus de problèmes réels,
Plus en détailProgrammation linéaire
1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit
Plus en détailContexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,
Non-linéarité Contexte Pour permettre aux algorithmes de cryptographie d être sûrs, les fonctions booléennes qu ils utilisent ne doivent pas être inversées facilement. Pour cela, elles doivent être très
Plus en détailMaster IMA - UMPC Paris 6 RDMM - Année 2009-2010 Fiche de TP
Master IMA - UMPC Paris 6 RDMM - Année 2009-200 Fiche de TP Préliminaires. Récupérez l archive du logiciel de TP à partir du lien suivant : http://www.ensta.fr/~manzaner/cours/ima/tp2009.tar 2. Développez
Plus en détailCONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Plus en détailChp. 4. Minimisation d une fonction d une variable
Chp. 4. Minimisation d une fonction d une variable Avertissement! Dans tout ce chapître, I désigne un intervalle de IR. 4.1 Fonctions convexes d une variable Définition 9 Une fonction ϕ, partout définie
Plus en détailThéorie et Codage de l Information (IF01) exercices 2013-2014. Paul Honeine Université de technologie de Troyes France
Théorie et Codage de l Information (IF01) exercices 2013-2014 Paul Honeine Université de technologie de Troyes France TD-1 Rappels de calculs de probabilités Exercice 1. On dispose d un jeu de 52 cartes
Plus en détail8.1 Généralités sur les fonctions de plusieurs variables réelles. f : R 2 R (x, y) 1 x 2 y 2
Chapitre 8 Fonctions de plusieurs variables 8.1 Généralités sur les fonctions de plusieurs variables réelles Définition. Une fonction réelle de n variables réelles est une application d une partie de R
Plus en détailAmphi 3: Espaces complets - Applications linéaires continues
Amphi 3: Espaces complets - Applications linéaires continues Département de Mathématiques École polytechnique Remise en forme mathématique 2013 Suite de Cauchy Soit (X, d) un espace métrique. Une suite
Plus en détailLA PHYSIQUE DES MATERIAUX. Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE
LA PHYSIQUE DES MATERIAUX Chapitre 1 LES RESEAUX DIRECT ET RECIPROQUE Pr. A. Belayachi Université Mohammed V Agdal Faculté des Sciences Rabat Département de Physique - L.P.M belayach@fsr.ac.ma 1 1.Le réseau
Plus en détailTP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options
Université de Lorraine Modélisation Stochastique Master 2 IMOI 2014-2015 TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options 1 Les options Le but de ce
Plus en détailÉquations non linéaires
Équations non linéaires Objectif : trouver les zéros de fonctions (ou systèmes) non linéaires, c-à-d les valeurs α R telles que f(α) = 0. y f(x) α 1 α 2 α 3 x Equations non lineaires p. 1/49 Exemples et
Plus en détailFonctions de deux variables. Mai 2011
Fonctions de deux variables Dédou Mai 2011 D une à deux variables Les fonctions modèlisent de l information dépendant d un paramètre. On a aussi besoin de modéliser de l information dépendant de plusieurs
Plus en détailMÉTHODE DE MONTE CARLO.
MÉTHODE DE MONTE CARLO. Alexandre Popier Université du Maine, Le Mans A. Popier (Le Mans) Méthode de Monte Carlo. 1 / 95 PLAN DU COURS 1 MÉTHODE DE MONTE CARLO 2 PROBLÈME DE SIMULATION Théorème fondamental
Plus en détailRésolution d équations non linéaires
Analyse Numérique Résolution d équations non linéaires Said EL HAJJI et Touria GHEMIRES Université Mohammed V - Agdal. Faculté des Sciences Département de Mathématiques. Laboratoire de Mathématiques, Informatique
Plus en détailI Stabilité, Commandabilité et Observabilité 11. 1 Introduction 13 1.1 Un exemple emprunté à la robotique... 13 1.2 Le plan... 18 1.3 Problème...
TABLE DES MATIÈRES 5 Table des matières I Stabilité, Commandabilité et Observabilité 11 1 Introduction 13 1.1 Un exemple emprunté à la robotique................... 13 1.2 Le plan...................................
Plus en détailChapitre 2 Le problème de l unicité des solutions
Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)
Plus en détailIntérêt du découpage en sous-bandes pour l analyse spectrale
Intérêt du découpage en sous-bandes pour l analyse spectrale David BONACCI Institut National Polytechnique de Toulouse (INP) École Nationale Supérieure d Électrotechnique, d Électronique, d Informatique,
Plus en détailOptimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications
Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante
Plus en détailModèles et Méthodes de Réservation
Modèles et Méthodes de Réservation Petit Cours donné à l Université de Strasbourg en Mai 2003 par Klaus D Schmidt Lehrstuhl für Versicherungsmathematik Technische Universität Dresden D 01062 Dresden E
Plus en détailApproximations variationelles des EDP Notes du Cours de M2
Approximations variationelles des EDP Notes du Cours de M2 Albert Cohen Dans ce cours, on s intéresse à l approximation numérique d équations aux dérivées partielles linéaires qui admettent une formulation
Plus en détailModélisation intégrée des écoulements pour la gestion en temps réel d'un bassin versant anthropisé
1 TGR Modélisation intégrée des écoulements pour la gestion en temps réel d'un bassin versant anthropisé Simon Munier Institut des Sciences et Industries du Vivant et de l'environnement (AgroParisTech)
Plus en détail3. Caractéristiques et fonctions d une v.a.
3. Caractéristiques et fonctions d une v.a. MTH2302D S. Le Digabel, École Polytechnique de Montréal H2015 (v2) MTH2302D: fonctions d une v.a. 1/32 Plan 1. Caractéristiques d une distribution 2. Fonctions
Plus en détailCalcul différentiel sur R n Première partie
Calcul différentiel sur R n Première partie Université De Metz 2006-2007 1 Définitions générales On note L(R n, R m ) l espace vectoriel des applications linéaires de R n dans R m. Définition 1.1 (différentiabilité
Plus en détailTests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles
Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA
Plus en détailÉconometrie non paramétrique I. Estimation d une densité
Économetrie non paramétrique I. Estimation d une densité Stéphane Adjemian Université d Évry Janvier 2004 1 1 Introduction 1.1 Pourquoi estimer une densité? Étudier la distribution des richesses... Proposer
Plus en détailIntégration et probabilités TD1 Espaces mesurés Corrigé
Intégration et probabilités TD1 Espaces mesurés Corrigé 2012-2013 1 Petites questions 1 Est-ce que l ensemble des ouverts de R est une tribu? Réponse : Non, car le complémentaire de ], 0[ n est pas ouvert.
Plus en détailNotes du cours MTH1101N Calcul I Partie II: fonctions de plusieurs variables
Notes du cours MTH1101N Calcul I Partie II: fonctions de plusieurs variables Fausto Errico Département de mathématiques et de génie industriel École Polytechnique de Montréal Automne 2012 Table des matières
Plus en détailProbabilités sur un univers fini
[http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur
Plus en détailChapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens
Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques
Plus en détailMathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans
Mathématique et Automatique : de la boucle ouverte à la boucle fermée Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans Maitine.Bergounioux@labomath.univ-orleans.fr Plan 1. Un peu de
Plus en détailExercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.
14-3- 214 J.F.C. p. 1 I Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. Exercice 1 Densité de probabilité. F { ln x si x ], 1] UN OVNI... On pose x R,
Plus en détailCorrection de l examen de la première session
de l examen de la première session Julian Tugaut, Franck Licini, Didier Vincent Si vous trouvez des erreurs de Français ou de mathématiques ou bien si vous avez des questions et/ou des suggestions, envoyez-moi
Plus en détailCours d Analyse. Fonctions de plusieurs variables
Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........
Plus en détailUtilisation d informations visuelles dynamiques en asservissement visuel Armel Crétual IRISA, projet TEMIS puis VISTA L asservissement visuel géométrique Principe : Réalisation d une tâche robotique par
Plus en détailINTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES
INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES Dominique LAFFLY Maître de Conférences, Université de Pau Laboratoire Société Environnement Territoire UMR 5603 du CNRS et Université de Pau Domaine
Plus en détailCalcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.
1 Définitions, notations Calcul matriciel Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. On utilise aussi la notation m n pour le
Plus en détailTempérature corporelle d un castor (une petite introduction aux séries temporelles)
Température corporelle d un castor (une petite introduction aux séries temporelles) GMMA 106 GMMA 106 2014 2015 1 / 32 Cas d étude Temperature (C) 37.0 37.5 38.0 0 20 40 60 80 100 Figure 1: Temperature
Plus en détailSujet 4: Programmation stochastique propriétés de fonction de recours
Sujet 4: Programmation stochastique propriétés de fonction de recours MSE3313: Optimisation Stochastiqe Andrew J. Miller Dernière mise au jour: October 19, 2011 Dans ce sujet... 1 Propriétés de la fonction
Plus en détailIntroduction à l étude des Corps Finis
Introduction à l étude des Corps Finis Robert Rolland (Résumé) 1 Introduction La structure de corps fini intervient dans divers domaines des mathématiques, en particulier dans la théorie de Galois sur
Plus en détailIntroduction à la théorie des files d'attente. Claude Chaudet Claude.Chaudet@enst.fr
Introduction à la théorie des files d'attente Claude Chaudet Claude.Chaudet@enst.fr La théorie des files d'attente... Principe: modélisation mathématique de l accès à une ressource partagée Exemples réseaux
Plus en détailChapitre 3. Les distributions à deux variables
Chapitre 3. Les distributions à deux variables Jean-François Coeurjolly http://www-ljk.imag.fr/membres/jean-francois.coeurjolly/ Laboratoire Jean Kuntzmann (LJK), Grenoble University 1 Distributions conditionnelles
Plus en détailCAPTEURS - CHAINES DE MESURES
CAPTEURS - CHAINES DE MESURES Pierre BONNET Pierre Bonnet Master GSI - Capteurs Chaînes de Mesures 1 Plan du Cours Propriétés générales des capteurs Notion de mesure Notion de capteur: principes, classes,
Plus en détailContinuité et dérivabilité d une fonction
DERNIÈRE IMPRESSIN LE 7 novembre 014 à 10:3 Continuité et dérivabilité d une fonction Table des matières 1 Continuité d une fonction 1.1 Limite finie en un point.......................... 1. Continuité
Plus en détaila et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe le nombre ax + b
I Définition d une fonction affine Faire l activité 1 «une nouvelle fonction» 1. définition générale a et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe
Plus en détailL ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ
L ANALYSE EN COMPOSANTES PRINCIPALES (A.C.P.) Pierre-Louis GONZALEZ INTRODUCTION Données : n individus observés sur p variables quantitatives. L A.C.P. permet d eplorer les liaisons entre variables et
Plus en détailMesures gaussiennes et espaces de Fock
Mesures gaussiennes et espaces de Fock Thierry Lévy Peyresq - Juin 2003 Introduction Les mesures gaussiennes et les espaces de Fock sont deux objets qui apparaissent naturellement et peut-être, à première
Plus en détailLa programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique
La programmation linéaire : une introduction Qu est-ce qu un programme linéaire? Qu est-ce qu un programme linéaire? Exemples : allocation de ressources problème de recouvrement Hypothèses de la programmation
Plus en détail