Introduction aux méthodes de simulation particulaires. Jean Bérard
|
|
- Daniel Lavigne
- il y a 6 ans
- Total affichages :
Transcription
1 Introduction aux méthodes de simulation particulaires Jean Bérard
2 2 Avertissement Ces notes sont en cours d élaboration, il se peut donc qu y subsistent un certain nombre d erreurs, d incohérences, et/ou de passages inachevés. Elles ne constituent qu un résumé de cours très succinct dont le but principal est de fournir un plan, des références bibliographiques, et la description d un certain nombre d idées importantes.
3 Table des matières Introduction 5 1 Inférence pour les modèles de Markov cachés Définitions générales et rappels Noyaux de transition Chaînes de Markov cachées Loi a posteriori des états cachés Récurrence «avant-arrière» (ou «forward-backward») Représentations markoviennes Les noyaux ˆp k Les noyaux ˇp k Les noyaux p k Conditionnement gauche-droite Initialisation en Approximations particulaires Algorithme SIS Algorithme SISR Algorithme i.i.d. séquentiel Comportement asymptotique Consistance Normalité asymptotique Comportement en temps long Méthodes de Monte-Carlo par chaînes de Markov Algorithme de Metropolis-Hastings Exemples Echantillonnage de Gibbs Exemples L algorithme Monte-Carlo EM pour l inférence des chaînes de Markov cachées
4 4 2.3 Contrôle de la convergence
5 Introduction Ces notes sont consacrées aux méthodes de simulation particulaires, dont l idée centrale est l approximation de distributions de probabilité par des populations de particules. Il s agit d un sujet très vaste, dont seuls certains aspects seront abordés en détail. Dans ce qui suit, nous donnons une petite liste d exemples illustrant l emploi de méthodes particulaires dans différents domaines. La présentation qui suit est volontairement très informelle. Nous nous permettrons donc d omettre certaines hypothèses techniques, et nous nous contenterons parfois d énoncés un peu vagues ou inccomplètement rigoureux. Préliminaire : la méthode de Monte-Carlo classique Supposons donnée une variable aléatoire X de loi µ à valeurs dans un espace mesurable (S, S). La base de la méthode de Monte Carlo classique est de partir de N variables aléatoires i.i.d. X 1,..., X N de loi µ, et d utiliser l approximation, valable lorsque N est grand, µ 1 δ N X i =: µ N. Les variables aléatoires X i constituent la population de «particules» employées pour l approximation de µ, chaque particule se voyant attribuer un poids égal à 1/N. Par exemple, si f est une fonction (mesurable, et disons bornée) de S dans R, la loi des grands nombres garantit que, lorsque N est grand, Ef(X) < f, µ N >= 1 N f(x i ). Une remarque élémentaire mais importante est que, si l on part de N variables aléatoires i.i.d. Y 1,..., Y N de loi ν sur S, et que µ possède une densité par rapport à ν que nous noterons φ, alors on a par exemple l approximation µ 1 N φ(y i )δ Yi =: µ N,
6 6 chaque particule se voyant accorder un poids égal à φ(y i )/N. En effet, la loi des grands nombres nous montre que < f, µ N >= 1 N φ(y i )f(y i ) E(φ(Y )f(y )) = On vérifie également que la somme des poids 1 N φ(y i )f(y i ) S f(s)φ(s)dν(s) = S f(s)dµ(s) = Ef(X). est voisine de 1 lorsque N est grand. Si l on souhaite que la somme des poids soit exactement égale à 1, on peut normaliser les poids en considérant à la place de µ N 1 N φ(y i) φ(y i )δ Yi =: µ N. Méthodes particulaires pour les équations de diffusion et de transport Commençons par l équation de diffusion suivante : p(, t) t = 1 2 d i,j=1 2 x i x j (a ij ( )p(, t)) d x i (b i ( )p(, t)), où p(, t) désigne une mesure de probabilité sur R d, b = (b i ) 1 i d est une fonction de R d dans lui-même supposée suffisamment régulière, et a = (a ij ) 1 i,j d est une fonction de R d dans l ensemble des matrices carrées d d à coefficients réels s écrivant sous la forme a(x) = σ(x) t σ(x), où σ est une fonction de de R d dans l ensemble des matrices carrées d d à coefficients réels supposée suffisament régulière. Cette équation est à comprendre au sens faible où, pour toute fonction-test f de R d dans R assez régulière, on doit avoir < p(, t), f >= t p(, t), 1 2 d 2 f a ij ( ) + x i x j i,j=1 d b i ( ) f. x i Sous des hypothèses de régularité suffisantes, il existe, pour toute condition initiale p(, 0), une unique solution valable pour tout t 0 de cette équation aux dérivées partielles. Du côté probabiliste, on considère le processus de diffusion (X t ) t 0 à valeurs dans R d défini de la manière suivante : dx t = b(x t )dt + σ(x t )dw t.
7 Introduction 7 Le lien avec ce qui précède provient du fait suivant : en posant p(, t) = loi de X t, on obtient une solution de l équation aux dérivées partielles précédente. Une approximation particulaire des solutions de cette équation peut donc être obtenue en considérant un système de N diffusions (X 1,N t,..., X N,N t ) t 0 i.i.d. évoluant comme ci-dessus, pour lequel on a donc, lorsque N est grand, p(, t) 1 N δ X i,n. t On note qu il n y a pas dans le système ci-dessus d interaction entre les différentes trajectoires de diffusion, celles-ci pouvant être simulées indépendamment. Considérons à présent l équation de McKean-Vlasov p(, t) t = 1 2 d i,j=1 2 x i x j (a ij [, p(, t)]p(, t)) d x i (b i [, p(, t)]p(, t)). Comme précédemment, p(, t) désigne une mesure de probabilité sur R d, tandis que pour x R d et p une mesure de probabilité sur R d, on a b[x, p] = b(x, y)dp(y), R d où b(x, y) R d, et σ(x, p) = σ(x, y)dp(y), R d a[x, p] = σ[x, p] t σ[x, p] et σ[x, p] = σ(x, y)dp(y), R d où σ est une matrice réelle d d. Toutes les fonctions ci-dessus sont supposées assez régulières, et l équation s entend au sens faible décrit ci-dessus. Sous des hypothèses de régularité suffisantes, il existe alors, pour toute condition initiale p(, 0), une unique solution valable pour tout t 0 de cette équation aux dérivées partielles. On considère alors le système de diffusions en interaction (X 1,N t,..., X 1,N t ) t 0, évoluant de la manière suivante : dx i,n t = b[x i,n t, µ N t ]dt + σ[x i,n t, µ N t ]dw i,n t,
8 8 où µ N t := 1 N δ X i,n, t et où les (W i,n t ) t 0 sont des mouvements Browniens sur R d indépendants, avec comme condition initiale le fait que X 1,N 0,..., X N,N 0 sont i.i.d. de loi p(, 0). Sous des hypothèses convenables, le système de diffusions ainsi obtenu fournit une approximation particulaire de la solution de l équation de McKean Vlasov ci-dessus : pour tout t 0, p(, t) µ N t. Bien que, du fait de l interaction entre les trajectoires, il n y ait pas indépendance entre celles-ci, cette dépendance disparaît pourtant lorsque l on considère un nombre fixé de trajectoires, dans la limite où N tend vers l infini. Autrement dit, pour une famille fixée d indices i 1,..., i k, on a, lorsque N est grand, que, pour tout t 0, loi(x i 1,N,..., X i k,n ) p(, t) k. Cette propriété est nommée «propagation du chaos». Pour en apprendre davantage sur le sujet, consulter par exemple [5, 6]. Bootstrap L idée sous-jacente aux méthodes de bootstrap est d étudier les propriétés de divers objets statistiques (estimateurs, intervalles de confiance, etc.) à partir de simulations réalisées en se basant sur des données observées disponibles. Apparue à la fin des années 1970, cette approche a constitué une révolution en statistique, ouvrant la possibilité de méthodes d inférence fiables non restreintes au cadre limité des modèles paramétriques pour lesquels des calculs explicites sont possibles. Le caractère automatique de la méthode, qui substitue des calculs numériques intensifs effectués par ordinateur selon une procédure standard à une analyse mathématique ardue devant être renouvelée pour chaque nouveau modèle, ajoute encore à son attrait, si bien que les méthodes de bootstrap constituent aujourd hui un outil incontournable dans de nombreuses situations de modélisation statistique. Pour illustrer le principe de base de la méthode, supposons par exemple que nous soyons en présence d une distribution de probabilité µ, et que nous cherchions à estimer un paramètre scalaire apparaissant comme une fonction de µ : θ = T (µ), à partir de données mesurées pouvant être modélisées comme un échantillon de variables i.i.d. X := (X 1,..., X N ) distribuées selon µ. Le paramètre θ peut être par exemple : l espérance, la variance, la médiane, etc.
9 Introduction 9 Le «principe du plug-in» suggère de remplacer µ dans la définition de θ par son approximation µ N := 1 δ N X i, et donc d utiliser comme estimateur de θ ˆθ := T (µ N ). Comment obtenir des informations sur la qualité de cet estimateur? Supposons (ce qui n est évidemment pas réaliste puisque µ n est pas connue exactement) que la valeur de θ = T (µ) soit connue, et qu il soit possible d effectuer des simulations selon la loi µ. Il serait alors possible de simuler des échantillons X (1) := (X 1 1,..., X N 1 ),..., X (B) := (X 1 B,..., X N B ) indépendants, chaque X (k) suivant la même loi que l échantillon X = (X 1,..., X N ) utilisé pour l estimation. En posant µ k N := 1 N δ X i, ˆθk := T (µ k k N), on constate que ˆθ 1,..., ˆθ B constitue un échantillon de variables aléatoires de même loi que ˆθ, et donc que 1 B δˆθk B k=1 fournit une approximation de la loi de ˆθ lorsque B est assez grand, permettant de mesurer la concentration de cette loi autour de la vraie valeur de θ = T (µ), supposée connue. En réalité, nous ne connaissons ni la vraie valeur de θ, qui est ce que nous cherchons à estimer, ni µ, ce qui compromet quelque peu les chances de pouvoir simuler des variables selon µ. L idée du boostrap (tout au moins dans sa forme la plus rudimentaire) est d appliquer la stratégie décrite ci-dessus en remplaçant µ par son approximation µ N obtenue à partir des données mesurées. En effet, il est facile de simuler selon la loi µ N, puisque cela revient simplement à choisir uniformément une valeur parmi X 1,..., X N, et la valeur T (µ N ) est forcément connue puisqu il s agit justement de notre estimateur ˆθ. Nous obtiendrons ainsi une approximation de la loi non pas de ˆθ, mais de l estimateur ˆθ obtenu, les valeurs de X 1,..., X N étant données, en partant d un échantillon X 1,..., X N
10 10 de v.a. i.i.d. distribuées selon la loi µ N, et en calculant ˆθ = T (µ N), où µ N := 1 N δ X i. On étudiera alors la concentration de la loi de ˆθ autour de T (µ N ), comme une approximation de la concentration de la loi de ˆθ autour de θ = T (µ), en espérant que µ N est suffisamment proche de µ pour que cette approximation soit satisfaisante. De manière plus explicite, on simulera donc des échantillons on posera X (1) := (X1 1,..., X1 N ),..., X(B) := (X1 B,..., XB N ), µ k N := 1 N δ X i k, ˆθk := T (µ k N ), et l on étudiera la concentration de la loi empirique 1 B autour de la valeur T (µ N ). Pour en apprendre plus sur le bootstrap, consulter par exemple [4, 12] B k=1 δˆθk Inférence bayésienne En statistique paramétrique classique, le modèle le plus habituel est le suivant. Une famille d observations est décrite par une variable aléatoire X, dont la loi dépend d un paramètre θ. On supposera ainsi que X suit une loi dont la densité (typiquement par rapport à la mesure de Lebesgue sur R d ou sur un sous-ensemble de R d, ou par rapport à la mesure de dénombrement dans le cas d une variable discrète) s écrit p θ ( ). On cherche alors à inférer la valeur de θ associée aux observations en utilisant par exemple la méthode du maximum de vraisemblance. Les modèles bayésiens supposent en plus la donnée d une loi a priori sur la valeur du paramètre, le résultat de l inférence sur le paramètre étant la loi a posteriori de celui-ci, c est-à-dire la loi du paramètre conditionnellement aux observations. On modélisera le couple (observation, paramètre) par un couple de variables aléatoires (X, Θ), la densité conditionnelle de X sachant la valeur Θ = θ étant donnée par
11 Introduction 11 p θ ( ), la densité de Θ étant, quant à elle, notée π( ). Par conséquent, la loi jointe du couple (X, Θ) sera donnée par f(x, θ) = p θ (x)π(θ). Avec ces notations, on constate que l objet que l on cherche à inférer, c est-à-dire la loi de Θ conditionnelle aux observations X = x, a pour densité π x (θ) = f(x, θ) f(x, θ)dλ(θ), où λ désigne la mesure de référence par rapport à laquelle la densité de Θ est définie. Cette formule explicite n est malheureusement pas forcément exploitable pour en déduire des informations sur la loi π x, par exemple parce que le facteur de normalisation f(x, θ)dλ(θ) ne peut pas être facilement calculé ou approché de manière convenable. La possibilité d utiliser les méthodes de Monte Carlo par chaînes de Markov (MCMC) pour échantillonner directement la loi π x a constitué une véritable révolution en statistique bayésienne, en permettant de dépasser le cadre restrictif des modèles pour lesquels un calcul explicite de la loi a posteriori est possible. Pour exposer très simplement le principe de base d une approche MCMC en statistique bayésienne, donnons une définition succincte de l algorithme de Metropolis dans un cadre général. On suppose donc donnée une mesure de probabilité ν sur un espace mesurable (S, S) possédant une densité g par rapport à une mesure de référence σ finie, ainsi qu un noyau de transition K de S dans lui-même, soit, pour fixer les idées, la donnée pour tout x S d une densité de probabilité k(x, ) sur S. L algorithme de Metropolis consiste, à partir d une valeur initiale Z 0 S, à construire une chaîne de Markov (Z n ) n 0 en itérant la procédure suivante : étant donnés Z 0,..., Z n, on génère Y selon la loi K(Z n, ). Si g(y )k(y, Z n ) g(z n )k(z n, Y ), on pose Z n+1 := Y. Dans le cas contraire, on choisit Z n+1 := Y avec une probabilité de g(y )K(Y, Z n )/g(z n )K(Z n, Y ), et Z n+1 := Z n dans le cas contraire. Sous des hypothèses génériques de régularité et de non-dégénérescence, la chaîne de Markov ainsi obtenue est ergodique et possède ν pour unique loi invariante. En particulier, on a que, lorsque N est grand, 1 N δ Zi ν, et l algorithme de Metropolis fournit ainsi une approximation particulaire de ν. On note que l application de l algorithme ne nécessite la connaissance de la densité g qu à une constante multiplicative près, ce qui permet donc de l appliquer au cas de la loi a posteriori décrit ci-dessus, où l on ne connaît généralement pas la constante
12 12 de normalisation f(x, θ)dλ(θ), mais où f(x, θ) est connue explicitement. Il suffit pour cela de disposer d un noyau de transition possédant les quelques propriétés de régularité nécessaires et facilement simulable, ce qui n est en général pas très difficile. Pour en savoir plus sur les méthodes bayésiennes, y compris les aspects computationnels, voir [10, 11]. Inférence pour les modèles de Markov cachés Rappelons la définition d une chaîne de Markov cachée : on se donne un espace d états cachés S et un espace d états observés V (que, pour simplifier, nous supposerons pour l instant finis), une loi initiale ν sur S, une famille de noyaux de transition (p k ) k 0 sur S, et une famille (q k ) k 0 de noyaux de transition de S vers V, c est-à-dire que, pour tout k 0 et x S, p k (x, ) est une probabilité sur S et q k (x, ) est une probabilité sur V. Une chaîne de Markov cachée associée à ces éléments est une suite de couples de variables aléatoires (X n, Y n ) n 0 telle que (X n ) n 0 est une chaîne de Markov associée à la loi initiale ν et à la famille de noyaux de transition (p k ) k 0, tandis que, conditionnellement à (X n ) n 0, les variables aléatoires (Y k ) k 0 sont indépendantes, la loi de Y k sur V étant donnée par q k (X k, ). Comme la terminologie le suggère, ce type de modèles est employé pour décrire des suites de variables observées Y 0, Y 1,..., dont la dépendance est en fait contrôlée par une suite markovienne de variables non-observées X 0, X 1,.... Parmi les différents problèmes d inférence posés par ces modèles (estimation des paramètres, du nombre d états cachés, etc.), l un d entre eux au centre de tout un ensemble de méthodes particulaires : l inférence des variables cachées X 0, X 1,... étant données les observations Y 0, Y 1,.... Exemple spécifique : le problème du filtrage. Autrement dit, la détermination de la loi de X m étant données les observations Y 0 = y 0,..., Y m = y m. (Exemple d application : on reçoit en temps réel des mesures bruitées de la position d un objet dont la vitesse de déplacement est modélisée par un processus markovien, et l on cherche à déterminer au mieux sa position au vu des observations disponibles.) Etant donnée une suite y 0, y 1,..., y m de valeurs observées, appelons Φ ν,m m la loi de X m conditionnelle à l événement Y 0:m = y 0:m. La suite Φ ν,m m obéit à une relation de récurrence que nous allons énoncer, après avoir introduit les notations nécessaires. Etant donnée un noyau de transition de S dans lui-même et une mesure de probabilité µ sur S, on définit µp comme la mesure de probabilité (µp)(x) = u S µ(u)p(u, x).
13 Introduction 13 Autrement dit, si Z est distribué selon µ, et si Z est obtenu en effectuant un pas du noyau p à partir de Z, alors Z est distribué selon la loi µp. D autre part, étant donnée une fonction f : S R + et une mesure de probabilité µ sur S, on définit la mesure de probabilité S f (µ) sur S par S f (µ)(x) = µ(x)f(x) u S µ(u)f(u). On vérifie alors que la suite des lois Φ ν,n obéit à la récurrence suivante : Concernant Φ ν,0, on a d autre part Φ ν,n+1 = S qn+1 (,y n+1 )(Φ ν,n p n ). Φ ν,0 = S q0 (,y 0 )(ν). On voit ainsi que l on a à résoudre une récurrence non-linéaire à valeurs dans les mesures de probabilité sur S. Il est possible de donner une interprétation particulaire aux étapes de cette récurrence, ce qui fournit un algorithme de résolution particulaire pour celle-ci. De manière générale, si une loi µ est approchée par une population sous la forme µ N = 1 N δ xi µ, i=0 on obtient une approximation de µp en tirant d abord N v.a. i.i.d. de loi µ N, soit W 1,..., W N et en effectuant, au départ de chaque W i, un pas selon le noyau p, pour produire une variabe R i. On voit qu ainsi µp µ N p 1 N δ R i. i=0 On préfèrera généralement effectuer un pas selon p au départ de chaque x i, pour limiter le bruit d échantillonnage. De même, une approximation de S f (µ) est obtenue en attribuant à chaque x i un poids égal à f(x i ) et en tirant Z 1,..., Z N de manière i.i.d. selon la loi N f(x i)δ xi N f(x i). On obtient ainsi un l algorithme particulaire suivant pour l estimation de Φ ν,n. Algorithme 1 (Algorithme SISR, version de base) L algorithme suivant produit séquentiellement des approximations particulaires de Φ ν,0 0,..., Φ ν,m m.
14 14 Initialisation : on part d un échantillon i.i.d. ξ N,1 1,..., ξn,n 1 distribué selon N,i ν, chaque ξ 1 possède un poids égal à 1. N,i Mutation : on obtient chaque ξ k+1 en faisant un pas en partant de ξn,i k selon le noyau p k, chaque ξ N,i k+1 se voit attribuer un poids égal à ω N,i k+1 := q k+1( ξ N,i k+1, y k+1). ξ N,1:N k+1 en utili- Sélection : on rééchantillonne ξ N,1:N k+1 de manière i.i.d. parmi sant les poids ω N,1:N k+1, i.e. selon la loi 1 N j=1 ωn,j k+1 ω N,i k+1 δ ξn,i. k+1 L approximation souhaitée est alors que, lorsque N est grand, Φ ν,n+1 1 N δ ξ n,i. Pour en savoir plus sur l estimation dans les modèles de Markov cachés, voir par exemple [2].
15 Chapitre 1 Inférence pour les modèles de Markov cachés Notre référence principale pour ce chapitre est l ouvrage 1 [2]. Voir également l ouvrage de référence [3] qui traite (entre autres) des méthodes particulaires dans le cadre général de l approximation des formules de type Feynman-Kac. 1.1 Définitions générales et rappels Noyaux de transition Définition 1 Etant donnés deux espaces mesurables (S 1, S 1 ) et (S 2, S 2 ), on appelle noyau de transition non-normalisé de S 1 vers S 2 toute application p(, ) de S 1 S 2 dans R + telle que : pour tout A S 2, x p(x, A) est une application mesurable de (S 1, S 1 ) dans R muni de sa tribu Borélienne ; pour tout x S 1, p(x, ) est une mesure positive sur (S 2, S 2 ). On parlera simplement de noyau de transition non-normalisé sur (S, S) lorsque (S 1, S 1 ) = (S 2, S 2 ) = (S, S). Lorsque p(x, ) est, pour tout x, une mesure de probabilité, on parle simplement de noyau de transition. On dit que le noyau p possède une densité par rapport à la mesure positive µ sur S 2 s il existe une fonction h définie sur S 1 S 2, à valeurs dans R +, mesurable par rapport à S 1 S 2, et telle que, pour tout x S, h(x, ) est une densité pour p(x, ) par rapport à µ. Rappelons l action d un noyau de transition (non-nécessairement normalisé) p de (S 1, S 1 ) et (S 2, S 2 ) sur une mesure positive π définie sur (S 1, S 1 ) : il s agit de la 1. Une version très abrégée du contenu de l ouvrage se trouve (octobre 2010) à l adresse http :// ebp/ebp13/mainbras.pdf
16 16 Modèles de Markov cachés mesure positive sur (S 2, S 2 ) définie par (πp)(a) = p(s, A)dπ(s). S 1 Si π est une mesure de probabilité et p un noyau de transition, pπ est alors une mesure de probabilité, qui fournit la loi de la variable aléatoire Z 2 obtenue en générant Z 1 selon la loi π, puis, conditionnellement à Z 1, Z 2 selon la loi p(z 1, ). Rappelons également l action d un noyau de transition (non-nécessairement normalisé) sur les fonctions : étant donné un noyau ) p de (S 1, S 1 ) et (S 2, S 2 ) et une fonction mesurable sur (S 1, S 1 ) à valeurs réelles, on définit formellement la fonction pf sur (S 1, S 1 ) par (pf)(x) := f(s)dp(x, s). Pour que cette action soit bien définie, on suppose par exemple que f est positive, ou que f est bornée et que p(x, ) est une mesure de masse finie pour tout x S 1. La fonction pf est alors mesurable sur (S 1, S 1 ). Etant données une mesure positive ν sur (S 0, S 0 ) et une suite de noyaux de transition non-normalisés p 0,..., p m, où p i est un noyau de (S i, S i ) vers (S i, S i+1 ), on notera M ν,p0:m la mesure positive définie sur (S 0 S m, S 0 S m ) par M ν,p0:m 1 (A) := dν(x 0 ) x 0 S 0 dp 0 (x 0, x 1 ) x 1 S 1 dp m 1 (x m 1, x m )1(x 0:m A). x m S m Lorsque J désigne une sous-famille d indices de {0,..., m}, nous désignerons par M J ν,p 0:m 1 la mesure image de M ν,p0:m 1 par la projection x 0:m (x j, j J) Chaînes de Markov cachées Une suite de variables aléatoires (X k ) k 0 à valeurs dans S est une chaîne de Markov associée à la suite de noyaux de transition (p k ) k 0 sur S lorsque, pour tout k 0, et tout A S, on a P (X k+1 A σ(x 0,..., X k )) = p k (X k, A) p.s. Etant donnée une telle chaîne de Markov, la loi jointe de X 0,..., X m n est autre que M ν,p0:m 1 (A), où ν désigne la loi de X 0. De manière générale, étant donnés un espace d états cachés (S, S) et un espace d états observés (V, V), une suite de noyaux de transition (p k ) k 0 sur S et (q k ) k 0 de S dans V, on dit qu une suite de variables aléatoires (X k, Y k ) k 0 à valeurs dans S V est une chaîne de Markov cachée associés aux noyaux (p k ) k 0 et (q k ) k 0 si
17 Inférence pour les modèles de Markov cachés 17 elle constitue une chaîne de Markov pour les noyaux de transition (r k ) k 0 définis sur (S V, S V ) par r k ((x, y), C) = dp k (x, x ) dq k (x, y )1((x, y ) C). x S y V On vérifie que cette définition généralise bien celle donnée dans le cas discret en introduction. En particulier, étant donnée une chaîne de Markov cachée (X n, Y n ) n 0 comme ci-dessus, on a, pour tout m 0, et pour tous B 0,..., B m V, P (Y 0 B 0,..., Y m B m σ(x 1,..., X m )) = q 0 (X 0, B 0 ) q m (X m, B m ) p.s. Ensemble d hypothèses 1 Nous supposerons dans la suite qu il existe une mesure positive µ σ-finie sur (S, S) telles que les noyaux q k (x, ) possèdent par rapport à µ une densité g k (x, ). 1.2 Loi a posteriori des états cachés L objet central auquel on s intéresse est la loi de la suite des états cachés conditionnellement aux observations. Dans la suite, nous noterons ν la loi de X 0. On note d abord que la loi jointe de (X 0:m, Y 0,m ) s écrit g 0 (x 0, y 0 ) g m (x m, y m )dm ν,p0:m 1 (x 0:m )dµ (m+1) (y 0:m ). Ainsi, la loi de Y 0:m a pour densité par rapport à µ (m+1) la densité définie pour tout y 0:m V m+1 par L ν,m (y 0:m ) := dm ν,p0:m 1 (x 0:m )g 0 (x 0, y 0 ) g m (x m, y m ), x 0:m S m+1 et, pour y 0:m V m+1 tel que L ν,m (y 0:m ) > 0, la loi de X 0:m conditionnelle à Y 0:m = y 0:m, notée Φ ν,0:m m, s écrit dφ ν,0:m m (x 0:m ) = L ν,m (y 0:m ) 1 g 0 (x 0, y 0 ) g m (x m, y m )dm ν,p0:m 1. Dans la suite, nous nous intéresserons particulièrement à la loi conditionnelle de X k sachant les observations Y 0:m = y 0:m, que nous noterons Φ ν,k m, et qui n est autre que la marginale de Φ ν,0:m m sur la coordonnée x k. Remarque 1 Dans la suite, nous supposerons toujours donnée une séquence y 0:m d observations par rapport auxquelles diverses lois conditionnelles sont considérées. La dépendance des diverses quantités par rapport à m ou y 0:m ne sera pas toujours explicitement mentionnée, pour alléger les notations.
18 18 Modèles de Markov cachés 1.3 Récurrence «avant-arrière» (ou «forward-backward») On introduit le noyau α ν,k de (V k+1, V (k+1) ) vers (S, S) défini de la manière suivante : α ν,k (y 0:k, ) est obtenu en projetant sur la k ème coordonnée la mesure définie comme g(x 0, y 0 ) g(x k, y k )dm ν,p0:k 1 (x 0:k ). On définit également une fonction sur V m k S par β k (y k+1:m, x k ) = dm k+1:m δ xk,p S m k k:m 1 (x k+1:m )g(x k+1, y k+1 ) g(x m, y m ). Proposition 1 Pour tout 0 k m, la loi de X k sachant Y 0:m = y 0:m est donnée par dφ ν,k m = L ν,m (y 0:m ) 1 β k (y k+1:m, x k )dα ν,k (y 0:k, x k ). Corollaire 2 Pour tout 0 k m, L ν,m (y 0:m ) = β k (y k+1:m, x k )dα ν,k (y 0:k, x k ). S Proposition 2 (Récurrence «vers l avant») Pour tout 0 k m 1, on a : dα ν,k+1 (y 0:k, x k+1 ) = d(α ν,k (y 0:k, )p k )(x k+1 )g k+1 (x k+1, y k+1 ). L initialisation est donnée par dα ν,0 (x 0, y 0 ) = dν(x 0 )g 0 (x 0, y 0 ). Proposition 3 (Récurrence «vers l arrière») Pour tout 0 k m 1, on a β k (y k+1,m, x k ) = dp k (x k, x k+1 )g k+1 (x k+1, y k+1 )β k+1 (y k+2:m, x k+1 ). L initialisation est donnée par β m (x m ) = 1. A supposer que les diverses intégrations nécessaires puissent être effectivement calculées, on obtient l algorithme «avant-arrière» suivant pour le calcul des lois Φ ν,k k. Algorithme 2 (Algorithme «avant-arrière») L algorithme suivant permet de calculer, pour tout k, la loi Φ ν,k k Etape 1 : calculer récursivement (vers l avant) α 0, α 1,..., α m ; Etape 2 : calculer récursivement (vers l arrière) β m, β m 1,..., β 0 ;
19 Inférence pour les modèles de Markov cachés 19 Etape 3 : normaliser la mesure définie par β k (y k+1:m, x k )dα ν,k (y 0:k, x k ) en la divisant par L ν,m (y 0:m ) = β k (y k+1:m, x k )dα ν,k (y 0:k, x k ). S On note que, dans le cas où S est un ensemble fini, les intégrations nécessaires se ramènent à des sommes portant sur les éléments de S, et peuvent donc être calculées numériquement sous réserve que le cardinal de S soit raisonnable. Il est possible de travailler directement avec des versions normalisées de α et de β, ce qui présente l avantage (numérique) de limiter les variations d ordre de grandeur des quantités manipulées dans la récurrence, et de permettre une interprétation probabiliste plus directe des quantités manipulées. On définit ainsi la version normalisée de α k par ᾱ ν,k (y 0:k, ) := α ν,k(y 0:k, ) α ν,k (y 0:k, S). Proposition 4 La version normalisée de α k est la loi de X k conditionnée à Y 0:k = y 0:k, i.e. ᾱ ν,k (y 0:k, ) = Φ ν,k k ( ). Corollaire 3 La constante de normalisation dans la définition ci-dessus vérifie α ν,k (y 0:k, S) = L ν,k (y 0:k ). On définit également une version normalisée de β k par β k (y k+1:m, ) := L ν,k(y 0:k ) L ν,m (y 0:m ) β k(y k+1:m, ). Proposition 5 Avec la définition ci-dessus, β k (y k+1:m, x k )dᾱ ν,k (y 0:k, x k ) = 1. Corollaire 4 La version normalisée de β k (y k+1:m, ) définie ci-dessus donne la densité de la loi de X k conditionnelle aux observations Y 0:m = y 0:m par rapport à la loi Φ ν,k de X k conditionnelle aux observations Y 0:k = y 0:k. Autrement dit : dφ ν,k m = β k (y k+1:m, x k )dᾱ ν,k (y 0:k, x k ) = β k (y k+1:m, x k )dφ ν,k k (x k ). Ainsi, si l on connaît ᾱ ν,k et β k plutôt que α ν,k et β k, on a directement accès à Φ ν,k m sans qu il soit nécessaire d effectuer une normalisation comme dans la dernière étape de l algorithme «avant-arrière» décrit ci-dessus.
20 20 Modèles de Markov cachés Proposition 6 (Récurrence «avant» normalisée) On a alors la récurrence «vers l avant» suivante pour la loi de filtrage (déjà vue en introduction) : pour tout 0 k m 1, dᾱ ν,k+1 (y 0:k, x k+1 ) = d(ᾱ ν,k(y 0:k, )p k )(x k+1 )g k+1 (x k+1, y k+1 ) S d(ᾱ. ν,kp k )(x k+1 )g k+1 (x k+1, y k+1 ) La récurrence ci-dessus peut se décomposer en deux étapes ayant une interprétation probabiliste et particulaire (nous utilisons la notation Φ ν,k k plutôt que ᾱ ν,k car c est celle qui sera employée dans la suite) : passage de Φ ν,k k à Φ ν,k k p k ; re-pondération de la probabilité Φ ν,k k p k ainsi obtenue proportionnellement à la fonction de poids g k+1 (, y k+1 ). Introduisons les noyaux non-normalisés T 0,..., T m 1 définis par dt k (x k, x k+1 ) = L ν,k(y 0:k ) L ν,k+1 (y 0:k+1 ) dp k(x k, x k+1 )g k+1 (x k+1, y k+1 ). La relation de récurrence avant se réécrit sous la forme suivante. Proposition 7 Φ ν,k+1 k+1 = Φ ν,k k T k ). On note qu une relation de récurrence similaire à celle vérifiée par les Φ ν,k k est également vérifiée par les Φ ν,0:k k. Proposition 8 Pour 0 k m 1, dφ ν,0:k+1 k+1 (x 0:k+1 ) = L ν,k(y 0:k ) L ν,k+1 (y 0:k+1 ) dm Φ ν,0:k k,p k (x 0:k+1 )g k+1 (x k+1, y k+1 ). On définit les constantes de normalisation c ν,k pour 0 k m par c ν,k := d(ᾱ ν,k 1 p k 1 )(x k+1 )g k (x k, y k ) pour 1 k m, et, pour k = 0, par c ν,0 := dᾱ ν,0 (x 0 )g 0 (x 0, y 0 ). Proposition 9 On a les identités pour 1 k m, et, pour k = 0, S S c ν,k = L ν,k(y 0:k ) L ν,k 1 (y 0:k+1 ) c ν,0 = L ν,0 (y 0 ).
21 Inférence pour les modèles de Markov cachés 21 Avec ces notations, on peut écrire les relations de récurrence «vers l arrière» de la manière suivante. Proposition 10 Pour tout 0 k m 1, β k (x k ) = c 1 ν,k+1 dp k (x k, x k+1 )g k+1 (x k+1, y k+1 ) β k+1 (x k+1 ), avec comme condition initiale β m (x m ) = 1. On obtient ainsi l algorithme avant-arrière normalisé suivant. Algorithme 3 (Algorithme «avant-arrière» normalisé) L algorithme suivant permet de calculer, pour tout k, la loi Φ ν,k k Etape 1 : calculer récursivement (vers l avant) ᾱ 0, α 1,..., α m, en calculant simultanément les constantes de normalisation c 0,..., c m. Etape 2 : calculer récursivement (vers l arrière) β m, β m 1,..., β Représentations markoviennes La loi de X 0:m conditionnellement aux observations Y 0:m = y 0:m est encore la loi d une chaîne de Markov, mais dont les noyaux doivent être convenablement modifiés Les noyaux ˆp k Etant donnée une suite de valeurs y 0:m S m+1, on définit pour tout 0 k m 1 le noyau de transition ˆp k sur (S, S) par dˆp k (x k, x k+1 ) = β k+1(y k+1:m, x k+1 ) g k+1 (x k+1, y k+1 )dp k (x k, x k+1 ), β k (y k:m, x k ) si β k (y k:m, x k ) > 0, et par n importe quel noyau lorsque β k (y k:m, x k ) = 0. Proposition 11 On a l identité Φ ν,0:m m = M Φν,0 m,ˆp 0:m 1. On voit ainsi qu il est possible d accéder à la loi de X k conditionnelle à Y 0:m en calculant récursivement les β k pour k de m à 0 au moyen de la récurrence «arrière», puis en utilisant la représentation markovienne ci-dessus.
22 22 Modèles de Markov cachés Les noyaux ˇp k Il est possible d obtenir une représentation markovienne allant dans le sens «arrière» sous réserve d hypothèses de régularité peu contraignantes. On cherche, pour tout 0 k m 1, un noyau de transition ˇp ν,k de (S, S) vers lui-même, satisfaisant l identité dφ ν,k k (x k )dp k (x k, x k+1 ) = dˇp ν,k (x k+1, x k )dφ ν,k+1 k (x k+1 ), (1.1) ce qui, de manière purement formelle, s écrit dˇp ν,k (x k+1, x k ) = dp k(x k, x k+1 ) dφ ν,k+1 k (x k+1 ) dφ ν,k k(x k ). Cette écriture a un sens rigoureux au moins dans le cas où S est discret, ou encore dans le cas où les noyaux p k sont dominés par une même mesure positive sur (S, S). Proposition 12 Si les noyaux (ˇp ν,k ) 0 k m 1 vérifient (1.1), alors Φ ν,m:0 m = M Φν,m m,ˇp m 1: Les noyaux p k On note que la relation de récurrence «avant» pour les lois de filtrage ne permet pas de fournir une représentation markovienne du même type. On peut tenter de définir, pour 0 k m 1, le noyau p k par d p k (x k, x k+1 ) = dp k (x k, x k+1 )g k+1 (x k+1, y k+1 ) x k+1 S dp k(x k, x k+1 )g k+1 (x k+1, y k+1 ) = dt k(x k x k+1), T k (x k, S) mais, en général, Φ ν,m m ne coïncide pas avec la loi de x m sous la mesure M Φν,0 0, p 0:m Conditionnement gauche-droite On note également le résultat du conditionnement par les états situés respectivement à gauche et à droite (on suppose ici que les noyaux p k possèdent une densité h k par rapport à une mesure de référence σ finie. On a alors que, sous Φ ν,0:m m, la densité de X k conditionnelle à (X j ) j k = (x j ) j k ne dépend que des valeurs de x k 1 et x k+1, et est, à une constante multiplicative près, donnée pour toute valeur x k par h k (x k 1, x k )h k+1 (x k, x k+1 )g k (x k, y k ).
23 Inférence pour les modèles de Markov cachés Initialisation en 1 Pour des raisons de cohérence des notations, il sera commode dans la suite de considérer notre problème comme portant sur une chaîne de Markov cachée initialisée en 1 plutôt qu en 0. On introduit à cette fin le noyau de transition p 1 de S dans lui-même défini par p 1 (x 1, ) = δ x 1, et g 1 (x 1, y 1 ) = 1 pour tous x 1 S et y 1 V. En fait, la loi conditionnelle des états cachés conditionnellement aux observations pour le problème initialisé en 1 coïncide exactement avec celle correspondant au problème initialisé en 0, car, pour le problème initialisé en 1, la loi de X 0:k conditionnellement à Y 1:k = y 1:k s identifie à la loi de X 0:k conditionnellement à Y 0:k = y 0:k pour le problème initialisé en 0.sur les coordonnées. Avec notre choix, on a X 1 = X 0 p.s., et la loi de X 1 est en particulier égale à ν. Du fait que g 1 est prise constante, on a également que la loi de X 1 conditionnelle à la valeur de Y 1, quelle que soit celle-ci, est simplement donnée par Φ ν, 1 1 = ν. En étendant les définitions précédentes, on dispose des objets T 1, β 1, ˆp 1 et L 1, et l on vérifie facilement que l opérateur T 1, qui vérifie que est donné par Φ ν,0 0 = T 1 ν = T 1 Φ ν, 1 1, dt 1 (x 0, x) = 1 L 0 dp 1 (x 0, x)g 0 (x). De même, gr ce à la relation de récurrence arrière, on constate que β 1 = β 0. Par ailleurs, ˆp 1 = p 1. Enfin, L 1 ne dépend pas de y 1, car L 1 1. (On peut donc utiliser de manière cohérente la notation L 1 = L 1 (y 0: 1 ).) 1.6 Approximations particulaires Nous décrivons dans cette section plusieurs algorithmes particulaires destinés à approcher numériquement les loi de filtrage Φ ν,k k.
24 24 Modèles de Markov cachés Algorithme SIS Rappelons la relation de récurrence pour les lois de filtrage : pour tout 0 k m 1, dφ ν,k+1 k+1 (y 0:k, x k+1 ) = d(φ ν,k kp k )(x k+1 )g k+1 (x k+1, y k+1 ) S d(φ ν,k kp k )(x k+1 )g k+1 (x k+1, y k+1 ), cette étape de récurrence pouvant se décomposer en deux étapes : passage de Φ ν,k k (y 0:k, ) à Φ ν,k k (y 0:k, )p k ; re-pondération de la probabilité Φ ν,k k (y 0:k, )p k ainsi obtenue proportionnellement à la fonction de poids g k+1 (, y k+1 ). Il est facile de produire une approximation particulaire de la première étape, car partant de ξ k distribuée selon Φ ν,k k, une variable ξ k+1 obtenue en faisant un pas en partant de ξ k selon le noyau p k est distribuée selon Φ ν,k k (y 0:k, )p k. Le problème est l étape de re-pondération. Une possibilité est de travailler avec des échantillons pondérés. En effet, si ξ N,1 k constitue un échantillon distribué selon Φ ν,k k (y 0:k, )p k, on obtient, en attribuant à chaque ξ N,i k+1 un poids égal := g k+1 (ξ N,i k+1, y k+1), un échantillon pondéré donnant une approximation de à ω N,i k,..., ξ N,N k Φ ν,k+1 k+1, au sens (pour l instant vague) où, pour une vaste classe de fonctions f, lorsque N est grand, 1 N j=1 ωn,j k+1 ω N,i k+1 f(ξn,i k+1 ) < f, Φ ν,k+1 k+1 >. On peut itérer cette idée, ce qui donne lieu à l algorithme d échantillonnage d importance séquentiel suivant (SIS pour Sequential Importance Sampling). Algorithme 4 (Algorithme SIS) L algorithme suivant produit séquentiellement des approximations particulaires de Φ ν,0 0,..., Φ ν,m m. Initialisation : on part d un échantillon i.i.d. ξ N,1 1,..., ξn,n 1 ν, et chaque ξ N,i 1 se voit attribuer un poids égal à 1. Itération : Etant donnés (ξ N,1:N k un pas en partant de ξ N,i k selon : Algorithme SISR distribué selon, ω N,1:N k en faisant selon le noyau p k. On met alors à jour les poids ), on obtient chaque ξ N,i k+1 ω N,i k+1 := ωn,i k g k+1 (ξ N,i k+1, y k+1). Le gros problème de l algorithme SIS est la dégéneresence des poids dès que le nombre d itérations dépasse quelques unités. L algorithme SISR (Sequential Importance Sampling with Resampling) tente de résoudre ce problème en ajoutant à chaque étape une phase de ré-échantillonnage proportionnellement aux poids.
25 Inférence pour les modèles de Markov cachés 25 Algorithme 5 (Algorithme SISR, version de base) L algorithme suivant produit séquentiellement des approximations particulaires de Φ ν,0 0,..., Φ ν,m m. Initialisation : on part d un échantillon i.i.d. ξ N,1 1,..., ξn,n 1 distribué selon N,i ν, chaque ξ 1 possède un poids égal à 1. N,i Mutation : on obtient chaque ξ k+1 en faisant un pas en partant de ξn,i k selon le noyau p k, chaque ξ N,i k+1 se voit attribuer un poids égal à ω N,i k+1 := g k+1( ξ N,i k+1, y k+1). ξ N,1:N k+1 en utili- Sélection : on rééchantillonne ξ N,1:N k+1 de manière i.i.d. parmi sant les poids ω N,1:N k+1, i.e. selon la loi 1 N j=1 ωn,j k+1 ω N,i k+1 δ ξn,i. k+1 Il peut également être intéressant d utiliser un autre noyau markovien que p k pour la mutation. Les poids doivent alors être modifiés pour en tenir compte. Algorithme 6 (Algorithme SISR, version générale) L algorithme suivant produit séquentiellement des approximations particulaires de Φ ν,0 0,..., Φ ν,m m. Initialisation : on part d un échantillon i.i.d. ξ N,1 distribué selon ξ N,i 1 ν, chaque possède un poids égal à 1. Mutation : on obtient chaque le noyau r k, chaque ξ N,i k+1 ξ N,i k+1 1,..., ξn,n 1 en faisant un pas en partant de ξn,i k se voit attribuer un poids égal à ω N,i k+1 := g k+1( ξ N,i k+1, y k+1) dp k((ξ N,i k, ) N,i dr k ((ξ N,i ( ξ k+1, ) ). k selon ξ N,1:N k+1 en utili- Sélection : on rééchantillonne ξ N,1:N k+1 de manière i.i.d. parmi sant les poids ω N,1:N k+1, i.e. selon la loi 1 N j=1 ωn,j k Algorithme i.i.d. séquentiel ω N,i k+1 δ ξn,i. k+1 Dans cette section, nous décrivons une variante de l algorithme SISR que nous appellerons algorithme i.i.d. séquentiel. On a la relation, pour tout k 1, Φ ν,k+1 k+1 = T k Φ ν,k k.
26 26 Modèles de Markov cachés L algorithme SISR utilisait la décomposition de T k en deux étapes, l une de mutation, et l autre de sélection. Une autre idée consiste, pour passer d une approximation particulaire de Φ ν,k k à une approximation particulaire de Φ ν,k+1 k+1, à échantillonner N particules de manière i.i.d. selon la loi obtenue en appliquant T k à l approximation particulaire de Φ ν,k k et en normalisant. Algorithme 7 (Algorithme i.i.d. séquentiel) L algorithme suivant produit séquentiellement des approximations particulaires de Φ ν,0 0,..., Φ ν,m m. Initialisation : on part d un échantillon i.i.d. ξ N,1 1,..., ξn,n 1 distribué selon N,i ν, chaque ξ 1 possède un poids égal à 1. Echantillonnage : générer ξ N,1:N k+1 comme un échantillon i.i.d. distribué selon la loi Ψ N k T k (Ψ N k T k)(s), où Ψ N k := 1 N δ ξ N,i. k On note que l on peut réécrire la loi utilisée pour l échantillonnage comme le mélange de lois Ψ N k T k N (Ψ N k T k)(s) = γ N,i T k (ξ N,i k, ) k T k (ξ N,i k, S), où γ N,i k := T k (ξ N,i k, S) N T k(ξ N,i k, S). 1.7 Comportement asymptotique Dans cette partie, on s intéresse au comportement asymptotique des approximations particulaires obtenues par les algorithmes particulaires décrits dans la partie précédente. Nous prendrons comme classe de fonctions de référence auxquelles l approximation particulaire est susceptible d être appliquée l ensemble B(S) des fonctions boréliennes bornées de (S, S) dans R. Définition 2 Nous appellerons famille d échantillons pondérés toute famille de variables aléatoires (Z N,i, ρ N,i ), où N 1 et 1 i N, Z N,i X et ρ N,i 0, telle que S N := N ρn,i > 0 avec probabilité 1 pour tout N 1.
27 Inférence pour les modèles de Markov cachés Consistance Nous dirons qu une telle famille est une approximation particulaire consistante d une mesure de probabilité χ sur S si, lorsque N tend vers l infini, on a, pour tout f B(S), la convergence en probabilité 1 S N ρ N,i f(z N,i P ) < f, χ >. Etape de mutation de SISR Pour analyser l étape de mutation de l algorithme SISR, nous nous placerons dans le cadre général suivant. Soit L un noyau de transition non-normalisé de S vers lui-même, et soit K un noyau de transition de S vers lui-même tel qu il existe une application mesurable h de (S S, S S) dans R + telle que, pour tout x S, h(x, ) est une densité de L(x, ) par rapport à K(x, ). On suppose à présent que l on dispose d un échantillon pondéré (ξ N,i, 1), et que, pour tout N, on a que, conditionnellement à ξ N,1:N, les ξ N,i sont des variables aléatoires à valeurs dans X, indépendantes, et telles que, pour tout i, ξ N,i suit la loi R(ξ N,i, ). On définit alors ω N,i := h(ξ N,i, ξ N,i ). Proposition 13 Sous l hypothèse que h est bornée, le fait que (ξ N,i, 1) soit une approximation particulaire consistante de χ implique que ( ξ N,i, ω N,i ) est une approximation particulaire consistante de χ := χl (χl)(s). En prenant L défini par dl(x k, x k+1 ) = dp k (x k, x k+1 )g k+1 (x k+1, y k+1 ) et K = p k, on retrouve l étape de mutation de l algorithme SISR de base. La proposition cidessus inclut également l étape de mutation de la version générale de l algorithme. Preuve : On pose S N := N ωn,i. Ce que l on veut prouver est que, pour toute f B(S), on a la convergence en probabilité 1 S N ω N,i f( ξ N,i P < f, χl > ) (χl)(s). (1.2) Il suffit en fait de prouver que, pour toute f B(S), on a 1 N ω N,i f( ξ N,i P ) < f, χl >. (1.3)
28 28 Modèles de Markov cachés En effet, en prenant f 1 dans la limite ci-dessus, on obtient le fait que S N N = 1 N ω N,i P (χl)(s), et le résultat souhaité (1.2) se déduit ainsi de (1.3). Notons G N la tribu σ(ξ N,i, 1 i N). On observe d abord que, par définition, E( ω N,i f( ξ N,i ) G N ) = h(ξ N,i, x)f(x)dk(ξ N,i, x) = (Lf)(ξ N,i ). Ensuite, comme (ξ N,i, 1) est une approximation particulaire consistante de χ, on en déduit que 1 N N E( ω N,i f( ξ N,i ) G N ) = 1 N 1 N (Lf)(ξ N,i P ) < Lf, ν >=< f, νl >. Par conséquent, il suffit de montrer que ( ω N,i f( ξ N,i ) 1 N ) N E ω N,i f( ξ N,i ) G N P 0 pour conclure. Or, conditionnellement à G N, les variables ω N,i f( ξ N,i ), 1 i N sont indépendantes, et, par hypothèse, bornées. On dispose donc d une borne du type ( ) 1 V ω N,i f( ξ N,i ) G N C N N p.s. d où, pour tout a > 0, ( 1 P ω N,i f( ξ N,i ) 1 N ) N N E( ω N,i f( ξ N,i ) G N ) a a C N, ce qui donne la conclusion voulue. Etape de sélection de SISR Pour analyser l étape de sélection de l algorithme SISR, nous nous placerons dans le cadre général suivant. Nous supposerons que l on dispose d un échantillon pondéré ( ξ N,i, ω N,i ) Considérons maintenant des variables ξ N,i obtenues par rééchantillonnage i.i.d. de cet échantillon, c est-à-dire que, conditionnellement à ξ N,1:N, les ξ N,i sont des variables aléatoires à valeurs dans S, i.i.d., et telle que, pour tout i, ξ N,i suit la loi 1 N,i ω S δ ξn,i. N
29 Inférence pour les modèles de Markov cachés 29 Proposition 14 Si ( ξ N,i, ω N,i ) constitue une approximation particulaire consistante d une mesure de probabilité τ sur (S, S), et si les poids vérifient une borne de la forme ω N,i C p.s., alors (ξ N,i, 1) constitue une approximation particulaire consistante de τ. Preuve : On introduit H N, la tribu engendrée par les ξ N,1:N, et l on considère f B(S). On note d abord que E(f(ξ N,i ) H N ) = 1 S N d où le fait que ( ) 1 E f(ξ N,i ) H N N = 1 S N j=1 ω N,j f( ξ N,j ), j=1 ω N,j f( ξ N,j P ) < f, τ >. Ensuite, exactement la même stratégie de preuve que pour la proposition précédente, en utilisant l hypothèse de bornitude des poids (et le fait que f également est bornée). Consistance de SISR En regroupant les propositions précédentes, on obtient le théorème suivant concernant l algorithme SISR. Ensemble d hypothèses 2 Supposons que : pour tout 0 k m et tout x k S, x k g k (x k, y k ) est strictement positive et bornée ; pour tout 0 k m 1, il existe une version strictement positive et bornée h k de la densité de p k par rapport à r k. Théorème 1 Sous l ensemble d hypothèses 2, pour tout 0 k m, l échantillon (ξ N,i k, 1) produit par l algorithme SISR constitue une approximation particulaire consistante de Φ ν,k k. Consistance de l algorithme i.i.d. séquentiel Avec des arguments similaires à ceux employés pour l algorithme SISR, on prouve le théorème suivant. Ensemble d hypothèses 3 Supposons que, pour tout 0 k m et tout x k S, x k g k (x k, y k ) est strictement positive et bornée.
30 30 Modèles de Markov cachés Théorème 2 Sous l ensemble d hypothèses 3, pour tout 0 k m, l échantillon (ξ N,i k, 1) produit par l algorithme i.i.d. séquentiel constitue une approximation particulaire consistante de Φ ν,k k Normalité asymptotique Etant donné un échantillon pondéré (Z N,i, ρ N,i ) constituant une approximation particulaire consistante d une mesure de probabilité χ sur S, nous dirons que (Z N,i, ρ N,i ) satisfait un théorème de la limite centrale avec fonction de variance v, où v est une fonction de B(S) dans R +, si, lorsque N tend vers l infini, on a, pour tout f B(S), la convergence en loi ) N 1/2 ( 1 S N ρ N,i f(z N,i ) < f, χ > Etape de mutation de SISR d N (0, v(f)). On suppose à nouveau que l on dispose d un échantillon pondéré (ξ N,i, 1), et que, pour tout N, on a que, conditionnellement à ξ N,1:N, les ξ N,i sont des variables aléatoires à valeurs dans S, indépendantes, et telle que, pour tout i, ξ N,i suit la loi K(ξ N,i, ). On définit alors ω N,i := h(ξ N,i, ξ N,i ). Proposition 15 Sous l hypothèse que h est bornée, le fait que (ξ N,i, 1) soit une approximation particulaire consistante de χ satisfaisant un théorème de la limite centrale avec fonction de variance v implique que ( ξ N,i, ω N,i ) est une approximation χl (χl)(s) particulaire consistante de satisfaisant un théorème de la limite centrale avec fonction de variance ṽ définie par où ṽ(f) := w(f) := v(l(f < f, χ >)) + w(l(f < f, χ >)) (χl)(s) 2, dχ(x)dk(x, x )(h(x, x )f(x )) 2 dχ(x)(lf(x)) 2. Nous nous appuierons pour la preuve sur un léger renforcement du théorème classique de Lindeberg-Feller (Proposition dans [2]). Théorème 3 Etant donnée une famille V N,i N 1, 1 i N, de variables aléatoires à valeurs réelles, et une famille de sous-tribus F N telles que, conditionnellement à F N, les variables V N,1,..., V N,N sont indépendantes, alors, sous les hypothèses suivantes : (i) pour tous N, i, E((V N,i ) 2 F N ) < +,
31 Inférence pour les modèles de Markov cachés 31 (ii) il existe une constante v > 0 telle que, (iii) pour tout ɛ > 0, E((V N,i ) 2 F N ) (E(V N,i F N )) 2 P v, E((V N,i ) 2 1( V N,i P ɛ) F N ) 0, alors, pour tout λ R, on a [ ( ) ] E exp iλ (V N,i E(V N,i P F N )) F N exp( (λ 2 /2)v). Preuve de la proposition : Quitte à soustraire une constante, on suppose que < f, χ >= 0. En utilisant le fait que S N P (χl)(s), N on voit qu il suffit d établir la convergence vers la loi gaussienne N (0, v(lf) + w(f)) de 1 N 1/2 ω N,i f( ξ N,i ) = A N + B N N 1/2, où et A N := B N := ω N,i f( ξ N,i ) E( ω N,i f( ξ N,i ) G N ) E( ω N,i f( ξ N,i ) G N ) = Lf(ξ N,i ). Gr ce au théorème de la limite centrale satisfait par (ξ N,i, 1), on a la convergence en loi N 1/2 d B N N (0, v(lf)), d où, pour tout λ, le fait que [ E exp ( iλn 1/2 B N )] P exp( (λ 2 /2)v(Lf)). (1.4) Ensuite, on vérifie facilement qu il est possible d appliquer le théorème de Lindeberg- Feller renforcé donné ci-dessus avec V N,i := N 1/2 ω N,i f( ξ N,i ) et F N := G N. On en déduit que, pour tout λ,
32 32 Modèles de Markov cachés [ ) ] E exp (iλn 1/2 P A N F N exp( (λ 2 /2)w(f)). (1.5) En combinant (1.4) et (1.5), on en déduit facilement que, pour tous λ 1 et λ 2, [ ( )] E exp iλn 1/2 P (λ 1 A N + λ 2 B N ) exp( (λ 2 1/2)v(Lf) (λ 2 2/2)w(f)), d où le résultat voulu. Etape de sélection de SISR Nous supposerons donc que l on dispose d un échantillon pondéré ( ξ N,i, ω N,i ). Considérons maintenant des variables ξ N,i obtenues par ré-échantillonnage i.i.d. de cet échantillon, c est-à-dire que, conditionnellement à ξ N,1:N, les ξ N,i sont des variables aléatoires à valeurs dans S, i.i.d., et telle que, pour tout i, ξ N,i suit la loi 1 S N N,i ω δ ξn,i. Proposition 16 Si ( ξ N,i, ω N,i ) constitue une approximation particulaire consistante d une mesure de probabilité τ sur (S, S) satisfaisant un théorème de la limite centrale avec fonction de variance ṽ, et si les poids vérifient une borne de la forme ω N,i C p.s., alors (ξ N,i, 1) constitue une approximation particulaire consistante de τ satisfaisant un théorème de la limite centrale avec fonction de variance v définie par v(f) = ṽ(f)+ < (f < f, τ >) 2, τ >= ṽ(f) + V τ (f). Preuve : Sans perte de généralité, on suppose que < f, τ >= 0, et l on écrit avec et B N := N 1/2 A N := N f(ξ N,i ) = N 1/2 (A N + B N ), (f(ξ N,i ) E(f(ξ N,i ) H N ) E(f(ξ N,i ) H N ) = Ñ S N N j=1 ω N,j f( ξ N,j ). Le théorème limite central supposé pour ( ξ N,i, ω N,i ) entraîne la convergence en loi N 1/2 B N d N (0, ṽ(f)).
3 Approximation de solutions d équations
3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle
Plus en détailTexte Agrégation limitée par diffusion interne
Page n 1. Texte Agrégation limitée par diffusion interne 1 Le phénomène observé Un fût de déchets radioactifs est enterré secrètement dans le Cantal. Au bout de quelques années, il devient poreux et laisse
Plus en détailFiltrage stochastique non linéaire par la théorie de représentation des martingales
Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de
Plus en détailProbabilités III Introduction à l évaluation d options
Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un
Plus en détailCONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Plus en détailSimulation de variables aléatoires
Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo
Plus en détailIntégration et probabilités TD1 Espaces mesurés Corrigé
Intégration et probabilités TD1 Espaces mesurés Corrigé 2012-2013 1 Petites questions 1 Est-ce que l ensemble des ouverts de R est une tribu? Réponse : Non, car le complémentaire de ], 0[ n est pas ouvert.
Plus en détail3. Conditionnement P (B)
Conditionnement 16 3. Conditionnement Dans cette section, nous allons rappeler un certain nombre de définitions et de propriétés liées au problème du conditionnement, c est à dire à la prise en compte
Plus en détailMaster Modélisation Aléatoire Paris VII, Cours Méthodes de Monte Carlo en nance et C++, TP n 2.
Master Modélisation Aléatoire Paris VII, Cours Méthodes de Monte Carlo en nance et C++, TP n 2. Techniques de correction pour les options barrières 25 janvier 2007 Exercice à rendre individuellement lors
Plus en détailI. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.
I. Introduction. 1. Objectifs. Le but de ces quelques séances est d introduire les outils mathématiques, plus précisément ceux de nature probabiliste, qui interviennent dans les modèles financiers ; nous
Plus en détailMCMC et approximations en champ moyen pour les modèles de Markov
MCMC et approximations en champ moyen pour les modèles de Markov Gersende FORT LTCI CNRS - TELECOM ParisTech En collaboration avec Florence FORBES (Projet MISTIS, INRIA Rhône-Alpes). Basé sur l article:
Plus en détail4. Martingales à temps discret
Martingales à temps discret 25 4. Martingales à temps discret 4.1. Généralités. On fixe un espace de probabilités filtré (Ω, (F n ) n, F, IP ). On pose que F contient ses ensembles négligeables mais les
Plus en détailPremière partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015
Énoncé Soit V un espace vectoriel réel. L espace vectoriel des endomorphismes de V est désigné par L(V ). Lorsque f L(V ) et k N, on désigne par f 0 = Id V, f k = f k f la composée de f avec lui même k
Plus en détailRésolution d équations non linéaires
Analyse Numérique Résolution d équations non linéaires Said EL HAJJI et Touria GHEMIRES Université Mohammed V - Agdal. Faculté des Sciences Département de Mathématiques. Laboratoire de Mathématiques, Informatique
Plus en détailTESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION
TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION Bruno Saussereau Laboratoire de Mathématiques de Besançon Université de Franche-Comté Travail en commun
Plus en détailFonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre
IUFM du Limousin 2009-10 PLC1 Mathématiques S. Vinatier Rappels de cours Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre 1 Fonctions de plusieurs variables
Plus en détailModèles à Événements Discrets. Réseaux de Petri Stochastiques
Modèles à Événements Discrets Réseaux de Petri Stochastiques Table des matières 1 Chaînes de Markov Définition formelle Idée générale Discrete Time Markov Chains Continuous Time Markov Chains Propriétés
Plus en détailLe modèle de Black et Scholes
Le modèle de Black et Scholes Alexandre Popier février 21 1 Introduction : exemple très simple de modèle financier On considère un marché avec une seule action cotée, sur une période donnée T. Dans un
Plus en détailProbabilités sur un univers fini
[http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur
Plus en détailProgrammes des classes préparatoires aux Grandes Ecoles
Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme
Plus en détailCommun à tous les candidats
EXERCICE 3 (9 points ) Commun à tous les candidats On s intéresse à des courbes servant de modèle à la distribution de la masse salariale d une entreprise. Les fonctions f associées définies sur l intervalle
Plus en détailTP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options
Université de Lorraine Modélisation Stochastique Master 2 IMOI 2014-2015 TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options 1 Les options Le but de ce
Plus en détailChapitre 2 Le problème de l unicité des solutions
Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)
Plus en détailIntégration et probabilités TD1 Espaces mesurés
Intégration et probabilités TD1 Espaces mesurés 2012-2013 1 Petites questions 1) Est-ce que l ensemble des ouverts de R est une tribu? 2) Si F et G sont deux tribus, est-ce que F G est toujours une tribu?
Plus en détailThéorème du point fixe - Théorème de l inversion locale
Chapitre 7 Théorème du point fixe - Théorème de l inversion locale Dans ce chapitre et le suivant, on montre deux applications importantes de la notion de différentiabilité : le théorème de l inversion
Plus en détailSéminaire TEST. 1 Présentation du sujet. October 18th, 2013
Séminaire ES Andrés SÁNCHEZ PÉREZ October 8th, 03 Présentation du sujet Le problème de régression non-paramétrique se pose de la façon suivante : Supposons que l on dispose de n couples indépendantes de
Plus en détailExercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.
14-3- 214 J.F.C. p. 1 I Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. Exercice 1 Densité de probabilité. F { ln x si x ], 1] UN OVNI... On pose x R,
Plus en détailMéthodes de quadrature. Polytech Paris-UPMC. - p. 1/48
Méthodes de Polytech Paris-UPMC - p. 1/48 Polynôme d interpolation de Preuve et polynôme de Calcul de l erreur d interpolation Étude de la formule d erreur Autres méthodes - p. 2/48 Polynôme d interpolation
Plus en détailMéthodes de Simulation
Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents
Plus en détailThéorèmes de Point Fixe et Applications 1
Théorèmes de Point Fixe et Applications 1 Victor Ginsburgh Université Libre de Bruxelles et CORE, Louvain-la-Neuve Janvier 1999 Published in C. Jessua, C. Labrousse et D. Vitry, eds., Dictionnaire des
Plus en détailProgrammation linéaire et Optimisation. Didier Smets
Programmation linéaire et Optimisation Didier Smets Chapitre 1 Un problème d optimisation linéaire en dimension 2 On considère le cas d un fabricant d automobiles qui propose deux modèles à la vente, des
Plus en détailProbabilités sur un univers fini
[http://mp.cpgedupuydelome.fr] édité le 10 août 2015 Enoncés 1 Proailités sur un univers fini Evènements et langage ensemliste A quelle condition sur (a,, c, d) ]0, 1[ 4 existe-t-il une proailité P sur
Plus en détailModélisation aléatoire en fiabilité des logiciels
collection Méthodes stochastiques appliquées dirigée par Nikolaos Limnios et Jacques Janssen La sûreté de fonctionnement des systèmes informatiques est aujourd hui un enjeu économique et sociétal majeur.
Plus en détailExercices - Fonctions de plusieurs variables : corrigé. Pour commencer
Pour commencer Exercice 1 - Ensembles de définition - Première année - 1. Le logarithme est défini si x + y > 0. On trouve donc le demi-plan supérieur délimité par la droite d équation x + y = 0.. 1 xy
Plus en détailProgrammation linéaire
1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit
Plus en détailSur certaines séries entières particulières
ACTA ARITHMETICA XCII. 2) Sur certaines séries entières particulières par Hubert Delange Orsay). Introduction. Dans un exposé à la Conférence Internationale de Théorie des Nombres organisée à Zakopane
Plus en détailSouad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/
Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation
Plus en détailEXERCICE 4 (7 points ) (Commun à tous les candidats)
EXERCICE 4 (7 points ) (Commun à tous les candidats) On cherche à modéliser de deux façons différentes l évolution du nombre, exprimé en millions, de foyers français possédant un téléviseur à écran plat
Plus en détailChapitre 3. Mesures stationnaires. et théorèmes de convergence
Chapitre 3 Mesures stationnaires et théorèmes de convergence Christiane Cocozza-Thivent, Université de Marne-la-Vallée p.1 I. Mesures stationnaires Christiane Cocozza-Thivent, Université de Marne-la-Vallée
Plus en détailCalcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.
1 Définitions, notations Calcul matriciel Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes. On utilise aussi la notation m n pour le
Plus en détailChapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens
Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques
Plus en détailQuantification Scalaire et Prédictive
Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction
Plus en détailLa fonction exponentielle
DERNIÈRE IMPRESSION LE 2 novembre 204 à :07 La fonction exponentielle Table des matières La fonction exponentielle 2. Définition et théorèmes.......................... 2.2 Approche graphique de la fonction
Plus en détailMathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans
Mathématique et Automatique : de la boucle ouverte à la boucle fermée Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans Maitine.Bergounioux@labomath.univ-orleans.fr Plan 1. Un peu de
Plus en détailMoments des variables aléatoires réelles
Chapter 6 Moments des variables aléatoires réelles Sommaire 6.1 Espérance des variables aléatoires réelles................................ 46 6.1.1 Définition et calcul........................................
Plus en détailChapitre 3. Algorithmes stochastiques. 3.1 Introduction
Chapitre 3 Algorithmes stochastiques 3.1 Introduction Les algorithmes stochastiques sont des techniques de simulation numériques de chaînes de Markov, visant à résoudre des problèmes d optimisation ou
Plus en détailMATHS FINANCIERES. Mireille.Bossy@sophia.inria.fr. Projet OMEGA
MATHS FINANCIERES Mireille.Bossy@sophia.inria.fr Projet OMEGA Sophia Antipolis, septembre 2004 1. Introduction : la valorisation de contrats optionnels Options d achat et de vente : Call et Put Une option
Plus en détailEspérance conditionnelle
Espérance conditionnelle Samy Tindel Nancy-Université Master 1 - Nancy Samy T. (IECN) M1 - Espérance conditionnelle Nancy-Université 1 / 58 Plan 1 Définition 2 Exemples 3 Propriétés de l espérance conditionnelle
Plus en détailTests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles
Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA
Plus en détailExamen optimisation Centrale Marseille (2008) et SupGalilee (2008)
Examen optimisation Centrale Marseille (28) et SupGalilee (28) Olivier Latte, Jean-Michel Innocent, Isabelle Terrasse, Emmanuel Audusse, Francois Cuvelier duree 4 h Tout resultat enonce dans le texte peut
Plus en détailMA6.06 : Mesure et Probabilités
Année universitaire 2002-2003 UNIVERSITÉ D ORLÉANS Olivier GARET MA6.06 : Mesure et Probabilités 2 Table des matières Table des matières i 1 Un peu de théorie de la mesure 1 1.1 Tribus...............................
Plus en détailRaisonnement probabiliste
Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailLes mathématiques de la finance Université d été de Sourdun Olivier Bardou olivier.bardou@gdfsuez.com 28 août 2012 De quoi allons nous parler? des principales hypothèses de modélisation des marchés, des
Plus en détailIntégration sur des espaces produits
Chapitre 5 Intégration sur des espaces produits 5.1 Produit de deux mesures Étant donnés deux espaces mesurés (Ω 1, F 1, µ 1 ) et (Ω 2, F 1, µ 2 ), le but de cette section est de construire une mesure
Plus en détailContents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes
Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire
Plus en détailThéorie de l estimation et de la décision statistique
Théorie de l estimation et de la décision statistique Paul Honeine en collaboration avec Régis Lengellé Université de technologie de Troyes 2013-2014 Quelques références Decision and estimation theory
Plus en détailTSTI 2D CH X : Exemples de lois à densité 1
TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun
Plus en détailLes équations différentielles
Les équations différentielles Equations différentielles du premier ordre avec second membre Ce cours porte exclusivement sur la résolution des équations différentielles du premier ordre avec second membre
Plus en détailLa Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1
La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois
Plus en détailExercices - Polynômes : corrigé. Opérations sur les polynômes
Opérations sur les polynômes Exercice 1 - Carré - L1/Math Sup - Si P = Q est le carré d un polynôme, alors Q est nécessairement de degré, et son coefficient dominant est égal à 1. On peut donc écrire Q(X)
Plus en détailde calibration Master 2: Calibration de modèles: présentation et simulation d
Master 2: Calibration de modèles: présentation et simulation de quelques problèmes de calibration Plan de la présentation 1. Présentation de quelques modèles à calibrer 1a. Reconstruction d une courbe
Plus en détailModélisation et simulation
Modélisation et simulation p. 1/36 Modélisation et simulation INFO-F-305 Gianluca Bontempi Département d Informatique Boulevard de Triomphe - CP 212 http://www.ulb.ac.be/di Modélisation et simulation p.
Plus en détailEconomie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de
Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de l espérance d utilité Olivier Bos olivier.bos@u-paris2.fr
Plus en détailPrécision d un résultat et calculs d incertitudes
Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................
Plus en détailIntégrale de Lebesgue
Intégrale de Lebesgue L3 Mathématiques Jean-Christophe Breton Université de Rennes 1 Septembre Décembre 2014 version du 2/12/14 Table des matières 1 Tribus (σ-algèbres) et mesures 1 1.1 Rappels ensemblistes..............................
Plus en détailProgrammation linéaire
Programmation linéaire DIDIER MAQUIN Ecole Nationale Supérieure d Electricité et de Mécanique Institut National Polytechnique de Lorraine Mathématiques discrètes cours de 2ème année Programmation linéaire
Plus en détailApprentissage non paramétrique en régression
1 Apprentissage non paramétrique en régression Apprentissage non paramétrique en régression Résumé Différentes méthodes d estimation non paramétriques en régression sont présentées. Tout d abord les plus
Plus en détailCorrection de l examen de la première session
de l examen de la première session Julian Tugaut, Franck Licini, Didier Vincent Si vous trouvez des erreurs de Français ou de mathématiques ou bien si vous avez des questions et/ou des suggestions, envoyez-moi
Plus en détailDe même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que
Introduction. On suppose connus les ensembles N (des entiers naturels), Z des entiers relatifs et Q (des nombres rationnels). On s est rendu compte, depuis l antiquité, que l on ne peut pas tout mesurer
Plus en détailÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE
ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE JEAN-DENIS FOUKS, EMMANUEL LESIGNE ET MARC PEIGNÉ J.-D. Fouks. École Supérieure d Ingénieurs de Poitiers. 40 avenue du Recteur Pineau, 860 Poitiers
Plus en détailLimites finies en un point
8 Limites finies en un point Pour ce chapitre, sauf précision contraire, I désigne une partie non vide de R et f une fonction définie sur I et à valeurs réelles ou complees. Là encore, les fonctions usuelles,
Plus en détailFONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)
FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4) Bernard Le Stum Université de Rennes 1 Version du 13 mars 2009 Table des matières 1 Fonctions partielles, courbes de niveau 1 2 Limites et continuité
Plus en détailContinuité en un point
DOCUMENT 4 Continuité en un point En général, D f désigne l ensemble de définition de la fonction f et on supposera toujours que cet ensemble est inclus dans R. Toutes les fonctions considérées sont à
Plus en détailLe théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche
Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche Bachir Bekka Février 2007 Le théorème de Perron-Frobenius a d importantes applications en probabilités (chaines
Plus en détailFonctions de plusieurs variables
Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme
Plus en détailCalcul différentiel sur R n Première partie
Calcul différentiel sur R n Première partie Université De Metz 2006-2007 1 Définitions générales On note L(R n, R m ) l espace vectoriel des applications linéaires de R n dans R m. Définition 1.1 (différentiabilité
Plus en détailTravaux dirigés d introduction aux Probabilités
Travaux dirigés d introduction aux Probabilités - Dénombrement - - Probabilités Élémentaires - - Variables Aléatoires Discrètes - - Variables Aléatoires Continues - 1 - Dénombrement - Exercice 1 Combien
Plus en détailDOCM 2013 http://docm.math.ca/ Solutions officielles. 1 2 10 + 1 2 9 + 1 2 8 = n 2 10.
A1 Trouvez l entier positif n qui satisfait l équation suivante: Solution 1 2 10 + 1 2 9 + 1 2 8 = n 2 10. En additionnant les termes du côté gauche de l équation en les mettant sur le même dénominateur
Plus en détailProjet de Traitement du Signal Segmentation d images SAR
Projet de Traitement du Signal Segmentation d images SAR Introduction En analyse d images, la segmentation est une étape essentielle, préliminaire à des traitements de haut niveau tels que la classification,
Plus en détailRésolution de systèmes linéaires par des méthodes directes
Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.
Plus en détailPRIME D UNE OPTION D ACHAT OU DE VENTE
Université Paris VII - Agrégation de Mathématiques François Delarue) PRIME D UNE OPTION D ACHAT OU DE VENTE Ce texte vise à modéliser de façon simple l évolution d un actif financier à risque, et à introduire,
Plus en détailLe produit semi-direct
Le produit semi-direct Préparation à l agrégation de mathématiques Université de Nice - Sophia Antipolis Antoine Ducros Octobre 2007 Ce texte est consacré, comme son titre l indique, au produit semi-direct.
Plus en détailImage d un intervalle par une fonction continue
DOCUMENT 27 Image d un intervalle par une fonction continue La continuité d une fonction en un point est une propriété locale : une fonction est continue en un point x 0 si et seulement si sa restriction
Plus en détailTests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA
Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA Soutenance de doctorat, sous la direction de Pr. Bilodeau, M. et Pr. Ducharme, G. Université de Montréal et Université
Plus en détailChapitre VI - Méthodes de factorisation
Université Pierre et Marie Curie Cours de cryptographie MM067-2012/13 Alain Kraus Chapitre VI - Méthodes de factorisation Le problème de la factorisation des grands entiers est a priori très difficile.
Plus en détailLes indices à surplus constant
Les indices à surplus constant Une tentative de généralisation des indices à utilité constante On cherche ici en s inspirant des indices à utilité constante à définir un indice de prix de référence adapté
Plus en détailCours 02 : Problème général de la programmation linéaire
Cours 02 : Problème général de la programmation linéaire Cours 02 : Problème général de la Programmation Linéaire. 5 . Introduction Un programme linéaire s'écrit sous la forme suivante. MinZ(ou maxw) =
Plus en détailUniversité Paris-Dauphine DUMI2E 1ère année, 2009-2010. Applications
Université Paris-Dauphine DUMI2E 1ère année, 2009-2010 Applications 1 Introduction Une fonction f (plus précisément, une fonction réelle d une variable réelle) est une règle qui associe à tout réel x au
Plus en détailCorrection du Baccalauréat S Amérique du Nord mai 2007
Correction du Baccalauréat S Amérique du Nord mai 7 EXERCICE points. Le plan (P) a une pour équation cartésienne : x+y z+ =. Les coordonnées de H vérifient cette équation donc H appartient à (P) et A n
Plus en détaila et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe le nombre ax + b
I Définition d une fonction affine Faire l activité 1 «une nouvelle fonction» 1. définition générale a et b étant deux nombres relatifs donnés, une fonction affine est une fonction qui a un nombre x associe
Plus en détailPour l épreuve d algèbre, les calculatrices sont interdites.
Les pages qui suivent comportent, à titre d exemples, les questions d algèbre depuis juillet 003 jusqu à juillet 015, avec leurs solutions. Pour l épreuve d algèbre, les calculatrices sont interdites.
Plus en détailBaccalauréat ES/L Amérique du Sud 21 novembre 2013
Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée
Plus en détailCalcul fonctionnel holomorphe dans les algèbres de Banach
Chapitre 7 Calcul fonctionnel holomorphe dans les algèbres de Banach L objet de ce chapitre est de définir un calcul fonctionnel holomorphe qui prolonge le calcul fonctionnel polynômial et qui respecte
Plus en détailInitiation à l algorithmique
Informatique S1 Initiation à l algorithmique procédures et fonctions 2. Appel d une fonction Jacques TISSEAU Ecole Nationale d Ingénieurs de Brest Technopôle Brest-Iroise CS 73862-29238 Brest cedex 3 -
Plus en détailModule 7: Chaînes de Markov à temps continu
Module 7: Chaînes de Markov à temps continu Patrick Thiran 1 Introduction aux chaînes de Markov à temps continu 1.1 (Première) définition Ce module est consacré aux processus à temps continu {X(t), t R
Plus en détailMaster IMA - UMPC Paris 6 RDMM - Année 2009-2010 Fiche de TP
Master IMA - UMPC Paris 6 RDMM - Année 2009-200 Fiche de TP Préliminaires. Récupérez l archive du logiciel de TP à partir du lien suivant : http://www.ensta.fr/~manzaner/cours/ima/tp2009.tar 2. Développez
Plus en détailOptimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications
Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante
Plus en détailAmphi 3: Espaces complets - Applications linéaires continues
Amphi 3: Espaces complets - Applications linéaires continues Département de Mathématiques École polytechnique Remise en forme mathématique 2013 Suite de Cauchy Soit (X, d) un espace métrique. Une suite
Plus en détailNON-LINEARITE ET RESEAUX NEURONAUX
NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail
Plus en détail