Espérances conditionnelles et martingales

Documents pareils
3. Conditionnement P (B)

Intégration et probabilités TD1 Espaces mesurés Corrigé

Espérance conditionnelle

Intégration et probabilités TD1 Espaces mesurés

4. Martingales à temps discret

Amphi 3: Espaces complets - Applications linéaires continues

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Limites finies en un point

Fonctions de plusieurs variables

Théorème du point fixe - Théorème de l inversion locale

Image d un intervalle par une fonction continue

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

I. Polynômes de Tchebychev

EXERCICE 4 (7 points ) (Commun à tous les candidats)

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Théorie de la Mesure et Intégration

Calcul fonctionnel holomorphe dans les algèbres de Banach

Commun à tous les candidats

Continuité en un point

Probabilités sur un univers fini

Intégration sur des espaces produits

3 Approximation de solutions d équations

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

La mesure de Lebesgue sur la droite réelle

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Mesures gaussiennes et espaces de Fock

1 Définition et premières propriétés des congruences

Université Paris-Dauphine DUMI2E 1ère année, Applications

Continuité d une fonction de plusieurs variables

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Théorie de la Mesure et Intégration

Simulation de variables aléatoires

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Une introduction aux codes correcteurs quantiques

Programmes des classes préparatoires aux Grandes Ecoles

Le modèle de Black et Scholes

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Probabilités sur un univers fini

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Moments des variables aléatoires réelles

Chapitre 2 Le problème de l unicité des solutions

MESURE ET INTÉGRATION EN UNE DIMENSION. Notes de cours

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

MA6.06 : Mesure et Probabilités

Fonctions de deux variables. Mai 2011

Cours Fonctions de deux variables

Construction de l'intégrale de Lebesgue

Notes du cours MTH1101 Calcul I Partie II: fonctions de plusieurs variables

PRIME D UNE OPTION D ACHAT OU DE VENTE

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Résolution d équations non linéaires

Intégrale de Lebesgue

Texte Agrégation limitée par diffusion interne

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE

Théorie de la mesure. S. Nicolay

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Proposition. Si G est un groupe simple d ordre 60 alors G est isomorphe à A 5.

Travaux dirigés d introduction aux Probabilités

Correction de l examen de la première session

Le produit semi-direct

Suites numériques 4. 1 Autres recettes pour calculer les limites

Quelques tests de primalité

Capes Première épreuve

Calcul intégral élémentaire en plusieurs variables

PROBABILITÉS: COURS DE LICENCE DE MATHÉMATIQUES APPLIQUÉES LM 390

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

3. Caractéristiques et fonctions d une v.a.

Cours d Analyse 3 Fonctions de plusieurs variables

Introduction à l étude des Corps Finis

Chapitre 2. Eléments pour comprendre un énoncé

Suites numériques 3. 1 Convergence et limite d une suite

Peut-on imiter le hasard?

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Approximations variationelles des EDP Notes du Cours de M2

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

Items étudiés dans le CHAPITRE N5. 7 et 9 p 129 D14 Déterminer par le calcul l'antécédent d'un nombre par une fonction linéaire

Cours de mathématiques

TSTI 2D CH X : Exemples de lois à densité 1

Cours d Analyse. Fonctions de plusieurs variables

M2 IAD UE MODE Notes de cours (3)

Programmation linéaire et Optimisation. Didier Smets

I. Ensemble de définition d'une fonction

Calcul différentiel. Chapitre Différentiabilité

OM 1 Outils mathématiques : fonction de plusieurs variables

Master Modélisation Aléatoire Paris VII, Cours Méthodes de Monte Carlo en nance et C++, TP n 2.

Chapitre VI - Méthodes de factorisation

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Produits d espaces mesurés

Premiers exercices d Algèbre. Anne-Marie Simon

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Cours 02 : Problème général de la programmation linéaire

Un K-espace vectoriel est un ensemble non vide E muni : d une loi de composition interne, c est-à-dire d une application de E E dans E : E E E

Transcription:

Université d Artois Faculté des Sciences Jean Perrin Probabilités (Master 1 Mathématiques-Informatique) Daniel Li Chapitre 4 Espérances conditionnelles et martingales 1 Espérances conditionnelles Cette notion sert à modéliser la réponse à la question suivante : si X est une v.a.r. liée à une certaine expérience, que sait-on d elle si l on n a pas toute l information (donnée par la tribu A des événements, mais seulement une information partielle (donnée par une sous-tribu? 1.1 Définition Soit (, A, P ) un espace de probabilité, et soit une sous-tribu de A ; on veut définir, à partir d une variable aléatoire réelle X L 1 (, A, P ), une autre v.a.r., qui va oublier tout se qui se passe en dehors de. Notons P la restriction à la sous-tribu de la probabilité P, et considérons l espace L 1 (,, P ). Pour tout, on pose : ν X () = E (X1I ) = X dp. (1.1) On obtient une mesure (réelle) sur (, ), qui est visiblement absolument continue par rapport à P : P () = P () = 0 = ν X () = 0. Le Théorème de Radon-Nikodym assure donc l existence d une variable aléatoire -mesurable unique Y X L 1 (,, P ) telle que ν X = Y X.P. On dit que Y X est l espérance conditionnelle de X par rapport à. Dans toute la suite, on écrira simplement P au lieu de P ; on a donc : 1

Définition 1.1 Soit (, A, P ) un espace de probabilité, et soit une soustribu de A. Pour toute v.a.r. X L 1 (, A, P ), on appelle espérance conditionnelle de X par rapport à, ou sachant, l unique v.a.r., notée E (X), qui est -mesurable et qui vérifie : E (X) dp = X dp,. Ecrit autrement : E [ E (X)1I ] = E (X1I ). On note aussi l espérance conditionnelle E (X ). Il résulte de la définition, en prenant = que l on a : Proposition 1.2 Pour toute v.a.r. intégrable X, on a E [ E (X) ] = E (X). 1.2 Exemples. a) Si = A, il est clair que E A (X) = X. Cela s interprète en disant que, puisque l on a toute l information, on sait tout sur X. Plus généralement, si X est -mesurable, on a : E (X) = X. b) Si = {, } est la tribu grossière, alors les seules v.a.r. qui sont {, }- mesurables sont les constantes. De par l égalité E [ E (X) ] = E (X), cette constante ne peut être que E (X) ; donc E {,} (X) = E (X)1I. Cela s interprète en disant que, puisque l on ne dispose d aucune information, tout ce que l on peut savoir sur X est sa valeur moyenne. c) Si est la tribu engendrée par une partition ( n ) n 1 (finie ou infinie) de, formée de parties A -mesurables deux-à-deux disjointes et telles que P ( n ) 0, comme les v.a.r. -mesurables sont celles qui sont constantes sur chaque n, on a, si a n désigne cette constante : E (X) = n 1 a n 1I n ; d où : Donc : X dp = n E (X), dp = n a n dp = a n P ( n ). n E (X) = n ( 1 ) X dp 1I n ; P ( n ) n 2

ainsi, sur chaque n, X n est connu que par sa moyenne sur n. En particulier, si = {,, c, }, pour un A tel que 0 < P () < 1, alors : E (1I A ) = 1 P () P (A )1I + 1 P ( c ) P (A c )1I c = P (A )1I + P (A c )1I c, où P (A ) est la probabilité conditionnelle de A sachant. 1.3 Propriétés Proposition 1.3 Soit X L 1 (, A, P ). Pour toute v.a.r. Z -mesurable et bornée (Z L (,, P )), on a : E (ZX) = Z E (X) (propriété d idéal). Corollaire 1.4 Pour toute X L 1 (, A, P ) et toute Z L (,, P ), on a : Z E (X) dp = ZX dp. En effet, ce n est autre que l égalité E [ E (ZX) ] = E (ZX). Preuve de la Proposition 1.3. a) Il suffit en fait de montrer l égalité du Corollaire 1.4, car, en remplaçant dedans Z par Z1I, avec, qui est encore -mesurable, on aura : ZX dp = Z E (X) dp ; mais comme Z E (X) est -mesurable, la définition (et l unicité) de E (ZX) donne bien : E (ZX) = Z E (X). b) Or l égalité : ZX dp = Z E (X) dp est valable, par définition, pour les Z = 1I, avec ; elle est donc aussi valable pour les v.a.r. étagées -mesurables. Par convergence dominée, puisque X L 1 (, A, P ), elle est ensuite valable pour toutes les Z -mesurables bornées. 3

Proposition 1.5 L espérence conditionnelle : E : L 1 (, A, P ) L 1 (,, P ) est une application linéaire, continue, de norme 1, positive, et idempotente (projecteur). Remarque. L utilisation du terme idempotent laisse sous-entendre que l espace L 1 (,, P ) est contenu dans L 1 (, A, P ) ; ce n est en fait pas le cas. En effet, il y a là une petite difficulté. Rappelons éléments de L 1 (, A, P ) ne sont pas réellement des fonctions, mais des classes de fonctions (modulo l égalité presque sûre), même si d habitude on ne fait pas de distinction entre la fonction et sa classe d équivalence. Maintenant, si X est une variable aléatoire -mesurable et si X est une variable aléatoire (A -mesurable), qui est presque sûrement égale à X : P (X X) = 0, alors il n y a aucune raison que X soit elle aussi -mesurable (sauf si la tribu est P -complète). En notant P la restriction à de la probabilité P (définie sur A ), on doit donc distinguer : a) la classe d équivalence P -p.s. sur (, A, P ) de X et : b) sa classe d équivalence P -p.s. sur (,, P ), la première étant en général strictement plus grande que la seconde. En d autres termes, bien que, pour les espaces de fonctions, on ait : L r (,, P ) L r (, A, P ), pour 1 r +, par contre l espace des classes de fonctions -mesurables L r (,, P ) n est pas contenu dans l espace des classes de fonctions A - mesurables L r (, A, P ). Néanmoins, l application qui à la P -classe de X fait correspondre sa P - classe est injective, et définit une isométrie : J : L r (,, P ) L r (, A, P ). Par cette isométrie, on peut donc identifier isométriquement L r (,, P ) à un sous-espace (fermé) de L r (, A, P ), ce que l on fera toujours par la suite. Preuve de la Proposition 1.5. a) La linéarité est facile, par unicité. b) Montrons que X 0 E (X) 0. En effet, si X 0, la mesure ν X définie en 1.1 est positive ; donc E (X) 0, puisque ν X = E (X).P c) On a alors : E (X) E ( X ), car X ± X 0. Donc, puisque E [ E ( X ) ] = E ( X ) = X 1, on obtient : E (X) 1 X 1. 4

d) Mais E (1I) = 1I et donc la norme est exactement 1. e) Pour finir : E [ E (X) ] = E (X) car E (X) L 1 () L 1 (A ) et que E (X) est -mesurable. Proposition 1.6 1) Pour 1 r : X L r (, A, P ) E (X) L r (,, P ). 2) Pour r = 2, E est la projection orthogonale de L 2 (, A, P ) sur L 2 (,, P ). On utilisera le lemme suivant. Lemme 1.7 Si X L r (, A, P ), avec 1 r < +, alors : E (X) r E ( X r ). Preuve de la Proposition 1.6. 1) Pour 1 r <, cela résulte du lemme. Pour r = : X X 1I E (X) E ( X ) E ( X 1I) = X. 2) Pour r = 2, on doit vérifier que X E (X) Z pour toute Z L 2 (,, P ). Mais : [ X E (X) ] Z dp = XZ dp E (X)Z dp = 0 pour toute Z L (,, P ), donc pour toute Z L 2 (,, P ) par densité. Remarque. Certains auteurs définissent directement, pour X L 2 (, A, P ), l espérance conditionnelle de X sachant comme la projection orthogonale de X sur L 2 (,, P ), puis prolongent l application E à L 1 (, A, P ), par densité. C est plus élémentaire, mais cela fait complètement perdre de vue le sens réel de l espérance conditionnelle. Preuve du Lemme 1.7. On peut supposer r > 1. Pour toute Z L (,, P ) et tout, on a : Z1I E (X) dp = E (Z1I X) dp E ( Z1I X ) dp = Z1I X dp Z s 1I X r < +, avec 1 r + 1 s = 1. Comme L (,, P ) est dense dans L s (,, P ), cela signifie que : Z Z1I E (X) dp 5

est une forme linéaire continue sur L s (,, P ), de norme 1I X r. Donc 1I E (X) L r (,, P ), et : cela s écrit aussi : E (X) r dp 1I E (X) r 1I X r ; X r dp = Mais, puisque c est vrai pour tout, cela entraîne : E ( X r ) dp. E (X) r E ( X r ). Voyons maintenant une propriété d emboîtement, que l on a déjà vue dans le cas particulier de 2 = {, } ; elle s écrit alors E [ E 1 (X) ] = E (X)1I. Proposition 1.8 (transitivité) Si 2 1 A, on a : E 2 [ E 1 (X) ] = E 2 (X). Preuve. Si 2 : E 2[ E 1 (X) ] dp = mais comme on a aussi 1 : E 1 (X) dp = E 1 (X) dp ; X dp. 1.4 Cas d une tribu engendrée par une variable aléatoire Si = Y est la tribu engendrée par une v.a. Y, on notera : E (X Y ) au lieu de E Y (X) = E (X Y ). On dit que c est l espérance conditionnelle de X sachant Y. Rappelons que l on a : Y = {Y 1 (D) ; D or(r d )}. Rappelons aussi que toute v.a. Y -mesurable s écrit comme la composée de Y et d une fonction borélienne sur R d. Donc : Proposition 1.9 Pour toute v.a.r. X L 1 (, A, P ) et toute v.a. Y, il existe une fonction borélienne h: R d R, P Y -intégrable, telle que : E (X Y ) = h(y ). 6

Par définition, pour tout borélien D or(r d ), on a donc : X dp = E (X Y ) dp = h(y ) dp, ce qui s écrit : Y 1 (D) Y D Y 1 (D) X dp = D Y 1 (D) h(y) dp Y (y), D or(r d ). (1.2) 1.5 Exemples de calcul d espérances conditionnelles par rapport à une v.a.r. 1.5.1 Cas où Y est une v.a.r. discrète On a : P Y = n 1 a n δ xn, avec a n 0, la somme étant finie ou infinie. Puisque P (Y D) = 0 si D {x n ; n 1} =, la formule (1.2) ci-dessus montre que l on peut prendre h(y) = 0 si y / {x n ; n 1}, et : h(x n ) = 1 a n {Y =x n} X dp = On obtient : E (X Y ) = ( 1 P (Y = x n ) n 1 1 P (Y = x n ) {Y =x n} {Y =x n} X dp. ) X dp 1I {Y =xn}, ce que l on savait déjà, puisque Y par les {Y = x n }, n 1. est engendrée par la partition de formée 1.5.2 Cas de variables à densité Supposons que le couple (X, Y ) possède une densité f (X,Y ) sur R d+1. La loi P Y de Y a alors une densité (densité marginale), donnée par : f Y (y) = f (X,Y ) (x, y) dx. R Comme f Y L 1 (R d ), f Y est finie λ d -presque partout ; par conséquent, Y est presque sûrement à valeurs dans : Pour y Q, on peut poser : Q = {y R d ; 0 < f Y (y) < + }. f X (x y) = f (X,Y )(x, y) f Y (y) 7

La fonction : f X (. y): x f X (x y) est une densité de probabilité sur R : on a f X (x y) 0, et : f X (x y) dx = 1 f (X,Y ) (x, y) dx = 1. f Y (y) R Définition 1.10 On dit que f X (. y) est la densité conditionnelle de X sachant Y = y. Il faut faire attention que Y = y n est qu une notation ; en effet, P (Y = y) = 0 pour tout y R d puisque Y possède une densité. On note parfois aussi : f X (x y) = f X (x Y = y) R et : f X (x y) dx = P (x Y = y). Proposition 1.11 Si le vecteur aléatoire (X, Y ) a une densité sur R d+1, alors pour toute g L 1 (R, P X ), on a : avec, pour tout pour y Q : h(y) = Preuve. Nous avons vu que : avec : D R E ( g(x) Y ) = h(y ), g(x)f X (x y) dx = 1 g(x)f (X,Y ) (x, y) dx. f Y (y) R h(y) dp Y (y) = E ( g(x) Y ) = h(y ), Y D g(x) dp, D or(r d ). Comme P Y (Q) = 1, on peut poser f X (x y) = 0 pour y R d \ Q. On a alors, 8

par le Théorème de Fubini : [ ] [ ] g(x)f X (x y) dx dp Y (y) = g(x)f X (x y) dx f Y (y) dy D R D R = g(x)f X (x y)f Y (y) dxdy R D = g(x)f (X,Y ) (x, y) dxdy R D = g(x) dp (X,Y ) (x, y) R D = g(x)1i D (y) dp (X,Y ) (x, y) R d+1 = g(x)1i D (Y ) dp = g(x) dp Y D 1.5.3 Cas gaussien Nous allons voir qu alors E (X Y ) est une fonction affine de Y, et pas seulement une fonction borélienne. Théorème 1.12 Si (X, Y ): R n+1 est un vecteur gaussien, avec Y = (Y 1,..., Y n ), alors E (X Y ) est une v.a.r. gaussienne et il existe des nombres a 1,..., a n, b R tels que : E (X Y ) = a 1 Y 1 + + a n Y n + b. On utilisera le lemme suivant, qui a d ailleurs son intérêt propre. Lemme 1.13 Les tribus 1 et 2 sont indépendantes si et seulement si : E 2 (U) = E (U)1I pour toute v.a.r. U 1 -mesurable. Preuve. S il y a indépendance, on a, pour tout 2 : U dp = E (1I U) = E (1I )E (U) = E (U)1I dp, d où E 2 (U) = E (U)1I. Inversement, si 1 1 et 2 2 : P ( 1 2 ) = 1I 1 dp = E 2 (1I 1 ) dp 2 2 = E (1I 1 ) 1I dp = P ( 1 ) P ( 2 ), 2 9

d où l indépendance de 1 et 2, et donc de 1 et 2. Preuve du théorème. Supposons d abord E (X) = E (Y ) = 0. Soit G l espace vectoriel engendré par Y 1,..., Y n. C est un sous-espace (de dimension finie) de L 2 (, A, P ). De plus, comme le vecteur Y = (Y 1,..., Y n ) est gaussien, G est entièment composé de gaussiennes (c est un espace gaussien). Rappelons que, puisque l on est dans L 2 (, A, P ), l espérance conditionnelle est la projection orthogonale de L 2 (, A, P ) sur L 2 (, Y, P ). Remarquons par ailleurs que G L 2 (, Y, P ). Soit P (X) la projection orthogonale de X sur G. On a P (X) = a 1 Y 1 + + a n Y n pour des nombres réels a 1,..., a n R. Posons Z = X P (X). Le vecteur (Z, Y ) est gaussien, comme image linéaire de (X, Y ), et E (ZY k ) = 0 pour tout k = 1,..., n, car Z est orthogonal à G ; mais si les composantes d un vecteur gaussien sont non corrélées, elles sont indépendantes. Donc Z est indépendant de Y 1,..., Y n. Alors, par le lemme, E (Z Y ) = E (Z) 1I = 0, car E (Z) = a 1 E (Y 1 ) + + a n E (Y n ) = 0, ce qui donne E ( X Y ) = P (X), car E ( P (X) Y ) = P (X) puisque P (X) G L 2 (, Y, P ). On peut donc bien écrire E (X Y ) = a 1 Y 1 + + a n Y n. Lorsque X et Y ne sont plus centrés, il suffit de poser X = X E (X) et Y = Y E (Y ) ; comme Y = Y, on a : E (X Y ) = E (X + E (X) Y ) = E (X Y ) + E (X) n n = a k Y k + E (X) = a k (Y k E (Y k )) + E (X) = k=1 k=1 n ( n ) a k Y k + a k E (Y k ) + E (X). k=1 k=1 Calcul pratique. Pour calculer les coefficients a 1,..., a n, b, on part de : E (X Y ) = a 1 Y 1 + + a n Y n + b. En prenant l espérance, on obtient, puisque E [E (X Y )] = E (X) : E (X) = a 1 E (Y 1 ) + + a n E (Y n ) + b. De même, si on multiplie par Y k, en utilisant E (X Y )Y k = E (XY k Y ), on obtient : n E (XY k ) = a j E (Y j Y k ) + be (Y k ). j=1 Il ne reste plus qu à résoudre ce système linéaire de n + 1 équations à n + 1 inconnues. Il n y a évidemment pas unicité si Y 1,..., Y n ne sont pas linéairement indépendants. 10

2 Martingales Nous n en dirons que quelques mots d introduction. C est une partie importante des Probabilités. Jusqu à présent, nous n avons parlé que de Probabilités statiques, au sens où l on ne s intéressait qu à une seule tribu d événements (ou à deux dans le cas des espérances conditionnelles). Les martingales vont faire intervenir une notion d évolution avec le temps : au fur et à mesure que le temps passe, le nombre d informations que l on connaît augmente ; autrement dit, on doit tenir compte de plus en plus d événements, et l on est amené à considérer des familles croissantes de sous-tribus d événements ; pour mesurer une expérience, on aura donc,à chaque instant, une variable aléatoire pour laquelle l information que l on a sur elle dans le passé, c est-à-dire son espérance conditionnelle par rapport à la tribu correspondante, est la variable aléatoire connue à cet instant passé. Nous ne parlerons par ailleurs que des martingales à temps discret, c està-dire celle indexées par les entiers. Cela revient à regarder ce qui se passe à intervalles réguliers. Si l on veut savoir se qui se passe à tout moment, on utilisera des martingales à temps continu, indexées par R +, par exemple. Définition 2.1 On appelle filtration toute suite croissante : de sous-tribus de A. 1 2 n A Définition 2.2 On appelle martingale par rapport à, ou adaptée à, la filtration ( n ) n 1, toute suite de v.a.r. M n L 1 (, A, P ), n 1, telle que, pour tout n 1 : 1) M n est n -mesurable ; 2) E n (M n+1 ) = M n. Voici deux exemples particulièrement importants. Exemple 1. Soit M L 1 (, A, P ). Si l on pose M n = E n (M), alors (M n ) n 1 est une martingale par rapport à la filtration ( n ) n 1, par la propriété de transitivité des espérances conditionnelles. On dit qu une martingale (M n ) n 1 est terminée s il existe M L 1 (, A, P ) telle que M n = E n (M) pour tout n 1. Exemple 2. Soit (X n ) n 1 une suite de v.a.r. indépendantes et centrées. Si l on pose : S n = X 1 + + X n, alors (S n ) n 1 est une martingale, adaptée à la filtration donnée par n = σ(x 1,..., X n ). 11

On complète habituellement la filtration en introduisant 0 = {, }. Alors, si l on pose M 0 = 0, on définit les accroissements de la martingale, que l on appelle aussi les différences de la martingale, par : On a : d n = M n M n 1 n 1. M n = d 1 + + d n. Ainsi on a une situation semblable à celle de l Exemple 2, sauf que les différences d n, n 1, ne sont plus indépendantes (en général). Néanmoins, on garde une version très affaiblie d indépendance. En effet, dire que la suite (X n ) n 1 est indépendante, peut s exprimer par : Pour tout n 1, la var X n+1 est indépendante de la tribu σ(x 1,..., X n ). Pour la suite des différences d une martingale, on a : E n (d n+1 ) = 0 (puisque E n (M n+1 ) = M n ) ; on a donc une orthogonalité entre n et d n+1 (il y aurait vraiment orthogonalité si l on était dans L 2 (, A, P )). On peut donc espérer pour la convergence des martingales des résultats analogues à ceux obtenus pour les sommes de v.a.r. indépendantes et centrées, et nous allons voir que c est bien le cas. Théorème 2.3 (inégalité maximale de Doob) Soit (M n ) n 1 une martingale adaptée à la filtration ( n ) n 1. Alors, pour tout N 1 et tout a > 0, on a : ( ) P sup M n > a 1 1 n N a E ( M N ). Preuve. Elle est analogue à celle de l inégalité de Kolmogorov. On définit le temps d arrêt ν a par : { + si Mn = d ν a (ω) = 1 + + d n a, pour tout n = 1, 2,..., N min { n N ; M n = d 1 + + d n > a sinon. Posons A = { sup n N M n > a }, et A n = {ν a = n}. On a A n n, et A = 1 n N A n. Alors : E ( 1I An. M n ) = E ( ) ( 1I An.sgn (M n ).M n = E 1IAn.sgn (M n ).E n (M N ) ) = E (E n[ ] ) 1I An.sgn (M n ).M N = E ( ) 1I An.sgn (M n ).M N E (1I An. M N ). 12

Par conséquent : P (A) = N P (A n ) n=1 N n=1 ce qu on voulait montrer. ( 1 ) E a M n.1i An 1 a N E (1I An. M N ) = 1 a E ( M N ), n=1 Théorème 2.4 (Théorème de Doob) 1) Toute martingale terminée converge presque sûrement et pour la norme de L 1. 2) Toute martingale bornée dans L 2 converge presque sûrement et pour la norme de L 2. Pour prouver ce théorème, on aura besoin d une propriété d approximation. Lemme 2.5 Soit C A une algèbre de oole, et soit A σ(c ) et ε > 0. Alors il existe C tel que P (A ) ε, où désigne la différence symétrique. Preuve. Remarquons que P (A ) = 1I A 1I 1. Si D désigne l ensemble des A σ(c ) ayant la propriété d approximation de l énoncé pour tout ε > 0, on vérifie facilement que D est une tribu. Comme elle contient C, elle est égale à σ(c ). Preuve du Théorème de Doob. 1) Soit ( n ) n 1 la filtration à laquelle (M n ) n 1 est adaptée. Par hypothèse, il existe M L 1 (, A, P ) telle que M n = E n (M) pour tout n 1. Soit C l algèbre de oole n=1 n, = σ(c ), et M = E (M). Si ε > 0, on peut trouver Y = J j=1 a j1i j, avec j, 1 j J, telle que M Y 1 ε. Grâce au lemme, on peut trouver, pour chaque j, un C j C tel que : 1I j 1I Cj 1 ε 1 + a 1 + + a J ; il s ensuit que Z = J j=1 a j1i Cj est C -mesurable, et que : M Z 1 M Y 1 + Y Z 1 2ε. Par définition de C, on peut trouver un n 0 1 tel que Z soit n0 -mesurable. On a donc, pour n n 0 : d où : M n M = E n (M) M = E n (M ) M = E n (M ) E n (Z) + Z M ; M n M 1 E n (M Z) 1 + M Z 1 2 M Z 1 4ε. 13

L Cela montre que M 1 n M. n Appliquons maintenant, pour chaque n 1, l inégalité maximale de Doob à la martingale (M k M n ) k n. On obtient : ( P sup n k N ) M k M n > a 1 a M N M n 1. Donc, en faisant tendre N vers l infini : ( ) P M k M n > a 1 a M M n 1. sup k n Cette inégalité montre que la fonction maximale sup k>n M k M n converge en probabilité vers 0. Cela signifie que (M n ) n 1 est presque sûrement de Cauchy, et donc converge presque sûrement. Comme elle converge vers M pour la norme de L 1, la limite presque sûre est forcément M. 2) Posons M 0 = 0 et d n = M n M n 1 pour n 1. Les accroissements d n sont orthogonaux dans L 2 car pour j < n on a : E (d j d n ) = E [ E j (d j d n ) ] = E [ d j E j (d n ) ] = E (d j.0) = 0. On a donc E (Mn) 2 = n j=1 E (d2 j ), et donc, puisque l on a supposé la martin- j=1 d j converge gale (M n ) n 1 bornée dans L 2 : j=1 E (d2 j ) < +. La série donc dans L 2, et puisque M n = d 1 + + d n, cela montre que la martingale (M n ) n 1 converge dans L 2. Notons M sa limite. Il ne reste plus qu à voir que E n (M) = M n, car cela signifiera que (M n ) n 1 est une martingale terminée, et donc converge presque sûrement, par le 1). On notera que l on a forcément M = M. Pour montrer cela, pour chaque n 1, fixons n. Alors, pour N n, on a : E (M n 1I ) = E [ E n (M N )1I ) ] = E [ E n (M N 1I ) ] = E (M N 1I ). Comme E (M N 1I ) E (M1I ) M N M 1 M N M 2, on obtient, en faisant tendre N vers l infini : E (M n 1I ) = E (M1I ). On a donc bien M n = E n (M). Nous nous arrêterons ici. Signalons simplement que l on peut montrer les résultats suivants : 1) (Doob) Toute martingale bornée dans L 1 converge presque sûrement. 2) Pour toute martingale (M n ) n 1, il y a équivalence entre : a) (M n ) n 1 converge dans L 1 (pour la norme) ; b) (M n ) n 1 est terminée ; c) {M n ; n 1} est équi-intégrable. 3) Pour 1 < p <, si M n L p (, A, P ) et si M n p K pour tout n 1, alors les conditions précédentes sont vérifiées, et de plus la convergence a lieu pour la norme de L p. 14