Université d Artois Faculté des Sciences Jean Perrin Probabilités (Master 1 Mathématiques-Informatique) Daniel Li Chapitre 4 Espérances conditionnelles et martingales 1 Espérances conditionnelles Cette notion sert à modéliser la réponse à la question suivante : si X est une v.a.r. liée à une certaine expérience, que sait-on d elle si l on n a pas toute l information (donnée par la tribu A des événements, mais seulement une information partielle (donnée par une sous-tribu? 1.1 Définition Soit (, A, P ) un espace de probabilité, et soit une sous-tribu de A ; on veut définir, à partir d une variable aléatoire réelle X L 1 (, A, P ), une autre v.a.r., qui va oublier tout se qui se passe en dehors de. Notons P la restriction à la sous-tribu de la probabilité P, et considérons l espace L 1 (,, P ). Pour tout, on pose : ν X () = E (X1I ) = X dp. (1.1) On obtient une mesure (réelle) sur (, ), qui est visiblement absolument continue par rapport à P : P () = P () = 0 = ν X () = 0. Le Théorème de Radon-Nikodym assure donc l existence d une variable aléatoire -mesurable unique Y X L 1 (,, P ) telle que ν X = Y X.P. On dit que Y X est l espérance conditionnelle de X par rapport à. Dans toute la suite, on écrira simplement P au lieu de P ; on a donc : 1
Définition 1.1 Soit (, A, P ) un espace de probabilité, et soit une soustribu de A. Pour toute v.a.r. X L 1 (, A, P ), on appelle espérance conditionnelle de X par rapport à, ou sachant, l unique v.a.r., notée E (X), qui est -mesurable et qui vérifie : E (X) dp = X dp,. Ecrit autrement : E [ E (X)1I ] = E (X1I ). On note aussi l espérance conditionnelle E (X ). Il résulte de la définition, en prenant = que l on a : Proposition 1.2 Pour toute v.a.r. intégrable X, on a E [ E (X) ] = E (X). 1.2 Exemples. a) Si = A, il est clair que E A (X) = X. Cela s interprète en disant que, puisque l on a toute l information, on sait tout sur X. Plus généralement, si X est -mesurable, on a : E (X) = X. b) Si = {, } est la tribu grossière, alors les seules v.a.r. qui sont {, }- mesurables sont les constantes. De par l égalité E [ E (X) ] = E (X), cette constante ne peut être que E (X) ; donc E {,} (X) = E (X)1I. Cela s interprète en disant que, puisque l on ne dispose d aucune information, tout ce que l on peut savoir sur X est sa valeur moyenne. c) Si est la tribu engendrée par une partition ( n ) n 1 (finie ou infinie) de, formée de parties A -mesurables deux-à-deux disjointes et telles que P ( n ) 0, comme les v.a.r. -mesurables sont celles qui sont constantes sur chaque n, on a, si a n désigne cette constante : E (X) = n 1 a n 1I n ; d où : Donc : X dp = n E (X), dp = n a n dp = a n P ( n ). n E (X) = n ( 1 ) X dp 1I n ; P ( n ) n 2
ainsi, sur chaque n, X n est connu que par sa moyenne sur n. En particulier, si = {,, c, }, pour un A tel que 0 < P () < 1, alors : E (1I A ) = 1 P () P (A )1I + 1 P ( c ) P (A c )1I c = P (A )1I + P (A c )1I c, où P (A ) est la probabilité conditionnelle de A sachant. 1.3 Propriétés Proposition 1.3 Soit X L 1 (, A, P ). Pour toute v.a.r. Z -mesurable et bornée (Z L (,, P )), on a : E (ZX) = Z E (X) (propriété d idéal). Corollaire 1.4 Pour toute X L 1 (, A, P ) et toute Z L (,, P ), on a : Z E (X) dp = ZX dp. En effet, ce n est autre que l égalité E [ E (ZX) ] = E (ZX). Preuve de la Proposition 1.3. a) Il suffit en fait de montrer l égalité du Corollaire 1.4, car, en remplaçant dedans Z par Z1I, avec, qui est encore -mesurable, on aura : ZX dp = Z E (X) dp ; mais comme Z E (X) est -mesurable, la définition (et l unicité) de E (ZX) donne bien : E (ZX) = Z E (X). b) Or l égalité : ZX dp = Z E (X) dp est valable, par définition, pour les Z = 1I, avec ; elle est donc aussi valable pour les v.a.r. étagées -mesurables. Par convergence dominée, puisque X L 1 (, A, P ), elle est ensuite valable pour toutes les Z -mesurables bornées. 3
Proposition 1.5 L espérence conditionnelle : E : L 1 (, A, P ) L 1 (,, P ) est une application linéaire, continue, de norme 1, positive, et idempotente (projecteur). Remarque. L utilisation du terme idempotent laisse sous-entendre que l espace L 1 (,, P ) est contenu dans L 1 (, A, P ) ; ce n est en fait pas le cas. En effet, il y a là une petite difficulté. Rappelons éléments de L 1 (, A, P ) ne sont pas réellement des fonctions, mais des classes de fonctions (modulo l égalité presque sûre), même si d habitude on ne fait pas de distinction entre la fonction et sa classe d équivalence. Maintenant, si X est une variable aléatoire -mesurable et si X est une variable aléatoire (A -mesurable), qui est presque sûrement égale à X : P (X X) = 0, alors il n y a aucune raison que X soit elle aussi -mesurable (sauf si la tribu est P -complète). En notant P la restriction à de la probabilité P (définie sur A ), on doit donc distinguer : a) la classe d équivalence P -p.s. sur (, A, P ) de X et : b) sa classe d équivalence P -p.s. sur (,, P ), la première étant en général strictement plus grande que la seconde. En d autres termes, bien que, pour les espaces de fonctions, on ait : L r (,, P ) L r (, A, P ), pour 1 r +, par contre l espace des classes de fonctions -mesurables L r (,, P ) n est pas contenu dans l espace des classes de fonctions A - mesurables L r (, A, P ). Néanmoins, l application qui à la P -classe de X fait correspondre sa P - classe est injective, et définit une isométrie : J : L r (,, P ) L r (, A, P ). Par cette isométrie, on peut donc identifier isométriquement L r (,, P ) à un sous-espace (fermé) de L r (, A, P ), ce que l on fera toujours par la suite. Preuve de la Proposition 1.5. a) La linéarité est facile, par unicité. b) Montrons que X 0 E (X) 0. En effet, si X 0, la mesure ν X définie en 1.1 est positive ; donc E (X) 0, puisque ν X = E (X).P c) On a alors : E (X) E ( X ), car X ± X 0. Donc, puisque E [ E ( X ) ] = E ( X ) = X 1, on obtient : E (X) 1 X 1. 4
d) Mais E (1I) = 1I et donc la norme est exactement 1. e) Pour finir : E [ E (X) ] = E (X) car E (X) L 1 () L 1 (A ) et que E (X) est -mesurable. Proposition 1.6 1) Pour 1 r : X L r (, A, P ) E (X) L r (,, P ). 2) Pour r = 2, E est la projection orthogonale de L 2 (, A, P ) sur L 2 (,, P ). On utilisera le lemme suivant. Lemme 1.7 Si X L r (, A, P ), avec 1 r < +, alors : E (X) r E ( X r ). Preuve de la Proposition 1.6. 1) Pour 1 r <, cela résulte du lemme. Pour r = : X X 1I E (X) E ( X ) E ( X 1I) = X. 2) Pour r = 2, on doit vérifier que X E (X) Z pour toute Z L 2 (,, P ). Mais : [ X E (X) ] Z dp = XZ dp E (X)Z dp = 0 pour toute Z L (,, P ), donc pour toute Z L 2 (,, P ) par densité. Remarque. Certains auteurs définissent directement, pour X L 2 (, A, P ), l espérance conditionnelle de X sachant comme la projection orthogonale de X sur L 2 (,, P ), puis prolongent l application E à L 1 (, A, P ), par densité. C est plus élémentaire, mais cela fait complètement perdre de vue le sens réel de l espérance conditionnelle. Preuve du Lemme 1.7. On peut supposer r > 1. Pour toute Z L (,, P ) et tout, on a : Z1I E (X) dp = E (Z1I X) dp E ( Z1I X ) dp = Z1I X dp Z s 1I X r < +, avec 1 r + 1 s = 1. Comme L (,, P ) est dense dans L s (,, P ), cela signifie que : Z Z1I E (X) dp 5
est une forme linéaire continue sur L s (,, P ), de norme 1I X r. Donc 1I E (X) L r (,, P ), et : cela s écrit aussi : E (X) r dp 1I E (X) r 1I X r ; X r dp = Mais, puisque c est vrai pour tout, cela entraîne : E ( X r ) dp. E (X) r E ( X r ). Voyons maintenant une propriété d emboîtement, que l on a déjà vue dans le cas particulier de 2 = {, } ; elle s écrit alors E [ E 1 (X) ] = E (X)1I. Proposition 1.8 (transitivité) Si 2 1 A, on a : E 2 [ E 1 (X) ] = E 2 (X). Preuve. Si 2 : E 2[ E 1 (X) ] dp = mais comme on a aussi 1 : E 1 (X) dp = E 1 (X) dp ; X dp. 1.4 Cas d une tribu engendrée par une variable aléatoire Si = Y est la tribu engendrée par une v.a. Y, on notera : E (X Y ) au lieu de E Y (X) = E (X Y ). On dit que c est l espérance conditionnelle de X sachant Y. Rappelons que l on a : Y = {Y 1 (D) ; D or(r d )}. Rappelons aussi que toute v.a. Y -mesurable s écrit comme la composée de Y et d une fonction borélienne sur R d. Donc : Proposition 1.9 Pour toute v.a.r. X L 1 (, A, P ) et toute v.a. Y, il existe une fonction borélienne h: R d R, P Y -intégrable, telle que : E (X Y ) = h(y ). 6
Par définition, pour tout borélien D or(r d ), on a donc : X dp = E (X Y ) dp = h(y ) dp, ce qui s écrit : Y 1 (D) Y D Y 1 (D) X dp = D Y 1 (D) h(y) dp Y (y), D or(r d ). (1.2) 1.5 Exemples de calcul d espérances conditionnelles par rapport à une v.a.r. 1.5.1 Cas où Y est une v.a.r. discrète On a : P Y = n 1 a n δ xn, avec a n 0, la somme étant finie ou infinie. Puisque P (Y D) = 0 si D {x n ; n 1} =, la formule (1.2) ci-dessus montre que l on peut prendre h(y) = 0 si y / {x n ; n 1}, et : h(x n ) = 1 a n {Y =x n} X dp = On obtient : E (X Y ) = ( 1 P (Y = x n ) n 1 1 P (Y = x n ) {Y =x n} {Y =x n} X dp. ) X dp 1I {Y =xn}, ce que l on savait déjà, puisque Y par les {Y = x n }, n 1. est engendrée par la partition de formée 1.5.2 Cas de variables à densité Supposons que le couple (X, Y ) possède une densité f (X,Y ) sur R d+1. La loi P Y de Y a alors une densité (densité marginale), donnée par : f Y (y) = f (X,Y ) (x, y) dx. R Comme f Y L 1 (R d ), f Y est finie λ d -presque partout ; par conséquent, Y est presque sûrement à valeurs dans : Pour y Q, on peut poser : Q = {y R d ; 0 < f Y (y) < + }. f X (x y) = f (X,Y )(x, y) f Y (y) 7
La fonction : f X (. y): x f X (x y) est une densité de probabilité sur R : on a f X (x y) 0, et : f X (x y) dx = 1 f (X,Y ) (x, y) dx = 1. f Y (y) R Définition 1.10 On dit que f X (. y) est la densité conditionnelle de X sachant Y = y. Il faut faire attention que Y = y n est qu une notation ; en effet, P (Y = y) = 0 pour tout y R d puisque Y possède une densité. On note parfois aussi : f X (x y) = f X (x Y = y) R et : f X (x y) dx = P (x Y = y). Proposition 1.11 Si le vecteur aléatoire (X, Y ) a une densité sur R d+1, alors pour toute g L 1 (R, P X ), on a : avec, pour tout pour y Q : h(y) = Preuve. Nous avons vu que : avec : D R E ( g(x) Y ) = h(y ), g(x)f X (x y) dx = 1 g(x)f (X,Y ) (x, y) dx. f Y (y) R h(y) dp Y (y) = E ( g(x) Y ) = h(y ), Y D g(x) dp, D or(r d ). Comme P Y (Q) = 1, on peut poser f X (x y) = 0 pour y R d \ Q. On a alors, 8
par le Théorème de Fubini : [ ] [ ] g(x)f X (x y) dx dp Y (y) = g(x)f X (x y) dx f Y (y) dy D R D R = g(x)f X (x y)f Y (y) dxdy R D = g(x)f (X,Y ) (x, y) dxdy R D = g(x) dp (X,Y ) (x, y) R D = g(x)1i D (y) dp (X,Y ) (x, y) R d+1 = g(x)1i D (Y ) dp = g(x) dp Y D 1.5.3 Cas gaussien Nous allons voir qu alors E (X Y ) est une fonction affine de Y, et pas seulement une fonction borélienne. Théorème 1.12 Si (X, Y ): R n+1 est un vecteur gaussien, avec Y = (Y 1,..., Y n ), alors E (X Y ) est une v.a.r. gaussienne et il existe des nombres a 1,..., a n, b R tels que : E (X Y ) = a 1 Y 1 + + a n Y n + b. On utilisera le lemme suivant, qui a d ailleurs son intérêt propre. Lemme 1.13 Les tribus 1 et 2 sont indépendantes si et seulement si : E 2 (U) = E (U)1I pour toute v.a.r. U 1 -mesurable. Preuve. S il y a indépendance, on a, pour tout 2 : U dp = E (1I U) = E (1I )E (U) = E (U)1I dp, d où E 2 (U) = E (U)1I. Inversement, si 1 1 et 2 2 : P ( 1 2 ) = 1I 1 dp = E 2 (1I 1 ) dp 2 2 = E (1I 1 ) 1I dp = P ( 1 ) P ( 2 ), 2 9
d où l indépendance de 1 et 2, et donc de 1 et 2. Preuve du théorème. Supposons d abord E (X) = E (Y ) = 0. Soit G l espace vectoriel engendré par Y 1,..., Y n. C est un sous-espace (de dimension finie) de L 2 (, A, P ). De plus, comme le vecteur Y = (Y 1,..., Y n ) est gaussien, G est entièment composé de gaussiennes (c est un espace gaussien). Rappelons que, puisque l on est dans L 2 (, A, P ), l espérance conditionnelle est la projection orthogonale de L 2 (, A, P ) sur L 2 (, Y, P ). Remarquons par ailleurs que G L 2 (, Y, P ). Soit P (X) la projection orthogonale de X sur G. On a P (X) = a 1 Y 1 + + a n Y n pour des nombres réels a 1,..., a n R. Posons Z = X P (X). Le vecteur (Z, Y ) est gaussien, comme image linéaire de (X, Y ), et E (ZY k ) = 0 pour tout k = 1,..., n, car Z est orthogonal à G ; mais si les composantes d un vecteur gaussien sont non corrélées, elles sont indépendantes. Donc Z est indépendant de Y 1,..., Y n. Alors, par le lemme, E (Z Y ) = E (Z) 1I = 0, car E (Z) = a 1 E (Y 1 ) + + a n E (Y n ) = 0, ce qui donne E ( X Y ) = P (X), car E ( P (X) Y ) = P (X) puisque P (X) G L 2 (, Y, P ). On peut donc bien écrire E (X Y ) = a 1 Y 1 + + a n Y n. Lorsque X et Y ne sont plus centrés, il suffit de poser X = X E (X) et Y = Y E (Y ) ; comme Y = Y, on a : E (X Y ) = E (X + E (X) Y ) = E (X Y ) + E (X) n n = a k Y k + E (X) = a k (Y k E (Y k )) + E (X) = k=1 k=1 n ( n ) a k Y k + a k E (Y k ) + E (X). k=1 k=1 Calcul pratique. Pour calculer les coefficients a 1,..., a n, b, on part de : E (X Y ) = a 1 Y 1 + + a n Y n + b. En prenant l espérance, on obtient, puisque E [E (X Y )] = E (X) : E (X) = a 1 E (Y 1 ) + + a n E (Y n ) + b. De même, si on multiplie par Y k, en utilisant E (X Y )Y k = E (XY k Y ), on obtient : n E (XY k ) = a j E (Y j Y k ) + be (Y k ). j=1 Il ne reste plus qu à résoudre ce système linéaire de n + 1 équations à n + 1 inconnues. Il n y a évidemment pas unicité si Y 1,..., Y n ne sont pas linéairement indépendants. 10
2 Martingales Nous n en dirons que quelques mots d introduction. C est une partie importante des Probabilités. Jusqu à présent, nous n avons parlé que de Probabilités statiques, au sens où l on ne s intéressait qu à une seule tribu d événements (ou à deux dans le cas des espérances conditionnelles). Les martingales vont faire intervenir une notion d évolution avec le temps : au fur et à mesure que le temps passe, le nombre d informations que l on connaît augmente ; autrement dit, on doit tenir compte de plus en plus d événements, et l on est amené à considérer des familles croissantes de sous-tribus d événements ; pour mesurer une expérience, on aura donc,à chaque instant, une variable aléatoire pour laquelle l information que l on a sur elle dans le passé, c est-à-dire son espérance conditionnelle par rapport à la tribu correspondante, est la variable aléatoire connue à cet instant passé. Nous ne parlerons par ailleurs que des martingales à temps discret, c està-dire celle indexées par les entiers. Cela revient à regarder ce qui se passe à intervalles réguliers. Si l on veut savoir se qui se passe à tout moment, on utilisera des martingales à temps continu, indexées par R +, par exemple. Définition 2.1 On appelle filtration toute suite croissante : de sous-tribus de A. 1 2 n A Définition 2.2 On appelle martingale par rapport à, ou adaptée à, la filtration ( n ) n 1, toute suite de v.a.r. M n L 1 (, A, P ), n 1, telle que, pour tout n 1 : 1) M n est n -mesurable ; 2) E n (M n+1 ) = M n. Voici deux exemples particulièrement importants. Exemple 1. Soit M L 1 (, A, P ). Si l on pose M n = E n (M), alors (M n ) n 1 est une martingale par rapport à la filtration ( n ) n 1, par la propriété de transitivité des espérances conditionnelles. On dit qu une martingale (M n ) n 1 est terminée s il existe M L 1 (, A, P ) telle que M n = E n (M) pour tout n 1. Exemple 2. Soit (X n ) n 1 une suite de v.a.r. indépendantes et centrées. Si l on pose : S n = X 1 + + X n, alors (S n ) n 1 est une martingale, adaptée à la filtration donnée par n = σ(x 1,..., X n ). 11
On complète habituellement la filtration en introduisant 0 = {, }. Alors, si l on pose M 0 = 0, on définit les accroissements de la martingale, que l on appelle aussi les différences de la martingale, par : On a : d n = M n M n 1 n 1. M n = d 1 + + d n. Ainsi on a une situation semblable à celle de l Exemple 2, sauf que les différences d n, n 1, ne sont plus indépendantes (en général). Néanmoins, on garde une version très affaiblie d indépendance. En effet, dire que la suite (X n ) n 1 est indépendante, peut s exprimer par : Pour tout n 1, la var X n+1 est indépendante de la tribu σ(x 1,..., X n ). Pour la suite des différences d une martingale, on a : E n (d n+1 ) = 0 (puisque E n (M n+1 ) = M n ) ; on a donc une orthogonalité entre n et d n+1 (il y aurait vraiment orthogonalité si l on était dans L 2 (, A, P )). On peut donc espérer pour la convergence des martingales des résultats analogues à ceux obtenus pour les sommes de v.a.r. indépendantes et centrées, et nous allons voir que c est bien le cas. Théorème 2.3 (inégalité maximale de Doob) Soit (M n ) n 1 une martingale adaptée à la filtration ( n ) n 1. Alors, pour tout N 1 et tout a > 0, on a : ( ) P sup M n > a 1 1 n N a E ( M N ). Preuve. Elle est analogue à celle de l inégalité de Kolmogorov. On définit le temps d arrêt ν a par : { + si Mn = d ν a (ω) = 1 + + d n a, pour tout n = 1, 2,..., N min { n N ; M n = d 1 + + d n > a sinon. Posons A = { sup n N M n > a }, et A n = {ν a = n}. On a A n n, et A = 1 n N A n. Alors : E ( 1I An. M n ) = E ( ) ( 1I An.sgn (M n ).M n = E 1IAn.sgn (M n ).E n (M N ) ) = E (E n[ ] ) 1I An.sgn (M n ).M N = E ( ) 1I An.sgn (M n ).M N E (1I An. M N ). 12
Par conséquent : P (A) = N P (A n ) n=1 N n=1 ce qu on voulait montrer. ( 1 ) E a M n.1i An 1 a N E (1I An. M N ) = 1 a E ( M N ), n=1 Théorème 2.4 (Théorème de Doob) 1) Toute martingale terminée converge presque sûrement et pour la norme de L 1. 2) Toute martingale bornée dans L 2 converge presque sûrement et pour la norme de L 2. Pour prouver ce théorème, on aura besoin d une propriété d approximation. Lemme 2.5 Soit C A une algèbre de oole, et soit A σ(c ) et ε > 0. Alors il existe C tel que P (A ) ε, où désigne la différence symétrique. Preuve. Remarquons que P (A ) = 1I A 1I 1. Si D désigne l ensemble des A σ(c ) ayant la propriété d approximation de l énoncé pour tout ε > 0, on vérifie facilement que D est une tribu. Comme elle contient C, elle est égale à σ(c ). Preuve du Théorème de Doob. 1) Soit ( n ) n 1 la filtration à laquelle (M n ) n 1 est adaptée. Par hypothèse, il existe M L 1 (, A, P ) telle que M n = E n (M) pour tout n 1. Soit C l algèbre de oole n=1 n, = σ(c ), et M = E (M). Si ε > 0, on peut trouver Y = J j=1 a j1i j, avec j, 1 j J, telle que M Y 1 ε. Grâce au lemme, on peut trouver, pour chaque j, un C j C tel que : 1I j 1I Cj 1 ε 1 + a 1 + + a J ; il s ensuit que Z = J j=1 a j1i Cj est C -mesurable, et que : M Z 1 M Y 1 + Y Z 1 2ε. Par définition de C, on peut trouver un n 0 1 tel que Z soit n0 -mesurable. On a donc, pour n n 0 : d où : M n M = E n (M) M = E n (M ) M = E n (M ) E n (Z) + Z M ; M n M 1 E n (M Z) 1 + M Z 1 2 M Z 1 4ε. 13
L Cela montre que M 1 n M. n Appliquons maintenant, pour chaque n 1, l inégalité maximale de Doob à la martingale (M k M n ) k n. On obtient : ( P sup n k N ) M k M n > a 1 a M N M n 1. Donc, en faisant tendre N vers l infini : ( ) P M k M n > a 1 a M M n 1. sup k n Cette inégalité montre que la fonction maximale sup k>n M k M n converge en probabilité vers 0. Cela signifie que (M n ) n 1 est presque sûrement de Cauchy, et donc converge presque sûrement. Comme elle converge vers M pour la norme de L 1, la limite presque sûre est forcément M. 2) Posons M 0 = 0 et d n = M n M n 1 pour n 1. Les accroissements d n sont orthogonaux dans L 2 car pour j < n on a : E (d j d n ) = E [ E j (d j d n ) ] = E [ d j E j (d n ) ] = E (d j.0) = 0. On a donc E (Mn) 2 = n j=1 E (d2 j ), et donc, puisque l on a supposé la martin- j=1 d j converge gale (M n ) n 1 bornée dans L 2 : j=1 E (d2 j ) < +. La série donc dans L 2, et puisque M n = d 1 + + d n, cela montre que la martingale (M n ) n 1 converge dans L 2. Notons M sa limite. Il ne reste plus qu à voir que E n (M) = M n, car cela signifiera que (M n ) n 1 est une martingale terminée, et donc converge presque sûrement, par le 1). On notera que l on a forcément M = M. Pour montrer cela, pour chaque n 1, fixons n. Alors, pour N n, on a : E (M n 1I ) = E [ E n (M N )1I ) ] = E [ E n (M N 1I ) ] = E (M N 1I ). Comme E (M N 1I ) E (M1I ) M N M 1 M N M 2, on obtient, en faisant tendre N vers l infini : E (M n 1I ) = E (M1I ). On a donc bien M n = E n (M). Nous nous arrêterons ici. Signalons simplement que l on peut montrer les résultats suivants : 1) (Doob) Toute martingale bornée dans L 1 converge presque sûrement. 2) Pour toute martingale (M n ) n 1, il y a équivalence entre : a) (M n ) n 1 converge dans L 1 (pour la norme) ; b) (M n ) n 1 est terminée ; c) {M n ; n 1} est équi-intégrable. 3) Pour 1 < p <, si M n L p (, A, P ) et si M n p K pour tout n 1, alors les conditions précédentes sont vérifiées, et de plus la convergence a lieu pour la norme de L p. 14