1 Définition, existence, unicité.



Documents pareils
Espérance conditionnelle

3. Conditionnement P (B)

Intégration et probabilités TD1 Espaces mesurés Corrigé

Intégration et probabilités TD1 Espaces mesurés

Moments des variables aléatoires réelles

Limites finies en un point

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Image d un intervalle par une fonction continue

Programmes des classes préparatoires aux Grandes Ecoles

La mesure de Lebesgue sur la droite réelle

I. Polynômes de Tchebychev

Simulation de variables aléatoires

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

3 Approximation de solutions d équations

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Probabilités sur un univers fini

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Continuité en un point

Théorie de la Mesure et Intégration

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

MA6.06 : Mesure et Probabilités

Chapitre 2 Le problème de l unicité des solutions

Théorème du point fixe - Théorème de l inversion locale

4. Martingales à temps discret

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Correction de l examen de la première session

Calcul fonctionnel holomorphe dans les algèbres de Banach

Chapitre 3. Les distributions à deux variables

Capes Première épreuve

Probabilités sur un univers fini

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

PROBABILITÉS: COURS DE LICENCE DE MATHÉMATIQUES APPLIQUÉES LM 390

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Approximations variationelles des EDP Notes du Cours de M2

Fonctions de plusieurs variables

1 Complément sur la projection du nuage des individus

Calculs de probabilités

Introduction à l étude des Corps Finis

Texte Agrégation limitée par diffusion interne

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

La fonction exponentielle

Intégration sur des espaces produits

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Théorie de la Mesure et Intégration

Relation d ordre. Manipulation des relations d ordre. Lycée Pierre de Fermat 2012/2013 Feuille d exercices

Résolution d équations non linéaires

Structures algébriques

Le produit semi-direct

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Théorie de la mesure. S. Nicolay

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE

Programmation linéaire et Optimisation. Didier Smets

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

EXERCICE 4 (7 points ) (Commun à tous les candidats)

Suites numériques 4. 1 Autres recettes pour calculer les limites

Bac Blanc Terminale ES - Février 2011 Épreuve de Mathématiques (durée 3 heures)

Dualité dans les espaces de Lebesgue et mesures de Radon finies

FIMA, 7 juillet 2005

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

M2 IAD UE MODE Notes de cours (3)

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Exemple 4.4. Continuons l exemple précédent. Maintenant on travaille sur les quaternions et on a alors les décompositions

Fonctions de plusieurs variables. Sébastien Tordeux

Mesures gaussiennes et espaces de Fock

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

Un K-espace vectoriel est un ensemble non vide E muni : d une loi de composition interne, c est-à-dire d une application de E E dans E : E E E

Travaux dirigés d introduction aux Probabilités

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Calcul différentiel. Chapitre Différentiabilité

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

NOTATIONS PRÉLIMINAIRES

Que faire lorsqu on considère plusieurs variables en même temps?

MÉTHODE DE MONTE CARLO.

Probabilités III Introduction à l évaluation d options

Différentiabilité ; Fonctions de plusieurs variables réelles

Calcul différentiel sur R n Première partie

PROBABILITES ET STATISTIQUE I&II

MESURE ET INTÉGRATION EN UNE DIMENSION. Notes de cours

Exercices Corrigés Premières notions sur les espaces vectoriels

Continuité d une fonction de plusieurs variables

Modèles et Méthodes de Réservation

Attitude des ménages face au risque. M1 - Arnold Chassagnon, Université de Tours, PSE - Automne 2014

Principe de symétrisation pour la construction d un test adaptatif

Chapitre 7 : Intégration sur un intervalle quelconque

Construction de l'intégrale de Lebesgue

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Intégrale de Lebesgue

Correction du Baccalauréat S Amérique du Nord mai 2007

ENS de Lyon TD septembre 2012 Introduction aux probabilités. A partie finie de N

Cours d Analyse. Fonctions de plusieurs variables

Transcription:

Université Denis Diderot Paris 7 Espérance conditionnelle Ces rappels et compléments de cours sont inspirés de [1], [2], [3]. Il va de soi que pour une bonne connaissance des notions qui suivent, il est absolument indispensable de s exercer à la pratique du calcul d espérances conditionnelles en tous genres. On se reportera en particulier à la feuille de TD pour cette pratique. 1 Définition, existence, unicité. On prend le parti de donner la définition générale de l espérance conditionnelle valable pour une variable aléatoire réelle (ou un vecteur aléatoire de R d ) intégrable. On notera. la norme euclidienne de R d. La définition est théorique et il est au premier abord difficile de se faire une intuition simple de sa signification, mais cette définition a le mérite de s appliquer à toutes les situations, et elle est souvent la caractérisation appropriée pour démontrer les propriétés de l espérance conditionnelle (voir partie 2.2). Comme on le verra par la suite, dans le cas d une variable de carré intégrable, cette définition générale coïncide avec la définition de projeté orthogonal sur le sous-espace de L 2 des variables G-mesurables. Cette deuxième caractérisation, même si elle offre un cadre plus restreint, a le mérite de rendre l intuition de l espérance conditionnelle plus compréhensible. Ainsi, dans ce cadre L 2, l espérance conditionnelle de X sachant G s avérera tout simplement être le meilleur estimateur G-mesurable de X ( meilleur au sens où il minimise la distance L 2 à X parmi les variables G-mesurables). Enfin, dans le cadre du conditionnement vis-à-vis d une tribu discrète, ou encore dans le cadre de conditionnement entre des variables qui possèdent une densité jointe, la définition générale conduit à des expressions simples et directement utilisables de l espérance conditionnelle. 1.1 Hypothèses générales et définition de l espérance conditionnelle Hypothèse 1.1. Dans la suite on suppose que (Ω, F, P) est un espace probabilisé. On suppose que X : (Ω, F ) (R d, B(R d )) est intégrable, i.e. que E[ X ] <. Enfin, on suppose que G est une sous-tribu de F. Dans ce qui suit, on raisonne toujours à indistinguabilité près, i.e. deux variables qui coïncident sauf sur un espace de mesure nulle sont considérées comme identiques. Définition 1.2. On définit l espérance conditionnelle de X sachant G et on note E[X G] toute variable aléatoire Y qui vérifie 1

Y est G-mesurable (1) A G, E[1 A X] = E[1 A Y]. (2) Notation : On écrira souvent E[X Z] en lieu et place de E[X σ(z)], ou encore E[X Z 1, Z 2,...] en lieu et place de E[X σ(z 1, Z 2,...)]. Le cas de la dimension d quelconque est en réalité essentiellement similaire au cas d = 1, ainsi pour ne pas alourdir les notations, on va supposer dans la suite (sauf mention contraire) que d = 1 et donc que X est une variable aléatoire réelle intégrable. Peut-être est-il bon de rappeler, qu une variable aléatoire réelle Y est G-mesurable si elle vérifie B B(R), Y 1 (B) G. Comme il se trouve que l ensemble d intervalles {], a[, a R} engendre la tribu borélienne, il suffit en fait (pour assurer la G-mesurabilité d une variable Y, i.e. la propriété (1) ci-dessus) de vérifier que 1.2 Intégrabilité, positivité a R Y 1 (], a[) = {Y < a} G. Lemme 1.3. Toute variable Y qui vérifie les propriétés (1), (2) est intégrable, et vérifie E[Y] = E[X]. Preuve : Soit A + = {Y > 0}. Puisque Y vérifie (1), A G, et donc d après (2), on obtient 0 E[Y1 A +] = E[X1 A +] E[ X 1 A +]. De même, Soit A = {Y < 0}. Puisque Y vérifie (1), A G, et donc d après (2), on obtient Finalement 0 E[ Y1 A ] = E[ X1 A ] E[ X 1 A ]. E[ Y ] = E[Y1 A + Y1 A ] E[ X ] <. Par ailleurs, puisque Ω G on a, toujours grâce à (2), E[Y] = E[Y1 Ω ] = E[X1 Ω ] = E[X]. Lemme 1.4. Si X 0 p.s. et Y vérifie les propriétés (1), (2), alors Y 0 p.s. Preuve : En gardant la notation A = {Y < 0} G de la preuve précédente, E[X1 A ] = E[Y1 A ] Or X1 A 0 p.s., par hypothèse, tandis que Y1 A 0 par définition de A. On en déduit que Y1 A = 0 p.s., c est-à-dire que Y 0 p.s. 2

1.3 Le cas L 2 Hypothèse 1.5. On suppose dans ce paragraphe que X est de carré intégrable, i.e. E[X 2 ] < (pour d > 1 on demanderait ici E[ X 2 ] < ). L espace L 2 = {Z : E[Z 2 ] < } est un espace préhilbertien, c est-à-dire que cet espace vectoriel de dimension infinie est muni d un produit scalaire. Le produit scalaire dans cet espace n est autre que Z 1, Z 2 = E[Z 1 Z 2 ] De plus, E = {Z : E[Z 2 ] <, Z est G-mesurable} est un sous espace fermé de L 2. Remarque 1.6. Notre Hypothèse 1.5 se résume à dire que X L 2. Le projeté orthogonal Π E (X) de X sur E existe et est unique. Bien entendu il définit une variable G-mesurable (c est simplement la définition de E), et donc Π E (X) vérifie (1). Mais de plus, le fait qu il s agisse d un projeté orthogonal assure que Z E, X Π E (X), Z = 0, et par linéarité de l espérance, ceci peut être réécrit Z E, E[XZ] = E[Π E (X)Z] Reste à noter que pour tout A G, 1 A est bien un élément de E, ce qui permet de conclure que Π E (X) satisfait (2), il est donc par définition un candidat de l espérance conditionnelle de X sachant G. Supposons alors que Y L 2 vérifie (1), (2). On a alors Y Π E (X), Z = 0 pour tout Z E, mais comme Y Π E (X) E on obtient E[(Y Π E (X)) 2 ] = 0, i.e. P(Y = Π E (X)) = 1. Conclusion : Sous l hypothèse 1.5, l espérance conditionnelle existe et est unique, et elle n est autre que le projeté orthogonal de X sur l espace des variables G-mesurables. L espérance conditionnelle est donc dans ce cas l unique variable G-mesurable qui minimise la distance entre X et les variables G-mesurables. En d autres termes, E[X G] est le meilleur prédicteur G-mesurable de X au sens où il minimise E [ (X E[X G]) 2]. Ceci devrait vous rappeler l estimateur des moindres carrés que vous connaissez du cours de statistiques, et bien évidemment, ce n est pas un hasard (voir la section sur le cas gaussien ci-après). 3

1.4 Existence et unicité de l espérance conditionnelle, le cas général Proposition 1. L espérance conditionnelle de X L 1 (Ω, F, P) existe et est unique. Remarque 1.7. On parle ici toujours, bien entendu, d unicité à indistinguabilité près. Commençons, pour prouver la proposition, par établir l unicité. Preuve de l unicité : Supposons que Y, Y vérifient (1), (2) Rappelons (cf le paragraphe 1.2) que Y, Y sont intégrables. Fixons ε > 0 et posons A ε = {Y Y ε}. D après le fait que Y et Y vérifient (1), A ε G et donc d après (2) et la linéarité de l espérance 0 = E[X1 Aε ] E[X1 Aε ] = E[(Y Y )1 Aε ] εp(a ε ), ce qui entraîne que P(A ε ) = 0. Comme ce raisonnement est valable ε > 0, on déduit que 0 = P( ε>0 A ε ) = P(Y Y > 0) i.e. Y < Y p.s. Par symétrie des rôles de Y, Y on obtient de même Y < Y p.s. et on conclut que P(Y = Y ) = 1. Ceci achève la preuve de l unicité. Pour l existence, on propose deux preuves d inspiration distinctes. La première est directe, et fait appel au théorème de Radon-Nykodym. La deuxième utilise un argument de densité et le résultat déjà prouvé pour les variables de carré intégrable (cf la section 1.3). Première preuve de l existence (via Radon-Nykodym) : Supposons tout d abord X L 1, X 0. On définit alors la mesure (finie) Q sur (Ω, G) telle que Q(A) = E[X1 A ], A G. Lemme 1.8. On a Q << P, et on peut donc définir sur (Ω, G) la variable Y := dq dp. En effet, si A G vérifie P(A) = 0, alors pour tout M > 0 E[X1 A ] = E[X1 0 X M 1 A ] + E[X1 X>M 1 A ] MP(A) + E[X1 X>M ]. Pour tout M > 0 le premier terme de la somme ci-dessus est nul car P(A) = 0. Par le théorème de convergence dominée (on domine par la variable X qui est intégrable), le deuxième tend vers 0 lorsque M, ce qui implique finalement Q(A) = 0. On a donc démontré que Q << P, le théorème de Radon-Nykodym permet de conclure la preuve du lemme. 4

La variable Y ainsi introduite est (par construction) G-mesurable, et de plus elle vérifie A G, E[Y1 A ] = E Q [A] = E[X1 A ]. La variable Y vérifie donc les propriétés (1) et (2) de la définition de l espérance conditionnelle, ce qui achève la preuve de l existence dans le cas d une variable positive. Lorsque X L 1 est quelconque, on pose X = X + X, où bien sûr, X + = max(x, 0) et X = max( X, 0) sont des variables intégrables et positives. On voit alors facilement qu en posant Y = E[X + G] E[X G], on obtient une variable aléatoire qui vérifie les deux propriétés requises, et on conclut que Y := E[X G]. Deuxième preuve de l existence (via les variables L 2 ) : Comme dans la première preuve on commence par supposer X L 1, X 0. La suite (X n := X n, n 0) est une suite de variables bornées (en particulier elles sont de carré intégrable) et X n croît presque sûrement vers X. D après le paragraphe 1.3, on peut donc considérer Y n = Π E (X n ) = E[X n G]. C est d après le lemme 1.4, une suite croissante de variables positives, et bien sûr G-mesurables. On pose alors Y := lim n Y n. Cette variable est G-mesurable (comme limite de telles variables). Fixons A G. En utilisant le théorème de convergence monotone on obtient que lorsque n E[1 A Y n ] E[1 A Y], E[1 A X n ] E[1 A X]. Mais d après (2) les deux suites ci-dessus coıincident, leurs limites coïncident donc également et comme le raisonnement est valable quelque soit A G on conclut que Y = E[X G]. La fin de la preuve est identique : pour une variable X L 1 quelconque on vérifie que Y = E[X + G] E[X G], satisfait bien les deux propriétés requises, et on conclut que Y := E[X G]. 2 Exemples fondamentaux d espérance conditionnelle, propriétés de l espérance conditionnelle 2.1 Exemples fondamentaux Exemple 2.1. Si X est G-mesurable, alors E[X G] = X. 5

Preuve : Par hypothèse, X vérifie (1), et il est immédiat de s assurer que X vérifie (2). Exemple 2.2. Si X est indépendant de G, alors E[X G] = E[X]. Preuve : La variable E[X] est constante, elle est donc H-mesurable pour toute tribu H, en particulier elle est donc G-mesurable et la propriété (1) est vérifiée. Soit A G ; X et 1 A sont deux variables indépendantes et donc E[1 A X] = P(A)E[X]. D autre part, puisque la variable E[X] est constante, on a bien sûr E[1 A E[X]] = E[X]P[A]. Comme le raisonnement est valable quelque soit A G, on conclut que E[X] vérifie (2). Exemple 2.3. Soit I un ensemble dénombrable et (Ω i, i I) une partition de Ω. On pose G = σ(ω i, i I). On a alors E[X1 Ωi ] E[X G] = P(Ω i ) 1 Ω i. i I:P(Ω i )>0 Remarque 2.4. Quitte à adopter la convention E[X1 Ω i ] P(Ω i ) E[X1 Ωi ] P(Ω i ) 1 Ω i = i I:P(Ω i )>0 i I = 0 lorsque P(Ω i ) = 0, on a E[X1 Ωi ] P(Ω i ) 1 Ω i. Preuve : Notons Y := E[X1 Ωi ] i I:P(Ω i )>0 P(Ω i 1 ) Ωi. Clairement Y est G-mesurable et vérifie donc (1). Soit i I tel que P(Ω i ) > 0. Puisque les (Ω i, i I) sont disjoints, on a E [ 1 Ωi Y ] [ ] E[X1Ωi ] = E P(Ω i ) 1 Ω i = E[X1 Ω i ] P(Ω i ) E[1 Ω i ] = E[X1 Ωi ]. Notons d autre part que lorsque P(Ω i ) = 0 on a toujours E[1 Ωi Y] = 0 = E[1 Ωi X]. Finalement, E[1 Ωi Y] = E[1 Ωi X] i I Enfin, puisque (Ω i, i I) est une partition, on sait que pour tout A G, il existe J I tel que A = i J Ω i. On déduit donc de l égalité ci-dessus et de la linéarité de l espérance que E [1 A Y] = E[1 A X], ce qui achève la vérification de (2). 6

Exemple 2.5. Soient X, Y deux variables réelles de densité jointe f, i.e. pour tout B B(R 2 ), P((X, Y) B) = f (x, y)dxdy. Soit g : R R borélienne telle que E[ g(x) ] <. On a alors E[g(X) Y] = φ(y), où φ : R R est une quelconque fonction borélienne telle que y R, φ(y) f (x, y)dx = g(x) f (x, y)dx. R Notons qu on peut se contenter de définir φ de la façon suivante : φ(y) = R g(x) f (x, y)dx ( φ(y) f (x, y)dx) 1 si φ(y) f (x, y)dx 0 R R 0 sinon. Preuve : Posons Z = φ(y). Puisque φ est borélienne il va de soi que Z est σ(y)-mesurable, et vérifie donc (1). Soit A σ(y), de sorte qu il existe B B(R) tel que A = {Y B}. Or E[φ(Y)1 A ] = φ(y) f Y (y)1 B (y)dy, R où, bien entendu, pour y R, f Y (y) = f (x, y)dx. Donc, par définition de φ, et Fubini, R E[φ(Y)1 A ] = g(x) f (x, y)1 B (y)dxdy = E[g(X)1 B (Y)], R R où on a utilisé la définition de la densité jointe pour obtenir la dernière égalité. La variable Z vérifie donc (2), ce qui achève la preuve. Exemple 2.6. On suppose que les variables X, Y sont indépendantes. Soit h : R 2 R borélienne telle que E[ h(x, Y) ] <. Alors E[h(X, Y) Y] = ψ(y), où y R, ψ(y) = E[h(X, y)]. Preuve : Comme précedemment, Z := ψ(y) vérifie immédiatemment (1). Soit A σ(y), i.e. il existe B B(R) tel que A = {Y B}. En notant P Y la loi de Y, on obtient E[ψ(Y)1 A ] = ψ(y)1 B (y)dp Y (y) R et par définition de ψ, en notant P X la loi de X, on a ( ) E[ψ(Y)1 A ] = h(x, y)dp X (x) 1 B (y)dp Y (y). R R 7 B R

L indépendance de X et de Y siginifie précisément que la loi jointe de (X, Y) n est autre que la loi produit P X P Y ; et par Fubini on en déduit donc E[ψ(Y)1 A ] = h(x, y)1 B (y)dp (X,Y) (x, y) = E[h(X, Y)1 A ], R 2 ce qui achève la preuve de (2). Remarque 2.7. On retrouve bien sûr Exemple 2.2 comme cas particulier de Exemple 2.6 (en posant simplement h(x, Y) = X). 2.2 Propriétés de l espérance conditionnelle : énoncés Remarque 2.8. Toutes les propriétés qui suivent sont vraies p.s., puisque l espérance conditionnelle est définie de façon unique à indistinguabilité près. Pour éviter d alourdir les énoncés on ne rappellera pas cette restriction. Propriété 2.9. Linéarité : Soient a, b des rééls, X intégrable, Propriété 2.10. Positivité : Si X 0, intégrable, E[X G] 0. E[aX + b G] = ae[x G] + b. Propriété 2.11. dite propriété de tour : Si X intégrable, a. E[E[X G]] = E[X]. b. Si G 2 G 1, E[E[X G 1 ] G 2 ] = E[X G 2 ], E[E[X G 2 ] G 1 ] = E[X G 2 ]. Propriété 2.12. Chebychev conditionnel : Soit X une v.a.r. de carré intégrable, P( X a G) a 2 E[X 2 G]. Propriété 2.13. Convergence monotone conditionnelle : Soit (X n, n 0) une suite croissante de v.a.r. intégrables, qui converge vers une variable X que l on suppose intégrable. Alors E[X n G] n E[X G]. Propriété 2.14. Fatou conditionnel : Soit (X n, n 0) une suite de v.a.r. positives et intégrables, telle que lim inf n X n est une variable intégrable, alors E[lim inf n X n G] lim inf E[X n G]. n 8

Propriété 2.15. Convergence dominée conditionnelle : Soit (X n, n 0) une suite de v.a.r. intégrables qui converge en probabilité vers X, et on suppose qu il existe U intégrable telle que n 0; X n U. Alors lim E[X n G] = E[X G]. n Propriété 2.16. Jensen conditionnel : Si φ est convexe et X, φ(x) sont intégrables alors φ(e[x G]) E[φ(X) G]. Remarque 2.17. En particulier si X L p, la propriété précédente implique que et d après Propriété 2.11 on déduit que E[X G] p E[ X[ p G], E[X G] p X p. Propriété 2.18. Cauchy conditionnel : Soient X et Y des v.a.r. de carré intégrable. Alors E[XY G] 2 E[X 2 G]E[Y 2 G]. Propriété 2.19. Si X est G-mesurable et si E[ XY ] < alors E[XY G] = XE[Y G]. Propriété 2.20. formule de Bayes généralisée : pour G G P(A G)dP G P(G A) = P(A G)dP. Ω Propriété 2.21. Moindre carré (moyen) : Si X est de carré intégrable, E[X G] est la variable Y G-mesurable qui minimise E[(X Y) 2 ]. Propriété 2.22. Pythagore : Si X est de carré intégrable et G 2 G 1 alors E[(X E[X G 2 ]) 2 ] = E[(X E[X G 1 ]) 2 ] + E[(E[X G 1 ] E[X G 2 ]) 2 ]. Propriété 2.23. Si X est de carré intégrable et si Var[X G] := E[X 2 G] E[X G] 2, Var[X] = E [Var[X G]] + Var [E[X G]]. 9

2.3 Preuves des propriétés 1. Le membre de droit est clairement G-mesurable, et il vérifie (2) grâce à la linéarité de l espérance. On conclut par unicité. 2. On avait déjà enoncé et démontré cette propriété dans la partie précédente (cf Lemme 1.4). 3. a. est simplement (2) appliqué à A = Ω, qui est bien un élément de G. La deuxième égalité de b. est une simple application de l Exemple 2.1. Quant à la première égalité, elle nous fournit un candidat G 2 mesurable (Y := E[X G 2 ]) pour E[E[X G 1 ] G 2 ]. Or si A G 2 (d après l hypothèse G 2 G 1, A appartient à G 1 également), on peut utiliser (2) à deux reprises (dans la première égalité ci-dessous, pour l espérance conditionnelle vis-à-vis de G 2, et dans la deuxième égalité ci-dessous, pour l espérance conditionnelle vis-à-vis de G 1, puisque A G 1 ) pour obtenir ce qui assure le résultat. E[Y1 A ] = E[X1 A ] = E[E[X G 1 ]1 A ], 4. Reprendre la preuve de l inégalité traditionnelle de Chebychev pour se rendre compte qu il s agit là d une simple conséquence de la positivité de l espérance conditionnelle (Propriété 2.10). 5. Posons Y n = X X n, qui est positive, et intégrable pour tout n puisque X, X n le sont. La suite Z n := E[Y n G] (qui n est autre que E[X G] E[Y n G] d après la Propriété 2.9 de linárité) est donc d après Propriété 2.10, une suite décroissante de v.a.r. positives et intégrables, elle converge donc vers une variable Z positive, intégrable. De plus, d après le théorème de convergence monotone traditionnel, E[Y n ] 0 lorsque n. Ainsi, pour A G, lorsque n E[1 A Y n ] E[Y n ] 0. Mais d après (2), E[1 A Y n ] = E[Z n 1 A ]. Ceci étant valable pour tout A G et Z étant G-mesurable, positive, on conclut par l argument habituel que Z = 0, ce qui achève la démonstration. 6. C est la même preuve que celle de Fatou traditionnel, en utilisant le théorème de convergence monotone conditionnel en lieu et place du théorème de convergence monotone habituel. 7. La preuve du résultat non conditionnel s adapte ici également sans heurts, cette fois on utilise Fatou conditionnel en lieu et place de Fatou habituel. 8. Le résultat est évident si φ est affine en utilisant Propriété 2.9. Dans le cas général, il suffit de voir une fonction convexe comme le supremum des fonctions affines qui la minorent : φ(x) = sup{ f (x) : f ( ) = a +b, f φ} 10

Or pour de tels φ, f ( ) = a +b, φ f, on a bien sûr par la Propriété 2.10 E[φ(X) G] E[aX + b G] = f (E[X G]) et on conclut en passant au supremum sur toutes les fonctions f affines majorées par φ. 9. Cette inégalité découle de l observation que pour tout θ R, d après Propriétés 2.9, 2.10 0 E[(X + θy) 2 G] = E[X 2 G] + 2θE[XY G] + θ 2 E[Y 2 G], et que donc le discriminant de ce polynôme de la variable θ est négatif. 10. Remarquons que Z = XE[Y G] fournit un cadidat G mesurable pour E[XY G]. Reste à vérifier (2). Commençons par le cas où Y = 1 B pour un certain B indépendant de G. On a alors pour A G, E[XY1 A ] = E[X1 A 1 B ] = E[X1 A ]P(B) = E(XP(B)1 A ), comme souhaité. Par linéarité, on étend le résultat aux variables Y étagées, indépendantes de G. Lorsque Y est positive, indépendante de G, on peut approcher Y par une suite de fonctions étagées positives, indépendantes de G et conclure grâce au théorème de convergence monotone conditionnel Propriété 2.13. Enfin si Y est seulement supposée indépendante de G, il suffit de la décomposer en Y + Y (qui sont toutes deux indépendantes de G), utiliser le résultat précédent et à nouveau la linéarité. 11. Par définition P[A G] = E[1 A G] et donc d après (2), P(A G) = E[1 A 1 G ] = E[E[1 A G]1 G ] = E[1 A G]dP. G De manière similaire (en remplaçant G par Ω dans le raisonnement précédent), on obtient P(A) = E[1 A G]dP, Ω ce qui permet de conclure. Remarque 2.24. Dans le cas où G est engendrée par une partition dénombrable {Ω i, i I}, et G = Ω j pour un certain j I, utilisons l Exemple 2.3 pour voir que la formule de Bayes généralisée se réduit alors à la formule de Bayes usuelle P(Ω j A) = P(A Ω j ) P(Ω j ) P(Ω j ) P(A Ω i ) i I P(Ω i P(Ω ) i ) = P(A Ω j )P(Ω j ) i I P(A Ω i )P(Ω i ) 11

12. On a déjà enoncé et démontré cette propriété dans la partie précédente. 13. D après la partie précédente, il s agit bien du théorème de Pythagore, appliqué dans l espace euclidien L 2 (Ω, F, P) et ses sous-espaces des variables G 1 (respectivement G 2 )-mesurables. 14. Par définition E [Var[X G]] = E [ E[X 2 G] E[X G] 2] = E[X 2 ] E [ E[X G] 2] = E [ (X E[X G]) 2], où, pour obtenir la dernière égalité, on a utilisé (2) pour voir que E[XE[X G]] = E [ E[X G] 2]. Il suffit alors d appliquer la Propriété 2.22 avec G 1 = G, G 2 = {Ω, }, de sorte que E[X G 2 ] = E[X], Var[X G 2 ] = Var[X], pour obtenir Var[X] = E[(X E[X G]) 2 ] + Var[E[X G]], ce qui, d après ce qui précède, est le résultat souhaité. 3 Le cadre gaussien 3.1 Quelques rappels On commence par se contenter de rappeler quelques définitions et résultats sur les lois gaussiennes multivariés. On peut par exemple trouver les preuves des résultats mentionnés dans ce paragraphe dans le chapitre 4 de [2], ou encore dans le chapitre 3 du cours polycopié [3]. On note S n (R) l espace des matrices symétriques et inversibles, de taille n n, à coefficients réels. D autre part on note T la transposée (d un vecteur ou d une matrice). Enfin, on note, le produit scalaire euclidien sur R n (de sorte que x, y = x T y) et rappelons que. désigne la norme euclidienne sur R n. Définition 3.1. On dit que le vecteur X R n suit la loi gaussienne multivariée (non-dégénérée) de moyenne µ R n et de matrice de covariance (inversible) M S n (R) si la loi de X possède une densité f X vis-à-vis de la mesure de Lebesgue sur R n qui s écrit f X (x) = On note dans ce cas X N(µ, M). 1 (2π) n/2 det(m) 1/2 exp ( (x µ) T M 1 (x µ) ). 12

Proposition 1. Soit X N(µ, M). Alors pour tout a R n, ( Φ X (a) := E(exp(ia T X) = exp ia T µ 1 ) 2 at Ma. Réciproquement, si X possède une telle fonction caractéristique pour une certaine matrice M, alors X N(µ, M). La proposition ci-dessus permet d étendre la définition préc dente au cas dégénéré det(m) = 0. Mais il faut bien noter que dans ce cas, la loi de X R n ne possède plus une densité vis-à-vis de la mesure de Lebesgue sur R n. En fait, si M est de rang k < n, on peut établir qu il existe un sous-e.v. H R n de dimension n k tel que pour tout a H, a T X est presque sûrement constant. Définition 3.2. On dit que X R n est un vecteur gaussien si y R n, X, y suit une loi gaussienne. Proposition 2. Soit X N(µ, M). Alors X est un vecteur gaussien. Réciproquement, si X est un vecteur gaussien, et si la matrice de covariance de ses coordonnées est inversible, alors X suit une loi gaussienne multivariée. Propriété 3.3. Soit X N(µ, M). a. Soit a R n. Alors a T X suit une loi normale de moyenne a T µ et de variance a T Ma. b. Une transformation affine de X est toujours un vecteur gaussien. Plus précisément, si A est une matrice p n, et b R p AX + b (vecteur alátoire de R p ) N(Aµ + b, AMA T ). Propriété 3.4. Soient un vecteur aléatoire gaussien (X, Y) R p+q. Les vecteurs X R p, Y R q sont indépendants si et seulement si leur matrice de covariance croisées E[(X E[X]) T (Y E[Y])] est une matrice nulle. Remarque 3.5. Cette proposition se généralise facilement au cas où l on considère un vecteur gaussien se décomposant en k vecteurs de matrice de covariances croisées toutes nulles. Mais il faut bien faire attention : l hypothèse que le vecteur aléatoire initial (X, Y) est un vecteur gaussien est absolument fondamentale pour cette caractérisation d indépendance (remarquer que ceci revient à supposer que la loi jointe est gaussienne). Elle n est certainement pas valable pour un vecteur aléatoire quelconque (et même si ce vecteur a toutes ses coordonnées gaussiennes!). Penser à l exemple X N(0, 1), Y = εx où ε Ber(1/2) et ε est indépendant de X. Il est facile que Y N(0, 1). De plus, cov(x, Y) = E[X 2 1 ε=1 ] E[X 2 1 ε=1 ] = E[X 2 ](P(ε = 1) P(ε = 1)) = 0, où on a utilisé l indépendance de X et ε à la deuxième égalité ci-dessus. 13

3.2 Calcul d espérances conditionnelles dans le cadre gaussien ( ) ξ Proposition 3. Soit un vecteur normal X N(µ, M) tel que X =, θ ( ) ( ) ξ R k, θ R l µθ Mξξ M, avec p = k + l, µ = et M = ξθ, où M ξξ est une matrice k k, µ ξ M θθ est une matrice l l, et M ξθ = M T est une matrice k l. Supposons que det(m) > 0. θξ Alors : (i) Presque sûrement, M θξ M θθ E(θ ξ) = µ θ + M θξ M 1(ξ µ ξξ ξ), V(θ ξ) = M θθ M θξ M 1M ξξ ξθ. (3) (ii) La loi conditionnelle de θ sachant ξ est une loi gaussienne N(µ θ + M θξ M 1(ξ µ ξξ ξ), M θθ M θξ M 1M ξξ ξθ). (iii) Les vecteurs aléatoires ξ et θ M θξ M 1 ξ sont indépendants. ξξ Preuve : On se contente de montrer la proposition dans le cas µ = 0, il est ensuite facile de généraliser le résultat au cas général en ajoutant les constantes appropriées. Soit L 2 ξ (Rl, P) l espace des vecteurs aléatoires de norme carrée intégrable (à l coordonnées), σ(ξ)-mesurables ; qui est un sous espace de L 2 ξ (Rl, P), les vecteurs aléatoires de norme carrée intégrable. Lemme 3.6. M θξ M 1 ξξ ξ n est autre que la projection de θ sur L2 ξ (Rl, P). Notons tout d abord que η := θ M θξ M 1 ξ est orthogonal à ξ, puique la matrice de ξξ covariances croisées de η et ξ est Cov(η, ξ) = Cov(θ, ξ) Cov(M θξ M 1 ξξ ξ, ξ) = M θξ M θξ M 1 ξξ M ξξ = 0. D après Proposition 3.4, ceci assure la partie (iii) de la Proposition. Pour une fonction g mesurable telle que E[ g(ξ) θ ] <, on obtient donc gâce à l indépendance de ξ et η que E[g(ξ)η] = E[g(ξ)η] + E[g(ξ)(θ η)] = E[g(ξ)]E[η] + E[g(ξ)(θ η)] = E[g(ξ)(θ η)], où on a utilisé le fait que η est centré pour obtenir la deuxième égalité. La variable θ η vérifie donc (1). Comme θ η = M θξ M 1 ξ est σ(ξ)-mesurable, il s agit bien de l espérance ξξ conditionnelle de θ sachant ξ. 14

Pour la variance conditionnelle, on utilise la σ(ξ)-mesurabilité de θ η et l Exemple 2.1 ; l indépendance de η et ξ et l Exemple 2.2 pour écrire Var[θ ξ] = Var[η ξ] = Var[η]. Cette variance se calcule facilement grâce à Propriété 3.3 et on obtient le résultat souhaité, et on conclut la preuve de (i). Rappelons notre décomposition clé : θ = η + M θξ M 1 ξξ ξ, autrement dit θ est somme de vecteurs gaussiens centrés, le premier étant indépendant de σ(ξ), le deuxième étant σ(ξ)-mesurable. La loi du premier terme de la somme n est donc pas affectée par le conditionnement, tandis qu au contraire le conditionnement rend la deuxième variable constante. La loi conditionnelle de θ sachant ξ est donc une N(M θξ M 1 ξ, Var(η)), ce qui achève la preuve de (ii). ξξ Remarque 3.7. Pour faire les calculs dans la pratique ; si les vecteurs n ont que peu de coordonnées, on peut se contenter de déterminer la décomposition, ce qui revient à trouver η comme l unique transformation affine de (θ, ξ) qui est indépendante de ξ. Références [1] R. Durrett, Probability Theory and Examples, 3rd ed. [2] G. Grimmett and D. Stirzaker, Probability and Random Processes. [3] A. Tsybakov, Statistique appliquée, polycopié de cours, (http ://www.math.jussieu.fr/ salmon/enseignement/ensae/statappli tsybakov.pdf) 15