Table des matières 1 Espérance conditionnelle 1 1.1 Cas discret.............................................. 1 1.2 Cas absolument continu....................................... 7 1.3 Applications.............................................. 14 1.3.1 Probabilités conditionnelles................................. 14 1.3.2 La régression......................................... 15 1.4 Interprétation géométrique de l espérance conditionnelle..................... 19 2 Vecteurs gaussiens et conditionnement 23 2.1 appels sur les vecteurs gaussiens.................................. 23 2.1.1 variables gaussiennes..................................... 23 2.1.2 Vecteurs gaussiens...................................... 24 2.2 Conditionnement des vecteurs gaussiens.............................. 32 2.2.1 Conditionnement pour un couple gaussien......................... 32 2.2.2 Hyperplan de régression................................... 34 2.2.3 Espérance conditionnelle gaussienne............................ 37 i
ii
Chapitre 1 Espérance conditionnelle 1.1 Cas discret On considère un couple aléatoire discret (X, Y ), c est-à-dire une application mesurable (X, Y ) { (Ω, F, P) ω (X(ω), Y (ω)) où = (x i ) i I et = (y j ) j J sont deux ensembles finis ou dénombrables. La probabilité de tomber sur un couple (x i, y j ) est : p ij = P (X = x i, Y = y j ). La suite double (p ij ) i I,j J est appelée loi jointe du couple (X, Y ) et on a : { pij 1 i I,j J p ij = 1 Exemple 1. On tire deux chiffres au hasard, indépendamment et de façon équiprobable entre 1 et 3. On note X le maximum des chiffres obtenus et Y la somme des chiffres obtenus. On peut représenter la loi jointe dans un tableau : Y = 2 Y = 3 Y = 4 Y = 5 Y = 6 X = 1 1/9 X = 2 2/9 1/9 X = 3 2/9 1/9 1/9 Tab. 1.1 Loi de (X, Y ). Définition 1.1 (Lois marginales) Soit (X, Y ) un couple aléatoire. Les variables X et Y sont appelées variables marginales. La loi de X est appelée loi marginale. Elle entièrement déterminée par les probabilités p i de tomber sur les points x i : p i = P (X = x i ) = j J P (X = x i, Y = y j ) = j J p ij. 1
2 Chapitre 1. Espérance conditionnelle De même la loi marginale de Y est déterminée par : p j = P (Y = y j ) = P (X = x i, Y = y j ) = p ij. i I i I Exemple 1. Pour l exemple précédent, il suffit de sommer sur les lignes (resp. sur les colonnes) pour obtenir la loi marginale de X (resp. de Y ) : Y = 2 Y = 3 Y = 4 Y = 5 Y = 6 X = 1 1/9 p 1 = 1/9 X = 2 2/9 1/9 p 2 = 3/9 X = 3 2/9 2/9 1/9 p 3 = 5/9 p 1 = 1/9 p 2 = 2/9 p 3 = 3/9 p 4 = 2/9 p 5 = 1/9 Tab. 1.2 Lois jointe et marginales. On peut aussi représenter la situation dans la figure 1.1, représentation spaciale dont on s inspirera pour interpréter le cas continu. 5 9 4 9 3 9 2 9 1 9 2 3 4 5 6 Y 1 2 3 X Fig. 1.1 Loi jointe (en traits pleins) et lois marginales (en pointillés). emarque En général, la connaissance des lois marginales ne suffit pas reconstituer la loi jointe. Probabilités et conditionnement - MASS 3 Nicolas JEGOU - ennes 2
1.1. Cas discret 3 Exemple 2. En guise d illustration, considérons une urne contenant deux boules blanches et une boule noire. On tire deux boules de cette urne. 1 er cas : tirage avec remise On note, pour i = 1, 2 : X i = 1 si la i eme boule est blanche et X i = si la i eme boule est noire. Les lois marginales et jointe sont données dans le tableau suivant : X 1 = 1 X 1 = X 2 = 1 4/9 2/9 2/3 X 2 = 2/6 1/9 1/3 2/3 1/3 2 nd cas : tirage sans remise Cette fois, on note, pour i = 1, 2 : Y i = 1 si la i eme boule est blanche et Y i = si la i eme boule est noire. Le tableau est alors : Y 1 = 1 Y 1 = Y 2 = 1 2/6 2/6 2/3 Y 2 = 2/6 1/3 2/3 1/3 On constate que les lois marginales sont les mêmes alors que ce n est pas le cas des lois jointes. Nous pouvons obtenir facilement la loi jointe à partir des lois marginales dans un cas particulier : celui de l indépendance des deux variables. Définition 1.2 (Indépendance) Les variables aléatoires X et Y sont dites indépendantes lorsque : soit avec nos notations : p ij = p i p j. (i, j) I J P (X = x i, Y = y j ) = P (X = x i ) P (Y = y j ), Exemple 2. Les variables X 1 et X 2 définies dans l expérience précédente sont indépendantes mais ce n est pas le cas des variables Y 1 et Y 2. Définition 1.3 (Probabilités conditionnelles) Soit x i, la loi conditionnelle de Y sachant X = x i est la loi discrète prenant les valeurs y j avec les probabilités : p j i = P (Y = y j X = x i ) = P (X = x i, Y = y j ) P (X = x i ) = p ij p i. emarques La définition suppose que P (X = x i ) ce qui est le cas sinon x i n a rien à faire dans. La suite ( p j i définit bien une probabilité car : )j J j J p j i 1 et j J p j i = j J P (X = x i, Y = y j ) P (X = x i ) = 1. Nicolas JEGOU - ennes 2 Probabilités et conditionnement - MASS 3
4 Chapitre 1. Espérance conditionnelle Exemple 1. Nous reprenons l exemple du tableau 1.1. Les lois conditionnelles de Y sachant X = x i pour i = 1, 2, 3 sont données dans le tableau suivant : Y = 2 Y = 3 Y = 4 Y = 5 Y = 6 X = 1 1 X = 2 2/3 1/3 X = 3 2/5 2/5 1/5 Tab. 1.3 Lois conditionnelles de Y sachant X = x i. Exemple 3. Soit Y P(α) et Z P(β) deux variables de Poisson indépendantes. On sait que X = Y + Z P(α + β). Soit n N, quelle est la loi de Y sachant X = n? Une fois X figé à n, Y prend ses valeurs dans {, 1,, n}. Soit k {, 1,, n}, cherchons P(Y = k X = n) : P(Y = k, X = n) P(Y = k X = n) = P(X = n) P(Y = k, Z = n k) = P(X = n) P(Y = k)p(z = n k) = P(X = n) ( e α α k = e β β n k ) ( ) e (α+β) (α + β) n / k! (n k)! n! n! = k!(n k)! αk β n k (α + β) n ( ) α k ( β = Cn k α + β α + β ) n k ( ) α Finalement, sachant X = n, Y suit une loi binomiale B n, α+β. evenons au cas général et supposons Y intégrable. Il est naturel de s intéresser à la valeur moyenne de la variable Y lorsque X = x i. C est ce qu on appelle l espérance conditionnelle de Y sachant X = x i. Elle s écrit : [Y X = x i ] = y j P(Y = y j X = x i ) = y j p j i. j J j J Or on sait que X prend la valeur x i avec la probabilité p i d où la définition de la variable aléatoire suivante : Définition 1.4 (Espérance conditionnelle) Supposons Y intégrable. La variable aléatoire qui prend les valeurs [Y X = x i ] avec les probabilités p i est appelée espérance conditionnelle de Y sachant X et notée [Y X]. Probabilités et conditionnement - MASS 3 Nicolas JEGOU - ennes 2
1.1. Cas discret 5 emarques Il est clair qu en général [Y X = x i ] est une valeur qui est fonction de x i. Il faut donc comprendre qu en général l espérance conditionnelle [Y X] est une variable aléatoire qui pourra s écrire en fonction de X. Pourquoi supposer Y intégrable? On rappelle que Y intégrable signifie [ Y ] < + c est-à-dire que la moyenne des valeurs absolues des valeurs prises par Y est une quantité finie. Si l on considère une variable d espérance finie mais non intégrable, on comprend que les valeurs positives qu elle prend compensent les valeurs négatives pour en moyenne rendre une quantité finie. Il est donc possible dans ce cas d avoir une restriction des valeurs de la variable dont la moyenne soit infinie alors qu en les considérant toutes on aurait une moyenne finie. En supposant Y intégrable, on se prémunit de ce genre de risques. Comme d autre part, on peut considérer [Y X = x i ] comme la moyenne des valeurs de Y restreintes au cas où X = x i, en prenant Y intégrable, on est donc sûr d avoir [Y X = x i ] fini pour tout x i. Exemple 1. En reprenant le tableau 1.3, on obtient facilement [Y X = 1] = 2, [Y X = 2] = 1/3 et [Y X = 3] = 24/5. Par ailleurs, P(X = 1) = 1/9, P(X = 2) = 3/9 et P(X = 3) = 5/9 donc [Y X] est la variable aléatoire qui prend les valeurs 2, 1/3 et 24/5 avec les probabilités respectivement 1/9, 3/9 et 5/9. Exemple 3. On reprend l exemple où Y et Z suivent des lois de Poisson : Y sachant X = n suit une loi binomiale donc : n N [Y X = n] = αn α + β. Ainsi : [Y X] = αx α + β et c est bien une fonction de X. Exemple d une variable non-intégrable mais d espérance finie. Considérons la variable X discrète telle que : n N P (X = ( 1) n n) = π2 /6 n 2. On peut vérifier que cette variable aléatoire est d espérance finie mais qu elle n est pas intégrable. Théorème 1.1 (Calcul d espérance par conditionnement) Si Y est intégrable alors la variable aléatoire [Y X] aussi et on a : [ [Y X]] = E[Y ]. Preuve [Y X] est la variable aléatoire prenant les valeurs E[Y X = x i ] avec les probabilités p i donc : [ [Y X]] = i I p i [Y X = X i ] = i I p i j J y j p j i = y j p i p j i, i I j J or p j i = p ij p i et les sommes mises en jeu sont absolument convergentes; on peut donc intervertir les ordres de sommations et : [ [Y X]] = ( ) p ij y j = p j y j = E[Y ]. j J j J i I Nicolas JEGOU - ennes 2 Probabilités et conditionnement - MASS 3
6 Chapitre 1. Espérance conditionnelle Exemple 1. Nous obtenons : [ [Y X]] = 2 1 9 + 1 3 3 9 + 24 5 5 9 = 4 et cela correspond en effet au calcul de [Y ] que l on pouvait ici avoir facilement. Exemple 3. Nous avons vu et X = Y + Z P(α + β) donc on retrouve bien [ [Y X] = [Y X] = αx α + β, α α + β [X] = α (α + β) = α = [Y ]. α + β Propriété 1.1 (Espérance conditionnelle et indépendance) Si Y est intégrable, si X et Y sont indépendantes alors la variable aléatoire [Y X] est constante égale à [Y ]. Preuve Si X et Y sont indépendantes alors, i I, j J ainsi, i I, j J Exprimons alors [Y X = x i ] pour un i quelconque : p ij = p i p j p j i = p ij p i = p j. [Y X = x i ] = j J y j p j i = y j p j j J = [Y ] Ainsi, la variable aléatoire [Y X] est constante égale à [Y ]. Utilisation du théorème de transfert. On est souvent amené à calculer [h(x, Y )] où h est une fonction de 2 dans telle que le produit, la somme, la moyenne par exemple. Le théorème de transfert assure que, sous réserve d intégrabilité, cette espérance correspond à la somme double : [h(x, Y )] = h(x i, y i )p ij. i I,j J Si h est à variable séparable (h(x, y) = f(x) g(y)) alors cette formule se simplifie en : [h(x, Y )] = i I,j J f(x i )g(y i )p ij Probabilités et conditionnement - MASS 3 Nicolas JEGOU - ennes 2
1.2. Cas absolument continu 7 et si en plus X et Y sont indépendantes alors : [h(x, Y )] = ( ) f(x i )g(y i )p i p j = f(x i )p i g(y i )p j = [f(x)] [(g(y )], i I,j J i j J On est donc ramené au produit de deux sommes simples qui sont des espérances discrètes classiques. Dans le cas général où h n a pas cette forme et où X et Y ne sont pas indépendantes, E[h(X, Y )] = h(x i, y j )p ij i I,j J = h(x i, y j )p j i p i i I j J = i I j J h(x i, y j )p j i p i = ( [h(x i, Y )]) p i i I = [ [X, Y ] X] On se ramène là encore au calcul de deux sommes simples. 1.2 Cas absolument continu On considère maintenant un couple (X, Y ) à valeurs dans 2. Par définition, la loi jointe P X,Y du couple est la mesure de probabilité sur ( 2, B 2 ) définie par : B B 2 P X,Y (B) = P ((X, Y ) B), que l on peut voir comme la probabilité que le point aléatoire M de coordonnées (X, Y ) tombe dans l ensemble borélien B. Définition 1.5 (Loi jointe absolument continue) On dit que la loi P X,Y est absolument continue s il existe une fonction mesurable f : ( 2 ), B 2 (, B) telle que : B B 2, P X,Y (B) = f(x, y)dxdy. La fonction f est appelée densité de probabilité du couple (X, Y ). Pour qu une fonction f soit une densité de probabilité, il suffit qu elle soit positive et intègre à 1 : { f(x, y) 2 f(x, y)dxdy = 1 emarque En pratique, on fait le parallèle avec le cas discret en remplaçant x i par x, y j par y, p ij par f(x, y) et les sommes par des intégrales. Nicolas JEGOU - ennes 2 Probabilités et conditionnement - MASS 3 B
8 Chapitre 1. Espérance conditionnelle Exemple 4. On considère le couple (X, Y ) de densité : f(x, y) = 2e (x+y) ½ x y. Vérifions qu il s agit bien d une densité. f est positive et son intégrale sur 2 converge. Calculons cette intégrale : 2 f(x, y)dxdy = = = = 2 = 1 + + + + La représentation de la densité f est donnée figure 1.2. ( y 2e y ( y ) 2e (x+y) dx dy ) e x dx dy 2e y ( 1 e y) dy e y dy 2 + e 2y dy y x Fig. 1.2 Densité jointe f(x, y) = 2e (x+y) ½ x y sur [, 5] [, 5]. Définition 1.6 (Lois marginales) Si le couple (X, Y ) est absolument continu, les variables marginales X et Y le sont aussi et la densité jointe Probabilités et conditionnement - MASS 3 Nicolas JEGOU - ennes 2
1.2. Cas absolument continu 9 détermine les densités marginales f(x) et f(y) : f(x) = f X (x) = f(x, y)dy et f(y) = f Y (y) = Exemple 4. Pour l exemple précédent, on a f(x) = si x < et pour x : f(x) = Ainsi, De même, + x + 2e (x+y) dy = 2e x e y dy = 2e 2x. f(x) = 2e 2x ½ [,+ [ (x). f(y) = 2e y ( 1 e y) ½ [,+ [ (y). Les densités marginales sont représentées en figure 1.3 et notons que X E(2). x f(x, y)dx. Loi de X Loi de y..5 1. 1.5 2...1.2.3.4.5..5 1. 1.5 2. x 1 2 3 4 5 6 y Fig. 1.3 eprésentations des densités marginales f(x) et f(y). Dans le cas général, par définition, les variables aléatoires X et Y sont indépendantes si pour tout couple de boréliens B et B de, on a : P(X B, Y B ) = P(X B)P(Y B ), ou encore si pour toutes fonctions bornées (ou positives) g et h de dans : [g(x)h(y )] = [g(x)] [h(y )]. L indépendance n est en général pas facile à justifier en utilisant ces définitions mais elle se justifie simplement si la loi jointe est absolument continue : Nicolas JEGOU - ennes 2 Probabilités et conditionnement - MASS 3
1 Chapitre 1. Espérance conditionnelle Propriété 1.2 (Indépendance) Avec les notations précédentes, les variables X et Y sont indépendantes si et seulement si pour tout couple (x, y) de 2 : f(x, y) = f(x)f(y). emarque On peut souvent remarquer que deux variables ne sont pas indépendantes en raisonnant sur les supports. Le support de la loi de X est l adhérence de l endroit où X a des chances de tomber : Supp(X) = {x : f(x) }. La propriété précédente montre donc que l indépendance de X et Y implique que le support de (X, Y ) soit le produit cartésien des supports de X et de Y. Dans notre exemple, le support de (X, Y ) est { (x, y) 2 : x y } et cela ne correspond pas au produit cartésien des supports de X et Y : + +. On peut définir l analogue des probabilités conditionnelles vues dans le cas discret. Définition 1.7 (Lois conditionnelles) La densité conditionnelle de Y sachant X = x est : f(y x) = { f(x,y) f(x) si f(x) si f(x) = Interprétation graphique. On obtient une allure de la densité conditionnelle f(y x ) en coupant la surface représentant la loi jointe par le plan d équation x = x. On observe à l intersection une représentation de la fonction y f(y, x ) qui correspond au facteur de normalisation f(x ) près à celle de la fonction y f(y x ). Exemple 4. Nous avons, pour tout x : f(y x) = f(x, y) f(x) = 2e (x+y) ½ {x y} 2e 2x = e (y x) ½ {y x} et pour tout y > : f(x y) = f(x, y) f(y) = 2e (x+y) ½ {x y} 2e y (1 e y ) = e x ½ {x y} 1 e y Probabilités et conditionnement - MASS 3 Nicolas JEGOU - ennes 2
1.2. Cas absolument continu 11 emarques Pour tout x fixé, la fonction y f(y x) est une densité de probabilité c est-à-dire qu elle est positive et de somme 1. On a l analogue des relations vues dans le cas discret : f(y) = Si X et Y sont indépendantes, on a bien sûr : f(y x)f(x)dx et f(x) = f X Y = f X et f Y X = f Y. f(x y)f(y)dy. Comme dans le cas discret, on cherche à définir l espérance conditionnelle. Pour x fixé, l espérance conditionnelle de Y sachant X = x est : [Y X = x] = yf(y x)dy. La fonction φ : x [Y X = x] est une fonction de la variable réelle x. φ(x) et donc une variable aléatoire : c est l espérance conditionnelle de Y sachant X. Définition 1.8 (Espérance conditionnelle) La variable aléatoire qui prend les valeurs [Y X = x] avec la densité f(x) est appelée espérance conditionnelle de Y sachant X. On la note [Y X]. Exemple 4. Pour tout x, on a : Ainsi, [Y X = x] = = + x yf(y x)dy ye (y x) dy + = e x ye y dy x = x + 1 [Y X = x] = (x + 1)½ x et donc [Y X] = X + 1. Comme X E(2), la variable aléatoire [Y X] suit une loi exponentielle de paramètre 2 translatée sur [1, + [ (cf. figure 1.4). Nicolas JEGOU - ennes 2 Probabilités et conditionnement - MASS 3
12 Chapitre 1. Espérance conditionnelle..5.1.15.2.25 1 2 3 4 5 Fig. 1.4 Densité de E[Y X]. Propriété 1.3 Si Y est intégrable, alors la variable aléatoire [Y X] aussi et : [ [Y X]] = E[Y ]. Preuve [Y X] est la variable aléatoire prenant les valeurs [Y X = x] avec la densité f(x) donc. [ [Y X]] = [Y X = x]f(x)dx ( ) = yf(y x)dy f(x)dx ( ) = y f(y x)f(x)dx dy (Fubini) = yf(y)dy = [Y ] Exemple 4. On se souvient que la densité de la variable Y est : f(y) = 2e y ( 1 e y) ½ [,+ [ (y). On peut donc obtenir [Y ] : E[Y ] = = + yf(y)dy 2ye y ( 1 e y) dy = 2 1 2 = 3 2 Probabilités et conditionnement - MASS 3 Nicolas JEGOU - ennes 2
1.2. Cas absolument continu 13 On retrouve ce résultat en utilisant le fait que [Y X] = X + 1 avec X E(2) : [Y ] = [ [Y X]] = [X + 1] = [X] + 1 = 3 2 Utilisation du théorème de transfert. Si h est une fonction de 2 dans, on peut chercher à calculer l espérance de la variable aléatoire h(x, Y ) : [h(x, Y )] = h(x, y)f(x, y)dxdy. 2 Sous réserve d intégrabilité, c est-à-dire à la condition que on peut la calculer par conditionnement : D où la définition suivante. [h(x, Y )] = 2 h(x, y) f(x, y)dxdy < +, Définition 1.9 (Espérance conditionnelle d un couple) L espérance conditionnelle de h(x, Y ) sachant X = x est : [h(x, Y ) X = x] = ( ) h(x, y)f(y x)dy f(x)dx. h(x, y)f(y x)dy. L espérance conditionnelle de h(x, Y ) sachant X, notée [h(x, Y ) X], est la variable aléatoire prenant les valeurs [h(x, Y ) X = x] avec la densité de probabilité f(x). Propriété 1.4 (Propriétés de l espérance conditionnelle) Sous réserve d intégrabilité des variables aléatoires, on a les propriétés suivantes : Calcul d espérance par conditionnement : [ [h(x, Y ) X]] = [h(x, y) X = x]f(x)dx = [h(x, Y )]. Indépendance : Si X et Y sont indépendantes, alors : [g(y ) X] = [g(y )]. En particulier, on a : [Y X] = [Y ]. Nicolas JEGOU - ennes 2 Probabilités et conditionnement - MASS 3
14 Chapitre 1. Espérance conditionnelle On a : donc en particulier : Linéarité : [g(x) X] = g(x) [X X] = X. [αg(x) + βh(y ) X] = α [g(x) X] + β [h(y ) X] = αg(x) + β [h(y ) X]. Linéarité (bis) : emarques [g(x)h(y ) X] = g(x) [h(y ) X]. Les preuves s obtiennent sans difficulté en revenant à la définition de l espérance conditionnelle. Il faut bien comprendre que par exemple [g(x) X] est une variable aléatoire. C est en effet la variable aléatoire prenant les valeurs [g(x) x] avec la densité f(x). C est donc la variable aléatoire prenant les valeurs g(x) avec la densité f(x) et c est par conséquent la variable aléatoire g(x). 1.3 Applications 1.3.1 Probabilités conditionnelles Soit A un événement qui s exprime en fonction de X et Y. On peut lui associer la variable aléatoire indicatrice : Ω {, 1} ½ A ω 1 si (X(ω), Y (ω)) A sinon et voir ainsi sa probabilité comme l espérance de cette indicatrice : P(A) = [½ A ] = 2 ½ A (x, y)f(x, y)dxdy. Il est souvent plus facile de calculer cette quantité en commençant par geler l une des variables et en intégrant par rapport à l autre. C est le principe du conditionnement. Définition 1.1 (Probabilités conditionnelles) La probabilité conditionnelle de l événement A sachant X = x est la quantité : P(A X = x) = [½ A X = x] = ½ A (x, y)f(y x)dy. La probabilité conditionnelle de A sachant X, notée P(A X) est la variable aléatoire prenant les valeurs P(A X = x) avec la densité f(x). On peut alors appliquer la technique de calcul d espérance par conditionnement pour le calcul de P(A). Proposition 1 (Calcul de probabilité par conditionnement) P(A) = P(A X = x)f(x)dx. Probabilités et conditionnement - MASS 3 Nicolas JEGOU - ennes 2
1.3. Applications 15 Exemple 5. Soit X et Y deux variables aléatoires indépendantes avec X E(λ) et Y E(µ). On cherche à calculer : P(X < Y ). On pose : Alors : P(X < Y ) = A = {ω Ω : X(ω) < Y (ω)}. P(X < Y X = x)f(x)dx = P(x < Y X = x)f(x)dx. Du fait de l indépendance des variables, P(x < Y X = x) = P(x < Y ) = 1 F Y (x) = e µx, et donc : P(X < Y ) = e µx f(x)dx = e µx λe λx dx. + On obtient ainsi : P(X < Y ) = λ λ + µ. 1.3.2 La régression Approximation d une variable aléatoire par une constante Soit Y une variable aléatoire de carré intégrable, c est à dire telle que [Y 2 ] < +. On veut approcher Y par une constante ; plus précisément, si on cherche a telle que l erreur quadratique [(Y a) 2 ] soit la plus petite possible, la solution est donnée par l espérance. Proposition 2 (Approximation par une constante) Soit Y telle que [Y 2 ] < +. Parmi tous les réels a, la quantité [(Y a) 2 ] est minimale lorsque a = [Y ]. C est-à-dire : min a [(Y a)2 ] = [(Y [Y ]) 2 ] = [Y 2 ] (E[Y ]) 2 = Var(Y ). Preuve Soit a. Introduisons la fonction a [(Y a) 2 ]. Nous pouvons écrire : [(Y a) 2 ] = [Y 2 2aY + a 2 ] = [Y 2 ] 2a [Y ] + a 2 On reconnait un polynôme du second degré en a qui est en effet minimum pour a = [Y ] et l erreur quadratique est alors : [(Y [Y ]) 2 ] = Var(Y ). emarques En statistique, l analogue de cette proposition est une propriété classique de la moyenne empirique d une série d observations (y i ) i=1 n : la moyenne des y i est la valeur la plus proche de l ensemble des y i au sens de la mesure quadratique. Si on cherche à minimiser l erreur en norme L 1 c est-à-dire si on cherche a tel que [ Y a ] est minimale, la solution est la médiane de Y. Nicolas JEGOU - ennes 2 Probabilités et conditionnement - MASS 3
16 Chapitre 1. Espérance conditionnelle Approximation d une variable aléatoire par une droite On considère cette fois un couple aléatoire (X, Y ) et on suppose que les variables marginales X et Y sont de carré intégrable. On cherche cette fois à approcher au mieux la variable aléatoire Y par une fonction affine de la variable X. Proposition 3 (Approximation par une droite) Soit X et Y deux variables aléatoires de carré intégrable. Parmi tous les couple de réels (a, b), la quantité [(Y (ax + b)) 2 ] est minimale lorsque : L erreur quadratique est alors : a = Cov(X, Y ) σ 2 (X) b = [Y ] Cov(X, Y ) σ 2 [X] (X) min a,b [(Y (ax + b))2 ] = σ 2 (Y )(1 ρ 2 ) où ρ = Cov(X, Y ) σ(x)σ(y ). Preuve On introduit la fonction φ : (a, b) [(Y (ax + b)) 2 ]. En développant, on obtient : φ(a, b) = [X 2 ]a 2 + 2 [X]ab + b 2 2 [XY ]a 2 [Y ]b + [Y 2 ] Si cette fonction possède un point singulier, ce point est un minimum. Cherchons les points où les dérivées partielles s annulent : Le système { φ a (a, b) = 2a [X2 ] + 2b [X] 2 [XY ] = φ b a pour solution : { soit En écrivant (a, b) = 2a [X] + 2b 2 [Y ] = [XY ] [X]E[Y ] [X 2 ] [X] 2 a = b = [Y ] a [X] a = Cov(X, Y ) σ 2 (X) b = [Y ] Cov(X, Y ) σ 2 [X] (X) Y (ax + b) = Y [Y ] Cov(X, Y ) σ 2 (X [X]) (X) puis en calculant l espérance du carré de cette variable, on obtient (après calcul) : φ(a, b) = σ 2 (Y )(1 ρ 2 ). Probabilités et conditionnement - MASS 3 Nicolas JEGOU - ennes 2
1.3. Applications 17 emarques Lorsque les variables X et Y sont de carré intégrable, parler de la covariance de X et Y a un sens puisque d une part cela assure l existence de [X] et de [Y ] et que d autre part on a : ω Ω, X(ω)Y (ω) 1 ( X 2 (ω) + Y 2 (ω) ), 2 donc, en passant à l expérance [ XY ] 1 ( [X 2 ] + [Y 2 ] ) < +. 2 L existence du minimum pour la fonction φ suppose que Var(X). Mais Var(X) = revient à dire que X est presque sûrement constante auquel cas on est ramené à approcher Y par une constante ce qui a été vu juste avant. Ce principe d approximation est d usage fréquent en statistique mais dans ce cadre on ne dispose que de n couples (x i, y i ) i=1 n d observations des variables et l idée est d utiliser cet échantillon pour, à partir d une nouvelle observation de la variable X de faire une prévision pour Y. Lorsque le nuage de points représentant les observations s apparente à une droite, on cherche la droite qui approche le mieux ce nuage en minimisant la somme des carrés : n (y i (ax i + b)) 2. i=1 La droite de régression obtenue est la même que précédemment mais en considérant cette fois espérances, variances et covariances empiriques. Exemple 4. On rappelle que : f(x, y) = 2e (x+y) ½ x y X E(2) c est-à-dire f(x) = 2e 2x ½ [,+ [ f(y) = 2e y (1 e y )½ [,+ [ [X] = 1/2 et [Y ] = 3/2 appelons également que si V E(λ) alors pour tout n N : [V n ] = n! λ n. Calculons la droite de régression dans cet exemple : Cov(X, Y ) = [XY ] [X] [Y ] = xyf(x, y)dxdy 3 2 4 + ( y ) = 2xye (x+y) dx dy 3 4 = = 2 + + 2ye y ( 1 ye y e y) dy 3 4 ye y dy = 2 1 2 1 2 3 4 + 2ye 2y dy + 2y 2 e 2y dy 3 4 = 1 4 Comme Var(X) = 1/4, on obtient a = 1 et par conséquent b = 1. La droite de régression a donc pour équation : y = x + 1. Nicolas JEGOU - ennes 2 Probabilités et conditionnement - MASS 3
18 Chapitre 1. Espérance conditionnelle Approximation d une variable aléatoire par une fonction On considère encore un couple aléatoire (X, Y ) avec Y de carré intégrable. On cherche à nouveau à approcher au mieux Y par une fonction de X mais sans se restreindre à une classe de fonctions particulières. On pose donc le problème ainsi : parmi toutes les fonctions de X, quelle est celle qui approche le mieux Y? Autremement dit, on cherche la fonction u : qui rend minimale la quantité : [(Y u(x)) 2 ]. Théorème 1.2 (Espérance conditionnelle et régression) Supposons Y telle que [Y 2 ] < +. Parmi toutes les fonctions u :, l erreur d approximation E[(Y u(x)) 2 ] est minimale lorsque que u est la fonction dite de régression x [Y X = x], c est-à-dire lorsque u(x) = [Y X]. Preuve Notons m(x) = [Y X] et montrons que pour toute fonction u :, [(Y u(x)) 2 ] [(Y m(x)) 2 ]. [(Y u(x)) 2 ] = [(Y m(x) + m(x) u(x)) 2 ] = [(Y m(x)) 2 ] + [(m(x) u(x)) 2 ] + 2 [(Y m(x))(m(x) u(x))] Calculons [(Y m(x))(m(x) u(x))] par conditionnement : [(Y m(x))(m(x) u(x)] = [ [(Y m(x))(m(x) u(x)) X]] = [(m(x) u(x)) [(Y m(x)) X]] = [(m(x) u(x)) { [Y X] [m(x) X]}] = [(m(x) u(x)) { [Y X] m(x)}] Or m(x) = [Y X] donc [(Y m(x))(m(x) u(x)] = et finalement on a bien : [(Y u(x)) 2 ] = [(Y m(x)) 2 ] + [(m(x) u(x)) 2 ] [(Y m(x)) 2 ]. Le minimum obtenu fait l objet d une définition. Définition 1.11 La quantité σ 2 = min u [(Y u(x)) 2 ] = [(Y [Y X]) 2 ] est appelée erreur quadratique moyenne ou variance résiduelle. Définition 1.12 (Courbe de régression) La courbe x y = [Y X = x] est appelée courbe de régression de Y en X. Par exemple, si les variables X et Y sont indépendantes, la courbe de régression de Y en X est la droite horizontale d équation y = [Y ]. Probabilités et conditionnement - MASS 3 Nicolas JEGOU - ennes 2
1.4. Interprétation géométrique de l espérance conditionnelle 19 Exemple 4. La fonction de régression u : x [Y X = x] a déjà été calculée et on avait obtenu u(x) = X +1. Notons que sur cet exemple la fonction de régression coïncide avec la droite de régression. La variance résiduelle est : [(Y [Y X]) 2 ] = [(Y X 1) 2 ] = 1 2 [XY ] 2E[Y ] + 2 [X] + [Y 2 ] + [X 2 ] = 1 2 3 + 1 + [Y 2 ] + [X 2 ] De plus, en utilisant le rappel énoncé plus haut, [Y 2 ] = + 2y 2 e y (1 e y )dy = 4 et [X 2 ] = 1/2 d où : [(Y [Y X]) 2 ] = 3 2. 1.4 Interprétation géométrique de l espérance conditionnelle Soit (Ω, F, P) un espace probabilisé. On note L 2 (Ω, F, P) ou plus simplement L 2 (Ω) l ensemble des variables aléatoires X : Ω de carré intégrable. Propriété 1.5 (Propriétés de L 2 (Ω)) Si X et Y appartiennent à L 2 (Ω), alors XY est intégrable. L 2 (Ω) est un espace vectoriel. Proposition 4 L application.,. : { L 2 (Ω) L 2 (Ω) (X, Y ) X, Y = [XY ] est un produit scalaire sur L 2 (Ω). La norme associée est : X = E[X 2 ]. emarque Dire que deux variables sont orthogonales revient donc à dire que [XY ] = ce qui, si elles sont centrées, revient à dire qu elles sont non-corrélées. Propriété 1.6 (Propriétés de la norme dans L 2 (Ω)) On a les propriétés habituelles d une norme à savoir : la positivité : X en général et X = seulement pour X =, l homogénéité : a, ax = a X, l inégalité triangulaire : X + Y X + Y, l inégalité de Cauchy-Schwarz : X, Y X Y. emarque (Interprétation du coefficient de corrélation linéaire ρ) Dans la section précédente, au moment d approcher une variable par une droite, nous avons défini le coefficient de corrélation linéaire entre deux variables X et Y par : ρ = Cov(X, Y ) σ(x)σ(y ) = [(X [X])(Y [Y ])] [(X [X]) 2 ] [(X [X]) 2 ]. Nicolas JEGOU - ennes 2 Probabilités et conditionnement - MASS 3
2 Chapitre 1. Espérance conditionnelle Nous avons donc : X [X], Y [Y ] ρ = X [X] Y E[Y ] De l inégalité de Cauchy-Schwarz nous déduisons : 1 ρ 1 et on comprend dès lors qu une valeur de ρ = ±1 correspond au cas où les variables X et Y sont liées par une relation Y = ax + b presque sûrement. On comprend par ailleurs que ρ = équivaut à a = Cov(X,Y ) σ(x)σ(y ) = et qu alors le mieux qu on puisse faire est d approcher Y par une constante. Nous avions d autre part calculé l erreur d approximation : min a,b [(Y (ax + b))2 ] = σ 2 (Y )(1 ρ 2 ). L erreur d approximation sera d autant plus faible que ρ est proche de 1 ou -1 ce qui est normal puisqu alors Y ax + b, et que σ(y ) petit. La norme. permet de mesurer la distance entre deux variables aléatoires : d(x, Y ) = X Y = [(X Y ) 2 ], distance que l on appelle naturellement distance en moyenne quadratique. On peut alors associer à cette norme la notion de convergence en moyenne quadratique : la suite de variables aléatoires (X n ) n converge en moyenne quadratique vers la variable aléatoire X si lim n + X n = X c està-dire si : lim n + [(X X n) 2 ] =. On note alors : X n L2 X. Théorème 1.3 (Espace de Hilbert) L espace L 2 (Ω) muni du produit scalaire précédent est complet, c est à dire que toute suite (X n ) n de L 2 (Ω) vérifiant le critère de Cauchy converge en moyenne quadratique vers une variable aléatoire X de L 2 (Ω). Théorème 1.4 (Théorème de la projection orthogonale) Soit H un sous espace fermé de de L 2 (Ω). Pour tout Y de L 2 (Ω), il existe une unique variable aléatoire de H, notée π H (Y ), qui soit à plus courte distance de Y. On l appelle le projeté orthogonale de Y sur H et elle est entierement caractérisée par la double propriété suivante illustrée en figure 1.5 : { π H (Y ) H Y π H (Y ) H Y Y π H (Y ) π H (Y ) H Fig. 1.5 Projection orthogonale π H de Y sur H. Probabilités et conditionnement - MASS 3 Nicolas JEGOU - ennes 2
1.4. Interprétation géométrique de l espérance conditionnelle 21 emarque L existence et l unicité du projeté orthogonal dans les espaces Euclidiens (espaces vectoriels de dimension finie munis d un produit scalaire) est connue depuis la 2ème année. Ici l espace L 2 (Ω) est muni d un produit scalaire mais il est de dimensison infinie : c est la complétude qui permet d avoir encore cette propriété. Considérons maintenant une variable aléatoire X. On lui associe : L 2 (X) = { u(x) avec u : borélienne telle que [u 2 (X)] < + }, ensemble des variables aléatoires qui s expriment comme fonctions de X et de carré intégrable. Il se trouve que L 2 (X) est un sous-espace fermé de L 2 (Ω) et on peut donc lui appliquer le théorème 1.4. Si on considère une variable aléatoire Y de carré intégrable : il existe une unique variable π L 2 (X)(Y ) dans le sous espace L 2 (X) qui soit à plus courte distance de Y. Nous avons vu dans le paragraphe sur la régression que cette variable en question était justement l espérance conditionnelle de Y sachant X. Il est donc naturel de donner à l espérance conditionnelle la définition suivante qui est plus générale que les précédentes : Définition 1.13 (Espérance conditionnelle) Soit (X, Y ) un couple aléatoire avec Y L 2 (Ω). L espérance conditionnelle de Y sachant X, notée [Y X] est la projection orthogonale de Y sur le sous espace L 2 (X) des variables aléatoires fonctions de X et de carré intégrable (voir figure 1.6). Y [Y X] L 2 (X) Fig. 1.6 L espérance conditionnelle comme projection orthogonale. Propriété 1.7 Soit (X, Y ) un couple aléatoire avec Y L 2 (Ω). Distance minimale : Z L 2 (X), Y [Y X] Y Z. Orthogonalité : Z L 2 (X), Y [Y X], Z =. Orthogonalité(bis) : Z L 2 (X), Y, Z = [Y X], Z. Pythagore : Y 2 = [Y X] 2 + Y [Y X] 2. Pythagore(bis) : [Y X] Y, avec égalité si Y est une fonction de X. Linéarité : Soit Y 1 et Y 2 de carré intégrable, α et β deux réels, alors : [αy 1 + βy 2 X] = α [Y 1 X] + β [Y 2 X]. Linéarité(bis) : si u : bornée, alors [u(x)y X] = u(x) [Y X]. Positivité : Si Y, alors [Y X]. Positivité(bis) : Si Y 1 et Y 2 sont de carrés intégrables, avec Y 1 Y 2, alors [Y 1 X] E[Y 2 X]. Nicolas JEGOU - ennes 2 Probabilités et conditionnement - MASS 3
22 Chapitre 1. Espérance conditionnelle Calcul Calcul d espérance : [ [Y X]] = [Y ]. Espérance conditionnelle et indépendance : Si X et Y sont indépendantes, alors [Y X] = [Y ]. emarques Les premières propriétés ont une interprétation géométrique simple avec la figure 1.6. Par commodité de notation, ces propriétés ont été écrites en termes de produits scalaires et de norme mais il faut savoir les lire en termes d espérances et d espérances conditionnelles. Probabilités et conditionnement - MASS 3 Nicolas JEGOU - ennes 2