Probabilités et Statistiques Raphaël KRIKORIAN Université Paris 6 Année 2005-2006
2
Table des matières 1 Rappels de théorie des ensembles 5 1.1 Opérations sur les ensembles................... 5 1.2 Applications entre ensembles................... 6 1.3 Dénombrement.......................... 8 1.4 Dénombrabilité.......................... 11 2 Espaces Probabilisés et variables aléatoires 13 2.1 Espace probabilisé........................ 13 2.1.1 Tribus........................... 13 2.1.2 Probabilité........................ 15 2.1.3 Exemples......................... 17 2.2 Variables Aléatoires........................ 24 2.2.1 Le cas particulier des v.a à valeurs dans un ensemble fini ou dénombrable.................... 25 2.2.2 Loi d une variable aléatoire............... 26 2.2.3 Loi des variables aléatoires à valeurs dans un ensemble fini ou dénombrable.................... 27 2.2.4 Loi de variables aléatoires admettant une densité... 29 2.3 Espérance d une v.a........................ 30 2.3.1 Espérance d une v.a. à valeurs dans un ensemble fini (ou dénombrable)..................... 30 2.3.2 Espérance d une v.a. positive.............. 31 2.3.3 Espérance des v.a intégrables.............. 32 2.3.4 Formule de transfert................... 35 2.3.5 Application au calcul de densité............. 40 2.4 Espaces L 2, variance et Bienaymé-Tchébychev......... 42 2.4.1 Variance.......................... 44 2.4.2 Calculs de variance.................... 44 2.4.3 Inégalité de Markov et de Bienaymé-Tchebychev.... 48 3
4 TABLE DES MATIÈRES 3 Vecteurs aléatoires et Indépendance 51 3.1 Vecteurs aléatoires........................ 51 3.1.1 Tribu borélienne de R m................. 51 3.1.2 Vecteurs aléatoires.................... 52 3.1.3 Loi d un vecteur aléatoire................ 52 3.1.4 Marginales......................... 53 3.1.5 Espérance et variance des vecteurs aléatoires...... 54 3.1.6 Formule de transfert................... 56 3.1.7 Calcul de densité de vecteurs aléatoires......... 56 3.2 Variables aléatoires indépendantes................ 60 3.2.1 Cas des v.a à valeurs dans un ensemble discret..... 61 3.2.2 Cas des v.a admettant des densités........... 63 3.2.3 Espérance des produits de v.a indépendantes...... 63 3.2.4 Critères d indépendance................. 66 3.3 Evènements indépendants.................... 68 4 Sommes de variables aléatoires indépendantes 71 4.1 Lois des grands nombres dans le cas L 2............. 72 4.1.1 Loi faible des grands nombres.............. 72 4.1.2 Loi forte des grands nombres............... 73 4.2 Théorème de la limite centrale.................. 75 4.2.1 Convergence en loi.................... 76 4.2.2 Fonctions caractéristiques................ 78 4.2.3 Démonstration du théorème de la limite centrale.... 83 4.3 Quelques remarques sur les diverses notions de convergence.. 85 5 Espérance conditionnelle 87 5.1 Probabilités conditionnelles................... 87 5.2 Espérance conditionnelle : cas discret.............. 88 5.3 Cas des v.a admettant des densités............... 91 5.4 Indépendance........................... 93
Chapitre 1 Rappels de théorie des ensembles Nous rappelons dans ce chapitre quelques notions élémentaires de théorie des ensembles. 1.1 Opérations sur les ensembles Un ensemble est intuitivement une collection d éléments. Etant donnés un ensemble E et un élément a on écrit a E si a est un élément de E. Il existe un unique ensemble ne contenant aucun élément; on le note. Si E et A sont deux ensembles on dit que F est inclus dans E ou que A est un sous-ensemble de E si tout élément de A est un élément de E et on écrit A E. On peut alors définir le complémentaire de A dans E qui est l ensemble des éléments de E qui n appartiennent pas à A. On le notera dans ce cours E A ou A c ; cette dernière notation cesse d être ambigüe si l on suppose E fixé une fois pour toute, ce que nous ferons. Si E est un ensemble, l ensemble constitué des sous-ensembles de E s appelle l ensemble des parties de E et se note P(E). Si (A i ) i I est une collection d ensembles inclus dans E, la réunion des A i est l ensemble i I A i des a E pour lesquels il existe i I tel que a A i. De même l intersection des A i est l ensemble i I A i des a E pour lesquels a A i pour tout i I. On dit que deux ensembles sont disjoints si leur intersection est vide. On dit que les ensembles A i, i I constituent une partition de l enemble E si i) ils sont non vides, ii) leur union sur i I vaut E iii) ils sont disjoints deux à deux (A i A j = si i j); on dit aussi que E est union disjointe des A i, i I. 5
6 CHAPITRE 1. RAPPELS DE THÉORIE DES ENSEMBLES On a les formules ( i I A i)c = i I A c i, ( i I A i)c = i I A c i. Si A 1,...,A n sont des ensembles on peut définir le produit cartésien de ces ensembles comme étant l ensemble des n-uplets (a 1,...,a n ) où a 1 A 1,...,a n A n. On note cet ensemble A 1 A n. Quand les A i sont finis son cardinal est le produit des cardinaux des A i. 1.2 Applications entre ensembles Si A et B sont deux ensembles, une application associe à tout élément a de A un unique élément noté f(a) de B. On dit que f(a) est l image de a par f. Un élément de B peut n être l image d aucun élément de A ou au contraire être l image de plusieurs éléments de A. On dit qu une application est injective si tout élément de B est l image d au plus un élément de A, surjective si tout élément de B est l image d au moins un élément de A et bijective si elle est injective et surjective. On note B A l ensemble des applications de A dans B. Quand A et B son finis son cardinal vaut (#B) #A. Si E est un ensemble fixé, l ensemble des parties de E est en bijection avec l ensemble des applications de E dans l ensemble à deux éléments {0, 1}. Cette bijection est la suivante : à tout ensemble A E on associe sa fonction caractéristique ou fonction indicatrice 1 A : E {0, 1} définie par 1 A (e) = 1 si e A et 1 A (e) = 0 sinon. Réciproquement si f est une application de E dans {0, 1} l ensemble A des e E tels que f(e) = 1 est tel que 1 A ( ) = f( ). En particulier, ceci démontre que quand E est fini le cardinal de P(E) est 2 #E. Si A 1,...,A n sont des sous-ensembles de E on a n 1 A1 A n = 1 Ai. Si f est une application de E dans F on définit pour tout B F l ensemble f 1 (B) comme étant l ensemble des e E tels que f(e) B. (Cette définition a un sens même si f n est pas inversible.) On dit que f 1 (B) est la pré-image de B par f. On a toujours ( ) f 1 A i = f 1 (A i ), i I i I f 1 ( i I i=1 ) A i = f 1 (A i ), f 1 (A c ) = i I ( f 1 (A)) c.
1.2. APPLICATIONS ENTRE ENSEMBLES 7 Attention le comportement par image directe n est pas aussi bon. Exercice i) Montrer que si A, B sont deux sous-ensembles de E on a 1 1 A B = (1 1 A )(1 1 B ), et en déduire que #(A B) = #A + #B #(A B). ii) En généralisant la formule précédente montrer que n #(A 1 A n ) = ( 1) p 1 #(A i1 A ip ). p=1 1 i 1 <...<i p n Solution. i) Pour tout ensemble F E 1 F c = 1 1 F. Donc 1 1 A B = 1 A c B c On a donc = 1 A c1 B c = (1 1 A )(1 1 B ). Or, pour tout ensemble F E On a donc bien la conclusion. ii) De façon générale, et donc 1 1 A1 A n = 1 + 1 A B = 1 A + 1 B 1 A 1 B = 1 A + 1 B 1 A B. #F = e E 1 F (e). 1 1 A1 A n = = 1 + n ( 1) p p=1 n ( 1) p p=1 n (1 1 Ai ), i=1 1 i 1 <...<i p n 1 i 1 <...<i p n 1 Ai1 1 Aip 1 Ai1 A ip, et en sommant sur e E on obtient bien la formule annoncée.
8 CHAPITRE 1. RAPPELS DE THÉORIE DES ENSEMBLES 1.3 Dénombrement Cardinal d une union disjointe finie. Si A 1,...,A n sont des ensembles finis disjoints deux à deux tels que A 1 = E alors E et fini et #E = n #A i. i=1 Cardinal d un produit. Si A 1,...,A n sont des ensembles finis le cardinal du produit A 1 A n est donné par #(A 1 A n ) = (#A 1 ) (#A n ). Cardinal de l ensemble des applications de A dans B. Si A et B sont des ensembles finis, l ensemble des applications de A dans B est fini et à pour cardinal #(B A ) = (#B) #A. Nombre d injections entre deux ensmbles finis. Si A et B sont deux ensembles finis avec #A = p, #B = n, l ensemble des applications injectives de A vers B a un cardinal égal à { 0 si #A > #B n(n 1) (n p + 1) si p n. En effet, supposons A = {a 1,..., a p }; si p > n, il ne peut y avoir d applications injective de A vers B, tandis que si p n, il y a n choix possibles pour la valeur f(a 1 ), n 1 choix possibles pour la valeur de f(a 2 ) (comme f est injective f(a 2 ) ne peut pas prendre la même valeur que f(a 1 )) etc. n (p 1) = n p + 1 choix possibles pour f(a p ) C est aussi le nombre de p-uplet (ordonnés) (e 1,...,e p ) où e i E. Nombre de bijections de A vers A. Si A est un ensemble de cardinal n, une application de A vers A est bijective si et seulement si elle est injective et par conséquent le nombre de bijection de A vers A (on dit aussi le nombre de permutations de A) égale n! = n(n 1) 1.
1.3. DÉNOMBREMENT 9 Cardinal de P(E). Si E est fini de cardinal n, le nombre de sous-ensembles de E est égal au nombre d applications de E vers {0, 1} et vaut donc #P(E) = 2 n. Nombre de sous-ensembles de cardinal p d un ensemble à n éléments. Si E est un ensemble fini de cardinal n, le nombre de sous-ensemble de E de cardinal exactement p égale ( ) n p = C p n = n(n 1) (n p + 1) p! = n! p!(n p)!. En effet, un sous-ensemble {a 1,...,a p } de E peut être vu comme un p- uplet d élément de E où l on oublie l ordre des éléments. Or, étant donnés p éléments de E on peut former p! (nombre de bijections de {a 1,...,a p } dans lui même) p-uplets. Ainsi, le nombre de sous-ensembles de cardinal p d un ensemble à n éléments égale le nombre d injection de l ensemble {1,..., p} dans E (i.e le nombre de p-uplets de E) divisé par p!. Une autre preuve de ce résultat est la suivante : considérons le polynôme (1 + X) n = (1 + X) (1 + X). Quand on développe le produit, on obtient une somme de produits de 1 et de X et on voit que le coefficient de X p est égal au nombre de façons de choisir p éléments parmi n. Or, on sait d après la formule du binôme de Newton, que le coefficient de X p est C p n. Cardinal et fonctions caractristiques Si A E on a #A = x E 1 A (x). ExerciceUne urne contient N boules noires et M boules blanches. i) On effectue n tirages sans remise. Quel est le nombre total de tels tirages? Combien de tirages donnent x (x n) boules noires? ii) ) On effectue n tirages avec remise. Quel est le nombre total de tels tirages? Combien de tirages donnent x (x n) boules noires? Solution. On note {1,..., N} l ensemble des boules noires et {N + 1,..., N + M} l ensemble des boules blanches. i) Un tirage sans remise est équivalent à la donnée d une injection de {1,...,n} dans {1,..., N + M} (ou à une suite ordonnée, un n-uplet (x 1,...,x n ),
10 CHAPITRE 1. RAPPELS DE THÉORIE DES ENSEMBLES x i {1,..., N + M}). Il y a donc (N + M) (N + M n + 1) tirages sans remise. Un tirage où x boules noires sont tirées est équivalent à la donnée d un sousensemble A de {1,...,n} à x élements (si on pense au tirage comme à une expérience, A est l ensemble des temps où le résultat de notre expérience est boule noire ) et de deux injections, une de A dans l ensemble des boules noires, une seconde du complémentaire de A dans {1,..., n} dans l ensemble des boules blanches : on a donc ( ) n N(N 1) (N x + 1) M(M 1) (M (n x) + 1) x choix possibles, c est-à-dire ( ) n N(N 1) (N x + 1) M(M 1) (M n + x + 1) x choix possibles. Remarquons que la proportion du nombre de tirages sans remise où x boules noires sortent dans l ensemble des tirages sans remise est ( n ) x N(N 1) (N x + 1) M(M 1) (M n + x + 1) = = (N + M) (N + M n + 1) ( n ) ( x N ( x) x! M n x) (n x)! ( N+M ) n n! ( N M ) x)( n x ( N+M ) n ii) Un tirage avec remise est équivalent à la donnée d une application (pas nécessairement injective) de {1,..., n} vers {1,...,N + M} (ou encore d un n-uplet (e 1,...,e n ) de {1,..., N+M} n ); il y a donc (N+M) n choix possibles. Un tirage où x boules noires sont tirées est équivalent à la donnée : d un sousensemble A de {1,..., n} à x élements, d une application (pas nécessairement injective) de A dans {1,..., N} (ou encore d un x-uplet de {1,..., N} x ) et d une application de {1,..., n} A dans {N + 1,...,N + M} (ou encore un (n x)-uplet de {N + 1,...,N + M}). Il y a donc ( ) n N x M n x x choix possibles. Remarquons que la proportion du nombre de tirages avec
1.4. DÉNOMBRABILITÉ 11 remise où x boules noires sortent dans l ensemble des tirages avec remise est ( ) ( ) n N x M n x n x (N + M) = p x (1 p) n x, n x où p = N/(N + M). 1.4 Dénombrabilité Définition 1.4.1 Un ensemble est dit dénombrable s il est en bijection avec l ensemble N des entiers naturels. Nous étendrons cette définition en disant qu un ensemble est dénombrable s il est fini ou en bijection avec N. De façon plus concrète, un ensemble est dénombrable si on peut énumérer ses éléments. Proposition 1.4.1 Si A et B sont deux ensembles. a) S il existe une injection de A dans B et si B est dénombrable alors A est dénombrable b) S il existe une surjection de A dans B et si A est dénombrable, alors B est dénombrable. Théorème 1.4.1 a) Si A 1,...,A n sont des ensembles dénombrables, le produit A 1 A n est également dénombrable. b) Si (A i ) i I est une famille dénombrable (c est-à-dire I est dénombrable) d ensembles dénombrables (pour tout i I, A i est dénombrable) alors la réunion i I A i est également dénombrable. Démonstration. a) On peut supposer A 1 =... = A n = N. Notons p 1,..., p n les n premiers nombres premiers (p est premier s il est divisble uniquement par 1 et par p) et considérons l application qui à (l 1,...,l n ) N n associe le nombre 2 l1 3 l2 p ln n est une injection de Nn dans N car la décomposition en facteurs premiers d un nombre est unique. La proposition 1.4.1 a) permet de conclure. b) Considérons l application de N N dans i I A i qui au couple (n, m) associe le m-ième élément de l ensemble A in où i n est le n-ième élément de I. C est une surjection. La proposition 1.4.1 b) donne la conclusion. Corollaire 1.4.1 L ensemble des entiers relatifs Z et l ensemble des nombres rationnels Q sont dénombrables.
12 CHAPITRE 1. RAPPELS DE THÉORIE DES ENSEMBLES Démonstration. L ensemble Z est dénombrable car l application de l ensemble dénombrable {1, 1} N dans Z qui au couple (ɛ, n) associe le produit ɛn est une surjection. De même, Q est dénombrable car l application de l ensemble dénombrable Z (N {0}) dans Q qui au couple (p, q) associe le rationnel p/q est une surjection. On peut démontrer que Théorème 1.4.2 L ensemble des nombres réels R n est pas dénombrable. Corollaire 1.4.2 L ensemble des nombres irrationnels n est pas dénombrable. Démonstration. Car sinon, R qui est réunion de Q et de l ensemble des nombres irrationnels serait dénombrable (comme union dénombrable d ensembles dénombrables).
Chapitre 2 Espaces Probabilisés et variables aléatoires 2.1 Espace probabilisé Un espace probabilisé est la donnée d un espace Ω que l on appelle l espace des états. Quand on modélise une situation concrète Ω est l ensemble des états du système que l on considère. Bien souvent cet espace est inaccessible à l expérience; d un sous-ensemble B de P(Ω) qui est l ensemble des évènements. Dans une situation concrète c est l ensemble de tous les résultats d expériences que l on peut effectuer sur le système. En théorie des probabilités (donc quand on fait des mathématiques) cet ensemble B sera une tribu ou encore (c est équivalent) une σ-algèbre (cf. définition 2.1.1; d une probabilité P : pour tout évènement A B le réel P(A) est le degré de vraisemblance de l évènement A; c est un nombre compris entre 0 et 1. Mathématiquement, une probabilité est une application P : B [0, 1] vérifiant les propriétés décrites en dans la définition 2.1.2. Nous précisons dans la suite les deux derniers points. 2.1.1 Tribus Soit Ω un ensemble fixé (l espace des états). Définition 2.1.1 Une tribu ou encore une σ-algèbre de Ω est un ensemble de parties de Ω (donc un sous-ensemble de P(Ω), l ensemble des parties de Ω) qui contient l ensemble vide, est stable par passage au complémentaire et est stable par union dénombrable : B 13
14CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES pour tout A B on a A c B pour toute famille dénombrable (A i ) i N d éléments de B l union est également dans B. i N Il est clair que Ω est toujours élément de la tribu (c est le complémentaire de l ensemble vide) et qu une intersection dénombrable d éléments de la tribu est encore dans la tribu (car i N A i = ( i N A c i )c ). Exemples 1) Si Ω est un ensemble quelconque on peut toujours définir deux tribus : la tribu triviale qui est B = {, Ω} la tribu totale qui est B = P(Ω). 2) Si Ω = {1, 2, 3} le sous-ensemble de P(Ω), B = {, {1}, {2, 3}, Ω} est une tribu de Ω. 3) (Exercice :) Si Ω est un ensemble le sous-ensemble de P(Ω) constitué des ensembles qui sont dénombrables ou dont le complémentaire est dénombrable est une tribu. Sauf dans le cas où l espace Ω est fini, les exemples précédents de tribus sont trop simples pour être utiles. La proposition donne un moyen très commode de construire des tribus non-triviales. Proposition 2.1.1 Soit Ω un ensemble et S un sous-ensemble de parties de Ω (un sous-ensemble de P(Ω)) sans structure particulière. Il existe une unique tribu B qui contient S et qui est minimale pour cette propriété c està-dire : (S B) : pour tout A S on a A B (minimale) : si B est une autre tribu telle que S B alors B B. On appelle B la tribu engendrée par la partie S et on la note (dans ce cours) B = B(S). Démonstration. Considérons l ensemble E des tribus C de Ω tel que S C. Cet ensemble E est non vide puisqu il contient la tribu P(Ω) et puisque S P(Ω). Notons B l intersection des C quand C décrit E. C est un sous-ensemble de P(Ω) qui contient S mais c est également une tribu comme il est facile de vérifier (nous A i
2.1. ESPACE PROBABILISÉ 15 recommandons au lecteur de vérifier ce point). Ainsi, B est une tribu contenant S et appartient donc à E. Comme B est l intersection des C décrivant E on a pour toute tribu C contenant S l inclusion B C : ceci qui signifie que B est la plus petite trbibu contenant S. 2.1.2 Probabilité Définition 2.1.2 Si Ω est un ensemble et B est une tribu de Ω, une probabilité P est une application de B dans [0, 1] telle P(Ω) = 1 et telle que pour toute famille dénombrable (A i ) i N d évènements de B disjoints 2 à 2 on a ( P i N A i ) = P(A i ). i=0 où l égalité précédente signifie la chose suivante : la probabilité P( i N A i ) est égale à la limite de la suite croissante de nombres réels N i=0 P(A i) quand N tend vers l infini.( Cette limite existe toujours car la suite en question est croissante et bornée.) Remarque L intérêt d autoriser la stabilité par unions (intersections) dénombrables dans la définition d une tribu permet de construire à partir d évènements simples des évènements beaucoup plus intéressants que ceux qu on obtiendrait en ne supposant que la stabilité par unions (intersections) finies. En revanche, si on autorisait la stabilité par unions (intersections) quelconques on ne pourrait pas construire beaucoup de probabilités. La stabilité par unions (intersections) dénombrable est donc le bon compromis. Mentionnons tout d abord deux propriétés immédiates des probabilités : Proposition 2.1.2 Soit (Ω, B,P) un espace probabilisé. a) Si A B, b) P( ) = 0 P(A c ) = 1 P(A). c)(positivité) Si A, B B vérifient A B alors P(A) P(B). d) Si A, B B alors P(A B) = P(A) + P(B) P(A B).
16CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES Démonstration. a) Il suffit décrire Ω comme l union disjointe finie Ω = A A c : comme P est une probabilité 1 = P(Ω) = P(A) + P(A c ). b) suit de la formule précédente et du fait que P(Ω) = 1. c) On écrit B comme l union disjointe B = A (B A c ) et P(B) = P(A) + P(B A c ). Comme P(B A c ) 0 on a bien P(B) P(A). d) De l union disjointe A B = A (B A c ) on déduit P(A B) = P(A) + P(B A c ). Mais de l union disjointe B = (B A c ) (B A) on obtient P(B) = P(B A c ) +P(A B). De ces deux égalités on déduit la formule d) La preuve des propriétés qui suivent n est pas difficile mais, à la différence de la démonstration des propriétés précédentes, ne pourrait se faire sans autoriser des unions dénombrables : Proposition 2.1.3 a) Si A i, i N est une famille croissante d éléments de B dont l union est A alors A B et la suite P(A n ) (qui est croissante bornée) converge vers P(A) : lim P(A n) = P(A); n b) Si A i, i N est une famille décroissante d éléments de B dont l union est A alors A B et la suite P(A n ) (qui est décroissante positive) converge vers P(A) : lim n P(A n) = P(A); c) Si A i, i N est une famille dénombrable d ensembles appartenant à B on a toujours (même si les A i ne sont pas disjoints deux à deux) ( ) P A i P(A i ), i N (où le membre de droite de l inégalité précédente qui est la limite de la suite croissante peut éventuellement être infini). Démonstration. a) Définissons les ensembles B n, n 0 de la façon suivante : B 0 = A 0, et pour n 1, B n = A n A c n 1. Les B n constituent une famille dénombrable d ensembles disjoints deux à deux d éléments de B et on peut donc écrire ( P(B k ) = P B k ). k=0 i=0 k N
2.1. ESPACE PROBABILISÉ 17 c est-à-dire lim N N k=0 ( P(B k ) = P k N B k ), ou encore, puisque les B k sont disjoints deux à deux Mais ( lim P N ) ( B k = P B k ), N k=0 k N N B k = A N, k=0 ce qui établit la preuve de a). B k = A k=0 b) Il suffit de passer au complémentaire et d utiliser a) c) Pour ω Ω définissons l entier ν(ω) comme étant le plus petit entier k 0 pour lequel ω A k. L ensemble C n des ω Ω pour lesquels ν(ω) = n est l ensemble C n = {ω Ω, ν(ω) = n} = A n (A n 1 A 0 ) c qui est clairement dans B. Les ensembles C n sont de toute évidence disjoints deux à deux et leur union pour n 0 est n N A n car pour tout ω dans n N A n il existe un n tel que ν(ω) = n c est-à-dire il existe un n tel que ω C n. On a donc ( P n 0 ) ( A n = P n 0 C n ) = P(C n ), et comme P(C n ) P(A n ) (puisque C n A n ) on obtient la conclusion du c). Les deux propriétés précédentes a) et b) sont des propriétés de continuité (dans un sens à préciser) des probabilités. n=0 2.1.3 Exemples Mesures de Dirac Sur tout ensemble Ω muni d une tribu B il est possible de construire des mesures de la façon suivante : pour tout α Ω définissons l application δ α : B [0, 1] qui à un ensemble A B associe le réel 1 si α A et 0
18CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES sinon. Cette application δ α est une mesure de probabilité que l on appelle la mesure de Dirac au point α. Vérifions rapidement que c est bien une mesure : déjà δ α (Ω) = 1 puisque α Ω; par ailleurs si A i B, i 0 est une famille dénombrable d ensembles de la trbibu disjoints deux à deux on a δ α ( i 0 A i ) = δ α (A i ), car : soit α appartient à i 0 A i ; mais alors il existe un i 0 pour lequel α A i et cet indice i est unique car les A i sont disjoints deux à deux. L égalité précédente se réduit à 1 = 1; soit α n appartient pas à i 0 A i et de ce fait n apartient à aucun des A i : l égalité se réduit à 0 = 0. Probabilités sur un ensemble fini Les espaces probabilisés les plus simples sont ceux où l espace des états Ω est fini. On choisit en général comme tribu B l ensemble P(Ω) de toutes les parties de Ω (qui est bien une tribu). C est ce que nous ferons (car le cas où B est une tribu plus petite que P(Ω) s y ramène). Ceci étant, il reste à définir la probabilité. Remarquons que tout ensemble A B = P(Ω) est fini (car inclus dans Ω qui est fini) et est par conséquent l union (finie donc dénombrable) des singletons {a} où a décrit A : A = a A{a}. Comme cette union est disjointe et finie on a P(A) = a A P({a}). Si Ω = {c 1,...,c n } et si on note p i = P({c i }) on a P(A) = p i. i,c i A Remarquons que les p i sont dans [0, 1] et vérifient n p i = 1. i=1
2.1. ESPACE PROBABILISÉ 19 En conclusion : dans le cas où Ω est fini, une probabilité P sur B = P(Ω) est déterminée par ses valeurs sur les singletons de Ω. Réciproquement si on se donne n nombres réels positifs p 1,...,p n dont la somme vaut 1 (p 1 + +p n = 1) alors, l application P : P(Ω) [0, 1] qui à A P(Ω) associe le réel (dans [0, 1]) P(A) = est une probabilité {i:c i A} Exercice : Démontrer l énoncé précédent. Probabilités uniformes et lien avec la combinatoire Un cas important est celui où tous les p i, 1 i n précédents sont égaux. Comme leur somme doit valoir 1 ceci signifie que p 1 = = p n = 1. On dit dans ce cas que la n probabilité P est uniforme. On a alors, pour tout sous-ensemble A de Ω soit P(A) = {i:c i A} p i p i = #{i {1,..., n}, c i A}. 1 n P(A) = #A #Ω. Ainsi, quand on travaille avec une probabilité uniforme sur un ensemble fini, déterminer la probabilité d un évènement revient à calculer son cardinal : on voit apparaîitre le lien avec la combinatoire. Exercice : On tire cinq cartes d un jeu de 32 cartes. Quelle est la probabilité d obtenit un full c est-à-dire deux cartes de même valeur et trois autres cartes de même valeur. On supposera chaque tirage équiprobable Exercice : Une urne contient n boules noires et b boules blanches. a) On effectue N tirages avec remises. Quelle est la probabilité d obtenir x boules noires? b) Même question si les tirages sont sans remises. On supposera les tirages équiprobables. Jeu de n Pile ou Face On se propose de modéliser un jeu où l on lance n fois une pièce (Pile/Face). De façon équivalente un expérimentateur réalise n expérience le résultat de chaqu une d entre elles pouvant être positif (1) ou négatif (0). Il est naturel de décrire le jeu ou l expérience précédentes de la façon suivante : on choisit comme espace des états l ensemble Ω de toutes les suites de longueur n constituées de 0 ou de 1. Une telle suite est donc un
20CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES n-uplet ω = (ω 1,...,ω n ) chaque ω i, 1 i n appartenant à l ensemble à deux éléments {0, 1}. Ainsi Ω = {0, 1} n, et a 2 n éléments. Nous choisirons comme tribu B = P(Ω), l ensemble des parties de Ω (qui a donc 2 2n mais cela n a pas d importance). Cette tribu nous permet de décrire des évènements. Par exemple l évènement (A) obtenir k Pile lors des n lancers est décrit par l ensemble A B (Pile=1, Face=0) A = {ω = (ω 1,...,ω n ), n ω i = k.}. L évènement (B) on tire au moins un Pile est décrit par l ensemble i=1 B = {ω = (ω 1,...,ω n ), i {1,...,n} ω i = 1}. L évènement (A) et (B) est décrit par l intersection A B, l evènement non A est décrit par A c, l évènement A ou B par A B etc. Le choix de la probabilité sur notre ensemble est dicté par le jeu ou l expérience que l on modélise. Ainsi, on ne modélisera pas de la même façon un jeu ou pile et face ont les mêmes chances de sortir qu un jeu où pile a deux fois plus de chance de sortir que face. Dans le premier cas, il est naturel 1 de choisir comme probabilité P la probabilité uniforme P(A) = #A Ω = #A 2 n. Noter que la probabilité d un évènement élémentaire on a tiré la suite (ɛ 1,...,ɛ n ) c est-à-dire la probabilité du singleton {(ɛ 1,...,ɛ n )} vaut 1/2 n (ceci quel que soit ɛ 1,...,ɛ n ). En revanche, dans le second cas, on définira la probabilité d un évènement élémentaire {ɛ 1,...,ɛ n )} comme étant (2/3) k (1/3) n k où k est le nombre de 1 dans la suite ɛ 1,...,ɛ n. Exercice : Calculer dans chacun des cas précédents les probabibilités des évènements A et B. Le jeu infini de pile ou face Nous présentons dans ce paragraphe la modélisation du jeu de pile ou face où l on joue une infinité de fois. Il est naturel d introduire comme espace des états l ensemble Ω des suites ω = (ω 1, ω 2,...) où les ω i valent 0 ou 1. On a ainsi Ω = {0, 1} N {0}. Un problème plus délicat est de trouver une tribu 1 en fait cela sera encore plus naturel quand on aura défini la notion d indépendance
2.1. ESPACE PROBABILISÉ 21 raisonnable sur cet ensemble. On aimerait par exemple pouvoir décrire un évènement du type : en moyenne pile sort deux fois plus souvent que face qui de façon ensembliste est l ensemble des ω = (ω 1,...) Ω pour lesquels la limite quand n tend vers l infini de la suite 1 n ω i n i=1 existe et vaut 2/3. Un moment de réflexion montre que cet évènement n appartient à aucune des tribus F n qui modélisent un jeu de n pile/face 2. Nous définirons la tribu B sur Ω de la façon suivante : la tribu B est la tribu engendrée (au sens de la proposition 2.1.1) par tous les évènements C i,ɛ C i,ɛ = {ω Ω, ω i = ɛ}, où i décrit N {0} et ɛ décrit {0, 1}. Il reste à présent à construire une probabilité sur B ce qui est assez délicat. Si on joue avec une pièce qui donne Pile (resp. Face) avec probabilité 1/2 il est naturel d attribuer à tout évènement C i,ɛ la probablité (1/2) (indépendamment de la valeur de ɛ) et il est également naturel de demander que la probabilité d un évènement de la forme 3 {ω Ω, ω i1 = ɛ 1,...,ω ir = ɛ r } = C i1,ɛ 1 C ir,ɛ r soit égale à (1/2) r. Il n est en revanche pas du tout clair que l on puisse attribuer à tout évènement de la tribu B une probabilité qui soit compatible avec ces choix. En fait c est possible : Théorème 2.1.1 Il existe une unique mesure de probabilité P définie sur (Ω, B) telle que pour tous r 1, i 1,...,i r N {0}, ɛ 1,...,ɛ r {0, 1} on ait P(C i1,ɛ 1 C ir,ɛ r ) = 1 2 r. Probabilité sur R Il est important de savoir décrire des probabilités sur R, l ensemble des nombres réels. L espace des états est alors Ω = R et la tribu que l on choisit est la tribu engendrée par les intervalles ouverts de R. On l appelle la tribu borélienne et on la note Bor(R). Retenons la définition : 2 On peut toujours considérer un jeu de n pile/face comme un cas particulier d un jeu infini de pile/face : Il suffit d associer à toute suite ω = (ω 1,..., ω n ) de {0, 1} n la suite ω {0, 1} N {0} définie par ω i = ω i si 1 i n et ω i = 0 si i n + 1 3 Cet évènement décrit l expérience suivante : au temps i 1,...,i r, on observe ɛ 1,..., ɛ r et on ne précise pas ce qui se passe aux autres temps
22CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES Définition 2.1.3 La tribu borélienne de R est la tribu engendrée par les intervalles ouverts de R. 4. On la note Bor(R). Exercice : Montrer que la tribu borélienne de R est également la tribu engendrée par les intervalles de la forme ], a]. Solution : Notons C la tribu engendrée par les intervalles de la forme ], a]. Remarquons pour cela que si ]c, d[ est un intervalle ouvert (c < d peuvent être infinis) on a ]c, d[=], c] c ], d[. Mais ], d[ s écrit comme union dénombrable d intervalles de C : ], d[= n N ], d 1 n ]. Ainsi, C étant une tribu (donc stable par union dénombrable) ], d[ appartient à C. Comme ], c] est dans C, l intersection ]c, d[=], c] c ], d[ est également dans C (C est stable par complémentaire et intersections finies ou dénombrables). Nous avons donc démontré que la tribu C contenait les intervalles ouverts. Or, la tribu borélienne est la plus petite tribu contenant les intevalles ouverts. Par conséquent, Bor(R) C. L inclusion récipoque se démontre de façon similaire (c est plus facile). Exercice : 1) Montrer qu un singleton {a} est borélien. 2) Montrer que Q l ensemble des rationnels est borélien. 3) L ensemble des irrationnels est-il borélien. 4) Montrer qu un intervalle fermé [a, b] est borélien (on observera que [a, b] = p 1 ]a 1 p, b + 1 p [.) Définition 2.1.4 Si µ est une probabilité sur (R, Bor(R)) on introduit F µ la fonction définie par F µ (x) = µ(], x]). On appelle F µ ( ) la fonction de répartition de la mesure de probabilité µ. Proposition 2.1.4 La fonction F µ : R [0, 1] définie par F(x) = µ(], x]) i) est croissante ii) admet des limites en + et qui valent : lim F(x) = 1, lim x F(x) = 0 x 4 elle est également engendrée par les intervalles ou les intervalles de la forme ], a] ou encore les intervalles fermés etc.
2.1. ESPACE PROBABILISÉ 23 iii) est continue à droite en tout point x R c est-à-dire lim F(t) = F(x). t x,x<t Démonstration. i) Si x y on a ], x] ], y] et d après la proposition 2.2.1 c) on a bien µ(], x]) µ(], y]). ii) Pour tout suite x n croissant vers (resp. décroissant vers ) la suite de boréliens ], x n ] est croissante pour l inclusion (resp. décroissante pour l inclusion) et leur union vaut Ω (resp. leur intersection vaut ). Par conséquent d après la proposition 2.1.3 a) (resp. b)) lim n µ(], x n ]) = 1 (resp. lim n µ(], x n ]) = 0 ) ce qui démontre ii) iii) Pour toute suite t n décroissante et convergeant vers x, la suite de boréliens ], t n ] est décroissante et leur intersection vaut ], x] ce qui démontre que lim n µ(], t n ]) = µ(], x]). Remarque : Attention, la fonction de répartition d une mesure n est pas toujours continue à gauche.considérons en effet la mesure de Dirac en 0 que nous notons δ 0 : par définition c est la mesure qui à tout borélien A de R associe 1 si 0 appartient à A et 0 sinon; on sait que c est une mesure. Sa fonction de répartition est : F(x) = 0 si x < 0 et F(x) = 1 si x 0 (c est une fonction en escalier) qui est bien continue à droite en 0 mais n est pas continue à gauche en 0. Le théorème qui suit (dont la démonstration dépasse le cadre de ce cours) permet de construire de très nombreuses mesures de probabilités sur la droite réelle munie de sa tribu borélienne. Théorème 2.1.2 Si F : R [0, 1] est une fonction croissante, qui admet une limite nulle en et une limite égale à 1 en, et qui est continue à droite en tout point de R alors il existe une unique mesure de probabilité µ définie sur (R, Bor(R)) qui admet F comme fonction de répartition. Ce théorème illustre l équivalence entre la notion de probabilité sur (R, Bor(R)) et celle de fonction de répartition. Donnons un exemple fondamental et typique d une telle construction : la fonction F définie par : F(x) = 0 si x < 0, F(x) = x si 0 x < 1 et F(x) = 1 si x 1 vérifie bien les hypothèses du théorème 2.1.2 et définit donc une mesure de probabilité λ que l on appelle la mesure de Lebesgue sur l intervalle [0, 1]. Si I est un intervalle de R on a λ(i) = longueur(i [0, 1]).
24CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES 2.2 Variables Aléatoires Définition 2.2.1 Une variable aléatoire réelle (en abrégé v.a) est une application X : Ω R telle que pour tout intervalle ouvert I de R l ensemble X 1 (I) des ω Ω tels que X(ω) I, appartient à B. En fait Proposition 2.2.1 Si X : Ω R est une application alors les trois propositions suivantes sont équivalentes a) pour tout borélien A Bor(R) X 1 (A) B. b) X est une variable aléatoire; c) pour tout intervalle I de la forme I =], a], X 1 (I) appartient à B ; Démonstration. Que a) implique b) et que b) implique c) est évident. Démontrons donc que c) implique a). L ensemble E des A R tels que X 1 (A) B est une tribu (exercice). Or, cet ensemble E contient d après c) les intervalles de la forme ], a] et par conséquent la tribu engendrée par les intervalles de la forme ], a]. Mais on sait, d après l exercice qui suit la définition 2.1.3, que cette tribu égale la tribu borélienne. Ainsi, pour tout borélien A, X 1 (A) B. Notation Dans la suite du cours, quand X est une v.a et A un borélien de R nous noterons {X A} ou [X A] ou (X A) l ensemble {ω Ω : X(ω) A}. La proposition qui suit permet de construire de v.a. Proposition 2.2.2 a) Si X n, n 1 est une famille de v.a alors Z = sup n 1 X n (resp. Z = inf n 1 X n ) est une v.a b) Si X 1,...,X n sont des v.a et f : R n R est une application continue alors Z = f(x 1,...,X n ) est une v.a Démonstration. a) Soit ω tel que sup n 1 X n (ω) > a. Alors par définition du sup, il existe un n pour lequel X n (ω) > a et ω est donc dans l union n 1 {X n > a}. Réciproquement si ω n 1 {X n > a} alors il existe n tel que X n (ω) > a et a fortiori sup n X n (ω) > a. Nous avons donc démontré que les deux ensembles {Z > a} et n 1 {X n > a} sont égaux. Mais ce dernier ensemble est une union dénombrable d éléments de la tribu B (car chaque X i est une v.a). Ainsi pour
2.2. VARIABLES ALÉATOIRES 25 tout a l évènement {sup n 1 X n (ω) > a} est dans B et il en est de même de son complémentaire {sup n 1 X n (ω) a}. La proposition?? permet de conclure. b) Si I est un intervalle de R, Z 1 (I) est l ensmble des ω Ω tels que (X 1 (ω),..., X n (ω)) f 1 (I). Comme f est continue, f 1 (I) est un ensemble ouvert de R n et, par consquent, est une union dénombrable de pavés ouverts c est -à-dire d ensembles P de la forme ]a 1, b 1 [ ]a n, b n [. Par conséquent l ensmble des ω Ω tels que (X 1 (ω),..., X n (ω)) f 1 (I) est une union dénombrable d ensembles de la forme {ω Ω, (X 1 (ω),..., X n (ω) ]a 1, b 1 [ ]a n, b n [} c est-à-dire d ensembles de la forme {ω Ω, X 1 (ω) ]a 1, b 1 [,...,X n (ω) ]a n, b n [} = X1 1 (]a 1, b 1 [) Xn 1(]a n, b n [) qui sont clairement dans B. En particulier Proposition 2.2.3 a) Si X : Ω R est une v.a. et f : R R est une application continue, alors la fonction Y : Ω R définie par Y = f X (c est-à-dire Y (ω) = f(x(ω)) pour tout ω Ω) est encore une v.a. On la note Y = f(x). b) Si X, Y sont deux v.a l application Z = max(x, Y ) est une v.a c) Si X et Y sont deux v.a, ax + by est également une v.a. 2.2.1 Le cas particulier des v.a à valeurs dans un ensemble fini ou dénombrable Il s agit du cas où X(Ω) l ensemble des valeurs prises par X est un ensemble fini ou dénombrable de R. Dans ce cas la caractérisation des variables aléatoires est plus simple : Proposition 2.2.4 Si X : Ω R est à valeurs dans un ensemble fini ou dénombrable E alors X est une variable aléatoire si et seulement si pour tout e E, X 1 ({e}) B. Démonstration. Il s agit de démontrer que pour tout intervalle ouvert de la forme ]a, b[ (avec a et b finis par exemple) l ensemble des ω Ω tels X(ω) ]a, b[ est dans B. On a alors X(ω) ]a, b[ E. Mais ce dernier ensemble est au plus dénombrable et comme X 1 (]a, b[) = X 1 ({e}) on voit que X 1 (]a, b[) est dans B. e ]a,b[ E
26CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES Exemple Revisitons l exemple du jeu infini de Pile/Face : Ω = {0, 1} N et B est la tribu engendrée par les ensembles C i,ɛi = {ω = (ω 0,...) Ω, ω i = ɛ i }. Pour n N l application X n : {0, 1} N {0, 1} qui à ω = (ω 0, ω 1,...) associe ω n est une variable aléatoire. Il suffit en effet de vérifier que pour ɛ = 0 ou ɛ = 1 l ensemble des ω pour lesquels ω n = ɛ appartient à B. Or, cet ensemble est le cylindre C n,ɛ qui par définition est dans B. En fait, la tribu B a été construite de façon que toutes les applications X n : Ω {0, 1} (n 0) soient des variables aléatoires (c est d ailleurs la plus petite tribu ayant cette propriété). Exercice On considère le jeu infini de Pile/Face (Ω, B,P) et on garde les notations de l exemple précédent. Définissons pour tout ω Ω, l entier ν(ω) comme étant le plus petit entier k pour lequel X k (ω) = 1 (en d autres termes ν(ω) est le premier temps où on tire Pile). Démontrer que ν est une variable aléatoire. Solution : Si {ν = 0} = {X 0 = 1} est dans B car X 0 est une v.a et pour tout n N, (n 1) {ν = n} = {X 0 = 0} {X n 1 = 0} {X n = 1}; c est une intersection finie déléments de B (car, puisque chaque X i est une v.a, les ensembles {X i = 0}, 1 i n 1 et {X n = 1} c sont dans B) 2.2.2 Loi d une variable aléatoire Soit X : Ω R une v.a. On sait que pour tout borélien A de R l ensemble X 1 (A) est un évènement (appartient à B). Il est donc possible de parler de la probabilité P(X A) de l évènement {X A}. Proposition 2.2.5 L application µ X : Bor(R) [0, 1] qui à tout borélien de R associe le réel P(X A) de [0, 1] est une probabilité sur (R, Bor(R)). On appelle cette probabilité la loi de la v.a X. Démonstration. Il suffit de démontrer que si (A i ) i N est une famille dénombrable de boréliens de R disjoints deux à deux alors P(X i NA i ) = P(X A i ), ce qui est clair car l évènement {X i N A i } est l union dénombrable disjointe des évènements {X A i }. Enfin la condition P(X R) = 1 achève la preuve. i=0
2.2. VARIABLES ALÉATOIRES 27 Il faut retenir que la loi d une v.a est une probabilité sur R (muni de sa tribu borélienne). Ceci illustre le fait qu il est possible de construire de nombreuses mesures de probablilités sur R muni de sa tribu borélienne. 2.2.3 Loi des variables aléatoires à valeurs dans un ensemble fini ou dénombrable Si X : Ω R prend ses valeurs dans un ensemble E = {e 0, e 1,...} qui est fini ou dénombrable la loi µ X de X est la mesure sur (R, Bor(R)) µ X = e E P(X = e)δ e. En effet pour tout borélien (ou tout intervalle) A P(X A) = P(X A E) = e A E et cette somme n est rien d autre que P(X = e)δ e (A). e E P(X = e), La loi de X est donc parfaitement déterminée par les réels p X (e) = P(X = e), (e E) et dans la pratique quand on demande de déterminer la loi de X on demande de calculer les réels p X (e) = P(X = e). Quelques lois classiques de variables aléatoires à valeurs dans un ensemble fini ou dénombrable Loi géométrique On dit qu une v.a X : Ω N (à valeurs dans N) suit une loi géométrique de paramètre a (0 < a < 1) si P(X = n) = (1 a)a n. On remarquera que l on a bien k=0 P(X = k) = 1 ( k 0 ak = 1/(1 a)). La v.a ν de l exercice de la section 2.2.1 suit une loi géométrique de paramètre 1/2. En effet ν 1 (n) = {ω = (ω 0, ω 1,...) Ω, ω 0 = 0,...,ω n 1 = 0, ω n = 1} et d après le théorème 2.1.1 = C 0,0 C n 1,0 C n,1 P(ν = n) = (1/2) n.(1/2).
28CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES Loi binomiale On dit qu une variable aléatoire Z à valeurs dans {0,...,n} suit une loi binomiale (n, p) si P(Z = k) = où ( n k) est le coefficient binomial ( ) n = Cn k = k n! (n k)!k! ( ) n p k (1 p) n k. k n(n 1) (n k + 1) =. k! On a bien (formule du binôme de Newton) k=0 P(X = k) = (p+1 p)n = 1. Exemple Jouons n fois au jeu de pile/face où pile sort avec probabilité p et face avec probabilité 1 p et notons Z la variable aléatoire : Z est le nombre de pile qui sortent (après avoir joué n fois). Si on note X i les variables aléatoires X i (ω) = ω i (ω = (ω 1,...,ω n )) on a Z = X 1 + + X n. C est bien une variable aléatoire Z : B N à valeurs dans l ensemble fini {0,..., n} (B = P(Ω)) et P(Z = k) = ( ) n p k (1 p) n k. k Loi de Poisson Une variable aléatoire Z : Ω N suit une loi de Poisson de paramètre λ > 0 si P(Z = n) = e λλk k!. On vérifie encore que k=0 P(X = k) = 1 (cf. le développement en série de e λ ). Exercice Soit X n une v.a suivant une loi binomiale (n, p n ). Montrer que si lim n np n = λ on a pour tout k N lim P(X n = k) = e λλk n k!. (On dit que X n converge en loi vers une loi de Poisson de paramètre λ)
2.2. VARIABLES ALÉATOIRES 29 2.2.4 Loi de variables aléatoires admettant une densité Définition 2.2.2 On dit que la variable aléatoire X : Ω R admet une densité continue (resp. continue par morceaux etc.) si sa loi (qui est une mesure de probabilité sur (R, Bor(R))) admet une densité continue (resp. continue par morceaux etc.) c est-à-dire s il existe une fonction positive continue (resp. continue par morceaux etc.) ρ X : R [0, [ telle que ρ X(t)dt = 1 et telle que pour tout intervalle ]a, b[ µ X (]a, b]) = P(X ]a, b]) = b a ρ X (t)dt. Faisons une remarque importante : si une v.a. X admet une densité ρ X alors sa fonction de répartition F X (x) = µ X (], x]) = x ρ X (t)dt est continue. Il existe donc des variables aléatoires n admettant pas de densité : par exemple une v.a X à valeurs dans R ne prenant que deux valeurs 0 ou 1 et telle que P(X = 0) = p avec 0 < p < 1 ne peut posséder de densité car sa fonction de répartition F X (x) vaut 0 si x < 0, 1/2 si 0 x < 1 et 1 si 1 x : elle est discontinue en 0 et en 1 (mais bien continue à droite). Quelques exemples de loi admettant une densité Loi uniforme La variable aléatoire X : Ω R suit une loi uniforme sur l intervalle [a, b] si sa densité est donnée par ρ X (x) = 1 b a 1 [a,b]. On a bien ρ X (t) 0 pour tout t et ρ R X(t)dt = 1. Cette loi est caractérisée par P(X [c, d]) = 1 longueur([a, b] [c, d]). b a (En effet, 1 P(X [c, d]) = [c,d] b a 1 [a,b](x)dx = 1 1 [c,d] (x) 1 [a,b] (x)dx b a R = 1 1 [c,d] [a,b] (x)dx. b a R
30CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES La v.a admet une densité ρ X expo- Loi exponentielle de paramètre θ nentielle de paramètre θ si La fonction de répartition est F X (x) = ρ X (x) = θe θx 1 [0, [ (x). x ρ X (t)dt = (1 e θx )1 [0, [ (x), et converge bien vers 1 en. Intuitivement, la loi uniforme sur l intervalle [a, b] modélise une expérience où la probabilité d un point de tomber dans un intervalle de taille 2 x, ]x x, x + x[ [a, b] ne dépend pas de x (et est linéaire en x). Loi normale N(µ, σ) C est la loi de densité ρ X (x) = 1 2πσ 2 e (x µ)2 /2σ 2. Il n est pas complètement évident que R ρ X(x)dx = 1 (ce qui est indispensable pour que ρ X soit une densité). Ceci résulte, après le changement de variable u = (x µ)/σ de l égalité (cf. *** pour une preuve) e u2 /2 du = 2π. La loi normale N(0, 1), donc de densité, 1 2π e x2 /2, est dite loi normale centrée réduite. 2.3 Espérance d une v.a. 2.3.1 Espérance d une v.a. à valeurs dans un ensemble fini (ou dénombrable) Soit X : Ω R une variable aléatoire ne prenant qu un nombre fini de valeurs x 1,...x r. On définit l espérance de X comme étant le nombre réel E(X) = r x i P(X = x i ). i=1
2.3. ESPÉRANCE D UNE V.A. 31 Remarquons que si X prend ses valeurs dans un ensemble infini dénombrable la quantité E(X) = x i P(X = x i ), i=1 qui semble être un bon candidat pour la définition de l espérance peut ne pas exister car la série peut ne pas converger. Pour garantir cette convergence il suffit de demander que la série précédente soit absolument convergente. 2.3.2 Espérance d une v.a. positive Nous définissons dans cette section l espérance d une variable aléatoire X : Ω R qui ne prend que des valeurs positives ou nulles. Pour cela on définit pour n 1 la variable aléatoire X n de la façon suivante : on découpe [0, ) en intervalles [0, 1[, [1, 2[,..., [n 1, n[, [n, ) puis on redécoupe chacun des n intervalles [0, 1[, [n 1, n[ en 2 n intervalles d égale longueur (on ne touche pas à [n, [) : on obtient n2 n 1 intervalles de taille 2 n de la forme [k/2 n, (k + 1)/2 n [ (0 k n2 n 1); on pose alors X n (ω) = n si X n (ω) n X n (ω) = (k/2 n ) si X n (ω) [k/2 n, (k + 1)/2 n [. Il n est pas très difficile de vérifier que pour tout ω la suite de v.a X n (ω) est croissante (et converge vers X(ω)); la suite de nombre réels E(X n ) est donc croissante (mais pas nécessairement bornée). On pose E(X) = lim n E(X n ), où la limite précédente peut être finie ou infinie. On peut démontrer Théorème 2.3.1 L espérance vérifie les conditions suivantes : a) si A B on a E(1 A ) = P(A). b) Si X, Y sont des v.a positives telle que X Y (c est-à-dire pour tout ω Ω X(ω) Y (ω)) alors E(X) E(Y ). c) Si X, Y sont des v.a positives et a, b R on a (linéarité de l espérance) E(aX + by ) = ae(x) + be(y ). d) Si X est une v.a positive telle que E(X) = 0 alors X est nulle P-presque sûrement c est-à-dire que l ensemble des ω Ω pour lesquels X(ω) > 0 a une probabilité nulle. Notons que E(a) = a si a est une constante.
32CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES Remarque On dit qu une propriété P ω qui dépend de ω Ω est vraie P- presque sûrement si l ensemble des ω Omega pour lesquels P ω est fausse est de P-probabilité nulle (P({ω : P ω fause}) = 0). Mentionnons le théorème suivant qui permet de calculer l espérance d une v.a obtenue comme limite d autres v.a Théorème 2.3.2 (Théorème de convergence monotone) Si X n est une suite de v.a X n : Ω [0, ] qui i) est croissante : pour tout ω Ω, X n (ω) X n+1 (ω) ii) converge vers X : Ω [0, ] : pour tout ω Ω la suite X n (ω) converge vers X(ω). Alors, a) l application X : Ω [0, ] est une v.a; b) la suite E(X n ) converge vers E(X) (lim n E(X n ) = E(X)). En particulier, si Y n est une suite de v.a positives ou nulles on a E( Y n ) = E(Y n ) n=0 (on peut intervertir le signe de sommation infini et l espérance). n=0 2.3.3 Espérance des v.a intégrables Nous pouvons définir à présent l espérance de v.a qui ne sont pas nécessairement positives. Pour cela, on constate que toute v.a X : Ω R peut s écrire comme différence de deux v.a positives X + et X : si on pose X + = max(0, X) et X = max(0, X) on a bien que X +, X sont des v.a à valeurs positives et que X = X + X. Il est donc naturel de définir E(X) comme étant la quantité E(X + ) E(X ). Cependant, si E(X + ) et E(X ) valent on obtient de cette façon une expression indéterminée de la forme. Pour que la quantité E(X + ) E(X ) ait un sens il faut donc que E(X + ) < et E(X ) < (c est-à-dire soient des quantités finies). Ceci est équivalent (puisque E(X + ) et E(X ) sont positives ou nulles) au fait que E(X + ) + E(X ) <. Or il est facile de voir que X + + X = X, et la quantité E(X + ) + E(X ) est finie si et seulement si E( X ) l est. Résumons : Définition 2.3.1 Si X est une v.a telle que E( X ) < on définit l espérance de X comme étant E(X) = E(X + ) E(X ),
2.3. ESPÉRANCE D UNE V.A. 33 où X + = max(0, X), X = max(0, X). On dit que X est intégrable (sur l espace probabilisé (Ω, B, P)) ou encore P-intégrable. L ensemble des variables aléatoires X qui sont P-intégrable se note L 1 (Ω,P). On a alors les propiétés suivantes Proposition 2.3.1 a) Si A B, E(1 A ) = P(A). b) Si X, Y sont des v.a dans L 1 (Ω,P) telle que X Y (c est-à-dire pour tout ω Ω X(ω) Y (ω)) alors E(X) E(Y ). c) Si X, Y sont des v.a dans L 1 (Ω,P) et a, b R alors ax + by L 1 (Ω,P) et on a E(aX + by ) = ae(x) + be(y ). d) Si X L 1 (Ω, B) on a toujours E(X) E( X ) et on a égalité si et seulement si P-ps X 0 ou P-ps X 0. ExerciceExpliquer pourquoi une v.a bornée est P-intégrable. Le théorème de convergence monotone, vrai pour des v.a positives ou nulles, possède un analogue dans le cas L 1. Théorème 2.3.3 (Théorème de convergence dominée) Si X n est une suite de v.a P-intégrable, X n : Ω R (n N) telle que i) la suite (X n ) converge vers X : Ω R : pour tout ω Ω la suite X n (ω) converge vers X(ω) (on dit que X n converge simplement vers X) ii) il existe une v.a Z telle que E(Z) < (Z est P-intégrable) telle que pour tout ω Ω on ait n N, X n (ω) Z(ω). Alors, a) l application X : Ω R est une v.a; b) la suite E(X n ) converge vers E(X) (lim n E(X n ) = E(X)). En particulier, si Y n est une suite de v.a positives ou nulles telles que alors, E( Y n ) <, n=0 E( Y n ) = n=0 E(Y n ) (on peut intervertir le signe de sommation infini et l espérance). n=0
34CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES Exercice Soit X une v.a sur (Ω,P) telle que pour tout t R la v.a Y t = e tx soit intégrable. i) Montrer que l application t E(Y t ) est continue. ii) Supposons que pour tout t R, E( X e tx ) <. Démontrer que t E(e tx ) est dérivable et caluler sa dérivée Solution i) Supposons t fixé. Il suffit de démontrer que pour toute suite t n tendant vers t la suite E(e tnx ) converge vers E(e tx ). Or, la suite de v.a e tnx converge simplement vers e tx. Par ailleurs, pour tout n assez grand e tnx Z où Z = e ( t +1) X. Le théorème de convergence dominée s applique à la suite Y tn et on a donc lim n E(e tnx ) = E(e tx ). ii) Fixons t. Notons f(t) = E(e tx ). On doit démontrer que pour toute suite t n tendant vers t la suite f(t n ) f(t) t n t admet une limite finie. On constate que ( ) f(t n ) f(t) e t nx e tx = E t n t t n t et on applique le théorème de convergence dominée à la suite T n = etnx e tx t n t. Il est clair que pour tout ω e tnx(ω) e tx(ω) lim n t n t = X(ω)e tx(ω). Par ailleurs, d après la formule des accroissements finis, pour tout ω il existe t ω entre t et t n pour lequel e tnx(ω) e tx(ω) t n t = X(ω)e tωx(ω) ; par conséquent pour n assez grand e tnx(ω) e tx(ω) t n t X(ω) e( t +1)X(ω). La v.a Z = X e ( t +1)X est par définition P-intégrable si bien que les hypothèses du théorème de convergence dominée sont satisfaites. On a donc ( ) e t nx(ω) lim E e tx(ω) = E(Xe tx ). n t n t Exercice De façon plus générale démontrer que
2.3. ESPÉRANCE D UNE V.A. 35 i) si une v.a X t dépend continuement d un paramètre réel t, c est-à-dire si pour tout ω Ω X t (ω) est continue par rapport à t alors E(X t ) est également continue par rapport à t pourvu qu il existe Z L 1 (Ω,P) telle que pour tout t, X t Z ; ii) si une v.a X t dépend de façon C 1 d un paramètre réel t c est-à-dire si pour tout ω Ω X t (ω) est C 1 par rapport à t alors E(X t ) est également C 1 par rapport à t pourvu que qu il existe Z L 1 (Ω,P) telle que pour tout t, dxt(ω) dt Z et montrer que dans ce cas, d dt E(X t) = E( dx t dt ). 2.3.4 Formule de transfert Il est important dans la pratique de savoir caluler des espérances de v.a aléatoires de la forme Y = f(x) où X : Ω R est une v.a et f : R R est une fonction (disons continue). Cas des v.a à valeurs dans un ensemble fini Supposons que X : Ω R prenne ses valeurs dans un ensemble fini E R et soit f : E R. Proposition 2.3.2 L espérance de la variable aléatoire Y = f(x) est donnée par E(f(X)) = e E f(e)p(x = e). Démonstration. Comme Y = f(x), la v.a Y ne prend qu un nombre fini de valeurs e qui sont dans E = f(e). Par définition de l espérance E(Y ) = e E e P(Y = e ). Pour chaque e E, notons A e l ensemble des e E tels que f(e) = e (A e = f 1 ({e }) et constatons que E est l union disjointe des A e, e E.
36CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES On a donc, E(Y ) = e P(Y = e ) e E = e P(f(X) = e ) e E = e P(X f 1 (e )) e E = P(X = e) e E e = e f 1 (e ) e E e f 1 (e ) = e E f(e)p(x = e) f(e)p(x = e) = E(X). Corollaire 2.3.1 En particulier, E(X) = e E ep(x = e). Remarque sur l intégration des fonctions sur R Soit X une v.a et µ X sa loi. Celle-ci est une probabilité sur l espace des états Ω = R muni de sa tribu borélienne. Une fonction f : R R peut être vue comme une application de Ω = R dans R. Cette fonction f sera une variable aléatoire réelle sur Ω = R, B = Bor(R) si et seulement si pour tout intervalle I de R l ensemble f 1 (I) est dans B = Bor(R). Une telle application est dite mesurable. En particulier, toute application continue de R dans R est mesurable. Puisque nous avons à notre disposition une probabilité µ X sur l espace probabilisé (R, Bor(R)) il est naturel de considérer l espérance de f (pour la probabilité µ X ). Nous la noterons E µx (f). Bien sur, pour quelle soit définie il faut que E µx ( f ) soit finie et on dit dans ce cas que f est µ X -intégrable. Dans la pratique on préfère noter cette espérance sous la forme d une intégrale : E µx (f) = f(x)dµ X (x). R
2.3. ESPÉRANCE D UNE V.A. 37 Quand X admet une densité ρ X cette formule devient E µx (f) = f(x)ρ X (x)dx, R et l intégrale coincide, quand f est continue (ou continue par morceaux ou encore Riemann intégrable) avec une intégrale classique. Pour ce convaicre de ce résultat, considérons le cas où f est une fonction en escaliers, c està-dire constante sur des intervalles ]a i, b i] disjoints deux à deux : on a f = r i=1 λ i1 ]a i,bi ] et donc Or, On a donc E µx (f) = r λ i E µx (1 [ai,b i ]). i=1 E µx (1 [a i,bi ]) = µ X (]a i, b i ]) = E µx (f) = = r i=1 R bi a i bi a i f(x)ρ X (x)dx f(x)ρ X (x)dx. ρ X (x)dx. Quand f est continue (ou continue par morceaux) on sait qu on peut l approcher uniformément par des fonctions en escaliers et il suffit de passer à la limite dans l égalité précédente. Cas des v.a admettant des densités Dans le cas général des v.a de la forme Y = f(x) où X : Ω R est une v.a et f : R R est continue, la forme générale de la formule de transfert fait intervenir la loi de X. Afin de simplifier notre exposé nous ne considérons que le cas où la v.a X admet une densité ρ X 5 Théorème 2.3.4 Si X : Ω R est une v.a admettant une densité ρ X et f : R R est une fonction continue (resp. continue par morceaux, mesurable) alors la v.a Y = f(x) est P-intégrable si et seulement si l intégrale 5 Dans le cas général E(f(X)) = toutes les fois où l intégrale converge. R f(x)dµ X (x)
38CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES f(x) ρ X(x)dx est finie et dans ce cas l espérance de Y = f(x) est donnée par E(f(X)) = R f(x)ρ X (x)dx. Démonstration. i) Démontrons la formule quand f prend un nombre fini de valeurs dans un ensemble E. La v.a Y = f(x) est donc également à valeurs dans un ensemble fini et on d après les résultats des deux sous-sections précédentes E(f(X)) = E(Y ) = e E = e E = e E = e E = e E ep(y = e) ep(f(x) = e) ep(x f 1 ({e}) eµ X (f 1 ({e}) eµ X (f = e). On a donc démontré que si f ne prend qu un nombre fini de valeurs E(f(X)) = E µx (f). ii) Considérons le cas où f est positive. On sait (cf. la section 2.3.2) que si on note h n n2 n 1 k h n ( ) = n1 [n, [ ( ) + 2 n1 [ k 2 n, k+1 2 n [ ( ), la suite f n = h n f converge simplement vers f et est croissante. De même la suite X n = f n (X) = h n f(x) converge simplement vers f(x) et est croissante. Appliquons le théorème de convergence monotone (ou la définition de l espérance) d une part à la suite de v.a (de fonctions) f n définies sur l espace probabilisé (R, Bor(R), µ X ) d autre part à la suite de v.a X n = f n (X) définies sur l espace probabilisé (Ω, B,P) On obtient d une part, lim n E µx (f n ) = E µx (f) et d autre part lim n E(f n (X)) = E(X). k=0
2.3. ESPÉRANCE D UNE V.A. 39 Or, d après i) E µx (f n ) = E(f n (X)). Par conséquent, E(f(X)) = E µx (f). iii) Si f est de signe quelconque, décomposons f = f + f où f + = max(f, 0) et f = max( f, 0). On a E(f + (X)) = E µx (f + ), E(f (X)) = E µx (f ), et donc E( f(x) ) = E µx ( f ). Ainsi, f(x) est P-intégrable si et seulement si f est µ X intégrable c est-à-dire si et seulement si R f(x) ρ X(x)dx < et quand c est le cas E(f(X)) = E µx (f), c est-à-dire E(f(X)) = R f(x)ρ X (x)dx, Corollaire 2.3.2 En particulier, si la v.a X admet une densité ρ X, X est L 1 (Ω,P) si et seulement si x ρ X(x)dx < et dans ce cas E(X) = xρ X (x)dx. Signalons, sans démonstration, la réciproque suivante au théorème 2.3.4 Théorème 2.3.5 Si X est une v.a telle que pour toute fonction continue bornée φ : R R on a E(φ(X)) = alors X admet ρ X pour densité. φ(x)ρ X (x)dx, Exemple Soit X une v.a suivant une loi normale centrée réduite : Une telle loi admet une densité 1 2π e x2 /2. Comme E( X ) = 1 x e x2 /2 dx 2π
40CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES est finie X est dans L 1 (Ω,P). L espérance de X est donc définie et vaut E(X) = x 1 2π e x2 /2 dx. Il s agit de l intégrale d une fonction intégrable, impaire sur un intervalle symétrique : cette intégrale est donc nulle. Exercice Calculer E(Y ) où Y = X 2 est le carré d une v.a suivant une loi normale centrée réduite. Solution On a E(X 2 ) = 1 x 2 e x2 /2 dx 2π = 1 2π = 1 2π = 1 2π = 1 (on a effectué une intégration par parties). x(xe x2 /2 )dx x d dx ( e x2 /2 )dx e x2 /2 dx 2.3.5 Application au calcul de densité Le problème qui nous intéresse dans cette section est le suivant : Etant donnée une v.a X dont on connait la densité ρ X, déterminer la densité, si elle existe de la v.a Y = f(x), où f est une fonction continue de R dans R. Supposons que Y admette une densité ρ Y. On doit alors avoir pour toute fonction continue φ : R R E(φ(Y )) = φ(y)ρ Y (y)dy. Mais φ(y ) = φ(f(x)) = φ f(x) et on a donc, E(φ(Y )) = E(φ f(x)) = φ f(x)ρ X (x)dx. Supposons que φ soit une bijection dérivable de R dans R envoyant R sur R. La formule classique de changement de variable montre que (x = φ 1 (y), dx = 1/φ (f 1 (y))dy) φ f(x)ρ X (x)dx = 1 φ(y) φ (f 1 (y)) ρ X(f 1 (y))dy.
2.3. ESPÉRANCE D UNE V.A. 41 En conclusion, pour toute fonction φ continue de R R φ(y)ρ Y (y)dy = et il est naturel de penser que ρ Y (y) = 1 φ(y) φ (f 1 (y)) ρ X(f 1 (y))dy 1 φ (f 1 (y)) ρ X(f 1 (y)), ce qui est effectivement le cas. Le théorème 2.3.5 justifie le raisonnement précédent. On pourrait démontrer de la même manière : Théorème 2.3.6 Soient X une v.a de densité ρ X prennant ses valeurs dans un intervalle I (fini ou infini) et f : I J est une application de classe C 1 pas nécessairement bijective mais telle que tout point y J ait un nombre fini d antécédents. Alors, la v.a Y = f(x) admet une densité ρ Y dont l expression est donnée par ρ Y (y) = ρ X (x) f (x) 1 J. x f 1 (y) L expression précédente peut prendre la valeur mais la fonction positive ρ Y restera d intégrale 1. Appliquons ce qui précède à un exemple. Exercice Supposons que X admette une densité ρ X. Déterminer la densité, si elle existe de Y = X 2. Application au cas où X suit une loi normale N(0, 1). Solution On a Y = f(x) où f(x) = x 2 est une bijection de I =], 0[ sur ]0, [ et de I + =]0, [ sur ]0, [ (f est une fonction continue strictement décroissante sur I =], 0] et strictement croissante sur I + = [0, [.) Pour toute fonction φ : R R continue et bornée Ecrivons, E(φ(Y )) = E(φ f(x)) = φ(f(x))ρ X (x)dx = 0 φ(x 2 )ρ X (x)dx + φ(f(x))ρ X (x)dx. 0 φ(x 2 )ρ X (x)dx
42CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES et effectuons dans chacune des intégrales du membre de droite le changement de variable y = x 2 : 0 φ(x 2 )ρ X (x)dx = φ(y)ρ( y) dy 2 y, si bien que 0 E(φ(Y )) = = φ(x 2 )ρ X (x)dx = 0 R 0 0 φ(y)ρ( y) dy 2 y, ( φ(y) ρ( y) + ρ( ) 1 y) 2 y dy ( φ(y) ρ( y) + ρ( ) 1 y) 2 y.1 ]0, [(y)dy et comme cette formule est vraie pour toute fonction φ : R R continue bornée, on peut conclure que Y admet une densité ρ Y égale à ( ρ Y (y) = ρ( y) + ρ( ) 1 y) 2 y.1 ]0, [(y). (Ne pas oublier le terme 1 ]0, [ (y).) Si X suit une loi normale N(0, 1) sa densité est ρ X (x) = (1/ 2π)e (x2 /2) et la densité de Y = X 2 vaut ρ Y (y) = 1 2π e y y 1 ]0, [ (y). Exercice Si X suit une loi normale centrée réduite, déterminer la loi de Y = σx + µ. Solution On a Y = f(x) où f(x) = ax + b. C est une bijection C 1 de R sur R. La formule du théorème?? montre donc que la denstité de Y est c est-à-dire est une loi N(0, σ 2 ). 1 2πσ 2 e (x µ)2 /2σ 2, 2.4 Espaces L 2, variance et Bienaymé-Tchébychev Définition 2.4.1 On dit qu une v.a X est dans L 2 (Ω, B,P) si son carré est P-intégrable, E( X 2 ) <.
2.4. ESPACES L 2, VARIANCE ET BIENAYMÉ-TCHÉBYCHEV 43 Les propriétés des fonctions de carrés intégrables sont les suivantes : Théorème 2.4.1 a) (Cauchy-Schwarz) Si X et Y sont dans L 2 (Ω,P) alors le produit X Y est dans L 1 (Ω,P) et on a E( X Y ) E( X 2 ) 1/2 E( Y 2 ) 1/2. En outre, l inégalité précédente est une égalité si et seulement si il existe un réel λ tel que P-presque sûrement Y = λx ou X = λy (X et Y sont colinéaires). b) (Minkowski) L espace L 2 (Ω,P) est un R-espace vectoriel et on a E( X + Y 2 ) 1/2 E( X 2 ) 1/2 + E( Y 2 ) 1/2. Démonstration. a) Rappelons que pour tous réels a, b on a a b (1/2)(a 2 + b 2 ). Par conséquent, X Y (1/2)(X 2 + Y 2 ) et en prenant l espérance de chaque membre de l inégalité on obtient E( X Y ) 1 2 (E(X2 ) + E(Y 2 )), ce qui démontre que X Y est intégrable. Supposons E(X 2 ) 0 et considérons pour t réel la quantité suivante qui est clairement toujours positive ou nulle (espérance d un carré) : E((tX + Y ) 2 ) = E(X 2 )t 2 + 2E(X Y )t + E(Y 2 ). (Si E(X 2 ) = 0 et E(Y 2 ) 0 on échange X et Y ; si E(X 2 ) = E(Y 2 ) = 0 il n y a rien à démontrer car X et Y sont nulles P-ps). Vue comme fonction de t c est un polynôme quadratique si E(X 2 ) 0. Comme il ne prend que des valeurs positives ou nulles son discriminant = 4(E(X Y ) 2 E(X 2 )E(Y 2 )) doit être négatif ou nul (sinon ce polynôme admettrait deux racines réelles distinctes et serait strictement négatif entre les racines). Ceci n est rien d autre que l inégalité annoncée. L égalité a lieu si et seulement si le discriminant s annule. Or, dans ce cas le polynôme quadratique E((tX + Y ) 2 ) admet une racine réelle t 0 (et une seule). On a donc E(t 0 X +Y ) = 0 ce qui signifie que t 0 X +Y = 0 P-presque sûrement. b) Il suffit de démontrer que E((X +Y ) 2 ) est finie si E(X 2 ) et E(Y 2 ) le sont. Or, E((X + Y ) 2 ) = E(X 2 ) + 2E(X Y ) + E(Y 2 ),
44CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES et comme E(X Y ) E(X 2 ) 1/2 E(Y 2 ) 1/2 on a E((X+Y ) 2 ) E(X 2 )+2E(X 2 ) 1/2 E(Y 2 ) 1/2 +E(Y 2 ) = ( E( X 2 ) 1/2 +E( Y 2 ) 1/2 ) 2, ce qui démontre b). 2.4.1 Variance Si X est dans L 2 (Ω,P) la v.a X E(X) est également dans L 2 (Ω,P) puisque c est une somme de deux v.a de L 2 (Ω,P) (une v.a constante est toujours dans L 2 (Ω,P)). Définition 2.4.2 La variance d une v.a dans L 2 (Ω,P) est la quantité E( X E(X) 2 ). La racine carrée de ce nombre s appelle l écart-type de X. La variance est donc la moyenne (l espérance) des carrés des écarts de X par rapport à E(X). Le calcul suivant démontre E( X E(X) 2 ) = E(X 2 2XE(X) + E(X) 2 ) = E(X 2 ) 2E(X) 2 + E(X) 2 = E(X 2 ) E(X) 2 Proposition 2.4.1 Si X L 2 (Ω,P), on a V ar(x) = E(X 2 ) E(X) 2. Remarque De façon plus générale on peut définir pour tout p 1 l espace L p (Ω,P) des v.a X dont le moment d ordre p est fini c est-à-dire telles que E( X p ) <. Ce sont encore des espaces vectoriels et la quantité E( X p ) 1/p définit une (semi-)norme sur L p (Ω,P) qui en fait un espace de Banach (un espace vectoriel normé complet). 2.4.2 Calculs de variance Cas des v.a à valeurs dans N, Un outil très utile pour calculer les moments d ordre p d une v.a à valeurs dans N est d introduire la fonction génératice de X.
2.4. ESPACES L 2, VARIANCE ET BIENAYMÉ-TCHÉBYCHEV 45 Définition 2.4.3 La fonction génératrice d une v.a X à valeurs dans N est la fonction définie par φ X (t) = E(t X ) = k Nt k P(X = k). L intérêt de φ X réside dans la proposition suivante : Proposition 2.4.2 On a toujours et de façon plus générale lim t 1,t<1 lim t 1,t<1 d dt φ X(t) = E(X) d p dt pφ X(t) = E(X(X 1) (X p + 1)). Démonstration. Afin de simplifier la démonstration nous supposerons que X ne prend qu un nombre fini de valeurs dans {0, 1,...N}. Il suffit de calculer ( d p N ) t k P(X = k) = dt p k=0 N k(k 1) (k p + 1)t k p P(X = k) k=0 En faisant t = 1 on obtient le résultat d après la formule de transfert. Dans le cas général où X prend ses valeurs dans N on peut procéder de la façon suivante : pour 0 t < 1, ( d p ) t k P(X = k) = k(k 1) (k p + 1)t k p P(X = k), dt p k=0 k=0 car les séries sont uniformément convergentes. La série du membre de droite converge quand t 1 vers k=0 k(k 1) (k p + 1)P(X = k) d après le théorème de convergence monotone et cette quantité égale E(X (X p + 1)) d après le théorème de transfert. Le calcul de la variance est alors clair puisque V ar(x) = E(X 2 ) E(X) 2 = E(X(X 1)) + E(X) E(X) 2 = φ X (1) + φ X (1) (φ X (1))2.
46CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES Loi géométrique Dans ce cas X prend ses valeurs dans N et P(X = k) = (1 a)a k (0 a < 1). Ainsi φ X (t) = (1 a) pourvu que 0 t < a 1. On a t k a k 1 = (1 a) 1 ta, k=0 φ X(t) = a 1 a (1 ta) 2, φ X(t) = 2a 2 1 a (1 ta) 3, et donc E(X) = a 1 a, V ar(x) = a (1 a) 2. Loi binomiale Si la v.a X suit une loi (p, n) elle prend ses valeurs dans {0, 1,..., n} et P(X = k) = ( n k) p k (1 p) n k. On a si bien que φ X (t) = n k=0 ( ) n t k p k (1 p) n k = (tp + 1 p) n, k φ X (t) = pn(tp + 1 p)n 1, φ X (t) = p2 n(n 1)(tp + 1 p) n 2, et donc E(X) = np, V ar(x) = np(1 p). Loi de Poisson Si la v.a X suit une loi de Poisson de paramètre λ, elle λ λk prend ses valeurs dans N et P(X = k) = e. Il vient φ X (t) = e λ t k λ k 1 k! = e λ e tλ = e (t 1)λ. k=0 k! Ainsi, et donc φ X (t) = λe(t 1)λ, φ X (t) = λ2 e (t 1)λ, E(X) = λ, V ar(x) = λ.
2.4. ESPACES L 2, VARIANCE ET BIENAYMÉ-TCHÉBYCHEV 47 Cas des v.a admettant une densité Si X est une v.a admettant une densité ρ X, alors d après la formule de transfert, X est dans L 2 (Ω,P) si et seulement si est finie. E(X 2 ) = x 2 ρ X (x)dx, Loi uniforme La variable aléatoire X : Ω R suit une loi uniforme sur l intervalle [a, b] si sa densité est donnée par On a ρ X (x) = 1 b a 1 [a,b](x). E(X) = R = 1 b a 1 x b a 1 [a,b](x)dx b a = 1 b a [x2 2 ]b a = a + b 2, ce qui est conforme à l intuition : la position en moyenne d un point jeté au hasard sur l intervalle (a, b) sera située au milieu de l intervalle (a, b). Calculons la variance E(X 2 ) = x 2 1 b a 1 [a,b](x)dx R = 1 b a = 1 b a b a xdx x 2 dx b 3 a 3 b a = a2 + b 2 + ab, 3 (b 3 a 3 = (b a)(b 2 + ab + a 2 )) et donc ( V ar(x) = E(X 2 ) E(X) = a2 + b 2 + ab a + b 3 2 (b a)2 =. 12 ) 2
48CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES Loi exponentielle de paramètre θ La v.a admet une densité ρ X (x) = θe θx 1 [0, [ (x). On a E(X) = = = 1 θ = 1 θ, 0 0 xθe θx 1 [0, [ (x)dx xθe θx dx ue u du (après changement de variable et intégration par parties). Le moment d ordre 2 s obtient de façon analogue, E(X 2 ) = = 1 θ 0 0 x 2 θe θx dx ue u du = 2 θ 2, (après changement de variable et deux intégrations par parties). On a donc V ar(x) = E(X 2 ) E(X) 2 = 1 θ 2. Loi normale N(µ, σ 2 ) On sait (cf. l exercice de la section 2.3.5) que si Y suit une loi N(µ, σ 2 ) alors elle est de la forme σx + µ où X suit une loi normale N(0, 1) de densité 1 e x2 /2. 2π On sait que pour une telle loi, E(X) = 0 et V ar(x) = 1. Par conséquent, E(Y ) = σe(x) + µ = µ et V ar(y ) = σ 2 V ar(x) = σ 2. 2.4.3 Inégalité de Markov et de Bienaymé-Tchebychev L intérêt de considérer les moments d une v.a X réside dans les propositions suivantes.
2.4. ESPACES L 2, VARIANCE ET BIENAYMÉ-TCHÉBYCHEV 49 Proposition 2.4.3 Si X est une v.a dans L 1 (Ω,P) on a pour tout λ > 0 Démonstration. P( X > λ) E( X ). λ La v.a X peut sécrire X = X 1 { X >λ} + X 1 { X λ}, et par additivité et positivité de l espérance on a Or, et par conséquent c est-à-dire E( X ) E( X 1 { X >λ} ). X 1 { X >λ} λ 1 { X >λ}, E( X ) λe(1 { X >λ} ), E( X ) λp({ X λ}, ce qui est la conclusion de la proposition. La proposition précédente est une version quantitative du fait que la probabilité que X prenne de grandes valeurs a tendance à être petite. Si on a des informations sur les moments d ordre supérieurs l estimation précédente est meilleure : Proposition 2.4.4 Si X est une v.a dans L 2 (Ω,P) on a pour tout λ > 0 P( X > λ) E( X 2 ) λ 2. Démonstration. Il suffit de remarquer que {X > λ} = {X 2 > λ 2 } et d appliquer la proposition précédente à la v.a Y = X 2. Appliquée à la v.a Y = X E(X) la proposition précédente donne le théorème de Bienaymé-Tchebychev : Théorème 2.4.2 Si X est une v.a dans L 2 (Ω,P) on a pour tout λ > 0 P( X E(X) > λ) V ar( X ) λ 2.
50CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES Si on note σ = V ar(x) l écart type on a donc (d où le nom d écart type donné à σ) P( X E(X) > λσ) < 1 λ 2, Le théorème de Bienaymé-Tchebychev permet d obtenir les probabilités des déviations importantes de la v.a X par rapport à sa moyenne.
Chapitre 3 Vecteurs aléatoires et Indépendance 3.1 Vecteurs aléatoires 3.1.1 Tribu borélienne de R m Rappelons qu un ouvert de R m est un ensemble U tel que pour tout point x de U on peut trouver une boule ouverte de centre x et de rayon ɛ > 0, B(x, ɛ) incluse dans U. Par exemple, un pavé ouvert de R m, c est-à-dire un produit de m intervalles ouverts (de R) ]a 1, b 1 [ ]a m, b m [ est un ouvert de R m. Définition 3.1.1 La tribu borélienne de R m est la plus petite tribu contenant les ouverts de R m. Nous la noterons Bor(R m ). C est également la plus petite tribu contenant les pavés ouverts. Le dernier point de la définition précédente mérite un commentaire. Pour le justifier il suffit de démontrer (exercice : pourquoi?) que tout ouvert de R m peut s écrire comme union dénombrable de pavés ouverts. Ceci se démontre par exemple de la façon suivante. Considérons les pavés P de la forme ]a 1, b 1 [ ]a m, b m [ où tous les a i, b i sont rationnels (i.e tous les sommets de P sont à coordonnées rationnelles) et tels que P U. L ensemble Q de ces pavés est dénombrable et P Q P est égale à U. En effet, il est clair que cette union est incluse dans U et d autre part, si y est un point de U, il existe une boule B(y, ɛ) incluse dans U. Il n est pas difficile de voir qu on peut trouver un pavé P Q qui contient y et est inclus dans B(y, ɛ) donc dans U : ceci démontre l inclusion réciproque. 51
52 CHAPITRE 3. VECTEURS ALÉATOIRES ET INDÉPENDANCE 3.1.2 Vecteurs aléatoires Définition 3.1.2 Un vecteur aléatoire X est une application de X : Ω R m telle que pour tout borélien A Bor(R m ), X 1 (A) B. D après ce qui a été dit précédemment, Proposition 3.1.1 Les propositions suivantes sont équivalentes : a) l application X : Ω R m est un vecteur aléatoire b) pour tout ouvert U de R m, X 1 (U) B. c) pour tout pavé ouvert P =]a 1, b 1 [ ]a m, b m [ l ensemble X 1 (P) B d) les composantes X i, 1 i m de X = (X 1,...,X m ) sont des variables aléatoires. Démonstration. Il est évident que a) implique b) implique c) et d après les propriétés des variables aléatoires que c) est équivalent à d). Il ne reste donc plus qu à démontrer que c) implique b) et b) implique a). Comme tout ouvert est union dénombrable de pavé ouvert c) implique b). D autre part, soit C l ensemble des A R m tels que X 1 (A) B. Cet ensemble C est une tribu est contient les ouverts; par conséquent C contient Bor(R m ), ce qui démontre que b) implique a). Le point d) de la proposition précédente montre en particulier que Proposition 3.1.2 a) Si X : Ω R m et Y : Ω R m sont des vecteurs aléatoires alors λx + µy est également un vecteur aléatoire. b) Si f : R p R m est une application continue et X = (X 1,...,X p ) est un vecteur aléatoire alors Y = (Y 1,...,Y m ) = f(x 1,...,X p ) est un vecteur aléatoire. 3.1.3 Loi d un vecteur aléatoire De la même façon que pour les variables aléatoires on peut définir la loi d un vecteur aléatoire X = (X 1,...,X m ) comme étant une mesure de probabilité sur (R m, Bor(R m )). C est la mesure définie par : Donnons quelques exemples : A Bor(R m ), µ X (A) = P(X A).
3.1. VECTEURS ALÉATOIRES 53 Vecteurs aléatoires ne prennant qu un nombre fini ou dénombrable de valeurs Si X = (X 1,..., X m ) ne prend qu un nombre fini de valeurs dans E 1 E m la loi de X est déterminée par P(X 1 = e 1,...,X m = e m ). En d autres termes, si on connait tous les réels p X (e 1,...,e m ), e 1 E 1,...e m E m on peut déterminer la probablité de tout évènement X A : P((X 1,...,X m ) A) = p X (e 1,...,e m ). (e 1,...,e m) A Vecteurs aléatoires admettant une densité On dit que le vecteur aléatoire X = (X 1,...,X m ) admet une densité ρ X : R m R si pour tous intervalles I 1,...,I m P(X I 1 I m ) = P(X 1 I 1,...,X m I m ) égale I 1... I m ρ X (x 1,...,x m ). 3.1.4 Marginales Les lois µ X1,...,µ Xm associées aux variables aléatoires X 1,...,X m (définies comme d habitude par µ Xi (A) = P(X i A)) sont appelées les lois marginales du vecteur X. Cas des vecteurs aléatoires à valeurs dans un ensemble fini ou dénombrable Si X = (X 1,...,X m ) prend ses valeurs dans E 1 E m la loi de X 1 (plus généralement de X i ) s exprime de façon simple en fonction de la loi de X. En effet, P(X 1 = e 1 ) = P(X 1 = e 1, X 2 E 2,...,X m E m ) = P(X 1 = e 1, X 2 = e 2,...,X m = e m ) e 2 E 2,...e m E m = p X (e 1, e 2,..., e m ). e 2 E 2,...e m E m Cas des vecteurs aléatoires admettant des densités Dans le cas des vecteurs aléatoires admettant des densités on a le reésultat suivant Proposition 3.1.3 Si le vecteur aléatoire X = (X 1,..., X m ) admet une densité ρ ( x 1,..., x m ) alors les marginales X i admettent une densité ρ Xi (x i ). qui est obtenue en intégrant ρ X (x 1,...,x m ) par rapport aux variables x j (chacune intégrée sur R) à l exception de x i : ρ Xi (x i ) = ρ X (x 1,...,x i 1, x i, x i+1,...,x m )dx 1,...dx i 1 dx i+1,...dx m. R R
54 CHAPITRE 3. VECTEURS ALÉATOIRES ET INDÉPENDANCE Démonstration. Pour simplifier les notations démontrons le dans le cas i = 1 : pour tout intervalle I 1 R µ X1 (I 1 ) = P(X 1 I 1 ) = P(X 1 I 1, X 2 R,..., X m R) = P((X 1, X 2,...,X m ) I 1 R R) = ρ X (x 1,...,x m )dx 2...dx m. R R 3.1.5 Espérance et variance des vecteurs aléatoires Espérance On définit l espérance de X = (X 1,..., X m ) comme étant le vecteur de R m égal à (E(X 1 ),..., E(X m )) qui est bien défini quand chaque composante X i de X est intégrable ou, ce qui est équivalent, quand E( X ) <. Variance De même les composantes X i de X sont de carrés intégrables si et seulement si la norme de X, X = X 2 1 + + X 2 m est de carré intégrable. On définit alors la variance de X comme étant le réel positif ou nul et un calul simple montre que V ar(x) = E( X E(X) 2 ) V ar(x) = E( X 2 ) E(X) 2. Covariance Si X et Y sont deux variables aléatoires de carré intégrables, X E(X) et Y E(Y ) sont de carré intégrables (Minkowski) et d après Cauchy-Scwharz le produit (X E(X))(Y E(Y )) est intégrable. Définition 3.1.3 Si X et Y sont deux variables aléatoires de carré intégrable on définit la covariance de X et Y comme étant le réel ( ) Cov(X, Y ) = E (X E(X))(Y E(Y ). On a l égalité Cov(X, Y ) = E(X Y ) E(X)E(Y ).
3.1. VECTEURS ALÉATOIRES 55 La dernière égalité se démontre très facilement coome suit : ( ) ( ) E (X E(X))(Y E(Y ) = E XY E(X)Y XE(Y ) + E(X)E(Y ) = E(XY ) 2E(X)E(Y ) + E(X)E(Y ) = E(XY ) E(X)E(Y ). Notons que Cov(X, X) = V ar(x). On définit pour des raisons pratiques le coefficient de corrélation de deux variables aléatoires X et Y de variance non nulles de la façon suivante : cor(x, Y ) = Cov(X, Y ) V ar(x) V ar(y ). Proposition 3.1.4 Si X, Y sont deux v.a de carré intégrable et de variance non nulle, on a 1 cor(x, Y ) 1, et si cor(x, Y ) = ±1 alors il existe des réels a, b tels que Y = ax + b ou X = ay + b (X et Y sont liées par une relation affine). Démonstration. Ceci résulte de Cauchy-Schwarz : si on pose X = X E(X), Ỹ = Y E(Y ) on a cov(x, Y ) = E( XỸ ) E( X 2 ) 1/2 E(Ỹ 2 ) 1/2 = V ar(x) V ar(y ), ce qui est l inégalité annoncée. Par ailleurs l égalité a lieu dans l inégalité précédente si et seulement si (cas d égalité dans Cauchy-Scwharz) X E(X) et Y E(Y ) sont colinéaires. Or ceci est équivalent à l existence d une relation affine entre X et Y. En effet, s il existe a tel que X E(X) = a(y E(Y )) ou Y E(Y ) = a(x E(X)) on a X = ay + b où Y = ax + b avec b = E(X) ae(y ) ou b = E(Y ) ae(x). Réciproquement, si Y = ax + b on a E(Y ) = ae(x) + b et donc Y E(Y ) = a(x E(X)). Le coefficient de corrélation admet une interprétation géométrique très simple. Sur l espace L 2 (Ω,P) on peut définir un produit scalaire : pour deux variables aléatoires U, V de carrés intégrables, la quantité E(UV ) est le produit scalaire de U et V. En dimension finie, on sait que le produit scalaire de deux vecteurs u et v peut s écrire (u, v) = u v cosα où α est l angle fait par les deux vecteurs u et v (le fait que cosα 1 est une manifestation de Cauchy-Scwharz). Ainsi, le coefficient de corrélation représente le cosinus de l angle fait par U, V (disons dans le 2-plan engendré par U, V ).
56 CHAPITRE 3. VECTEURS ALÉATOIRES ET INDÉPENDANCE Revenons au cas où X = (X 1,...,X m ) est un vecteur aléatoire de carré intégrable. On peut définir pour tous 1 i, j m la covariance de X i, X j, Cov(X i, X j ). L ensemble de ces m m nombres forme une matrice (symétrique) dont le coefficient (i, j) est Cov(X i, X j ) que l on appelle la matrice de covariance des v.a X 1,...,X m et que l on note *** 3.1.6 Formule de transfert Etant donné un vecteur aléatoire X = (X 1,..., X m ) et f : R m R p (x 1,...,x m ) (f 1 (x 1,...,x m ),...,f p (x 1,...,x m )) une application continue, on cherche à calculer l espérance de Y = f(x) c est-à-dire que l on veut calculer le vecteur E(Y ) = (E(Y 1 ),..., E(Y p )) où Y j = f j (X 1,...,X m ). Le problème se ramène donc au suivant : étant donné X = (X 1,..., X m ) un vecteur aléatoire calculer E(φ(X 1,...,X m )) où φ est une application de R m dans R. Ce problème se résout de la même façon que dans le cas m = 1 (variables aléatoires). Nous donnons les résultats sans démonstration (les preuves sont identiques à celles du cas m = 1). Cas de Vecteurs aléatoires à valeurs dans ensembles finis ou dénombrables Si X = (X 1,...,X m ) prend ses valeurs dans E 1 E m on a E(φ(X 1,...,X m )) = φ(e 1,...,e m )P(X 1 = e 1,...,X m = e m ). e 1 E 1,...,e m E m Cas de Vecteurs aléatoires admettant une densité Si le vecteur aléatoire X = (X 1,...,X m ) admet une densité ρ ( x 1,...,x m ) on a E(φ(X 1,...,X m )) = φ(x 1,...,x m )ρ X (x 1,..., x m )dx 1 dx m. R R 3.1.7 Calcul de densité de vecteurs aléatoires Etant donné un vecteur aléatoire X = (X 1,..., X m ) admettant une densité ρ X (x 1,..., x m ) et f : R m R p (x 1,...,x m ) (f 1 (x 1,...,x m ),...,f p (x 1,...,x m )) une application de classe C 1, on cherche à déterminer si Y admet une densité et si oui laquelle. Il faut distinguer trois cas suivant que m = p, m > p ou m < p.
3.1. VECTEURS ALÉATOIRES 57 Cas où m = p Nous avons déjà traité ce cas quand m = p = 1 (variables aléatoires) et nous avions alors fait usage du théorème de changement de variables. Nous énonçons une version générale du théorème de changement de variables quand m = p est plus grand que 1. Théorème 3.1.1 (Changement de variables) Soient U et V deux ouverts de R m et f : U V une application bijective de U sur V et de classe C 1 (on dit que f est un difféomorphisme de U sur V ). Pour toute application φ : V R dont le module est d intégrale finie sur R m φ(y 1,...,y m )dy 1 dy m = V φ(f 1 (x 1,...,x m ),, f m (x 1,...,x m )) Jacf(x 1,...,x m ) dx 1 dx m. U où Jacf(x) est le jacobien de f au point x c est-à-dire le déterminant de la matrice jacobienne de f qui est une matrice m m et admet pour coefficient (i, j) le terme f i / x j (x 1,..., x m ). 1 A l aide de ce théorème, calculons E(φ(Y )) où φ : R m R est une application continue bornée d un ouvert U sur R et où f est un difféomorphisme de U sur un ouvert V de R m. Supposons en outre que X prenne ses valeurs dans U (ce qui implique que ρ X est nulle en dehors de U). On a E(φ(Y )) = E(φ f(x)) et d après la formule de transfert E(φ(Y )) = E(φ f(x)) = φ f(x 1,...,x m )ρ X (x 1,...x m )dx 1 dx m ce qu on peut écrire E(φ(Y )) = ou encore E(φ(Y )) = U U U φ(f(x))ρ X f 1 (f(x))dx 1 dx m φ(f(x))ρ X f 1 (f(x)) (Jacf) f 1 (f(x)) (Jacf) f 1 (f(x)) dx 1 dx m. La formule du changement de variable appliquée à ψ(x) = φ(x)ρ X f 1 (Jacf) f 1 (x) donne ρ X f 1 (y) E(φ(Y )) = φ(y) (Jacf) f 1 (y) dy 1 dy m V 1 Une façon de retenir ce théorème est la suivante : on fait le changement de variable y = f(x) dans l intégrale précédente, on modifie les bornes d intégration en conséquence et on observe que l élément différentiel dy devient dy = (dy/dx)dx, (dy/dx) étant la valeur absolue du jacobien.
58 CHAPITRE 3. VECTEURS ALÉATOIRES ET INDÉPENDANCE Ceci étant vrai pour toute fonction continue bornée Y = f(x) admet une densité et qui vaut ρ Y (y 1,..., y m ) = ρ X f 1 (y) (Jacf) f 1 (y) 1 V. On peut généraliser un peu plus ce théorème : dans la pratique, il est souvent possible de trouver une partition (union disjointe) de l ensemble {x : ρ X (x) > 0 (ouvert si ρ X est continue) en une union finie (ou même dénombrable) d ouverts U i, {x : ρ X (x) > 0} = d i=1 U i, tels que f soit injective sur chaque U i. Ainsi f est une bijection de chaque ouvert U i sur son image V i. On a alors E(φ(Y )) = E(φ f(x)) φ f(x 1,...,x m )ρ X (x 1,...x m )dx 1 dx m ce qu on peut écrire U E(φ(Y )) = d i=1 U i φ(f(x))ρ X f 1 (f(x))dx 1 dx m. Après changement de variable dans chacune des intégrales précédentes on obtient d ρ X f 1 (y) E(φ(Y )) = φ(y) V i (Jacf) f 1 (y) dy 1 dy m ou encore i=1 ( d ) ρ X f 1 (y) E(φ(Y )) = φ(y) R (Jacf) f m 1 (y) 1 V i (y) dy 1 dy m. i=1 Le théorème 3.1.1 montre donc que ρ Y (y 1,...,y m ) = d i=1 ρ X f 1 (y 1,...,y m ) (Jacf) f 1 (y 1,...,y m )) 1 V i (y 1,..., y m ). Cas où m > p Afin de simplifier les notations, nous traiterons le cas où m = 2 et p = 1. Soient donc X = (X 1, X 2 ) un vecteur aléatoire de R 2 qui admet une densité ρ X (x 1, x 2 ) et f : R 2 R une application différentiable. On cherche à déterminer, si elle existe, la densité de la v.a Y = f(x 1, X 2 ). L idée pour cela est d introduire un vecteur aléatoire Z qui est de la forme
3.1. VECTEURS ALÉATOIRES 59 Z = (Y, X 2 ) et d établir qu il admet une densité ρ Z (y, x 2 ). On saura alors que Y admet une densité ρ Y (y) égale à (cf. section 3.1.4 ρ Y (y) = ρ Z (y, x 2 )dx 2. Le vecteur aléatoire Z peut s écrire Z = F(X) où F est l application de R 2 R 2 définie par F(x 1, x 2 ) = (f(x 1, x 2 ), x 2 ). Sa matrice jacobienne est ( f ) f x 1 (x 1, x 2 ) x 2 (x 1, x 2 ) 0 1 et son jacobien (le déterminant de la matrice jacobienne) vaut f x 1 (x 1, x 2 ). D après ce qui a été fait dans la section précédente, s il existe une partition finie de l ensemble {(x 1, x 2 ) R 2 : ρ X (x 1, x 2 ) > 0} en ouverts U 1,...,U f tels que F soit injective sur chaque U i, on peut dire que la densité de Z existe et vaut d ρ X F 1 (y, x 2 ) ρ Z (y, x 2 ) = (JacF) F 1 (y, x 2 ) 1 V i. i=1 Cas m < p Dans ce cas le vecteur Y n admet pas de densité. Illustrons ceci sur un exemple : supposons que m = 1, p = 2 et soit f : R R 2 définie par f(x) = (x, 0). Supposons que la variable aléatoire Y = f(x) = (X, 0) admette une densité ρ Y (y 1, y 2 ). Alors, pour tout pavé C =]a 1, b 1 [ ]a 2, b 2 [ on devrait avoir : P(Y C) = b1 b2 a 1 a 2 ρ Y (y 1, y 2 )dy 1 dy 2. Considérons un pavé C qui n intersecte pas la droite y 2 = 0; comme Y = (f(x), 0) on a P(Y C) = 0. Si ρ Y est continue (resp. intégrable), ceci montre que ρ Y est nulle en tout point (resp. Lebesgue-presque tout point) (x 1, x 2 ) tel que x 2 0. On a donc P(Y R 2 ) = 0 ce qui est impossible (0 1). Exercice Soient X et Y deux v.a. Supposons que le vecteur aléatoire (X, Y ) admette une densité égale à ρ ( x, y). Montrer que la v.a X + Y admet une densité que l on calculera. Solution
60 CHAPITRE 3. VECTEURS ALÉATOIRES ET INDÉPENDANCE i) Introduisons le vecteur aléatoire Z = (X + Y, Y ) et calculons sa loi. Pour toute fonction φ : R 2 R continue bornée, E(φ(Z)) = E(φ(X + Y, Y )) = E(ψ(X, Y )), où ψ : R 2 R égale à ψ(x, y) = φ(x + y, y). Comme (X, Y ) admet une densité ρ on a d après la formule de transfert E(ψ((X, Y ))) = ψ(x, y)ρ(x, y)dxdy R 2 = φ(x + y, y)ρ(x, y)dxdy. R 2 Effectuons le changement de variables f : (x, y) (u, v)v = (x + y, y) qui est un difféomorphisme de R 2 sur R 2 de jacobien égal à Jac(f) = 1 1 0 1 = 1; on obtient, φ(x + y, y)ρ(x, y)dxdy = φ(u, v)ρ(u v, v)dudv R 2 R 2 et donc, E(φ(Z)) = φ(u, v)ρ(u v, v)dudv. R 2 Ceci étant vrai pour toute fonction φ continue bornée on peut dire que Z = (U, V ) = (X + Y, Y ) admet une densité donnée par ρ Z (u, v) = ρ(u v, v). ii) La densité de X + Y est donc ρ X ρ X (x) = ρ(x v, v)dv. 3.2 Variables aléatoires indépendantes Définition 3.2.1 Une suite X 1,...,X m de variables aléatoires est dite indépendante si pour tous intervalles I 1,...,I m de R, P(X 1 I 1,...,X m I m ) = P(X 1 I 1 ) P(X m I m ). En d autres termes la loi du vecteur X = (X 1,...,X m ) est déterminée par ses marginales :
3.2. VARIABLES ALÉATOIRES INDÉPENDANTES 61 Proposition 3.2.1 La suite (X 1,..., X n ) est indépendante si et seulement si la loi du vecteur aléatoire X = (X 1,...,X n ) est le produit de ses lois marginales : µ X (I 1 I m ) = µ X1 (I 1 ) µ Xm (I m ). On peut préciser un peu le résultat précédent : Proposition 3.2.2 Une suite X 1,...,X m de variables aléatoires est indépendante si et seulement si pour tous boréliens A 1,...,A m de R, P(X 1 A 1,..., X m A m ) = P(X 1 A 1 ) P(X m A m ). Démonstration. Traitons le cas où m = 2 (le cas m > 2 est analogie). Fixons un intervalle ouvert J et considérons l ensemble C J des boréliens A pour lesquels P(X 1 A, X 2 J) = P(X 1 A)P(X 2 J). (3.1) Il est facile de voir que C J est une tribu. Comme les intervalles ouverts de R appartiennent à C J on peut dire que C contient la tribu engendrée par les intervalles ouverts, c est-à-dire les boréliens. Ainsi pour tout intervalle J et tout borélien A on a (3.1). Fixons à présent A et considérons l ensemble D des boréliens B de R pour lesquels P(X 1 A, X 2 B) = P(X 1 A)P(X 2 B). (3.2) Il est clair que c est une tribu et (3.1) montre qu elle contient les intervalles ouverts. Le même argument que celui fait précédemment montre que D contient les boréliens. Ainsi, pour tous boréliens A et B on a (3.2). Définition 3.2.2 Une famille (X i ) i A de v.a est dite indépendante si toute sous famille finie (X i ) i J, J A fini est indépendante. 3.2.1 Cas des v.a à valeurs dans un ensemble discret Si l on suppose que les X i sont à valeurs dans E i ensembles fini ou dénombrables la définition précédente se simplifie car on a la proposition suivante dont la preuve est facile : Proposition 3.2.3 La suite (X 1,..., X n ) est indépendante si et seulement si pour tout (e 1,...,e n ) E 1 E n on a P(X 1 = e 1,...,X m = e m ) = P(X 1 = e 1 ) P(X m = e m ).
62 CHAPITRE 3. VECTEURS ALÉATOIRES ET INDÉPENDANCE En d autres termes, la loi ρ X (e 1,...,e n ) est le produit des lois ρ Xi (e i ) : (e 1,...,e n ) E 1 E n, ρ X (e 1,...,e n ) = ρ X1 (e 1 ) ρ Xn (e n ). Donnons un exemple important. Le jeu de Pile/Face fini L espace des états est Ω = {0, 1} n (on joue n fois) muni de la tribu totale P(ω) et de la probabilité uniforme : P(A) = #A/2 n. Nous avons déjà rencontés les variables aléatoires X i : Ω {0, 1} définies par X i (ω) = ω i (ω = (ω 1,...,ω n ) Ω). La famille X 1,...,X n est indépendante. En effet pour tout (e 1,...,e n ) {0, 1} n Mais d autre part, P(X 1 = e 1,...,X n = e n ) = P({ω : ω 1 = e 1,...,ω n = e n }) = P({ω : ω {(e 1,...,e n )}) = #{(e 1,...,e n )} #Ω = 1 2 n P(X 1 = e 1 ) P(X n = e n ) = 1 2 1 2 = 1 2 n. On a donc bien P(X 1 = e 1,...,X n = e n ) = P(X 1 = e 1 ) P(X n = e n ). Le jeu de Pile/Face infini Ici, Ω = {0, 1} n muni de la tribu B engendrée par les évènements élémentaires (les cylindres) C i,e = X 1 i (e), e {0, 1}, i N (où les X i sont définies par X i (ω) = ω i ) et de la probabilité P décrite en ***. Pour toute sous famille X i1,...,x in de X 1, X 2,..., on a comme précédemment P(X i1 = e 1,...,X in = e n ) = P({ω : ω 1 = e 1,...,ω n = e n }) = P({ω : ω C i1,e 1 C in,e n ) = 1 2 n par définition de la probabilité P. Par ailleurs, P(X i1 = e 1 ) P(X in = e n ) = 1 2 1 2 = 1 2 n. On a donc bien pour tous e 1,...,e n l égalité P(X i1 1 = e 1,...,X in = e n ) = P(X i1 = e 1 ) P(X in = e n ) ce qui démontre l indépendance de toute sous famille X i1,...,x in. Nous avons donc démontré que la famille X 1, X 2,... est indépendante.
3.2. VARIABLES ALÉATOIRES INDÉPENDANTES 63 Remarque Le résultat précédent est beaucoup plus profond qu il n apparaît. La vérification de l indépendance des v.a X i est facile mais la construction de le mesure P, qui est justement celle qui rend la famille (X i ) i indépendante, est loin d être triviale. Il existe en fait un résultat plus général : Etant donnée une famille (X α ) α A de v.a à valeurs dans R définies sur un espace probabilisé (Ω, B,P ), il existe un espace probabilisé (Ω, B,P) et des v.a Y α, α A telles que pour tout α A, Y α a même loi que X α et telles que la famille (Y α ) α A soit indépendante. Ainsi, la construction de v.a de lois données qui sont indépendantes est toujours possible. 3.2.2 Cas des v.a admettant des densités On a la proposition suivante Proposition 3.2.4 Si les X 1,..., X n sont des v.a indépendantes admettant des densités ρ X1,...,ρ Xn alors le vecteur aléatoire X = (X 1,...,X n ) admet une densité ρ X égale à (x 1,..., x n ) R n, ρ X (x 1,..., x n ) = ρ X1 (x 1 ) ρ Xn (x n ). Démonstration. En effet pour tous intervalles I 1,...,I n, P(X I 1 I n ) = P(X 1 I 1 ) P(X n I n ) ( ) ( ) = ρ X1 (x 1 )dx 1 ρ Xn (x n )dx n I 1 I n = ρ X1 (x 1 ) ρ Xn (x n )dx 1 dx n, I 1 I n et le fait que cette identité soit vraie pour tous intervalles I 1,...,I n implique que X admet une densité qui est celle annoncée dans l énoncé de la proposition. 3.2.3 Espérance des produits de v.a indépendantes Avant de démontrer le théorème fondamental de cette section démontrons le lemme suivant :
64 CHAPITRE 3. VECTEURS ALÉATOIRES ET INDÉPENDANCE Lemme 3.2.1 Si X 1,..., X n est une famille de v.a indépendantes et si φ 1,...,φ n sont des applications (continues, mesurables...) de R R alors la famille de v.a φ 1 (X 1 ),...,φ n (X n ) est indépendante. Démonstration. En effet, pour tous intervalles I 1,...,I n l évènement (φ i (X i ) I i ) égale l évènement X i φ 1 i (I i ). Ainsi P(φ 1 (X 1 ) I 1,...,φ n (X n ) I n ) = P(X 1 φ 1 1 (I 1 ),..., X n φ 1 n (I n )) = P(X 1 φ 1 1 (I 1)) P(X n φ 1 n (I n) = P(φ 1 (X 1 ) I 1 ) P(φ n (X n ) I n ), d après la proposition 3.2.2. On a le théorème important suivant : Théorème 3.2.1 Si X 1,..., X n est une famille de v.a indépendantes et dans L 1 (Ω,P) le produit Y = X 1 X n est également une v.a dans L 1 (Ω,P) et son espérance égale le produit des espérance des X i : E(X 1 X n ) = E(X 1 ) E(X n ). Démonstration. Traitons le cas n = 2, le cas général se faisant de la même façon. i) Supposons que X 1, X 2 sont à valeurs dans un ensemble fini E. Notons f : R 2 R l application définie par f(x 1, x 2 ) = x 1 x 2. On a d après la formule de transfert E(f(X 1 X 2 )) = f(e 1, e 2 )P(X 1 = e 1, X 2 = e 2 ) = (e 1,e 2 ) E E (e 1,e 2 ) E E (e 1 E e 1 e 2 P(X 1 = e 1 ),P(X 2 = e 2 ) ( )( = e 1 P(X 1 = e 1 ) = E(X 1 )E(X 2 ). e 2 E ) e 2 P(X 2 = e 2 ) ii) Supposons X 1 et X 2 positives : on sait qu il existe des suites croissantes de v.a X (n) 1, X (n) 2 à valeurs dans l ensemble fini {(k/2 n : 0 k 2 n 1} telles que pour tout ω Ω, X (n) 1 (ω), X (n) 2 (ω) convergent respectivement vers
3.2. VARIABLES ALÉATOIRES INDÉPENDANTES 65 X 1 (ω), X 2 (ω) et telles que E(X (n) 1 ) et E(X (n) 2 ) convergent respectivement vers E(X 1 ), E(X 2 ). D après i) on a E(X (n) 1 X (n) 2 ) = E(X (n) 1 )E(X (n) 2 ). iii) Comme X (n) 1 (ω), X (n) 2 (ω) convergent respectivement vers X 1 (ω), X 2 (ω) en croissant, pour tout ω Ω le produit X (n) 1 (ω) X (n) 2 (ω) converge en croissant vers X 1 (ω)x 2 (ω). Mais d après le théorème de convergence monotone ceci implique que lim n E(X(n) 1 X (n) 2 ) = E(X 1 X 2 ). iv) Le passage à la limite dans l équation du ii) donne la conclusion dans le cas où X 1, X 2 sont positives. v) Si X 1, X 2 sont intégrables de signe quelconque on écrit X 1 = X + 1 X 1, X 2 = X + 2 X 2 : X 1 X 2 = (X + 1 X 1 )(X + 2 X 2 ) = (X + 1 X + 2 + X 1 X 2 ) (X + 1 X 2 + X 1 X + 2 ). Comme X ± i = h ± (X i ) où h + (x) = max(x, 0), h (x) = min(x, 0) sont continues, le lemme 3.2.1 montre que les quatre familles de variables aléatoires (X 1 +, X+ 2 ), (X+ 1, X 2 ), (X 1, X+ 2 ), (X 1, X 2 ) sont indépendantes et donc On a donc E(X ± 1 X 2 ±) = E(X ± 1 )E(X ± 2 ), E(X ± 1 X 2 ) = E(X ± 1 )E(X 2 ). E(X + 1 X+ 2 + X 1 X 2 ) = E(X+ 1 )E(X+ 2 ) + E(X 1 )E(X 2 ) E(X + 1 X 2 + X 1 X+ 2 ) = E(X+ 1 )E(X 2 ) + E(X 1 )E(X+ 2 ). Comme les E(X 1 ± ), E(X 2 ± ) sont toutes finies, ceci montre que E(X 1 + X 2 + + X1 X 2 ) et E(X+ 1 X 2 + X 1 X+ 2 ) sont finies. En outre, E(X 1 X 2 ) = E(X + 1 )E(X+ 2 ) + E(X 1 )E(X 2 ) E(X+ 1 )E(X 2 ) + E(X 1 )E(X+ 2 ) = (E(X + 1 ) E(X 1 ))(E(X+ 2 ) E(X 2 )) = E(X 1 )E(X 2 ), ce qui termine la preuve du théorème. Remarque Dans le cas où les v.a X i admettent des densités (continues) ρ Xi on peut donner une preuve plus simple : D après la formule de transfert appliquée à Y = f(x 1, X 2 ) = X 1 X 2 donne E(X 1 X 2 ) = f(x 1, x 2 )ρ X (x 1, x 2 )dx 1 dx 2. R R
66 CHAPITRE 3. VECTEURS ALÉATOIRES ET INDÉPENDANCE Or on sait que ρ X (x 1, x 2 ) = ρ X1 (x 1 )ρ X2 (x 2 ) si bien que E(X 1 X 2 ) = x 1 x 2 ρ X1 (x 1 )ρ X2 (x 2 )dx 1 dx 2, R R = x 1 ρ X1 (x 1 ) x 2 ρ X2 (x 2 ) R = E(X 1 )E(X 2 ). R Remarque Attention, la réciproque du résultat précédent est fausse : si deux v.a X, Y sont telles que E(XY ) = E(X)E(Y ) on ne peut pas conclure que X, Y sont indépendantes. En revanche, le résultat suivant est vrai : Théorème 3.2.2 Si X 1,...,X n sont des v.a telles que pour toutes fonctions continues bornées φ 1,...,φ n de R R on a E(φ 1 (X 1 ) φ n (X n )) = E(φ 1 (X 1 )) E(φ n (X n )), alors la famille de v.a X 1,...,X n est indépendante. 3.2.4 Critères d indépendance Dans la pratique il est important de déterminer si une famille de v.a est indépendantes. Un cas qui se présente fréquemment est le suivant : on suppose donnée une famille de v.a indépendantes X 1, X 2,... et on construit, à partir des X i, de nouvelles v.a Y 1, Y 2,.... Par exemple, on peut définir Y 1 = X 1, Y 2 = X 1 + X 2, Y n = X 1 + + X n...mais on pourrait définir les Y i par Y 1 = X 1 + X 2, Y 2 = X 2 + X 3, Y n = X n + X n+1 etc. ou faire des choses plus compliquées. Le théorème important de cette section est le suivant : Théorème 3.2.3 Soient (X i ) i N une famille de v.a indépendantes et (J i ) (i = 1, 2,...) des sous ensembles finis de N qui forment une partition de N (i.e les J i sont non vides, N = i 1 J i et J i J j = si i j). Supposons données des applications (continues, continues par morceaux,...) f i de R #J i R et posons Y i = f i (X i1,...,x i#ji ) (où i 1 < < i #Ji sont les éléments de J i ). Alors, la famille de v.a Y 1, Y 2,... est indépendante. Démonstration. Démontrons un cas particulier de ce théorème (mais la preuve dans le cas général est la même) : Supposons que X 1, X 2, X 3, X 4 soit une famille de v.a indépendantes et que f, g : R 2 R soient des applications (continues...). Posons Y 1 = f(x 1, X 2 ) et Y 2 = g(x 3, X 4 ).
3.2. VARIABLES ALÉATOIRES INDÉPENDANTES 67 i) Fixons I 3 et I 4 des intervalles ouverst de R et considérons l ensemble CI 3, I 4 des boréliens de R 2 tels que P((X 1, X 2 ) A, X 3 I 3, X 4 I 4 ) = P((X 1, X 2 ) A)P(X 3 I 3 )P(X 4 I 4 ). C est une tribu et elle contient les pavés de la forme I 1 I 2 (I 1, I 2 intervalles ouverts de R). Elle contient donc la tribu engendrée par les pavés ouverts et elle contient donc la tribu borélienne de R 2. On a donc démontré que pour tout borélien A de R 2 et tous intervalles I 3, I 4 on a P((X 1, X 2 ) A, X 3 I 3, X 4 I 4 ) = P((X 1, X 2 ) A)P(X 3 I 3 )P(X 4 I 4 ). Fixons A boélien de R 2 et considérons l ensemble D A des boréliens B de R 2 tels que P((X 1, X 2 ) A, (X 3, X 4 ) B) = P((X 1, X 2 ) A)P((X 3, X 4 ) B). C est une tribu qui contient les pavés ouverts de la forme I 3 I 4 car P((X 1, X 2 ) A, (X 3, X 4 ) I 3 I 4 ) = P((X 1, X 2 ) A)P(X 3 I 3 )P(X 4 I 4 ) = P((X 1, X 2 ) A)P((X 3, X 4 ) I 3 I 4 ). Par conséquent, la tribu D contient la tribu engendrée par les pavés ouverts c est à-dire la tribu borélienne de R 2. On a montré que pour tout borélien A de R 2 et tout borélien B de R 2 P((X 1, X 2 ) A, (X 3, X 4 ) B) = P((X 1, X 2 ) A)P((X 3, X 4 ) B). ii) Soient I, J deux intervalles ouverts : P(Y 1 I, Y 2 J) = P((X 1, X 2 ) f 1 (I), (X 3, X 4 ) g 1 (J)). Les ensembles f 1 (I) et g 1 (J)) sont des boréliens de R 2 et on a donc d après i) P((X 1, X 2 ) f 1 (I), (X 3, X 4 ) g 1 (J)) = P((X 1, X 2 ) f 1 (I))P((X 3, X 4 ) g 1 (J)), c est-à-dire P(Y 1 I, Y 2 J) = P(Y 1 I)P(Y 2 J).
68 CHAPITRE 3. VECTEURS ALÉATOIRES ET INDÉPENDANCE 3.3 Evènements indépendants Définition 3.3.1 Une famille d évènements (A i ) i I est dite indépendante (ou encore les évènements de la famille (A i ) i I sont dits mutuellement indépendants) si pour toute sous famille finie A i1,...,a in on a P(A i1 A in ) = P(A i1 ) P(A in ). Exercice. Démontrer que si A, B sont deux évènements indépendants les quatre familles (A, B), (A, B c ), (A c, B), (A c, B c ) sont chacune indépendantes. Solution. a) Montrons par exemple que (A c, B) est indépendante : P(A c B) = P((E A) B) = P(B (A B)) = P(B) P(A B) et comme P(A B) = P(A)P(B) P(A c B) = P(B)(1 P(A)) = P(B)P(A c ). Exercice Trouver un exemple où chacune des familles (A, B), (B, C), (C, A) est indépendante mais pas la famille (A, B, C). Théorème 3.3.1 La famille d évènements (A i ) i I est indépendante si et seulement si la famille de variables aléatoires (1 Ai ) i I est indépendante. Démonstration. i) Démontrons que si la famille d évènements (A i ) i I est indépendante alors la famille de variables aléatoires (1 Ai ) i I est indépendante. Pour cela il suffit de démontrer, quand I = {1,..., n}, que pour tout (ɛ 1,...,ɛ n ) {0, 1} n, n P(1 A1 = ɛ 1,...,1 An = ɛ n ) = P(1 Ai = ɛ i ). Notons A ɛ l ensemble A si ɛ = 1 et A c si ɛ = 0. L égalité précédente devient n E(1 ɛ A 1 1 1 A ɛn n ) = E(1 ɛ ). A i i Remarquons que 1 ɛ A i égale soit 1 Ai soit 1 1 Ai. On peut donc écrire 1 ɛ i A i i (ɛ i + ɛ i 1 Ai ) où ɛ i = 1 2ɛ i. Ainsi, 1 A ɛ 1 1 1 A ɛn n = i=1 i=1 n (ɛ i + ɛ i 1 Ai ) i=1 = ɛ i ɛ i 1 Ai. J I i J i I J =
3.3. EVÈNEMENTS INDÉPENDANTS 69 Par conséquent, ( n ) E(1 ɛ A 1 1 1 A ɛn n ) = E (ɛ i + ɛ i 1 Ai ) i=1 = J {1,...,n} i J = J I ɛ i i J i I J ( ɛ i E i I J ɛ i E(1 Ai ), ɛ i 1 Ai )) puisque comme les A 1,...,A n sont mutuellement indépendants ( ) ( ) E 1 Ai = P A i On a donc, i I J E(1 A ɛ 1 1 1 A ɛn n )) = ce est ce que nous voulions démontrer. = = = i I J = i I J i I J P(A i ) E(1 Ai ). n (ɛ i + ɛ i E(1 Ai )) i=1 n E(ɛ i + ɛ i 1 Ai ) i=1 n i=1 E(1 A ɛ i i ), ii) La réciproque résulte immédiatement de la définition de l indépendance.
70 CHAPITRE 3. VECTEURS ALÉATOIRES ET INDÉPENDANCE
Chapitre 4 Sommes de variables aléatoires indépendantes Soient X 1,...,X n,... une famille de v.a indépendantes et introduisons les v.a S n = X 1 + +X n. Si par exemple les v.a X i ont même loi, l intuition que nous avons des probabilités nous incite à penser que les moyennes 1 n S n = 1 n (X 1 + + X n ) convergent quand n tend vers l infini vers l espérance E(X 1 ) de X 1. En effet, si par exemple les X i suivent une loi de Bernoulli (1/2, 1/2) et forment une famille indépendante de v.a les X i modélisent donc un jeu infini de Pile/Face où les tirages sont indépendants l expérience ou l intuition indique que 1 n (X 1 + + X n ) convergent vers le nombre (ou la v.a constante) 1/2 qui n est rien d autre que l espérance de X 1. La première difficulté que nous rencontrons est de donner un sens à la convergence précédente. Rappelons la définition suivante qui introduit la notion de convergence presque-sure, pertinente pour notre propos : Définition 4.0.1 On dit que la suite de v.a Y n converge P-presque surement vers la v.a Y l ensemble des ω Omega pour lesquels la suite (Y n (ω)) n converge vers Y (ω) est de probabilité 1. Le théorème fondamental de ce chapitre et qui est à la base de la théorie mathématique des probabilités est la loi forte des grands nombres qui est 71
72CHAPITRE 4. SOMMES DE VARIABLES ALÉATOIRES INDÉPENDANTES Théorème 4.0.2 Soit X 1,..., X n,... une famille de v.a indépendante où les X i ont même loi et sont dans L 1 (Ω,P). Alors, la suite de v.a 1 n (X 1 + + X n ) converge P-p.s vers la v.a constante E(X 1 ). La démonstration de ce théorème fondamental dans cette généralité sort du cadre de ce cours, mais nous allons en donner une preuve sous des hypothéses plus faibles. 4.1 Lois des grands nombres dans le cas L 2 4.1.1 Loi faible des grands nombres Nous savons déjà d après la linéarité de l espérance que et d après l indépendance et comme les X i ont même loi E(S n ) = E(X 1 ) + + E(X n ) V ar(s n ) = V ar(x 1 ) + + V ar(x n ), E(S n ) = ne(x 1 ), V ar(s n ) = nv ar(x 1 ). Le fait que la variance de la somme des n v.a X 1,...,X n se comporte comme n et non pas comme n 2 (c est ici où intervient l hypothèse d indépendance) est l observation fondamentale. Appliquons en effet l inégalité de Bienaymé- Tchebychev : P( S n ne(x 1 ) > λ) nv ar(x 1) λ 2, ce qui peut s écrire P( S n n E(X 1) > λ n ) nv ar(x 1). λ 2 Posons à présent λ = nɛ où ɛ est un réel positif : P( S n n E(X 1) > ɛ) V ar(x 1). nɛ 2 Nous voyons donc que pour tout ɛ > 0 on a lim n P( S n n E(X 1) > ɛ) = 0. Introduisons la définition suivante :
4.1. LOIS DES GRANDS NOMBRES DANS LE CAS L 2 73 Définition 4.1.1 On dit que la suite de v.a (Y n ) n converge en probabilité vers la v.a Y si pour tout ɛ > 0 on a lim P( Y n Y > ɛ) = 0. n infty Nous avons donc démontré la loi faible des grands nombres Théorème 4.1.1 Si (X i ) i 1 est une famille de v.a indépendante et si les X i ont même loi et sont dans L 2 alors la suite S n /n converge en probabilité vers E(X 1 ). 4.1.2 Loi forte des grands nombres Rappelons l énoncé de la loi forte des grands nombres : Théorème 4.1.2 Soit X 1,...,X n,... une famille de v.a indépendante où les X i ont même loi et sont dans L 1 (Ω,P). Alors, la suite de v.a 1 n (X 1 + + X n ) converge P-p.s vers la v.a constante E(X 1 ). Nous nous proposons dans ce qui suit d en donner une preuve dans le cas où les v.a sont L 2. Démonstration. Dans le cas L 2. Posons X k = X k E(X k ) et S n = X 1 + + X k. La famille de v.a ( X i ) i est indépendante et les X i sont de même loi et de carré intégrable. En outre, E( X i ) = 0, V ar( X i ) = E(( X i ) 2 ), et E( S n ) = 0, E(( S n ) 2 ) = V ar( S n ) = nv ar( X 1 ). i) La dernière égalité montre que E (( ) 2 ) Sn = 1 n n = E(( S 2 n ) 2 ) = 1 n V ar(x 1), et donc la série (( ) 2 ) Sk 2 E = k=1 k 2 k=1 1 k 2V ar(x 1),
74CHAPITRE 4. SOMMES DE VARIABLES ALÉATOIRES INDÉPENDANTES est convergente. D après le théorème de convergence monotone, ( ( ) 2 ) Sk 2 E = k=1 k 2 (( Sk 2 E k=1 k 2 ) 2 ) ; mais si l espérance d une v.a positive est finie, cette v.a est finie pour P-p.s. Par conséquent pour P-presque tout ω Ω ( ) 2 Sk 2(ω) <, k=1 k 2 ce qui en particulier implique que lim k S k 2(ω) k 2 = 0. Nous avons donc montré que P-p.s la suite S k 2/k 2 converge vers 0 quand n tend vers l infini. ii) Montrons à présent que la suite S n /n converge vers 0 P-p.s. Pour cela, notons k(n) l unique entier pour lequel k(n) 2 n < (k(n) + 1) 2. Les mêmes calculs que ceux que l on a effectués précédemment montrent que (( ) 2 ) ( E X k(n) 2 + + X n = V ar X k(n) 2 + + X n ) = (n k(n) )V 2 ar(x 1 ), et (( Xk(n) 2 + + E X ) 2 ) n = n n=1 Mais, comme on a n k(n) 2 V ar(x n 2 1 ). n k(n) 2 (k(n) + 1) 2 k(n) 2 = 2k(n) + 1 2 n + 1 3 n et la série n=1 n k(n) 2 n n=1 3 n n, n k(n) V ar(x n 2 1 ) est donc convergente. Ainsi (( Xk(n) 2 + + X ) 2 ) n n=1 E n
4.2. THÉORÈME DE LA LIMITE CENTRALE 75 est finie et en raisonnant comme en i) converge P-p.s vers 0. iii) Comme X k(n) 2 + + X n n S n n = X 1 + + X k(n)2 n = X 1 + + X k(n) 2 k(n) 2 + X k(n) 2 + + X n n k(n)2 n + X k(n) 2 + + X n n = 1 k(n) S 2 k(n) 2 k(n)2 + X k(n) 2 + + X n n n et que k(n) 2 /n est borné par 1 on déduit de i) et ii) que S n /n converge P-p.s vers 0. Le fait que S n n = S n n E(X 1), permet de conclure la preuve du théorème. 4.2 Théorème de la limite centrale Nous donnons une première version de ce théorème : Théorème 4.2.1 Soient X 1,...,X n,... une famille de v.a indépendantes et supposons que les X i soient de même loi et dans L 2 (Ω,P) (c est-à-dire de carré intégrable, E(Xi 2) < ). Notons µ = E(X 1) et σ 2 = V ar(x 1 ) (comme les X i sont de même loi E(X i ) = µ et V ar(x i ) = σ pour tout i). Alors, pour tout intevalle I de R lim P n ( Sn nµ σ n ) I = I 1 2π e x2 /2 dx. Une autre façon d énoncer ce théorème est de dire que ( ( ) ) n lim P Sn n σ n µ 1 I = e x2 /2 dx. 2π En d autres termes, S n /n µ converge d après la loi forte des grans nombres vers 0, la déviation des moyennes par rapport à l espérance, renormalisée I
76CHAPITRE 4. SOMMES DE VARIABLES ALÉATOIRES INDÉPENDANTES par le facteur n/σ, converge dans un certain sens vers une loi gaussienne normalisée (espérance nulle, variance égale à 1). Avant de passer à la preuve de ce théorème, nous devons introduire quelques notions utiles. 4.2.1 Convergence en loi Définition 4.2.1 On dit qu une suite de v.a (Y n ) n N converge en loi vers une v.a Y si et seulement si pour toute fonction continue bornée f : R R lim E(f(Y n)) = E(f(Y )). n L intérêt de cette notion réside dans la proposition suivante : Théorème 4.2.2 Soient (Y n ) n N une suite de v.a et Y une v.a. et notons F Yn : R [0, 1] et F Y : R [0, 1] les fonctions de répartition des v.a Y n, Y : F Yn (t) = P(Y n t), F Y (t) = P(Y t). La suite (Y n ) n N converge en loi vers Y si et seulement si en tout point t 0 où F Y est continue à gauche lim F Y n (t 0 ) = F Y (t 0 ). n Démonstration. i) Montrons déjà que si (Y n ) n N converge en loi vers Y alors en tout point t 0 où F Y est continue à gauche F Yn (t 0 ) converge vers F Y (t 0 ). Considérons deux suites de fonctions g p, h p : R R qui sont définies de la façon suivante : g p est la fonction continue : égale à 1 sur ], t 0 (1/p)], affine sur [t 0 (1/p), t 0 ] et égale à 0 sur [t 0, [; h p est la fonction continue : égale à 1 sur ], t 0 ], affine sur [t 0, t 0 +(1/p)] et égale à 0 sur [t 0 +(1/p), [. La suite de fonctions g p est croissante et converge simplement vers 1 ],t0 [ tandis que la suite de fonctions h p est décroissante et converge simplement vers 1 ],t0 ]. De l inégalité on déduit en passant aux espérances, g p 1 ],t0 ] h p E(g p (Y n )) F n (t 0 ) E(h p (Y n )). D après la définition de la convergence en loi E(g p (Y n )) et E(h p (Y n )) convergent respectivement quand n tend vers l infini vers E(g p (Y )), E(h p (Y )) et donc d après les inégalités précédentes E(g p (Y )) lim inf n F n(t 0 ) lim sup F n (t 0 ) E(h p (Y )). (4.1) n
4.2. THÉORÈME DE LA LIMITE CENTRALE 77 Par ailleurs, quand p tend vers l infini, le théorème de convergence monotone, montre que E(g p (Y )) converge vers E(1 ],t0 [(Y )) = P(Y < t 0 ) et E(h p (Y )) converge vers E(1 ],t0 [(Y )) = P(Y t 0 ) = F Y (t 0 ). Comme F Y est continue à gauche en t 0 on a E(1 ],t0 [(Y )) = P(Y < t 0 ) = P(Y t 0 ) = F Y (t 0 ) et en faisant tendre p vers l infini dans (4.1) on voit que lim inf n F n (t 0 ) = lim sup n F n (t 0 ) = F Y (t 0 ) ce qui est le résultat annoncé. ii) Montrons la réciproque : soit ɛ > 0 et A un réel positif tel que P( Y > A) soit plus petit que ɛ/12 (exercice : un tel A existe toujours). On aura de même si n n 1 (ɛ) P( Y n > A) ɛ/12 d après l hypothèse. Comme F Y (t) est croissante, elle admet un nombre au plus dénombrable de points de discontinuité : notons T cet ensemble. Soit f une fonction continue bornée (nous supposerons que f 1 pour simplifier) : elle est uniformément continue sur [ A, A] et on peut donc l approcher à ɛ/6 près uniformément sur [ A, A] par une fonction en escaliers c(x) dont on peut demander que les discontinuités soient en dehors de T : si bien que et finalement (f(x) c(x)) 1 [ A,A] ɛ/6, (f(y n ) c(y n )) 1 Yn A ɛ/6, (f(y ) c(y )) 1 Y A ɛ/6, E ( f(y n ) c(y n ) ) ɛ/4 + 2P( Y n > A) ɛ/3 (4.2) ( ) E f(y ) c(y ) ɛ/4 + 2P( Y > A) ɛ/3 (4.3) De telles fonctions c(x) sont des combinaisons linéaires de 1 ],t] où t / T. On a donc : lim n E(c(Y n)) = E(c(Y )). Donc dès que n est plus grand qu un certain entier n 2 (ɛ) on a E(c(Y n )) E(c(Y )) ɛ/3 et en utilisant (4.2), (4.3) on voit que dès que n max(n 1 (ɛ), n 2 (ɛ)) E(f(Y n ) E(f(Y )) ɛ, ce qui est ce que nous voulions démontrer. Un corollaire utile du théorème précédent est le suivant
78CHAPITRE 4. SOMMES DE VARIABLES ALÉATOIRES INDÉPENDANTES Corollaire 4.2.1 Si les Y n convergent en loi vers une v.a Y qui admet une densité ρ Y alors pour tout intervalle I de R lim P(Y n I) = ρ Y (y)dy n 4.2.2 Fonctions caractéristiques Définition 4.2.2 Si Y est une v.a.r, la fonction caractéristique de Y est la fonction φ Y : R R définie par (où i = 1). φ Y (t) = E(e ity ), Remarque i) Pour t fixé la v.a e ity est bornée par 1 (puisque Y est à valeurs réelles) et est donc intégrable. ii) La fonction caractéristique d une v.a ne dépend que de la loi de cette v.a. iii) On peut démontrer (en utilisant le théorème de convergence dominée) que la fonction caractéristique d une v.a.r est continue et tend vers 0 en ±. On peut préciser le résultat de continuité précédent : Proposition 4.2.1 Si Y est une v.a.r intégrable, alors la fonction caractéristique de Y est de classe C 1 (dérivable et de dérivée continue) et ) φ Y (t) = E ((iy )e ity. I De même, si Y est dans L p (Ω,P) la fonction caractéristique de Y est de classe C p et on a ) d p dt pφ Y (t) = E ((iy ) p e ity. Démonstration. Soit t n une suite de réels convergeant vers t. Il suffit de démontrer que pour toute telle suite φ Y (t n ) φ Y (t) lim n t n t ) = E ((iy )e ity. Calculons, φ Y (t n ) φ Y (t) t n t ( ) e it ny e ity = E. t n t
4.2. THÉORÈME DE LA LIMITE CENTRALE 79 Pour cela, remarquons que la v.a Z n (ω) = eitny (ω) ity (ω) e, t n t converge simplement (c est-à-dire pour tout ω fixé) quand n tend vers l infini vers (ity (ω))e ity (ω) (la dérivée en s = t de s e isy (ω) ). En outre, d après la formule des accroissement finis, pour tout ω il existe s n,ω (t, t n ) tel que et donc e itny (ω) ity (ω) e t n t = (iy (ω)e isn,ωy (ω), Z n (ω) Y (ω), dès que n est assez grand. Or, le membre de droite de l inégalité précédente est une fonction integrable. Le théorème de convergence dominée s applique et on a donc lim n E(Z n) = E((iY )e ity ). Ceci conclut la preuve de la proposition quand p = 1. Le cas général ne présente pas de difficultés supplémentaires. Exercice : Montrer que si Z = ay + b φ Z (t) = e itb φ Y (ta). Calculons à présent les fonctions caractéristiques de certaines lois classiques. v.a discrètes Si Y prend un nombre fini de valeurs y 1,...,y r et si on note p r = P(Y = y r ) on a φ Y (t) = E(e ity ) r = e ity k P(Y = y k ) = k=1 r (e it ) y k P(Y = y k ) k=1 et on reconnait (si Y est à valeurs entières) la fonction génératrice de Y au point e it. Le calcul des fonctions caractéristiques de v.a discrètes est exactement le même que celui que nous avons effectué dans un chapitre précédent.
80CHAPITRE 4. SOMMES DE VARIABLES ALÉATOIRES INDÉPENDANTES v.a admettant une densité ρ Y Dans ce cas φ Y (t) = E(e ity ) = e ity ρ Y (y)dy. On habituellement ˆρ Y (t) = eity ρ Y (y)dy et on dit que la fonction ˆρ Y est la transformée de Fourier de la fonction ρ Y Exemple : Fonctions caractéristique d une gaussienne Rappelons que si Z est une v.a suivant une loi gaussienne N(µ, σ) on peut l écrire sous la forme Z = σy + µ où Y suit une loi gaussienne normalisée N(0, 1) de densité ρ(y) = 1 2π e y2 /2. On a donc On a (cf. exercice) : φ Y (t) = 1 2π φ Y (t) = e t2 /2. e ity e y2 /2 dy. Ainsi, la fonction d une caractéristique d une v.a suivant une loi gaussienne N(µ, σ) est φ Z (t) = e itµ σ2 (t 2 /2). Mentionnons que l on peut étendre la notion de fonction génératrice au cas des vecteurs aléatoires réeels. Définition 4.2.3 Si (Y 1,...,Y n ) est un vecteur aléatoire, la fonction caractéristique de Y est la fonction φ Y : R n R définie par (où i = 1). φ Y (t 1,...,t n ) = E(e i(t 1Y 1 + +t ny n) ), Liens avec la convergence en loi Les fonctions caractéristiques jouent un rôle important dans les problèmes où inteviennent des convergences en loi. Les deux théorèmes qui suivent illustrent ce fait.
4.2. THÉORÈME DE LA LIMITE CENTRALE 81 Théorème 4.2.3 La loi d une v.a.r (resp. d un vecteur aléatoire) est déterminée par sa fonction caractéristique : si Y et Z sont deux v.a.r (resp. vecteurs aléatoires) tel(le)s que pour tout t R (resp. t R n ) φ Y (t) = φ Z (t), alors la loi de Y et la loi de Z sont les mêmes : pour tout borélien A de R (resp. de R n ) : P(Y A) = P(Z A). Théorème 4.2.4 La suite de v.a.r (resp. de vecteurs aléatoires) (Y n ) n N converge en loi vers Y si et seulement si pour tout t R (resp. t R n ) lim n φ Y n (t) = φ Y (t). Démonstration. Si Y n converge en loi vers Y, pour toute fonction f continue bornée et en particulier pour la fonction e t (y) = e ity (t fixé), on a lim n E(e t (Y n )) = E(e t (Y )). La première partie du théorème est donc facile. La preuve de l implication réciproque est plus délicate. Nous ne donnons donc qu un schéma de preuve. La convergence simple des fonctions carctéristiques est équivalente au fait que pour toute fonction f de la forme e t (y) = e ity, E(e t (Y n )) converge vers E(e t (Y )). Il est évident que le même résultat est vrai pour les fonctions g qui sont combinaisons linéaires finies des fonctions e t. Or, pour tout ɛ > 0, tout intervalle [ A, A] et toute fonction continue f on peut trouver une combinaison linéaire finie g des fonctions e t telles que sup f(y) g(y) < ɛ/5, y [ A,A] On a donc E(f(Y )) E(f(Y n )) E(f(Y )) E(g(Y )) + E(g(Y )) E(g(Y n )) + E(g(Y n )) E(f(Y n )) (ɛ/5) + P( Y > A) + E(g(Y )) E(g(Y n )) + (ɛ/5) + P( Y n > A). Il est clair que P( Y > A) tend vers 0 quand A tend vers l infini, et que le même résultat est vrai si l on remplace Y par Y n n étant fixé mais il n est pas évident que cette convergence soit uniforme en n. Ceci est l objet du lemme suivant dont la démonstration sort du cadre de ce cours
82CHAPITRE 4. SOMMES DE VARIABLES ALÉATOIRES INDÉPENDANTES Lemme 4.2.1 On a P( Y n A) A 1/A 1/A (1 φ Yn (t))dt. Le théorème de convergence dominée et la continuité de φ Y en 0 permettent de démontrer qu il existe n(a, ɛ) tel que si n n(a, ɛ) P( Y n > A) ɛ/5 (et également P( Y > A) ɛ/5). L inégalité précédant le lemme permet alors de conclure. Fonctions caractéristiques et indépendance Théorème 4.2.5 Les v.a.r Y 1,...,Y n forment une famille de v.a indépendantes si et seulement si φ Y1,...,Y n (t 1,..., t n ) = φ Y1 (t 1 ) φ Yn (t n ). Démonstration. 1) Supposons tout d abord que la famille Y 1,...,Y n soit indépendantes; on a E(e i(t 1Y 1 + +t ny n) = E(e it 1Y1 e itnyn ), et puisque la famille de v.a e it 1Y 1,...,e itnyn est indépendante on a E(e i(t 1Y 1 + +t ny n) = E(e it 1Y 1 ) E(e itnyn ). C est bien la formule annoncée. 2) Réciproquement, supposons que φ Y1,...,Y n (t 1,..., t n ) = φ Y1 (t 1 ) φ Yn (t n ), et montrons que la famille Y 1,...,Y n est indépendante. Pour cela, rappelons le résultat suivant : Pour toute famille de v.a Y 1,...,Y n (on pourrait prendre une famille infinie), il existe des v.a Ỹ1,..., Ỹn qui constituent une famille indépendante et telles que pour tout i les lois de Ỹi et de Y i sont les mêmes. i) Montrons que la loi du vecteur (Ỹ1,...,Ỹn) est la même que celle du vecteur (Y 1,..., Y n ). Il suffit de démontrer que (Y 1,..., Y n ) et (Ỹ1,...,Ỹn) ont même fonctions caractéristiques. Or, comme la famille (Ỹ1,...,Ỹn) est indépendante on a φ (Ỹ1,...,Ỹ n) (t 1,..., t n ) = φỹ1 (t 1 ) φỹn (t n )
4.2. THÉORÈME DE LA LIMITE CENTRALE 83 et puisque Ỹi et Y i ont même loi φ ( Ỹ 1,...,Ỹn)(t 1,...,t n ) = φ Y1 (t 1 ) φ Yn (t n ) (la fonction caractéristique ne dépend que de la loi de la v.a). On voit donc que φ ( Ỹ 1,...,Ỹn)(t 1,...,t n ) = φ (Y1,...,Y n)(t 1,...,t n ), ce qu il fallait démontrer. ii) Par conséquent pour tous boréliens (ou même intervalles) A 1,..., A n P(Y 1 A 1,...,Y n A n ) = P(Ỹ1 A 1,...,Ỹn A n ) ce qui est bien l indépendance annoncée. Nous avons également le résultat suivant = P(Ỹ1 A 1 ) P(Ỹn A n ) = P(Y 1 A 1 ) P(Y n A n ), Théorème 4.2.6 Si les v.a.r X 1,...,X n forment une famille indépendante pour tout t R φ X1 + +X n (t) = φ X1 (t) φ Xn (t). Démonstration. Il suffit de constater que et d appliquer le théorème précédent. φ X1 + +X n (t) = φ (X1,...,X n)(t,...,t), 4.2.3 Démonstration du théorème de la limite centrale Rappelons l énoncé du théorème 4.2.1 dans la version équivalente suivante (cf. théorème??) Théorème 4.2.7 Soient X 1,...,X n,... une famille de v.a indépendantes et supposons que les X i soient de même loi et dans L 2 (Ω,P) (c est-à-dire de carré intégrable, E(X 2 i ) < ). Notons µ = E(X 1) et σ 2 = V ar(x 1 ) (comme les X i sont de même loi E(X i ) = µ et V ar(x i ) = σ 2 pour tout i). Alors, la suite de v.a S n nµ σ n converge en loi vers une loi normale N(0, 1) (de densité (1/ 2π)e x2 /2 ).
84CHAPITRE 4. SOMMES DE VARIABLES ALÉATOIRES INDÉPENDANTES Nous avons suffisamment d outils pour démontrer le théorème de la limite centrale. Soient donc X 1,...,X n,... une famille indépendante de v.a qui sont de même loi et de carré intégrable. Nous posons µ = E(X 1 ) et σ = V ar(x 1 ). Notons S n = X 1 + + X n, Σ n = (X 1 µ) + + (X n µ) et posons Z n = S n ne(x 1 ) σ n = Σ n σ n. La formule de l exercice du début de la section 4.2.2 montre que ( ) t φ Zn (t) = φ Σn σ, n et comme Σ n est la somme des v.a indépendantes X i µ, 1 i n et que ces v.a ont même loi : φ Σn (t) = φ X1 µ(t) n. Si on pose φ(t) = φ X1 µ(t) on a donc ( ) n t φ Zn (t) = φ σ. n Puisque la v.a est de carré intégrable la fonction φ est de classe C 2. Par ailleurs, c est-à-dire φ(0) = E(1), φ (0) = ie(x 1 µ), φ (0) = E((X 1 µ) 2 ), D après la formule de Taylor φ(0) = 1, φ (0) = 0, φ (0) = σ 2. et donc pour t fixé φ(t) = 1 σ2 2 t2 + o(t 2 ), ou encore φ Zn (t) = ( ) 2 (1 σ2 t 2 σ + o((t/(σ ) n n)) 2 ), n φ Zn (t) = ) n (1 t2 2n + o(1 n ). Pour n suffisamment grand, 1 (t 2 )/(2n)+o(1/n) est dans la boule de centre 1 et de rayon 1/2 et on peut écrire ( )) φ Zn (t) = exp n log (1 t2 2n + o(1 n ),
4.3. QUELQUES REMARQUES SUR LES DIVERSES NOTIONS DE CONVERGENCE85 où log est la détermination principale du logarithme dans le plan complexe (qui admet le même développement en série que le logarithme réel). On a donc φ Zn (t) = exp ( t22 )) + o(1) = e (t2 /2) + o(1), et partant, lim φ Z n (t) = e t2 /2. n On reconnait dans le membre de droite la fonction caractéristique d une v.a gaussienne normalisée et le théorème 4.2.4 montre que Z n converge en loi vers une loi gausienne normalisée. 4.3 Quelques remarques sur les diverses notions de convergence Nous avons rencontré diverses notions de convergence et il est bon de dégager une hierarchie entre ces notions. Proposition 4.3.1 a) La convergence p.s et la convergence en moyenne impliquent la convergence en probabilité; la convergence en probabilité (et donc la convergence p.s et la convergence en moyenne) implique la convergence en loi. b) S il existe une constante A telle que X n A la convergence en probabilité de X n est équivalente à sa convergence en moyenne.
86CHAPITRE 4. SOMMES DE VARIABLES ALÉATOIRES INDÉPENDANTES
Chapitre 5 Espérance conditionnelle Dans tout ce qui suit (Ω, B,P) est un espace probabilisé fixé. 5.1 Probabilités conditionnelles Définition 5.1.1 Si A et Bsont deux évenements de la tribu Bet si P(B) > 0 on définit la probabilité de A sachant B comme étant P(A B) = P(A B). P(B) En fait tout évenement B B définit une nouvelle probabilité sur (Ω, B) : Proposition 5.1.1 Si B B est tel que P(B) > 0, l application P B : B [0, 1] qui à A B associe P B (A) = P(A B) est une probabilité. La preuve de cette proposition est laissée en exercice au lecteur. Supposons à présent que nous ayons une partition de Ω en évènements B 1,..., B r (c est-à-dire que les évènements B 1,...,B r sont disjoints deux à deux et que leur union soit égale à Ω) et que pour tout i P(B i ) > 0. On peut donc définir r probabilités P( B i ). Théorème 5.1.1 (Formule des causes) Sous les hypothèses précédentes P(A) = r P(A B i )P(B i ). i=1 87
88 CHAPITRE 5. ESPÉRANCE CONDITIONNELLE Démonstration. (A B i ) et donc Il suffit de remarquer que A est l union disjointe des P(A) = = r P(A B i ) k=1 r i=1 P(A B i ) P(B i ) P(B i ) ce qui est la formule annoncée. Dans la pratique un problème courant est de calculer P(B i A) connaissant les P(A B j ). Théorème 5.1.2 (Formule de Bayes) Sous les hypothèses précédentes : P(B i A) = P(A B i )P(B i ) r i=1 P(A B j)p(b j ). Démonstration. Il suffit d écrire P(B i A) = P(B i A) P(A) = P(A B i)p(b i ), P(A) et d utiliser la formule des causes. 5.2 Espérance conditionnelle : cas discret Espérance sachant un évènement Supposons fixé B B un évènement tel que P(B) > 0. On sait que P( B) est une probablilité sur (Ω, B) et on obtient donc un espace probabilisé (Ω, B, P( B)). Pour toute variable aléatoire Y : Ω R on peut définir E(Y B) comme étant l espérance de Y sur l espace probabilisé (Ω, B,P( B)). Dans le cas où par exemple Y prend un nombre fini de valeurs y 1,...,y m on a m E(Y B) = y k P(Y = y k B). k=1
5.2. ESPÉRANCE CONDITIONNELLE : CAS DISCRET 89 Loi conditionnelle d une v.a sachant un évènement Définition 5.2.1 La loi de la v.a Y vue comme v.a sur l espace probabilisé (Ω, B,P( B) que nous appelerons la loi conditionnelle de Y sachant B et noterons p(y B) est p(y B) = P(Y = y B). Espérance sachant une tribu (finie) On suppose fixée une partition B 1,..., B r de Ω et on fait l hypothèse que pour tout i, P(B i ) > 0. Considérons F la plus petite tribu engendrée par les ensembles B 1,...,B r. Exercice : Montrer que F est l ensemble des unions finies de B i : F = { i J B i : J {1,..., r}}. Définition 5.2.2 Si Y : Ω R est une v.a, on définit l espérance de Y par rapport à la tribu (finie) F comme étant la variable aléatoire E(Y F) : Ω R valant E(Y B i ) sur B i : E(Y F) = r E(Y B k ) 1 Bk. k=1 Espérance suivant une v.a Supposons à présent que X : Ω R soit une v.a ne prenant qu un nombre fini de valeurs x 1,..., x r et notons B i = X 1 (x i ), 1 i r. et F (ou encore F(B 1,...,B r )) la tribu engendrée par les B i. Nous supposerons que pour tout i, P(X = x i ) > 0. Définition 5.2.3 On définit l espérance conditionnelle de Y sachant X comme étant la variable aléatoire E(Y X) : Ω R définie par E(Y X) = E(Y F(X = x 1,...,X = x r ). On a donc E(Y X)(ω) = r E(Y X = x k ) 1 X=xk.(ω). k=1 (C est la fonction qui associe à ω E(Y X = x k ) si X(ω) = x k.) Mentionnons la propriété suivante évidente mais importante Proposition 5.2.1 Si on note ψ la fonction ψ(x) = E(Y X = x) on a E(Y X) = ψ(x), (c est une égalité entre v.a).
90 CHAPITRE 5. ESPÉRANCE CONDITIONNELLE Loi conditionnelle de Y sachant X Pour tout x X(Ω) on peut définir la loi conditionnelle de Y sachant l évènement (X = x). Définition 5.2.4 On appelle loi conditionnelle de Y sachant X = x la loi conditionnelle de Y sachant l évènement (X = x) et nous la noterons p Y X (y x) : p Y X (y x) = P(Y = y X = x) = p X,Y (x, y), p X (x) où on a noté p X,Y la loi du couple (X, Y ) et p X la loi de X Relation entre espérance conditionnelle et loi conditionnelle Proposition 5.2.2 On a E(Y X = x) = m y l p Y X (y l x). l=1 Propriété de l espérance conditionnelle On a alors Théorème 5.2.1 On a E(E(Y X)) = E(Y ). Démonstration. Il suffit de calculer E(E(Y X)) = E(ψ(X)) r = E(Y X = x k )P(X = x k ) = = = k=1 r k=1 m l=1 m y l P(Y = y l X = x k )P(X = x k ) l=1 r y l P(Y = y l X = x k )P(X = x k ) k=1 m P(Y = y l ) l=1 = E(Y ) (on a utilisé la formule des causes).
5.3. CAS DES V.A ADMETTANT DES DENSITÉS 91 Remarque : L espérance conditionnelle E(Y X) est linéaire par rapport à Y. Exercice : Démontrer que si X, Y sont des v.a ne prenant qu un nombre fini de valeurs E(f(X, Y ) X) = ψ(x) où m ψ(x k ) = f(x k, y l )p Y X (y l x k ). l=1 Exercice : Soient X et Y deux v.a indépendantes qui suivent des lois de Poisson de paramètres respectifs λ et µ. Soit S = X + Y a) Déterminer la loi de S b) Calculer l espérance conditionnelle E(X S). (Réponse : a) S suit une loi de Poisson de paramètre λ + µ ; b) E(X S) est la variable aléatoire S λ/(λ + µ)) 5.3 Cas des v.a admettant des densités Supposons donnée deux v.a Y et X telles que le couple (X, Y ) admette une densité ρ X,Y. Les v.a X et Y admettent donc des densités respectives ρ X et ρ Y égales à : ρ X (x) = ρ X,Y (x, y)dy, ρ Y (y) = ρ X,Y (x, y)dx. Nous supposerons dans toute la suite que ρ X (x) > 0 pour tout x. Nous allons définir l espérance E(Y X) en nous inspirant de la définition 5.2.4, de la proposition 5.2.2 et de la proposition 5.2.1. Définition 5.3.1 Nous appelerons densité conditionnelle de Y sachant X = x la fonction ρ Y X (y x) définie par ρ Y X (y x) = ρ X,Y (x, y). ρ X (x) Définition 5.3.2 L espérance de Y sachant X = x est la fonction de x R E(Y X = x) = yρ Y X (y x)dy. Définition 5.3.3 L espérance conditionnelle E(Y X) est la variable aléatoire où ψ(x) = E(Y X = x). R E(Y X) = ψ(x),
92 CHAPITRE 5. ESPÉRANCE CONDITIONNELLE Exercice : Soient X, Y deux v.a dont la loi du couple (X, Y ) admet une densité égale à ρ X,Y (x, y) = (1/x) 1 T (x, y) où T est le triangle T = {0 < y < x < 1}. Calculer E(Y X). Solution : La densité de X se calcule en intégrant ρ X,Y (x, y) par rapport à y R. On trouve ρ X (x) = 1 ]0,1[ (x) et donc pour x ]0, 1[ ρ Y X (y x) = 1 x 1 ]0,x[(y). On trouve ψ(x) = E(Y X = x) = (x/2) et donc E(Y X) = ψ(x) = X/2. On a encore le théorème important suivant Théorème 5.3.1 E(E(Y X)) = E(Y ). Démonstration. Notons ψ(x) = E(Y X = x). Comme par définition E(Y X) = ψ(x), la formule de transfert donne E(E(Y X)) = E(ψ(X)) = ψ(x)ρ X (x)dx ( R ) = yρ Y X (x, y)dy ρ X (x)dx R R ( = y ρ ) X,Y (x, y) dy ρ X (x)dx ρ X (x) R R et comme d après le théorème de Fubini on peut intervertir l ordre d intégration : ( ) ρ X,Y (x, y) E(E(Y X)) = ρ X (x)dx ydy R R ρ X (x) = ρ Y (y)ydy R = E(Y ). Exercice : Démontrer que E(Y g(x) X) = g(x)e(y X). On a l analogue suivant du théorème de transfert que nous donnons sans démonstration (comparer avec la définition 5.3.2) : Théorème 5.3.2 Si Z = f(x, Y ) on a E(f(X, Y ) X) = ψ(x) où ψ(x) = f(x, y)ρ Y X (y x)dy. R
5.4. INDÉPENDANCE 93 Remarque : L espérance conditionnelle E(Y X) est linéaire par rapport à Y. Exercice : Démontrer que si on prend l énoncé du théorème précédent comme définition de E(f(X, Y ) X) on a bien E(f(X, Y )) = E(E(f(X, Y ) Y )). 5.4 Indépendance Considérons à présent le cas où les v.a X et Y sont indépendantes. Dans ce cas on sait que p X,Y (x, y) = p X (x)p Y (y), dans le cas discret et ρ X,Y (x, y) = ρ X (x)ρ Y (y) dans le cas continu. Par conséquent p Y X (y x) = p Y (y) dans le cas discret et ρ Y X (y x) = ρ Y (y) dans le cas continu. On a donc dans les deux cas Proposition 5.4.1 Si X et Y sont indépendantes E(Y X) = E(Y ) ou en d autres termes, la variable aléatoire E(Y X) est constante. Dans la pratique on a souvent à calculer des espérances de v.a de la forme Z = f(x, Y ) où X et Y sont des v.a indépendantes. Il est souvent utile pour cela de conditionner Z par rapport à une des variables (disons X) c est-à-dire de faire le calcul en deux étapes : i) On introduit la v.a E(Z X) = E(f(X, Y ) X); ii) On utilise ensuite la relation E(Z) = E(E(Z X)). Pour l étape i) on dispose de la proposition suivante : Proposition 5.4.2 Soient X et Y deux v.a indépendantes. Notons pour x R, Y x la variable aléatoire Y x = f(x, Y ) (c est-à-dire l application de Ω R telle que Y x (ω) = f(x, Y (ω))) et soit F : R R l application définie par F(x) = E(Y x ) (F(x) = E(f(x, Y ))). On a E(f(X, Y ) X) = F(X).
94 CHAPITRE 5. ESPÉRANCE CONDITIONNELLE Démonstration. Nous faisons la démonstration dans le cas de v.a admettant des densités (le cas discret se traite de la même façon). Notons Z = f(x, Y ). On a d après le théorème 5.3.2 E(Z X) = ψ(x) où ψ(x) = = R R = E(Y x ) = F(x). f(x, y)ρ Y X (y x)dy f(x, y)ρ Y (y)dy On a donc bien la conclusion. Exercice : Soient N, X 1,...,X n,... une famille indépendante de v.a de même loi, intégrables et à valeurs dans N. Soit S la v.a S = X i. Calculer E(S). 1 i N Solution : On calcule d abord E(S N) et pour cela on évalue ψ(n) = E(S N = n). E(S N = n) = E(X i N = n) 1 i n = 1 i n E(X i ) = ne(x 1 ). On a donc E(S N) = E(X 1 ) N. On utilise ensuite la formule E(S) = E(E(S N)) et on trouve E(S) = E(X 1 )E(N).