Probabilités et Statistiques. Raphaël KRIKORIAN Université Paris 6

Dimension: px
Commencer à balayer dès la page:

Download "Probabilités et Statistiques. Raphaël KRIKORIAN Université Paris 6"

Transcription

1 Probabilités et Statistiques Raphaël KRIKORIAN Université Paris 6 Année

2 2

3 Table des matières 1 Rappels de théorie des ensembles Opérations sur les ensembles Applications entre ensembles Dénombrement Dénombrabilité Espaces Probabilisés et variables aléatoires Espace probabilisé Tribus Probabilité Exemples Variables Aléatoires Le cas particulier des v.a à valeurs dans un ensemble fini ou dénombrable Loi d une variable aléatoire Loi des variables aléatoires à valeurs dans un ensemble fini ou dénombrable Loi de variables aléatoires admettant une densité Espérance d une v.a Espérance d une v.a. à valeurs dans un ensemble fini (ou dénombrable) Espérance d une v.a. positive Espérance des v.a intégrables Formule de transfert Application au calcul de densité Espaces L 2, variance et Bienaymé-Tchébychev Variance Calculs de variance Inégalité de Markov et de Bienaymé-Tchebychev

4 4 TABLE DES MATIÈRES 3 Vecteurs aléatoires et Indépendance Vecteurs aléatoires Tribu borélienne de R m Vecteurs aléatoires Loi d un vecteur aléatoire Marginales Espérance et variance des vecteurs aléatoires Formule de transfert Calcul de densité de vecteurs aléatoires Variables aléatoires indépendantes Cas des v.a à valeurs dans un ensemble discret Cas des v.a admettant des densités Espérance des produits de v.a indépendantes Critères d indépendance Evènements indépendants Sommes de variables aléatoires indépendantes Lois des grands nombres dans le cas L Loi faible des grands nombres Loi forte des grands nombres Théorème de la limite centrale Convergence en loi Fonctions caractéristiques Démonstration du théorème de la limite centrale Quelques remarques sur les diverses notions de convergence Espérance conditionnelle Probabilités conditionnelles Espérance conditionnelle : cas discret Cas des v.a admettant des densités Indépendance

5 Chapitre 1 Rappels de théorie des ensembles Nous rappelons dans ce chapitre quelques notions élémentaires de théorie des ensembles. 1.1 Opérations sur les ensembles Un ensemble est intuitivement une collection d éléments. Etant donnés un ensemble E et un élément a on écrit a E si a est un élément de E. Il existe un unique ensemble ne contenant aucun élément; on le note. Si E et A sont deux ensembles on dit que F est inclus dans E ou que A est un sous-ensemble de E si tout élément de A est un élément de E et on écrit A E. On peut alors définir le complémentaire de A dans E qui est l ensemble des éléments de E qui n appartiennent pas à A. On le notera dans ce cours E A ou A c ; cette dernière notation cesse d être ambigüe si l on suppose E fixé une fois pour toute, ce que nous ferons. Si E est un ensemble, l ensemble constitué des sous-ensembles de E s appelle l ensemble des parties de E et se note P(E). Si (A i ) i I est une collection d ensembles inclus dans E, la réunion des A i est l ensemble i I A i des a E pour lesquels il existe i I tel que a A i. De même l intersection des A i est l ensemble i I A i des a E pour lesquels a A i pour tout i I. On dit que deux ensembles sont disjoints si leur intersection est vide. On dit que les ensembles A i, i I constituent une partition de l enemble E si i) ils sont non vides, ii) leur union sur i I vaut E iii) ils sont disjoints deux à deux (A i A j = si i j); on dit aussi que E est union disjointe des A i, i I. 5

6 6 CHAPITRE 1. RAPPELS DE THÉORIE DES ENSEMBLES On a les formules ( i I A i)c = i I A c i, ( i I A i)c = i I A c i. Si A 1,...,A n sont des ensembles on peut définir le produit cartésien de ces ensembles comme étant l ensemble des n-uplets (a 1,...,a n ) où a 1 A 1,...,a n A n. On note cet ensemble A 1 A n. Quand les A i sont finis son cardinal est le produit des cardinaux des A i. 1.2 Applications entre ensembles Si A et B sont deux ensembles, une application associe à tout élément a de A un unique élément noté f(a) de B. On dit que f(a) est l image de a par f. Un élément de B peut n être l image d aucun élément de A ou au contraire être l image de plusieurs éléments de A. On dit qu une application est injective si tout élément de B est l image d au plus un élément de A, surjective si tout élément de B est l image d au moins un élément de A et bijective si elle est injective et surjective. On note B A l ensemble des applications de A dans B. Quand A et B son finis son cardinal vaut (#B) #A. Si E est un ensemble fixé, l ensemble des parties de E est en bijection avec l ensemble des applications de E dans l ensemble à deux éléments {0, 1}. Cette bijection est la suivante : à tout ensemble A E on associe sa fonction caractéristique ou fonction indicatrice 1 A : E {0, 1} définie par 1 A (e) = 1 si e A et 1 A (e) = 0 sinon. Réciproquement si f est une application de E dans {0, 1} l ensemble A des e E tels que f(e) = 1 est tel que 1 A ( ) = f( ). En particulier, ceci démontre que quand E est fini le cardinal de P(E) est 2 #E. Si A 1,...,A n sont des sous-ensembles de E on a n 1 A1 A n = 1 Ai. Si f est une application de E dans F on définit pour tout B F l ensemble f 1 (B) comme étant l ensemble des e E tels que f(e) B. (Cette définition a un sens même si f n est pas inversible.) On dit que f 1 (B) est la pré-image de B par f. On a toujours ( ) f 1 A i = f 1 (A i ), i I i I f 1 ( i I i=1 ) A i = f 1 (A i ), f 1 (A c ) = i I ( f 1 (A)) c.

7 1.2. APPLICATIONS ENTRE ENSEMBLES 7 Attention le comportement par image directe n est pas aussi bon. Exercice i) Montrer que si A, B sont deux sous-ensembles de E on a 1 1 A B = (1 1 A )(1 1 B ), et en déduire que #(A B) = #A + #B #(A B). ii) En généralisant la formule précédente montrer que n #(A 1 A n ) = ( 1) p 1 #(A i1 A ip ). p=1 1 i 1 <...<i p n Solution. i) Pour tout ensemble F E 1 F c = 1 1 F. Donc 1 1 A B = 1 A c B c On a donc = 1 A c1 B c = (1 1 A )(1 1 B ). Or, pour tout ensemble F E On a donc bien la conclusion. ii) De façon générale, et donc 1 1 A1 A n = A B = 1 A + 1 B 1 A 1 B = 1 A + 1 B 1 A B. #F = e E 1 F (e). 1 1 A1 A n = = 1 + n ( 1) p p=1 n ( 1) p p=1 n (1 1 Ai ), i=1 1 i 1 <...<i p n 1 i 1 <...<i p n 1 Ai1 1 Aip 1 Ai1 A ip, et en sommant sur e E on obtient bien la formule annoncée.

8 8 CHAPITRE 1. RAPPELS DE THÉORIE DES ENSEMBLES 1.3 Dénombrement Cardinal d une union disjointe finie. Si A 1,...,A n sont des ensembles finis disjoints deux à deux tels que A 1 = E alors E et fini et #E = n #A i. i=1 Cardinal d un produit. Si A 1,...,A n sont des ensembles finis le cardinal du produit A 1 A n est donné par #(A 1 A n ) = (#A 1 ) (#A n ). Cardinal de l ensemble des applications de A dans B. Si A et B sont des ensembles finis, l ensemble des applications de A dans B est fini et à pour cardinal #(B A ) = (#B) #A. Nombre d injections entre deux ensmbles finis. Si A et B sont deux ensembles finis avec #A = p, #B = n, l ensemble des applications injectives de A vers B a un cardinal égal à { 0 si #A > #B n(n 1) (n p + 1) si p n. En effet, supposons A = {a 1,..., a p }; si p > n, il ne peut y avoir d applications injective de A vers B, tandis que si p n, il y a n choix possibles pour la valeur f(a 1 ), n 1 choix possibles pour la valeur de f(a 2 ) (comme f est injective f(a 2 ) ne peut pas prendre la même valeur que f(a 1 )) etc. n (p 1) = n p + 1 choix possibles pour f(a p ) C est aussi le nombre de p-uplet (ordonnés) (e 1,...,e p ) où e i E. Nombre de bijections de A vers A. Si A est un ensemble de cardinal n, une application de A vers A est bijective si et seulement si elle est injective et par conséquent le nombre de bijection de A vers A (on dit aussi le nombre de permutations de A) égale n! = n(n 1) 1.

9 1.3. DÉNOMBREMENT 9 Cardinal de P(E). Si E est fini de cardinal n, le nombre de sous-ensembles de E est égal au nombre d applications de E vers {0, 1} et vaut donc #P(E) = 2 n. Nombre de sous-ensembles de cardinal p d un ensemble à n éléments. Si E est un ensemble fini de cardinal n, le nombre de sous-ensemble de E de cardinal exactement p égale ( ) n p = C p n = n(n 1) (n p + 1) p! = n! p!(n p)!. En effet, un sous-ensemble {a 1,...,a p } de E peut être vu comme un p- uplet d élément de E où l on oublie l ordre des éléments. Or, étant donnés p éléments de E on peut former p! (nombre de bijections de {a 1,...,a p } dans lui même) p-uplets. Ainsi, le nombre de sous-ensembles de cardinal p d un ensemble à n éléments égale le nombre d injection de l ensemble {1,..., p} dans E (i.e le nombre de p-uplets de E) divisé par p!. Une autre preuve de ce résultat est la suivante : considérons le polynôme (1 + X) n = (1 + X) (1 + X). Quand on développe le produit, on obtient une somme de produits de 1 et de X et on voit que le coefficient de X p est égal au nombre de façons de choisir p éléments parmi n. Or, on sait d après la formule du binôme de Newton, que le coefficient de X p est C p n. Cardinal et fonctions caractristiques Si A E on a #A = x E 1 A (x). ExerciceUne urne contient N boules noires et M boules blanches. i) On effectue n tirages sans remise. Quel est le nombre total de tels tirages? Combien de tirages donnent x (x n) boules noires? ii) ) On effectue n tirages avec remise. Quel est le nombre total de tels tirages? Combien de tirages donnent x (x n) boules noires? Solution. On note {1,..., N} l ensemble des boules noires et {N + 1,..., N + M} l ensemble des boules blanches. i) Un tirage sans remise est équivalent à la donnée d une injection de {1,...,n} dans {1,..., N + M} (ou à une suite ordonnée, un n-uplet (x 1,...,x n ),

10 10 CHAPITRE 1. RAPPELS DE THÉORIE DES ENSEMBLES x i {1,..., N + M}). Il y a donc (N + M) (N + M n + 1) tirages sans remise. Un tirage où x boules noires sont tirées est équivalent à la donnée d un sousensemble A de {1,...,n} à x élements (si on pense au tirage comme à une expérience, A est l ensemble des temps où le résultat de notre expérience est boule noire ) et de deux injections, une de A dans l ensemble des boules noires, une seconde du complémentaire de A dans {1,..., n} dans l ensemble des boules blanches : on a donc ( ) n N(N 1) (N x + 1) M(M 1) (M (n x) + 1) x choix possibles, c est-à-dire ( ) n N(N 1) (N x + 1) M(M 1) (M n + x + 1) x choix possibles. Remarquons que la proportion du nombre de tirages sans remise où x boules noires sortent dans l ensemble des tirages sans remise est ( n ) x N(N 1) (N x + 1) M(M 1) (M n + x + 1) = = (N + M) (N + M n + 1) ( n ) ( x N ( x) x! M n x) (n x)! ( N+M ) n n! ( N M ) x)( n x ( N+M ) n ii) Un tirage avec remise est équivalent à la donnée d une application (pas nécessairement injective) de {1,..., n} vers {1,...,N + M} (ou encore d un n-uplet (e 1,...,e n ) de {1,..., N+M} n ); il y a donc (N+M) n choix possibles. Un tirage où x boules noires sont tirées est équivalent à la donnée : d un sousensemble A de {1,..., n} à x élements, d une application (pas nécessairement injective) de A dans {1,..., N} (ou encore d un x-uplet de {1,..., N} x ) et d une application de {1,..., n} A dans {N + 1,...,N + M} (ou encore un (n x)-uplet de {N + 1,...,N + M}). Il y a donc ( ) n N x M n x x choix possibles. Remarquons que la proportion du nombre de tirages avec

11 1.4. DÉNOMBRABILITÉ 11 remise où x boules noires sortent dans l ensemble des tirages avec remise est ( ) ( ) n N x M n x n x (N + M) = p x (1 p) n x, n x où p = N/(N + M). 1.4 Dénombrabilité Définition Un ensemble est dit dénombrable s il est en bijection avec l ensemble N des entiers naturels. Nous étendrons cette définition en disant qu un ensemble est dénombrable s il est fini ou en bijection avec N. De façon plus concrète, un ensemble est dénombrable si on peut énumérer ses éléments. Proposition Si A et B sont deux ensembles. a) S il existe une injection de A dans B et si B est dénombrable alors A est dénombrable b) S il existe une surjection de A dans B et si A est dénombrable, alors B est dénombrable. Théorème a) Si A 1,...,A n sont des ensembles dénombrables, le produit A 1 A n est également dénombrable. b) Si (A i ) i I est une famille dénombrable (c est-à-dire I est dénombrable) d ensembles dénombrables (pour tout i I, A i est dénombrable) alors la réunion i I A i est également dénombrable. Démonstration. a) On peut supposer A 1 =... = A n = N. Notons p 1,..., p n les n premiers nombres premiers (p est premier s il est divisble uniquement par 1 et par p) et considérons l application qui à (l 1,...,l n ) N n associe le nombre 2 l1 3 l2 p ln n est une injection de Nn dans N car la décomposition en facteurs premiers d un nombre est unique. La proposition a) permet de conclure. b) Considérons l application de N N dans i I A i qui au couple (n, m) associe le m-ième élément de l ensemble A in où i n est le n-ième élément de I. C est une surjection. La proposition b) donne la conclusion. Corollaire L ensemble des entiers relatifs Z et l ensemble des nombres rationnels Q sont dénombrables.

12 12 CHAPITRE 1. RAPPELS DE THÉORIE DES ENSEMBLES Démonstration. L ensemble Z est dénombrable car l application de l ensemble dénombrable {1, 1} N dans Z qui au couple (ɛ, n) associe le produit ɛn est une surjection. De même, Q est dénombrable car l application de l ensemble dénombrable Z (N {0}) dans Q qui au couple (p, q) associe le rationnel p/q est une surjection. On peut démontrer que Théorème L ensemble des nombres réels R n est pas dénombrable. Corollaire L ensemble des nombres irrationnels n est pas dénombrable. Démonstration. Car sinon, R qui est réunion de Q et de l ensemble des nombres irrationnels serait dénombrable (comme union dénombrable d ensembles dénombrables).

13 Chapitre 2 Espaces Probabilisés et variables aléatoires 2.1 Espace probabilisé Un espace probabilisé est la donnée d un espace Ω que l on appelle l espace des états. Quand on modélise une situation concrète Ω est l ensemble des états du système que l on considère. Bien souvent cet espace est inaccessible à l expérience; d un sous-ensemble B de P(Ω) qui est l ensemble des évènements. Dans une situation concrète c est l ensemble de tous les résultats d expériences que l on peut effectuer sur le système. En théorie des probabilités (donc quand on fait des mathématiques) cet ensemble B sera une tribu ou encore (c est équivalent) une σ-algèbre (cf. définition 2.1.1; d une probabilité P : pour tout évènement A B le réel P(A) est le degré de vraisemblance de l évènement A; c est un nombre compris entre 0 et 1. Mathématiquement, une probabilité est une application P : B [0, 1] vérifiant les propriétés décrites en dans la définition Nous précisons dans la suite les deux derniers points Tribus Soit Ω un ensemble fixé (l espace des états). Définition Une tribu ou encore une σ-algèbre de Ω est un ensemble de parties de Ω (donc un sous-ensemble de P(Ω), l ensemble des parties de Ω) qui contient l ensemble vide, est stable par passage au complémentaire et est stable par union dénombrable : B 13

14 14CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES pour tout A B on a A c B pour toute famille dénombrable (A i ) i N d éléments de B l union est également dans B. i N Il est clair que Ω est toujours élément de la tribu (c est le complémentaire de l ensemble vide) et qu une intersection dénombrable d éléments de la tribu est encore dans la tribu (car i N A i = ( i N A c i )c ). Exemples 1) Si Ω est un ensemble quelconque on peut toujours définir deux tribus : la tribu triviale qui est B = {, Ω} la tribu totale qui est B = P(Ω). 2) Si Ω = {1, 2, 3} le sous-ensemble de P(Ω), B = {, {1}, {2, 3}, Ω} est une tribu de Ω. 3) (Exercice :) Si Ω est un ensemble le sous-ensemble de P(Ω) constitué des ensembles qui sont dénombrables ou dont le complémentaire est dénombrable est une tribu. Sauf dans le cas où l espace Ω est fini, les exemples précédents de tribus sont trop simples pour être utiles. La proposition donne un moyen très commode de construire des tribus non-triviales. Proposition Soit Ω un ensemble et S un sous-ensemble de parties de Ω (un sous-ensemble de P(Ω)) sans structure particulière. Il existe une unique tribu B qui contient S et qui est minimale pour cette propriété c està-dire : (S B) : pour tout A S on a A B (minimale) : si B est une autre tribu telle que S B alors B B. On appelle B la tribu engendrée par la partie S et on la note (dans ce cours) B = B(S). Démonstration. Considérons l ensemble E des tribus C de Ω tel que S C. Cet ensemble E est non vide puisqu il contient la tribu P(Ω) et puisque S P(Ω). Notons B l intersection des C quand C décrit E. C est un sous-ensemble de P(Ω) qui contient S mais c est également une tribu comme il est facile de vérifier (nous A i

15 2.1. ESPACE PROBABILISÉ 15 recommandons au lecteur de vérifier ce point). Ainsi, B est une tribu contenant S et appartient donc à E. Comme B est l intersection des C décrivant E on a pour toute tribu C contenant S l inclusion B C : ceci qui signifie que B est la plus petite trbibu contenant S Probabilité Définition Si Ω est un ensemble et B est une tribu de Ω, une probabilité P est une application de B dans [0, 1] telle P(Ω) = 1 et telle que pour toute famille dénombrable (A i ) i N d évènements de B disjoints 2 à 2 on a ( P i N A i ) = P(A i ). i=0 où l égalité précédente signifie la chose suivante : la probabilité P( i N A i ) est égale à la limite de la suite croissante de nombres réels N i=0 P(A i) quand N tend vers l infini.( Cette limite existe toujours car la suite en question est croissante et bornée.) Remarque L intérêt d autoriser la stabilité par unions (intersections) dénombrables dans la définition d une tribu permet de construire à partir d évènements simples des évènements beaucoup plus intéressants que ceux qu on obtiendrait en ne supposant que la stabilité par unions (intersections) finies. En revanche, si on autorisait la stabilité par unions (intersections) quelconques on ne pourrait pas construire beaucoup de probabilités. La stabilité par unions (intersections) dénombrable est donc le bon compromis. Mentionnons tout d abord deux propriétés immédiates des probabilités : Proposition Soit (Ω, B,P) un espace probabilisé. a) Si A B, b) P( ) = 0 P(A c ) = 1 P(A). c)(positivité) Si A, B B vérifient A B alors P(A) P(B). d) Si A, B B alors P(A B) = P(A) + P(B) P(A B).

16 16CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES Démonstration. a) Il suffit décrire Ω comme l union disjointe finie Ω = A A c : comme P est une probabilité 1 = P(Ω) = P(A) + P(A c ). b) suit de la formule précédente et du fait que P(Ω) = 1. c) On écrit B comme l union disjointe B = A (B A c ) et P(B) = P(A) + P(B A c ). Comme P(B A c ) 0 on a bien P(B) P(A). d) De l union disjointe A B = A (B A c ) on déduit P(A B) = P(A) + P(B A c ). Mais de l union disjointe B = (B A c ) (B A) on obtient P(B) = P(B A c ) +P(A B). De ces deux égalités on déduit la formule d) La preuve des propriétés qui suivent n est pas difficile mais, à la différence de la démonstration des propriétés précédentes, ne pourrait se faire sans autoriser des unions dénombrables : Proposition a) Si A i, i N est une famille croissante d éléments de B dont l union est A alors A B et la suite P(A n ) (qui est croissante bornée) converge vers P(A) : lim P(A n) = P(A); n b) Si A i, i N est une famille décroissante d éléments de B dont l union est A alors A B et la suite P(A n ) (qui est décroissante positive) converge vers P(A) : lim n P(A n) = P(A); c) Si A i, i N est une famille dénombrable d ensembles appartenant à B on a toujours (même si les A i ne sont pas disjoints deux à deux) ( ) P A i P(A i ), i N (où le membre de droite de l inégalité précédente qui est la limite de la suite croissante peut éventuellement être infini). Démonstration. a) Définissons les ensembles B n, n 0 de la façon suivante : B 0 = A 0, et pour n 1, B n = A n A c n 1. Les B n constituent une famille dénombrable d ensembles disjoints deux à deux d éléments de B et on peut donc écrire ( P(B k ) = P B k ). k=0 i=0 k N

17 2.1. ESPACE PROBABILISÉ 17 c est-à-dire lim N N k=0 ( P(B k ) = P k N B k ), ou encore, puisque les B k sont disjoints deux à deux Mais ( lim P N ) ( B k = P B k ), N k=0 k N N B k = A N, k=0 ce qui établit la preuve de a). B k = A k=0 b) Il suffit de passer au complémentaire et d utiliser a) c) Pour ω Ω définissons l entier ν(ω) comme étant le plus petit entier k 0 pour lequel ω A k. L ensemble C n des ω Ω pour lesquels ν(ω) = n est l ensemble C n = {ω Ω, ν(ω) = n} = A n (A n 1 A 0 ) c qui est clairement dans B. Les ensembles C n sont de toute évidence disjoints deux à deux et leur union pour n 0 est n N A n car pour tout ω dans n N A n il existe un n tel que ν(ω) = n c est-à-dire il existe un n tel que ω C n. On a donc ( P n 0 ) ( A n = P n 0 C n ) = P(C n ), et comme P(C n ) P(A n ) (puisque C n A n ) on obtient la conclusion du c). Les deux propriétés précédentes a) et b) sont des propriétés de continuité (dans un sens à préciser) des probabilités. n= Exemples Mesures de Dirac Sur tout ensemble Ω muni d une tribu B il est possible de construire des mesures de la façon suivante : pour tout α Ω définissons l application δ α : B [0, 1] qui à un ensemble A B associe le réel 1 si α A et 0

18 18CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES sinon. Cette application δ α est une mesure de probabilité que l on appelle la mesure de Dirac au point α. Vérifions rapidement que c est bien une mesure : déjà δ α (Ω) = 1 puisque α Ω; par ailleurs si A i B, i 0 est une famille dénombrable d ensembles de la trbibu disjoints deux à deux on a δ α ( i 0 A i ) = δ α (A i ), car : soit α appartient à i 0 A i ; mais alors il existe un i 0 pour lequel α A i et cet indice i est unique car les A i sont disjoints deux à deux. L égalité précédente se réduit à 1 = 1; soit α n appartient pas à i 0 A i et de ce fait n apartient à aucun des A i : l égalité se réduit à 0 = 0. Probabilités sur un ensemble fini Les espaces probabilisés les plus simples sont ceux où l espace des états Ω est fini. On choisit en général comme tribu B l ensemble P(Ω) de toutes les parties de Ω (qui est bien une tribu). C est ce que nous ferons (car le cas où B est une tribu plus petite que P(Ω) s y ramène). Ceci étant, il reste à définir la probabilité. Remarquons que tout ensemble A B = P(Ω) est fini (car inclus dans Ω qui est fini) et est par conséquent l union (finie donc dénombrable) des singletons {a} où a décrit A : A = a A{a}. Comme cette union est disjointe et finie on a P(A) = a A P({a}). Si Ω = {c 1,...,c n } et si on note p i = P({c i }) on a P(A) = p i. i,c i A Remarquons que les p i sont dans [0, 1] et vérifient n p i = 1. i=1

19 2.1. ESPACE PROBABILISÉ 19 En conclusion : dans le cas où Ω est fini, une probabilité P sur B = P(Ω) est déterminée par ses valeurs sur les singletons de Ω. Réciproquement si on se donne n nombres réels positifs p 1,...,p n dont la somme vaut 1 (p 1 + +p n = 1) alors, l application P : P(Ω) [0, 1] qui à A P(Ω) associe le réel (dans [0, 1]) P(A) = est une probabilité {i:c i A} Exercice : Démontrer l énoncé précédent. Probabilités uniformes et lien avec la combinatoire Un cas important est celui où tous les p i, 1 i n précédents sont égaux. Comme leur somme doit valoir 1 ceci signifie que p 1 = = p n = 1. On dit dans ce cas que la n probabilité P est uniforme. On a alors, pour tout sous-ensemble A de Ω soit P(A) = {i:c i A} p i p i = #{i {1,..., n}, c i A}. 1 n P(A) = #A #Ω. Ainsi, quand on travaille avec une probabilité uniforme sur un ensemble fini, déterminer la probabilité d un évènement revient à calculer son cardinal : on voit apparaîitre le lien avec la combinatoire. Exercice : On tire cinq cartes d un jeu de 32 cartes. Quelle est la probabilité d obtenit un full c est-à-dire deux cartes de même valeur et trois autres cartes de même valeur. On supposera chaque tirage équiprobable Exercice : Une urne contient n boules noires et b boules blanches. a) On effectue N tirages avec remises. Quelle est la probabilité d obtenir x boules noires? b) Même question si les tirages sont sans remises. On supposera les tirages équiprobables. Jeu de n Pile ou Face On se propose de modéliser un jeu où l on lance n fois une pièce (Pile/Face). De façon équivalente un expérimentateur réalise n expérience le résultat de chaqu une d entre elles pouvant être positif (1) ou négatif (0). Il est naturel de décrire le jeu ou l expérience précédentes de la façon suivante : on choisit comme espace des états l ensemble Ω de toutes les suites de longueur n constituées de 0 ou de 1. Une telle suite est donc un

20 20CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES n-uplet ω = (ω 1,...,ω n ) chaque ω i, 1 i n appartenant à l ensemble à deux éléments {0, 1}. Ainsi Ω = {0, 1} n, et a 2 n éléments. Nous choisirons comme tribu B = P(Ω), l ensemble des parties de Ω (qui a donc 2 2n mais cela n a pas d importance). Cette tribu nous permet de décrire des évènements. Par exemple l évènement (A) obtenir k Pile lors des n lancers est décrit par l ensemble A B (Pile=1, Face=0) A = {ω = (ω 1,...,ω n ), n ω i = k.}. L évènement (B) on tire au moins un Pile est décrit par l ensemble i=1 B = {ω = (ω 1,...,ω n ), i {1,...,n} ω i = 1}. L évènement (A) et (B) est décrit par l intersection A B, l evènement non A est décrit par A c, l évènement A ou B par A B etc. Le choix de la probabilité sur notre ensemble est dicté par le jeu ou l expérience que l on modélise. Ainsi, on ne modélisera pas de la même façon un jeu ou pile et face ont les mêmes chances de sortir qu un jeu où pile a deux fois plus de chance de sortir que face. Dans le premier cas, il est naturel 1 de choisir comme probabilité P la probabilité uniforme P(A) = #A Ω = #A 2 n. Noter que la probabilité d un évènement élémentaire on a tiré la suite (ɛ 1,...,ɛ n ) c est-à-dire la probabilité du singleton {(ɛ 1,...,ɛ n )} vaut 1/2 n (ceci quel que soit ɛ 1,...,ɛ n ). En revanche, dans le second cas, on définira la probabilité d un évènement élémentaire {ɛ 1,...,ɛ n )} comme étant (2/3) k (1/3) n k où k est le nombre de 1 dans la suite ɛ 1,...,ɛ n. Exercice : Calculer dans chacun des cas précédents les probabibilités des évènements A et B. Le jeu infini de pile ou face Nous présentons dans ce paragraphe la modélisation du jeu de pile ou face où l on joue une infinité de fois. Il est naturel d introduire comme espace des états l ensemble Ω des suites ω = (ω 1, ω 2,...) où les ω i valent 0 ou 1. On a ainsi Ω = {0, 1} N {0}. Un problème plus délicat est de trouver une tribu 1 en fait cela sera encore plus naturel quand on aura défini la notion d indépendance

21 2.1. ESPACE PROBABILISÉ 21 raisonnable sur cet ensemble. On aimerait par exemple pouvoir décrire un évènement du type : en moyenne pile sort deux fois plus souvent que face qui de façon ensembliste est l ensemble des ω = (ω 1,...) Ω pour lesquels la limite quand n tend vers l infini de la suite 1 n ω i n i=1 existe et vaut 2/3. Un moment de réflexion montre que cet évènement n appartient à aucune des tribus F n qui modélisent un jeu de n pile/face 2. Nous définirons la tribu B sur Ω de la façon suivante : la tribu B est la tribu engendrée (au sens de la proposition 2.1.1) par tous les évènements C i,ɛ C i,ɛ = {ω Ω, ω i = ɛ}, où i décrit N {0} et ɛ décrit {0, 1}. Il reste à présent à construire une probabilité sur B ce qui est assez délicat. Si on joue avec une pièce qui donne Pile (resp. Face) avec probabilité 1/2 il est naturel d attribuer à tout évènement C i,ɛ la probablité (1/2) (indépendamment de la valeur de ɛ) et il est également naturel de demander que la probabilité d un évènement de la forme 3 {ω Ω, ω i1 = ɛ 1,...,ω ir = ɛ r } = C i1,ɛ 1 C ir,ɛ r soit égale à (1/2) r. Il n est en revanche pas du tout clair que l on puisse attribuer à tout évènement de la tribu B une probabilité qui soit compatible avec ces choix. En fait c est possible : Théorème Il existe une unique mesure de probabilité P définie sur (Ω, B) telle que pour tous r 1, i 1,...,i r N {0}, ɛ 1,...,ɛ r {0, 1} on ait P(C i1,ɛ 1 C ir,ɛ r ) = 1 2 r. Probabilité sur R Il est important de savoir décrire des probabilités sur R, l ensemble des nombres réels. L espace des états est alors Ω = R et la tribu que l on choisit est la tribu engendrée par les intervalles ouverts de R. On l appelle la tribu borélienne et on la note Bor(R). Retenons la définition : 2 On peut toujours considérer un jeu de n pile/face comme un cas particulier d un jeu infini de pile/face : Il suffit d associer à toute suite ω = (ω 1,..., ω n ) de {0, 1} n la suite ω {0, 1} N {0} définie par ω i = ω i si 1 i n et ω i = 0 si i n Cet évènement décrit l expérience suivante : au temps i 1,...,i r, on observe ɛ 1,..., ɛ r et on ne précise pas ce qui se passe aux autres temps

22 22CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES Définition La tribu borélienne de R est la tribu engendrée par les intervalles ouverts de R. 4. On la note Bor(R). Exercice : Montrer que la tribu borélienne de R est également la tribu engendrée par les intervalles de la forme ], a]. Solution : Notons C la tribu engendrée par les intervalles de la forme ], a]. Remarquons pour cela que si ]c, d[ est un intervalle ouvert (c < d peuvent être infinis) on a ]c, d[=], c] c ], d[. Mais ], d[ s écrit comme union dénombrable d intervalles de C : ], d[= n N ], d 1 n ]. Ainsi, C étant une tribu (donc stable par union dénombrable) ], d[ appartient à C. Comme ], c] est dans C, l intersection ]c, d[=], c] c ], d[ est également dans C (C est stable par complémentaire et intersections finies ou dénombrables). Nous avons donc démontré que la tribu C contenait les intervalles ouverts. Or, la tribu borélienne est la plus petite tribu contenant les intevalles ouverts. Par conséquent, Bor(R) C. L inclusion récipoque se démontre de façon similaire (c est plus facile). Exercice : 1) Montrer qu un singleton {a} est borélien. 2) Montrer que Q l ensemble des rationnels est borélien. 3) L ensemble des irrationnels est-il borélien. 4) Montrer qu un intervalle fermé [a, b] est borélien (on observera que [a, b] = p 1 ]a 1 p, b + 1 p [.) Définition Si µ est une probabilité sur (R, Bor(R)) on introduit F µ la fonction définie par F µ (x) = µ(], x]). On appelle F µ ( ) la fonction de répartition de la mesure de probabilité µ. Proposition La fonction F µ : R [0, 1] définie par F(x) = µ(], x]) i) est croissante ii) admet des limites en + et qui valent : lim F(x) = 1, lim x F(x) = 0 x 4 elle est également engendrée par les intervalles ou les intervalles de la forme ], a] ou encore les intervalles fermés etc.

23 2.1. ESPACE PROBABILISÉ 23 iii) est continue à droite en tout point x R c est-à-dire lim F(t) = F(x). t x,x<t Démonstration. i) Si x y on a ], x] ], y] et d après la proposition c) on a bien µ(], x]) µ(], y]). ii) Pour tout suite x n croissant vers (resp. décroissant vers ) la suite de boréliens ], x n ] est croissante pour l inclusion (resp. décroissante pour l inclusion) et leur union vaut Ω (resp. leur intersection vaut ). Par conséquent d après la proposition a) (resp. b)) lim n µ(], x n ]) = 1 (resp. lim n µ(], x n ]) = 0 ) ce qui démontre ii) iii) Pour toute suite t n décroissante et convergeant vers x, la suite de boréliens ], t n ] est décroissante et leur intersection vaut ], x] ce qui démontre que lim n µ(], t n ]) = µ(], x]). Remarque : Attention, la fonction de répartition d une mesure n est pas toujours continue à gauche.considérons en effet la mesure de Dirac en 0 que nous notons δ 0 : par définition c est la mesure qui à tout borélien A de R associe 1 si 0 appartient à A et 0 sinon; on sait que c est une mesure. Sa fonction de répartition est : F(x) = 0 si x < 0 et F(x) = 1 si x 0 (c est une fonction en escalier) qui est bien continue à droite en 0 mais n est pas continue à gauche en 0. Le théorème qui suit (dont la démonstration dépasse le cadre de ce cours) permet de construire de très nombreuses mesures de probabilités sur la droite réelle munie de sa tribu borélienne. Théorème Si F : R [0, 1] est une fonction croissante, qui admet une limite nulle en et une limite égale à 1 en, et qui est continue à droite en tout point de R alors il existe une unique mesure de probabilité µ définie sur (R, Bor(R)) qui admet F comme fonction de répartition. Ce théorème illustre l équivalence entre la notion de probabilité sur (R, Bor(R)) et celle de fonction de répartition. Donnons un exemple fondamental et typique d une telle construction : la fonction F définie par : F(x) = 0 si x < 0, F(x) = x si 0 x < 1 et F(x) = 1 si x 1 vérifie bien les hypothèses du théorème et définit donc une mesure de probabilité λ que l on appelle la mesure de Lebesgue sur l intervalle [0, 1]. Si I est un intervalle de R on a λ(i) = longueur(i [0, 1]).

24 24CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES 2.2 Variables Aléatoires Définition Une variable aléatoire réelle (en abrégé v.a) est une application X : Ω R telle que pour tout intervalle ouvert I de R l ensemble X 1 (I) des ω Ω tels que X(ω) I, appartient à B. En fait Proposition Si X : Ω R est une application alors les trois propositions suivantes sont équivalentes a) pour tout borélien A Bor(R) X 1 (A) B. b) X est une variable aléatoire; c) pour tout intervalle I de la forme I =], a], X 1 (I) appartient à B ; Démonstration. Que a) implique b) et que b) implique c) est évident. Démontrons donc que c) implique a). L ensemble E des A R tels que X 1 (A) B est une tribu (exercice). Or, cet ensemble E contient d après c) les intervalles de la forme ], a] et par conséquent la tribu engendrée par les intervalles de la forme ], a]. Mais on sait, d après l exercice qui suit la définition 2.1.3, que cette tribu égale la tribu borélienne. Ainsi, pour tout borélien A, X 1 (A) B. Notation Dans la suite du cours, quand X est une v.a et A un borélien de R nous noterons {X A} ou [X A] ou (X A) l ensemble {ω Ω : X(ω) A}. La proposition qui suit permet de construire de v.a. Proposition a) Si X n, n 1 est une famille de v.a alors Z = sup n 1 X n (resp. Z = inf n 1 X n ) est une v.a b) Si X 1,...,X n sont des v.a et f : R n R est une application continue alors Z = f(x 1,...,X n ) est une v.a Démonstration. a) Soit ω tel que sup n 1 X n (ω) > a. Alors par définition du sup, il existe un n pour lequel X n (ω) > a et ω est donc dans l union n 1 {X n > a}. Réciproquement si ω n 1 {X n > a} alors il existe n tel que X n (ω) > a et a fortiori sup n X n (ω) > a. Nous avons donc démontré que les deux ensembles {Z > a} et n 1 {X n > a} sont égaux. Mais ce dernier ensemble est une union dénombrable d éléments de la tribu B (car chaque X i est une v.a). Ainsi pour

25 2.2. VARIABLES ALÉATOIRES 25 tout a l évènement {sup n 1 X n (ω) > a} est dans B et il en est de même de son complémentaire {sup n 1 X n (ω) a}. La proposition?? permet de conclure. b) Si I est un intervalle de R, Z 1 (I) est l ensmble des ω Ω tels que (X 1 (ω),..., X n (ω)) f 1 (I). Comme f est continue, f 1 (I) est un ensemble ouvert de R n et, par consquent, est une union dénombrable de pavés ouverts c est -à-dire d ensembles P de la forme ]a 1, b 1 [ ]a n, b n [. Par conséquent l ensmble des ω Ω tels que (X 1 (ω),..., X n (ω)) f 1 (I) est une union dénombrable d ensembles de la forme {ω Ω, (X 1 (ω),..., X n (ω) ]a 1, b 1 [ ]a n, b n [} c est-à-dire d ensembles de la forme {ω Ω, X 1 (ω) ]a 1, b 1 [,...,X n (ω) ]a n, b n [} = X1 1 (]a 1, b 1 [) Xn 1(]a n, b n [) qui sont clairement dans B. En particulier Proposition a) Si X : Ω R est une v.a. et f : R R est une application continue, alors la fonction Y : Ω R définie par Y = f X (c est-à-dire Y (ω) = f(x(ω)) pour tout ω Ω) est encore une v.a. On la note Y = f(x). b) Si X, Y sont deux v.a l application Z = max(x, Y ) est une v.a c) Si X et Y sont deux v.a, ax + by est également une v.a Le cas particulier des v.a à valeurs dans un ensemble fini ou dénombrable Il s agit du cas où X(Ω) l ensemble des valeurs prises par X est un ensemble fini ou dénombrable de R. Dans ce cas la caractérisation des variables aléatoires est plus simple : Proposition Si X : Ω R est à valeurs dans un ensemble fini ou dénombrable E alors X est une variable aléatoire si et seulement si pour tout e E, X 1 ({e}) B. Démonstration. Il s agit de démontrer que pour tout intervalle ouvert de la forme ]a, b[ (avec a et b finis par exemple) l ensemble des ω Ω tels X(ω) ]a, b[ est dans B. On a alors X(ω) ]a, b[ E. Mais ce dernier ensemble est au plus dénombrable et comme X 1 (]a, b[) = X 1 ({e}) on voit que X 1 (]a, b[) est dans B. e ]a,b[ E

26 26CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES Exemple Revisitons l exemple du jeu infini de Pile/Face : Ω = {0, 1} N et B est la tribu engendrée par les ensembles C i,ɛi = {ω = (ω 0,...) Ω, ω i = ɛ i }. Pour n N l application X n : {0, 1} N {0, 1} qui à ω = (ω 0, ω 1,...) associe ω n est une variable aléatoire. Il suffit en effet de vérifier que pour ɛ = 0 ou ɛ = 1 l ensemble des ω pour lesquels ω n = ɛ appartient à B. Or, cet ensemble est le cylindre C n,ɛ qui par définition est dans B. En fait, la tribu B a été construite de façon que toutes les applications X n : Ω {0, 1} (n 0) soient des variables aléatoires (c est d ailleurs la plus petite tribu ayant cette propriété). Exercice On considère le jeu infini de Pile/Face (Ω, B,P) et on garde les notations de l exemple précédent. Définissons pour tout ω Ω, l entier ν(ω) comme étant le plus petit entier k pour lequel X k (ω) = 1 (en d autres termes ν(ω) est le premier temps où on tire Pile). Démontrer que ν est une variable aléatoire. Solution : Si {ν = 0} = {X 0 = 1} est dans B car X 0 est une v.a et pour tout n N, (n 1) {ν = n} = {X 0 = 0} {X n 1 = 0} {X n = 1}; c est une intersection finie déléments de B (car, puisque chaque X i est une v.a, les ensembles {X i = 0}, 1 i n 1 et {X n = 1} c sont dans B) Loi d une variable aléatoire Soit X : Ω R une v.a. On sait que pour tout borélien A de R l ensemble X 1 (A) est un évènement (appartient à B). Il est donc possible de parler de la probabilité P(X A) de l évènement {X A}. Proposition L application µ X : Bor(R) [0, 1] qui à tout borélien de R associe le réel P(X A) de [0, 1] est une probabilité sur (R, Bor(R)). On appelle cette probabilité la loi de la v.a X. Démonstration. Il suffit de démontrer que si (A i ) i N est une famille dénombrable de boréliens de R disjoints deux à deux alors P(X i NA i ) = P(X A i ), ce qui est clair car l évènement {X i N A i } est l union dénombrable disjointe des évènements {X A i }. Enfin la condition P(X R) = 1 achève la preuve. i=0

27 2.2. VARIABLES ALÉATOIRES 27 Il faut retenir que la loi d une v.a est une probabilité sur R (muni de sa tribu borélienne). Ceci illustre le fait qu il est possible de construire de nombreuses mesures de probablilités sur R muni de sa tribu borélienne Loi des variables aléatoires à valeurs dans un ensemble fini ou dénombrable Si X : Ω R prend ses valeurs dans un ensemble E = {e 0, e 1,...} qui est fini ou dénombrable la loi µ X de X est la mesure sur (R, Bor(R)) µ X = e E P(X = e)δ e. En effet pour tout borélien (ou tout intervalle) A P(X A) = P(X A E) = e A E et cette somme n est rien d autre que P(X = e)δ e (A). e E P(X = e), La loi de X est donc parfaitement déterminée par les réels p X (e) = P(X = e), (e E) et dans la pratique quand on demande de déterminer la loi de X on demande de calculer les réels p X (e) = P(X = e). Quelques lois classiques de variables aléatoires à valeurs dans un ensemble fini ou dénombrable Loi géométrique On dit qu une v.a X : Ω N (à valeurs dans N) suit une loi géométrique de paramètre a (0 < a < 1) si P(X = n) = (1 a)a n. On remarquera que l on a bien k=0 P(X = k) = 1 ( k 0 ak = 1/(1 a)). La v.a ν de l exercice de la section suit une loi géométrique de paramètre 1/2. En effet ν 1 (n) = {ω = (ω 0, ω 1,...) Ω, ω 0 = 0,...,ω n 1 = 0, ω n = 1} et d après le théorème = C 0,0 C n 1,0 C n,1 P(ν = n) = (1/2) n.(1/2).

28 28CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES Loi binomiale On dit qu une variable aléatoire Z à valeurs dans {0,...,n} suit une loi binomiale (n, p) si P(Z = k) = où ( n k) est le coefficient binomial ( ) n = Cn k = k n! (n k)!k! ( ) n p k (1 p) n k. k n(n 1) (n k + 1) =. k! On a bien (formule du binôme de Newton) k=0 P(X = k) = (p+1 p)n = 1. Exemple Jouons n fois au jeu de pile/face où pile sort avec probabilité p et face avec probabilité 1 p et notons Z la variable aléatoire : Z est le nombre de pile qui sortent (après avoir joué n fois). Si on note X i les variables aléatoires X i (ω) = ω i (ω = (ω 1,...,ω n )) on a Z = X X n. C est bien une variable aléatoire Z : B N à valeurs dans l ensemble fini {0,..., n} (B = P(Ω)) et P(Z = k) = ( ) n p k (1 p) n k. k Loi de Poisson Une variable aléatoire Z : Ω N suit une loi de Poisson de paramètre λ > 0 si P(Z = n) = e λλk k!. On vérifie encore que k=0 P(X = k) = 1 (cf. le développement en série de e λ ). Exercice Soit X n une v.a suivant une loi binomiale (n, p n ). Montrer que si lim n np n = λ on a pour tout k N lim P(X n = k) = e λλk n k!. (On dit que X n converge en loi vers une loi de Poisson de paramètre λ)

29 2.2. VARIABLES ALÉATOIRES Loi de variables aléatoires admettant une densité Définition On dit que la variable aléatoire X : Ω R admet une densité continue (resp. continue par morceaux etc.) si sa loi (qui est une mesure de probabilité sur (R, Bor(R))) admet une densité continue (resp. continue par morceaux etc.) c est-à-dire s il existe une fonction positive continue (resp. continue par morceaux etc.) ρ X : R [0, [ telle que ρ X(t)dt = 1 et telle que pour tout intervalle ]a, b[ µ X (]a, b]) = P(X ]a, b]) = b a ρ X (t)dt. Faisons une remarque importante : si une v.a. X admet une densité ρ X alors sa fonction de répartition F X (x) = µ X (], x]) = x ρ X (t)dt est continue. Il existe donc des variables aléatoires n admettant pas de densité : par exemple une v.a X à valeurs dans R ne prenant que deux valeurs 0 ou 1 et telle que P(X = 0) = p avec 0 < p < 1 ne peut posséder de densité car sa fonction de répartition F X (x) vaut 0 si x < 0, 1/2 si 0 x < 1 et 1 si 1 x : elle est discontinue en 0 et en 1 (mais bien continue à droite). Quelques exemples de loi admettant une densité Loi uniforme La variable aléatoire X : Ω R suit une loi uniforme sur l intervalle [a, b] si sa densité est donnée par ρ X (x) = 1 b a 1 [a,b]. On a bien ρ X (t) 0 pour tout t et ρ R X(t)dt = 1. Cette loi est caractérisée par P(X [c, d]) = 1 longueur([a, b] [c, d]). b a (En effet, 1 P(X [c, d]) = [c,d] b a 1 [a,b](x)dx = 1 1 [c,d] (x) 1 [a,b] (x)dx b a R = 1 1 [c,d] [a,b] (x)dx. b a R

30 30CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES La v.a admet une densité ρ X expo- Loi exponentielle de paramètre θ nentielle de paramètre θ si La fonction de répartition est F X (x) = ρ X (x) = θe θx 1 [0, [ (x). x ρ X (t)dt = (1 e θx )1 [0, [ (x), et converge bien vers 1 en. Intuitivement, la loi uniforme sur l intervalle [a, b] modélise une expérience où la probabilité d un point de tomber dans un intervalle de taille 2 x, ]x x, x + x[ [a, b] ne dépend pas de x (et est linéaire en x). Loi normale N(µ, σ) C est la loi de densité ρ X (x) = 1 2πσ 2 e (x µ)2 /2σ 2. Il n est pas complètement évident que R ρ X(x)dx = 1 (ce qui est indispensable pour que ρ X soit une densité). Ceci résulte, après le changement de variable u = (x µ)/σ de l égalité (cf. *** pour une preuve) e u2 /2 du = 2π. La loi normale N(0, 1), donc de densité, 1 2π e x2 /2, est dite loi normale centrée réduite. 2.3 Espérance d une v.a Espérance d une v.a. à valeurs dans un ensemble fini (ou dénombrable) Soit X : Ω R une variable aléatoire ne prenant qu un nombre fini de valeurs x 1,...x r. On définit l espérance de X comme étant le nombre réel E(X) = r x i P(X = x i ). i=1

31 2.3. ESPÉRANCE D UNE V.A. 31 Remarquons que si X prend ses valeurs dans un ensemble infini dénombrable la quantité E(X) = x i P(X = x i ), i=1 qui semble être un bon candidat pour la définition de l espérance peut ne pas exister car la série peut ne pas converger. Pour garantir cette convergence il suffit de demander que la série précédente soit absolument convergente Espérance d une v.a. positive Nous définissons dans cette section l espérance d une variable aléatoire X : Ω R qui ne prend que des valeurs positives ou nulles. Pour cela on définit pour n 1 la variable aléatoire X n de la façon suivante : on découpe [0, ) en intervalles [0, 1[, [1, 2[,..., [n 1, n[, [n, ) puis on redécoupe chacun des n intervalles [0, 1[, [n 1, n[ en 2 n intervalles d égale longueur (on ne touche pas à [n, [) : on obtient n2 n 1 intervalles de taille 2 n de la forme [k/2 n, (k + 1)/2 n [ (0 k n2 n 1); on pose alors X n (ω) = n si X n (ω) n X n (ω) = (k/2 n ) si X n (ω) [k/2 n, (k + 1)/2 n [. Il n est pas très difficile de vérifier que pour tout ω la suite de v.a X n (ω) est croissante (et converge vers X(ω)); la suite de nombre réels E(X n ) est donc croissante (mais pas nécessairement bornée). On pose E(X) = lim n E(X n ), où la limite précédente peut être finie ou infinie. On peut démontrer Théorème L espérance vérifie les conditions suivantes : a) si A B on a E(1 A ) = P(A). b) Si X, Y sont des v.a positives telle que X Y (c est-à-dire pour tout ω Ω X(ω) Y (ω)) alors E(X) E(Y ). c) Si X, Y sont des v.a positives et a, b R on a (linéarité de l espérance) E(aX + by ) = ae(x) + be(y ). d) Si X est une v.a positive telle que E(X) = 0 alors X est nulle P-presque sûrement c est-à-dire que l ensemble des ω Ω pour lesquels X(ω) > 0 a une probabilité nulle. Notons que E(a) = a si a est une constante.

32 32CHAPITRE 2. ESPACES PROBABILISÉS ET VARIABLES ALÉATOIRES Remarque On dit qu une propriété P ω qui dépend de ω Ω est vraie P- presque sûrement si l ensemble des ω Omega pour lesquels P ω est fausse est de P-probabilité nulle (P({ω : P ω fause}) = 0). Mentionnons le théorème suivant qui permet de calculer l espérance d une v.a obtenue comme limite d autres v.a Théorème (Théorème de convergence monotone) Si X n est une suite de v.a X n : Ω [0, ] qui i) est croissante : pour tout ω Ω, X n (ω) X n+1 (ω) ii) converge vers X : Ω [0, ] : pour tout ω Ω la suite X n (ω) converge vers X(ω). Alors, a) l application X : Ω [0, ] est une v.a; b) la suite E(X n ) converge vers E(X) (lim n E(X n ) = E(X)). En particulier, si Y n est une suite de v.a positives ou nulles on a E( Y n ) = E(Y n ) n=0 (on peut intervertir le signe de sommation infini et l espérance). n= Espérance des v.a intégrables Nous pouvons définir à présent l espérance de v.a qui ne sont pas nécessairement positives. Pour cela, on constate que toute v.a X : Ω R peut s écrire comme différence de deux v.a positives X + et X : si on pose X + = max(0, X) et X = max(0, X) on a bien que X +, X sont des v.a à valeurs positives et que X = X + X. Il est donc naturel de définir E(X) comme étant la quantité E(X + ) E(X ). Cependant, si E(X + ) et E(X ) valent on obtient de cette façon une expression indéterminée de la forme. Pour que la quantité E(X + ) E(X ) ait un sens il faut donc que E(X + ) < et E(X ) < (c est-à-dire soient des quantités finies). Ceci est équivalent (puisque E(X + ) et E(X ) sont positives ou nulles) au fait que E(X + ) + E(X ) <. Or il est facile de voir que X + + X = X, et la quantité E(X + ) + E(X ) est finie si et seulement si E( X ) l est. Résumons : Définition Si X est une v.a telle que E( X ) < on définit l espérance de X comme étant E(X) = E(X + ) E(X ),

33 2.3. ESPÉRANCE D UNE V.A. 33 où X + = max(0, X), X = max(0, X). On dit que X est intégrable (sur l espace probabilisé (Ω, B, P)) ou encore P-intégrable. L ensemble des variables aléatoires X qui sont P-intégrable se note L 1 (Ω,P). On a alors les propiétés suivantes Proposition a) Si A B, E(1 A ) = P(A). b) Si X, Y sont des v.a dans L 1 (Ω,P) telle que X Y (c est-à-dire pour tout ω Ω X(ω) Y (ω)) alors E(X) E(Y ). c) Si X, Y sont des v.a dans L 1 (Ω,P) et a, b R alors ax + by L 1 (Ω,P) et on a E(aX + by ) = ae(x) + be(y ). d) Si X L 1 (Ω, B) on a toujours E(X) E( X ) et on a égalité si et seulement si P-ps X 0 ou P-ps X 0. ExerciceExpliquer pourquoi une v.a bornée est P-intégrable. Le théorème de convergence monotone, vrai pour des v.a positives ou nulles, possède un analogue dans le cas L 1. Théorème (Théorème de convergence dominée) Si X n est une suite de v.a P-intégrable, X n : Ω R (n N) telle que i) la suite (X n ) converge vers X : Ω R : pour tout ω Ω la suite X n (ω) converge vers X(ω) (on dit que X n converge simplement vers X) ii) il existe une v.a Z telle que E(Z) < (Z est P-intégrable) telle que pour tout ω Ω on ait n N, X n (ω) Z(ω). Alors, a) l application X : Ω R est une v.a; b) la suite E(X n ) converge vers E(X) (lim n E(X n ) = E(X)). En particulier, si Y n est une suite de v.a positives ou nulles telles que alors, E( Y n ) <, n=0 E( Y n ) = n=0 E(Y n ) (on peut intervertir le signe de sommation infini et l espérance). n=0