Cours élémentaire de probabilité pour ingénieurs. André Mas, Polytech Montpellier



Documents pareils
Moments des variables aléatoires réelles

Simulation de variables aléatoires

Programmes des classes préparatoires aux Grandes Ecoles

Intégration et probabilités TD1 Espaces mesurés Corrigé

Probabilités sur un univers fini

3. Conditionnement P (B)

La mesure de Lebesgue sur la droite réelle

PROBABILITES ET STATISTIQUE I&II

Probabilités et Statistiques. Feuille 2 : variables aléatoires discrètes

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Couples de variables aléatoires discrètes

Chapitre 2 Le problème de l unicité des solutions

Travaux dirigés d introduction aux Probabilités

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Probabilités sur un univers fini

Image d un intervalle par une fonction continue

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Université Paris-Dauphine DUMI2E 1ère année, Applications

Texte Agrégation limitée par diffusion interne

Théorème du point fixe - Théorème de l inversion locale

Suites numériques 3. 1 Convergence et limite d une suite

Espérance conditionnelle

Probabilités. C. Charignon. I Cours 3

Limites finies en un point

PROBABILITÉS: COURS DE LICENCE DE MATHÉMATIQUES APPLIQUÉES LM 390

Intégration et probabilités TD1 Espaces mesurés

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Résolution d équations non linéaires

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Que faire lorsqu on considère plusieurs variables en même temps?

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Calcul fonctionnel holomorphe dans les algèbres de Banach

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Développement décimal d un réel

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

3 Approximation de solutions d équations

Probabilités et statistique. Benjamin JOURDAIN

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Suites numériques 4. 1 Autres recettes pour calculer les limites

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

INTRODUCTION À L ANALYSE FACTORIELLE DES CORRESPONDANCES

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Qu est-ce qu une probabilité?

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

M2 IAD UE MODE Notes de cours (3)

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Le produit semi-direct

Chapitre 3. Les distributions à deux variables

Probabilités. I Petits rappels sur le vocabulaire des ensembles 2 I.1 Définitions... 2 I.2 Propriétés... 2

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Variables Aléatoires. Chapitre 2

MA6.06 : Mesure et Probabilités

Cours 02 : Problème général de la programmation linéaire

4. Martingales à temps discret

Le modèle de Black et Scholes

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Actuariat I ACT2121. septième séance. Arthur Charpentier. Automne charpentier.arthur@uqam.ca. http ://freakonometrics.blog.free.

1 TD1 : rappels sur les ensembles et notion de probabilité

4 Distributions particulières de probabilités

Continuité et dérivabilité d une fonction

Tests du χ 2. on accepte H 0 bonne décision erreur de seconde espèce on rejette H 0 erreur de première espèce bonne décision

Précision d un résultat et calculs d incertitudes

Méthodes de Simulation

Structures algébriques

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Fonctions de plusieurs variables

Loi d une variable discrète

ENS de Lyon TD septembre 2012 Introduction aux probabilités. A partie finie de N

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Chapitre VI - Méthodes de factorisation

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Mesures gaussiennes et espaces de Fock

Cours d Analyse. Fonctions de plusieurs variables

Calculs de probabilités

Correction du Baccalauréat S Amérique du Nord mai 2007

Coefficients binomiaux

Licence MASS (Re-)Mise à niveau en Probabilités. Feuilles de 1 à 7

Capes Première épreuve

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Probabilités III Introduction à l évaluation d options

MÉTHODE DE MONTE CARLO.

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Premiers exercices d Algèbre. Anne-Marie Simon

Probabilité. Table des matières. 1 Loi de probabilité Conditions préalables Définitions Loi équirépartie...

Théorie de la mesure. S. Nicolay

Continuité en un point

Amphi 3: Espaces complets - Applications linéaires continues

Programmation linéaire et Optimisation. Didier Smets

Introduction au Calcul des Probabilités

Calculs de probabilités conditionelles

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Correction de l examen de la première session

Introduction à l étude des Corps Finis

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

n N = u N u N+1 1 u pour u 1. f ( uv 1) v N+1 v N v t

Théorie de la Mesure et Intégration

Transcription:

Cours élémentaire de probabilité pour ingénieurs. André Mas, Polytech Montpellier

Coincidences, in general are great stumbling-blocks in the way of that class of thinkers who have been educated to know nothing of the theory of probabilitiesthat theory to which the most glorious objects of human research are indebted for the most glorious illustration. Edgar Allan POE, The murders of the Rue Morgue. 2

Chapitre 1 Introduction 1.1 Expérience aléatoires, évènements Une expérience est aléatoire dès lors que son résultat ne peut pas être prédit exactement : la valeur lue sur la face du dé que l on jette, la température à 8h du matin demain, le prochain résultat du loto... Dans tous les cas, on connaît par contre l ensemble des issues possibles de notre expérience : la face du dé vaudra nécessairement 1,2,..., ou 6, la température à toute les chances de se trouver comprise entre 50 et 35 quant au résultat du loto il sera consitué de 8 nombres compris entre 1 et 49, tous dictincts. Un mécanisme sous-jacent -météorologique- existe qui va permettre de fixer, par exemple, la température à 14 demain matin à 8h. Mais celui-ci est trop complexe pour être modélisé et l on préfère parler d une résultat aléatoire. Notons que, dans tous les cas nous sommes capables de définir avec plus ou moins de précision l ensemble des valeurs possibles pour l expérience aléatoire qui nous péoccupe. Ainsi nous noterons Ω l ensemble des valeurs possibles de notre expérience aléatoire. Nous allons apprendre à affecter des probabilités aux résultats de ces expériences aléatoires, c est à dire calculer la valeur d expressions du type : Probabilité (Evènement) Nous allons définir ce que l on entend par probabilité mais auparavant il est nécesssaire de donner une tournure mathématique à la notion d évènements. Remarquons tout d abord qu un évènement peut toujours être vu comme un sous ensemble de Ω. Reprenons les exemple vus au-dessus et considérons le jet d un dé. Il est clair qu ici Ω = {1,2,...,6}. L évènement {Le résultat du jet est supérieur à 5} peut être vu comme un sous-ensemble A de Ω avec A = {5,6}. Dans le cas d un relevé de température et sur la base d un choix raisonnable de Ω = [ 50,35 ] l évènement : {Il fera entre 15 et 20 degrée} peut là aussi s écrire sous la forme d un sous ensemble A = [15,20] Ω. On veut aussi pouvoir définir à partir de deux évènements élémentaires A et B de nouveaux évènements du type A et B, A ou B ou contraire de A. En d autre terme si A et B sont des évènements il faut que A B et A B et A soient des évènements. Enfin il nous faut envisager le cas de répétitions éventuellement infinies. Par exemple, supposons que l on s amuse à lancer un dé en décidant de nous arrêter 3

dès que le 6 sort. Si nous souhaitons nous intéresser à la probabilité que ce jeu puisse s arrêter, c est à dire la probabilité que 6 sorte nous sommes amenés à considérer une suite infinie d évènements A n = {le 6 sort au n ième coup} car nous ne savons pas a priori quand le 6 va sortir. Puis nous devons calculer la probabilité de A = n A n. Il faut donc que A soit aussi un évènement. Les propriétés que nous venons d évoquer sont reprises dans la Dfinition 1 Soit Ω un ensemble (l ensemble des valeurs possibles associé au résultat d une expérience aléatoire). Nous appellerons tribu sur Ω (ou famille des évènements) une famille de sous-ensembles de Ω, notée A, telle que : (i) Ω A (ii) si A A, A A (iii) si pour tout n N, A n A, n A n A Un élément de A est un évènement. Remarque 2 Attention : A est une famille d ensembles de Ω, ce qui signifie qu écrire A A n a aucun sens. Par contre A A à un sens (tout comme A Ω). Remarque 3 L intersection ne manque pas. Montrons que si A,B A, A B A En effet A B = A B. Il suffit alors d invoquer (ii) (A et B sont dans A) puis (iii) (A B est donc dans A) et enfin (ii) à nouveau (A B A) pour conclure. De la même façon, Proposition 4 { (i bis) A (iii bis) Si pour tout n N, A n A, n A n A Exemple 5 Si Ω = R on peut facilement montrer que la famille d ensembles A ={(,t[,t R} est une tribu. Exemple 6 Si Ω = N la famille des singletons : A ={{k},k N} consitute aussi une tribu. 1.2 Mesure de probabilité Une mesure de probabilité va associer à un évènement un poids compris entre 0 et 1. Plus ce poids sera grand, plus l évènement sera probable. Il est donc logique de munir une mesure de probabilité de propriétés qui seraient celles d une bonne balance. 4

Dfinition 7 Soit E = (Ω,A) un espace mesurable. Une mesure de probabilité sur E est un application P de A vers [0,1] qui vérifie les deux propriétés suivantes (i) P(Ω) = 1 (ii) Si pour tout n N les A n A et sont deux à deux disjoints, P( n A n ) = n P(A n ). On dit que (Ω,A,P) est un espace probabilisé On déduit facilement de la propriété ci-dessus les propriétés ci-dessous. Proposition 8 P ( A ) = 1 P(A) P( ) = 0 P(A B) = P(A)+P(B) P(A B), si A B, P(A) P(B), si B A,P(A\B) = P ( A B ) = P(A) P(B), si A n A,(i.e. A n A n+1 et n A n = A), P(A n ) P(A), si A n A, P(A n ) P(A) Exemple 9 Si Ω = {1,...,n}, on peut construire la probabilité uniforme en posant P(A) = card(a). n Et dans ce cas, par exemple, P({1} {n 1}) = 2/n. Exemple 10 Si Ω = [0,1], on peut définir la mesure de Lebesgue de la façon suivante P(A) = longueur(a). n Ainsi, P(]0.15,0.23[ [0.70,0.93[) = 0.31. 1.3 Probabilités conditionnelles, Formule de Bayes, Introduction à l indépendance 1.3.1 Probabilités conditionnelles Un exemple pour débuter : On dispose de deux dés parfaits : un noir et un blanc. On lance les deux dés et on s intéresse à l évènement A ={la somme des dés vaut 5}. Il y a quatre résultats possibles et cette probabilité vaut donc 4/36. Supposons maintenant que nous disposions d une information supplémentaire. (i) L évènement B ={Le dé blanc vaut 5} est réalisé. Il est alors clair que l évènement A ne se réalisera pas quelle que soit la valeur du dé noir. On dit que la probabilité que A se réalise sachant (que) B (s est réalisé) est nulle. Avec des symboles : P(A B) = 0. (ii) L évènementc ={Le dé blanc vaut 1} se réalise.dans ce cas il n y a qu une situation qui verra la survenue de A : c est la cas où le dé noir vaut 4. Il n y a plus qu une chance sur 6 et P(A C) = 1/6 5

Remarque 11 Il est clair que l on peut définir la notion d évènement conditionnel. Il n est ni interdit, ni absurde -mais fortement conseillé- de parler de A C par exemple et de le traiter comme un évènement standard en comprenant bien que l issue de l évènement C est alors certaine et connue. Nous allons généraliser l exemple vu ci-dessus au calcul général de P(A B). L idée est la suivante : si l on peut prendre en compte une information (i.e. un évènement, ici B) il faut actualiser le calcul des probabilités; si B s est réalisé il est logique de ne prendre en compte dans le calcul de la probabilité de A que ce qui est lié à B. Ainsi P(A B) est lié à P(A B). Pour être cohérent, P(B B) doit valoir 1. Nous allons voir que la définition ci-dessous permet de définir une mesure de probabilité qui remplit bien les conditions souhaitées. Dfinition 12 Soit (Ω, A, P) un espace probabilisé et B un évènement fixé de probabilité non-nulle, A un évènement quelconque. La probabilité conditionnelle de A sachant B est : P(A B) = P(A B). P(B) Elle permet bien de définir une nouvelle mesure de probabilité : 1.3.2 Formule de Bayes Q B ( ) = P( B). P(B) Nous commençons par donner une définition puis la formule des probabilités totales Dfinition 13 On dit que la famille d évènements (B i ) i N est un système complet d évènements (s.c.e.) si (B i ) i N forme une partition de Ω. Dans ce cas B i B j =, i B i = Ω. Proposition 14 Soit (B i ) i N un système complet d évènements de Ω alors pour tout A A P(A) = P(A B i ) i et si de plus pour tout i P(B i ) 0, P(A) = i P(A B i )P(B i ) Voici maintenant la formule de Bayes. C est une formule d inversion qui permet d exprimer P(A B) en fonction de P(B A). Sa démonstration est très simple. Thorme 15 Soient A et B deux évènements de probabilité non-nulle et (B i ) i N un système complet d évènements alors P(B A) = P(A B) P(B) P(A), P(B i A) = P(A B i ) P(B i ) j P(A B j)p(b j ). 6

1.3.3 Indépendance L indépendance est un concept fondamental de la théorie des probabilités. Elle permet de conceptualiser le fait que deux événèments ne peuvent pas interagir l un sur l autre. Dfinition 16 Soient Aet B deuxévènements. Ondit que A et B sont indépendants ssi : P(A B) = P(A)P(B). Il est équivalent de dire que On écrit alors A B. P(A B) = P(B A) = 0. Remarque 17 Un évènement de probabilité nulle est toujours indépendant de tous les autres. La notion d évènement n est pas une notion ensembliste : elle dépend du choix de la probabilité (deux évènements indépendants sous telle probabilité ne le seront pas nécessairement sous telle autre). Remarque 18 Indépendance et intersection vide n ont rien à voir!!! Deux évènement disjoints sont nécessairement dépendants... Proposition 19 Soient A et B deux évènements A B ssi A B. On peut étendre la notion d indépendance à une famille d évènements. Soit (A i ) i N une famille quelconque d évènements. Dfinition 20 On dit que les A i sont mutuellement indépendants si pour tout sous-ensemble fini I d indices P( i I A i ) = Π i I P(A i ) On dit que les A i sont indépendants deux à deux si pour tous i j, A i A j. Proposition 21 L indépendance mutuelle des A i implique leur indépendance deux à deux. La première est donc plus forte que la seconde. 7

8

Chapitre 2 Intermède sur les variables aléatoires Les résultats d une expérience aléatoire ne sont pas toujours quantifiables (La choisirai-je brune ou blonde?... Je parle de bières bien sûr). Cependant quand cela est possible il peut-être intéressant de leur associer un nombre (ou un vecteur de nombre) les décrivant ou résumant une information partielle qui se trouve contenue dans l expérience aléatoire. Ce nombre est appelé variables aléatoire Voilà deux exemples pour vous convaincre : Evènement brut A ={Je tire le numéro 6 sur mon dé} Variable aléatoire X = Numéro de la face tirée Evènement réécrit via la v.a. A = {X = 6} Evènement brut B ={Demain la température sera comprise entre 18 et 21 degrés} Variable aléatoire T = Température demain Evènement réécrit via la v.a. B = {18 T 21} Les deux exemples précédents nous montrent aussi que nous devons d ores et déjà envisager deux sortes de variables aléatoires. Nous les traiterons séparément par la suite même si une présentation unifiée -nécessitant plus de formalismeserait possible. Dfinition 22 Une variable aléatoire est dite discrète si elle ne prend qu un nombre fini ou infini dénombrables de valeurs. Elle est dite continue ou réelle si elle prend ses valeurs dans R ou dans un intervalle de R. Nous verrons qu il est possible de caractériser ces variables aléatoires par des concepts similaires(densité, fonction de répartition, fonction caractéristique). Le présent chapitre s intéresse aux variables discrètes. Le suivant développera le cas de variables continues. 9

10

Chapitre 3 Variables aléatoires discrètes Dfinition 23 Une variable aléatoire X est dite discrète (v.a.d) si X prend un nombre fini ou infini dénombrable de valeurs. Remarque 24 Le cas général qu embrasse la définition ci-dessus est celui où les valeurs de X sont énumérables sous la forme {a 1,...,a n,...} où a i est un réel. Puisque cela ne change rien au formalisme et que cela simplifie grandement le discours, nous supposerons toujours que X est à valeurs dans N. 3.1 Loi d une variable aléatoire discrète Dfinition 25 La loi d une vad est entièrement déterminée par la donnée des P(X = k) 0, k N ou par la donnée de P(X t) = F X (t), t R. La fonction F X est appelée fonction de répartition de X, c est ici une fonction en escalier continue à droite avec une limite à gauche (càdlàg). Proposition 26 On a les relations suivantes : P(X = k) = 1 k N P(X t) = k tp(x = k) P(X = k) = F X (k) F X (k 1) Proposition 27 (fonction d une variable aléatoire discrète). Soit g une fonction de R + vers R. Notons Y = g(x). L ensemble des valeurs possibles de Y est g(n). Sa loi est donnée par : P(Y = g(k)) = i:g(i)=g(k) P(X = i) Si la fonction g est injective P(Y = g(k)) = P(X = k) mais cela n est pas toujours le cas.prenons immédiatement un exemple. 11

Exemple 28 Soit X la variable aléatoire définie par P(X = 1) = P(X = 1) = 1/4 et P(X = 0)) = 1/2. Prenons g(x) = x (qui n est pas injective). On voit bien que P(Y = 1) = P(X = 1)+P(X = 1) = 1/2. 3.2 Moments d une variable aléatoire discrète Dfinition 29 (Espérance) On dit que X possède un moment d ordre 1 ou un espérance si la série k NkP(X = k) est convergente. Si X est à valeurs dans Z on doit imposer que k Z k P(X = k) le soit aussi. Dans ce cas l espérance de X, qui est aussi sa moyenne mathématique vaut : EX = k NkP(X = k). Remarque 30 Si X prend un nombre fini de valeurs la série ci-dessus est toujours convergente. La série des p k = P(X = k) est positive et tend vers 0. Remarque 31 Il existe des vad sans espérance. Par exemple si P(X = k) = 6 1 π 2 k, EX n existe pas. 2 La définition suivante est particulièrement importante Dfinition 32 Soit g une fonction de R vers R telle que g(k) P(X = k) < +. Nous pouvons définir : k N Eg(X) = k Ng(k)P(X = k). La variables aléatoire Z = X EX est toujours bien discrète au sens de la définition donnée au-dessus mais elle n est plus à valeurs dans N. On vérifie que EZ = 0. On dit que Z est centrée. Proposition 33 La fonction espérance est linéaire c est à dire qu elle dispose des deux propriétés suivantes : E(aX +b) = a(ex)+b si a et b sont deux nombres déterministes (i.e. non aléatoires) et E(X +Y) = EX +EY. Enfin si X est une variable aléatoire constante (i.e. si X vaut c tout le temps) on a en particulier EX = Ec = c. Dans le cas où la fonction g de la définition ci-dessus est de la forme g(x) = x p on parle de moment non centré d ordre p pour désigner EX p = E(X p ).et de moment centré d ordre p pour désigner E(X EX) p L espérance est donc le moment d ordre 1. Le moment d ordre 2 va aussi beaucoup nous intéresser. 12

Dfinition 34 On dit que la vad X admet une variance si la vad (X EX) 2 admet une espérance. On note alors : VX = E(X EX) 2, σ X = VX pour désigner la variance et l écart-type de X. La variance et l écart-type sont toujours des grandeurs positives. Proposition 35 On a l identité cruciale suivante qui résulte de la linéarité de l espérance : VX = EX 2 (EX) 2. Pour que la variance existe il suffit que la série définissant EX 2 soit convergente. Enfin on peut montrer (avec les notations du dessus) que : V(aX +b) = a 2 VX. On peut étendre la Définition 32 au cas où la fonction g est à valeurs complexes. Ainsi dans le cas où g(x) = g t (x) = exp(itx) (exponentielle complexe) on aboutit à une dernière défintion tout aussi importante pour la suite de ce cours. Dfinition 36 On appelle fonction cractéristique de la vad X : φ(t) = E ( e itx) Il est très important de se rappeler que la fonction φ est à valeurs complexes. 3.3 Quelques variables discrètes usuelles Vous trouverez ci-dessous une petite liste, loin d être exhaustive, de vad que vous retrouverez souvent dans les exercices ou les applications de ce cours. En annexe une table présente un récapitulatif englobant d autres lois importantes. Loi uniforme sur l ensemble {1,...,n} : U [1,n]. Valeurs Loi Espérance Variance Fonction caractéristique {1,...,n} P(X = k) = 1 n EX = n+1 2 VX = n2 1 12 φ(t) = 1 n n k=1 exp(ikt) Loi de Bernoulli de paramètre p : B(p) Valeurs Loi Espérance Variance Fonction caractéristique {0,1} P(X = 1) = p EX = p VX = p(1 p) φ(t) = 1 p+pe it Loi de Rademacher de paramètre p : R(p) Valeurs Loi Espérance Variance Fonction caractéristique { 1,1} P(X = 1) = p EX = 2p 1 VX = 4p(1 p) φ(t) = cost Loi Binômiale de paramètres n et p : B(n,p) 13

Valeurs Loi Espérance Variance Fonction caractéristique {0,...,n} P(X = k) = C k np k (1 p) n k EX = np VX = np(1 p) φ(t) = [ 1 p+pe it] n Loi géométrique de paramètre p : G(p) Valeurs Loi Espérance Variance Fonction caractéristique N P(X = k) = p(1 p) k 1 EX = 1 p VX = 1 p pexp(it) p φ(t) = 2 1 (1 p) exp(it) Loi de Poisson de paramètre λ : P(λ) Valeurs Loi Espérance Variance Fonction caractéristique N P(X = k) = e λλk k! EX = λ VX = λ φ(t) = exp ( λ ( e it 1 )) 14

Chapitre 4 Variables aléatoires réelles Dfinition 37 Une variable aléatoire réelle (var) prend ses valeurs dans R ou dans un sous ensemble de R. 4.1 Loi d une variable aléatoire réelle Dfinition 38 On appelle fonction de répartition de la var X la fonction t F X (t) = P(X t). Cette fonction est croissante. De plus en a toujours : lim F X (t) = 0, t lim F X (t) = 1. t + Si cette fonction est dérivable, sa dérivée notée f X ou plus simplement f est appelée densité de la var X. Ces deux fonctions f et F caractérisent à elle seules parfaitement la loi de X c est à dire permettent de calculer la probabilité associée à n importe quel évènement faisant intervenir X. Cette définition est cruciale. En fait on peut montrer que toute fonction de répartition est au moins continue par morceaux et quelle admet un nombre au plus dénombrable de points de discontinuité. Dans toute la suite nous supposerons que F X est dérivable, pour plus de tranquillité. Cela a une conséquence immédiate : P(X t) = P(X < t) et P(X = {t}) = 0 pour tout réel t. De la définition ci-dessus nous déduisons deux relations importantes : Proposition 39 P(X t) = F X (t) = t f (s)ds P(a < X b) = F X (b) F X (a) = = P(a X b) b a f (s)ds La dernière relation étant obtenue via la remarque qui précède cette proposition. 15

Nous pouvons maintenant mieux comprendre le terme de densité : la probabilitéde l évènement élémentaire {a X b}, son poids, vaut l aire sous la densité entre les points a et b, tout comme on calculerait le poids de n importe quel objet -même inhomogène- en intégrant sa densité sur son volume. Remarque 40 Si X prend ses valeurs dans un sous-ensemble D de R, sa densité est nulle au-dehors de D. Proposition 41 La densité f de la variable X est une fonction positive, continue par morceaux et telle que R f (x)dx = 1 Bien entendu si f est nulle en dehors de D, R f (x)dx = D f (x)dx. Notation 42 Nous appellerons fonction indicatrice de l ensemble D (qui n est pas nécessiarement un intervalle) la fonction constante par morceaux notée et définie par : { 1 si x D, x 1I D (x) = 0 sinon. Exemple 43 Voici quelques exemples de densités : f (x) = 1I [0,1] (x), f (x) = 1 b a 1I [a,b](x), f (x) = 2exp( 2x)1I R + (x). Le Théorème suivant permet de préciser la densité de la variable aléatoire image g(x) quand celle de X est connue et sous certaines hypothèses sur g. Thorme 44 Soit X une variable aléatoire de densité f X. On suppose que X est à valeurs dans D R. Soit g : R R satisfaisant les deux conditions suivantes : sa restriction à D est inversible et g ne s annule jamais. Alors la var g(x) est à valeurs dans g(d) et admet une densité donnée par la formule f g(x) (y) = f X g g (y) y g(d). g 1 4.2 Moments d une variable aléatoire réelle Dfinition 45 (Espérance) On dit que X possède un moment d ordre 1 ou un espérance si l intégrale x f (x)dx est convergente. Dans ce cas l espérance de X, qui est aussi sa moyenne mathématique vaut : EX = xf (x)dx. Remarque 46 L intégrale est a priori prise sur R mais peut être restreinte à D. Comme dans le cas discret il est toujours possible d exhiber des var sans espérance. L espérance étant bien la moyenne de X. Si, par exemple a X b, nécessairement, a EX b. La définition suivante est particulièrement importante 16

Dfinition 47 Soit g une fonction de R vers R telle que g(x) f (x)dx < +. Nous pouvons alors poser : Eg(X) = g(x)f (x)dx. La variables aléatoire Z = X EX est dite centrée et vérifie encore EZ = 0. Proposition 48 La fonction espérance est, comme dans le cas discret linéaire : E(aX +b) = a(ex)+b si a et b sont deux nombres déterministes (i.e. non aléatoires) et E(X +Y) = EX +EY. Dans le cas où la fonction g de la définition ci-dessus est de la forme g(x) = x p on parle de moment non centré d ordre p pour désigner EX p = E(X p ) et de moment centré d ordre p pour désigner E(X EX) p. Nous définissons la variance. Dfinition 49 On dit que la vad X admet une variance si la vad (X EX) 2 admet une espérance. On note alors : : VX = E(X EX) 2 σ X = VX pour désigner la variance et l écart-type de X. La variance et l écart-type sont toujours des grandeurs positives. Proposition 50 On a l identité cruciale suivante qui résulte de la linéarité de l espérance : VX = EX 2 (EX) 2. Pour que la variance existe il suffit que la série définissant EX 2 soit convergente. Enfin on peut montrer (avec les notations du dessus) que : V(aX +b) = a 2 VX. On peut étendre la Définition 32 au cas où la fonction g est à valeurs complexes. Ainsi dans le cas où g(x) = g t (x) = exp(itx) (exponentielle complexe) on aboutit à une dernière défintion tout aussi importante pour la suite de ce cours. Dfinition 51 On appelle fonction caractéristique de la vad X : φ(t) = E ( e itx) Il est très important de se rappeler que la fonction φ est à valeurs complexes. 4.3 Quelques variables réelles usuelles La aussi la liste est loin d être complète. Les densités sont nulles en dehors du support de la loi. En annexe une table présente un récapitulatif englobant 17

d autres lois importantes, notamment les dérivées de la loi normale : Student, Chi-Deux, Fischer. Loi uniforme sur l ensemble [a,b] : U [a,b]. Valeurs Densité Espérance Variance Fonction caractéristique [a,b] f (x) = 1I [a,b] (x) EX = a+b VX = (b a)2 φ(t) = eitb e ita 2 12 it(b a) Loi de Gauss N ( m,σ 2) Valeurs Densité ( R f (x) = 1 exp 2πσ 2 ) (x m)2 2σ 2 Espérance Variance Fonction caractéristique EX = m VX = σ 2 φ(t) = exp ( itm σ 2 t 2 /2 ) Loi Gamma de paramètres (α,λ) (R + ) 2 : γ(α,λ) Valeurs Densité Espérance Variance Fonction caractéristique R + f (x) = λα Γ(α) xα 1 exp( λx) EX = α VX = α λ λ 2 φ(t) = (1 it/λ) α Loi Exponentielle de paramètre λ > 0 : E (λ) Valeurs Densité Espérance Variance Fonction caractéristique R + f (x) = λexp( λx) EX = 1/λ VX = 1/λ 2 φ(t) = (1 it/λ) 1 Loi de Cauchy C Valeurs Densité Espérance Variance Fonction caractéristique 1 R f (x) = π(1+x 2 EX = + VX = + φ(t) = exp( t ) ) 18

Chapitre 5 Vecteurs aléatoires et indépendance Dfinition 52 Un vecteur aléatoire de R n est un vecteur dont les composantes sont des vad ou des var. Sa notation générique sera : X 1 X = X 2... X n L espérance du vecteur X est un vecteur non aléatoire de R n défini par (écriture en ligne) : EX = (EX 1,EX 2,...,EX n ) Pour un vecteur l équivalent de la variance prend les traits d une matrice. On appelle matrice de variance-covariance du vecteur X (plus simplement matrice de variance) la matrice carrée, symétique et positive Σ définie par : Σ = VX = VX 1 cov(x 1,X 2 ) cov(x 1,X 2 ) VX 2......... cov(x i,x j ) cov(x i,x j )...... VX n où cov(x i,x j ) = E(X i X j ) EX i EX j = E[(X i EX i )(X j EX j )] est appelée covariance entre X i et X j. Son calcul sera explicité plus loin. Dans toute la suite nous nous limiterons au cas des vecteurs de taille 2. La généralisation est souvent intellectuellement immédiate quoique pénible à rédiger. Le terme de vecteur sera donc souvent remplacé par celui plus précis de couple. Ce couple sera invariablement noté (X, Y). 5.1 Couples de variables aléatoires discrètes. Les réalisations d un couple de variables discrètes peuvent être représentées dans le plan : les points forment donc un nuage mais se situent sur une grille. 19

5.1.1 Lois d un couple Dfinition 53 Soit (X,Y) un couple de vad. La loi du couple ou loi jointe est la probabilité définie sur Ω = N N par P (X,Y ) (i,j) = P(X = i,y = j) = P({X = i} {Y = j}) Exemple 54 On lance deux dés en notant D 1 et D 2 les valeurs lues sur chacun. Il ets simple de voir que P(D 1 = i,d 2 = j) = 1 36 pour toutes valeurs de i et j dans {1,...,6}. Mais on pourrait aussi s intéresser au nouveau couple (X = D 1 +D 2,Y = D 1 D 2 ). On voit par exemple que les valeurs prises par X sont dans {2,...,12} et celles de Y dans {0,...,5}. Mais le clacul de la loi est plus compliqué... Car les valeurs prises par X et Y dépendent l une de l autre. Exemple 55 Le résultat du loto est un bel exemple de vecteur aléatoire discret dans l espace N 7. En fait l espace Ω est ici nettement plus petit que N 7 (puisqu il n y a pas remise des boules dans l urne). De la loi jointe on déduit les lois de chacune des composantes (ou lois marginales de X et de Y). Ainsi : P X (i) = P(X = i) = j P Y (j) = P(Y = j) = i P(X = i,y = j) P(X = i,y = j) 5.1.2 Espérance et moments d un couple Nous pouvons désormais introduire l espérance d une fonction quelconque des deux variables X et Y. Dfinition 56 Soit g : N N R une fonction telle que g(i,j) P(X = i,y = j) < +. On peut alors définir : i,j Eg(X,Y) = i,j g(i,j)p(x = i,y = j). Le moment croisé d ordre 1 se définit et s écrit simplement : EXY = i,j ijp(x = i,y = j) Nous disposons désormais de définitions qui nous permettent de revenir à la notion de covariance introduite en tête de ce chapitre, lors de la définition de la matrice de variance d un vecteur. On rappelle qu en toute généralité cov(x,y) = E(XY) EXEY et nous savons calculer cette grandeur dans le cas où (X,Y) forme un couple de vad. La covariance dispose de propriétés que ous ne pouvons éviter de mentionner. 20

Proposition 57 Soit (X,Y) un couple de vad et α un réel fixé. On a cov(x,y) = cov(x,y) cov(αx,y) = α cov(x,y) V(X +Y) = V(X)+V(Y)+2cov(X,Y) Ces trois formules sont aussi valables quand X et Y sont des var. Nous montrons la dernière. Il suffit de partir de la définition développée de la variance : V(X +Y) = E(X +Y) 2 [E(X +Y)] 2 = EX 2 +EY 2 +2EXY (EX) 2 (EY) 2 2EXEY. En regroupant les termes nous arrivons à la formule souhaitée pusique, par exemple, V(X) = EX 2 (EX) 2. 5.1.3 Couple de vad indépendantes Dfinition 58 Soit (X,Y) uncouple de vad. Ondit que X et Y sont indépendantes si et seulement si pour tous i et j dans N P(X = i,y = j) = P(X = i)p(y = j). Remarque 59 Les vad X et Y sont indépendantes si tous les évènements de la forme {X = i} sont indépendants des évènemenst de la forme {Y = j}. Onpeutbienentendugénéralisercettedéinfitionaucasdenvad.Etlesnvad X 1,...,X n sont (mutuellement indépendantes) ssi pour tout n-uplet {i 1,...,i n } P(X 1 = i 1,...,X n = i n ) = P(X 1 = i 1 )...P(X n = i n ) Proposition 60 Soit (X,Y) uncouple de vad. Les vad X et Y sont indépendantes si et seulement si pour tout couple (f,g) fonctions (intégrables par rapport à la loi du couple) : E[f (X)g(Y)] = Ef (X) Eg(Y) Une conséquence immédiate de cette Proposition apparaît immédiatement lors du calcul de la covariance. Corollaire 61 Soit (X,Y) un couple de vad indépendantes alors cov(x,y) = 0. La réciproque est fausse. 5.1.4 Quelques propriétés remarquables de stabilité des vad Soit X 1,...,X n une suite de vad.indépendantes. Dans certains cas explicités ci-dessouslaloide lasommes n = X 1 +...+X n de cesvad possèdedespropriétés remarquables. Proposition 62 Si X i B(p) (les X i sont de même loi) alors S n B(n,p). Si X i B(k i,p) (le paramètre p est le même pour tous les X i alors S n B( n i=1 k i,p). Si X i P (λ i ) alors S n P( n i=1 λ i). 21

5.2 Couples de variables aléatoires réelles Les réalisations d un couple de variables réelles forment un nuage du plan.dans toute la suite on se concentrera sur le cas des vecteurs aléatoires admettant des densités par rapport à la mesure de Lebesgue. Dfinition 63 La loi d un vecteur aléatoire réel est entièrement déterminée par sa densité. Celle-ci est une fonction positive telle que On a alors pour a b et c d f (X,Y) : R R R + R 2 f (X,Y ) (x,y)dxdy = 1. P (X,Y) ([a,b] [c,d]) = P(X [a,b],y [c,d]) = f (X,Y) (s,t)dsdt [a,b] [c,d] On peut, dans la foulée, défnir la fonction de répartition du couple F (X,Y) : R R [0,1] : (x,y) F (X,Y) (x,y) = x y En d autre termes F (X,Y) (x,y) = (X x,y y). f (X,Y ) (s,t)dsdt Il est bien important de comprendre que la densité du vecteur (X,Y) se représente par une surface et que P(X [a,b],y [c,d]), probabilité du pavé [a,b] [c,d], n est rien d autre que le volume sous la surface f (X,Y). Il est bien légitime qu un volume (dans le cas d un couple) fasse écho à une surface (dans le cas d une var). On renvoie le lecteur à la Proposition 39 pour un comparaison fort utile à la compréhension de l interprétation physique d une densité de probabilité. Dfinition 64 De la densité du couple on déduit les densités de chacune des composantes (les marges) appelées densitées marginales en intégrant une seule fois et de façon croisée la densité du couple. Ainsi : f X (x) = f (X,Y ) (x,y)dy, R f Y (y) = f (X,Y ) (x,y)dx. 5.2.1 Espérance et moments d un couple R Les nouvelles formules sont cousines de celles obtenues dans le cas des vecteurs discrets. 22

Dfinition 65 Soit g : R R R une fonction telle que g(x,y) f (X,Y ) (x,y)dxdy < +. R 2 On peut alors définir : Eg(X,Y) = g(x,y)f (X,Y ) (x,y)dxdy. R 2 Le moment croisé d ordre 1 se définit et s écrit simplement : EXY = x y f (X,Y) (x,y)dxdy. R 2 Les trois formules sur la variance demeurent. Nous les rappelons par souci de complétude. Proposition 66 Soit (X,Y) un couple de var et α un réel fixé. On a cov(x,y) = cov(x,y) cov(αx,y) = α cov(x,y) V(X +Y) = V(X)+V(Y)+2cov(X,Y) 5.2.2 Couple de var indépendantes Dfinition 67 Soit (X,Y) uncouple de var. Ondit que X et Y sont indépendantes ssi f (X,Y ) (x,y) = f X (x)f Y (y) Autrement dit la densité du coule peut se scinder en deux fonctions. Chacune de ces deux fonctions ne dépend que d une seule variable. On en déduit comme corollaire la Proposition 68 On a alors pour a b et c d : P(X [a,b],y [c,d]) = P(X [a,b])p(y [c,d]) et en particulier F (X,Y ) (x,y) = F X (x)f Y (y). Nous étendons égalment la définition à un vecteur quelconque de var. Dfinition 69 Les var X 1,...,X n sont (mutuellement indépendantes) ssi la densité du vecteur X est scindable en n fonctions chacune d une seule variable : f X (x 1,...,x n ) = f X1 (x 1 )...f Xn (x n ). Proposition 70 Soit (X,Y) uncouple de var. Les var X et Y sont indépendantes si et seulement si pour tout couple (f,g) de fonctions (intégrables par rapport à la loi du couple) : E[f (X)g(Y)] = Ef (X) Eg(Y) Les conclusions sur la covariance de X et Y sont identiques à celles obtenues pour les vad. 23

5.3 Quelques remarques générales Je place dans cette section des points généraux, récapitulatifs ou qui valent à la fois pour les vad et les var. Coefficient de corrélation linéaire. Nous avons vu que deux variables indépendantes ont une covariance nulle. La covariance est considérée comme un indicateur de la liaison entre deux variables. On se tient à la règle suivante -qui a pris avec le temps la valeur d adage : Plus la variance est elevée plus les variables X et Y sont liées. Une inexactitude consisterait à affirmer -ce que les lecteurs attentifs de ces pages se garderont bien de faire- les variables sont indépendantes quand la covariance est nulle. Mais la covariance dipose d un inconvénient majeur: elle dépend des unités de X et de Y. Si nous voulons comparer la liaison entre X et Y puis entre X et 100Y, il y aura un rapport de 100 entre les deux covariances, rapport uniquement dû aux différences d ordre de grandeur, puisque la liaison probabiliste entre X et Y est la même qu entre X et 100Y. Pour corriger ce défaut on introduit un autre indicateur : le coefficient de corrélation defini par : ρ X,Y = cov(x,y) σ X σ Y. On peut alors montrer que 1 ρ X,Y 1, que ρ X,Y ne dépend plus des ordres de grandeur des variables et que la nullité de ρ X,Y équivaut à l existence de deux constantes α et β telles que Y = α+βx. Calcul de la variance d une somme : On sera amené à calculer la variance d un somme de variables aléatoires V( n i=1 X i). Un calcul simple (examiner le cas où n = 3 pour s en convaincre) amène au : Thorme 71 Soit X 1,...,X n des va, alors ( n ) n V X i = i i=1 i=1v(x )+2 cov(x i,x j ). i<j En particulier si les X i sont indépendantes (mais il suffit qu elles soient non-corrélées), ( n ) n V X i = V(X i ). i=1 Si, de plus les X i ont la même loi (mais il suffit qu elles aient la même variance) on a : ( n ) V X i = nv(x 1 ). i=1 i=1 24

Indépendance par bloc : Soit X = (X 1,...,X n ) un vecteur dont les coordonnées sont des va mutuellement indépendantes et soit {i 1,...,i k 1 } un k 1-uplet. Alors (X 1,...,X i1 ),(X i1+1,...,x i2 )...(X ik +1,...,X n ) sont des vecteurs aléatoires (de tailles distinctes) indépendants. Inversement si l on dispose d un vecteur X lui-même scindable en k vecteurs aléatoires indépendants selon le schéma ci-dessus alors en extrayant de chacun de cesk vecteursunecoordonnée(et uneseule),ondisposedek vamutuellement indépendantes. Par exemple X i1, X i1+1 et X n sont indépendantes mais X 1 et X i1 n ont a priori aucune raison de l être. Espérance et matrice de covariance de l image d un vecteur par une application linéaire : Même si nous nous sommes cantonnés au cas des vecteurs de taille 2, il est très important de mentionner un résultat général portant sur l image dun vecteur aléatoire par une application linéaire (une matrice). Thorme 72 Soit X = (X 1,...,X n ) un vecteur aléatoire d espérance EX R n et de matrice de variance-covariance Σ X (on rappelle que Σ X ets carrée, de taille n, symétrqiue et positive). Soit A une matrice de taille (p n) c est à dire de p lignes et de n colonnes. Alors Y = AX est un nouveau vecteur aléatoire de l espace R p. Son espérance et sa matrice de covariance sont données respectivement par : EY = EAX = A(EX) Σ Y = Σ AX = AΣ X A t où A t désigne la tranposoée de la matrice A. On peut faire quelques remarques de bon sens à l énoncé de ce théorème. Tout d abord la matrice A admet nécaissrement n colonnes afin que le produit AX (puis el produit A(EX)) ait un sens... Enfin Y étant unvceteur de R p sa matrice de covariance est nécessairement carrée de taille p, symétrique et positive. On peut s assurer que dans la deuxième formule AΣ X A t définit bien une matrice disposant de ces quatre propriétés. Et s il est permis d hésiter -en appliquant de tête cette formule- entre AΣ X A t et A t Σ X A... de simples considération de dimensions lèveront le doute. 5.4 Vecteurs gaussiens Les vecteurs gaussiens pourraient à eux seuls donner lieu à tout un chapitre. Laloidegaussouloinormaleaétéintroduiteplushautdanslechapitreconsacré aux var. Nous rappelons ici sa définition que nous complèterons par quelques propriétés remarquables. 5.4.1 Définition Dfinition 73 On dit que la var X suit la loi de Gauss (ou loi normale) de moyenne m et de variance σ 2 (on notera alors X N ( m,σ 2) ) si sa densité 25

définie sur R s écrit : f X (x) = [ 1 exp 1 2πσ 2 2 ] (x m) 2. Quand m = 0 on parle de variable centrée et quand σ 2 = 1 on parle de variable réduite. Proposition 74 La loi normale est entièrement caractérisée par la donnée de son espérance et de sa variance. De plus on a la propriété cruciale suivante : si X N (0,1), Y = m+σx N ( m,σ 2). Réciproquement tout va gaussienne Y s écrit sous la forme Y = m+σx où X N (0,1). Dfinition 75 Le vecteur aléatoire X = (X 1,...,X n ) est gaussien ssi si toutes les combinaisons linéaires de ses composantes suivent des lois normales c st à dire que pour tout u R n, non aléatoire n u,x = u i X i suit une loi normale (Les espérance et variance dépendent de u mais leur calcul ne nous intéresse pas pour l énoncé de cette définition). Remarque 76 De la définition ci-dessus on déduit aisément que si X est un vecteur gaussien, chaque X i est une var gaussienne (en prenant u i = 1 et u j = 0 pour j i). La réciproque est fausse en générale : si on dispose de n var X i qui suivent des lois normales N ( m i,σ 2 i), le vecteur reconstitué à partir de ces Xi n est pas gaussien sauf si les X i sont indépendantes. On déduit pour les vecteurs gaussiens l analogue de la proposition donnée juste au-dessus pour les var gaussiennes. Proposition 77 La loi d un vecteur gaussien est entièrement déterminée par la donnée de son espérance et de sa matrice de covariance. Cette proposition sera illustrée un peu plus loin via la densité d un vecteur gaussien. 5.4.2 Principales propriétés Les première nous annonce que l image d un vecteur gaussien par une application affine est encore un vecteur gaussien. Proposition 78 Soit X R n un vecteur gaussien soit A une matrice de taille (p n) et soit b un vecteur de R p alors Y = AX +b est à nouveau un vecteur gaussien dans l espace R p. on a les relations de passage déjà présentées plus haut : EY = A(EX)+b et Σ Y = AΣ X A t. Proposition 79 Soit X R n un vecteur gaussien d espérance m R n dont la matrice de covariance Σ X est inversible. Alors ce vecteur admet une densité donnée par la fomule : f X (x 1,...,x n ) = i=1 1 (2π) n/2 detσ X exp On écrira alors que X N (m,σ X ). 26 σ 2 [ 1 x m,σ 1 X 2 (x m) ].

Remarque 80 Quand la matrice Σ X est diagonale et s écrit Σ X = σ2 1 0... 0... 0,... 0 σn 2 la densité ci-dessus prend une forme relativement simplifiée : [ ] 1 f X (x) = exp 1 n (x i m i ) 2 (2π) n/2 σ 1...σ n 2 σi 2. On a vu au chapitre précédent que cov(x,y) = 0 X Y. Les vecteurs gaussiens prennent le contrepied de cette affirmation générale. C est là une des raisons de leur succès. Thorme 81 Soit X = (X 1,...,X n ) un vecteur gaussien de matrice de covariance Σ X alors il y a équivalence entre : (i) Σ X est diagonale (i.e. les X i sont non-corrélées) (ii) les X i sont mutuellement indépendantes Ce théorème crucial amdet une version par blocs que j énoncerai brutalement de la façon suivante : Si la matrice Σ X est bloc-diagonale : Σ X = Σ 1 0... 0... 0... 0 Σ p avec Σ i matrice symétrique positive de taille k i alors on peut scinder le vecteur X en p sous-vecteurs chacune de taille k i. Chacun de ces sous-vecteurs admet Σ i comme matrice de covariance et ces p vecteurs sont indépendants. Exemple 82 SiΣ X = de X 3. σ2 1 a 0 a σ 2 2 0 0 0 σ 2 3 i=1 Soit X = (X 1,...,X n ) un vecteur aléatoire. En posant : X n = 1 n s 2 n = 1 n n i=1 alors le vecteur(x 1,X 2 ) est indépendant X i n ( ) 2 Xi X n i=1 on définit deux nombres aléatoires utiles en statistique. Thorme 83 (Cochran) Si X un vecteur gaussien de loi N ( m,σ 2 I ) où I désigne la matrice identité, alors X n et s 2 n sont deux var indépendantes. Ce résultat est surprenant dans la mesure où X n et s 2 n ont l air fortement dépendantes, même si les X i sont indépendantes. Ce Théorème reste toutefois spécifique des vecteurs gaussiens. 27

Pour finir ce long chapitre je présente quelques lois dérivées de la loi normale. On note X 1,...,X n n variables aléatoires gaussiennes i.i.d. de loi N (0,1). Loi du Chi-Deux La variable Q n = n i=1 X2 i suit une loi du Chi-Deux à n degrés de liberté. On note Q n χ 2 n. Loi de Student Soit Y une var de loi N (0,1) idépendante des X i. alors T n = Y/ Q n /n suit une loi de Student à n degrés de liberté. On note T n T n. Loi de Fisher Si Q n suit une loi χ 2 n et K m suit une loi χ 2 m alors F n,m = mq n /(nk m ) suit une loi de Fischer à n et m degrés de liberté. On note F n,m F n,m. 28

Chapitre 6 Convergence des suites de variables aléatoires On présente dans ce chapitre deux résultats centraux de la théorie des probabilités. Tous deux décrivent le comportement asymptotiques de séries de variables aléatoires : S n = X 1 +...+X n. Le second peut-être vu, dans beaucoup de cas, comme une extension du premier. Ainsi la loi des grands nombres (LGN) nous assure la convergence de la suite S n /n vers la moyenne des X i et peut se concevoir comme une sorte de Théorème de Césaro aléatoire. Le second, aux implications plus complexes, nous assure que S n /n se comporte asymptotiquement comme une variable gaussienne de petite variance. Avant de préciser ces deux théorèmes majeurs qui fondent par ailleurs bien des résultats ou des approches statistiques, on devra introduire quleques notions de convergence stoochastique (en probabilité, en moyenne qudratique et en loi). 6.1 La loi des grands nombres 6.1.1 Convergence en probabilité Dfinition 84 On dit qu une suite Z n de v.a. converge en probabilité vers une v.a. Z et on notera Z n P Z ssi pour tout ε > 0 : P( Z n Z > ε) n + 0. En particulier si Z est constante et vaut m, Z n P m ssi pour tout ε > 0 : P( Z n m > ε) n + 0. L interprétation heuristique pourrait être la suvante : quand n augmente les valeurs prises par la suite Z n (ses réalisations) sont de plus en plus proches de celles de Z. Cette proximité s exprime par le choix d un seuil ε. Si l on se fixe ce seuil infinitésimal, les valeurs prises par Z n ont une chance de plus en plus grande de se trouver dans l intervalle [Z ε,z +ε]. Nous n utiliserons que peu la convergence en probabilité vers une variable aléatoire et nous allons illustrer laconvergenceenprobabilitéversuneconstante.d ailleursmontrerquez n P Z revient à montrer que Z n Z P 0. 29

P Exemple 85 Si Z n E (λ n ) avec λ n > 0 et λ n + alors Z n 0. En effet P( Z n > ε) = + λ ε n exp( λ n s)ds = exp( λ n ε) 0 quand ε est fixé. n + Thorme 86 Soit Z n une suite de variables aléatoires qui converge en probabilité vers m alors si g est une fonction réelle de la variable réelle continue en m g(z n ) P g(m) Autrement dit la convergence en probabilité vers une constante se propage en appliquant une fonction assez régulière. Une fois n étant pas coutume on va traiter dans le détail cette démonstration à forte teneur pédagogique. Preuve du Théorème : Nous savons que pour tout ε > 0 P( Z n m > ε) tend vers 0 mais nous savons aussi que g est continue au point m, ce qui s écrit : δ > 0, η > 0 : x m η g(x) g(m) < δ. (6.1) Nous devons montrer que pour tout ε > 0, P( g(z n ) g(m) > ε) tend à son tour vers 0. Le ε ici n étant pas nécessairement le même que plus haut. L astuceconsisteàdécomposerlavariablealéatoire g(z n ) g(m) enconsidérant deuxcas:z n prochedemetz n loin dem.ecrivonscelaentermed évènements { g(z n ) g(m) > ε} = { g(z n ) g(m) > ε} { Z n m > η} ces deux évènements étant disjoints il vient { g(z n ) g(m) > ε} { Z n m η} P( g(z n ) g(m) > ε) = P({ g(z n ) g(m) > ε} { Z n m > η}) Nous avons ensuite +P({ g(z n ) g(m) > ε} { Z n m η}) P({ g(z n ) g(m) > ε} { Z n m > η}) P( Z n m > η). Nous réservons cette inégalité et nous tournons vers la seconde probabilité ou plutôt le second évènement : { g(z n ) g(m) > ε} { Z n m η}. Celui-ci se paraphrase en Z n est proche de m (àdistance η) alors que g(z n ) est à distance ε de g(m) ce qui est contradictoire avec la contniuité de g en m. Il reste à écrire cela proprement. Reprenons (6.1) en écrivant sa contraposée : δ > 0, η δ > 0 : x m > η g(x) g(m) δ. Maintenant, ε étant fixé, choisissons δ = ε. Du coup en retenant le η ε associé (ci-dessus) nous voyons que les deux évènements { g(z n ) g(m) > ε} et { Z n m η ε } sont incompatibles (d intersection vide) et que P({ g(z n ) g(m) > ε} { Z n m η ε }) = 0. FinalementcommeP( Z n m > η ε )tendaussivers0puisqueη ε est,comme ε, fixé, nous achevons la preuve du Théorème. 30

Dfinition 87 On dit que la suite de va Z n tend en moyenne quadratique (ou en norme L 2 L ) vers Z et on note Z 2 n Z si E(Z n Z) 2 0. n + La convergence en norme quadratique et la convergence en probabilité sont liées. Pour expliciter cette liaison nous avons besoin d une inégalité célèbre : l inégalité de Bienaymé-Tchébytcheff. Thorme 88 Soit Z une va et t un réel fixé alors pour tout ε > 0 P( Z t > ε) E(Z t)2 ε 2 et dans le cas particulier où t = EZ, on obtient P( Z EZ > ε) VZ ε 2. Proposition 89 Grâce au théorème précédent on voit que si Z n L 2 m, alors Z n P m. Remarque 90 Il peut être utile de noter que P( Z n m > ε) s exprime uniquement via la fonction de répartition de Z n : P( Z n m > ε) = 1 F Zn (m+ε)+f Zn (m ε) Exemple 91 On peut montrer que si Z n N ( m n,σ 2 n) avec mn m et σ 2 n 0 alors Z n L 2 m. 6.1.2 La loi des grands nombres Comme annoncé plus haut la LGN nous assure de la convergence de la moyenne arithmétique d une suite de variables aléatoires vers une constante. La version de la loi faible donnée ici n est pas livrée sous ses hypothèses minimales. Thorme 92 Soit X i une suite de variables aléatoires de même loi (et en particulier d espérance commune) dont le moment d ordre 2 est fini et non-corrélées alors : donc S n = X 1 +...+X n n S n P EX1. L 2 EX 1 31

Preuve : Elle consiste juste à calculer en le développant ( ) 2 X1 +...+X n E EX 1 n [ = 1 n n 2E (X i EX i ) i=1 ] 2 = 1 n n 2 E(X i EX i ) 2 + 2 n 2 E[(X i EX i )(X j EX j )] i=1 = 1 n VX 1 + 2 n 2 cov(x i,x j ) = 1 n VX 1 0. i<j ce qui termine la preuve du Théorème. Sur le graphe suivant on a tracé, afin d illustrer, la LGN le comportement de S n en fonction de n en considérant 4 distributions différentes pour X 1 : loi uniforme sur [0,1], loi normale N (1,1), loi Binômiale B(10,0.15)et loi de Cauchy. On constate que dans le cas de la loi de Cauchy la série a un comportement erratique. En fait elle ne converge pas et fait de nombreux sauts puisque dans ce cas EX =. i<j loi uniforme loi binomiale 0.6 0.5 1.5 Sn 0.4 0.3 Sn 1.0 0.2 0.1 0.5 0.0 0.0 0 100 200 300 400 500 n 0 100 200 300 400 500 n loi normale loi de Cauchy 1.0 2 0 2 Sn 0.5 Sn 4 6 0.0 8 10 0 100 200 300 400 500 n 0 100 200 300 400 500 n La loi des grands nombres dans 4 cas Le code R associé à cette figure est le suivant : 32

x<-runif(500,0,1);z1<-0;y<-0 for(i in 1:500){y[i+1]<-y[i]+x[i+1]; z1[i]<-y[i]/i} x<-rnorm(500,1,1);z2<-0;y<-0 for(i in 1:500){y[i+1]<-y[i]+x[i+1];z2[i]<-y[i]/i} x<-rbinom(500,10,0.15);z3<-0;y<-0 for(i in 1:500){y[i+1]<-y[i]+x[i+1];z3[i]<-y[i]/i} x<-rcauchy(500);z4<-0;y<-0 for(i in 1:500){y[i+1]<-y[i]+x[i+1];z4[i]<-y[i]/i} layout(matrix(1:4,2,2))plot(z1,type="l",xlab="n",ylab="sn",main="loi uniforme",las=1,cex.main=0.7) plot(z2,type="l",xlab="n",ylab="sn",main="loi normale",las=1,cex.main=0.7) plot(z3,type="l",xlab="n",ylab="sn",main="loi binomiale",las=1,cex.main=0.7) plot(z4,type="l",xlab="n",ylab="sn",main="loi de Cauchy",las=1,cex.main=0.7) 6.2 La Théorème Central-Limite Il constitue l un des plus (si ce n est le plus) beau théorème des probabilités et assurément un des résultats les plus marquants des mathématiques. Le TCL dans une formulation générale assure que les sommes de variables aléatoires infinitésimales sont asymptotiquement gaussiennes. Il souligne par là l importance et l universalité de la distribution gaussienne. Ses implications sont multiples notamment en statistique dans la construction des intervalles de confiance puis l obtention de procédures de test. Il fournit aussi une vitesse dans la loi faible des grans nombres. Soulignons enfin que peu de théorèmes peuvent à la fois se prévaloir d autant d applications pratiques tout en ayant donné lieu (certes moins maintenant) à des développements en recherche aussi pointus. 6.2.1 La convergence en loi Il existe bon nombre de définitions pour la convergence en loi(ou convergence en distribution ou convergence faible 1 ) plus ou moins abstraites. Je donne ici les deux plus connues. Dfinition 93 On dit que la suite Z n de variables aléatoires converge en loi vers Z et on note Z n L Z si et seulement si la fonction de répartition de Zn converge ponctuellement vers celle de Z en tout t pour lequel F Z est continue F Zn (t) n + F Z (t). Il est alors équivalent de dire que pour tout intervalle [a,b], P(Z n [a,b]) n + P(Z [a,b]). quand F Z est conitnue en a et b. Une définition alternative fait intervenir les fonctions caractéristiques introduites au cours du chapitre consacré aux variables 1. Même si le terme de convergence faible n est pas cohérent avec la terminologie des analystes qui préfèreraient parler de convergence faible-*, la convergence faible étant réservée à des suites de fonctions. 33

aléatoires discrètes et réelles. On a alors Z n L Z si et seulement si la suite des fonctions carctéristiques est ponctuellement convergente : ϕ Zn (t) = Eexp(itZ n ) n + ϕ Z (t). Dans le cas de variables discrètes (i.e si Z n est une vad pour tout n et Z l est aussi) il est souvent plus avantageux de se borner à montrer que pour tout i N : P(Z n = i) n + P(Z = i). Proposition 94 Si Z n P Z alors Zn L Z Exemple 95 Reprenons un exemple évoqué plus haut dans le cadre de la convergence en probabilité. Supposons que Z n E (λ n ) avec λ n > 0 et λ n λ L alors Z n Z E (λ). En effet P(Zn t) = t 0 λ nexp( λ n s)ds = 1 exp( λ n t) 1 exp( λt) = P(Z t) quand t est fixé. n + Thorme 96 Soit Z n une suite de variables aléatoires qui converge en loi vers Z alors si g est une fonction réelle de la variable réelle continue en m : g(z n ) L g(z). 6.2.2 Le Théorème Central Limite Thorme 97 Soit (X i ) i N une suite de va i.i.d telles que EX1 2 = EX2 < +. Posons m = EX et σ = VXalors : [ ] n X1 +...+X n L m N (0,1) σ n Preuve rapide du Théorème : La démonstration la plus simple se borne à verifier la convergence de ϕ Zn (t) (où Z n = n [ X 1+...+X n n m ] /σ) vers ϕ Z (t) où Z N (0,1). L indépendance des X i apporte que ϕ Zn (t) = [ ( ( ))] n ϕ Y t/ nσ où Y = X 1 m. Un développement limité de ϕ Y en 0 donne : ϕ Y (u) = 1 + u 2 ϕ Y (c)/2 car ϕ Y (0) = 0. Ainsi ϕ Z n (t) [ 1+t 2 /2n ] n en utilisant le fait que ϕ Y (c) ϕ Y (0) = σ2. Finalement ϕ Zn (t) exp ( t 2 /2 ) = ϕ Z (t) quand n tend vers +. De prime abord et d un point de vue pratique, les enseignements de ce Théorème peuvent paraître abscons. En effet le TCL nous affirme que pour tous a < b ( [ n X1 +...+X n P σ n ( X1 +...+X n = P n ] ) m [a,b] [m+a n σ,m+b n σ ]) 34

tend, quand n croît indéfiniment vers P(N (0,1) [a,b]) = 1 b ) exp ( u2 du, 2π 2 cette dernière constante étant connue ou au moins calculable aisément. La magie du théorème provient du fait que ce résultat demeure valable quelle que soit la loi initiale de X i. a 35