Cours de Probabilités : Modèles et Applications.

Documents pareils
Espérance conditionnelle

3. Conditionnement P (B)

Moments des variables aléatoires réelles

Intégration et probabilités TD1 Espaces mesurés Corrigé

Simulation de variables aléatoires

Programmes des classes préparatoires aux Grandes Ecoles

4. Martingales à temps discret

MA6.06 : Mesure et Probabilités

Intégration et probabilités TD1 Espaces mesurés

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

I. Polynômes de Tchebychev

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Image d un intervalle par une fonction continue

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Calcul différentiel sur R n Première partie

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Probabilités sur un univers fini

PROBABILITÉS: COURS DE LICENCE DE MATHÉMATIQUES APPLIQUÉES LM 390

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

Intégration sur des espaces produits

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

3 Approximation de solutions d équations

Théorie de la Mesure et Intégration

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

Chapitre 2 Le problème de l unicité des solutions

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Continuité en un point

Théorie de la Mesure et Intégration

Texte Agrégation limitée par diffusion interne

Théorème du point fixe - Théorème de l inversion locale

Correction de l examen de la première session

Limites finies en un point

Loi d une variable discrète

Programmation linéaire et Optimisation. Didier Smets

Mesures gaussiennes et espaces de Fock

ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Probabilités sur un univers fini

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Calcul fonctionnel holomorphe dans les algèbres de Banach

Commun à tous les candidats

Cours d Analyse. Fonctions de plusieurs variables

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Couples de variables aléatoires discrètes

Fonctions de plusieurs variables

Travaux dirigés d introduction aux Probabilités

Intégrale de Lebesgue

Suites numériques 3. 1 Convergence et limite d une suite

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Résolution d équations non linéaires

Modèles et Méthodes de Réservation

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Processus aléatoires avec application en finance

Capes Première épreuve

Approximations variationelles des EDP Notes du Cours de M2

4 Distributions particulières de probabilités

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Introduction à l étude des Corps Finis

EXERCICE 4 (7 points ) (Commun à tous les candidats)

I - PUISSANCE D UN POINT PAR RAPPORT A UN CERCLE CERCLES ORTHOGONAUX POLES ET POLAIRES

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Un K-espace vectoriel est un ensemble non vide E muni : d une loi de composition interne, c est-à-dire d une application de E E dans E : E E E

Le modèle de Black et Scholes

M2 IAD UE MODE Notes de cours (3)

Chapitre 3. Les distributions à deux variables

Dérivées d ordres supérieurs. Application à l étude d extrema.

1 Complément sur la projection du nuage des individus

Le produit semi-direct

3. Caractéristiques et fonctions d une v.a.

Chapitre VI - Méthodes de factorisation

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

Université Paris-Dauphine DUMI2E 1ère année, Applications

MÉTHODE DE MONTE CARLO.

Probabilités et statistique. Benjamin JOURDAIN

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Correction du Baccalauréat S Amérique du Nord mai 2007

Optimisation des fonctions de plusieurs variables

Cours d analyse numérique SMI-S4

Calcul différentiel. Chapitre Différentiabilité

Développement décimal d un réel

Calcul intégral élémentaire en plusieurs variables


Que faire lorsqu on considère plusieurs variables en même temps?

Probabilités III Introduction à l évaluation d options

La fonction exponentielle

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Théorie de la mesure. S. Nicolay

Produits d espaces mesurés

Chapitre 2. Matrices

Amphi 3: Espaces complets - Applications linéaires continues

MESURE ET INTÉGRATION EN UNE DIMENSION. Notes de cours

Continuité d une fonction de plusieurs variables

Transcription:

Cours de Probabilités : Modèles et Applications. Anne Philippe & Marie-Claude Viano 2 Niveau Master Université de Nantes Année 2009-200. Anne.Philippe@univ-nantes.fr 2. Marie-Claude.Viano@univ-lille.fr

Table des matières Chapitre. Conditionnement 4. Conditionnement par un événement 4 2. Conditionnement par une partition au plus dénombrable d événements 6 3. Conditionnement par une tribu 0 Annexe : Chaînes de Markov à espace d états au plus dénombrable 6 Annexe : Démonstration de la Proposition.0 9 Chapitre 2. Vecteurs Gaussiens 2. Rappels : vecteurs aléatoires, covariance, fonction caractéristique. 2 2. ois gaussiennes dans R 22 3. Vecteurs Gaussiens 23 4. Vecteur gaussien et indépendance 24 5. Existence 26 6. Densité d un vecteur gaussien 26 7. Vecteur gaussien et conditionnement 27 8. Projection d un vecteur gaussien 29 Chapitre 3. Convergences 32. Définition des modes de convergence 32 2. Quelques propriétés 32 3. Compléments sur la convergence presque sûre 33 4. Théorème de orel-cantelli. 34 Chapitre 4. Sommes de variables aléatoires 36. Inégalité de Kolmogorov 36 2. oi Forte des Grands Nombres 37 3. Théorème de Glivenko-Cantelli 40 Chapitre 5. Convergence en loi 44. Définitions 44 2. Convergence en loi et convergence en probabilité 45 3. Propriétés de la convergence en loi 46 4. Convergence en loi et fonctions caractéristiques 47 5. Théorème central limite 48 6. Théorème de Cramér 50 7. Théorème de indberg-feller 53 3

CHAPITRE Conditionnement Dans ce chapitre, (Ω, A, P) désigne un espace probabilisé.. Conditionnement par un événement On se donne un événement (i.e. A ) tel que P() > 0. Pour tout A A, on pose Q (A) = P( A). P() Exercice. Montrer que Q définit une probabilité sur (Ω, A) Définition.. Q est la mesure de probabilité sachant l événement. On la note souvent P( ) Proposition.. Soit X une variable aléatoire. Si X est P intégrable i.e. E X := X dp < alors X est aussi P( ) intégrable. De plus, on a E(X ) def = X dp( ) = X dp = P() P() E(X I ). (.) E(X ) est l espérance de X sachant (ou conditionnelle à) l événement. Démonstration. Ce résultat se démontre par étapes, en commençant par une fonction indicatrice, ce qui permet de passer aux fonctions étagées puis aux fonctions mesurables positives, pour conclure sur les fonctions intégrables. Étape : X = I A : I A dp( ) = P(A ) = = P() P( A) P() I A dp = P() I A dp Étape 2 : X = j J λ j I Aj où J est un ensemble fini et les (A j ) sont des événements disjoints. On obtient la relation (.) grâce à la linéarité de l intégrale et l étape précédente. Étape 3 : X est mesurable positive. Il existe une suite croissante de variables aléatoires (X n ) n N étagées positives qui converge vers X. D après l étape 2., on a n N X n dp( ) = X n dp. P() On applique ensuite le théorème de eppo evi aux deux intégrales. Étape 4 : X intégrable. a variable aléatoire X se décompose sous la forme X = X + X avec { X + = max(x, 0) X = max( X, 0) es variables aléatoires X + et X sont positives et P intégrable. étape 3 assure que X + dp( ) = X + dp < + P() 4

A. Philippe & M.-Cl. Viano : Probabilités 5 et X dp( ) = X dp < + P() donc X = X + + X est P( ) intégrable et on obtient (.). Pour toute variable aléatoire X (admettons qu elle est à valeurs dans R, mais elle pourrait aussi être à valeurs dans un autre espace) ce qui précède définit aussi la probabilité, sachant, que X appartienne à n importe quel borélien de R. Autrement dit on construit facilement la loi conditionnelle de X et, par le théorème de transfert, l espérance conditionnelle se calcule aussi en utilisant cette loi : Définition.2. a loi de X sachant (ou conditionnelle à) l événement est la transportée de P( ) par X. Soit, pour tout E (R) et on a P X (E ) = P(X (E) )=P(X E ) E(X ) = R xdp X (x ). Exemple.. Soit (X, X 2 ) un couple de variables aléatoires indépendantes et de même loi définie par P(X = k) = α k ( α) k N où α est fixé dans ]0, [. (On note G(α) cette loi) On pose N = { si X X 2 2 sinon On va déterminer le loi de X sachant N =. Commençons par calculer la loi de la variable aléatoire N. a loi du couple (X, X 2 ) étant symétrique, on a P(X < X 2 ) = /2( P(X = X 2 )). On en déduit P(N = ) = P(X = X 2 ) + P(X < X 2 ) = 2 ( + P(X = X 2 )) = 2 ( + k=0 ) P(X = k, X 2 = k) = ( + 2 k=0 ) P(X = k)p(x 2 = k) car les variables aléatoires sont indépendantes, P(N = ) = ( + ( α) 2 α 2k) 2 k=0 = ( ) α)2 ( + 2 α 2 = + α a loi conditionnelle de X sachant l événement [N = ] est donné par P(X = k N = ) = P(N =, X = k) P(N = ) = P(X 2 k, X = k) P(N = ) = ( + α)p(x = k) l k P(X 2 = l) = ( + α)α k ( α) l k ( α)α l = ( α 2 )α 2k, k N.

A. Philippe & M.-Cl. Viano : Probabilités 6 a loi conditionnelle de X sachant l événement [N = ] est une loi G(α 2 ). On en déduit que l espérance de X sachant l événement [N = ] est égale à E(X N = ) = kp(x = k N = ) = α2 α 2 k=0 De la même façon, on obtient la loi de X sachant [N = 2] P(X = k N = 2) = ( α 2 )α k ( α k ) k et l espérance conditionnelle de X sachant N = 2 est égale à + α + α2 α 2. Remarque : espérance de X s exprime à partir des espérances conditionnelles E(X N = ) et E(X N = 2). En effet, on peut décomposer X en et grâce à (.), on obtient X = X I N= + X I N=2 EX = E(X I N= ) + E(X I N=2 ) = P(N = )E(X N = ) + P(N = 2)E(X N = 2) = α α 2. Conditionnement par une partition au plus dénombrable d événements Dans cette partie, ( n ) n N désigne une partition de Ω telle que P( n ) 0 pour tout n. On note la tribu engendrée par cette partition = σ ( n, n N). 2.. Définition et propriétés de la probabilité conditionnelle. Soit A un événement. On définit la probabilité conditionnelle de A sachant comme étant la variable aléatoire qui prend la valeur P(A i ) pour tout ω i. On la note P(A ). On a donc pour tout ω Ω P(A )(ω) = n N P(A n ) I n (ω) (.2) Proposition.2. Soit A fixé, la variable aléatoire P(A ) satisfait les propriétés suivantes : P(A ) est mesurable [π ] : pour tout, on a P(A ) dp = P(A ). Démonstration. En tant que fonction constante sur chaque i, la variable aléatoire P(A ) est mesurable. Soit. Il s écrit de la forme = i I0 i et pour tout fonction P intégrable f, on a On obtient P(A ) dp = i I 0 i P(A ) dp = i I 0 i j N f dp = f dp. i I i 0 P(A j ) I j dp = i I 0 j N P(A j ) i j = i I 0 P(A i )P( i ) car i j = si j i et i sinon dp = P(A i I0 i ) = P(A )

A. Philippe & M.-Cl. Viano : Probabilités 7 Proposition.3. À ω fixé, P( )(ω) est une mesure de probabilité. Démonstration. En effet, si on fixe ω Ω, il existe un unique élément de la partition, noté, ω tel que ω ω. On a alors C est bien une probabilité. P( )(ω) = j N P( j ) I j (ω) = P( ω ). Remarque.. Supposons qu il existe des éléments de la partition ayant une probabilité nulle. On note I = {i : P( i ) 0}. a probabilité conditionnelle sachant est alors définie par P(A )(ω) = n I P(A n ) I n (ω) (.3) P(A ) est nulle sur l ensemble i I c i. 2.2. Définition et propriétés de l espérance conditionnelle. Définition.3. Soit X une variable aléatoire dans (Ω, A, P), l espérance de X conditionnellement à est la variable aléatoire définie par E(X )(ω) not = X dp( )(ω) = E(X i ) I i (ω) (.4) i N pour tout ω Ω. Remarque.2. Pour tout ω, c est tout simplement E(X )(ω) = X dp( ω ) = E(X ω ) où ω est l unique élément de la partition contenant ω. Proposition.4. Soit (X, Y ) un couple de variables aléatoires intégrables par rapport à P et (X n ) n N une suite de variables aléatoires P intégrables. À ω fixé, l espérance conditionnelle vérifie les propriétés suivantes () pour tout couple (λ, µ) R 2, E(λX + µy )(ω) = λe(x )(ω) + µe(y )(ω) (2) si X Y p.s. alors E(X )(ω) E(Y )(ω). (3) si (X n ) n est une suite croissante de variables aléatoires positives intégrables telle que lim n X n = X alors lim n E(X n )(ω) = E(X )(ω) Démonstration. Ces propriétés se déduisent immédiatement des propriétés de l espérance. En effet, à ω fixé E( )(ω) est égale à l espérance par rapport à la mesure de probabilité P( ω ) où ω est l unique élément de la partition contenant ω. Proposition.5. Soit X une variable aléatoire P intégrable. () application ω E(X )(ω) satisfait E(X ) est mesurable [π 2 ] : pour tout, on a E(X ) dp = En particulier en prenant = Ω, on obtient E(E(X )) = E(X) X dp. i.e. les variables aléatoires X et E(X ) ont la même valeur moyenne. (2) Si Y et XY sont P intégrables et si X est mesurable alors E(XY ) = XE(Y ) (3) Si X est indépendante de la tribu alors E(X ) = E(X)

A. Philippe & M.-Cl. Viano : Probabilités 8 Démonstration. Preuve de (). E(X ) est mesurable car elle est constante sur chaque i. Pour tout, on démontre l égalité E(X ) dp = X dp par la méthode standard. Étape : X = I A avec A A le résultat est immédiat car on retrouve la relation [π ]. Il suffit d écrire la définition de E(X ) i.e. E( I A ) = P(A ). Étape 2 : X = j J λ j I Aj où J est un sous ensemble fini. e résultat découle de l étape précédente en utilisant la linéarité de l intégrale et de la linéarité de l espérance conditionnelle. Étape 3 : Étape 4 : X est mesurable positive. Il existe une suite de variables aléatoires étagées positives telle que lim X n = X. étape précédente assure que pour tout n, on a E(X n ) dp = X n dp. D après ()- (2) de la proposition.4, E(X n ) est presque sûrement croissante positive. On peut donc appliquer le théorème de eppo evi, puis la propriété (3) de la proposition.4 pour obtenir le résultat. X est intégrable. On décompose X = X + X avec EX ± <. étape précédente assure que E(X ± ) dp = X ± dp Preuve de (2). On a pour tout. On peut ensuite conclure en utilisant les propriétés de linéarité. E(XY ) = E(XY i ) I i = XY dp(. i ) I i i I i I = XY dp I i P( i ) i I i Comme X est -mesurable donc X s écrit de la forme i I x i I i avec I N. On obtient E(XY ) = XY dp I i = x j I j Y dp I i P( i ) i N i P( i ) i N j N i or { I j si i = j I j i = 0 sinon. d où D autre part XE(Y ) = i I E(XY ) = i I x i Y dp I i = x i E(Y i ) I i. P( i ) i i I x i I i E(Y j ) I j = j I i,j I x i E(Y j ) I j i = i I x i E(Y i ) I i D où l égalité annoncée. Preuve de (3). X étant indépendante de, elle est aussi indépendante des variables aléatoires I j. On a donc E(X ) = i I P( i ) E(X I i ) I i = i I P( i ) E(X)E( I i ) I i = E(X) i I I i = E(X)

A. Philippe & M.-Cl. Viano : Probabilités 9 2.3. Conditionnement par une variable aléatoire discrète. Soit Y une variable aléatoire discrète, Y (Ω) = {y i, i I N}. On peut appliquer les résultats précédents à la tribu engendrée par Y, i.e. la tribu engendrée par la partition constituée des événements i = Y ({y i }), i I. On note σ(y ) cette tribu. On définit l espérance de X sachant Y par et de même la loi de X sachant Y En particulier, on a D après [π 2 ], E(X σ(y )) := E(X Y ) P X (. σ(y )) := P X (. Y ). E(X Y ) = i N E(X Y = y i ) I [Y =yi] = g(y ). g(y ) dp = X dp pour tout σ(y ). Par conséquent pour tout partie C de {y i, i I}, on a Y (C) σ(y ) et la relation précédente s écrit g(y)p(y = y) = X dp y C Y (C) Exemple.2. Reprenons les variables aléatoires définies dans l exemple.. espérance de N conditionnellement à X est donné par E(N X = k) I X=k. De plus, on a Ainsi, on obtient k=0 E(N X = k) = P(N = X = k) + 2P(N = 2 X = k) = P(X 2 k X = k) + 2P(X 2 < k, X = k) P(X = k) = P(X 2 k) + 2P(X 2 < k) = + P(X 2 < k) { + k j=0 = ( α)αj = 2 α k si k si k = 0 = 2 α k E(N X ) = (2 α k ) I X=k = 2 α X k=0 2.4. Quelques remarques. On sait désormais calculer l espérance conditionnelle par rapport à une tribu engendrée par une partition dénombrable ou par une variable aléatoire discrète. Il est important de remarquer que les propriétés [π 2 ] définissent l espérance conditionnelle presque sûrement. En effet, Proposition.6. Si deux variables aléatoires Y et Y 2 vérifient les propriétés [π 2 ] alors elles sont égales P presque sûrement. Démonstration. On a, pour tout, (Y Y 2 ) dp = 0 (.5) Posons = {Y Y 2 > 0} et 2 = {Y Y 2 < 0}. Ces deux événements sont dans la tribu car Y Y 2 est mesurable. En appliquant (.5) aux événements et 2, on obtient qu ils sont P négligeables. Par conséquent, on a bien Y Y 2 = 0 P presque sûrement.

A. Philippe & M.-Cl. Viano : Probabilités 0 es conséquences de ce résultat sont les suivantes. () Si on modifie la variable aléatoire E(X i ) I i sur un ensemble mesurable et de probabilité nulle alors elle vérifie toujours les propriétés [π 2 ]. (2) Si l on trouve une variable aléatoire qui vérifie les propriétés [π 2 ] alors elle est presque sûrement égale à E(X i ) I i. Dans ce cas on parlera de version de l espérance conditionnelle. 3. Conditionnement par une tribu exemple suivant met en évidence la difficulté de généraliser au conditionnement par une variable aléatoire non nécessairement discrète. Exemple.3. Si (X, Y ) est un couple de variables aléatoires indépendantes et de même loi uniforme sur [0, ]. On pose Z = X + Y. On souhaite donner un sens à P(X a Z = α) et à E(X a Z = α). Ici, la définition précédente n a pas de sens, puisque les probabilités P(X a, Z = α) et P(Z = α) sont toutes les deux nulles. Une possibilité pourrait être de calculer P(X a Z [α, α+h]) puis de prendre si elle existe la limite quand h tend vers zéro. On prend α <. Soit h > 0 tel que [α, α + h] [0, ], on a P(Z [α, α + h]) = /2((α + h) 2 α 2 ) = /2h 2 + αh et ah P(X a, Z [α, α + h]) = P(Z [α, α + h]) /2(α + h a) 2 P(Z [α, α + h]) si a < α si α a h + α si a > h + α d où 2ah h 2 +2hα si a < α P(X a Z [α, α + h]) = (α+h a)2 h 2 +2hα si α a h + α si a > h + α h 0 { a α si a < α si a α On reconnaît la loi uniforme sur [0, α]. e problème principal posé par cette définition est l existence de la limite quand h tend vers zéro. Une meilleure voie est d utiliser les propriétés [π 2 ] comme définition de l espérance conditionnelle et de vérifier que les propriétés obtenues dans la section précédente Définition.4. Soit une tribu et X une variable aléatoire. espérance conditionnelle de X sachant est la classe des variables aléatoires E(X ) qui vérifient [π 2 ] i.e. E(X ) est mesurable pour tout, on a E(X ) dp = X dp. On appelle version de l espérance conditionnelle un élément de cette classe a suite de cette section s organise de la façon suivante : ) On montre que E(X ) vérifie les propriétés obtenues dans la section précédente pour l espérance conditionnelle (Section 3.) 2) On montre l existence de E(X ) sous certaines hypothèses. (Section 3.2)

A. Philippe & M.-Cl. Viano : Probabilités 3.. Propriétés de E(X ). Soit X une variable aléatoire P intégrable. On suppose qu il existe une variable aléatoire E(X ) qui satisfait les propriétés [π 2 ]. Sous ces conditions, la variable aléatoire E(X ) vérifie les propriétés suivantes Propriété A. E( ) est linéaire. Propriété. Si X est positive alors E(X ) l est aussi. Sinon, il existe de probabilité non nulle telle que E(X ) dp < 0. D où X dp < 0 ce qui contredit l hypothèse X positive. Propriété C. [Théorème de eppo evi pour l espérance conditionnelle] Soit (X n ) n N une suite croissante de variables aléatoires positives qui converge vers X alors lim E(X n ) = E(X ). Notons d abord que (E(X n )) n est une suite croissante de variables aléatoires positives et mesurable. De plus elle est majorée par E(X ) donc elle converge et sa limite (notée Y ) est mesurable. De plus, en utilisant eppo evi, on a Y dp = lim E(X n ) dp = lim X n dp = X dp Donc Y vérifie [π 2 ]. Propriété D. [emme de Fatou pour l espérance conditionnelle] Si (X n ) n N est une suite positive, alors E(lim X n ) lim E(X n ) Propriété E. [Théorème de la convergence dominée pour l espérance conditionnelle] Si (X n ) n N est une suite qui converge vers X et s il existe une variable aléatoire Y intégrable telle que pour tout n X n Y alors lim E( X n X ) = 0. n Proposition.7. Soit (X, Y ) un couple de variables aléatoires. Si X est mesurable alors E(XY ) = XE(Y ) presque sûrement. Démonstration. XE(Y ) est le produit de variables aléatoires mesurables donc elle l est aussi. On montre maintenant par la méthode standard l égalité : pour tout XE(Y ) dp = XY dp Fixons. Étape : Étape 2 : Étape 3 : X = I A avec A. On a I A E(Y ) dp = A E(Y ) dp = = A Y dp I A Y dp car A X = p i= λ i I Ai. e résultat découle directement de la linéarité de l intégrale. X est mesurable positive. Il existe une suite croissante de variables aléatoires étagées positives (X n ) n N telle que lim X n = X. étape précédente assure que pour tout n, on a X n E(Y ) dp = X n Y dp. (.6) a variable aléatoire Y est positive. a suite (Y X n ) n est donc croissante positive et converge vers XY. On peut donc appliquer le Théorème de eppo evi aux deux membres de (.6) et on obtient XE(Y ) dp = XY dp

A. Philippe & M.-Cl. Viano : Probabilités 2 Étape 4 : Y quelconque. On applique le résultat précédent a Y + et Y i.e. XE(Y ± ) dp = XY ± dp. Ensuite, le résultat découle de la linéarité de l intégrale et de l espérance conditionnelle. X est intégrable. On applique l étape précédente à X + et X et on utilise à nouveau les propriétés de linéarité. Proposition.8. Si X est indépendante de alors E(X ) = E(X) presque sûrement. Démonstration. a variable aléatoire constante et égale à E(X) est mesurable. De plus, pour tout, on a E(X) dp = E(X) = = X dp dp = X dp I dp X I dp car X I Proposition.9. Soient et deux tribus telles que, on a ( ) ( E(X ) = E E(X ) = E E(X ) ) (.7) Démonstration. Rappelons que la condition implique que si une variable aléatoire est mesurable alors elle est aussi mesurable. Ce résultat implique ) que E(X ) est mesurable et donc d après la proposition.7, on a E(X ) = E (E(X ). ( ) Montrons maintenant que E(X ) = E E(X ). a mesurabilité de E(X ) est acquise, de plus pour tout E(X ) dp = X dp car = E(X ) dp car 3.2. Existence de E(X ) et interprétation géométrique. Dans cette partie, nous montrons que si X est de carré intégrable (c est à dire X 2 (Ω, A, P), la meilleure approximation de X par un élément de 2 (Ω,, P) est une version de l espérance conditionnelle. Théorème.0. Soit H un espace de Hilbert (i.e. un espace normé complet dont la norme provient d un produit scalaire). Soit E un sous espace complet de H Pour tout x H, il existe un unique élément y E tel que On note y = P E (x). C est la projection orthogonale sur E. y x = inf w x w E (.8) y x E (.9) Rappelons que 2 (Ω, A, P) est un espace de Hilbert. Soit une sous tribu A et 2 () = 2 (Ω,, P) le sous espace 2 (Ω, A, P) constitué des classes d équivalence d applications mesurable. C est un sous espace complet de 2 (Ω, A, P). es hypothèses du théorème.0 sont donc satisfaites. Posons P 2 () la projection orthogonale sur 2 ().

A. Philippe & M.-Cl. Viano : Probabilités 3 Théorème.. Dans le contexte décrit ci-dessus, si X une variable aléatoire dans 2 (Ω, A, P) alors la variable aléatoire Y = P 2 ()(X) vérifie la condition [π 2 ] (c est une version de l espérance conditionnelle de X sachant.) Démonstration. Montrons que la variable aléatoire Y vérifie la condition [π 2 ]. Par construction, la variable aléatoire Y = P 2 ()(X) est mesurable. Comme la variable Y X est orthogonale à, on a pour tout, les variables aléatoires I et Y X sont orthogonales c est à dire Ceci implique que ou encore E((X Y ) I ) = 0. E(Y I ) = E(X I ) Y dp = Par conséquent, la variable aléatoire Y vérifie [π 2 ]. X dp. Remarque.3. existence reste vraie dans. On admet ici ce résultat. Il est important de remarquer que l interprétation en terme de projection n est plus valide. 3.3. Conditionnement par une variable aléatoire. Soit Y une variable aléatoire à valeur dans l espace E (muni de la tribu E). On note σ(y ) la tribu engendrée par Y. Pour simplifier les notations, on écrit E(X Y ) au lieu de E(X σ(y )). emme.2 (emme de Doob). Soit U une variable aléatoire sur Ω. U est σ(y ) mesurable si et seulement si il existe une application mesurable g de E dans R telle U = g(y ) espérance conditionnelle E(X Y ) est donc de la forme g(y ) avec g mesurable et g(y ) dp = X dp σ(y ). événement peut aussi s exprimer de la forme Y (C) avec C E. En utilisant le théorème du transfert, on obtient [π 3 ] : g(y) dp Y (y) = X dp C Y (C) Remarque.4. Pas abus de langage, on utilise aussi la notation g(y) = E(X Y = y) qui est différente de E(X {Y = y}) Remarque.5. Rappel : une π classe est une collection de parties de E contenant E et stable par intersection fini. Par exemple, {], a], a R} est une π classe qui engendre la tribu borélienne sur R a propriété [π ] (resp. [π 2 ]) est vraie si et seulement si elle est vérifiée pour tout C C où C est une π classe qui engendre. On admet ce résultat. Rappel : image réciproque d une π classe est aussi une π classe. Par conséquent [π 3 ] est vraie si et seulement si elle est vérifiée sur une π classe qui engendre E. Dans ce contexte, les propriétés de l espérance conditionnelle s écrivent ) Si X et Y sont indépendantes alors E(X Y ) = E(X). 2) Pour tout application h de E dans R mesurable, E(h(Y )Z Y ) = h(y )E(Z Y ). 3) Si Z = h(y ) ( = σ(z) σ(y ) ) alors E(X Z) = E(E(X Y ) Z) = E(E(X Z) Y ).

A. Philippe & M.-Cl. Viano : Probabilités 4 3.4. Vecteur à densité. Soit (X, Y ) un couple de variables aléatoires qui admet une densité f par rapport à la mesure produit µ µ 2. On a en particulier P(X, Y C) = f(x, y) dµ µ 2 (x, y) Proposition.3. Si E X < i.e. E(X Y ) = g(y ) = C x f(x, y) dµ µ 2 (x, y) < alors xf(x, Y ) dµ (x) f(x, Y ) dµ (x) (.0) Démonstration. Montrons d abord que g est bien définie. e dénominateur est nul sur { ω, f(x, Y (ω)) dµ (x) = 0 }. On a { P ω, } f(x, Y (ω)) dµ (x) = 0 = = {y: R f(x,y) dµ (x)}=0 {y:f Y (y)=0} dp Y (y) f Y (y) dµ 2 (y) = 0 g(y (ω)) est donc définie P p.s. g(y ) est σ(y ) mesurable (voir un cours sur les mesures produits). On montre maintenant l égalité [π 3 ]. Soit C E g(y) dp Y (y) = g(y)f Y (y) dµ 2 (y) C C xf(x, y) dµ (x) = C f(x, y) dµ (x) f Y (y) dµ 2 (y) = xf(x, y) dµ (x) dµ 2 (y) C = X dp [via le théorème du transfert] Y (C) Cette proposition (.0) nous donne une méthode de calcul de l espérance conditionnelle dans les situations suivantes : Situation. (X, Y ) est un couple de variables aléatoires discrètes E(X Y = k) = x j P(X = x j, Y = k) P(Y = k) c est le contexte de l exemple.2. Situation 2. (X, Y ) est un coupe de variables aléatoires admettant f pour densité : xf(x, y) dx E(X Y = y) = f(x, y) dx 3.5. Distribution conditionnelle. À partir de la définition de l espérance conditionnelle E(X ), on obtient l existence de la probabilité conditionnelle P(A ) en prenant X = I A. Dans le cas général, on a donc P(A ) dp = I A dp = P(A ) Si la tribu est engendrée par une variable aléatoire Y à valeurs dans R p alors P(A Y ) = φ(y ) et pour tout C (R p ) φ(y) dp Y (y) = P(Y (C) A) C Comme pour l espérance conditionnelle, on notera par abus de langage P (A Y = y) = φ(y). j

A. Philippe & M.-Cl. Viano : Probabilités 5 Soit (A n ) n N une suite d événements disjoints. On peut sélectionner, pour chaque n, une version de P(A n ). On vérifie facilement que P( n N A n ) = P(A n ) n N p.s. (.) P(. )(ω) semble se comporter comme une probabilité mais il y a un problème. En effet l ensemble de mesure 0 où l égalité (.) n est pas vérifiée dépend de la suite (A n ) n N. Donc P(. )(ω) ne définit pas, a priori, une probabilité. Définition.5. On appelle version régulière de la probabilité conditionnelle par rapport à, une application π de Ω A dans [0, ] telle que ) à A A fixé, π(, A) est mesurable et π(, A) = E( I A )( ) p.s. 2) à ω fixé, A π(ω, A) est une mesure de probabilité. existence d une version régulière n est pas garantie en général. e théorème suivant nous donne un exemple où l existence de la version régulière est assurée. Théorème.4. Soit X une variable aléatoire sur R q. Pour tout D (R q ), on peut choisir une version de P X (D ) = P(X (D) ) telle que () à D (R q ) fixé, P X (D )( ) est une version de E( I X (D) )( ) (2) à ω fixé, P X ( )(ω) est une mesure de probabilité. On parle alors de version régulière. Définition.6. P X ( ) est appelée loi conditionnelle de X sachant. Si = σ(y ) avec Y une variable aléatoire à valeurs dans R p, alors P X ( Y ) est la loi de X sachant Y. Pour tout D (R q ) et tout, on a P X (D ) dp = P(X (D) ) et pour tout ψ(x) intégrable E(ψ(X) )(ω) = R ψ(x) dp X (x )(ω) Si on prend la tribu engendrée par la variable aléatoire Y, on a pour tout D (R q ) et C (R p ) P X (D Y = y) dp Y (y) = P(X D, Y C) C et pour tout ψ(x) intégrable, on a E(ψ(X) Y )(ω) = ψ(x) dp X (x Y )(ω) pour tout ω. Proposition.5. Soit (X, Y ) un couple de variables aléatoires qui admet pour densité f par rapport à la mesure µ µ 2. a loi conditionnelle de X sachant Y admet pour densité f X (x Y = y) = Démonstration. Posons C Y = { y : f(x, y) dµ (x) 0 }. Il faut montrer que f X (x Y = y) dµ (x) f(x, y) f(x, y) dµ (x) I {y: R f(x,y) dµ (x) 0} (.2) A

A. Philippe & M.-Cl. Viano : Probabilités 6 est une version de P(X A Y ). Pour tout (R p ), on a ( ) f X (x Y = y) dµ (x) dp Y (y) = f X (x Y = y) dµ (x) f Y (y) dµ 2 (y) A A = f(x, y) dµ (x) dµ 2 (y) (Th Fubini) A = P(X A, Y ) Annexe : Chaînes de Markov à espace d états au plus dénombrable Soit E un ensemble dénombrable et (X n ) une suite de variables aléatoires à valeurs dans E. Définition.7. (X n ) n N est une chaîne de Markov si et seulement si pour tout n N et tout (j 0,..., j n ) E n+ P(X n = j 0 X n = j,..., X 0 = j n ) = P(X n = j 0 X n = j ) def = p n (j, j 0 ). Si p n ne dépend pas de n la chaîne de Markov est dite homogène. Remarque.6. ensemble E est souvent appelé espace des états de la chaîne. Proposition.6. Soit (X n ) n N une chaîne de Markov homogène. () a loi de X n est déterminée par la donnée des p(i, j) = P(X = j X 0 = i) et par la loi de X 0. (2) Pour tout entier h > 0 et pour tout (j 0,..., j h ) E h+, on a P(X n = j 0 X n = j,..., X n h = j h ) = P(X n = j 0 X n = j ). (3) Pour tout entier h > 0 et pour tout (j 0,..., j n+ ) E n+2, on a P(X n+h = j 0 X n = j,..., X 0 = j n+ ) = P(X n+h = j 0 X n = j ). Démonstration. () Rappelons que pour toute suite finie d événements A,..., A n, on a la relation suivante P(A... A n ) = P(A n A n... A )P(A n A n 2... A ) P(A ). (.3) Pour tout j E, on a P(X n = j) = P [X n = j, X n = i,..., X 0 = i n ] i,...,i n = P (X n = j, X n = i,..., X 0 = i n ) (car les événements sont disjoints) i,...,i n = P (X n = j X n = i,..., X 0 = i n ) P (X n = i X n 2 = i 2,..., X 0 = i n ) i,...,i n = P (X = i n X 0 = i n ) P (X 0 = i n ) (d après (.3)) i,...,i n p(i, j)p(i 2, i ) p(i n, i n )π 0 (i n ) (.4) puisque (X n ) n N est une chaîne de Markov. (2) Par définition on a

A. Philippe & M.-Cl. Viano : Probabilités 7 P(X n = j 0 X n = j,..., X n h = j h ) = P(X n = j 0, X n = j,..., X n h = j h ) P(X n = j,..., X n h = j h ) = P(X n = j 0, X n = j,..., X 0 = j n ) P(X j h+,...j n = j,..., X n h = j h ) n = P(X n = j 0 X n = j,..., X 0 = j n ) P(X n = j,..., X 0 = j n ) P(X j h+,...j n = j,..., X n h = j h ) n = P(X n = j 0 X n = j ) car le terme P(X n = j 0 X n = j,..., X 0 = j n ) ne dépend pas de (j 2,..., j h+,... j n ) et vaut P(X n = j 0 X n = j ). De plus, on a P(X n = j,..., X 0 = j n ) P(X j h+,...j n = j,..., X n h = j h ) n = j h+,...j n P(X n h = j h+,..., X 0 = j n X n = j,..., X n h = j h ) = (3) e terme de gauche s exprime de la façon suivante P(X n+h = j 0 X n = j,..., X 0 = j n+ ) = P(X n+h = j 0, X n = j,..., X 0 = j n+ ) P(X n = j,..., X 0 = j n+ ) = P (X n+h = j 0, X n+h = i,,..., X n+ = i h, X n = j,..., X 0 = j n+) P(X i n = j,..., X 0 = j n+ ),...,i h = p(i, j 0 ) p(j, i h ) i,...,i h On traite le terme de droite de la même façon i.e. P(X n+h = j 0 X n = j ) = P(X n+h = j 0, X n = j ) P(X n = j ) = P (X n+h = j 0, X n+h = i,,..., X n+ = i h, X n = j ) P(X i n = j ),...,i h = p(i, j 0 ) p(j, i h ). i,...,i h a dernière égalité est obtenue grâce à la propriété 2. Ceci conclut la preuve. e lemme suivant donne une méthode pour construire des chaînes de Markov. Il est souvent très utile pour vérifier qu une suite de variables aléatoires est une chaîne de Markov. emme.7. Soit (Y n ) n N une suite de variables aléatoires i.i.d. à valeurs dans un espace dénombrable. Si (X n ) n N est définie par la donnée de X 0 indépendante de la suite (Y n ) n N et la relation X n+ = f n (X n, Y n ) (.5) où f n est une fonction à valeurs dans E, alors (X n ) n N est une chaîne de Markov. De plus, si la fonction f n ne dépend pas de n alors la chaîne de Markov (X n ) n N est homogène. a preuve de ce résultat repose sur le lemme suivant emme.8. Soient U, V et W trois variables aléatoires discrètes à valeur dans trois espaces E, F et G. Si pour tout (u, v, w) E F G la probabilité P(U = u V = v, W = w) ne dépend pas de w alors c est aussi la probabilité P(U = u V = v)

A. Philippe & M.-Cl. Viano : Probabilités 8 Démonstration. Pour tout w, on a P(U = u, V = v, W = w) = P(U = u V = v, W = w)p(v = v, W = w) = F (u, v)p(v = v, W = w) où F (u, v) = P(U = u V = v, W = w). On obtient P(U = u, V = v) = P(U = u, V = v, W = w) w E = F (u, v) w E P(V = v, W = w) = F (u, v)p(v = v) c est à dire P(U = u V = v) = F (u, v) Démonstration. (Retour au emme.7) Remarquons que X n s exprime comme une fonction des variables aléatoires (X 0, Y 0,..., Y n ). Comme le vecteur (X 0, Y 0,..., Y n ) est indépendant de la suite (Y n, Y n+,...), il en est de même pour X n. Soit (j 0,..., j n ) E n+, P(X n = j 0,..., X 0 = j n ) = P(Y n = l, X n = j,..., X 0 = j n ) d où = {l:f n (j,l)=j 0} {l:f n (j,l)=j 0} P(X n = j 0 X n = j..., X 0 = j n ) = P(Y n = l)p(x n = j,..., X 0 = j n ) {l:f n (j,l)=j 0} P(Y n = l) e terme de droite ne dépend pas de (j 2,..., j n ), c est donc P(X n = j 0 X n = j ) d après le lemme.8. a suite (X n ) n N est donc une chaîne de Markov avec p n (i, j) = P(Y n = l) = P(Y 0 = l). {l:f n (i,l)=j} {l:f n (i,l)=j} De plus, si la fonction f n ne dépend pas de n alors p n (i, j) ne dépend pas de n et donc la chaîne de Markov est homogène. Exemple.4. (Marche aléatoire) On pose X n+ = X n + Y n = f(x n, Y n ) où f ne dépend pas de n. D après le lemme.7, (X n ) est une chaîne de Markov homogène et p(i, j) = P(Y 0 = l) = P(Y 0 = j i). {l:i+l=j} On prend par exemple X 0 = 0 p.s. et la suite (Y i ) i.i.d. suivant la loi de ernoulli de paramètre p. Il est facile de vérifier que n X n = k N et donc X n suit une loi binomiale (n, p). Exemple.5. On pose X n+ = k= Y k { X n + Y n X n si X n D si X n / D

A. Philippe & M.-Cl. Viano : Probabilités 9 on a donc f(x n, Y n ) = X n + Y n I Xn D et P(Y = j i) si i D p(i, j) = P(Y 0 = l) = si i / D et i = j {l f(i,l)=j} 0 si i / D et i j Pour conclure cette section, on considère des chaînes de Markov à espace d états fini. Fixons E = {,..., q}. Soit (X n ) n N une chaîne de Markov homogène sur E, on définit la matrice Q = p(, ) p(, 2) p(, q)...... p(q, ) p(q, 2) p(q, q). (.6) Définition.8. a matrice Q définie en (.6) est appelée matrice de transition. a somme des termes d une ligne vaut, équation (.4) s écrit P(X 2 = X = k) + + P(X 2 = q X = k) = k E. (π (),..., π (q)) = (π 0 (),..., π 0 (q))q π = π 0 Q D où π n = π 0 Q n si bien que Q n peut s interpréter comme la matrice de transition P(X n = j X 0 = i) = Q n (i, j). Annexe : Démonstration de la Proposition.0 Montrons d abord que les propriétés (.8) et (.9) sont équivalentes. (.8) implique (.9) : Soit w arbitraire dans E, Pour tout t R, on a tw + y E et y x 2 tw + y x 2 = t 2 w 2 + 2t(w y x) + y x 2. D où t 2 w 2 + 2t(w y x) 0 pour tout t R ceci est possible si et seulement si (w y x) = 0. On a donc prouvé que y x E. (.9) implique (.8) : Soit y E tel que y x E, pour tout w E, x w 2 = x y 2 + y w 2 car y w E est orthogonal à x y. On a donc x w 2 x y 2 et par conséquent y x = inf w E w x. Existence On pose d = inf w E w x. Si d = 0 alors x E convient. On suppose désormais que d 0. Par définition de la borne inférieur il existe une suite (y n ) n dans E telle que y n x d quand n tend vers l infini. Soit ε > 0 fixé, il existe un entier N tel que pour tout n > N y n x 2 < ε 2 +d 2. Prenons n, m > N, par l identité du parallélogramme, on a Comme yn+ym y n x 2 + y m x 2 = 2 y n + y m 2x 2 + 2 y m y n 2 = 2 y n + y m 2 x 2 + 2 y m y n 2 2 E, on a yn+ym 2 x 2 d 2. On en déduit que y m y n 2 4ε 2. a suite (y n ) n est donc de Cauchy dans E. Cet espace étant complet, la suite converge dans E, notons y la limite. De plus, d 2 y x 2 y n x 2 + y n y 2 n d2 + 0 ce qui implique que d = y x. On a donc prouvé l existence de y E vérifiant (.8) Unicité

A. Philippe & M.-Cl. Viano : Probabilités 20 Soit (y, z) E 2 tel que d = x y = x z. On a x y 2 = x z 2 = x y 2 + y z 2 + 2(x y y z) (.7) or (x y y z) = 0 car y z E et x y E, et donc (.7) implique que y z = 0 d où y = z.

CHAPITRE 2 Vecteurs Gaussiens. Rappels : vecteurs aléatoires, covariance, fonction caractéristique. Nous commençons ce chapitre par quelques rappels sur les vecteurs aléatoires. Soit X = un vecteur aléatoire i.e. une application mesurable sur (R k, (R k )). Toutes les coordonnées du vecteur X sont des variables aléatoires réelles. Définition 2.. Soit X un vecteur aléatoire tel que, pour tout j {,..., k}, la variable aléatoire X j est P intégrable. espérance de X est le vecteur E(X) = t (E(X ) E(X k )). On dit que le vecteur aléatoire X est centré si EX est le vecteur nul dans R k. Soit X un vecteur aléatoire dont toutes les coordonnées sont des variables aléatoires réelles de 2. a notion de variance pour les variables aléatoires réelles se généralise en considérant la matrice (notée Var(X) ou Σ X ) constituée des éléments Cov(X i, X j ) = E((X i E(X i ))(X j E(X j ))) i, j k. Un simple calcul permet d établir l égalité suivante Cov(X i, X j ) = E(X i X j ) E(X i )E(X j ). a matrice Σ X est appelée matrice de covariance de X. Elle peut aussi s exprimer de la façon suivante : Σ X = E(X t X) E(X) t E(X) où t X représente la transposée de X. Soient X et Y deux vecteurs aléatoires, 2. On suppose que X (resp. Y ) est à valeur dans R k (resp. R p ). a covariance entre les vecteurs X et Y est la matrice constituée des éléments Cov(X i, Y j ) pour i =,..., k et j =,..., p. On la note Cov(X, Y ). Remarquons que si les vecteurs sont indépendants alors la matrice Cov(X, Y ) est la matrice nulle. Proposition 2.. Transformation affine : Soit R p et A une matrice (p k). On pose Y = AX +. e vecteur aléatoire Y vérifie () EY = AEX + (2) Var(Y ) = AVar(X) t A Proposition 2.2. Soient X et Y deux vecteurs aléatoires. (i) Si X et Y sont indépendants alors Cov(X, Y ) = 0 mais attention la réciproque est fausse ( ) X (ii) Posons Z =. Sa matrice de covariance est donnée par Y ( Var(X) ) Cov(X, Y ) Cov(Y, X) Var(Y ) (iii) Si X et Y sont des vecteurs de même dimension alors Var(X + Y ) = Var(X) + Var(Y ) + Cov(X, Y ) + Cov(Y, X) 2 X. X k

A. Philippe & M.-Cl. Viano : Probabilités 22 Définition 2.2. Soit X un vecteur aléatoire. Sa fonction caractéristique est définie par Φ X (u) = E(e i t ux ) = E (e i P ) k j= ujxj u R k e résultat suivant assure que la loi d une variable aléatoire est déterminée par sa fonction caractéristique. Théorème 2.3 (unicité). Soient X et Y deux variables aléatoires. On note φ X et φ Y leurs fonctions caractéristiques. Si φ X = φ Y alors les variables aléatoires X et Y admettent la même loi. On vérifie facilement que si Y est une transformation affine du vecteur X c est à dire Y = AX + avec R p et A une matrice (p k), les fonctions caractéristiques de X et Y sont liées par la relation suivante Φ Y (v) = e i t v Φ X ( t Av) pour tout v R p. a propriété suivante donne une condition nécessaire et suffisante pour obtenir l indépendance des coordonnées d un vecteur. Proposition 2.4. Soit X = (X,, X k ) un vecteur aléatoire. es variables aléatoires (X,, X k ) sont indépendantes si et seulement si k Φ X (u) = Φ Xi (u i ) u = (u,..., u k ) i= Démonstration. [ = ] Supposons que les coordonnées de X soient indépendantes. Pour tout u R k, on a Φ X (u) := E (e i P ) k k j= ujxj = E ( e ) k iujxj = Φ Xj (u j ) j= [ = ] Réciproquement, pour tout u R k, on a k Φ X (u) = Φ Xi (u i ). Alors, on a, pour tout u R k i= e i P k j= ujxj dp X,...,X k (x,..., x k ) = = j= j= k e iujxj dp Xj (x j ) e i P k j= ujxj k j= dp Xj (x j ) unicité de la fonction caractéristique (voir Théorème 2.3) implique que la loi du vecteur (X,..., X k ) est la mesure produit. D où l indépendance des coordonnées du vecteur X 2. ois gaussiennes dans R Définition 2.3. Soit X une variable aléatoire réelle. On dit que X est une variable aléatoire gaussienne de paramètres (µ, σ 2 ) avec µ R et σ R + (on note X N (µ, σ 2 )) si et seulement si X vérifie une des deux conditions suivantes [I] σ > 0 et X admet pour densité f(x) = 2πσ exp [II] σ = 0 et X est presque sûrement égale à µ. ( ) (x µ)2 2σ2 (2.)

A. Philippe & M.-Cl. Viano : Probabilités 23 Remarque 2.. Dans la situation [II], on parle de lois gaussiennes dégénérées. Dans ce cas, la variable aléatoire n admet pas de densité par rapport à la mesure de ebesgue. Rappelons quelques propriétés des lois gaussiennes. Soit X N (µ, σ 2 ), on a l espérance de X vaut µ. la variance est notée Var(X) et vaut σ 2. la fonction caractéristique de X est égale à φ X (t) = E(e itx ) = e itµ e t2 σ 2 2 t R. si σ > 0 alors X µ N (0, ). Cette loi gaussienne est dite standard σ plus généralement, on a ax + b N (aµ + b, a 2 σ 2 ) pour tout (a, b) R 2. Dans la suite du chapitre, on utilisera les notations suivantes t A pour la transposée de A I n pour la matrice identité de dimension n n 0 n,m pour la matrice nulle de dimension n m diag(a,..., a p ) désigne la matrice diagonale dont la diagonale est égale à (a,..., a p ), c est à dire a 0 0. diag(a,..., a p ) = 0............. 0 = a... a p 0 0 a p 3. Vecteurs Gaussiens Définition 2.4. Un vecteur aléatoire X à valeurs dans R k est un vecteur gaussien si et seulement si toute combinaison linéaire de ses coordonnées est une variable aléatoire gaussienne i.e. λ, k j= λ jx j suit une loi gaussienne (éventuellement dégénérée). Remarque 2.2. Si X est un vecteur gaussien alors pour toute partie {i,..., i p } de {,..., k}, le vecteur (X i,..., X ip ) est gaussien. Proposition 2.5. Si φ est une application linéaire de R k dans R m et si X est un vecteur gaussien de dimension k alors φ(x) est aussi un vecteur gaussien de dimension m. Démonstration. Il suffit de remarquer que toute combinaison linéaire des coordonnées de φ(x) est aussi une combinaison linéaire des coordonnées de X. On peut aussi définir un vecteur gaussien à partir de sa fonction de caractéristique. On a l équivalence suivante : Théorème 2.6. Un vecteur aléatoire X à valeurs dans R k est un vecteur gaussien si et seulement si X 2 et il admet pour fonction caractéristique avec µ = E(X) et Σ = Var(X). Démonstration. ( = ) Par définition, on a Φ X (u) = e i t uµ 2 t uσu u R k (2.2) Φ X (u) = E(e i t ux ) = E(e iy ) = Φ Y ()

où Y = A. Philippe & M.-Cl. Viano : Probabilités 24 k u i X i. a variable aléatoire Y est une variable aléatoire gaussienne puisque c est une i= combinaison linéaire des coordonnées du vecteur gaussien X. On a donc Φ Y () = e ie(y ) e Var(Y ) 2 avec et E(Y ) = E( k u i X i ) = i= ( k ) Var(Y ) = Var u i X i = = k i= j= i= k u i E(X i ) = t uµ i= k i= j= k Cov(u i X i, j X j ) k u i u j Cov(X i, X j ) = t uσu. Ceci prouve que la fonction caractéristique du vecteur X est bien de la forme annoncée. k ( = ) Soit t Λ = (λ,..., λ k ). On pose Y = λ i X i = t ΛX. Montrons que Y est une variable aléatoire gaussienne. Pour tout u R, la fonction caractéristique de Y est donnée par i= Φ Y (u) = E(e iu t ΛX ) = Φ X (uλ) = e i t (uλ)µ 2 t (uλ)σuλ = e iu t Λµ 2 u2 t ΛΣΛ On reconnaît la fonction caractéristique de la loi gaussienne N ( t Λµ ; t ΛΣΛ). Donc Y est bien une variable aléatoire gaussienne. Remarque 2.3. Cette propriété nous montre que la loi d un vecteur gaussien est entièrement déterminée par son espérance et sa matrice de covariance. Dans la suite, on utilisera la notation X N k (µ, Σ) pour désigner un vecteur gaussien de dimension k, d espérance µ et de matrice de covariance Σ. Exemple 2.. Soient X,..., X p des variables aléatoires gaussiennes indépendantes. On suppose que X i N (m i, σi 2 ) pour tout i,..., p. A partir du Théorème 2.6, on montre facilement que X = t (X,..., X p ) est un vecteur gaussien d espérance t (EX,..., EX p ) de sa matrice de covariance est diagonale et égale à diag(σ, 2..., σp). 2 Attention : l exemple 2.2 nous fournit un exemple de vecteur donc les coordonnées sont gaussiennes mais le vecteur n est pas gaussien. Remarque 2.4. Soit A une matrice de dimension p k et X un vecteur gaussien, X N k (µ, Σ). e vecteur AX est un vecteur gaussien de dimension p d après la Proposition 2.5. De plus, on a X N p (Aµ, AΣ t A). 4. Vecteur gaussien et indépendance orsque t X = t (X,, X k ) est un vecteur aléatoire, 2, nous avons vu que si les coordonnées (X,, X k ) sont indépendantes alors la matrice de covariance est diagonale car cov(x i, X j ) = 0 pour i j. a réciproque est fausse en général. Pour les vecteurs gaussiens, nous avons le résultat suivant Proposition 2.7. Soit X un vecteur gaussien de dimension k, de moyenne µ et de covariance Σ. es variables aléatoires (X,, X k ) sont indépendantes si et seulement si la matrice Σ est diagonale.

A. Philippe & M.-Cl. Viano : Probabilités 25 Démonstration. Notons σ i,j les éléments de la matrice Σ. D après la proposition 2.4, les variables aléatoires (X,, X k ) sont indépendantes si seulement si k Φ X (u) = Φ Xi (u i ) u R k. (2.3) Or la fonction caractéristique de X s écrit i= Φ X (u) = e i t uµ 2 t uσu et le terme de droite dans (2.3) s exprime comme k k Φ Xi (u i ) = e iµjuj 2 u2 i σi,i = e i t uµ e P k 2 j= u2 j σj,j. i= j= De plus, on a k j= u2 j σ j,j = t udu en prenant D la matrice diagonale construite à partir de la diagonale de Σ i.e. D = σ,... égalité (2.3) est donc équivalente à Σ = D. D où l indépendance des coordonnées de X si et seulement si Σ = D. Exemple 2.2. Soit X une variable aléatoire gaussienne standard et soit ε une variable aléatoire de loi P(ε = ) = P(ε = ) = /2. Supposons que X et ε soient des variables aléatoires indépendantes. On pose Y = εx. Y est une variable aléatoire gaussienne. En effet la fonction caractéristique de Y est donnée par E(e ity ) = E(e itεx ) = k {,} = 2 EeitX + 2 Ee itx e itkx P(ε = k) dp X (x) σ k,k. (indépendance et th. de Fubini) = 2 (φ X(t) + φ X ( t)) = e 2 t2 (car φ X (t) = e 2 t2 ). Cov(X, Y ) = 0 En effet, la covariance est égale à E(XY ) E(X)E(Y ) = E(XY ) (car E(X) = 0) = E(X 2 ε) = E(X 2 )E(ε) (via l indépendance) = 0 (car E(ε) = 0) X = ε Y = Y donc les variables aléatoires X et Y ne sont pas indépendantes. Ici, les variables aléatoires X et Y sont gaussiennes mais le vecteur (X, Y ) lui n est pas un vecteur gaussien. Proposition 2.8. Soit X un vecteur gaussien écrit de la forme (Y, Z) avec Y R p et Z R q. es vecteurs Y et Z sont indépendants si et seulement si la matrice de covariance de X est diagonale par blocs c est a dire ( ) A 0p,q 0 q,p avec A une matrice de dimension p p et une matrice de dimension q q.

A. Philippe & M.-Cl. Viano : Probabilités 26 Démonstration. à faire en exercice 5. Existence Proposition 2.9. Soient Σ une matrice symétrique semi définie positive et µ un vecteur de R k. Il existe une (unique) loi de probabilité N telle que e i t ux dn (x) = e i t µu t 2 uσu pour tout u R k. Démonstration. a matrice Σ étant symétrique est diagonalisable dans une base orthonormale. Par conséquent, il existe une matrice P telle que P t P = I k et t P ΣP = Λ = λ... es λ i sont positifs (λ j 0) car la matrice Σ est semi définie positive. On définit le vecteur Y dont les coordonnées Y j sont indépendantes et tel que, pour tout j, Y j est distribuée suivant la loi gaussienne N (0, λ i ). a fonction caractéristique de Y s écrit alors Φ Y (t) = k j= e 2 λjt2 j C est donc un vecteur gaussien centré et de matrice de covariance Λ. On pose X = P Y + µ. e vecteur X est gaussien. En effet toute combinaison linéaire des composantes de X s écrit comme la somme d une constante et d une combinaison linéaire des composantes de Y. Comme Y est un vecteur gaussien c est aussi la somme d une constante et d une variable gaussienne qui reste une variable gaussienne. De plus, sa moyenne vaut P EY + µ = µ et sa matrice de covariance égale à λ k Var(P Y + µ) = Var(P Y ) = P Var(Y ) t P = P Λ t P = Σ. 6. Densité d un vecteur gaussien On a montré dans la section 5 que la loi normale N k (µ, Σ) est la mesure image de la loi k j=n (0, λ j ) par la transformation y P y + µ. Situation : Si pour tout j, λ j 0, la mesure k j=n (0, λ j ) admet pour densité ( ) k exp( yj 2 ) = 2πλj 2 λ j (2π) k/2 k i= λ exp k yj 2. 2 λ i j j= Par conséquent, la mesure image par la transformation x = P y + µ admet aussi une densité égale à en effet (2π) k/2 det(σ) /2 e( t 2 (x µ)σ (x mu)). (2.4) ) e jacobien de la transformation y P y + µ est égal à det(p ) =. 2 ) e terme k i= λ i est égal à det(σ). i=

A. Philippe & M.-Cl. Viano : Probabilités 27 3 ) Finalement, on a k i= y 2 i λ i = t yλ y = t ( t P (x µ))λ ( t P (x µ)) = t (x µ)p Λ t P (x µ) = t (x µ)σ (x µ) Situation 2 : On note λ,..., λ q les valeurs propres non nulles (q < k). a loi de Y s écrit comme Q Q 2 où Q admet pour densité q exp( yj 2 ) 2πλj 2λ j j= et Q 2 est la mesure de Dirac au point (0,..., 0) R k p. a loi image de Q Q 2 par la transformation y P y + µ n admet pas de densité par rapport à la mesure de ebesgue sur R k. En effet, le support de la loi est l image par y P y + µ du sous espace vectoriel R q 0 k q de dimension q. a loi est concentrée sur un sous espace affine de dimension q dans R k qui est de mesure de ebesgue nulle. Dans ce cas, on a E[h(X)] = h(p Y + µ) dq Q 2 = h(p t (y,..., y q, 0,..., 0) + µ) q j= 7. Vecteur gaussien et conditionnement exp( yj 2 ) dy dy q 2πλj 2λ j Soit X un vecteur gaussien de dimension k 2. On pose H k le sous espace des fonctions affines engendré par X,..., X k. On note P H k (X k ) la projection orthogonale (dans 2 ) de X k sur H k. Théorème 2.0. Soit X un vecteur gaussien d espérance µ et de matrice de covariance Σ. On a les propriétés suivantes : Propriété. a variable aléatoire X k P H k (X k ) est indépendante de (X,..., X k ), elle suit une loi gaussienne centrée et de variance σ 2 = E(X k P H k (X k )) 2 = X k P H k (X k ) 2 2 Propriété 2. P H k (X k ) = E(X k X,..., X k ) Propriété 3. a loi conditionnelle de X k sachant (X,..., X k ) est gaussienne d espérance P H k (X k ) et de variance X k P H k (X k ) 2 2. a variance ne dépend donc pas de (X,..., X k ). Démonstration. Preuve de la propriété. (X k ) est orthogonale à H k. En particulier, elle est ortho- a variable aléatoire X k P H k gonale à I R c est à dire E((X k P H k (X k )) I R ) = E((X k P H k (X k ))) = 0. a variable aléatoire X k P H k (X k ) est donc centrée. Posons Z = (X,..., X k, X k P H k (X k )). Par construction, la variable aléatoire P H k (X k ) H k donc elle s écrit sous la forme α 0 +α X + +α k X k. On peut donc exprimer Z comme

A. Philippe & M.-Cl. Viano : Probabilités 28 une transformation affine de X c est à dire 0 ( ) Z =. 0 + I p 0 p, X α α k α 0 e vecteur Z est donc un vecteur gaussien. Sa matrice de covariance de Z est de la forme ( ) Σk 0 Σ = k, 0,k σ 2 avec Σ k = Var(X,..., X k ) et σ 2 = Var(X k P H k (X k )) = X k P H k (X k ) 2 2 car la variable aléatoire X k P H k (X k ) (X k ) est est centrée. a matrice Σ étant diagonale par blocs, on peut conclure que X k P H k indépendante de (X,..., X k ). De plus, elle suit une loi gaussienne d espérance 0 et de variance σ 2. Preuve de la propriété 2. a variable aléatoire X k P H k (X k ) est indépendante des variables aléatoires X,..., X k (X k ) est orthogonal à et donc de toute fonction φ(x,..., X k ). Par conséquent, X k P H k 2 (Ω, σ(x,..., X k ), P) et P H k (X k ) est aussi la projection orthogonale de X k sur l espace 2 (Ω, σ(x,..., X k ), P). D où le résultat. Preuve de la propriété 3. a preuve repose sur le lemme suivant emme 2.. Si X = g(y )+Z avec Z et Y indépendantes alors la loi de X conditionnellement à Y est la loi de Z (notée P Z ) translatée par le vecteur g(y ) i.e. P(X A Y = y) = P Z (A g(y)) Démonstration du lemme. D abord la mesurabilité s obtient en remarquant que P Z (A g(y )) = I A (Z + g(y )) dp Z est mesurable. Puis, pour tout, on a P Z (A g(y)) dp Y (y) = I (y) I A g(y) (z) dp Y (y) dp Z (z) = P(Y, Z g(y ) A) = P(Y, X A) suite de la preuve de la propriété 3. On décompose la variable aléatoire X k de la façon suivante : avec P H k X k = P H k (X k ) = g(x,..., X k ) et X k P H k (X k ) + X k P H k (X k ) (X k ) indépendantes. D après le emme 2. la (X k ) translatée par le loi conditionnelle de X k sachant (X,..., X k ) est la loi de X k P H k vecteur P H k (X k ). C est donc la loi gaussienne N (0, σ 2 ) translatée par le vecteur P H k (X k ) et de variance σ 2. qui donne la loi gaussienne d espérance P H k Exemple 2.3. Soit X = (X, X 2, X 3 ) un vecteur gaussien centré et de variance ρ ρ 2 ρ ρ ρ 2 ρ (X k ) ce a loi conditionnelle de X sachant (X 2, X 3 ) est une variable aléatoire gaussienne de moyenne E(X X 2, X 3 ) de la forme α + βx 2 + γx 3 telle que X (α + βx 2 + γx 3 ) X 2 X 3

A. Philippe & M.-Cl. Viano : Probabilités 29 On obtient α = 0 α = 0 β + ργ = ρ = γ = 0 βρ + γ = ρ 2 β = ρ i.e. E(X X 2, X 3 ) = ρx 2 De plus la variance de la loi conditionnelle est égale à σ 2 = X ρx 2 2 2 = ρ 2. 8. Projection d un vecteur gaussien Définition 2.5. Fixons k N. a loi du χ 2 à k degrés de liberté (notée χ 2 (k)) est la loi de probabilité qui admet pour densité f k (x) = e x k 2 x 2 Γ(k/2) 2 k I R (x). + Rappelons que la fonction Γ est définie par Γ(z) = e x x z dx z > 0. R + Elle vérifie les propriétés suivantes () pour tout z > 0, Γ(z + ) = zγ(z). (2) pour tout n N, Γ(n + ) = n!. (3) Γ(/2) = π Théorème 2.2. Soit (X,..., X k ) une suite de variables aléatoires indépendantes et de même loi gaussienne standard i.e. pour tout i, X i N (0, ). () es variables aléatoires (X 2,..., Xn) 2 sont indépendantes et identiquement distribuées suivant la loi du χ 2 à degré de liberté : χ 2 (). k (2) X 2 = suit une loi du χ 2 à k ddl : χ 2 (k). i= X 2 i Démonstration. A faire en exercice. Théorème 2.3 (Théorème de Cochran). Soit E et E 2 deux sous espaces orthogonaux supplémentaires de R k. X = (X,..., X k ) un vecteur gaussien centré de covariance I k. On note Z (resp. Z 2 ) la projection orthogonale de X sur E (resp. E 2 ). Propriété es variables aléatoires Z et Z 2 sont indépendantes Propriété 2 Z 2 (resp. Z 2 2 ) suit une loi du χ 2 à p (resp. q) degrés de liberté avec p + q = k. Démonstration. Preuve de la propriété On note p (resp. q) la dimension du sous espace E (resp. E 2 ) avec p + q = k. a matrice de projection orthogonale sur E (resp. E 2 ) s écrit ( ) ( ) Ip 0 S = P p,q t 0p,p 0 P (resp. S 0 q,p 0 2 = P p,q t P.) q,q 0 q,p I q où P est une matrice orthogonale (i.e. propriétés suivantes : () elles sont symétriques (2) S 2 i = S i pour i =, 2 (3) S S 2 = S 2 S = 0 k,k. P t P = t P P = I k ). es matrices S et S 2 vérifient les