Seconde Partie. Cours de Mathématiques. Semestre



Documents pareils
Moments des variables aléatoires réelles

3. Conditionnement P (B)

Espérance conditionnelle

Programmes des classes préparatoires aux Grandes Ecoles

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

MA6.06 : Mesure et Probabilités

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

3 Approximation de solutions d équations

Intégration et probabilités TD1 Espaces mesurés Corrigé

Simulation de variables aléatoires

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Que faire lorsqu on considère plusieurs variables en même temps?

4. Martingales à temps discret

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

I. Polynômes de Tchebychev

Cours d Analyse. Fonctions de plusieurs variables

PROBABILITÉS: COURS DE LICENCE DE MATHÉMATIQUES APPLIQUÉES LM 390

Modèles et Méthodes de Réservation

Mesures gaussiennes et espaces de Fock

Calcul matriciel. Définition 1 Une matrice de format (m,n) est un tableau rectangulaire de mn éléments, rangés en m lignes et n colonnes.

Loi d une variable discrète

Probabilités sur un univers fini

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Image d un intervalle par une fonction continue

Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions

Approximations variationelles des EDP Notes du Cours de M2

MESURE ET INTÉGRATION EN UNE DIMENSION. Notes de cours

Structures algébriques

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Capes Première épreuve

Fonctions de plusieurs variables

Théorie de la Mesure et Intégration

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Travaux dirigés d introduction aux Probabilités

Fonctions de plusieurs variables : dérivés partielles, diérentielle. Fonctions composées. Fonctions de classe C 1. Exemples

La mesure de Lebesgue sur la droite réelle

Limites finies en un point

Cours 02 : Problème général de la programmation linéaire

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Calcul fonctionnel holomorphe dans les algèbres de Banach

Amphi 3: Espaces complets - Applications linéaires continues

Intégration et probabilités TD1 Espaces mesurés

Probabilités sur un univers fini

Master IMEA 1 Calcul Stochastique et Finance Feuille de T.D. n o 1

Le produit semi-direct


Intégration sur des espaces produits

Produits d espaces mesurés

PROBABILITES ET STATISTIQUE I&II

MÉTHODE DE MONTE CARLO.

Couples de variables aléatoires discrètes

Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.

Problème 1 : applications du plan affine

Fonctions de plusieurs variables

Résolution d équations non linéaires

Continuité en un point

Chapitre 7 : Intégration sur un intervalle quelconque

3. Caractéristiques et fonctions d une v.a.

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

Calcul différentiel. Chapitre Différentiabilité

Cours d analyse numérique SMI-S4

Construction de l'intégrale de Lebesgue

Chapitre 3. Les distributions à deux variables

THÉORIE DE LA MESURE ET DE L INTÉGRATION.

1 Complément sur la projection du nuage des individus

EXERCICE 4 (7 points ) (Commun à tous les candidats)

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Texte Agrégation limitée par diffusion interne

FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)

Un K-espace vectoriel est un ensemble non vide E muni : d une loi de composition interne, c est-à-dire d une application de E E dans E : E E E

LEÇON N 7 : Schéma de Bernoulli et loi binomiale. Exemples.

I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.

Correction de l examen de la première session

Théorie de la mesure. S. Nicolay

Chapitre VI Fonctions de plusieurs variables

8.1 Généralités sur les fonctions de plusieurs variables réelles. f : R 2 R (x, y) 1 x 2 y 2

Fonctions de plusieurs variables. Sébastien Tordeux

Intégrales doubles et triples - M

ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE

Théorie de la Mesure et Intégration

Chapitre 2. Eléments pour comprendre un énoncé

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

TIQUE DE FRANCE NILSYSTÈMES D ORDRE 2 ET PARALLÉLÉPIPÈDES

Méthodes de Simulation

Différentiabilité ; Fonctions de plusieurs variables réelles

Dualité dans les espaces de Lebesgue et mesures de Radon finies

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Université Paris-Dauphine DUMI2E 1ère année, Applications

Programmation linéaire et Optimisation. Didier Smets

Correction du Baccalauréat S Amérique du Nord mai 2007

Probabilités et statistique. Benjamin JOURDAIN

Apprentissage non paramétrique en régression

Cours de mathématiques

Probabilités avancées. Florin Avram

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Développement décimal d un réel

1 TD1 : rappels sur les ensembles et notion de probabilité

Exercice : la frontière des portefeuilles optimaux sans actif certain

Transcription:

Année 2009-2010 ntégration et Probabilités Seconde Partie Cours de Mathématiques Takéo Takahashi Première Année FICM Semestre

Table des matières 5 Indépendance et Convolution 3 5.1 Indépendance.............................................. 3 5.1.1 Définitions........................................... 3 5.1.2 Caractérisations........................................ 6 5.1.3 Cadre des lois discrètes et des lois absolument continues.................. 9 5.2 Covariance et corrélation........................................ 11 5.3 Convolution............................................... 16 5.3.1 Mesure convolée........................................ 16 5.3.2 Addition de variables aléatoires discrètes indépendantes.................. 17 5.3.3 Addition de deux variables aléatoires indépendantes absolument continues........ 19 5.4 Annexe : Preuve de la proposition 5.11................................ 20 6 Espaces de Hilbert. 23 6.1 Définition d un espace de Hilbert................................... 23 6.1.1 Formes sesquilinéaires et formes hermitiennes........................ 23 6.1.2 Espaces de Hilbert....................................... 27 6.2 Distance et projection......................................... 28 6.2.1 Distance à un ensemble.................................... 28 6.2.2 Projection orthogonale sur un sous-espace vectoriel fermé................. 30 6.3 Bases hilbertiennes........................................... 34 6.3.1 Systèmes orthonormaux.................................... 34 6.3.2 Espaces séparables....................................... 35 6.4 Application à l étude des séries de Fourier.............................. 36 6.5 Annexes................................................. 38 6.5.1 Preuve de la proposition 6.19................................. 38 6.5.2 Preuve de la proposition 6.21................................. 39 7 Transformation de Fourier et Fonctions Caractéristiques 43 7.1 Transformation de Fourier de fonctions................................ 43 7.1.1 Définition et premières propriétés............................... 43 7.1.2 Transformée de Fourier et dérivation............................. 46 7.1.3 Identité de Parseval...................................... 48 7.1.4 Transformée de Fourier et inversion............................. 48 7.2 Transformée de Fourier d une mesure bornée............................ 50 7.3 Fonction caractéristique d une variable aléatoire........................... 51 7.3.1 Définition, exemples et premières propriétés......................... 51 7.3.2 Moments d une variable aléatoire............................... 54 7.3.3 Indépendance.......................................... 55 7.4 Annexe : Preuve du théorème 7.8................................... 56 1

8 Suites de variables aléatoires 59 8.1 Convergence presque sûre....................................... 59 8.1.1 Définition et propriétés.................................... 59 8.1.2 Lemme de Borel-Cantelli................................... 61 8.2 Convergence en probabilité...................................... 65 8.3 Convergence L p............................................. 68 8.4 Convergence en loi........................................... 72 8.4.1 Définition et premières propriétés............................... 72 8.4.2 Caractérisations........................................ 73 8.5 Somme de variables aléatoires indépendantes............................ 75 8.5.1 Loi des grands nombres.................................... 75 8.5.2 Théorème central limite.................................... 77 A Lois classiques 79 A.1 Lois discrètes.............................................. 79 A.2 Lois absolument continues....................................... 80 B Comparaison des divers modes de convergences 81 2

Chapitre 5 Indépendance et Convolution Dans la suite, (Ω P) désigne un espace de probabilité et λ d est la mesure de Lebesgue sur R d B R d. Nous pouvons supposer, sans perte de généralités, que l espace (Ω P) est complet. Dans ce chapitre, les variables aléatoires considérées sont toutes définies sur le même espace (Ω P) à valeurs dans R d où d peut varier. La notion d indépendance est importante en probabilités. Elle permet de modéliser des expériences dont les résultats n influent pas intuitivement les uns des autres. Par exemple, lorsque l on jette un dé bleu et un dé rouge, le résultat obtenu avec le dé bleu ne dépend pas de celui obtenu avec le dé rouge. Cette notion d indépendance est reliée à la notion de mesure produit, notion introduite au chapitre 1. Dans ce chapitre, nous introduisons la notion de variables aléatoires indépendantes mais aussi la notion, plus faible, de variables aléatoires corrélées. Enfin, l étude de la loi de la somme de deux variables aléatoires indépendantes conduit à introduire la notion de mesure convolée. 5.1 Indépendance 5.1.1 Définitions Nous introduisons maintenant l indépendance stochastique de deux évènements, c est-à-dire de deux éléments de la tribu. Définition 5.1 Indépendance de deux événements) Deux éléments A et B de la tribu sont indépendants par rapport à la probabilité P) si P(A B) = P(A) P(B). Remarque 5.1 Soient A B. Supposons P(A) = 0 ou P(B) = 0. Alors P(A B) = 0 car 0 P(A B) min (P(A) P(B)) = 0. En particulier, P(A B) = P(A) P(B). Par conséquent, si P(A) = 0 ou si P(B) = 0, alors les évènements A et B sont indépendants. La notion d événements indépendants non négligeables peut être reliée à la notion de probabilité conditionnelle, définie ci-après. 3

Définition 5.2 Probabilité conditionnelle) Soit A tel que P(A) > 0. L application P( A) définie sur par B P(B A) = P(B A) P(A) (5.1) est une probabilité sur (Ω ) et est appelée probabilité conditionnelle à A. Remarque 5.2 Soit A tel que P(A) > 0. Alors, P(A A) = 1 c est-à-dire que A est un événement certain pour la probabilité conditionnelle P( A). Remarque 5.3 Soient A B. Supposons que P(A) > 0. Alors A et B sont indépendants P(B A) = P(B). Ainsi, A et B sont indépendants si et seulement si la connaissance de A ne donne aucune information sur la réalisation ou non de B. Définissons maintenant l indépendance de deux variables aléatoires. Définition 5.3 Indépendance de deux variables aléatoires) Soient X une variable aléatoire à valeurs dans R d et Y une variable aléatoire à valeurs dans R p. Les deux variables aléatoires X et Y sont indépendantes si P(X B 1 Y B 2 ) = P(X B 1 ) P(Y B 2 ) pour tous boréliens B 1 B R d et B 2 B(R p ), c est-à-dire si avec P Z la loi de Z. P XY ) = P X P Y Exemple 5.1 Soient a R d et b R p. Alors, les variables constantes X = a et Y = b sont indépendantes car P XY ) = δ ab) = δ a δ b = P X P Y. La notion d indépendance se généralise à n évènements ou n variables. Deux types d indépendance peuvent être introduites : l indépendance deux à deux et l indépendance mutuelle. 4

Définition 5.4 Indépendance deux à deux / Indépendance mutuelle) Soient n N, A 1... A n et X 1... X n des variables aléatoires définies sur l espace (Ω P). Pour 1 i n, supposons que X i est à valeurs dans R d i. 1. a) Les évènements A 1... A n sont deux à deux indépendants si A i est indépendant de A j pour tout i = j, c est-à-dire si 1 i < j n P(A i A j ) = P(A i ) P(A j ). b) Les variables aléatoires X 1... X n sont deux à deux indépendantes si pour tout i = j, les variables aléatoires X i et X j sont indépendantes. 2. a) Les évènements A 1... A n sont mutuellement indépendants ou indépendants) si pour tous A 1 σ(a 1)... A n σ(a n ). P(A 1 A n) = n P(A i ) b) Les variables X 1... X n sont mutuellement indépendantes ou indépendantes) si P(X 1 B 1... X n B n ) = i=1 n P(X i B i ) pour tous boréliens B 1 B R d 1... B n B R dn, c est-à-dire si i=1 avec P Z la loi de Z. P X1...X n) = P X1 P Xn Remarque 5.4 1. Si les variables aléatoires X 1... X n sont mutuellement indépendantes, alors elles sont aussi deux à deux indépendantes. Il suffit en effet de remarquer que P(X i B i X j B j ) = P(X 1 B 1... X n B n ) avec pour k / {i j}, B k = R d k si X k est à valeurs dans R d k. 2. De même si les évènements A 1... A n sont mutuellement indépendants, ils sont aussi deux à deux indépendants. Le résultat suivant lie l indépendance d évènements et de variables aléatoires. Proposition 5.5 Soient A 1... A n. Posons X 1 = 1 A1... X n = 1 An. Alors, les évènements A 1... A n sont mutuellement indépendants si et seulement si les variables aléatoires X 1... X n sont mutuellement indépendantes. 5

Terminons cette section en définissant la notion d indépendance pour n importe quelle famille d évènements ou de variables aléatoires. Définition 5.6 Indépendance d une famille quelconque) 1. Les évènements (A i ) i I I sont mutuellement indépendants ou indépendants) si pour tout n N et pour tout (i 1... i n ) I n, les évènements A i1... A in sont mutuellement indépendants. 2. Les variables aléatoires (X i ) i I sont mutuellement indépendantes ou indépendantes) si pour tout n N et pour tout (i 1... i n ) I n, les variables aléatoires X i1... X in sont mutuellement indépendantes. 5.1.2 Caractérisations Commençons par caractériser l indépendance de variables aléatoires réelles. Proposition 5.7 Indépendance de variables aléatoires réelles) Considérons X 1... X n des variables aléatoires réelles. 1. Les variables aléatoires X 1... X n sont indépendantes si et seulement si P(X 1 I 1... X n I n ) = pour tous I 1... I n intervalles. n P(X i I i ) 2. Les variables aléatoires X 1... X n sont indépendantes si et seulement si n (t 1... t n ) R n P(X 1 t 1... X n t n ) = P(X i t i ) c est-à-dire si et seulement si F X1...X n) = F X1 F Xn avec F Z la fonction de répartition de Z et h 1 h n la fonction définie par n h 1 h n (t 1... t n ) = h i (t i ). i=1 i=1 i=1 Preuve de la proposition 5.7. Supposons pour simplifier que n = 2. La démonstration de l assertion 2. est laissée en exercice. Si les variables aléatoires X 1... X n sont indépendantes alors pour tous les intervalles I 1... I n, car les intervalles sont des boréliens de R. P(X 1 I 1... X n I n ) = 6 n P(X i I i ) i=1

Supposons que pour tous intervalles I 1... I n. P(X 1 I 1... X n I n ) = Considérons A 2 un intervalle. Pour tout A B(R), posons n P(X i I i ) µ(a) = P(X 1 A X 2 A 2 ) et ν(a) = P(X 1 A) P(X 2 A 2 ). Alors, µ et ν sont deux mesures positives sur (R B(R)) (vérification laissée en exercice). Par hypothèse, ces deux mesures coïncident sur l ensemble des intervalles. Par ailleurs, i=1 µ(r) = ν(r) = P(X 2 A 2 ) < +. Alors, d après l annexe sur les classes monotones (voir premier polycopié, corollaire A.6 page 95), µ et ν coïncident sur B(R), c est-à-dire que pour tout A 1 B(R) P(X 1 A 1 X 2 A 2 ) = P(X 1 A 1 ) P(X 2 A 2 ). L égalité précédente est vraie pour tout intervalle A 2 et tout borélien A 1 de R. Soit A 1 B(R). Pour tout A B(R), posons µ(a) = P(X 1 A 1 X 2 A) et ν(a) = P(X 1 A) P(X 2 A). Comme µ et ν, µ et ν sont deux mesures positives bornées sur (R B(R)). Nous avons précédemment établi que ces mesures coïncident sur l ensemble des intervalles. Alors, elles coïncident sur B(R). Par conséquent, pour tout A 1 B(R) et tout A 2 B(R), P(X 1 A 1 X 2 A 2 ) = P(X 1 A 1 ) P(X 2 A 2 ) c est-à-dire que les variables X 1 et X 2 sont indépendantes. Le corollaire suivant montre que les images de variables aléatoires indépendantes sont indépendantes. Corollaire 5.8 Indépendance et images de variables aléatoires) Pour tout 1 i n, considérons X i une variable aléatoire à valeurs dans R d i. Si les variables aléatoires X 1... X n sont mutuellement indépendantes, alors pour toutes fonctions boréliennes f i : R d i R p i, 1 i n, les variables aléatoires f 1 (X 1 )... f n (X n ) sont mutuellement indépendantes. Preuve du corollaire 5.8. Soient B 1... B n des boréliens. Alors, P(f 1 (X 1 ) B 1... f n (X n ) B n ) = P X 1 f 1 1 (B 1)... f 1 n (B n). Étant donné que f i est borélienne et que B i est un borélien, fi 1 (B i ) est un borélien. Alors, par indépendance mutuelle des variables aléatoires X 1... X n, P(f 1 (X 1 ) B 1... f n (X n ) B n ) = n i=1 P X i f 1 i (B i ) = n P(f i (X i ) B i ). i=1 Par conséquent, les variables aléatoires f 1 (X 1 )... f n (X n ) sont mutuellement indépendantes. 7

La propriété d indépendance permet de simplifier le calcul de certaines espérances. Proposition 5.9 Soient X 1... X n des variables aléatoires. Pour 1 i n, supposons que X i est à valeurs dans R d i. Les variables aléatoires X 1... X n sont mutuellement indépendantes si et seulement si n n E h i (X i ) = E(h i (X i )) i=1 i=1 pour toutes fonctions h i : R d i R boréliennes positives ou boréliennes bornées) avec 1 i n. Remarque 5.5 En particulier, si les variables aléatoires X 1... X n sont à valeurs dans R, intégrables et mutuellement indépendantes, alors n n E X i = E(X i ). i=1 i=1 Preuve de la proposition 5.9. 1. Supposons X 1... X n mutuellement indépendantes. (a) Soient h 1... h n des fonctions boréliennes positives (h i : R d i R). Considérons la fonction h définie par n h(x 1... x n ) = h i (x i ). La fonction h est alors borélienne positive. Par définition, n E h i (X i ) = E(h(X 1... X n )) = h(x 1... x n ) dp X1...X n)(x 1... x n ). i=1 i=1 Les variables aléatoires X 1... X n étant indépendantes, P X1...X n) = P X1 P Xn d après le théorème de Fubini-Tonelli (pour les fonctions boréliennes positives), n n E h i (X i ) = h i (x i )dp X1 (x 1 ) dp X2 (x 2 ) dp Xn (x n ) i=1 = = i=1 n h i (x i ) dp Xi (x i ) i=1 n E(h i (X i )). i=1 et (b) Supposons maintenant que h 1... h n sont boréliennes bornées (a priori non positives). Nous définissons la fonction h comme précédemment. Étant donné que P Xi est une probabilité, la fonction borélienne bornée h i est P Xi -intégrable. De même, la fonction borélienne bornée h est P X1...X n)-intégrable. Alors, en appliquant le théorème de Fubini (pour les fonctions P-intégrables), on montre comme précédemment que n n E h i (X i ) = E(h i (X i )). i=1 8 i=1

2. Réciproquement, supposons que n E h i (X i ) = i=1 n E(h i (X i )). (5.2) pour toutes fonctions h i, 1 i n, boréliennes positives (ou boréliennes bornées). Pour tout 1 i n, soit A i B R d i. Les fonctions i=1 h i = 1 Ai 1 i n sont alors boréliennes positives et bornées. Remarquons que n P(X 1 A 1... X n A n ) = E 1 Ai (X i ). Alors, d après (5.2), P(X 1 A 1... X n A n ) = i=1 n E(1 Ai (X i )) = i=1 n P(X i A i ). L égalité précédente étant vraie pour tout A i B R d i 1 i n, les variables aléatoires X 1... X n sont mutuellement indépendantes. i=1 5.1.3 Cadre des lois discrètes et des lois absolument continues Nous examinons le cas où toutes les variables sont discrètes. Proposition 5.10 Indépendance et lois discrètes) 1. Soit (X Y ) un vecteur aléatoire discret. Supposons que X est à valeurs dans {x i / i I} avec I fini ou dénombrable et que Y est à valeurs dans {y j / j J} avec J fini ou dénombrable. Pour tout i I et tout j J, posons p ij = P(X = x i Y = y j ) p i = k J p ik = P(X = x i ) et p j = k I p kj = P(Y = y j ). Alors les variables aléatoires X et Y sont mutuellement indépendantes si et seulement si i I j J p ij = p i p j c est-à-dire si et seulement si i I j J P(X = x i Y = y j ) = P(X = x i ) P(Y = y j ). 2. Plus généralement, soient X 1... X n des variables aléatoires discrètes. Supposons que X k est à valeurs dans {x ik / i I k } avec I k fini ou dénombrable. Alors, les variables aléatoires X 1... X n sont mutuellement indépendantes si et seulement si pour tous i 1 I 1... i n I n. P X 1 = x... X i11 n = x inn = n k=1 P X k = x ik k 9

Nous nous intéressons à présent au cas d un vecteur aléatoire dont la loi est absolument continue. Proposition 5.11 Indépendance des marginales d un vecteur de loi absolument continue) Soit X = (X 1... X n ) un vecteur aléatoire à valeurs dans R n de loi absolument continue de densité f : R n [0 + ]. Alors, les variables aléatoires X 1... X n sont indépendantes si et seulement si il existe n fonctions boréliennes positives g 1... g n telles que avec g 1 g n (x 1... x n ) = n i=1 g i(x i ). f = g 1 g n λ n -presque partout (5.3) Preuve de la proposition 5.11. Voir annexe du chapitre page 20. Remarque 5.6 La décomposition (5.3) n est pas unique, il suffit de changer g 1 en g 1 /λ et g 2 en λg 2, où λ > 0. Cependant, il y a unicité si l on impose que l intégrale de chaque fonction g i est égale à 1. Lorsqu il est ainsi g i est une densité de X i. Plus généralement, nous pouvons énoncer le résultat suivant. Proposition 5.12 Indépendance des marginales d un vecteur de loi absolument continue) Pour tout 1 i n, considérons X i une variable aléatoire à valeurs dans R d i. Supposons que le vecteur aléatoire X = (X 1... X n ) à valeurs dans R d, avec d = d 1 + + d n, est de loi absolument continue de densité f : R d [0 + ]. Alors, les variables aléatoires X 1... X n sont indépendantes si et seulement si il existe n fonctions boréliennes positives g 1... g n telles que f = g 1 g n λ d -presque partout avec pour tout (x 1... x n ) R d 1 R dn, g 1 g n (x 1... x n ) = n i=1 g i(x i ). Nous savons que si la loi d un vecteur X est absolument continue, alors la loi de chacune de ses marginales l est aussi (voir le chapitre 3 du premier polycopié page 71). La réciproque est en général fausse. Cependant, si les marginales d un vecteur X sont indépendantes et de loi absolument continue, alors le vecteur X est aussi de loi absolument continu. Proposition 5.13 Indépendance et marginales de loi absolument continue) Pour tout 1 i n, considérons X i une variable aléatoire à valeurs dans R d i de loi absolument continue de densité f i : R d i [0 + ]. Alors, les variables X 1... X n sont mutuellement indépendantes si et seulement si la loi du vecteur X = (X 1... X n ) est absolument continue de densité f = f 1 f n avec pour tout (x 1... x n ) R d 1 R dn, f 1 f n (x 1... x n ) = n i=1 f i(x i ). 10

Preuve de la proposition 5.13. Supposons que les variables aléatoires X 1... X n sont mutuellement indépendantes. Considérons (A 1... A n ) B R d 1 B R dn. Chaque X i étant de densité f i, P X1 P Xn (A 1 A n ) = n P(X i A i ) = i=1 n Par suite, d après le théorème de Fubini-Tonelli, P X1 P Xn (A 1 A n ) = f dλ d A 1 A n avec f = f 1 f n et d = n i=1 d i. i=1 A i f i dλ di Nous venons de montrer que pour tout A = A 1 A n B R d 1 B R d n, avec P X1 P Xn (A 1 A n ) = µ(a) B B R d µ(b) = f dλ d. B Remarquons que µ est bien définie sur B R d car f est borélienne positive. Par ailleurs, µ est une mesure positive sur R d B R d (mesure dont la dérivée de Radon-Nycodym par rapport à λ d est la fonction f). Alors, par définition d une mesure produit, B B R d P X1 P Xn (B) = µ(b) ce qui se réécrit sous la forme B B R d P X1...X n)(b) = µ(b) = par indépendance des variables X 1... X n. Par conséquent, la loi de X = (X 1... X n ) est absolument continue de densité f. B f dλ d La réciproque est une simple conséquence de la proposition 5.12. 5.2 Covariance et corrélation Dans le cas où les variables aléatoires sont de carré intégrable, nous pouvons définir les notions de corrélations et de covariance. Définition 5.14 Covariance) Soient X et Y deux variables aléatoires réelles possédant chacune un moment d ordre deux. La covariance de X et Y est le réel Cov(X Y ) = E[(X E(X))(Y E(Y ))]. Remarque 5.7 Soient X et Y deux variables aléatoires réelles possédant chacune un moment d ordre deux. 1. Étant donné que xy 1 2 (x2 + y 2 ) la variable aléatoire XY est intégrable. L ensemble des fonctions P-intégrables étant un espace vectoriel contenant les constantes (car P est une probabilité), la covariance 11

de X et Y est bien définie car la variable aléatoire est intégrable. 2. Si X = Y, alors Cov(X X) = Var X. 3. Remarquons que Cov(X Y ) = Cov(Y X). (X E(X))(Y E(Y )) = XY E(X) Y E(Y ) X + E(X)E(Y ) 4. Notons P XY ) la loi du couple (X Y ). Alors, Cov(X Y ) = (x E(X))(y E(Y )) dp XY ) (x y). R 2 Par ailleurs, E(X) = R x dp X (x) = x dp XY ) (x y) et E(Y ) = R 2 R y dp Y (y) = y dp XY ) (x y) R 2 avec P X (respectivement P Y ) la loi de X (respectivement Y ). Par conséquent, l expression de la covariance est déterminée par la loi du couple (X Y ). Proposition 5.15 Soient X et Y deux variables aléatoires réelles possédant chacune un moment d ordre deux. Alors, Cov(X Y ) = E(XY ) E(X) E(Y ). Preuve de la proposition 5.15. D après la remarque précédente, (X E(X))(Y E(Y )) = XY E(Y ) X E(Y ) X + E(X)E(Y ). Alors par linéarité de l espérance sur l espace vectoriel L 1 (Ω P), Cov(X Y ) = E[(X E(X))(Y E(Y ))] = E(XY ) E(X)E(Y ) E(Y )E(X) + E(X)E(Y ) = E(XY ) E(X)E(Y ). Remarque 5.8 Soient X et Y deux variables aléatoires réelles possédant chacune un moment d ordre deux. Notons P XY ) la loi du couple (X Y ). Alors, E(XY ) = xy dp XY ) (x y). R 2 Exemple 5.2 Soient (X Y ) un couple prenant ses valeurs dans l ensemble {(x i y j ) /(i j) I J} R 2 avec I J fini ou dénombrable. Supposons x i = x k si i = k (i k I)et y j = y l si j = l (j l J). Supposons que X et Y admettent un moment d ordre 2, c est-à-dire que E X 2 = x 2 i P(X = x i ) < + et que E Y 2 = yj 2 P(Y = y j ) < +. i I j J Alors, Cov(X Y ) = x i y j P(X = x i Y = y j ) x i P(X = x i ) y j P(Y = y j ). i I j J i I j J 12

Il est classique de regrouper les variances de X et Y avec leur covariance dans une matrice appelée matrice de covariance. Définition 5.16 Matrice de covariance) Soient X et Y deux variables aléatoires réelles possédant chacune un moment d ordre 2. La matrice de covariance du vecteur aléatoire X Y ) est la matrice symétrique Var X Cov(X Y ) Γ XY = Cov(X Y ) Var Y Remarque 5.9 La définition précédente se généralise à tout vecteur aléatoire X = (X 1... X n ) à valeurs dans R n dont toutes les composantes sont de carré intégrable en posant Γ X = (Cov(X i X j )) 1in. 1jn Définition 5.17 Variables non corrélées) Deux variables aléatoires réelles X et Y qui possèdent un moment d ordre deux sont dites non corrélées si Cov(X Y ) = 0. Remarque 5.10 Soient X et Y deux variables aléatoires réelles de carré intégrable. Si X ou Y est presque sûrement constante, alors X et Y ne sont pas corrélées. Nous donnons maintenant le lien entre la variance de la somme de deux variables aléatoires réelles et la notion de covariance. Proposition 5.18 Variance d une somme) 1. Soient X et Y deux variables aléatoires réelles de carré intégrable. Alors, De plus, si X et Y sont indépendantes, alors, Var (X + Y ) = Var (X) + Var (Y ) + 2 Cov (X Y ). Cov(X Y ) = 0 et Var (X + Y ) = Var (X) + Var (Y ). 2. Soient X 1... X n des variables aléatoires réelles de carré intégrable. Alors, n n Var X i = Cov (X i X j ) i=1 Var (X i ) + i=1 i=j = n Var (X i ) + 2 Cov (X i X j ). i=1 1i<jn De plus, si X 1... X n sont deux à deux indépendantes c est-à-dire que X i et X j sont deux variables indépendantes pour tout i = j), alors n n Var X i = Var (X i ). i=1 i=1 13

Remarque 5.11 1. Soient X et Y deux variables aléatoires réelles de carré intégrable. D après la proposition précédente, X et Y indépendantes = X et Y non corrélées. La réciproque est fausse : en général, la condition Cov(X Y ) = 0 n implique pas que X et Y sont indépendantes. 2. Si les variables aléatoires X 1... X n sont mutuellement indépendantes, alors elles sont deux à deux indépendantes et la proposition précédente s applique dès qu elles sont de carré intégrable. Preuve de la proposition 5.18. 1. Démontrons la première assertion de la proposition 5.18. Les variables X et Y étant intégrables, E(X + Y ) = E(X) + E(Y ). Par suite, Var (X + Y ) = E (X + Y E(X + Y )) 2 = E (X E(X)) 2 + (Y E(Y )) 2 + 2(X E(X))(Y E(Y )). Alors, par linéarité de l espérance sur l ensemble des fonctions P-intégrables, Var (X + Y ) = Var (X) + Var (Y ) + 2 Cov (X Y ). Supposons que les variables X et Y sont indépendantes. Les applications f 1 : R R et f 2 : R R x x E(X) y y E(Y ) étant boréliennes, les variables aléatoires X E(X) et Y E(Y ) sont également indépendantes. Par ailleurs, elles sont de carré intégrable (car L 2 (Ω P) est un espace vectoriel contenant X, Y et les constantes). D où, Cov (X Y ) = E[(X E(X))(Y E(Y ))] = E[X E(X)] E[Y E(Y )] = 0. Alors, d après la première partie, Var(X + Y ) = Var X + Var Y. 2. La seconde assertion se démontre de manière analogue. Terminons cette partie en introduisant le cœfficient de corrélation linéaire entre deux variables. Définition 5.19 Cœfficient de corrélation linéaire) Soient X et Y deux variables aléatoires réelles qui possèdent un moment d ordre deux et ne sont pas presque sûrement constantes, c est-à-dire deux variables aléatoires réelles telles que E X 2 < + E Y 2 < + Var (X) > 0 et Var (Y ) > 0. Le cœfficient de corrélation linéaire entre X et Y est le réel ρ XY = Cov(X Y ) = Cov(X Y ) Var (X) Var (Y ) σ(x)σ(y ). 14

La proposition suivante justifie la terminologie corrélation linéaire. Proposition 5.20 Soient X et Y deux variables aléatoires réelles qui possèdent un moment d ordre deux et ne sont pas presque sûrement constantes, c est-à-dire deux variables aléatoires réelles telles que E X 2 < + E Y 2 < + Var (X) > 0 et Var (Y ) > 0. Notons ρ XY le cœfficient de corrélation linéaire entre les variables X et Y. 1. Alors, ρ XY 1. 2. De plus ρ XY = 1 respectivement ρ XY = 1) si et seulement si Y = ax + b respectivement Y = ax + b). Preuve de la proposition 5.20. 1. D après l inégalité de Cauchy-Schwarz (c est-à-dire l inégalité de Hölder avec p = q = 2), Cov(X Y ) Par conséquent, ρ XY 1. E (X E(X)) 2 1/2 E (Y E(Y )) 2 1/2 = Var(X) Var(Y). 2. Supposons Y = ax + b avec a R + et b R. Alors, Var(Y ) = a 2 Var(X), E(Y ) = ae(x) + b et Étant donné que a > 0, Cov(X Y ) = E[(X E(X))(aX + b ae(x) b)] = avar(x). ρ XY = a a = 1 On montre de même que si Y = ax + b alors ρ XY = a a = 1. 3. Supposons ρ XY = 1. Posons a = Var Y/Var X R + et b = E(Y ) ae(x) R. Alors, E (Y ax b) 2 = Var(Y ax b) car E(Y ax b) = 0. Par conséquent, E (Y ax b) 2 = Var(Y ) + 2Cov(Y ax b) + Var( ax b). En utilisant Var( ax b) = a 2 VarX = VarY et en calculant la covariance Cov(Y ax b), on obtient : E (Y ax b) 2 = 0. D où, Y ax b = 0 presque sûrement, c est-à-dire Y = ax + b presque sûrement. Si ρ XY = 1, on pose a = Var Y/Var X R + et b = E(Y ) + ae(x) R. Alors, on montre de même que précédemment : E (Y + ax b) 2 = 0. On en déduit que Y = ax + b presque sûrement. 15

5.3 Addition des variables aléatoires indépendantes et Convolution. 5.3.1 Mesure convolée Avant de donner la loi de la somme de deux variables aléatoires indépendantes, nous définissons la mesure convolée de µ et ν. Définition 5.21 Convolée de deux mesures) Soient µ et ν deux mesures positives σ-finies sur R d B(R d ). La convolée µ ν de µ et ν est la mesure image de µ ν par l application h : R d R d R d (x y) x + y. Ainsi, d après le théorème du transport, pour toute fonction ϕ : R d [0 + ] borélienne, ϕ(t) d(µ ν)(t) = ϕ(x + y) dµ(x)dν(y). (5.4) R d R d R d Remarque 5.12 Soient µ et ν sont deux mesures positives σ-finies sur R d B(R d ). 1. La formule (5.4) reste vraie pour toute fonction (µ ν)-intégrable. 2. Le produit de convolution de deux mesures σ-finies est commutatif. Ainsi, µ ν = ν µ. 3. Remarquons que µ ν R d = µ(dx)ν(dx) = µ R d ν R d. R d R d Par suite, si µ et ν sont bornées, alors µ ν est aussi bornée. De plus, si µ et ν sont deux probabilités, alors µ ν est aussi une probabilité. Exemple 5.3 Soit µ = δ a et ν = δ b avec a b R. Alors, δ a δ b = δ a+b La loi de la somme de variables aléatoires indépendantes est donnée une convolée de probabilités. Proposition 5.22 Loi d une somme de variables indépendantes) Si X et Y sont deux variables aléatoires indépendantes à valeurs dans R d de lois respectives P X et P Y, alors la loi de X + Y est P X+Y = P X P Y. Preuve de la proposition 5.22. Les variables X et Y étant indépendantes, P XY ) = P X P Y. Alors, pour toute fonction f : R d R borélienne positive, d après le théorème du transport, E(f(X + Y )) = f(x + y) P X (dx)p Y (dy). R d R d Par conséquent, par définition de P X P Y, pour toute fonction f : R d R borélienne positive, E(f(X + Y )) = f(z) (P X P Y )(dz). R d Ainsi, la loi de X + Y est la mesure convolée P X P Y. 16

5.3.2 Addition de variables aléatoires discrètes indépendantes Nous contentons d étudier le cas de la convolution de deux probabilités discrètes. Proposition 5.23 Loi d une somme de variables discrètes) Soient X et Y deux variables aléatoires à valeurs dans R d. Supposons que X est une variable aléatoire discrète de loi P X = p i δ xi i I avec I fini ou dénombrable. De même, supposons que Y est une variable aléatoire discrète de loi P Y = j J p j δ yj avec J fini ou dénombrable. Si X et Y sont indépendantes, alors la variable aléatoire X + Y est discrète de loi P X+Y = p i p j δ xi +y j. ij) I J Remarque 5.13 Sous les hypothèses de la proposition précédente, P X+Y (X + Y = z) = ij) I z p i p j avec I z = {(i j) I J / x i + y j = z}. Preuve de la proposition 5.23. La variable aléatoire X +Y prend ses valeurs dans l ensemble fini ou dénombrable A = {x i + y j / i I j J} Nous devons donc déterminer P(X + Y = z) pour tout z A. Remarquons que pour z A, P(X + Y = z) = P(X = x i Y = y j ) ij) I z avec I z = {(i j) I J / x i + y j = z}. Alors, par indépendance de X et Y, z A P(X + Y = z) = p i p j. ij) I z Par conséquent, P X+Y = p i p j δ xi +y j = z A ij) I z p i p j δ xi +y j. ij) I J Exemple 5.4 Soient X et Y deux variables aléatoires discrètes à valeurs dans N. Si X et Y sont indépendantes, alors X + Y est à valeurs dans N et n N P(X + Y = n) = n P(X = i) P(Y = n i). i=0 Nous donnons à présent des exemples de convolutions pour des lois classiques. 17

Proposition 5.24 Soient X et Y deux variables aléatoires réelles indépendantes. 1. Si X suit la loi binomiale B(n p) et si Y suit la loi B(m p), alors X + Y suit la loi B(n + m p). 2. Si X suit la loi de Poisson P(λ) et si Y suit la loi de Poisson P(µ), alors la loi de X + Y est la loi de Poisson P(λ + µ). Remarque 5.14 Cette proposition se généralise à la somme de n variables aléatoires mutuellement indépendantes. En particulier, si X 1... X n sont n variables aléatoires mutuellement indépendantes de loi de Bernoulli de paramètre p, alors n X = i=1 est une variable aléatoire de loi binomiale B(n p) (car B(p) = B(1 p)). Ceci explique pourquoi le nombre de piles obtenus lors de n lancers indépendants d une pièce truquée est modélisé par une loi binomiale B(n p) où p est la probabilité d obtenir pile lors d un lancer. Preuve de la proposition 5.24. X i 1. Supposons que X et Y sont indépendantes, que X suit la loi B(n p) et que Y suit la loi B(m p). Alors, presque sûrement X + Y {k N / 0 k n + m}. De plus, pour tout entier k tel que 0 k n + m, P(X + Y = k) = = k P(X = i) P(Y = k i) i=0 k i=0 C i n C k i m p k (1 p) n+m k. Or k i=0 Ci n Cm k i est le cœfficient de t k du polynôme (1 + t) n (1 + t) m = (1 + t) m+n donc est égal à Cn+m. k Alors, pour tout entier k tel que 0 k n + m, P(X + Y = k) = C k n+m p k (1 p) n+m k. Par conséquent, X + Y suit une loi binomiale B(n + m p). 2. Supposons que X et Y sont indépendantes, que X suit la loi P(λ) et que Y suit la loi P(µ). Alors, X + Y N presque sûrement. De plus, pour tout n N, P(X + Y = n) = = n P(X = i) P(Y = n i) i=0 n λ i i e λ i=0 µn i (n i) e µ = 1 n e λ+µ) n i=0 C i n λi µ n i = 1 n e λ+µ) (λ + µ) n. Par conséquent, X + Y a pour loi P(λ + µ). 18

5.3.3 Addition de deux variables aléatoires indépendantes absolument continues Si µ et ν sont deux probabilités sur R d ayant chacune une densité, alors leur convolée µ ν admet une densité qui est donnée par une convolée de fonctions. Définition 5.25 Convolée de fonctions) Soient f et g deux fonctions boréliennes positives définies sur R d. La convolée de f et g est la fonction f g définie sur R d par x R d f g(x) = f(x t)g(t)λ 1 (dt) = g(x t)f(t)λ 1 (dt) = g f(x). R d R d Remarque 5.15 1. La convolution est une opération associative, c est-à-dire que (f g) h = f (g h) pour toutes fonctions f, g et h boréliennes positives. 2. La convolution est une application régularisante. Si f et g sont deux densités sur R (par rapport à λ 1 ) bornées, alors la fonction f g est une densité et est une fonction continue. Donnons à présent la loi de la somme de deux variables aléatoires réelles de loi absolument continue. Proposition 5.26 Loi d une somme de variables indépendantes de loi absolument continue) Soient X et Y des variables aléatoires réelles indépendantes. Si la loi de X respectivement Y ) est absolument continue de densité f X respectivement f Y ), alors la loi de X + Y est absolument continue de densité f X f Y. Preuve de la proposition 5.26. Soit ϕ : R 2 [0 + ] une fonction borélienne positive. Les variables X et Y étant indépendantes, la loi de (X Y ) est absolument continue de densité f XY ) définie par (x y) R 2 f XY ) (x y) = f X (x)f Y (y). Par conséquent, E(ϕ(X + Y )) = R R ϕ(x + y)f X (x)f Y (y)λ 1 (dx)λ 1 (dy). D après le théorème de Fubini-Tonelli, E(ϕ(X + Y )) = ϕ(x + y)f X (x)λ 1 (dx) f Y (y)λ 1 (dy). R R En effectuant le changement de variable z = x + y (y étant fixé), on constate que E(ϕ(X + Y )) = ϕ(z)f X (z y)λ 1 (dz) f Y (y)λ 1 (dy). R R R Ainsi, d après le théorème de Fubini-Tonelli, E(ϕ(X + Y )) = ϕ(z) f X (z y)f Y (y)λ 1 (dy) λ 1 (dz) = ϕ(z)(f X f Y )(z)λ 1 (dz). R R L égalité précédente étant vraie pour toute fonction ϕ : R 2 [0 + ] borélienne positive, la loi de X + Y est la loi absolument continue de densité f X f Y. Pour terminer, nous montrons la stabilité des lois gaussiennes pour la convolution. 19

Théorème 5.27 Somme de variables gaussiennes indépendantes) Soit X respectivement Y ) une variable aléatoire réelle de loi gaussienne N m σ 2 respectivement N m τ 2 ). Si X et Y sont indépendantes, alors X +Y est une variable aléatoire réelle de loi gaussienne N m + m σ 2 + τ 2, c est-à-dire de moyenne m + m et de variance σ 2 + τ 2. Preuve du théorème 5.27. Nous supposons σ = 0 et τ = 0 (le cas σ = 0 ou τ = 0 est laissé en exercice). Posons U = X m σ et V = Y m τ. Les variables aléatoires X et Y étant indépendantes, U et V le sont aussi. Par ailleurs, U et V suivent des lois gaussiennes centrées réduites. Remarquons que σu suit une loi N 0 σ 2 donc a pour densité la fonction f 0σ 2 définie par x R f 0σ 2(x) = 1 σ /2σ2 e x2. 2π De même la τv a pour densité la fonction f 0τ 2.D après la proposition 5.26, σu + τv a pour densité ϕ = f 0σ 2 f 0τ 2 (par indépendance de σu et de τv ). Par définition, En posant ρ 2 = σ 2 + τ 2, nous obtenons : ϕ(x) = 1 (x y)2 exp 2πστ R 2σ 2 y2 2τ 2 λ 1 (dy). ϕ(x) = 1 ρ 2π f zu 2(y)λ 1 (dy) R e x2 /2ρ 2 avec z = xτ 2 /ρ 2, u = σ 2 τ 2 /ρ 2 et f zu 2 densité de la loi N z u 2. Alors, pour tout x R ϕ(x) = 1 ρ /2ρ2 e x2 = f 0ρ 2(x) 2π car l intégrale de f zu 2 est égale à 1. D où σu + τv est une variable gaussienne de moyenne nulle et de variance ρ 2. Dès lors, X + Y = σu + τv + m + m suit une loi gaussienne de moyenne m + m et de variance σ 2 + τ 2. 5.4 Annexe : Preuve de la proposition 5.11 voir énoncé page 10 Nous supposons pour simplifier n = 2. 1. Supposons les deux variables aléatoires X et Y indépendantes. D après la proposition 3.44, X (respectivement Y ) admet une densité f 1 (respectivement f 2 ). Soient A et B deux boréliens. Les variables aléatoires X et Y étant indépendantes, P((X Y ) A B) = P(X A Y B) = P(X A) P(Y B) = 1 A (x)f 1 (x)dx 1 B (x)f 2 (x)dx Alors, d après le théorème de Fubini-Tonelli, P((X Y ) A B) = P XY ) (A B) = 1 A B (x y)f 1 (x)f 2 (y)dxdy où P XY ) désigne la loi de (X Y ). 20

Pour tout borélien C, posons Q (C) = 1 C (x y)f 1 (x)f 2 (y)dxdy. Alors, Q est une probabilité et vu ce qui précède, elle coïncide avec P XY ) sur les pavés A B. Par suite, P XY ) = Q sur B R 2 = B(R) 2. Ainsi, D après l unicité de la densité, P((X Y ) C) = 1 C (x y)f 1 (x)f 2 (y)dxdy pour tout borélien C. f(x y) = f 1 (x)f 2 (y) presque partout. 2. Réciproquement, supposons la relation (5.3) réalisée. Soient A et B deux boréliens. P(X A Y B) = P((X Y ) A B) = 1 A B (x y)g 1 (x)g 2 (y)dxdy. D après le théorème de Fubini-Tonelli, P(X A Y B) = 1 A (x)g 1 (x)dx 1 B (y)g 2 (y)dy. (5.5) En particulier si A = B = R, l égalité précédente devient 1 = λ 1 λ 2, où nous avons posé, λ 1 = g 1 (x)dx et λ 2 = g 2 (y)dy. R Posons f 1 = g 1 /λ 1 et f 2 = g 2 /λ 2. Alors, en divisant (5.5) par le facteur 1 = λ 1 λ 2, P(X A Y B) = 1 A (x)f 1 (x)dx 1 B (y)f 2 (y)dy R En particulier si B = R, De même, P(Y B) = P(X A) = 1 A (x)f 1 (x)dx. 1 B (y)f 2 (y)dy. Alors, pour tous boréliens A et B, P(X A Y B) = P(X A)P(Y B) ce qui signifie que les variables aléatoires X et Y sont indépendantes. 21

22

Chapitre 6 Espaces de Hilbert. Un espace de Hilbert est un espace de Banach dont la norme découle d un produit scalaire et est une généralisation en dimension quelconque de la notion d espace hermitien ou euclidien. Ce chapitre pourra sembler au premier abord sans rapport avec la théorie de la mesure et les probabilités. Cependant, un exemple particulier d espace de Hilbert est l espace des fonctions de carré intégrable. Tout ce chapitre s applique donc à cet espace qui joue un rôle important en probabilités comme en intégration. Dans la suite, K est égal à R ou et E désigne un K-espace vectoriel. 6.1 Définition d un espace de Hilbert 6.1.1 Formes sesquilinéaires et formes hermitiennes Définition 6.1 Forme sesquilinéaire) Une application ϕ : E E K est une forme sesquilinéaire sur E si i) pour tout y E l application x ϕ(x y) est une forme linéaire sur E, ii) pour tout x E et pour tout y E, ϕ(y x) = ϕ(x y). Lorsque K = R, une forme sesquilinéaire ϕ est encore appelée une forme bilinéaire symétrique. Remarque 6.1 Si ϕ est une forme sesquilinéaire sur E, alors pour tout (x y z) E 3 et tout λ K, ϕ(x x) R ϕ(x y + λz) = ϕ(x y) + λϕ(x z). Définition 6.2 Forme hermitienne) Soit ϕ une forme sesquilinéaire sur E. L application Φ : E R x ϕ(x x) est appelée forme hermitienne associée à ϕ. Lorsque K = R, la forme hermitienne Φ est encore appelée forme quadratique associée à ϕ. Enfin, la forme sesquilinéaire ϕ est appelée forme polaire de la forme hermitienne Φ. 23

Nous donnons les propriétés générales des formes hermitiennes, propriétés qui découlent immédiatement de la définition. Proposition 6.3 Soit ϕ une forme sesquilinéaire et Φ la forme hermitienne associée à ϕ. 1. Alors, pour tout x E et pour tout λ K, Φ(λx) = λ 2 Φ(x). 2. De plus, pour tout x E et tout y E, Φ(x + y) = Φ(x) + Φ(y) + 2 Re ϕ(x y). 3. Si K =, alors pour tout x E et tout y E, Φ(x + iy) = Φ(x) + Φ(y) + 2 Im ϕ(x y). Preuve de la proposition 6.3. Laissée en exercice. Par définition, Φ s exprime en fonction de ϕ. Mais, une expression de ϕ à l aide de Φ peut aussi être donnée. Proposition 6.4 Soit ϕ une forme sesquilinéaire et Φ la forme hermitienne associée à ϕ. 1. Si K = R, alors pour tout (x y) E 2, ϕ(x y) = 1 (Φ(x + y) Φ(x y)). 4 2. Si K =, alors pour tout (x y) E 2, Re ϕ(x y) = 1 4 (Φ(x + y) Φ(x y)) et Im ϕ(x y) = 1 (Φ(x + iy) Φ(x iy)). 4 Preuve de la proposition 6.3. Laissée en exercice. Énonçons à présent l égalité du parallélogramme, égalité qui découle de la deuxième assertion de la proposition 6.3. Proposition 6.5 Égalité du parallélogramme) Si ϕ une forme sesquilinéaire et Φ la forme hermitienne associée à ϕ, alors pour tout (x y) E 2, Φ(x + y) + Φ(x y) = 2Φ(x) + 2Φ(y). Preuve de la proposition 6.5. Laissée en exercice. Définissons à présent la notion de forme positive, de forme définie positive et d orthogonalité. 24

Définition 6.6 Formes positives, définies/orthogonalité) Soient ϕ une forme sesquilinéaire et Φ sa forme hermitienne associée. 1. La forme hermitienne Φ est dite positive si 2. La forme hermitienne Φ est dite définie si x E Φ(x) 0. Φ(x) = 0 = x = 0. 3. Deux vecteurs x et y de E sont orthogonaux par rapport à ϕ ou Φ) si ϕ(x y) = 0. 4. Si U est un sous-ensemble non vide E, l espace orthogonal U à U est le sous-espace vectoriel de E défini par U = {x E / ϕ(x y) = 0 y U}. 5. La forme sesquilinéaire ϕ est dite non dégénérée si E = {0} c est-à-dire si ( y E ϕ(x y) = 0) = x = 0. Remarque 6.2 Si x et y sont deux vecteurs orthogonaux pour ϕ, alors d après la proposition 6.3, où Φ est la forme hermitienne associée à ϕ. Φ(x + y) = Φ(x) + Φ(y) Exemple 6.1 1. Soient E = n et A = (a kl ) 1kn une matrice hermitienne (c est-à-dire que pour tous k l, a kl = a lk ). 1ln Considérons la fonction ϕ : E E définie par ϕ(x y) = a kl x k y l 1kln L application ϕ est alors une forme sesquilinéaire sur n. En fait, toute forme sesquilinéaire sur n est de ce type. La forme hermitienne Φ associée à ϕ est définie par Φ(x) = n a kk x k 2 + 2 k=1 1k<ln a kl Re(x k x l ). La forme ϕ est non dégénérée si et seulement si le déterminant de A est non nul. La forme ϕ est définie positive si et seulement si les valeurs propres de A sont strictement positives. 2. L 2 R (Ω µ) est l ensemble des fonctions définies sur Ω, à valeurs dans R, -mesurable et de carré µ- intégrable. L 2 (Ω µ) est l ensemble des fonctions -mesurables, à valeurs complexes et telles que f L 2 R(Ω µ). Posons E = L 2 (Ω µ) ou L2 R (Ω µ). L application ϕ définie sur E E par ϕ(f g) = fgdµ 25 Ω

est une forme sesquilinéaire sur E. De plus, la forme hermitienne Φ associée à ϕ, donnée par Φ(f) = f 2 dµ (6.1) est positive. Nous pouvons définir ϕ sur L 2 K (Ω µ) avec K = R ou. Alors, la forme hermitienne Φ est définie par (6.1) et est définie positive sur L 2 K (Ω µ). Ω Terminons cette section en donnant quelques propriétés des formes hermitiennes positives. Proposition 6.7 Soit Φ une forme hermitienne positive de forme polaire ϕ. 1. Pour tout x et y de E, ϕ(x y) 2 Φ(x)Φ(y). Cette inégalité est l inégalité de Cauchy-Schwarz. 2. La forme ϕ est non dégénérée si et seulement si Φ est définie, c est-à-dire si et seulement si Φ(x) = 0 = x = 0. 3. L application x Φ(x) est une semi-norme sur E, c est-à-dire que pour tout (x y) E et tout λ K, Φ(x + y) Φ(x) + Φ(y) et Φ(λx) = λ Φ(x) Preuve de la proposition 6.7. 1. Soit (x y) E 2. Alors, λ K 0 Φ(λx + y) = λ 2 Φ(x) + 2 Re(λ ϕ(x y)) + Φ(y). (6.2) Commençons par le cas où Φ(x) = 0 ou Φ(y) = 0. Par symétrie, nous pouvons supposer Φ(x) = 0. Posons ϕ(x y) = ϕ(x y) e iα et λ = ρe iα avec ρ R. Alors, λϕ(x y) = ρ ϕ(x y) et (6.2) se réécrit sous la forme Alors, le trinôme (en ρ) du second degré a un discriminant négatif ou nul, c est-à-dire que 0 ρ 2 Φ(x) 2ρ ϕ(x y) + Φ(y) ρ R. ρ 2 Φ(x) 2ρ ϕ(x y) + Φ(y) 4 ϕ(x y) 2 4Φ(x)Φ(y) 0 soit ϕ(x y) 2 Φ(x)Φ(y) Si Φ(x) = Φ(y) = 0, le changement de λ en -λ dans (6.2) donne D où ϕ(x y) = 0 et ϕ(x y) 2 Φ(x)Φ(y). Re(λϕ(x y)) = 0 λ K. 26

2. Supposons ϕ non dégénérée. D après l inégalité de Cauchy-Schwarz, Alors, par définition d une forme non dégénérée, Réciproquement, supposons que Φ(x) = 0 = y E ϕ(x y) = 0. Φ(x) = 0 = x = 0. Φ(x) = 0 = x = 0. Soit x E tel que pour tout y E, ϕ(x y) = 0. Alors, Φ(x) = ϕ(x x) = 0 et donc par hypothèse x = 0. Par conséquent, φ est non dégénérée. 3. Soient x y E. D après la proposition 6.3 Φ(x + y) = Φ(x) + Φ(y) + 2Re ϕ(x y). Par conséquent, Φ(x + y) Φ(x) + Φ(y) + 2 ϕ(x y). En appliquant l inégalité de Cauchy-Schwarz, nous obtenons : Φ(x + y) Φ(x) + Φ(y) + 2 Φ(x) Φ(y) = Φ(x) + Φ(y) 2. D où, Φ(x + y) Φ(x) + Φ(y). D après la proposition 6.3, pour tout λ K, Φ(λx) = λ 2 Φ(x) et donc Φ(λx) = λ Φ(x). Vu ce qui précède, Φ est une semi-norme sur E. 6.1.2 Espaces de Hilbert Nous définissons à présent les notions de produit scalaire et d espace de Hilbert. Définition 6.8 Espaces préhilbertiens et espaces de Hilbert) Soit Φ une forme hermitienne. 1. La forme polaire ϕ associée à Φ est un produit scalaire si la forme hermitienne Φ est définie positive. Dans ce cas, Φ est une norme et l espace E muni de cette norme ou du produit scalaire ϕ) est dit préhilbertien. 2. Un espace de Hilbert est un espace préhilbertien complet. Notation Dans la suite, H est un espace préhilbertien muni du produit scalaire < > associé à la norme. Ainsi, pour tout x H, x 2 =< x x >. Remarquons que 2 est en fait la forme hermitienne Φ associée à la forme sesquilinéaire < >. Si p 1, l espace L p (Ω µ) est un espace de Banach. Lorsque p = 2, cet espace possède de plus une structure hermitienne ou euclidienne, ce qui en fait son intérêt. 27

Théorème 6.9 Théorème de Riesz-Fisher) L espace L 2 K (Ω µ) K = R ou ) est un espace de Hilbert pour le produit scalaire défini par < f g >= f g dµ. Ω Preuve du théorème 6.9. Admise. Nous terminons cette section en énonçant la continuité d applications simples liées au produit scalaire. Proposition 6.10 Soit H un espace préhilbertien et x H. Alors y < x y >, y < y x > et y y sont des applications continues sur E. Preuve de la proposition 6.10. Pour montrer la continuité des deux premières applications, il suffit d utiliser l inégalité de Cauchy-Schwarz. La continuité de l application y y repose sur (y 1 y 2 ) H 2 y 1 y 2 y 1 y 2 inégalité qui se déduit de l inégalité triangulaire. 6.2 Distance et projection 6.2.1 Distance à un ensemble Définition 6.11 Distance à un ensemble) Soit Γ un sous-ensemble non vide de l espace préhilbertien H et soit x H. La distance de x à Γ est le réel positif d(x Γ) = inf x y. y Γ Remarque 6.3 La notion de distance à un ensemble peut être définie dès que H est un espace métrique. Lorsque le sous-espace Γ est un sous-espace convexe complet, la distance de x à Γ est atteinte en un unique point. Avant d énoncer ce résultat, définissons la notion de sous-espace convexe et de sous-espace complet. Définition 6.12 Ensemble convexe/ensemble complet) 1. Un sous-ensemble Γ de H est convexe si pour tout x et y de Γ, le segment [x y] est inclus dans Γ, c est-à-dire si (x y) Γ 2 t [0 1] tx + (1 t)y Γ. 2. Un sous-ensemble Γ d un espace préhilbertien H est complet si toute suite (x n ) n N d éléments de Γ qui est de Cauchy dans H converge dans Γ, c est-à-dire vers un élément x Γ. Remarque 6.4 1. Tout sous-espace complet d un espace préhilbertien est fermé. 2. Tout sous-espace fermé d un espace de Hilbert est complet. 28

La proposition suivante permet d établir que la distance d un point x à un convexe complet est atteinte en un unique point y (voir corollaire 6.14). Proposition 6.13 Élément de norme minimale) Si Γ est un sous-ensemble convexe complet et non vide de l espace préhilbertien H, alors Γ admet un unique élément de norme minimale, c est-à-dire Preuve de la proposition 6.13. Soit α = inf y Γ y. x Γ x = inf y Γ y. Soient a b Γ. Étant donné que Γ est convexe, 1 2 (a + b) Γ. Alors, par définition de α, α 2 1 (a + b) 2 De plus, d après l égalité du parallélogramme (voir proposition 6.5 page 24), a b 2 = 2a 2 + 2b 2 a + b 2. 2 = 1 4 a + b2. (6.3) Par suite, d après (6.3), a b 2 2 a 2 + b 2 2α 2. (6.4) Par définition de α, il existe une suite (x n ) n N d éléments de Γ telle que lim x n 2 = α 2. (6.5) n + D après l inégalité (6.4) appliquée avec a = x n et b = x m, n m N x n x m 2 2 x n 2 + x m 2 2α 2. (6.6) D après (6.5) et (6.6), la suite (x n ) n N est une suite de Cauchy de Γ. L ensemble Γ étant complet, la suite (x n ) n N converge dans Γ (donc dans H) vers un élément noté x Γ. Par continuité de l application y y 2 sur H (voir lemme 6.10 page 28), α 2 = lim x n 2 = x 2. n + Par conséquent x = α car par définition α 0 et x 0. Nous venons d établir l existence d un élément x de Γ de norme α. Établissons à présent l unicité. Soit y Γ tel que y = α = x. D après l inégalité (6.4) appliquée pour a = x et b = y, 0 x y 2 2 x 2 + y 2 2α 2 = 2 α 2 + α 2 2α 2 = 0. D où x y 2 = 0, ce qui signifie que x = y (car est une norme). Par conséquent, x est l unique élément de Γ de norme α. 29

Comme annoncé, nous pouvons maintenant établir que la distance à un sous-espace convexe complet non vide est atteinte en un unique point. En particulier, la distance à un sous-espace convexe fermé non vide d un espace de Hilbert est atteinte en un unique point. Corollaire 6.14 Distance à un sous-espace convexe complet) Si Γ est un sous-ensemble convexe complet et non vide de l espace préhilbertien H, alors pour tout x H, y Γ x y = inf x z = d(x Γ). z Γ Preuve du corollaire 6.14. Il suffit d appliquer la proposition 6.13 au sous-ensemble x Γ qui est bien convexe complet et non vide. 6.2.2 Projection orthogonale sur un sous-espace vectoriel fermé Nous introduisons à présent la projection orthogonale sur un sous-espace vectoriel d un espace de Hilbert et en donner des caractérisations. Théorème 6.15 Projection orthogonale) Soient H un espace de Hilbert et F un sous-espace vectoriel fermé de H. Alors, pour tout x H, il existe un unique y F, noté P F (x), tel que x y = d(x F ) = inf x z. z F De plus, pour tout x H, P F (x) est l unique élément y F tel que x y F c est-à-dire tel que pour tout z F, < x y z >= 0. Pour tout x H, P F (x) est appelé projeté orthogonal de x sur F. L application P F appelée projection orthogonale sur F ou projecteur orthogonal sur F. : H F est Remarque 6.5 Sous les hypothèses du théorème précédent, il existe une unique application P F que (Id P F )(H) F. : H F telle Remarque 6.6 Soit F est un sous-espace vectoriel fermé d un espace de Hilbert H. 1. F est aussi un sous-espace vectoriel fermé de H. Par ailleurs, H = F F. 2. Q F = Id P F est la projection orthogonale sur F. Preuve du théorème 6.15. Soit x H. F étant un sous-espace vectoriel fermé de l espace de Hilbert H, F est un sous-espace convexe complet et non vide de l espace de Hilbert H. Alors, d après le corollaire 6.14, Posons P F (x) = y. y F x y = d(x F ) = inf x z. z F 30

Montrons que x P F (x) F. Si F = {0}, F = H et x P F (x) H = F. Supposons maintenant que F = {0}. Soit z F tel que z = 0. Étant donné que z F, que P F (x) F et que F est un sous-espace vectoriel de H, Alors, par définition de P F (x), c est-à-dire que pour tout λ K, D où, pour tout λ K, λ K P F (x) λz F. λ K x P F (x) 2 x P F (x) + λz 2 λ K x P F (x) 2 x P F (x) 2 + 2Re (λ < x P F (x) z >) + λ 2 z 2. λ 2 z 2 + 2Re λ < x P F (x) z > 0. En prenant λ = α n avec α K et n N puis en multipliant par n, nous avons : Alors, n montre que α K α 2 z 2 + 2Re(α < x P F (x) z >) 0. n α K Re(α < x P F (x) z >) 0. L inégalité précédente étant vraie pour α K et α, α K Re(α < x P F (x) z >) = 0. Par conséquent, < x P F (x) z >= 0 (prendre α =< x P F (x) z >). Nous venons de montrer que z F \{0} < x P F (x) z >= 0. Bien sûr si z = 0, nous avons aussi < x P F (x) z >= 0. Par conséquent, x P F (x) F. Soit w F tel que x w F. Il nous reste à montrer que w = P F (x). F étant un sous-espace vectoriel contenant w, z F w z F. De plus, x w F. Donc, pour z F, les vecteurs w z et x w sont orthogonaux. D où Par conséquent, z F x z 2 = (w z) + (x w) 2 = w z 2 + x w 2 x w 2. x w inf x z = d(x F ). z F Comme w F, l inégalité précédente est en fait une égalité. Alors, par définition de P F (x), nous avons donc w = P F (x). Donnons à présent quelques propriétés de la projection orthogonale définie dans le théorème précédent. 31

Proposition 6.16 Soient H un espace de Hilbert et F un sous-espace vectoriel fermé de H. 1. La projection orthogonale P F sur F est une application linéaire. 2. Pour tout x H, x P F (x) = d(x F ) = inf y F x y. 3. Pour tout x H, P F (x) et x P F (x) sont orthogonaux. 4. Pour tout x H, x 2 = P F (x) 2 + x P F (x) 2 P F (x) 2. 5. Si x F, alors P F (x) = x. 6. Si x F, alors P F (x) = 0. Preuve de la proposition 6.16. 1. Soient x y H et λ µ K. Posons z = λx + µy et w = λp F (x) + µp F (y). Étant donné que F est un K-espace vectoriel contenant P F (x) et P F (y), w F. De plus, z w = λ(x P F (x)) + µ(y P F (y)) F car F est un K-espace vectoriel contenant x P F (x) et y P F (y). Pour tout v F, w v F car F est un K-espace vectoriel contenant w et v. Alors, pour tout v F, w v est orthogonal à z w car z w F. Par conséquent, v F z v 2 = (z w) + (w v) 2 = z w 2 + w z 2 z w 2. Alors, w F est tel que z w = inf v F z v. Ainsi, par définition w = P F (z), c est-à-dire que P F (λx + µy) = λp F (x) + µp F (y). Nous venons d établir que l application P F est linéaire. 2. L assertion 2. est une simple conséquence de la définition de P F (x) pour x H. 3. Pour tout x H, par définition, P F (x) F et x P F (x) F. Par conséquent, pour tout x H, les vecteurs P F (x) et x P F (x) sont orthogonaux. 4. Soit x H. Les vecteurs, P F (x) et x P F (x) étant orthogonaux, x 2 = (x P F (x)) + P F (x) 2 = x P F (x) 2 + P F (x) 2. De plus, comme x P F (x) 2 0, x 2 P F (x) 2. 5. Si x F, x x = 0 F et donc par unicité P F (x) = x. 6. Si x F, x 0 = x F et donc par unicité P F (x) = 0. Nous terminons cette section en donnant deux applications du théorème 6.15. La première est une caractérisation de la notion d ensemble total, notion définie ci-après et intervenant dans la définition d une base hilbertienne. 32

Définition 6.17 Sous-ensemble total) Un sous-ensemble Δ de H est total si l espace vectoriel engendré par Δ est dense dans H. Un ensemble total d un espace d Hilbert est simplement un ensemble dont l orthogonal est réduit au singleton {0}. Théorème 6.18 Caractérisation d un sous-ensemble total) Soient H un espace de Hilbert. Alors, un sous-ensemble Δ de H est total si et seulement si Δ = {0}. Preuve du théorème 6.18. Considérons F 0 le sous-espace vectoriel engendré par Δ. Alors, x F 0 n N (δ 1... δ n ) Δ (λ 1... λ n ) K n x = En utilisant la continuité du produit scalaire, nous pouvons établir que n λ i δ i. i=1 Δ = F 0 = F avec F = F 0. De plus F est un sous-espace vectoriel fermé de H. Supposons que l ensemble Δ est total dans H. Soit x Δ. Par densité de F 0 (sous-espace vectoriel engendré par Δ) dans H, il existe une suite (x n ) n N d éléments de F 0 telle que lim n + x n = x. Étant donné que x Δ = F 0, pour tout n N, < x n x >= 0. Alors, par continuité de y < y x >, < x x >= lim n + < x n x >= 0. Par suite, x = 0. Nous venons de montrer que Δ conséquent, Δ = {0}. {0}. L inclusion réciproque est évidente. Par Réciproquement, supposons que Δ = {0}. L espace F étant un sous-espace vectoriel fermé de l espace de Hilbert H, H = F F = F 0 Δ. Alors, H = F 0 car Δ = {0}. D où, Δ est bien total dans H car F 0 est le sous-espace vectoriel engendré par Δ. Nous terminons cette section en caractérisant le dual topologique d un espace de Hilbert, c est-à-dire l ensemble des formes linéaires continues sur H. Il s agit à nouveau d une conséquence du théorème 6.15. 33

Proposition 6.19 Formes linéaires continues sur un espace de Hilbert) Soit H un espace de Hilbert. Notons H le dual topologique de H, c est-à-dire l ensemble des formes linéaires continues sur H. 1. Si ψ est une forme linéaire continue sur H c est-à-dire si ψ H ), alors il existe un unique a H tel que x H ψ(x) =< x a >. 2. En particulier l application est une bijection de H sur H. Ψ : H H a < a > Par ailleurs, pour tout (a a ) H 2 et λ K, Si K = R, Ψ est un isomorphisme de H sur H. Ψ(a + a ) = Ψ(a) + Ψ(a ) et Ψ(λa) = λψ(a). Preuve de la proposition 6.19. Voir annexe 6.5.1, page 38. La preuve est donnée en annexe car elle est longue. 6.3 Bases hilbertiennes 6.3.1 Systèmes orthonormaux Définition 6.20 Famille orthonormale) Supposons que H est un espace préhilbertien pour le produit scalaire < >. 1. Une famille de vecteurs (e i ) i I de H est orthogonale si < e i e j >= 0 pour tout i = j. 2. Une famille de vecteurs (e i ) i I de H est orthonormale si elle est orthogonale et si e i = 1 pour tout i I. Les systèmes orthonormaux sont utiles pour le calcul d un produit scalaire ou encore d un projeté orthogonal. Proposition 6.21 Soit I N et (e k ) k I un système orthonormal de H. Considérons F = Vect(e k k I) le sous-espace vectoriel fermé de H engendré par (e k ) k I. 1. Soit x F. a) Alors, il existe une unique suite (x k ) k I d éléments de K telle que x k 2 < + et x = x k e k. k I b) Par ailleurs, si y = y k e k, alors < x y >= x k y k. k I k I k I c) En particulier, pour tout k I, x k =< x e k > et x 2 = i I < x e i > 2. 34

2. Soit x H. a) Alors, la projection orthogonale de x sur F est P F (x) = < x e k > e k. k I b) De plus, k I < x e k > 2 x 2 Inégalité de Parseval). Remarque 6.7 Si I est fini, F = Vect(e k k I) = Vect(e k k I) est de dimension finie. Preuve de la proposition 6.21. Cette preuve étant longue, elle est mise en annexe. Voir annexe 6.5.2 page 42. Introduisons à présent la notion de base hilbertienne de H. Définition 6.22 Base hilbertienne) Une famille (e i ) i I est une base hilbertienne de H si il s agit d un système orthonormal total de H, c est-à-dire si (e i ) i I est une famille orthonormale et si le sous-espace vectoriel qu elle engendre est dense dans H. Terminons cette section en donnant quelques caractérisations. Proposition 6.23 Caractérisations d une base hilbertienne) Soit (e i ) i I un système orthonormal de l espace de Hilbert H. Les propriétés suivantes sont équivalentes. 1. (e i ) i I est une base hilbertienne de H. 2. Pour tout x H, x 2 = k I < x e k > 2. 3. Pour tous x y H, < x y >= k I < x e k > < y e k >. 4. Pour tout x H, x = k I < x e k > e k. 6.3.2 Espaces séparables Nous pouvons nous demander si tout espace de Hilbert possède une base orthonormale. Sous l hypothèse supplémentaire de séparabilité de l espace, cela est toujours le cas. 35

Définition 6.24 Espace de Hilbert séparable) Un espace de Hilbert H est séparable s il existe un sous-ensemble dénombrable D H dense dans H. Les espaces de Hilbert donnés en exemple précédemment sont tous séparables. Théorème 6.25 Tout espace de Hilbert séparable admet une base hilbertienne. Preuve du théorème 6.25. Soit (v n ) n N une suite de H dont le sous-espace vectoriel engendré est dense dans H. Soit F k l espace vectoriel engendré par (v 1... v k ). Les (F k ) k N forment une suite croissante de sous-espaces de dimension finie telle que + k=1 F k est dense dans H. On choisit alors une base orthonormale de F 1, que l on complète en base orthonormale de F 2, etc... On obtient alors une base hilbertienne de H. Ce procédé s appelle le procédé d orthonormalisation de Gramm-Schmidt. Lemme 6.26 Procédé d orthonormalisation de Gramm-Schmidt) Soient d N {+ } et (u n ) n<d un système libre de vecteurs de H. Il existe un unique système orthonormal (e n ) n<d tel que 1. (u n ) nm et (e n ) nm engendrent le même sous-espace vectoriel, pour tout 0 m < d, 2. < e n u n > est un réel strictement positif pour tout 0 n < d. Terminons cette section en constatant que tout espace de Hilbert séparable de dimension infinie est isomorphe à l espace des suites de carré sommable. Proposition 6.27 Tout espace de Hilbert séparable de dimension infinie en tant que K-espace vectoriel) est isomorphe à lk(n) 2 = (x k) k N K N / x k 2 < +. k0 Preuve de la proposition 6.27. Soit H est un espace d Hilbert séparable et soit (e n ) n N une base hilbertienne de H. Considérons l application h : H l 2 K (N) x (x k ) k N avec x k =< x e k >. Alors, h réalise l isomorphisme de H sur l 2 K (N). 6.4 Application à l étude des séries de Fourier Dans cette partie, L 2 ([0 2π]) = L2 ([0 2π] B([0 2π]) λ 1) où λ 1 désigne la restriction de la mesure de Lebesgue à [0 2π]. Rappelons le théorème de Stone-Weierstrass. 36

Théorème 6.28 Théorème de Stone-Weierstrass) Soit C un ensemble compact et soit A une sous-algèbre de l ensemble C K (C) des fonctions continues définies sur C et à valeurs dans K K = R ou ). Nous notons 1 la fonction définie sur C et constante à 1. Supposons que i) 1 A, ii) A sépare les points, c est-à-dire que iii) A est stable par conjugaison, c est-à-dire que x C x C f A f(x) = f(x ) f A = f A. Alors A est dense dans C K (C) pour la topologie de la convergence uniforme. Remarque 6.8 Si K = R, l hypothèse (iii) est clairement vérifiée. Théorème 6.29 Pour tout n Z, e n est l élément de L 2 ([0 2π]) défini par x [0 2π] e n (x) = 1 2π e inx. Alors, (e n ) n Z est une base hilbertienne de L 2 ([0 2π]). Remarque 6.9 Si f L 2 ([0 2π]), nous notons fn la suite des cœfficients de Fourier de f, c est-à-dire n Z que n N f n =< f e n >= 1 f(t)e int λ 1 (dt). 2π Alors f = n Z [02π] f n e n la convergence ayant lieu dans L 2 ([0 2π]). De plus, f 2 = 2π 0 f(t) 2 λ 1 (dt) = 2 f n n Z et < f g >= 2π 0 f(t) g(t)λ 1 (dt) = n Z f n g n. Preuve du théorème 6.29. Soient n Z et m Z. Alors, < e n e m >= 2π 0 e n (t)e m (t)dt = 1 2π e in m)x dx = δ nm 2π où δ nm = 1 (respectivement 0) si n = m (respectivement n = m). Donc le système (e n ) n Z est orthonormal. 37 0

Posons C = [0 2π] et A l espace vectoriel engendré par (e n ) n Z. Plus précisément, f A n N (λ 0 λ 2... λ n ) n+1 t C f(t) = n λ k e. inkt A possède une structure d algèbre, contient la fonction constante à 1 sur C, sépare les points et est stable par conjugaison. C étant compact, d après le théorème de Stone-Weierstrass, A est dense dans C ([0 2π]) pour la topologie de la convergence uniforme. Fixons f H et ε > 0. Alors, par densité de C ([0 2π]) dans H, il existe g C ([0 2π]) tel que f g 2 ε. De plus, par densité de A dans C ([0 2π]) pour la topologie de la convergence uniforme, il existe h A tel que g h ε. Par ailleurs, g h 2 = Par conséquent, d après l inégalité triangulaire, k=0 1/2 g(x) h(x) 2 λ 1 (dx) 2πg h. [02π] f h 2 f g 2 + g h 2 Ainsi, pour tout f H et tout δ > 0, il existe h A tel que f h 2 δ. 1 + 2π ε. Par conséquent, A est dense dans H. Alors, la famille orthonormée (e n ) n Z est une base hilbertienne de H = L 2 ([0 2π]). 6.5 Annexes 6.5.1 Preuve de la proposition 6.19 voir énoncé page 34 1. Soit ψ : H K une forme continue. (a) Supposons que ψ est identiquement nulle. Alors, x H ψ(x) = 0 < x a > avec a = 0 H. Supposons maintenant qu il existe a H tel que x H ψ(x) = 0 =< x a >. Alors, 0 = ψ(a ) =< a a >= a 2 et donc a = 0. Par conséquent, le seul élément a H tel que est a = 0. x H ψ(x) =< x a > (b) Supposons ψ non identiquement nulle, c est-à-dire que F = Ker ψ = ψ 1 ({0}) = H. 38

Étant donné que ψ est continue, F est un sous-espace vectoriel fermé de H. Alors, d après la remarque 6.6 page 30, H = F F. Étant donné que ψ est linéaire, que F Ker ψ = {0} et que F = {0} (car F = H) est un K-espace vectoriel, il existe b F tel que ψ(b) = 1. Soit x H. Posons y = x ψ(x)b. Alors, par linéarité de ψ, c est-à-dire y Ker ψ = F. Or b F donc Alors avec a = ψ(y) = ψ(x) ψ(x)ψ(b) = ψ(x) ψ(x) = 0 0 =< y b >=< x ψ(x)b b >=< x b > ψ(x) < b b >. b <bb>, x H ψ(x) =< x a >. Supposons maintenant qu il existe a H tel que Alors x H < x a >= ψ(x) =< x a >. x H < x a a >= 0. En particulier, 0 =< a a a a >= a a 2 = 0 d où a = a. Par conséquent, il existe un unique élément a H tel que x H ψ(x) =< x a >. 2. Pour a x H, notons ψ a (x) =< x a >. Considérons l application Ψ : a ψ a. Par sesquilinéarité du produit scalaire, pour tous a a H et tout λ K, et donc pour tous a a H et tout λ K ; En particulier, x H ψ λa+a (x) = λψ a (x) + ψ a (x) Ψ(λa + a ) = λψ(a) + Ψ(a ). Ψ(a + a ) = Ψ(a) + Ψ(a ) et Ψ(λa) = λψ(a) pour tous a a H et λ K. Notons que si K = R, alors Φ est linéaire. Par contre, si K =, Φ n est pas linéaire. D après l inégalité de Cauchy-Schwarz, < x a > ax. Donc ψ a appartient à H (ψ a est une forme linéaire continue). Enfin, d après la première étape de cette preuve, Ψ est bijective. 6.5.2 Preuve de la proposition 6.21 voir énoncé page 34 Remarquons tout de suite que l assertion 1.(c) est une conséquence immédiate de l assertion 1.(b) (prendre y = e k puis y = x). 39

Démontrons tout d abord la proposition 6.21 dans le cas où I est fini Supposons I fini. Alors F = Vect(e k k I) = Vect(e k k I). 1. De plus, la famille (e k ) k I étant orthonormale, elle est libre. Par conséquent, (e k ) k I est une base de l espace vectoriel de dimension finie F. Alors, l assertion 1.(a) de la proposition 6.21 est clairement vérifiée. Par ailleurs, comme I est fini, l assertion 1.(b) est une simple conséquence de la sesquilinéarité du produit scalaire et de l orthonormalité de la famille (e k ) k I. 2. Fixons x H. (a) Le sous-espace vectoriel F étant un fermé de H, la projection orthogonale P F sur F est bien définie. Comme P F (x) F, il existe (λ i ) i I K I tels que P F (x) = k I λ k e k. D après l assertion 1., < P F (x) e k >= λ k. De plus, < x e k >=< x P F (x) e k > + < P F (x) e k >=< x P F (x) e k > +λ k. Alors, < x e k >= λ k car e k F et x P F (x) F. Par conséquent, P F (x) = < x e k > e k. k I L assertion 2.(a) est donc établie. (b) Par ailleurs, d après la proposition 6.16 et l assertion 1.(c), x 2 P F (x) 2 2 = < x e k > e k = < x e k > 2. k I k I L assertion 2.(b) est donc démontrée. Nous venons d établir la proposition dans le cas où I est fini. Démontrons à présent la proposition 6.21 dans le cas où I est infini dénombrable. Supposons que I est infini dénombrable. Nous pouvons supposer I = N. 1. (a) Supposons qu il existe une suite (x k ) k N de K telle que x k 2 < + et x = x k e k. k N k N Alors par continuité du produit scalaire en sa première variable, k N < x e k >= 40 lim < n + n x j e j e k >. j=0

Or pour tout entier n k, d après l assertion 1.(c) pour la famille orthonormale finie (e j ) 0jn < n x j e j e k >= x k. j=0 Par conséquent, pour tout k N, < x e k >= x k. En particulier, si la suite (x k ) k N existe, alors elle est unique. Pour tout k N, posons x k =< x e k >. Pour tout n N, d après l assertion 2. appliquée à la famille orthonormale (e k ) 0kn, n P Fn (x) = x k e k est la projection orthogonale de x sur l espace vectoriel F n engendré par (e k ) 0kn. Par ailleurs, pour tout n N, d après le cas I fini appliqué avec la famille orthonormale (e k ) 0kn, P Fn (x) 2 = k=0 n x k 2 x 2 < +. Par conséquent, la série de terme général x k 2 est convergente, c est-à-dire que x k 2 < +. k N k=0 Montrons à présent que la suite ( n k=0 x ke k ) n N est convergente dans F. La série de terme général x k 2 étant convergente, ε > 0 n 0 N m n 0 n N m+n k=m x k 2 < ε. Pour tout m n N, d après l assertion 1.(c) appliquée avec la famille orthonormale (e k ) mkm+n qui est finie, m+n 2 m+n x k e k = x k 2. k=m Par conséquent, m+n 2 ε > 0 n 0 N m n 0 n N x k e k < ε k=m n c est-à-dire que la suite x k e k d éléments de F est une suite de Cauchy. Par ailleurs, le k=0 n N sous-espace vectoriel F de H est un fermé de l espace complet H donc est lui-même complet. Alors, il existe y F tel que n y = lim x k e k. n + k=0 k=m Il nous reste à montrer que y = x. Par ailleurs d après la partie analyse k N x k =< y e k >. de cette preuve, Par conséquent, pour tout k N, < x y e k >=< x e k > < y e k >= x k x k = 0. Par suite, en utilisant la sesquilinéarité du produit scalaire et sa continuité, nous constatons que z F < x y z >= 0 41

c est-à-dire que x y F. Or x y F car F est un espace vectoriel contenant x et y. Par suite, x y F F = {0}, c est-à-dire que x = y. Nous venons d établir l assertion 1.(a) dans le cas où I est infini dénombrable. (b) Supposons que y = k N y ke k. Alors, par continuité du produit scalaire, < x y >= lim n + < n x k e k k=0 n y k e k >. Alors, en appliquant l assertion 1.(b) avec la famille orthonormale finie (e k ) 0kn, nous constatons que n < x y >= lim x k y k ce qui prouve l assertion 1.(b) dans le cas où I = N. n + k=0 (c) L assertion 1.(c) est une conséquence immédiate de l assertion 1.(b). 2. Soit x H. (a) La projection orthogonale P F sur F est bien définie car F est un sous-espace vectoriel fermé de H. Comme P F (x) F, d après l assertion 1., k=0 P F (x) = k N < P F (x) e k > e k. Par ailleurs, en procédant comme dans le cas I fini, nous constatons que pour tout k N, < P F (x) e k >=< x e k >. (b) L inégalité de Parseval se démontre comme dans le cas où I est fini. 42

Chapitre 7 Transformation de Fourier et Fonctions Caractéristiques La notion de transformée de Fourier a été étudiée au premier semestre dans le cadre des distributions et des fonctions holomorphes. Dans ce chapitre, nous la définissons pour toute fonction Lebesgue-intégrable sur R d. Nous énonçons plusieurs propriétés analogues à celles satisfaites dans le cadre des distributions ou des fonctions holomorphes. Par ailleurs, nous définissons aussi la transformée de n importe quelle mesure bornée sur R d. En probabilités, la transformée de Fourier de la loi d une variable aléatoire X (donc d une probabilité) est encore appelée fonction caractéristique de X. Nous verrons que la fonction caractéristique donne une nouvelle alternative pour caractériser la loi d une variable aléatoire. Les fonctions caractéristiques sont très utilisées en probabilités notamment pour établir la convergence en loi (notion étudiée dans le dernier chapitre) d une suite de variables aléatoires. Dans ce chapitre, L p R d λ d = L p R d B R d λ d où λ d est la mesure de Lebesgue sur R d. Pour tous vecteurs x = (x 1... x d ) et y = (y 1... y d ) de R d, est le produit scalaire euclidien de x et y. < x y >= d x i y i. Le lecteur prendra garde au fait que selon les auteurs, la transformée de Fourier n est pas normalisée de la même façon. i=1 7.1 Transformation de Fourier de fonctions 7.1.1 Définition et premières propriétés Définition 7.1 Transformée de Fourier) Soit f L 1 R d λ d. La transformée de Fourier f ou Ff) de f est définie par u R d f(u) = Ff(u) = e i<ux> f(x) λ d (dx). R d Remarque 7.1 Soient f L 1 R d λ d et u R d. Alors, l application g u : R d x e i<ux> f(x) 43

est borélienne et g u f partout. La fonction f étant Lebesgue-intégrable, g u l est aussi. Par conséquent, la transformée de Fourier Ff de f est bien définie. Nous énonçons quelques propriétés satisfaites par la transformée de Fourier de fonctions sur L 1 R d λ d. Proposition 7.2 Soit f L 1 R d λ d. 1. La transformée de Fourier Ff est une fonction à valeurs dans uniformément continue sur R d. De plus, elle est bornée par f 1 c est-à-dire que Enfin, Ff tend vers 0 à l infini, c est-à-dire que Ff = sup u R d Ff(u) f 1. lim Ff(u) = 0 u + Théorème de Lebesgue). 2. Soient a R d et α R. Soient g 1, g 2 et g 3 les fonctions définies sur R d par x g 1 (x) = f(x) e i<ax> g 2 (x) = f(x a) et g 3 (x) = f. α Alors, g 1 g 2 g 3 L 1 R d λ d et pour tout u R d, Fg 1 (u) = Ff(u + a) Fg 2 (u) = e i<au> Ff(u) et Fg 3 (u) = α d Ff(αu). 3. Par ailleurs, la convolée f 1 f 2 est Lebesgue-intégrable et F(f 1 f 2 ) = Ff 1 Ff 2. 4. D autre part, f L 1 R d λ d et u R d F f(u) = Ff( u). De plus, si f est à valeurs réelles, alors u R d Ff(u) = Ff( u) et Ff(u) 2 = F(f ˇf)(u) où ˇf(x) = f( x) pour tout x R d. 5. Si f = f 1 f n, c est-à-dire si (x 1... x n ) R d 1 R dn = R d f(x 1 x n ) = avec pour tout 1 k n, f k L 1 R d k λ dk alors Ff = Ff 1 Ff n n f k (x k ) n c est-à-dire que Ff(u 1 u n ) = Ff k (u k ) pour tout (u 1... u n ) R d 1 R dn. k=1 k=1 44

Preuve de la proposition 7.2. 1. Soient u v R d. Alors, Ff(u) Ff(v) = (e i<ux> e i<vx> )f(x)λ d (dx) e R R i<ux> e i<vx> f(x) λ d (dx). d d Or e i<ux> e i<vx> = e i<vx> e i<u vx> 1, donc Ff(u) Ff(v) e i<u vx> 1 f(x) λd (dx). R d D après le théorème de convergence dominée, le membre de droite de l inégalité précédente tend vers 0 lorsque u v tend vers 0. Donc Ff est uniformément continue. Par ailleurs, pour tout u R d, Ff(u) = e i<ux> f(x)λ d (dx) f(x) λ d (dx) = f 1. R R d d Par conséquent, Ff f 1. De plus, Ff = sup u R d Ff(u) car Ff est continue. Nous pouvons montrer que Ff tend vers 0 à l infini en deux étapes : intégrer par parties si f est de classe C 1 puis en utiliser la densité des fonctions de classe C 1 dans L 1 (R d λ d ). 2. Remarquons que g 1, g 2 et g 3 sont boréliennes. Étant donné que g 1 f g 1 est Lebesgue-intégrable. Par ailleurs, par définition, u R d Fg 1 (u) = e i<ux> g(x) λ d (dx) = e i<u+ax> f(x) λ d (dx) = Ff(a + u). R d R d En effectuant le changement de variable y = x a, nous obtenons : g 2 (x) λ d (dx) = f(x a) λ d (dx) = f(y) λ d (dy) < +. R d R d R d Par conséquent, g 2 est intégrable. En utilisant le même changement de variables, nous obtenons : u R d Fg 2 (u) = e i<ux> f(x a) λ d (dx) = e i<uy+a> f(y) λ d (dy) = e i<ua> Ff(u). R d R d En effectuant le changement de variable y = x/α, on vérifie que g 3 est intégrable et que 3. Remarquons que f 1 f 2 (x) λ d (dx) R d u R d Fg 3 (u) = α d Ff(αu). R d f 1 (x y)f 2 (y) λ d (dy) λ d (dx). R d Alors, en utilisant le changement de variable u = x y (à y fixé) et le théorème de Fubini-Tonelli, R d f 1 f 2 (x) λ d (dx) f 1 1 f 2 1 < +. 45

La fonction f 1 f 2 donc est intégrable. Par définition, pour tout u R d, F(f 1 f 2 )(u) = f 1 (x y)f 2 (y)λ d (dy) λ d (dx). R d Remarquons que R d e i<ux> R d R d e i<ux> f 1 (x y)f 2 (y) λ d (dx)λ d (dy) = f 1 1 f 2 1 < +. En appliquant alors le théorème de Fubini (pour les fonctions intégrables), F(f 1 f 2 )(u) = f 2 (y) e i<ux> f 1 (x y)λ d (dx) λ d (dy). R d R d D après la deuxième assertion, F(f 1 f 2 )(u) = f 2 (y) e i<uy> Ff 1 (u) λ d (dy) = Ff 1 (u) Ff 2 (u). R d 4. L assertion 4. est facile à établir. Il suffit de constater que par linéarité de l intégrale de Lebesgue, g L 1 R d λ d g(x) λ d (dx) = g(x) λ d (dx). R d R d La deuxième partie de l assertion (cas f réelle) s obtient en utilisant les assertions 2. et 3. 5. L assertion 5. découle immédiatement du théorème de Fubini. 7.1.2 Transformée de Fourier et dérivation Nous étudions à présent le lien entre la dérivation et la transformation de Fourier. Nous obtenons des formules analogues à celles données dans le cours de fonctions holomorphes ou de distributions. Commençons par étudier la dérivabilité d une transformée de Fourier. Proposition 7.3 Dérivée d une transformée de Fourier) Soient f L 1 R d λ d, r N et (k 1 k 2... k d ) N d tels que k 1 + k 2 + + k d = m r. Si R d x r f(x) λ d (dx) < + alors la transformée de Fourier Ff est de classe C r sur R d et m Ff u k 1 1 uk d d pour tout u = (u 1... u d ) R d. (u) = i R m x k 1 1 xk d d ei<ux> f(x) λ d (dx) d Preuve de la proposition 7.3. Il s agit d une conséquence directe du théorème de dérivation d une intégrale dépendant d un paramètre. Nous pouvons énoncer une réciproque partielle de la proposition précédente. 46

Proposition 7.4 Si f L 1 (R λ 1 ) est une fonction positive intégrable et si Ff est 2k fois dérivable en 0 avec k N, alors x 2k f(x) λ 1 (dx) < +. R Preuve de la proposition 7.4. Supposons Ff deux fois dérivable en 0. Pour tout u = 0, posons ϕ(u) = 2Ff(0) Ff(u) Ff( u) u 2. La fonction Ff étant deux fois dérivable en 0, lim u 0 ϕ(u) = (Ff) (0) (écrire un développement limité). De plus, par définition de Ff 2 e iux e iux ϕ(u) = u 2 f(x)λ 1 (dx) = 2 R Remarquons que pour tout x R fixé, R R 1 cos(ux) lim u 0 u 2 x 2 = 1 2. 1 cos(ux) u 2 x 2 Alors, d après le lemme de Fatou, 1 cos(ux) lim inf u 0 u 2 x 2 x 2 f(x) λ 1 (dx) lim inf ϕ(u) u 0 c est-à-dire que R x 2 2 f(x)λ 1(dx) (Ff) (0) < +. x 2 f(x)λ 1 (dx). La généralisation s obtient en raisonnant par récurrence sur k et en remplaçant f(x)λ 1 (dx) par x 2k f(x)λ 1 (dx). Remarque 7.2 La dérivabilité de Ff en 0 ne permet pas d affirmer que Terminons par l étude de la transformée de Fourier d une dérivée. Proposition 7.5 Transformée de Fourier d une dérivée) R x f(x)λ 1 (dx) < +. 1. Soit f une fonction de classe C 1 sur R d f telle que f et sont λ d -intégrables et lim f(x) = 0. x k x + Alors, pour tout 1 k d et tout u = (u 1... u d ) R d, f F (u) = iu k Ff(u) x k 2. Soient r N et (k 1 k 2... k d ) N d tels que k 1 + k 2 + + k d = m r. Si f est une fonction de classe C r sur R d et à support compact, alors pour tout u = (u 1... u d ) R d m f F x k 1 1 (u) = ( i) m u k 1 xk d 1 uk d d Ff(u) d 47

Preuve de la proposition 7.5. 1. Supposons les hypothèses de l assertion 1. vérifiées. Nous pouvons nous ramener à d = 1. En effet, f F (u) = e iu kx k f (x)λ 1 (dx k ) λ d 1 (dx) x k x k R d 1 e i<euex> où u = (u 1... u k 1 u k+1... u d ) et x = (x 1... x k 1 x k+1... x d ). Si d = 1, alors F f (u) = R a lim a + a f (t)e iut λ 1 (dt). En intégrant par parties (l intégrale de Lebesgue ici coïncide avec celle au sens de Riemann), a a D où F(f )(u) = iuff(u) car f (t)e iut dt = f(a)e iua f( a)e iua iu lim f(x) = 0. x + a a f(t)e iut dt. 2. L assertion 2. se montre par récurrence sur m. 7.1.3 Identité de Parseval Proposition 7.6 Relation de Parseval) Si f g L 1 (R d λ d ), alors f g et f g sont λ d -intégrables. De plus, f(u) g(u) λd (du) = f(u) g(u) λ d (du). R d R d Preuve de la proposition 7.6. Remarquons que f(u)g(u) λ d (dx) g(u)e i<ux> f(x) λ d (du)λ d (dx) = g 1 f 1 < +. R d R d R d Alors, f g est λ d -intégrable. De même, f g est λ d -intégrable. Posons a = f(u) g(u) λd (du) = g(u) e i<ux> f(x) λ d (dx) λ d (du). R d R d R d On peut utiliser le théorème de Fubini car (u x) g(u)e i<ux> f(x) est intégrable sur R d R d (d après le début de la preuve). On obtient alors : a = f(x) g(u)e i<ux> λ d (du) λ d (dx) = f(x)g(x)λ d (dx). R d R d R d Remarque 7.3 Nous pouvons étendre la notion de transformée de Fourier aux fonctions de carrés intégrables. La relation de Parseval reste alors vraie pour f g L 2 R d λ d. 7.1.4 Transformée de Fourier et inversion D après la proposition 7.2, la transformée de Fourier F est un opérateur linéaire défini sur L 1 (R d λ d ) ou L 1 (R d λ d ) à valeurs dans L (R d λ d ) C 0 où C 0 est l ensemble des fonctions continues sur R d tendant vers 0 à l infini. Mais, il ne s agit pas d une bijection. 48

Théorème 7.7 1. La fonction F : L 1 (R d λ d ) L (R d λ d ) C 0 n est pas surjective mais F L 1 (R d λ d ) est dense dans C 0. 2. La fonction F : L 1 (R d λ d ) L (R d λ d ) C 0 est injective. Remarque 7.4 F est bien définie sur L 1 (R d λ d ) car si f g L 1 R d λ d et si f = g presque partout, alors Ff = Fg. Nous donnons maintenant une formule d inversion de la transformation de Fourier. Théorème 7.8 Si f L 1 (R d λ d ) et si Ff L 1 (R d λ d ), alors f(x) = 1 (2π) d Ff(u) e i<ux> λ d (du) = F(Ff)( x) R d (2π) d pour λ d -presque tout x. Preuve du théorème 7.8. Voir annexe de ce chapitre page 56.. Nous terminons cette partie en donnant le lien entre les normes de Ff et f dans L 2 R d λ d. Proposition 7.9 Soit f L 1 (R d λ d ) telle que Ff L 1 (R d λ d ). Alors, Ff f L 2 R d λ d et Ff 2 = (2π) d/2 f 2. Remarque 7.5 Soit f L 2 (R d λ d ). Nous pouvons alors définir la transformée de Fourier Ff de f. De plus, Ff L 2 (R d λ d ) et Ff 2 = (2π) d/2 f 2. Preuve de la proposition 7.9. D après la proposition 7.6 (pour g = Ff), la fonction Ff 2 = Ff Ff est intégrable (i.e. Ff L 2 (R d λ d )) et Ff 2 2 R = Ff(x) 2 λ d (dx) = f(x) F Ff (x)λ d (dx). d R d Or d après la proposition 7.2, x R d F Ff (x) = F(Ff)( u). Alors, d après le théorème 7.8, pour λ d -presque tout x, F Ff (x) = (2π) d f(x). Par conséquent, Ff 2 2 = (2π)d f 2 2. 49

7.2 Transformée de Fourier d une mesure bornée Définition 7.10 Transformée de Fourier) Soit µ une mesure positive bornée sur R d B R d. La transformée de Fourier µ ou Fµ) est définie par u R d µ(u) = Fµ(u) = e i<ux> µ(dx). R d Remarque 7.6 Soient µ une mesure positive bornée sur R d B R d et u R d. 1. La fonction R d x e i<ux> étant borélienne bornée, elle est µ-intégrable sur R d car µ est une mesure bornée. Par conséquent, la transformée de Fourier Fµ de la mesure µ est bien définie. 2. Si µ(dx) = f(x)λ d (dx), avec f une fonction positive intégrable, alors µ est une mesure positive finie (car f est intégrable) absolument continue par rapport à λ d et Fµ = Ff. Certaines des propriétés de la proposition 7.2 s étendent aux mesures positives et bornées. Proposition 7.11 1. Si µ est une mesure positive bornée sur R d, alors µ est une fonction uniformément continue sur R d et sup u R d µ(u) µ(r d ) 2. Si µ 1 et µ 2 sont deux mesures positives bornées sur R d, alors la mesure convolée µ 1 µ 2 est une mesure positive bornée sur R d et F(µ 1 µ 2 ) = Fµ 1 Fµ 2. 3. Enfin, si pour tout 1 i n, µ i est une mesure positive et bornée sur R d i, alors c est-à-dire que F(µ 1 µ n ) = Fµ 1 Fµ n F(µ 1 µ n )(u) = pour tout u = (u 1... u n ) R d 1 R dn. n Fµ k (u k ) k=1 La propriété de dérivation d une transformée de Fourier (voir proposition 7.3) se généralise à une mesure positive et bornée µ. 50

Proposition 7.12 Dérivée d une transformée de Fourier) Soit µ une mesure bornée sur R d telle que avec r N. Alors Fµ est de classe C r sur R d et m Fµ u k 1 1 uk d d R d x r µ(dx) < + (u) = i R m x k 1 1 xk d d ei<ux> µ(dx) d pour tout (k 1 k 2... k d ) N d tel que k 1 + k 2 + + k d = m r et tout u = (u 1... u d ) R d. Nous pouvons aussi énoncer une proposition analogue à la proposition 7.4 en remplaçant f(x)λ 1 (dx) par une mesure positive bornée. Proposition 7.13 Soit µ une mesure positive bornée sur R d. Si Fµ est 2k fois dérivable en 0 avec k N, alors x 2k µ(dx) < +. R 7.3 Fonction caractéristique d une variable aléatoire. Dans cette partie, toutes les variables aléatoires sont définies sur l espace de probabilité (Ω P). 7.3.1 Définition exemples et premières propriétés Définition 7.14 Fonction caractéristique) Soit X une variable aléatoire à valeurs dans R d. La fonction caractéristique de X est la fonction ϕ X : R n définie par t = (t 1... t n ) R d ϕ X (t) = E e i<tx> = E e i n k=1 t kx k = e i<tx> dp X (x) R d où P X désigne la loi de X. Remarque 7.7 1. ϕ X est la transformée de Fourier de la loi P X de X au sens de la définition 7.10. 2. La fonction caractéristique de la variable aléatoire X ne dépend que de la loi de X. Alors, si les variables aléatoires X et Y ont même loi, elles ont même fonction caractéristique. Nous verrons que la réciproque est vraie (voir théorème 7.18). 3. Si X admet comme densité la fonction f, alors ϕ X (t) = e i<tx> f(x)λ d (dx). R d Dans ce cas, ϕ X est la transformée de Fourier de la fonction f au sens de la définition 7.1. 51

Nous commençons par calculer les fonctions caractéristiques de certaines lois discrètes. Proposition 7.15 Lois de Poisson/Lois binomiales) Soient λ R +, n N et p [0 1]. Soient X une variable aléatoire de loi binomiale B(n p) et Y une variable aléatoire de loi de Poisson P(λ). Notons ϕ X respectivement ϕ Y ) la fonction caractéristique de X respectivement Y ). Alors, pour tout t R, ϕ X (t) = pe it + 1 p n et ϕy (t) = exp λ(e it 1). Preuve de la proposition 7.15. Par définition, De même, ϕ X (t) = E e itx = n e itk Cnp k k (1 p) n k = k=0 ϕ Y (t) = E e ity = k=0 n Cn(pe k it ) k (1 p) n k = (pe it + 1 p) n. k=0 e itk λ λk e k = e λ (λe it ) k = exp λ(e it 1). k k=0 Nous nous intéressons à présent aux variables aléatoires réelles. gaussiennes. Proposition 7.16 Lois gaussiennes) 1. Si X est une variable aléatoire gaussienne réduite et centrée, alors t R ϕ X (t) = e t2 /2. 2. Si X est une variable aléatoire gaussienne de loi N (m σ 2 ), alors t R ϕ X (t) = exp itm t2 σ 2. 2 Preuve de la proposition 7.16. 1. Supposons X de loi N (0 1). Alors, Soit z, z = a + ib, alors, xe zx x2 /2 Nous prolongeons ϕ X en posant ϕ X (t) = E e itx = 1 2π = x e ax x2 /2 et ϕ X (z) = 1 2π R e itx x2 2 λ 1 (dx). x e ax x2 /2 λ 1 (dx) < +. x2 zx e 2 λ1 (dx) pour tout z. L application ϕ X est alors holomorphe sur (on peut dériver sous le signe somme). 52

Calculons ϕ X (z) pour z = a R. Nous avons : 1 2π x2 ax e 2 λ1 (dx) = ea2 /2 e 1 2 x a)2 λ 1 (dx) = ea2 /2 e y2 /2 λ 1 (dy) = e a2 /2 2π 2π (on a posé y = x a). Les fonctions z e z2 /2 et ϕ X sont holomorphes sur et coïncident sur R. Elles sont donc égales sur tout. En particulier, pour z = it (t R) : ϕ X (t) = e it)2 /2 = e t2 /2. 2. Supposons X de loi N m σ 2. Alors, X = σy + m, avec Y N (0 1). Par conséquent, E(e itx ) = E(e itσy +m) ) = e itm E(e itσy ) = e itm t2 σ 2 2. Nous énonçons à présent quelques propriétés de la fonction caractéristique. Proposition 7.17 Soit X une variable aléatoire réelle de fonction caractéristique ϕ X. 1. La fonction ϕ X est uniformément continue. 2. ϕ X est définie et positive, c est-à-dire que n λ m λk ϕ X (t m t k ) 0 mk=1 pour tout n N, pour tous λ 1... λ n, et pour tous t 1... t n R. Remarque 7.8 L intérêt de l assertion 2. de cette proposition réside surtout dans le fait qu elle admet une réciproque (le théorème de Bochner) : si une fonction est définie positive, c est la transformée de Fourier d une mesure positive. Preuve de la proposition 7.17. 1. D après la proposition 7.11, ϕ X est uniformément continue. 2. Soit A = n mk=1 A = λ m λk ϕ X (t m t k ), où λ 1... λ n, et t 1... t n R. On a : n mk=1 λ m λ k E e itmx e it kx = E n m=1 λ m e itmλ n m=1 λ m e itmλ n n A = E λ m e itmλ λ m e itmλ = E n 2 λ m e itmλ 0. m=1 m=1 m=1 53

Nous énonçons pour terminer un résultat d injectivité analogue à la seconde assertion du théorème 7.7. En fait, le théorème suivant dit simplement que la loi d une variable aléatoire est caractériser par sa fonction caractéristique. Théorème 7.18 Caractérisation de la loi d une variable aléatoire) Si deux variables aléatoires X et Y ont même fonction caractéristique alors X et Y ont même loi. En d autres termes la transformée de Fourier est injective sur l ensemble des probabilités sur R d. Remarque 7.9 Attention si ϕ X = ϕ Y, X n est pas a priori égale presque sûrement à Y. En effet si X suit une loi uniforme sur [0 1], Y = 1 X suit encore une loi uniforme sur [0 1]. En particulier X et Y ont même fonction caractéristique. Il est clair que X n est pas égale presque sûrement à Y. 7.3.2 Moments d une variable aléatoire La connaissance de la fonction caractéristique de la variable aléatoire réelle X permet de calculer ses moments. Il s agit tout simplement d une conséquence de la proposition 7.12. Proposition 7.19 Dérivation d une fonction caractéristique) Soient X une variable aléatoire réelle et k un entier tel que E X k < +. Alors ϕ X est k fois dérivable et ϕ k) X (0) = ik E X k. En particulier, si X est intégrable, alors ϕ X est dérivable et E(X) = iϕ X (0). De plus, si X est de carré intégrable, alors ϕ X est deux fois dérivable, E X 2 = ϕ X(0) et Var (X) = ϕ X(0) + ϕ X(0) 2. Remarque 7.10 Une réciproque partielle peut être donnée en appliquant la proposition 7.13. Appliquons la proposition précédente pour calculer tous les moments d une variable aléatoire gaussienne centrée réduite. Corollaire 7.20 Moments d une variable gaussienne centrée réduite) Soit Z une variable aléatoire de loi gaussienne réduite et centrée. Alors Z admet des moments de tous ordres. De plus, pour tout k N, E Z 2k = (2k) 2 k k et E Z 2k+1 = 0. Preuve du corollaire 7.20. Le lecteur vérifiera que Z admet des moments de tout ordre. Par ailleurs, ϕ Z (t) = E[e itz ] = e t2 /2 = k0 ( 1) k 2 k k t 2k t R. De plus, ϕ Z est analytique sur R et ϕ Z (t) = n0 ϕ n) Z (0) n t n. Il suffit ensuite d identifier et d appliquer la proposition 7.19. 54

7.3.3 Indépendance Nous terminons ce chapitre en nous intéressant aux relations entre les notions d indépendance et de fonction caractéristique. Commençons par donner la fonction caractéristique d une somme de variables indépendantes. Proposition 7.21 Fonction caractéristique d une somme de variables indépendantes) Si les variables aléatoires X 1... X n à valeurs dans R d sont mutuellement indépendantes, alors t R d ϕ (t) = n X1 ϕ + +Xn Xk (t). (7.1) k=1 Preuve de la proposition 7.21. Supposons que X 1... X n sont mutuellement indépendantes. Alors pour tout t R, ϕ X1 e n (t) = E n itx 1+ +X n) = E e itx k = E e itx n k = ϕ + +Xn Xk (t). k=1 k=1 k=1 Remarque 7.11 Si X et Y sont indépendantes de loi absolument continue sur R d de densité respective f et g, alors la propriété (7.1) se réécrit sous la forme f g = f g propriété que nous avons vue dans le cadre des fonctions intégrables. Remarque 7.12 Le théorème 7.18 et la proposition 7.21 permettent de donner une nouvelle démonstration des propriétés de convolution des lois binomiales, de Poisson et gaussiennes. Dans ce qui suit, la notation X µ, signifie que la variable aléatoire réelle X suit la loi µ. Si X B(n p), si Y B(m p) et si X et Y sont indépendantes, alors X + Y B(n + m p). En effet, pour tout t R, ϕ X+Y (t) = ϕ X (t)ϕ Y (t) = (pe it + 1 p) n (pe it + 1 p) m = (pe it + 1 p) n+m. Si X P(λ), si Y P(µ) et si X et Y sont indépendantes, alors X + Y P(λ + µ). En effet, pour tout t R, ϕ X+Y (t) = ϕ X (t)ϕ Y (t) = exp λ(e it 1). exp µ(e it 1) = exp(λ + µ)(e it 1). Si X N (m σ 2 ), si Y N (n τ 2 ) et si X et Y sont indépendantes, alors X + Y N (m + n σ 2 + τ 2 ). En effet, pour tout t R, ϕ X+Y (t) = ϕ X (t)ϕ Y (t) = exp itm σ2 t 2 exp itn τ 2 t 2 = exp it(m + n) (σ2 + τ 2 )t 2 2 2 2 Nous terminons par un résultat utile pour montrer que des variables aléatoires sont indépendantes. 55

Proposition 7.22 Caractérisation de l indépendance) Soient X 1... X n des variables aléatoires définies sur (Ω P). Supposons que X i est à valeurs dans R d i et notons ϕ Xi sa fonction caractéristique. Notons ϕ X1 Xn) la fonction caractéristique de (X 1... X n ). Alors, les variables aléatoires X 1... X n sont mutuellement indépendantes si et seulement si ϕ X1 Xn) = ϕ X 1 ϕ Xn c est-à-dire si et seulement si pour tout u = (u 1... u n ) R d 1 R dn, ϕ X1 Xn) (u 1... u d ) = n ϕ Xk (u k ). k=1 Preuve de la proposition 7.22. Par définition, X 1... X n sont mutuellement indépendantes P X1 Xn) = P X 1 P Xn. Par conséquent, d après le théorème 7.18, X 1... X n sont mutuellement indépendantes ϕ X1 Xn) = F P X1 P Xn. Or F P X1 P Xn = FP X1 FP Xn = ϕ X1 ϕ Xn, ce qui nous permet de conclure. 7.4 Annexe : Preuve du théorème 7.8 voir énoncé page 49 Nous supposons les hypothèses du théorème 7.8 (voir page 49) vérifiées. 1. Pour tout ε > 0 et x R d, posons et g(x) = 1 (2π) d R d Ff(u) e i<ux> λ d (du) g ε (x) = 1 (2π) d Ff(u) exp ε2 R d 2 u2 i < u x > λ d (du). D après le théorème de convergence dominée, De plus, Soit ϕ une fonction définie sur R d, continue et à support compact. D après (7.2) et (7.3) et le théorème de convergence dominée, x R d lim ε 0 g ε (x) = g(x). (7.2) x R d g ε (x) 1 (2π) d Ff 1. (7.3) a = R d ϕ(x)g(x) λ d (dx) = lim ε 0 a ε (7.4) avec a ε = ϕ(x)g ε (x) λ d (dx) = 1 R d (2π) d ϕ(x) Ff(u) exp ε2 R d R d 2 u2 i < u x > λ d (du) λ d (dx). 56

Soient x R d et ε 0. Nous posons α(u) = 1 ( 2π) exp ε2 d 2 u2 i < u x >. Les fonctions α et ϕ appartiennent à L 1 (R d λ d ). D après l identité de Parseval et la proposition 7.2, Ff(u) α(u) λ d (du) = R d f(u) Fα(u) λ d (du) R d et 1 Fα(u) ( 2π) d 2 /2 λ d (du) < +. (7.5) R d e ε2 u Par conséquent, 1 a ε = ( ϕ(x) f(u) Fα(u) λ 2π) d d (du) λ d (dx). R d R d 2. Calculons Fα(u). D après la proposition 7.16, 1 e itx e x2 /2 λ 1 (dx) = e t2 /2 t R. 2π R Par définition de Fα, 1 Fα(u) = ( e i<uv> exp ε2 2π) d R d 2 v2 i < v x > λ d (dv). Alors, 1 Fα(u) = ( 2π) d D après le théorème de Fubini, Fα(u) = d l=1 R d 1 2π d l=1 R exp ε2 2 v2 l + iv l(u l x l ) λ d (dv). exp ε2 2 v2 l + iv l(u l x l ) λ 1 (dv l ) En effectuant le changement de variable w l = εv l et en utilisant(??), nous obtenons : d Fα(u) = 1 ε d exp 1 2ε 2 (u l x l ) 2 = 1 ε d exp l=1 1 u x2 2ε2. 3. D après (7.5) et l égalité précédente, 1 a ε = (ε ϕ(x) f(u) exp 1 u 2π) d x2 λ R d R d 2ε2 d (du) λ d (dx). Nous pouvons vérifier que le théorème de Fubini s applique. Ce théorème nous permet alors d écrire a ε sous la forme 1 a ε = f(u) R d (ε ϕ(x) exp 1 u 2π) d x2 λ R d 2ε2 d (dx) λ d (du). Posons ψ(x) = 1 ( 2 2π) d e x /2 57 et ψ k (x) = k d ψ(kx) k N.

L intégrale de la fonction ψ est égale à 1 (utiliser Fubini ou un changement de variables). La suite (ψ k ) k N est une approximation de l unité (c est-à-dire que si f L 1 (R d ), f ψ k converge vers f dans L 1 (R d )). Donc en prenant ε k = 1/k, nous avons : 1 ϕ(x) exp 1 (ε k 2π) d R d 2ε 2 u x λ 2 d (dx) = ϕ ψ k (u) ϕ(u) k lorsque k. De plus ε > 0 1 (ε 2π) d ϕ(x) exp 1 u x2 λ R d 2ε2 d (dx) ϕ. Alors, en appliquant le théorème de convergence dominée, nous obtenons : lim a 1/k = f(u)ϕ(u)λ d (du) k + R d c est-à-dire d après (7.4), ϕ(x)g(x)λ d (dx) = ϕ(x)f(x)λ d (dx). R d R d L égalité précédente étant vraie pour toute fonction ϕ continue à support compact, g = f p.p. 58

Chapitre 8 Suites de variables aléatoires Dans ce chapitre, nous nous intéressons au comportement asymptotique d une suite de variables aléatoires définies sur un même espace (Ω P). Ces variables aléatoires sont supposées à valeurs dans R d. Comme dans les chapitres précédents, R d est muni de sa tribu borélienne. Dans toute la suite, E ou E i désigne R d. Par ailleurs, désigne la norme euclidienne. 8.1 Convergence presque sûre 8.1.1 Définition et propriétés Définition 8.1 Convergence presque sûre) La suite de variables (X n ) n N à valeurs dans E) converge presque sûrement vers la variable ps aléatoire X, ce que l on note X n X, si il existe N un ensemble négligeable tel que pour tout ω / N la suite (X n (ω)) n N converge vers X(ω), c est-à-dire tel que ω / N lim n + X n(ω) = X(ω). Exemple 8.1 Soit X une variable aléatoire de loi uniforme sur [0 1]. Pour tout n N, X n = 1 [01/n] (X) est une variable aléatoire à valeurs réelles. Par ailleurs, si X(ω) = 0, lim X n(ω) = 0. n + Or P(X = 0) = 1 car X suit une loi uniforme sur [0 1]. Par conséquent, X n p.s. 0. Nous nous intéressons à présent à quelques propriétés de stabilité de la convergence presque sûre, propriétés connues dans le cadre des suites déterministes. Commençons par nous intéresser à l image par une fonction continue d une suite convergeant presque sûrement. Proposition 8.2 Image par une fonction continue) ps Soient (X n ) n N et X des variables aléatoires à valeurs dans E 1. Si X n X. et si f : E 1 E est une fonction continue, alors f(x n ) ps f(x). 59

p.s. Preuve de la proposition 8.2. Soit f : E 1 E une fonction continue. Supposons que X n X. Alors, il existe un négligeable N tel que ω N c lim X n(ω) = X(ω). n + Par continuité de f sur E 1, L ensemble N étant négligeable, f(x n ) p.s. f(x). ω N c lim f(x n(ω)) = f(x(ω)). n + Intéressons-nous à présent à la convergence presque sûre d une suite de couple de variables aléatoires. Proposition 8.3 Couple de variables aléatoires) Soient (X n ) n N et X des variables aléatoires à valeurs dans E 1. Soient (Y n ) n N et Y des variables aléatoires à valeurs dans E 2. Alors, la suite de variables aléatoires ((X n Y n )) n N à valeurs dans E 1 E 2 converge presque sûrement vers la variable aléatoire (X Y ) si et seulement si X n ps X et Y n ps Y. Preuve de la proposition 8.3. Supposons que la suite de variables aléatoires ((X n Y n )) n N à valeurs dans E 1 E 2 converge presque sûrement vers la variable aléatoire (X Y ). Alors par continuité des applications coordonnées sur E 1 E 2, X n p.s. X et Y n p.s. Y d après la proposition 8.2. Supposons que X n et N 2 un négligeable tel que p.s. p.s. X et Y n Y. Alors, il existe N 1 un négligeable tel que L ensemble N 1 N 2 est aussi un négligeable et ω / (N 1 N 2 ) ω N1 c lim X n(ω) = X(ω) n + ω N2 c lim Y n(ω) = Y (ω). n + lim (X n(ω) Y n (ω)) = (X(ω) Y (ω)). n + Par conséquent, (X n Y n ) p.s. (X Y ). La proposition suivante, qui se déduit des propositions 8.2 et 8.3, montre que la convergence presque sûre se comporte comme la convergence des suites déterministes par rapport l addition et la multiplication. 60

Proposition 8.4 Addition et multiplication) Soient (X n ) n N une suite de variables aléatoires à valeurs dans E 1 et (Y n ) n N une suite de variables aléatoires à valeurs dans E 2. Soient X une variable aléatoire à valeurs dans E 1 et Y une variable aléatoire à valeurs dans E 2. Supposons que X n ps X et que Y n ps Y. 1. Si E 1 = E 2, alors pour tous λ µ R, λx n + µy n ps λx + µy. 2. Si E 2 = R, alors Y n X n ps Y X. 3. Si E 2 = R et si pour tout n N, P(Y n = 0) = P(Y = 0) = 1, alors 1 Y n ps 1 Y. Remarque 8.1 Dans la dernière assertion de la proposition précédente, les variables aléatoires 1/Y n et 1/Y sont définies presque sûrement. Preuve de la proposition 8.4. D après la proposition 8.3, (X n Y n ) p.s. (X Y ). 1. Supposons E 1 = E 2. Soient λ µ R. L application f : E 1 E 1 E 1 (x y) λx + µy étant continue sur E 1 E 1, d après la proposition 8.2, λx n + µy n p.s. λx + µy. 2. Supposons E 2 = R. L application f : E 1 R E 1 (x y) yx étant continue sur E 1 R, d après la proposition 8.2, Y n X n p.s. Y X. 3. Supposons E 2 = R. Une réunion dénombrable de négligeables étant encore un négligeable, il existe N un ensemble négligeable tel que pour tout ω / N, Y n (ω) = 0 Y (ω) = 0 et lim n + Y n(ω) = Y (ω). Alors par continuité de l application x 1/x sur R, ω / N lim n + 1 Y n (ω) = 1 Y (ω). Par suite, 1/Y n p.s. 1/Y. 8.1.2 Lemme de Borel-Cantelli Un critère pour montrer la convergence presque sûre est donné par le lemme de Borel-Cantelli. Énonçons la version ensembliste de ce lemme. 61

Lemme 8.5 Lemme de Borel-Cantelli) Soit (A n ) n N une suite d éléments de. 1. Si n N P(A n ) < + alors P + + n=0 k=n A k = 0 c est-à-dire que P lim sup A n = 0. n N 2. Si les ensembles A n, n N, sont mutuellement indépendants et si n N P(A n ) = + alors c est-à-dire que P lim sup A n = 1. n N + P + n=0 k=n A k = 1 Preuve du lemme de Borel-Cantelli. 1. Supposons que n N P(A n ) < +. Soit ε > 0. Alors, vu notre hypothèse, il existe N N tel que + n=n P(A n ) < ε. D après la proposition 1.26 du chapitre 1 (page 14), + P A n n=n + n=n P(A n ) < ε. Or lim sup n N A n = + + n=0 k=n A k + n=n A n, donc P lim sup A n < ε n N pour tout ε > 0. Par conséquent, P lim sup A n = 0. n N 2. Supposons que les ensembles A n, n N, sont mutuellement indépendants et que P(A n ) = +. n N Soit n N et m n. Par indépendance mutuelle des A p, p N, m m m m P A k = 1 P = 1 P(A c k ) = 1 (1 P(A k )). A c k k=n k=n k=n 62 k=n

Étant donné que pour tout x [0 1], 0 1 x e x, m m (1 P(A k )) exp P(A k ) et donc k=n k=n k=n m m P A k 1 exp P(A k ) En faisant tendre m +, on obtient par continuité monotone de P : + n N P A k 1 et donc k=n k=n + n N P A k = 1 k=n car P est à valeurs dans [0 1]. Par ailleurs, la suite + k=n A k est une suite décroissante d éléments de, donc par continuité n N monotone (décroissante) de P, + + + P A k = lim P A k = 1. n + n=0 k=n k=n Énonçons à présent un critère, conséquence du lemme de Borel-Cantelli, pour établir la convergence presque sûre d une suite de variables aléatoires. Corollaire 8.6 Soient (X n ) n N et X des variables aléatoires à valeurs dans E. 1. Si pour tout ε > 0, P(X n X ε) < + alors la suite X n ps X. n N 2. Si les variables aléatoires X n, n N, sont mutuellement indépendantes, alors X n ps 0 si et seulement si ε > 0 n N P(X n ε) < +. Preuve du corollaire 8.6. 1. Soit p N. Pour tout n N, posons A np = X n X 1. p 63

X n et X étant des fonctions mesurables, A np. Alors, d après l assertion 1 du lemme de Borel- Cantelli appliquée à la suite (A np ) n N, P(A p ) = 0 avec A p = + + n=0 k=n A kp. Alors, P p N A p = 0 c est-à-dire que pour presque tout ω, pour tout p N, il existe n 0 N tel que pour tout n n 0, X n (ω) X(ω) < 1 p. Par conséquent, la suite (X n ) n N converge presque sûrement vers X. 2. Pour tout n N, posons A n = {X n ε}. Nous rappelons que A n car X n est mesurable. D après la première partie, si ε > 0 n N P(X n ε) < + p.s. alors X n 0. Il nous reste à démontrer la réciproque sous l hypothèse d indépendance mutuelle des variables aléatoires X n, n N. Supposons que les variables aléatoires X n, n N, sont indépendantes et qu il existe ε > 0 tel que P(A n ) = +. n N P(X n ε) = n N Alors, les ensembles A n, n N sont aussi indépendants et d après le lemme de Borel-Cantelli, + + + + P A k = P {X k > ε} = 1. n=0 k=n n=0 k=n Donc pour presque tout ω, pour tout n N, il existe k n tel que X k (ω) > ε, ce qui signifie que pour presque tout ω, (X n (ω)) n N ne converge pas vers 0. Nous pouvons déduire du corollaire précédent un critère basé sur la convergence d une série de moments d ordre p. Corollaire 8.7 Critère de convergence p.s. basé sur les moments) Soient (X n ) n N une suite de variables aléatoires à valeurs dans E. Si il existe p R + tel que alors X n ps 0. E(X n p ) < + n N 64

Preuve du corollaire 8.7. Étant donné que p R +, Alors, d après l inégalité de Markov, ε > 0 P(X n > ε) = P(X n p > ε p ). ε > 0 P(X n > ε) = P(X n p > ε p ) E(X n p ) ε p. La série de terme général E(X n p ) étant convergente, ε > 0 n N P(X n > ε) < + ce qui signifie que X n p.s. 0 d après le corollaire 8.6. 8.2 Convergence en probabilité Définition 8.8 Convergence en probabilité) La suite de variables aléatoires (X n ) n N converge en probabilité vers la variable aléatoire X, ce P que l on note X n X, si pour tout ε > 0, lim P(X n X > ε) = 0. n + Exemple 8.2 Soit X une variable aléatoire de loi uniforme sur [0 1]. Pour tout n N, posons X n = X + n 2 1 X1/n. Pour tout n N, X n est mesurable car X l est. De plus, n N P( X X n > ε) = P n 2 1 X1/n > ε = Étant donné que X suit une loi uniforme sur [0 1], Par conséquent, n N P( X X n > ε) = ε > 0 et donc (X n ) n N converge en probabilité vers X. 0 si ε n 2 P(X 1/n) si ε < n 2. 0 si ε n 2 1 n si ε < n 2. lim n + P( X n X > ε) = 0 La limite en probabilité d une suite de variables aléatoires est unique presque sûrement. Proposition 8.9 Unicité p.s. de la limite) Si la suite de variables aléatoires (X n ) n N converge en probabilité vers la variable aléatoire X et vers la variable aléatoire Y, alors X = Y presque sûrement. 65

Preuve de la proposition 8.9. Pour tout ε > 0, car Alors, vu que X n P(X Y > ε) P(X n X > ε/2) + P(X n Y > ε/2) {X Y > ε} {X n X > ε/2} {X n Y > ε/2}. P P X et que X n Y, ε > 0 P(X Y > ε) = 0. D après la continuité monotone de P appliquée aux ensembles A p = {X Y > 1/p} p N P(X Y > 0) = lim P({X Y > 1/p}) = 0. p + Les variables aléatoires X et Y sont donc égales presque sûrement. La proposition 8.2 reste vraie pour la convergence en probabilité. La deuxième ne l est pas en général. Proposition 8.10 Image par une fonction continue) P Soient (X n ) n N et X des variables aléatoires à valeurs dans E. Si X n X et si f : E E 1 est une fonction continue, alors P f(x n ) f(x). Preuve de la proposition 8.10. Soient ε > 0 et M > 0. Posons A n1 = {X > M} {f(x n ) f(x) > ε} et A n2 = {X M} {f(x n ) f(x) > ε}. Ces deux ensembles sont des éléments de disjoints et P(f(X n ) f(x) > ε) = P(A n1 ) + P(A n2 ) P(X > M) + P(A n2 ). Quitte à choisir δ suffisamment petit, si x M et x y δ, alors y 2M. La fonction f étant uniformément continue sur le compact {x E 1 /x 2M}, on peut alors choisir δ > 0 suffisamment petit tel que pour x M, x y δ = f(x) f(y) < ε. Avec ce choix de δ, Par conséquent, et donc car X n P X. Vu tout ce qui précède, pour tout M > 0. A n2 {X n X > δ}. P(A n2 ) P(X n X > δ) lim P(A n2) = 0 n + 0 lim sup P(f(X n ) f(x) > ε) P(X > M) n 66

En utilisant la continuité monotone de P ou le théorème de convergence dominée, on constate que lim P(X > M) = 0 M + car X est à valeurs dans E = R d. Par conséquent, pour tout ε > 0, lim P(f(X n) f(x) > ε) = lim sup P(f(X n ) f(x) > ε) = 0 n + n c est-à-dire que f(x n ) P f(x). La proposition suivante lie la convergence presque sûre et la convergence en probabilité. Proposition 8.11 Convergence p.s. Convergence en probabilité) ps P Si X n X, alors X n X. Preuve de la proposition 8.11. Soit ε > 0. Supposons que (X n ) n N converge presque sûrement vers la variable aléatoire X. Pour tout n N, g n = 1 X Xn>ε est une fonction mesurable à valeurs dans R et bornée par 1. Étant donné que la suite (X n) n N converge presque sûrement vers la variable aléatoire X, (g n ) n N converge presque sûrement vers 0. D après le théorème de convergence dominée, lim P(X X n > ε) = lim E(g n) = 0 n + n + et ce pour tout ε > 0. Alors, la suite de variables aléatoires (X n ) n N converge en probabilité vers la variable aléatoire X. En général, la convergence en probabilité n implique pas la convergence presque sûre. Cependant, comme le prouve la proposition suivante, le lien est plus étroit qu il n y paraît. Proposition 8.12 Si la suite de variables aléatoires (X n ) n N converge en probabilité vers la variable aléatoire X, alors il existe une sous-suite X nk qui converge presque sûrement vers la variable aléatoire X. k N Preuve de la proposition 8.12. Supposons que (X n ) n N converge en probabilité vers la variable aléatoire X. En particulier, pour tout k N, lim n + P(X X n > 1/k) = 0. 67

Alors, pour tout k N, n k = min n N / P(X X n > 1/k) 2 k est bien défini. Par construction, la suite (n k ) k N est une suite strictement croissante de N (vérification laissée en exercice) telle que k N P(X X nk > 1/k) 2 k. Fixons ε > 0. Alors, il existe k 0 N tel que pour tout entier k k 0, 1/k < ε. Notons qu alors pour tout entier k k 0, {X X nk ε} {X X nk > 1/k}. Par conséquent, + k=k 0 P(X X nk ε) + k=k 0 P(X X nk > 1/k) + k=k 0 2 k < +. Étant donné que pour tout k k 0, P(X X nk ε) 1, l inégalité précédente implique que P(X X nk ε) < +. k N Alors, d après le corollaire 8.6, la sous-suite X nk k N converge presque sûrement vers X. 8.3 Convergence p Soit p [1 + [. D après le chapitre 4, L p (Ω P) = X : Ω R variable aléatoire / X p est intégrable. Nous pouvons aussi définir les espaces des variables aléatoires p-intégrables à valeurs dans un espace vectoriel normé E. Pour toute fonction X : Ω E mesurable, posons X p = (E(X p )) 1/p. Alors, l espace des variables aléatoires p-intégrables à valeurs dans E est L p E X (Ω P) = : Ω E mesurable / X p < +. De plus, p est une semi-norme sur L p E (Ω P). Comme dans le chapitre 4, nous introduisons alors Lp E (Ω P) l ensemble de classes d équivalence des éléments de L p E (Ω P) pour la relation d équivalence X Y X = Y presque sûrement. Nous pouvons aussi définir p sur L p E (Ω P). Comme dans le cas réel, p est une norme sur Lp E (Ω P). Enfin, pour tout p [1 + [, l espace L p E (Ω P) muni de la norme p est un espace de Banach. Dans la suite, la dépendance en E des espaces L p et L p n est pas notée, sauf si cela porte à confusion. L espace L p (Ω P) muni de p étant un espace normé, la convergence dans L p d une suite de variables aléatoires à valeurs dans E est définie comme suit. 68

Définition 8.13 Convergence dans L p ) Soit p [1 + [. Supposons que pour tout n N X n L p (Ω P) et X L p (Ω P). La suite de variables aléatoires (X n ) n N converge dans L p vers la variable aléatoire X, ce que l on note X p n X, si lim E(X n X p ) = 0 n + c est-à-dire si lim X n X n + p = 0. Remarque 8.2 1. La suite de variables aléatoires (X n ) n N converge dans L p vers la variable aléatoire X si et seulement si la suite de variables aléatoires (X n X p ) p N converge vers 0 dans L 1. 2. Si p = 1, la convergence dans L p est appelée convergence en moyenne. Si p = 2 elle est appelée convergence quadratique. 3. Soit p [1 + [. Supposons que pour tout n N X n L p (Ω P) et X L p (Ω P). Alors, par continuité de la norme p, la convergence L p L implique la convergence des normes. Ainsi, si X p n X, alors, lim E(X n p ) = E(X p ). n + De plus, si les variables aléatoires X n, n N, et X sont à valeurs réelles et si X n L 1 X, alors car E(X n ) E(X) E( X n X ). lim E(X n) = E(X) n + Comparons la convergence dans L p avec la convergence dans L q. Proposition 8.14 Comparaison des convergences dans L p et L q ) Soient p q [1 + [ tels que q p. Soient (X n ) n N et X des variables aléatoires à valeurs dans E. Supposons que pour tout n N Si X n L p L X, alors X q n X. X n L p (Ω P) et X L p (Ω P). Preuve de la proposition 8.14. Soient p q [1 + [ tels que q p. Alors, X n L q (Ω P) et X L q (Ω P) car L q (Ω P) L p (Ω P). D après l inégalité de Jensen appliquée avec la fonction x x p/q, (E(X n X q )) p/q E(X n X p ). Par conséquent, si (X n ) n N converge dans L p vers X, elle converge aussi dans L q vers X. 69

La proposition suivante lie la convergence dans L p et la convergence en probabilité. Proposition 8.15 Convergence dans L p Convergence en probabilité) Soit p [1 + [. Soient (X n ) n N et X des variables aléatoires à valeurs dans E. Supposons que pour tout n N X n L p (Ω P) et X L p (Ω P). Si X n L p P X, alors X n X. L Preuve de la proposition 8.15. Supposons que X p n X. Soit ε > 0. Étant donné que p R +, Alors, d après l inégalité de Markov, P(X n X > ε) = P(X n X p > ε p ). P(X n X > ε) = P(X n X p > ε p ) E(X n X p ) ε p. La suite (X n ) n N convergeant vers X dans L p, lim n + P(X n X > ε) = 0 et ce pour tout ε > 0. Par conséquent, la suite (X n ) n N converge vers X en probabilité. En général la convergence en probabilité n implique pas la convergence dans L p. Néanmoins, dans le cas particulier où les variables aléatoires X n sont bornées presque sûrement par une même constante, la convergence en probabilité et la convergence L 1 sont équivalentes. Proposition 8.16 Convergence en probabilité/convergence L p ) Soient a R + et (X n ) n N une suite de variables aléatoires à valeurs dans E telle que n N X n a presque sûrement. Alors, X n P L X X 1 n X Preuve de la proposition 8.16. Soient a R + et (X n ) n N une suite de variables aléatoires telle que n N X n a presque sûrement. L D après la proposition 8.15, si X 1 P n X, alors X n X. Il nous reste à montrer la réciproque. Supposons P que X n X. Étant donné que X X n X X n et que X n a presque sûrement, P(X > a + ε) P(X n X > ε). 70

En faisant tendre n +, on déduit de la convergence en probabilité de (X n ) n N vers X que ε > 0 P(X > a + ε) = 0. En utilisant la continuité monotone ou le théorème de convergence dominée, on obtient alors : P(X > a) = 0 c est-à-dire que X a presque sûrement. Alors, pour tout n N, E(X n X) = E X n X1 Xn X>ε + E Xn X1 Xn Xε 2aP(Xn X > ε) + ε car X n X 2a presque sûrement. Ainsi, pour tout ε > 0 lim sup E(X n X) ε n + car lim n + P(X n X > ε) = 0. Étant donné que ε > 0 est arbitraire et que pour tout n, E(X n X) 0, lim E(X n X) = lim sup E(X n X) = 0 n + n + c est-à-dire que X n L 1 X. Nous pouvons aussi utiliser le théorème de convergence dominée pour relier la convergence presque sûre et la convergence L p. Proposition 8.17 Convergence p.s./convergence L p ) Soient p [1 + [, (X n ) n N une suite de variables aléatoires dans L p et X une variable aléatoire. Si i) X n ps X ii) et si il existe Z L p une variable aléatoire à valeurs dans [0 + ] telle que n N X n Z presque sûrement alors X L p et X n L p X. Preuve de la proposition 8.17. Étant donné que X n Z presque sûrement et que X n p.s. X presque sûrement X Z. Étant donné que p R + et que Z L p (Ω P), X L p (Ω P) car E(X p ) E(Z p ) < +. De plus, vu ce qui précède, pour tout n N, presque sûrement X n X p 2 p Z p car p R +. Remarquons que 2 p Z p une variable aléatoire intégrable. D après le théorème de convergence dominée à la suite de variables aléatoires (X n X p ) n N qui converge p.s. vers 0, nous avons : lim n + E(X n X p ) = 0. Par suite, X n L p X. 71

8.4 Convergence en loi 8.4.1 Définition et premières propriétés Définition 8.18 Convergence en loi) La suite de variables aléatoires (X n ) n N à valeurs dans E converge en loi vers la variable aléatoire X à valeurs dans E, ce que l on note X n X, si pour toute fonction f : E R continue bornée, lim n + E(f(X n)) = E(f(X)). Remarque 8.3 Il y a unicité de la loi limite mais pas de la variable aléatoire limite. Plus précisément, si la suite de variables aléatoires (X n ) n N converge en loi vers la variable aléatoire X alors elle converge aussi en loi vers la variable aléatoire Y si et seulement si X et Y ont même loi. La convergence en loi n affirme pas que X et X n sont proches dans E mais que la loi de X n est proche de celle de X pour n grand. Nous donnerons dans la section suivante des caractérisations de la convergence en loi à partir des fonctions de répartition ou encore des fonctions caractéristiques. Dans cette partie, nous nous contentons de comparer cette convergence avec les précédentes et de donner les propriétés qui découlent immédiatement de la définition. Commençons par un exemple. Exemple 8.3 Soit X n une variable aléatoire de loi P Xn = 1 2 δ 1/n + 1 2 δ n/n+1). Alors, pour toute fonction f continue bornée sur R, E(f(X n )) = 1 1 2 f + 1 n n 2 f. n + 1 Par conséquent, pour toute fonction f continue bornée sur R, lim E(f(X n)) = 1 n + 2 f(0) + 1 f(1) = E(f(X)) 2 avec X de loi de Bernoulli de paramètre p = 1/2. Par conséquent, X n X. La proposition suivante est une simple conséquence de la définition. Proposition 8.19 Image par une fonction continue) Soient (X n ) n N une suite de variables aléatoires à valeurs dans E et X une variable aléatoire à valeurs dans E. Si X n X et si f : E E 1 est une fonction continue, alors f(x n ) f(x). La proposition suivante lie la convergence en probabilité et la convergence en loi. Proposition 8.20 Convergence en probabilité Convergence en loi) Si X n P X, alors X n X. 72

Remarque 8.4 La convergence presque sûre et la convergence L p (p 1) impliquant la convergence en probabilité, elles impliquent aussi la convergence en loi. La convergence en loi est donc la plus faible de toutes les convergences étudiées jusqu à présent. P Preuve de la proposition 8.20. Supposons X n X. Soit f : E R une fonction continue bornée. P Alors, d après la proposition 8.10, f(x n ) f(x). De plus, f étant bornée, il existe a R tel que n N f(x n ) a partout. D après la proposition 8.16, f(x n ) L1 f(x). Par conséquent, d après la remarque 8.2 page 69 (voir le point 3 de cette remarque), lim E(f(X n)) = E(f(X)). n + Étant donné que f : E R est une fonction continue bornée arbitraire, nous venons de montrer que X. X n 8.4.2 Caractérisations Nous pouvons caractériser la convergence en loi d une suite de variables aléatoires réelles à partir du comportement asymptotique de la suite de leur fonction de répartition. Proposition 8.21 Suite des fonctions de répartition) Soient X n, n N et X des variables aléatoires réelles de fonction de répartition respective F Xn et F X. Alors, X n X si et seulement si lim F (x) = F (x) n + Xn X pour tout x R point de continuité de F X. Remarque 8.5 Dans la proposition précédente, la convergence la suite F Xn des fonctions de répartition n N n a a priori pas lieu sur tout R. Preuve de la proposition 8.21. 1. Supposons que X n X. Soit x R un point en lequel F X est continue. Pour tout p N, on considère f 1p la fonction continue affine par morceaux définie par 0 si t x + 1/p f 1p (t) = 1 + p(x t) si x < t < x + 1/p 1 si t x et f 2p la fonction continue affine par morceaux telle que 1 si t x 1/p f 2p (t) = p(x t) si x 1/p < t < x 0 si t x. Alors, 1 ] x 1/p] f 2p 1 ] x] f 1p 1 ] x+1/p]. 73

Les fonctions f 1p, f 2p et 1 ] y] étant boréliennes positive, pour tout n N et tout p N, F Xn (x 1/p) E(f 2p (X n )) F Xn (x) E(f 1p (X n )) F Xn (x + 1/p). En particulier, en faisant tendre n +, la convergence en loi implique : p N E(f 2p (X)) lim inf n De plus, pour tout p N, on a aussi : Par conséquent, F Xn (x) lim sup F Xn (x) E(f 1p (X)). n F X (x 1/p) E(f 2p (X)) F X (x) E(f 1p (X)) F X (x + 1/p). p N F X (x 1/p) lim inf n En faisant tendre p +, par continuité de F X en x, lim inf n F Xn (x) lim sup F Xn (x) F X (x + 1/p). n F Xn (x) = lim sup F Xn (x) = F X (x). n Par conséquent, F Xn (x) n N converge vers F X (x) pour tout x point de continuité de F X. 2. La réciproque est admise. La convergence en loi peut aussi se déduire de l asymptotique d une suite de fonctions caractéristiques. Théorème 8.22 Théorème de Paul Lévy) Soient X n, n N et X des variables aléatoires à valeurs dans R d de fonction caractéristique respective ϕ Xn et ϕ X. 1. Si X n X, alors la suite de fonctions ϕxn n N converge simplement vers ϕ X. 2. Si ϕ Xn converge simplement vers une fonction ϕ continue en 0, alors il existe une variable n N aléatoire Y à valeurs dans R d dont la fonction caractéristique est ϕ et X n Y. En particulier, la réciproque de la première assertion est vraie : si la suite de fonctions ϕ Xn converge simplement vers ϕ X, alors X n X. n N Remarque 8.6 En fait, si X n X, alors la suite de fonctions ϕxn n N compact vers ϕ X. converge uniformément sur tout Preuve de la proposition 8.22. Nous admettons la deuxième assertion. Supposons que X n X. Fixons t R d. Les fonctions x cos (< t x >) et x sin (< t x >) étant continues bornées, lim n + E(cos (< t X n >)) = E(cos (< t X >)) et lim n + E(sin (< t X n >)) = E(sin (< t X >)). 74

Par conséquent, par linéarité de l intégrale sur l espace des fonctions intégrables, lim ϕ (t) = lim E e <ixn> = E e i<tx> = ϕ n + Xn X (t). n + D où, ϕ Xn n N converge simplement vers ϕ X. 8.5 Somme de variables aléatoires indépendantes 8.5.1 Loi des grands nombres Il existe plusieurs versions de la loi des grands nombres : une version dite faible donne la convergence en probabilité, une version dite forte donne la convergence presque sûre. Avec les outils vus dans ce cours, nous pouvons facilement établir la version faible. Proposition 8.23 Loi faible des grands nombres) Soit (X n ) n N une suite de variables aléatoires réelles deux à deux indépendantes de carré intégrable. Posons X n = 1 n X i. n Si toutes les variables aléatoires X n, n N, ont même loi, alors X n i=1 P E(X 1 ). Preuve de la proposition 8.23. Posons S n = nx n. Les variables aléatoires X n, n N étant deux à deux indépendantes, Var S n = n Var X i. De plus, pour tout i N, Var X i = Var X 1 car X i a même loi que X 1. Alors, Var S n = nvar X 1 et Sn Var X n = Var = Var X 1. n n i=1 Par ailleurs, pour tout 1 i n, E(X 1 ) = E(X i ) car X i a même loi que X 1. Alors, par linéarité de l espérance sur l ensemble des variables aléatoires intégrables, E(S n ) = n E(X i ) = ne(x 1 ) i=1 et donc E X n = E Sn n = E(X1 ). Par conséquent, Vu ce qui précède, Par conséquent, Var X n = E Xn E X n 2 = E Xn E(X 1 ) 2. E X n E(X 1 ) 2 = Var X n = Var X 1. n Xn lim E E(X 1 ) 2 = 0. n + Alors, comme X n L 2 (Ω) et E(X 1 ) L 2 L (Ω), X 2 n E(X 1 ). La convergence L 2 impliquant la convergence en probabilité, X n E(X 1 ). P 75

Notation : Les variables aléatoires X n, n N sont i.i.d. (indépendantes identiquement distribuées) si elles sont mutuellement indépendantes et si elles ont toutes même loi. Si les variables aléatoires X n, n N sont i.i.d., nous pouvons énoncer une version plus forte de la loi des grands nombres. Proposition 8.24 Loi forte des grands nombres) Soit (X n ) n N une suite de variables aléatoires réelles i.i.d. Posons X n = 1 n n X i. 1. Si E( X 1 ) < +, c est-à-dire si les variables aléatoires X n sont intégrables, alors i=1 X n ps E(X 1 ). 2. Si E( X 1 ) = +, c est-à-dire si les variables aléatoires X n ne sont pas intégrables, alors la suite Xn diverge presque sûrement. n N Preuve de la proposition 8.24. Posons S n = nx n. 1. Nous démontrons la première assertion en supposant de plus que E Xi 4 < +. Nous admettons le cas général. Quitte à remplacer X n par X n E(X n ), nous pouvons supposer que E(X n ) = 0. Par définition, E X 4 n = 1 n n n n n 4 E(X i X j X k X l ). i=1 j=1 k=1 l=1 Les variables aléatoires X p, p N, étant mutuellement indépendantes, centrées et de même loi, En particulier, E X 4 n = 1 n n 4 E Xi 4 1 + n 4 E Xi 2 i=1 i=j n N Alors, d après le corollaire 8.7, X n p.s. 0 = E(X 1 ). E X 2 E X 4 j = 1 n(n 1) n 3 + E X 2 2. n 4 1 4 E X n < +. 2. Supposons E( X 1 ) = +. En appliquant le théorème de Fubini-Tonelli, X1 E( X 1 ) = E λ 1 (dt) = 1 t X1 ω) λ 1 (dt)dp(ω) = P( X 1 t) λ 1 (dt). 0 Ω R + R + Par conséquent, + = P( X 1 t) λ 1 (dt) = P( X 1 t) λ 1 (dt) P( X 1 n). R + n N ]nn+1] n N 76

Pour tout n N, la variable X n ayant même loi que X 1, P( X n n) = +. n N Alors, d après le lemme de Borel-Cantelli (par indépendance mutuelle des X n ), presque sûrement, il existe une infinité de n pour lesquels X n n. En particulier, pour presque tout ω la suite (X n (ω)/n) n N ne converge pas vers 0. Supposons que X n (ω) converge. Alors, n N X n+1 (ω) n + 1 = X n+1 (ω) n n + 1 X n(ω) 0 n + ce qui est presque sûrement impossible. Par conséquent, X n diverge presque sûrement. n N 8.5.2 Théorème central limite Théorème 8.25 Théorème central limite) Soit (X n ) n N une suite de variables aléatoires réelles i.i.d. de carré intégrable. Posons X n = 1 n n X i. Considérons Z une variable aléatoire de loi N 0 σ 2 avec σ 2 = Var X 1. Alors, i=1 n Xn E(X 1 ) Z. Preuve du théorème 8.25. Notons ϕ X1 la fonction caractéristique de X 1 et ϕ Yn celle de Y n = n X n E(X 1 ) Par indépendance mutuelle des X p, p N, pour tout t R ϕ Yn (t) = E e it n k=1 X k/ n e it nex 1 ) = Les variables aléatoires X p, p N ayant même loi, pour tout t R, n k=1 ϕ Yn (t) = e it nex 1 ) ϕ X1 t/ n n. E e itx k/ n e it nex 1 ). Étant donné que X 1 admet un moment d ordre 2, ϕ X1 est C 2 et ϕ X1 (t) = 1 + ϕ (0)t + 1 X 1 2 ϕ (0)t 2 + o t 2 = 1 + ie(x X 1 )t E X 2 1 t 2 + o t 2. 1 2 Alors, en utilisant un développement limité à l ordre 2 de x ln (1 + x) en 0, on obtient lim n + ϕ Yn (t) = lim n + e it nex 1 ) = exp 1 + iex 1)t n E(X2 1)t 2 2n t 2 E X 2 1 /2 + t 2 (E(X 1 )) 2 /2 + o t 2 n = exp t 2 Var X 1 /2 = ϕ Z (t) où Z N (0 Var X 1 ). Alors, d après le théorème de Paul Lévy, n X n E(X 1 ) Z 77

78

Annexe A Lois classiques A.1 Lois discrètes Loi de la v.a. X PX Espérance Variance Fonction Caractéristique Loi de Bernoulli B(p) PX = (1 p)δ0 + pδ1 p p(1 p) ϕx(t) = 1 p + pe it avec p [0 1] Loi Binomiale B(n p) avec n N et p [0 1] n PX = k=0 n p k (1 p) n k np np(1 p) ϕx(t) = 1 p + pe it n δk k Loi de Poisson P(λ) avec λ R + Loi Géométrique + PX = k=0 e λ λ k δk k λ λ ϕx(t) = e λeit 1) G(p) avec p ]0 1[ PX = + k=1 p(1 p) k 1 δk 1 p 1 p p 2 ϕx(t) = pe it 1 (1 p)e it 79

A.2 Lois absolument continues Loi de la v.a. X Densité de PX Espérance Variance Fonction de répartition Fonction Caractéristique Loi Gaussienne x fx(t)λ1(dt) ϕx(x) = e imx σ2 x 2 2 x m)2 e 2σ 2 m σ 2 FX(x) = 1 2πσ 2 fx(x) = N (m σ 2 ) où m R et σ R + Loi Uniforme e ix 1 ix si x = 0 1 si x = 0 ϕx(x) = 0 si x < 0 x si x [0 1] 1 si x > 1 1 12 FX(x) = U ([0 1]) fx(x) = 1 [01] (x) 1 2 80 Loi Exponentielle 1 1 iλx ϕx(x) = 0 si x < 0 1 e x/λ si x 0 fx(x) = e x/λ λ 1 R (x) + λ λ 2 FX(x) = E(λ) avec λ R + ϕx(x) = e x FX(x) = 1 2 + arctan(x) π n existe pas n existe pas 1 π(1 + x 2 ) Loi de Cauchy fx(x) =

Annexe B Comparaison des divers modes de convergences Le tableau ci-dessous récapitule les liens entre les divers types de convergence. L q q p 1 L p L 1 p.s. = probabilité = Loi 81

82

Bibliographie [1] Barbe, P. et Ledoux, M. Probabilités, De la licence à l agrégation. Belin, 1998. [2] Bouleau, N. Probabilités de l ingénieur, variables aléatoires et simulation. 2nde édition. Hermann, 2002. [3] Briane, M. et Pages, G. Théorie de l intégration. Vuibert, 2006. [4] Foata, D. et Fuch, A. Calcul des probabilités. 2nde édition. Dunod, 2003. [5] Herrmann, S. Analyse Fonctionnelle et Probabilités. Polycopié de cours, ENSMN, Première année, 2004. [6] Neveu, J. Bases mathématiques du calcul des probabilités. Masson, 1970. [7] Rudin, W. Analyse réelle et complexe. 3ème édition. Dunod, 1998. [8] Rudin, W. Principe d analyse mathématique. Dunod, 2002. [9] Revuz, D. Mesure et intégration. Hermann, 1997. [10] Revuz, D. Probabilités. Hermann, 1997. [11] Wagschal, C. Dérivation, intégration. Hermann, 1999. 83