Calcul intégral et probabilités. Université de La Rochelle

Dimension: px
Commencer à balayer dès la page:

Download "Calcul intégral et probabilités. Université de La Rochelle"

Transcription

1 Calcul intégral et probabilités Frédéric Testard Université de La ochelle

2

3 Agrégation externe - Calcul intégral et probabilité On donne ci-dessous le planning de la partie de l enseignement de calcul intégral et probabilités assurée par Frédéric Testard (écrit et épreuve de modélisation). Des éléments de bibliographie et des liens vers les pages de ce cours sont également intégrés à ce planning Préparation à l écrit (calcul intégral et probabilités) - Calendrier indicatif Semaine 36 - Mesures et calcul intégral abstrait. Espaces mesurables, tribus. Mesures positives σ-finies, mesures de probabilité. Mesure de Lebesgue sur n. Fonctions mesurables et variables aléatoires. Mesure image d une mesure par une application mesurable, application aux probabilités. Exemples de lois de probabilité : loi binomiale, loi de Poisson, loi uniforme, loi normale, loi exponentielle. Intégrale des fonctions mesurables positives, théorème de convergence monotone. Fonctions intégrables, théorème de convergence dominée. Continuité et dérivabilité d une fonction définie par une intégrale. Espérance, variance d une variable aléatoire à valeurs réelles ou complexes. Semaine 37 - Espaces L p, intégrale de Lebesgue. Espaces L p (1 p ). Intégrales semi-convergentes des fonctions d une variable. Théorème de Fubini. Changement de variables dans une intégrale multiple. Calculs d aires de domaines plans et de volumes. Semaine 38 - Indépendance de variables aléatoires. Familles d événements, de tribus ou de variables indépendantes. Caractérisation intégrale de l indépendance. Loi de la somme de deux variables indépendantes : convolution de lois. Conditionnement. Semaine 39 - Transformée de Fourier et convolution. Transformée de Fourier d une fonction intégrable sur n. Lemme de iemann-lebesgue. Convolution. Propriétés, identités approximatives. Transformée de Fourier d un produit de convolution. Formule d inversion. Théorie L 2. Formule de Plancherel. Fonction caractéristique d une variable aléatoire. Semaine 40 - Séries de Fourier. 3

4 4 - Agrégation externe - Calcul intégral et probabilité Séries de Fourier des fonctions localement intégrables périodiques d une variable réelle. Lemme de iemann- Lebesgue. Produit de convolution de fonctions périodiques. Théorèmes de Dirichlet et de Fejer. Théorie L 2 : convergence en moyenne quadratique, formule de Parseval ; Applications des séries et de la transformée de Fourier à des problèmes d équations aux dérivées partielles et d équations intégrales. Commentaire La partie : Convergence de suites de variables aléatoires : en probabilité, en moyenne d ordre 1 ou 2 (id est : dans L 1 ou dans L 2 ), en loi. Loi faible des grands nombres. Théorème de la limite centrale sera traitée par Jean-Jacques PAT (intégrée à la préparation à l épreuve orale de modélisation). On trouvera dans ce document des références au contenu de cette partie dans les chapitres 5 et 6, ainsi qu au théorème Préparation à l oral (épreuve de modélisation) - Calendrier indicatif Semaine 36 (3 heures) - Modèles (resp. F. Testard) Utilisation de lois usuelles pour modéliser certains phénomènes aléatoires ([FEL1, chapitres VI et VII]) Exemples : processus de comptage, temps d attente ou durée de vie, erreurs de mesure, taille d une population, sondages. Semaines 37 et 38 - Convergence (resp. F. Testard) Convergence presque sûre ([TOU, page 10]). Lemme de Borel-Cantelli. Loi forte des grands nombres ([FEL1, chapitre 10, page 243], [TOU, chapitre 1, page 9 et chapitre 3, page 59]). Fonctions de répartition empirique et test de Kolmogorov-Smirnov ([TOU, chapitre 8, page 145]). Semaines 38 et 39 - Conditionnement (resp. F. Testard) Semaines 40 et 42 - Calcul d intervalles de confiance (resp. F. Testard) Intervalle de confiance ([TOU, chapitre 5, page 87]) pour un paramètre de loi binomiale ([TOU, page 94]) et pour une moyenne de variables aléatoires gaussiennes indépendantes ([TOU, page 90]). Méthode de Monte-Carlo et calcul d intervalles de confiance : exemples de calculs d intégrales multidimensionnelles ([TOU, chapitre 4, page 78] et [BOU, page 46]). Semaine 42 - Simulation (resp. F. Testard) Algorithmes de simulation de variables aléatoires à partir de générateurs pseudo-aléatoires uniformes. Semaines?? - Modèle gaussien (resp. J.J. Prat) Vecteurs gaussiens, théorème central-limite vectoriel. Test du χ 2. Modèles linéaires gaussiens, méthode des moindres carrés. Semaines?? (resp. J.J. Prat) Espérances conditionnelles. Chaînes de Markov. Fonctions génératrices. Martingales à temps discret, théorèmes de convergence des martingales. Commentaire La partie du programme commun aux options A, B et C consacrée aux probabilités et statistiques sera intégrée aux enseignements mentionnés ci-dessus.

5 Eléments bibliographiques Eléments bibliographiques [FEL1] An introduction to probability theory and its applications, tome 1, William FELLE, John Wiley and sons, 1950 [TOU] Agrégation de mathématiques - Thèmes de probabilités et statistiques, Paul S. TOULOUSE, Dunod, 1999 [BOU] Numerical methods for stochastic processes, Nicolas BOULEAU et Dominique LEPINGLE, John Wiley and sons, 1994 [KA] A first course in stochastic processes, second edition, Samuel KALIN et Howard M. TAYLO, Academic Press, 1975

6

7 Chapitre I Mesure et probabilité Bibliographie du chapitre 1 [BIL] - Billingsley Patrick, Probability and measure, third edition, John Wiley and Sons, Un livre en anglais présentant dans un ordre quelque peu inhabituel les faits essentiels de la théorie de la mesure - et des probabilités. On s intéressera notamment dans le cadre de cette partie du cours aux chapitres 2 et 3. [MON] - Monier Jean-Marie, Analyse, tome 4 : cours et 500 exercices corrigés, Dunod, Un livre de niveau Mathématiques Spéciales, avec de nombreux exercices utilisant des propriétés de l intégrale à la Lebesgue (convergence dominée, monotone, etc). On se concentrera notamment sur le paragraphe 4.1 du chapitre 4. [MONA] - Monasse Denis, Mathématiques, cours complet. Prépa MP et MP *, Vuibert Supérieur, Le paragraphe 10.3 du chapitre 10 présente un certain nombre de résultats importants sur les intégrales dépendant d un paramètre (aussi appelées fonctions définies par une intégrale ). [UD] - udin Walter, Analyse réelle et complexe, 3ème édition, Dunod Editions, La première partie du livre (chapitres 1 à 3) traite de l intégration dite abstraite, et en particulier de l intégrale de Lebesque et de ses propriétés. De nombreux exercices, en particulier au chapitre Espaces mesurables, tribus Soit E un ensemble. Avant de définir une mesure sur E, nous devons nous intéresser à la famille des sousensembles de E que nous souhaitons mesurer. Ces ensembles seront appelés ensembles mesurables, et la famille M formée par les ensembles mesurables doit vérifier certaines propriétés : (i) L ensemble E entier appartient à M. (ii) Si une partie A de E appartient à M, son complémentaire A C aussi. (iii) Toute réunion finie ou dénombrable d éléments de M appartient à M. Définition Lorsqu une famille M de parties d un ensemble E vérifie les propriétés (i) à (iii), on dit que cette famille est une tribu, ou que c est une σ-algèbre. Une famille vérifiant (i), (ii) et (iv) : (iv) Toute réunion finie d éléments de M appartient à M. est appelée une algèbre. 7

8 8 - Mesure et probabilité emarque Il résulte de (i) et (ii) que la partie vide est elle aussi mesurable (comme complémentaire de E), et que toute intersection finie ou dénombrable de parties mesurables est elle aussi mesurable : pour cela on utilise l égalité ensembliste ( + + ) C A i = i=1 i=1 A C i Définition On appelle espace mesurable tout couple (E, M) formé par un ensemble E et par une tribu M de parties de E. Exemple L exemple le plus simple de tribu est celui formé par toutes les parties de E. Lorsque l ensemble E est fini ou dénombrable, c est en général la tribu que l on choisira sur E. Dans le cas où, par exemple, E =, ce n est pas en revanche un très bon choix. En effet, notre objectif étant, une fois que l on s est donné la famille des ensembles mesurables, de les mesurer effectivement (au moyen d une mesure : voir la définition au paragraphe suivant), on peut démontrer qu il existe des impossibilités théoriques, pour une mesure généralisant raisonnablement la notion de longueur, au fait que tout ensemble soit mesurable : on fait ceci en construisant un ensemble qui, s il était mesurable, ne pourrait pas avoir pour mesure 0, mais ne pourrait pas non plus avoir pour mesure un nombre strictement positif. Cette obstruction théorique fait que la tribu que l on considère sur est la suivante. Définition On appelle tribu borélienne sur la plus petite tribu contenant tous les intervalles ouverts de. Lorsqu une partie de appartient à la tribu borélienne, on dit que cette partie est un borélien. Nous pouvons faire quelques remarques sur cette tribu. Elle contient les intervalles du type ], a[, donc aussi leurs complémentaires [a, + [. Elle contient de même tous les intervalles ], a]. Comme elle est stable par intersection, elle contient donc aussi les singletons {a}. Elle est aussi stable par réunion dénombrable et contient par conséquent également les ensembles dénombrables (qui sont réunions dénombrables de leurs éléments, c est-à-dire de singletons). Par exemple, l ensemble des nombres rationnels appartient à la tribu borélienne. Nous énoncerons plus loin un théorème affirmant qu il existe une mesure généralisant la longueur et définie sur tous les boréliens (cette mesure sera appelée la mesure de Lebesgue). De manière générale, nous serons souvent conduits à considérer la tribu engendrée par une certaine famille de parties de Ω, ce qui motive la définition et notation suivante. Définition Si A est une partie de P(Ω), on appelle tribu engendrée par A, et on note σ(a) la plus petite tribu contenant A. Cette tribu existe : c est l intersection de toutes les tribus contenant A (intersection qui a un sens puisqu il existe au moins une telle tribu : l ensemble P(Ω) lui-même) Mesures Définition Soit E un ensemble muni d une tribu M. On dit que λ est une mesure positive sur (E, M) si λ(m) est défini pour tout M M et possède les propriétés suivantes : (a) M M, 0 λ(m) + (b) λ( ) = 0

9 Mesure et probabilité 9 - (c) Pour toute famille dénombrable (ou finie) M i d éléments de M deux à deux disjoints λ( M i ) = λ(m i ) i 1 i 1 En pratique, le mot positive (qui fait référence à la propriété (a) de la définition) sera systématiquement omis, dans la mesure où nous ne considèrerons que des mesures positives. Lorsqu un ensemble E est muni d une tribu M et d une mesure λ comme dans la définition, on dit que (E, M, λ) est un espace mesuré. Lorsqu il n y a aucune ambiguïté possible quant à la tribu et à la mesure considérées, on dit plus simplement que E est un espace mesuré. Le cas particulier où m(e) = 1 est suffisamment important pour représenter une branche entière des mathématiques, et motive la définition suivante. Définition Soit (E, M, P ) un espace mesurable. Si la mesure P vérifie la propriété P (E) = 1, on dit que P est une mesure de probabilité. On dit alors que (E, M, P ) est un espace probabilisé, et les éléments de la tribu M sont appelés des événements. En général, et contrairement au cas des mesures de probabilité, la mesure totale m(e) n est pas finie (penser à la longueur de, ou au nombre d éléments de N par exemple). En pratique, la théorie la plus riche peut être développée dans le cas où l espace E est réunion dénombrable de parties de mesure finie, ce qui motive la définition suivante. Définition Soit (E, M, m) un espace mesuré. On dit que m est une mesure σ-finie s il existe une famille dénombrable d éléments E n de M telle que : (i) E = + E n n=0 (ii) n N, m(e n ) < +. L exemple le plus simple de mesure est celui fourni par la mesure de comptage : on considère un ensemble E, fini ou non, on choisit pour tribu l ensemble de toutes les parties de E et on définit λ par λ(m) = Card M Le mesure λ est σ-fnie si et seulement si l ensemble E est fini ou dénombrable. On obtient une autre mesure facile à construire et d emploi courant de la manière suivante. On se donne une tribu sur E et on privilégie un élément a E. On pose alors { 1 si a M δ a (M) = 0 sinon Il est facile de voir que δ a est une mesure de probabilité. On l appelle mesure de Dirac au point a. Il est donc facile de définir des mesures liées à l idée de comptage. En revanche, prouver l existence d une mesure généralisant la longueur est un théorème assez compliqué, que nous admettrons ici (voir le théorème pour une preuve dans une situation plus générale ; on appliquera ce théorème à l algèbre A formée par les réunions finies d intervalles de ) : Théorème Il existe une unique mesure λ définie sur la tribu borélienne de et vérifiant les propriétés suivantes : (a) Pour tout intervalle borné ]a, b[, λ(]a, b[) = b a (id est : λ étend aux boréliens la longueur usuelle). (b) Pour tout borélien M, pour tout réel x, λ(m + x) = λ(m) (id est : la mesure λ est invariante par translation).

10 10 - Mesure et probabilité Définition La mesure λ définie au théorème précédent est appelée mesure de Lebesgue sur. On remarquera que la mesure de Lebesgue est σ-finie, puisque est la réunion dénombrable des intervalles [ n, n] dont la mesure est finie. La construction de la mesure de Lebesgue sur n (grâce à la notion de mesure-produit) sera brièvement décrite à la définition Avant de définir l intégrale de Lebesgue, nous donnons une propriété importante des mesures positives : Théorème Si (E, M, λ) est un ensemble mesuré, l application M λ(m) est croissante sur M : M N = λ(m) λ(n) Démonstration Soit M et N des parties mesurables telles que M N. On a alors N = M (N M C ) : il s agit d une réunion disjointe d ensembles mesurables et par conséquent λ(n) = λ(m) + λ(n M C ) λ(m) On peut également noter que l hypothèse λ( ) = 0 permet de généraliser la formule sur la mesure des réunions dénombrables disjointes aux réunions finies en posant M i = pour i n Intégrale des fonctions étagées mesurables positives De même que l on commençait la construction de l intégrale de iemann en définissant l intégrale des fonctions en escalier, on construit l intégrale de Lebesgue en commençant par définir l intégrale sur une classe de fonctions assez simples : les fonctions étagées mesurables positives. Dans toute la suite, l ensemble E est doté d une tribu M et d une mesure λ. Définition Soit f : E + {+ }. On dit que f est étagée mesurable s il existe une famille finie de parties mesurables C i telles que (a) Les C i forment une partition de E (id est : ils sont deux à deux disjoints et ont pour réunion E). (b) La restriction de f à chaque C i est constante. Par exemple, pour tout n, l application f définie sur par f : x max(0, min(e(x), n)) (où E(x) désigne la partie entière de x) est positive (à cause du max), et étagée mesurable : si l on prend C 1 = ], 1[, pour 2 i n 1, C i = [i 1, i[ et C n = [n, + [, les C i sont boréliens, forment une partition de l ensemble de départ et la restriction de f à C i est égale à la constante i 1. On peut noter que lorsque l on munit l ensemble N de la tribu formée par toutes les parties, toute suite (u n ) à valeurs positives presque nulle (c est-à-dire telle que n = 0 sauf pour un ensemble fini de valeurs de n) peut être considérée comme une fonction étagée mesurable positive n u n. En effet, l ensemble de départ N est la réunion dénombrable disjointe des singletons {0}, {1}, et il est clair que la restriction d une fonction à un singleton est toujours constante... Enfin, on obtient un troisième exemple de fonction étagée mesurable positive en considérant une variable aléatoire X ne prenant qu un nombre fini de valeurs (comme le nombre de succés lors de la répétition d une suite de N expériences aléatoires) Définition Soit f : E [0, + ] une fonction étagée mesurable positive, C i une partition de E associée à f comme dans la définition et f i la valeur (finie ou infinie) de la restriction de f à C i. On appelle intégrale de f, et on note f dλ E

11 Mesure et probabilité 11 - le nombre (fini ou infini) f dλ = + E i=1 f i λ(c i ) Dans la somme infinie qui apparaît à la fin de cette définition, on fait les conventions suivantes relativement à l infini : un produit où l un des facteurs vaut 0 est nul, même si l autre facteur est égal à +. Si l un est non nul et l autre infini, le produit est infini. Si l un des termes de la somme est égal à +, la somme est infinie. Si tous les termes de la somme sont finis, la somme est égale à + si la série diverge (cf. la théorie des séries numériques), à la somme de cette série si elle converge. Nous admettrons, relativement à cette arithmétique généralisée, la propriété suivante, qui constitue un cas particulier simple du théorème de Fubini-Tonnelli (et dont on notera le caractère évident lorsque la famille de nombres considérés est finie) : Théorème Soit (u n,m ) n 1,m 1 une famille de nombres positifs finis ou infinis. Alors ( + + ) ( + + ) u n,m = u n,m n=1 m=1 emarque Il est important de noter un point à propos de la définition de l intégrale donnée ci-dessus : les C i associés à la fonction f ne sont pas vraiment définis : en particulier, si l on casse un C i en deux (les deux morceaux étant encore supposés mesurables), la nouvelle famille de parties C i ainsi obtenue convient encore (parce que l on n a jamais exigé dans la définition des fonctions étagées que les f i soient deux à deux distincts) et la formule donnant l intégrale de f n est plus la même. Il est facile de voir que pour une modification si simple, la nouvelle valeur de f est égale à l ancienne. On montre plus généralement, E en utilisant des méthodes de raffinement de partitions, que la valeur de l intégrale est indépendante de la décomposition de E choisie. L idée est que l intégrale ne change pas lorsque l on raffine les C i (c est-à-dire lorsqu on les casse en réunion finie ou dénombrable de morceaux) et que, à partir de deux partitions de E, on peut toujours trouver un raffinement commun. Définition m=1 Une fonction étagée mesurable positive est dite intégrable si f dλ < +. E 1. 4 Fonctions mesurables positives et intégrale n=1 Nous venons de modifier la classe des fonctions que l on sait intégrer sans réfléchir en l étendant des fonctions en escalier aux fonctions étagées. En gros, ceci règle les problèmes liées aux domaines de définition des fonctions. L autre saut va consister à ne plus définir l intégrale par une procédure d encadrement (les sommes de Darboux inférieure et supérieure) mais par un passage à la limite croissant. Ceci permettra d englober dans une même théorie ce qui relevait de l intégrale de iemann et des intégrales impropres. Pour des raisons techniques, on montre que pour approcher l intégrale d une fonction non étagée, il faut savoir calculer la mesure d ensembles tels que {x Ω f(x) a}. Ceci motive la définition suivante (que l on donne en toute généralité, c est-à-dire même pour des fonctions prenant leurs valeurs dans un ensemble autre que ) : Définition Si E et F sont deux espaces mesurables munis respectivement des tribus M et N, on dit qu une fonction f : E F est mesurable si pour tout N N, l ensemble f 1 (N) : = {x E f(x) N}

12 12 - Mesure et probabilité appartient à M. En particulier, lorsque F est l ensemble muni de la tribu borélienne, on trouve en choisissant les boréliens particuliers [a, b] le fait que les ensembles tels que {x E a f(x) b} sont mesurables. On peut démontrer qu une fonction f à valeurs réelles est mesurable si et seulement si tous les ensembles f 1 ([a, b]) sont mesurables. Il suffit même que tous les ensembles f 1 ([a, + [) le soient. L intérêt de ce genre de critères est pratique : il est plus simple, lorsqu une fonction est définie par des formules, de vérifier la mesurabilité d un ensemble tel que f 1 ([a, + [) que celle de f 1 (N) pour un borélien général N. Nous indiquons maintenant quelques propriétés des fonctions mesurables : Propriété (a) Toute fonction continue de dans est mesurable. (b) Si f et g sont des fonctions mesurables à valeurs réelles, leur somme, leur produit, leur quotient (avec la convention a/0 = + ) est mesurable. (c) Si f est mesurable de E dans et si g est continue de dans, g f est mesurable de E dans. Définition Si f est une fonction mesurable positive, l intégrale sur E de f est égale à f dλ = sup ϕ dλ ϕ E où le sup est pris sur toutes les fonctions ϕ étagées positives mesurables vérifiant ϕ f. On remarquera l analogie entre cette définition et celle de l intégrale de iemann : on a juste remplacé la notion trop restrictive de fonction en escaliers par celle de fonctions étagée. Propriété L intégrale est croissante : si f et g sont positives et mesurables sur E, et si f g sur E, alors E f dλ E g dλ. En effet, toute fonction étagée mesurable minorant f minore aussi g. Dans la définition de l intégrale, le sup calculé pour g porte donc sur un ensemble de fonctions plus grand, donc il est plus grand. Définition Une fonction mesurable positive est dite intégrable si f dλ < +. E La propriété admet le corollaire suivant : Théorème Si f et g sont des fonctions positives mesurables, si f g et si g est intégrable, f est intégrable. On notera l analogie entre ce théorème et les résultats de comparaison sur l intégrale impropre des fonctions positives. On démontre également la propriété de linéarité suivante (dont on trouvera la démonstration dans [UD, proposition 1.25, pages 19 et 20]) : Théorème Si f et g sont deux fonctions mesurables positives, (f + g) dλ = f dλ + E E En particulier, si f et g sont intégrables, f + g l est aussi (il y a même équivalence vu la propriété 1.4.4). E E g dλ

13 Mesure et probabilité Les théorèmes-limite Nous avons vu au paragraphe précédent quelques propriétés de stabilité de la notion de mesurabilité (stabilité par addition, par multiplication, par combinaison linéaire, par composition avec une fonction continue). Nous avons vu également que l intégrale d une somme (ou d une combinaison linéaire à coefficients positifs : cette contrainte sur le signe des coefficients sera supprimée au paragraphe suivant) est la somme des intégrales (ou la combinaison linéaire correspondante des intégrales). Cette propriété généralise les propriétés algébriques connues de l intégrale de iemann. Nous consacrons le présent paragraphe aux propriétés asymptotiques de l intégrale de Lebesgue des fonctions positives, et nous allons voir que cette fois, les nouvelles propriétés ne sont plus des généralisations mais plutôt des extensions des propriétés analogues pour l intégrale de iemann. Cependant, avant d énoncer les théorèmes qui suivent, nous nous plaçons pour simplifier dans un cadre un peu plus général, qui est celui des mesures et des tribus complètes. Théorème Pour tout espace mesuré, il existe une tribu et une mesure complétée sur E telles que : - Les nouveaux ensembles mesurables sont exactement les réunions A N des anciens ensembles mesurables A et des anciens ensembles de mesure nulle N. (On dit que N est de mesure nulle s il existe une partie mesurable N telle que λ(n ) = 0 et N N : attention, rien ne garantit dans cette définition que N lui-même soit mesurable). - La nouvelle mesure d un nouvel ensemble mesurable A N est l ancienne mesure de l ancien ensemble mesurable A. Avec un abus d écriture, on note donc λ(a N) = λ(a). L intérêt d un tel artifice est de permettre d énoncer des règles telles que : si deux fonctions f et g coïncident sauf sur un ensemble de mesure nulle et si l une est mesurable, l autre l est aussi. Ce genre de simplification nous sera utile dans l énoncé et la preuve des théorèmes de convergence d intégrale. Théorème Soit f n : E [0, + ] une suite de fonctions mesurables positives. Alors sup f n et inf f n sont des fonctions mesurables. Démonstration Nous avons vu qu il suffit de prouver la mesurabilité des ensembles E a : = {x E sup f n (x) > a} (pour 0 a + ). Pour a = +, l ensemble E a est vide donc mesurable. Sinon, il est équivalent de dire que la borne supérieure d une partie est strictement plus grande que a ou de dire qu il existe un élément de cette partie strictement supérieur à a. Donc x appartient à E a si et seulement si il existe n tel que f n (x) > a. En d autres termes, E a est la réunion des ensembles Ea n = {x E f n (x) > a}. Ces ensembles sont mesurables par hypothèse, donc E a également. Corollaire Si les f n sont mesurables et positives, lim sup f n et lim inf f n le sont également. Démonstration C est clair puisque, par exemple, lim sup f n = inf n 0 (sup m n f m ). Une double application du théorème précédent permet alors de conclure. Corollaire Si les f n sont mesurables et positives, et si la suite f n converge simplement sur E, alors lim f n est mesurable. Démonstration En effet, lorsqu une suite converge, sa limite et sa limite supérieure (par exemple) sont confondues, et donc lim f n = lim sup f n est mesurable d après ce qui précède. emarque Si la suite (f n ) ne converge pas simplement sur E, il peut néanmoins arriver qu elle converge pour certaines valeurs de x. Si l on ne s intéresse qu aux valeurs pour lesquelles la limite de f n existe et est finie, on constate qu il s agit de l ensemble {x E lim sup f n (x) = lim inf f n (x)} {x E lim sup f n (x) < + }

14 14 - Mesure et probabilité qui est mesurable d après le corollaire Ces premiers résultats prouvent donc que toute limite simple de fonctions mesurables positives est mesurable. Dans le cas de l intégrale de iemann, on a besoin en général d une hypothèse d uniformité (ou de croissance, ce qui dans le cas des intervalles fermés bornés implique l uniformité) pour établir pareil résultat. Les trois théorèmes suivants concernent, eux, la valeur de l intégrale. A eux seuls, ces théorèmes justifient l intérêt de l introduction de l intégrale de Lebesgue. Théorème Théorème de convergence monotone Soit f n une suite de fonctions mesurables positives. On suppose qu il existe une fonction f et un ensemble de mesure nulle A tel que, si X / A, la suite (f n (x)) n 1 converge en croissant vers f(x). Alors la fonction f est mesurable et E f dλ = lim f n dλ n + E Nous admettrons ce théorème (voir [UD, théorème 1.26, page 20] pour une démonstration). On notera que f est mesurable car elle coïncide avec la fonction mesurable lim sup f n sur le complémentaire de l ensemble de mesure nulle A : dans un espace mesuré complet, une fonction presque partout égale à une fonction mesurable est mesurable, comme nous l avons indiqué ci-dessus. Théorème Lemme de Fatou Soit (f n ) une suite de fonctions mesurables positives. Alors lim inf f n dλ lim inf ( f n dλ ) E E On notera en particulier que si les f n convergent simplement et ont, par exemple, toutes une intégrale inférieure ou égale à 1, l intégrale de la limite est inférieure ou égale à 1 : à la limite, les intégrales ne peuvent que diminuer. Démonstration C est une conséquence simple du théorème de convergence monotone et de la croissance de l intégrale des fonctions positives : pour tout n, pour tout n n, inf m n f m f n, donc inf f m dλ f n dλ m n E (croissance de l intégrale). Le membre de gauche est un minorant du membre de droite, quel que soit la valeur de n : c est donc aussi un minorant de la borne inférieure du membre de droite quand n prend toutes les valeurs supérieures ou égales à n : n( inf f m dλ inf f n E m n n dλ ) E On peut maintenant majorer le membre de droite par le sup de toutes ses valeurs lorsque n décrit N. ( E inf f m dλ sup m n n 0 E inf n n( E f n dλ )) Le membre de droite est maintenant égal à lim sup E f n dλ. Quant au membre de gauche, la fonction à intégrer g n = inf m n f m est fonction croissante de n (quand n augmente, la borne inférieure est calculée sur un ensemble de valeurs de plus en plus petit), donc d après le théorème de convergence monotone sup g n dλ = lim g n dλ = lim g n dλ E E (la première égalité tient au fait que pour une suite croissante, le sup est égal à la limite). Enfin, puisque toutes les quantités E g n dλ sont majorées par lim sup E f n (d après la première partie de la démonstration), cette majoration reste vraie par passage à la limite : sup g n dλ lim sup f n dλ n 0 d où la conclusion puisque sup g n = lim sup f n. E E E

15 Mesure et probabilité 15 - Théorème Théorème de convergence dominée de Lebesgue : cas particulier des fonctions positives Soit f n une suite de fonctions mesurables positives sur E. On suppose qu il existe une fonction positive g, mesurable et intégrable, telle que n N, x E, f n (x) g(x) et on suppose que la suite f n converge presque partout vers une fonction f. Alors f n dλ = f dλ lim n + Démonstration D après le lemme de Fatou, on a la première inégalité f dλ lim inf f n dλ E E Vu les hypothèses, la fonction g f n est positive et tend presque partout vers g f. Une nouvelle application du lemme de Fatou entraîne donc l inégalité (g f) dλ lim inf (g f n ) dλ E On vérifie facilement que lim inf A u n = A lim sup u n, et on obtient donc g dλ f dλ g dλ lim sup f n dλ d où l inégalité E E E lim sup f n dλ f dλ lim inf f n dλ E E E qui implique le résultat (lim sup u n lim inf u n implique que la suite u n converge) Extension aux fonctions de signe non constant E E E E Nous avons jusqu ici défini l intégrale des fonctions étagées positives mesurable, puis celle des fonctions positives mesurables. Nous étendons maintenant ces définitions aux fonctions mesurables quelconques : si f : E est une fonction mesurable, elle s écrit f = f + f où f + et f sont les parties dites positive et négative de f définies par : { f + (x) = f(x) si f(x) 0 0 sinon et f (x) = { f(x) si f(x) 0 0 sinon En particulier, les deux fonctions f + et f sont positives et mesurables. On dit que la fonction f est intégrable si ses parties positive et négative le sont. Il est équivalent de dire que f est intégrable : en effet, on a 0 f + f et 0 f f, donc si f est intégrable, il en est de même de f + et f d après la propriété de monotonie éciproquement, si f + et f sont intégrables, leur somme l est aussi : or, cette somme est égale à f. Ce critère permet en particulier d obtenir la règle de comparaison suivante : si f et g sont mesurables, si f g et si g est intégrable, alors f est intégrable. emarque Dans la théorie de l intégrale de Lebesgue, il n y a donc que des intégrales absolument convergentes, pour reprendre une expression employée lors de l étude des intégrales impropres. Il n y a rien d équivalent, dans cette théorie, à la notion d intégrale semi-convergente. Lorsqu une fonction mesurable f est intégrable, on définit son intégrale par f dλ = f + dλ f dλ E E E

16 16 - Mesure et probabilité On prouve alors que cette intégrale vérifie les propriétés de linéarité attendues : si f et g sont intégrables et si λ et µ sont des réels, λf + µg est intégrable et E (λf + µg) dλ = λ f dλ + µ g dλ E E On peut maintenant énoncer le théorème de convergence dominée dans sa forme générale. Théorème Théorème de convergence dominée de Lebesgue : cas général Soit f n une suite de fonctions mesurables sur E. On suppose qu il existe une fonction positive g, mesurable et intégrable, telle que n N, x E, f n (x) g(x) et on suppose que la suite f n converge presque partout vers une fonction f. Alors f n f dλ = 0 et en particulier lim n + E lim f n dλ = f dλ n + E E Démonstration Vu les hypothèses, la fonction 2g f n f est intégrable et positive ; en outre elle tend vers 2g presque partout. D après le lemme de Fatou, on a donc l inégalité 2g dλ lim inf (2g f n f ) dλ E On vérifie facilement que lim inf A u n = A lim sup u n, et on obtient donc 2g dλ 2g dλ lim sup f n f dλ d où l inégalité qui implique le résultat. E E E E lim sup f n f dλ 0 E 1. 7 Continuité et dérivabilité d une fonction définie par une intégrale Nous présentons dans cette partie deux paires de théorèmes bien pratiques dans les études de fonctions définies par une intégrale : la première concerne la continuité de ces fonctions, la seconde leur dérivablité. En pratique, le premier théorème de chaque paire s applique aux fonctions définies par une intégrale de iemann ordinaire, le second aux fonctions définies par une intégrale impropre. Ces seconds théorèmes permettent souvent de conclure plus rapidement qu en utilisant les théorèmes liés à la convergence uniforme (parce qu ils nécessitent moins de calculs de majoration). Théorème Continuité d une fonction définie par une intégrale de iemann Soit I un intervalle de, [a, b] un segment de et f : I [a, b] une fonction continue. Pour tout x I, on pose La fonction F est continue sur I. F (x) = b a f(x, t) dt Le résultat reste vrai si on remplace I par n importe quel espace métrique, et l espace d arrivée de f par n importe quel espace vectoriel normé complet. Démonstration Voir [MONA, chap. 10, 3., lemme et théorèmes , pages ]. Exemple Si b > a > 0, la fonction Γ a,b : x b a tx 1 e t dt est continue sur.

17 Mesure et probabilité 17 - Théorème Continuité d une fonction définie par une intégrale Soit I et J deux intervalles de, f : I J une application. On suppose que pour tout x I, l application t f(x, t) est intégrable sur J, et que pour tout t J, l application x f(x, t) est continue sur I. On suppose de plus qu il existe une fonction g intégrable sur J telle que x I, pour presque tout t J, f(x, t) g(t) (hypothèse de domination). Alors l application est continue sur I. F : x b a f(x, t) dt Démonstration Voir [MONA, chap. 10, 3., théorème , page 298]. Théorème Dérivabilité d une fonction définie par une intégrale de iemann Soit I un intervalle de et [a, b] un segment de. Soit f : I [a, b]. On suppose que, pour x fixé, la fonction t f(x, t) est continue par morceaux sur [a, b], que f admet en tout point (x, t) de I [a, b] une dérivée partielle f par rapport à x et que l application x (x, t) f (x, t) est continue sur I [a, b]. Alors l application x est de classe C 1 sur I, de dérivée F : x F : x b a b a f(x, t) dt f (x, t) dt x Démonstration Voir [MONA, chap. 10, 3., théorème , pages ]. Exemple La fonction Γ a,b définie ci-dessus est de classe C 1 sur, de dérivée Γ a,b(x) = b a t x 1 ln(t)e t dt Vérifier ce résultat à titre d exercice, et montrer plus généralement que Γ a,b est de classe C sur (associer dans une même récurrence la preuve de l existence de Γ (n) a,b et la formule exprimant cette dérivée [pour pouvoir prouver l hérédité]). Théorème Dérivabilité d une fonction définie par une intégrale Soit I et J deux intervalles de, f : I J une application. On suppose que pour tout x I, l application t f(x, t) est intégrable sur J, que pour tout x I, pour presque tout t J, f admet en (x, t) une dérivée partielle f par rapport à x et que, pour tout x x I, l application t f (x, t) est intégrable sur J. On suppose de plus qu il existe une fonction g x intégrable sur J telle que x I, pour presque tout t J, f (x, t) g(t) x (hypothèse de domination). Alors l application F : x b a f(x, t) dt

18 18 - Mesure et probabilité est dérivable sur I, de dérivée F : x b a f (x, t) dt x Démonstration Voir [MONA, chap. 10, 3., théorème , pages ]. emarque Pour appliquer les théorèmes et 1.7.4, il suffit de démontrer l hypothèse de domination en se limitant à x K, où K est un compact de I (car si f est continue sur tout compact de I, elle est continue sur I et de même pour la dérivabilité). Le fait d interdire à x de trop se rapprocher des bornes d un intervalle ouvert permet souvent d établir des majorations qui seraient fausses sans cette contrainte. On verra à l exemple ci-dessous une application de ce résultat. Exemple Pour tout x > 0, l intégrale Γ(x) = + t x 1 e t dt existe (convergence en 0 car x 1 > 1, 0 en l infini car t 2 t x 1 e t 0 (par exemple)). Montrons que cette fonction est continue et dérivable sur +. D après la remarque ci-dessus, il suffit de prouver qu elle l est sur tout segment de la forme [a, b], avec 0 < a < 1 < b. Posons ϕ(t) = { e t t a 1 si t < 1 e t t b 1 si t 1 On vérifie facilement que ϕ est intégrable et domine f(x, t) pour tout x [a, b], pour tout t > 0. D où la continuité de Γ. On vérifie de même que la fonction ϕ 1 définie par { e ϕ 1 (t) = t ln t t a 1 si t < 1 e t ln t t b 1 si t 1 domine f (x, t) pour tout x [a, b], pour tout t > 0. D où la dérivabilité de Γ. x Le théorème de dérivabilité ci-dessus admet une variante complexe que nous énonçons maintenant, et qui s applique aux fonctions holomorphes. Théorème Fonctions holomorphes définies par une intégrale Soit I un intervalle de et U un ouvert de C. Soit ϕ : I U C une fonction continue. On suppose que, pour tout t I, la fonction z ϕ(t, z) est holomorphe sur U et que la fonction (t, z) ϕ (t, z) z est continue sur I U. On suppose enfin qu il existe deux fonctions f et g continues sur I, intégrables sur I telles que (t, z) I U, ϕ(t, z) f(t), ϕ (t, z) z g(t) Alors l intégrale Φ(z) = b a ϕ(t, z) dt est absolument convergente pour tout z U. La fonction Φ ainsi définie est holomorphe sur U et sa dérivée est égale à l intégrale absolument convergente b Φ ϕ (z) = (t, z) dt z a Démonstration A faire en exercice. Exemple En s inspirant du travail fait ci-dessus pour la dérivabilité, on prouvera que la formule Γ(z) = + 0 t z 1 e t dt définit une fonction holomorphe sur le demi-plan ouvert U = {z C e (z) > 0}. On prouve en intégrant par parties que cette fonction vérifie sur U l identité Γ(z + 1) = zγ(z), ce qui permet de proche en proche de la prolonger en une fonction méromorphe sur C admettant des pôles aux entiers négatifs 0, 1, 2,.

19 Mesure et probabilité Les espaces L p Nous nous intéressons dans cette partie aux fonctions mesurables f dont la puissance pème est intégrable (cas où 1 p < + ) ou qui sont bornées par une constante sauf éventuellement sur un ensemble de mesure nulle (cas où p = + ). Nous définissons l espace L p comme l ensemble des classes de telles fonctions modulo l égalité presque partout, et montrons que cet espace est naturellement muni d une structure d espace vectoriel normé complet Définitions et inégalités Dans toute la suite, nous nous placerons dans le contexte suivant : (Ω, A, m) est un espace mesuré σ-fini, c est-à-dire tel que Ω soit réunion dénombrable d une famille de parties mesurables de mesure finie. Si f et g sont deux fonctions mesurables définies sur Ω à valeurs réelles, on dira que f et g sont équivalentes si m({x Ω f(x) g(x)}) = 0. La relation ainsi définie est effectivement une relation d équivalence. Si 1 p < + et si une fonction mesurable f : Ω vérifie Ω f p < +, on dit que f est de puissance pème intégrable. C est alors aussi le cas pour toute fonction g équivalente à f. On pose alors ( ) 1/p f p = f p dm Ω On a alors g p = f p pour toute fonction g équivalente à f. S il existe A tel que m({x Ω f(x) > A} = 0, on dit que f est essentiellement bornée sur Ω par A. C est alors aussi le cas pour toute fonction g équivalente à f. Si A 0 est la borne inférieure des nombres A tels que f soit essentiellement bornée sur Ω par A, on dit que A 0 est la borne supérieure essentielle de f, et on note A 0 = f. On a alors aussi A 0 = g pour toute fonction g équivalente à f. Définition Soit p tel que 1 p < +. On désigne par L p (Ω, m) l ensemble des classes d équivalence de fonctions mesurables dont la puissance pème est intégrable. On désigne par L (Ω, m) l ensemble des classes d équivalence de fonctions mesurables essentiellement bornées sur Ω. Nous allons montrer ci-dessous que, pour 1 p, les espaces L p sont des espaces vectoriels normés pour les normes p. Nous aurons besoin au préalable de deux inégalités souvent utiles par ailleurs. appelons que deux nombres p et q strictement supérieurs à 1 sont appelés des exposants conjugués si 1 p + 1 q = 1. Théorème Inégalité de Hölder Soit p > 1 et q son exposant conjugué. Soit f et g deux fonctions mesurables positives sur Ω. Alors ( ) 1/p ( ) 1/q fg dm f p dm g q dm Ω Ω Ω En particulier, si f L p (Ω, m) et g L q (Ω, m), alors fg L 1 (Ω, m). Démonstration Nous renvoyons à [UD, théorème 3.5 pages 79 et 80] pour la démonstration de cette inégalité. Quand p = q = 2, l inégalité de Hölder s appelle inégalité de Cauchy-Schwarz. Théorème Inégalité de Minkowski Soit p 1. Soit f et g deux fonctions mesurables positives sur Ω. Alors ( 1/p ( 1/p ( ) 1/p (f + g) dm) p f dm) p + g p dm Ω Ω Ω En particulier, la somme de deux éléments de L p (Ω, m) est encore un élément de L p (Ω, m). Démonstration Nous renvoyons à [UD, théorème 3.5 pages 79 et 80] pour la démonstration de cette inégalité.

20 20 - Mesure et probabilité Théorème Pour tout p [1, + ], l espace L p (Ω, m) est un espace vectoriel normé par la norme p. Démonstration On vérifie tout d abord que la relation d équivalence d égalité presque partout est préservée par combinaison linéaire : si f 1 = f 2 sauf sur un ensemble N 1 de mesure nulle et si g 1 = g 2 sauf sur un ensemble N 2 de mesure nulle, af 1 + bg 1 = af 2 + bg 2 sauf, au pire, sur N 1 N 2 qui est encore de mesure nulle. Pour p < +, la stabilité de L p (Ω, m) par addition est une conséquence immédiate de l inégalité de Minkowski, qui implique également que p vérifie l inégalité triangulaire. Pour p = +, ces deux propriétés sont évidentes : si f et g sont majorées sauf sur N de mesure nulle, f + g l est aussi, et sa borne supérieure sur Ω \ N est majorée par la somme des bornes supérieures de f et g sur Ω \ N. La propriété λf p = λ f p pour f L p (Ω, m) est évidente. Il reste à vérifier la propriété f p = 0 = f = 0 (l implication inverse est simple, elle est démontrée à la question 3 de l exercice appelons que f = 0 veut dire que la fonction f est nulle presque partout. Soit n N et A n = {x Ω f(x) 1 n } (dont la mesure ne dépend pas du choix du représentant de f). On a 0 = f p p = f p dm = f p dm + f p dm m(a n) Ω A n A C n n p (on minore la deuxième intégrale par 0 et on minore f par 1/n dans la première). On a donc m(a n ) = 0. Comme {x Ω f(x) 0} = + A n cet ensemble est de mesure nulle (réunion dénombrable d ensembles de mesure nulle). emarque On retrouvera fréquemment en théorie des probabilités des raisonnements analogues à celui fait ci-dessus pour prouver l implication f p = 0 = f = La complétude des espaces L p Théorème Complétude des espaces L p Pour 1 p +, L p (Ω, m) est un espace de Banach. Démonstration Dans la suite nous noterons en abrégé L p pour L p (Ω, m). Soit (f n ) n une suite de Cauchy d éléments de L p. Nous allons montrer que nous pouvons extraire de (f n ) n une suite presque partout convergente vers une fonction f. Puis nous montrerons que f L p et que f n f p 0, ce qui prouvera que la suite converge vers f dans L p. Le cas p = + est le plus simple et nous le traiterons en premier. Quels que soient les entiers m et n, il existe un ensemble E m,n de mesure nulle sur le complémentaire duquel f m f n est bornée par f m f n. Soit E 0 = m,n 0 E m,n. Alors m(e 0 ) = 0 (réunion dénombrable d ensembles de mesure nulle). Sur Ω 0 = E C 0, toutes les fonctions f m f n sont majorées par f m f n. Si on modifie les f m sur l ensemble de mesure nulle E 0, on ne change pas ces fonctions dans L. Il suffit alors de poser n=1 n N, ω E 0, f n (ω) = 0 pour que la majoration f m (ω) f n (ω) f m f n soit vraie pour tout ω Ω. Puisque la suite (f n ) est de Cauchy dans L, il en résulte - après la modification des f n - qu elle est uniformément de Cauchy pour la topologie de la convergence uniforme sur Ω. Comme l espace d arrivée est complet ( ou C), elle converge donc uniformément sur Ω vers une fonction f bornée (car limite uniforme de fonctions bornées), donc appartenant à L. Enfin, dire que la convergence est uniforme sur Ω équivaut à dire que sup Ω f n f tend vers 0, et implique que f n f tend vers 0.

21 Mesure et probabilité 21 - Supposons maintenant p fini. Pour tout k, il existe n k tel que, si n n k et m n k, f m f n p < 1 2 k (définition d une suite de Cauchy). Quitte à augmenter les n k, on peut supposer la suite d entiers (n k ) k strictement croissante. Posons g 1 = f n1 et, pour tout entier k 2, g k = f nk f nk 1. Alors, pour tout k, g g k = f nk. Nous allons montrer que la suite (f nk ) k est convergente presque partout en prouvant que la série + k=1 g k est presque partout convergente. Nous utiliserons pour cela une généralisation du lemme de Borel-Cantelli (énoncé au chapitre 5 dans un contexte probabiliste mais généralisable à tout espace mesuré, au prix de modifications évidentes) : si les A k sont des parties mesurables de Ω telles que la série m(a k ) converge, l ensemble des éléments ω Ω qui appartiennent à une infinité de A k est de mesure nulle. Posons, pour tout entier k 2, A k = {ω Ω g k (ω) 1 }. On a k2 1 2 pk g p dm g p dm m(a k) Ω A k k 2p et par conséquent m(a k ) k2p 2 pk, qui est le terme général d une série convergente. Donc m(a k ) est convergente. Par conséquent, pour presque tout ω, ω n appartient qu à un nombre fini de A k et, en particulier, il existe k 0 (dépendant de ω) tel que, pour k k 0, g k (ω) < 1. Il en résulte, par comparaison, que la k2 série g k (ω) est absolument convergente, donc convergente, pour presque tout ω, ce que nous voulions démontrer. La sous-suite (f nk ) k converge donc presque sûrement vers une fonction f dont on sait qu elle est mesurable. Montrons mantenant que f L p. D après le lemme de Fatou, f p dm = lim inf f nk p dm Ω Ω lim inf f nk p dm Ω sup f n p dm n < + car toute suite de Cauchy est bornée. Donc f L p. Enfin, pour tout k k, pour tout n n k Ω f n f n k p 1 2 k d où, en appliquant de nouveau le lemme de Fatou (avec n fixé et k tendant vers l infini) f n f p dm = lim inf f n f n p dm k Ω Ω lim inf f n f n p dm k Ω sup f n f n p dm k k k Ω 1 2 kp soit : pour tout n n k, f n f p 1 2 k. Ceci prouve la convergence dans Lp de (f n ) n vers f. La démonstration faite ci-dessus prouve le corollaire intéressant suivant : Corollaire Si la suite (f n ) n converge vers f dans L p (Ω, m), elle admet une sous-suite (f nk ) k qui converge presque partout vers f.

22 22 - Mesure et probabilité Sous-espaces denses de L p (Ω) Nous finissons cette partie par l énoncé de quelques résultats de densité que nous utiliserons souvent, notamment dans le cours de probabilité et dans l étude des transformées et des séries de Fourier. Théorème Soit S l ensemble des fonctions de Ω dans mesurables et étagées (c est-à-dire ne prenant qu un nombre fini de valeurs) telles que m({x Ω s(x) 0} < (les fonctions de S sont nulles sauf sur une partie de Ω de mesure finie). Alors S est dense dans L p (Ω, m), pour tout p [1, + [. Attention, S n est pas dense dans L (Ω, m), sauf si m(ω) est finie. Par exemple, si f est la fonction constante x 1 sur muni de la mesure de Lebesgue, toute fonction ϕ de S est nulle sur une partie de de mesure strictement positive (et même infinie) et donc f ϕ 1. Démonstration On se contentera de traiter le cas où f est positive. Le cas général en résulte par combinaison linéaire. Soit donc f une fonction mesurable positive telle que Ω f p dm < +. Soit n N. On découpe l intervalle [0, n[ en n 2 intervalles disjoints I k (n) de longueur 1/n : [ k k {0,, n 2 1}, I k (n) = n, k + 1 [ n et on définit une fonction g n de la manière suivante : si f(x) I k (n), g n (x) = k/n, si f(x) n, g n (x) = 0. La fonction g n est mesurable : en effet, on peut écrire g n = n 2 1 k=0 k n 1 I k (n)(f) et on vérifie facilement que si f est mesurable et si A est un intervalle (ou plus généralement un borélien), 1 A f est mesurable. La fonction g n est étagée (elle prend au maximum n 2 valeurs). Par définition de g n, g n (x) 0 si et seulement si 1 f(x) < n. En particulier n {x g n (x) 0} A n : = {x f(x) 1 n } et l ensemble A n est de mesure finie car sinon on aurait f p dm f p dm m(a n) Ω A n n p = + On a donc bien construit une fonction g n appartenant à S. De plus, g n (x) f(x) pour tout x Ω par définition de g n. Il en résulte que, pour tout x Ω, g n (x) f(x) p f(x) p Les fonctions g n f p sont donc dominées par la fonction intégrable f p. Admettons pour l instant que la suite (g n ) n converge presque partout vers f. Alors ( g n f p ) n converge presque partout vers 0 et d après le théorème de convergence dominée, on a bien lim n c est-à-dire que la suite (g n ) n converge vers f dans L p. Ω g n f p dm = 0

23 Mesure et probabilité 23 - Il reste à prouver la convergence presque partout de (g n ) n vers f. Puisque f p est intégrable, f est finie presque partout sur Ω. Soit x Ω tel que f(x) < + et [ soit n 0 un entier tel que f(x) < n 0. Alors, pour k tout n n 0, g n (x) = k/n, où k est tel que f(x) I k (n) = n, k + 1 [. Par conséquent n d où la convergence annoncée. 0 f(x) g n (x) < 1 n emarque En examinant la démonstration de convergence presque partout ci-dessus, et en remarquant que, si f L p, lim m({x f(x) n}) = 0 n (montrer que m({x f(x) n}) f p p n p ) on pourra prouver que pour tout ε > 0, pour toute fonction f Lp, il existe une partie A(f, ε) de Ω de mesure inférieure à ε telle que, sur Ω \ A(f, ε), f soit limite uniforme de fonctions appartenant à S. Pour p < +, toute fonction de L p (Ω) est donc limite d une suite de fonctions simples d intégrale finie. Lorsque ω = (ou n ), on dispose d un autre théorème de densité. Théorème Si 1 p < + et Ω = n (n 1), l ensemble C c (Ω) des fonctions continues à support compact est dense dans L p (Ω). Nous admettrons ce théorème (voir la preuve dans [UD, chap. 3, théorème 3.14, page 84]. Nous finissons cette partie avec un théorème concernant la dualité (théorème de représentation de iesz). appelons que deux éléments p et q de [1, + ] sont appelés exposants conjugués quand 1 p + 1 q = 1. Théorème Théorème de représentation de iesz Soit (Ω, A, m) un espace mesuré σ-fini et soit p [1, + [. Pour toute forme linéaire continue Φ sur L p (Ω), il existe un unique g L q (Ω) tel que, pour tout f L p (Ω) Φ(f) = f(ω)g(ω) dm(ω) (où q désigne l exposant conjugué de p). Ω Nous admettrons ce théorème, dont on trouvera la preuve dans [UD, chap. 6, théorème 6.16, pages 158 à 160] ou dans [BIL, chap. 3, section 19, théorème 19.3, pages 244 et 245]. Quand p = +, le dual topologique de L p est plus grand que L 1 (voir l exercice 13, page 165, du chap. 6 de [UD], ou le problème 19.3, chapitre 3, section 19, page 253 de [BIL]) 1. 9 Mesure produit et théorèmes de Fubini Il existe un lien géométrique clair entre les notions de longueur et surface : pour un rectangle, la surface s obtient par produit des longueurs des côtés. Cette remarque suggère la possibilité, à partir d une mesure sur E, d en fabriquer une autre sur E E (la mesure-produit ) et plus généralement, à partir de deux mesures sur E et F respectivement, d en fabriquer une autre sur E F (penser au volume, égal au produit de la surface par la longueur pour des parallélépipèdes). Une telle notion de mesure produit existe effectivement, dans le cadre suivant. On se donne deux ensembles mesurés (E, M, λ) et (F, N, µ). Il faut commencer par dire quels sont les ensembles mesurables sur E F : on prend tous les produits A B d un ensemble mesurable sur E par un ensemble mesurable sur F. Cette famille de produits cartésiens ne forme pas une tribu, mais on considère la

24 24 - Mesure et probabilité tribu qu elle engendre (qu on appellera la tribu produit des tribus sur E et F ). On définit la mesure produit sur les ensembles tels que A B par (λ µ)(a B) = λ(a) µ(b) On montre ensuite qu il est possible d étendre cette mesure à tous les ensembles de la tribu produit. On trouvera la démonstration de ces propriétés dans [UD, théorème 8.6 page 201 et définition 8.7 page 202]. En itérant cette procédure, on peut définir le produit de n espaces mesurés (E i, M i, λ i), en munissant E 1 E n de la tribu M engendrée par les A 1 A n, où A i est un élément quelconque de M i, et en prouvant que la formule λ 1 λ n (A 1 A n ) = A 1 A n définit une fonctionnelle que l on peut étendre en une mesure sur M. On appelle encore M la tribu produit des tribus M i. Signalons un cas particulier important : Définition On munit n de la tribu B n, produit des tribus boréliennes sur chaque coordonnée. La mesure produit des mesures de Lebesgue sur les coordonnées est appelée mesure de Lebesgue sur n. Comme pour la mesure de Lebesgue sur, la mesure de Lebesgue λ n sur n peut être caractérisée par deux propriétés : l invariance par translation et le fait que λ n ([0, 1] n ) = 1 Une fois construite une mesure sur E F, la notion d intégrale est alors définie comme ci-dessus (d abord les fonctions étagées, puis les fonctions positives, puis les fonctions mesurables quelconques : c est une procédure qui ne dépend pas du choix de la mesure). On prouve alors le théorème de Fubini (que nous avons déjà rencontré dans un cas particulier au début du chapitre) : il existe en fait deux versions de ce théorème, une simple pour les fonctions positives, et une un peu plus compliquée pour les fonctions de signe quelconque. Théorème Théorème de Fubini-Tonnelli Soit f : E F + {+ } une fonction mesurable positive. On définit sur E et F les fonctions ϕ et ψ par ϕ(x) = f(x, y) dµ(y), ψ(y) = f(x, y) dλ(x) Ces fonctions sont mesurables positives, et vérifient ϕ dλ = f dλ dµ = F E E F (au sens où si l une de ces trois quantités est finie, les deux autres le sont aussi et elles sont égales). L intérêt de cet énoncé est son caractère sans exception : pour des fonctions positives, on peut toujours intervertir les intégrations sans risque d erreur. Pour les fonctions de signe quelconque, on dispose du résultat suivant : Théorème Théorème de Fubini Soit f : E F {± } une fonction mesurable. On définit sur E et F les fonctions ϕ et ψ par ϕ(x) = f(x, y) dµ(y), ψ(y) = f(x, y) dλ(x) F (i) Si l une des fonctions ϕ ou ψ est intégrable, l autre l est aussi, ainsi que f et on a l égalité ϕ dλ = f dλ dµ = ψ dµ E E F E F E F ψ dµ

25 Mesure et probabilité 25 - (ii) Si f est intégrable, alors pour presque tout x et pour presque tout y, les fonctions f x et f y définies par f x : y f(x, y), f y : x f(x, y) sont intégrables (de sorte que les fonctions ϕ et ψ sont presque partout définies), et on a de nouveau l égalité entre intégrales ci-dessus. emarque Les théorèmes de Fubini ne sont en fait valides que si l on ajoute une hypothèse technique sur les espaces mesurés E et F : ceux-ci doivent être σ-finis, c est-à-dire réunions dénombrables (ou finies) d ensembles de mesure finie : par exemple, muni de la mesure de Lebesgue, ou N muni de la mesure de comptage sont σ-finis, alors que par exemple, muni de la mesure de comptage ne l est pas. emarquons que tout espace de mesure finie est σ-fini : le théorème de Fubini s appliquera donc en théorie des probabilités. Nous renvoyons à [UD, théorème 8.8, page 203 (et quelques unes des précédentes...] pour la démonstration, quelque peu laborieuse quoique sans difficulté majeure, de ces théorèmes. Dans le cas particulier où f : [a, b] [c, d] est une application continue, il existe une démonstration tout à fait élémentaire utilisant le théorème de dérivabilité des fonctions définies par une intégrale de iemann : on trouvera cette preuve dans [MONA, chap. 10, 3, théorème , page 297]. L utilisation du théorème de Fubini permet de ramener de nombreux calculs d intégrales doubles (et, plus généralement, multiples) à des calculs successifs d intégrales simples (qu il s agisse de calculer effectivement des intégrales ou simplement de prouver des convergences). Un autre outil essentiel néanmoins est, comme dans le cas des intégrales simples, la formule de changement de variable. Nous la donnons dans le cas des intégrales doubles sur des domaines de 2, en toute généralité et dans le cas particulier du calcul en coordonnées polaires. Théorème Si F est un difféomorphisme entre le domaine et le domaine D (bijection de classe C 1 dont la bijection réciproque est aussi de classe C 1 ), et si la fonction f est intégrable sur D, la fonction (u, v) (f F )(u, v) det (J F (u, v)) est intégrable sur et f(x, y) dxdy = (f F )(u, v) det (J F (u, v)) dudv D où J F (u, v) désigne la matrice jacobienne de F au point (u, v). Dans le cas particulier du changement de variable en coordonnées polaires, la formule ci-dessus devient : Théorème Si la fonction f : (x, y) f(x, y) est intégrable sur D, alors la fonction est intégrable sur et F : (ρ, θ) f(ρ cos θ, ρ sin θ)ρ D f(x, y) dxdy = F (ρ, θ) ρ dρdθ Image d une mesure par une fonction mesurable Soit (E, M, m) un espace mesuré et f : E n une application mesurable. Définition On appelle mesure image de m par f, et on note m f, la mesure définie sur les parties boréliennes de n par m f (B) = m(f 1 (B))

26 26 - Mesure et probabilité On vérifie facilement que ceci définit bien une mesure. Ce type de mesure interviendra souvent en probabilité où l on travaille avec des variables aléatoires X, définies sur un espace probabilisé abstrait et inconnu (Ω, F, P ), mais dont on connaît la loi, c est-à-dire la mesure image P X sur ou n. Les calculs théoriques se font alors dans Ω, en général très facilement, et les calculs pratiques se font dans grâce à la loi P X. Le passage d un type de calcul à l autre est justifié par le théorème suivant, qui fait le lien entre l intégration sur n relative à m f et l intégration sur E relative à m. Théorème Soit ϕ : n C une fonction mesurable. La fonction ϕ est intégrable relativement à la mesure m f si et seulement si la fonction ϕ f est intégrable relativement à m, et on a alors ϕ dm f = ϕ f dm n E Démonstration Vu la définition de l intégrabilité des fonctions de signe quelconque et de leur intégrale, il suffit de prouver le résultat quand ϕ 0. Supposons ϕ 0 et ϕ f intégrable relativement à la mesure m. Soit s = n i=1 α i1 Ai (les A i sont des boréliens deux à deux disjoints) une fonction étagée mesurable positive sur, majorée par ϕ. Posons S = n i=1 α i1 f 1 (A i). La fonction S est étagée mesurable et s f = S. En particulier S(x) = s(f(x)) ϕ(f(x)) Comme ϕ f est intégrable, on a donc E S dm f dm. Or E n S dm = α i m(f 1 (A i )) E i=1 n = α i m f (A i ) i=1 = s(t) dm f (t) (par définition de l intégrale des fonctions étagées) Il en résulte que, pour toute fonction étagée mesurable positive s majorée par ϕ, s(t) dm f (t) (ϕ f)(x) dm(x) < + d où résulte l intégrabilité de ϕ par rapport à la mesure m f et l inégalité ϕ(t) dm f (t) (ϕ f)(x) dm(x) E L autre implication (et l inégalité correspondante) est moins évidente. On suppose donc ϕ intégrable relativement à m f et on va montrer que ϕ f est intégrable relativement à m. Soit S = n i=1 α i1 Ei une fonction étagée, mesurable et positive sur E (les E i sont des éléments de M deux à deux disjoints), telle que S ϕ f. Cela signifie que, si E x E i, α i ϕ(f(x)) Si l on posait A i = f(e i ), les A i et leurs images réciproques ne seraient pas nécessairement disjoints ce qui empêcherait de faire le raisonnement simple utilisé pour l autre implication. C est pourquoi nous allons adopter une définition différente pour les A i. On peut supposer les α i ordonnés dans l ordre décroissant : α 1 α 2 α n. Posons alors A 1 = f(e 1 ), A 2 = f(e 2 ) \ A 1, A 3 = f(e 3 ) \ (A 1 A 2 ),, A n = f(e n ) \ (A 1 A n 1 ), et, pour 1 i n, F i = f 1 (A i ). On définit alors s 1 : + et S 1 : E + par n n s 1 = α i 1 Ai, S 1 = α i 1 Fi i=1 i=1

27 Mesure et probabilité 27 - Nous allons montrer que s 1 ϕ. En effet, si t n appartient à aucun A i, cela équivaut à 0 ϕ(t) qui est vrai par hypothèse. Si t A i, s 1 (t) = α i (car les A i sont deux à deux disjoints). Or, puisque t A i, il existe x E i tel que t = f(x) et donc ϕ(t) = ϕ(f(x)). On a vu plus haut que sur E i, α i ϕ(f(x)) d où le résultat. Du fait de l intégrabilité de ϕ par rapport à m f, on a donc s 1 dm f ϕ dm f < +. Nous allons maintenant montrer que s dm s 1 dm f ϕ dm f E d où découlera le résultat (intégrabilité de ϕ f par rapport à m et inégalité sur les intégrales). On remarque que par définition n n s 1 dm f = α i m f (A i ) = α i m(f i ) i=1 Il suffit donc de prouver que n i=1 α im(e i ) n i=1 α im(f i ). On va prouver que pour tout k {1,, n}, k α i m(e i ) i=1 i=1 k α i m(f i ) La propriété est claire pour k = 1 puisque F 1 = f 1 (f(e 1 )) contient E 1. Examinons le cas où k = 2. L ensemble F 2 contient les éléments de E 2 qui n appartiennent pas à F 1, puisque les images de ces éléments appartiennent à A 2 et pas à A 1. Donc F 1 contient E 1 et E 2 F 1 (qui sont disjoints car E 1 et E 2 le sont) et F 2 contient E 2 \ F 1. Par conséquent α 1 m(f 1 ) + α 2 m(f 2 ) α 1 m(e 1 ) + α 1 m(e 2 F 1 ) + α 2 m(e 2 \ F 1 ) α 1 m(e 1 ) + α 2 (m(e 2 F 1 ) + m(e 2 \ F 1 )) (car α 1 α 2 ) α 1 m(e 1 ) + α 2 m(e 2 ) (car E 2 est la réunion disjointe de E 2 F 1 et E 2 \ F 1 ) De la même manière, F 3 contient les éléments de E 3 qui n appartiennent pas à F 1 F 2. On a donc i=1 E 3 = (E 3 F 1 ) (E 3 F 2 ) (E 3 \ (F 1 F 2 )) (réunion disjointe) et on peut raisonner comme ci-dessus (ces nouveaux ensembles sont disjoints des précédents car E 3 est disjoint de E 1 et E 2 ). On obtient maintenant α 1 m(e 1 ) + α 2 m(e 2 ) + α 3 m(e 3 ) α 1 m(f 1 ) + α 2 m(f 2 ) + α 3 m(f 3 ) et ainsi de suite. Ceci termine la preuve. emarque En particulier, lorsque f est à valeurs réelles, si on pose ϕ(x) = x, on obtient l équivalence suivante : la fonction f appartient à L 1 (E, m) si et seulement si l intégrale x dm f (x) < + et alors E f(ω) dm(ω) = x dm f (x) Nous utiliserons maintes fois cette formule lorsque nous calculerons des espérances de variables aléatoires (cf. le théorème 4.3.2) Exercices Théorie de la mesure Exercice 1. 1 On suppose qu une application λ vérifie les propriétés (a) et (c) de la définition d une mesure et qu il existe au moins un ensemble mesurable A tel que λ(a) < +. Montrer que λ( ) = 0. Exercice 1. 2 Soit (Ω, A, λ) un ensemble mesuré.

28 28 - Mesure et probabilité 1 Montrer que l application A λ(a) est croissante, c est-à-dire que si A B, alors λ(a) λ(b). 2 Montrer que si les A n forment une suite croissante de parties mesurables (A n A n+1 ), + λ( n=0 A n ) = lim λ(a n) n + 3 Montrer par un contre-exemple, que la formule ci-dessus ne s étend pas au cas d une intersection décroissante (A n+1 A n ) : on n a pas en général + λ( n=0 A n ) = lim λ(a n) n + mais que cette propriété devient vrai si Ω est de mesure finie (passer au complémentaire). 4 Montrer que λ est σ-sous-additive : si les A n sont mesurables, et non nécessairement disjoints + λ( n=0 A n ) + n=0 λ(a n ) Indication - Se ramener à des réunions finies en utilisant la question 2 ; puis transformer les ensembles pour se ramener à des réunions disjointes. Exercice 1. 3 La fonction x E(x) est-elle étagée sur? Exercice 1. 4 On munit N de la tribu P(N). On définit la fonction u par 0 u(0) : = u 0,, n u(n) : = u n, i > n, i u(i) : = 0 Montrer que u est une fonction étagée mesurable (positive si les u i le sont). Exercice 1. 5 On définit une variable aléatoire X de la manière suivante : on joue à pile ou face. Si pile est sorti au moins une fois avant le centième coup, X est le numéro du coup où pile est apparu pour la première fois. Sinon, X = 100. Montrer que X est une variable aléatoire étagée positive. Convergence monotone, convergence dominée Pour les exercices 1.6 à 1.15, la consigne est la suivante : peut-on appliquer le théorème de convergence monotone ou le théorème de convergence dominée? Si oui, quelle est la conclusion fournie par le théorème? Exercice 1. 6 L ensemble E est égal à N, la famille des parties mesurables est égale à l ensemble de toutes les parties de N, et m est la mesure de comptage. Pour n N, on pose k N, f n (k) = 1 k 2 + n + 1 Exercice 1. 7 Dans le même contexte, on pose maintenant k N, f n (k) = n kn + k Exercice 1. 8 Dans le même contexte, on pose maintenant { 0 si k n k N, f n (k) = n k 2 si k n + 1 Exercice 1. 9 L ensemble E est égal à, les ensembles mesurables sont les boréliens et m est la mesure de Lebesgue. Pour tout n N, on pose A n = [n, + [ et f n = 1 An (fonction indicatrice de A n ). Exercice Dans le même contexte, les A n sont contenus dans [0, 1] et la famille A n est décroissante. Exercice Dans le même contexte, la fonction f n est définie par f n (x) = cos(x/n) exp ( x 2 )

29 Mesure et probabilité 29 - Exercice Dans le même contexte, la fonction f n est définie par f n (x) = f(x) exp ( 2iπ t n x) où f est une fonction intégrable sur et où la suite (t n ) tend vers un nombre réel α. Exercice L ensemble E est égal à, les ensembles mesurables sont les boréliens et m est la mesure définie par f(x) f dm = 1 + x 2 dx (où dx désigne la mesure de Lebesgue). Les fonctions f n sont définies par E E f n (x) = sin(x/n) Exercice L ensemble E est un espace probabilisé, les parties mesurables sont les événements et dp est la mesure de probabilité. On se donne une suite croissante d événements A n et on pose f n = 1 An. Exercice Dans le même contexte, les fonctions sont définies de la même manière mais on suppose maintenant que la suite A n est décroissante. Exercice Quelques propriétés de l égalité presque partout On considère un espace mesuré (E, M, λ) complet (c est-à-dire dans lequel tout ensemble de mesure nulle est mesurable). Soit f et g deux fonctions de E dans. On suppose que f et g coïncident sauf sur un ensemble de mesure nulle. 1 Montrer pour tout a, l égalité : {x E f(x) a} = {x E f(x) = g(x) et g(x) a} {x E f(x) g(x) et f(x) a} 2 On suppose la fonction g mesurable. Montrer que f l est aussi. En particulier, si f = 0 presque partout, f est mesurable. 3 Montrer que, si f = 0 presque partout, E f + dλ = 0 en revenant à la définition de l intégrale des fonctions mesurables positives par les fonctions étagées. Exercice L égalité presque partout dépend de la mesure choisie... 1 L espace E est l ensemble N muni de la mesure de comptage. Quels sont les ensembles de mesure nulle? A quelle condition deux fonctions sont-elles égales presque partout? 2 Les résultats de la question précédente sont-ils modifiés si E = muni de la tribu borélienne et de la mesure de Lebesgue usuelle ( mesure = longueur ). 3 On définit sur E = (muni de la tribu borélienne complétée) la mesure de Dirac δ 0 par δ 0 (B) = 1 si 0 B, δ 0 (B) = 0 sinon. Soit f une fonction mesurable de dans. Que veut dire l expression : f est presque partout nulle? Combien vaut E f dδ 0? Exercice Encore la convergence dominée... Pour n 1, on définit une fonction f n sur par 0( si x < 0 x ) ne f n (x) = 1 + 2x su 0 x n n 0 si x > n 1 Montrer que les fonctions f n sont mesurables. 2 On fixe x = 7. Calculer f n (x) pour 1 n 10, puis la limite de f n (x) quand n tend vers l infini. 3 Généraliser le résultat de la question précédente au calcul de lim n + f n (x), quand x est un réel quelconque. 4 Vérifier que pour tout réel u 1, ln(1 + u) u. En déduire que, pour tout x 0, pour tout n 1, f n (x) e x.

30 30 - Mesure et probabilité 5 Calculer la limite quand n tend vers l infini de l intégrale n 0 ( x ) ne 1 + 2x dx n Exercice eprendre la méthode de l exercice précédent pour calculer la limite quand n tend vers l infini de n ( x ) ne 1 x/2 dx n Exercice Théorème de convergence dominée et continuité 1 Pour x 0, montrer l existence de F (x) défini par 0 F (x) = + e tx 1 + t 2 dt 2 Soit x > 0 et x n une suite de réels positifs ou nuls tendant vers x. On pose f n (t) = e txn 1 + t 2 Montrer que la suite f n converge simplement sur + vers f définie par f(t) = e tx 1 + t 2 puis établir que lim n + F (x n ) = F (x). Qu a-t-on démontré? Quelle démarche aurait-il fallu adopter pour prouver ce résultat dans le cadre de la théorie des intégrales impropres de iemann? Exercice Inégalité de Markov Soit f : E + une fonction mesurable positive. Pour tout n N, on pose A n = {x E f(x) 1/n}. 1 On suppose que f L 1 (E). Montrer que λ(a n ) n (inégalité de Markov). E f dλ 2 Plus généralement, on suppose que f L p (E). Montrer que λ(a n ) n p f p dλ Exercice Comment construire des tas de mesures... Soit (E, M, λ) un espace mesuré, et f : E + une fonction mesurable positive (non nécessairement intégrable). A toute partie mesurable M de E, on associe le nombre (fini ou infini) µ(a) = 1 A f dλ 1 Etude d un exemple On suppose que E = muni de la tribu borélienne B et que f est la fonction a Calculer µ([0, 1]), µ(), µ(q). f : x E E 1 π(1 + x 2 ) b Montrer que µ est une mesure sur et que (, B, µ) est un espace probabilisé.

31 Mesure et probabilité 31 - Indication : la partie difficile est la démonstration de la formule + µ( k=1 A k ) = + k=1 µ(a k ) où les A k sont des boréliens deux à deux disjoints. Pour cela considérer la suite ϕ n définie par n ϕ n = 1 Ak f et prouver la formule souhaitée en appliquant le théorème de convergence monotone. 2 Le cas général Généraliser les résultats de la question précédente. Qu est-ce-qui reste vrai? Qu est-ce qui est modifié? k=1 Exercice Applications de l inégalité de Hölder Soit (Ω, A, m) un espace mesuré. 1 Soit r > s 1. Montrer que si f L r (Ω, m) L s (Ω, m), alors f L p (Ω, m) pour tout p [s, r]. 2 On suppose que m(ω) < + et que f L p (Ω, m) pour au moins une valeur de p strictement supérieure à 1. Montrer que f L 1 (Ω, m), et, plus généralement, que f L p (Ω, m), pour tout p tel que 1 p p. Exercice Applications de l inégalité de Hölder On suppose que f L p ( + ) avec 1 < p < 2. Pour y +, on pose 1 Montrer que ϕ y est intégrable sur +. Dans la suite de l exercice, on pose Φ(y) = ϕ y (x) = f(x) + 0 ϕ y (x) dx. sin xy x 2 On pose r = 1 p 1. Montrer qu il existe une constante C telle que, pour tout y > 0, 2 Φ(y) Cy r 3 L inégalité ci-dessus prouve que le quotient Φ(y) y r reste borné quand y tend vers 0. Montrer que ce quotient tend en fait vers 0 quand y tend vers 0. Indication - Pour majorer l intégrale, séparer l intervalle d intégration en deux : intégrer entre 0 et 1/ y puis entre 1/ y et +. Majorer la deuxième partie de l intégrale comme ci-dessus ; majorer la première moitié en appliquant aussi l inégalité de Hölder et en utilisant l inégalité sin t t (pour t 0)). Exercice Applications de l inégalité de Hölder Soit f L p ( + ) avec p > 1. 1 Soit x > 0. Montrer que f est intégrable sur [0, x] (écrire f(t) = f(t) 1). Dans la suite de l exercice, on pose, pour x > 0, f 1 (x) = x 2 Montrer que (f 1 (x)) p x p 1 (f(t)) p dt. 0 x 0 f(t) dt. 3 En déduire que x 1 p (f 1 (x)) p tend vers 0 quand x tend vers 0 (introduire la fonction indicatrice de l intervalle [0, x] et utiliser le théorème de convergence dominée). Exercice Utiliser le théorème de Fubini et la relation 1 x = + 0 e xt dt

32 32 - Mesure et probabilité pour prouver que Exercice Calculer les intégrales suivantes : A sin x lim A + 0 x dx = π 2 3 [ 5 ] 2π [ a ] I 1 = (x + 2y)dx dy, I 2 = r dr dϕ, I 3 = 3 y a sin ϕ Exercice Calculer I = x2 + y 2 dxdy où D = D { (x, y), x 2 + y 2 2y 0, x 2 + y 2 1 0, x 0, y 0 }. 1 0 [ 1 0 x 2 ] dy 1 + y 2 dx Exercice Calculer les intégrales doubles suivantes : I = xy dxdy, où D est l ensemble des points (x, y) tels que x 0, y 0 et x + y 1. D I = (x + y) dxdy, où D est la surface du triangle de sommets O(0, 0), A(1, 1) et B(2, 0). D I = xy dxdy, où D est défini par D = {(x, y), x 0, y 0, x 2 + y 2 1}. D I = xy dxdy, où D est défini par x 2 + y D dxdy I =, où D est défini par x 1, y 1 et x + y 3. D (x + y) 2 Exercice Calculer les intégrales doubles suivantes : I = (x + y) dxdy, où D = {(x, y) 2, x 0, y 0, x 2 + y 2 1}. D dxdy I = D 1 + x 2 + y 2, où D = {(x, y) 2, x 2 + y 2 1}. y I = D x 2 + a 2 dxdy, où D = {(x, y), x 0, y 0, x2 + y 2 a 2 } (a +). dxdy I = D x 2 + xy + y 2, où D est défini par 4 x2 + y xy I = (1 + x 2 + y 2 ) 2 dxdy, où D = {(x, y) 2, 0 x 1, 0 y 1, x 2 + y 2 1}. D Exercice Dessiner et calculer le volume compris entre la surface d équation z = x 2 + 2y 2 et le plan d équation z = 1. Exercice Calculer le volume commun à deux cylindres de révolution pleins d axes Ox et Oy et de même rayon. Exercice Soit D le domaine défini par les inégalités : x 2 + y 2 xz 0, 0 z a 1 Utiliser la décomposition en carrés d une forme quadratique par la méthode de Gauss pour montrer que D peut être défini par X 2 + Y 2 Z 2, 0 Z a 2 2 En déduire le volume de D. Exercice Calculer les intégrales suivantes :

33 Mesure et probabilité 33 - I = D y { } x 2 + y dxdy, où D = (x, y), x 2 + y 2 x, y > 0 } (x 2 + y 2 ) dxdy, où D = {(x, y), 0 x 1 y2 I = D 4 { } I = x 2 y dxdy, où D = (x, y), x 2 + y 2 1, y 0 D dxdydz Exercice Calculer l intégrale triple : I = D (1 + x + y + z) 3 { } où D = (x, y, z), x + y + z 1 0, x 0, y 0, z 0 ( x 2 ) Exercice Calculer l intégrale triple : I = a 2 + y2 b 2 + z2 c 2 dxdydz, { x 2 } où D = (x, y, z), a 2 + y2 b 2 + z2 c 2 1 Exercice Soit a un nombre strictement supérieur à 1. Calculer : dxdydz I = x2 + y 2 + (z a) 2 avec D = { } (x, y, z), x 2 + y 2 + z 2 1 Exercice Calculer de deux manières différentes l intégrale 2 exp ( (x 2 + y 2 )/2) dxdy En déduire la valeur de l intégrale D + D exp ( x 2 /2) dx Exercice Calculer En déduire l égalité (1 + x)(1 + xy 2 ) dxdy + 0 ln x π2 x 2 dx = 1 4 x 2 Exercice éduire 1 + x 2 z 2 y y 2 z 2. dx dy dz 2 Calculer D (1 + x 2 z 2 )(1 + y 2 z 2 ), où D = {(x, y, z) 3, 0 x 1, 0 y 1, z 0}. + ( ) 2 arctan t 3 Prouver que l intégrale I = dt converge et donner sa valeur. t 0 Exercice Soit a un réel positif et D le domaine de 2 défini par 0 y x a. 1 En calculant de deux manières l intégrale f(y) dxdy, établir l égalité 2 En déduire le calcul de a 0 a 0 D ( x ) f(y) dy dx = 0 F (x) dx où F (x) = x 0 a 0 (a y)f(y) dy dy 1 + (y a) 4.

34 34 - Mesure et probabilité Exercice Montrer que, pour tout x [0, 1], ln(1 + x) = ln(1 + x) 2 On veut trouver la valeur de I = x 2 dx. x a Prouver que I = D (1 + x 2 )(1 + xy) dxdy où D = [0, 1]2. x + y b En déduire que 2I = D (1 + x 2 )(1 + y 2 ) dxdy. c En déduire la valeur de I. 1 Exercice Fonctions Γ et B d Euler 1 Montrer que, pour tout α > 0 et β > 0, l intégrale a un sens. 2 Vérifier que l intégrale B(α, β) = est convergente pour tout α > 0 et que Γ(α) Γ(β) = Γ(α) = e (u t α 1 (1 t) β 1 dt e t t α 1 dt 1 0 x dy 1 + xy. 2 +v 2) u 2α 1 v 2β 1 du dv 3 Calculer cette dernière intégrale en passant en coordonnées polaires et en montrant que Γ(α) Γ(β) = 4 π/2 0 cos 2α 1 θ sin 2β 1 θ dθ + 0 e r2 r 2α+2β 1 dr 4 En déduire, par deux changements de variables, que B(α, β) = Γ(α)Γ(β) Γ(α + β)

35 Chapitre II Lecon Espaces L p, 1 p +. A - Préambule - Quelques conseils extraits des rapports de jury des années précédentes. En fait, les espaces L p ne sont quasiment pas évoqués, si ce n est par la remarque suivante. Le théorème de Fischer-iesz sur la complétude de L p a souvent été proposé : le jury a constaté que peu de candidats en maîtrisent bien les finesses, et en particulier la façon dont le théorème de convergence monotone intervient. Sur ce point, il est souhaitable que les futurs candidats soient mieux préparés. Présentation - On suppose connue la théorie de la mesure et les théorèmes de convergence monotone et dominée. B - Bibliographie [UD] Analyse réelle et complexe, Walter UDIN, éd. Dunod, Paris, 1998 [BIL] Probability and measure, third edition, Patrick BILLINGSLEY, ed. John Wiley and Sons, 1995 C - Plan Cadre - Dans toute la leçon, Ω désigne un espace localement compact muni d une tribu A et d une mesure m σ-finie, c est-à-dire telle que Ω soit réunion dénombrable de parties mesurables de mesure finie (condition vérifiée en particulier si m(ω) < + ). L intégrale sur Ω d une fonction A-mesurable (dans toute la suite, on dira simplement mesurable ) f relativement à cette mesure sera notée f dm Définition des espaces L p, 1 p + Ω Dans tout ce qui suit, K désigne ou C. Soit p un réel supérieur ou égal à 1 (on traitera plus loin le cas où p = + ). On verra que l ensemble des fonctions de puissance pème intégrable est un espace vectoriel que l on souhaiterait munir d une norme naturelle. Mais le choix d une norme liée au calcul d une intégrale pose un problème car des fonctions non nulles peuvent avoir une intégrale nulle. En effet : Théorème Soit f : Ω K une fonction mesurable. L intégrale Ω f dm est nulle si et seulement si f est nulle presque partout, c est-à-dire si et seulement si il existe une partie A A de mesure nulle telle que f(x) = 0 pour tout x / A. Afin d éviter ce problème, on va commencer par considérer que deux fonctions égales presque partout sont en fait identiques. Ceci se fait en introduisant l espace-quotient E(Ω, K) défini de la manière suivante. 35

36 36 - Lecon Espaces L p, 1 p +. Définition Soit F (Ω, K) l ensemble des fonctions mesurables de Ω dans K. On note E(Ω, K) le quotient de cet ensemble par la relation d équivalence définie par fg m({x Ω f(x) g(x)}) = 0 Dans la suite, sauf en cas d ambiguïté, on notera plus simplement F et E au lieu de F (Ω, K) et E(Ω, K). On vérifie facilement que est effectivement une relation d équivalence. Elle est en outre compatible avec les opérations naturelles sur les fonctions (somme, produit par un scalaire, produit) : l ensemble E hérite donc de la structure de K-espace vectoriel et de K-algèbre de F. Par ailleurs, il est clair aussi que, si p [1, + [, si f F, l intégrale f p dm ne dépend que de la classe d équivalence de f. Ω Pour ne pas alourdir les notations, et au prix d un léger abus d écriture, nous désignerons encore par f les éléments de E et noterons f dm que f soit vue comme une fonction (élément de F ) ou une classe d équivalence (élément de E). Définition Ω Soit p [1, + [. On appelle L p (Ω, K) l ensemble des éléments f de E tels que f p dm < + Ω et on pose, pour f L p (Ω, K), ( ) 1/p f p = f p dm Ω Cette définition n a aucun sens quand p = +. On verra plus loin qu il est alors logique - dans une perspective de continuité quand p tend vers l infini, de définir L (Ω, ) de la manière suivante : Définition On appelle L (Ω, ) l ensemble des éléments f de E tels qu il existe A > 0 vérifiant m({x Ω f(x) > A}) = 0 et on pose, pour f L (Ω, K), f = inf{a + m({x Ω f(x) > A}) = 0} Les fonctions - ou classes de fonctions - de L (Ω, K) sont dites essentiellement bornées. On peut remarquer que toute classe contient une fonction vraiment bornée (remplacer f(x) par 0 quand f(x) > A : la nouvelle fonction est bien équivalente à l ancienne). On notera aussi que, dans la définition de f, l inf est en fait un min La structure d espace vectoriel normé de L p (Ω, K) Des inégalités appel - Deux nombres p et q strictement supérieurs à 1 sont appelés des exposants conjugués si 1 p + 1 q = 1. Théorème Inégalité de Hölder Soit p > 1 et q son exposant conjugué. Soit f et g deux fonctions mesurables positives sur Ω. Alors ( ) 1/p ( ) 1/q fg dm f p dm g q dm Ω Ω Ω En particulier, si f L p (Ω, K) et g L q (Ω, K), alors fg L 1 (Ω, K). Démonstration Voir [UD, théorème 3.5 pages 79 et 80]. emarque Quand p = q = 2, l inégalité de Hölder s appelle inégalité de Cauchy-Schwarz.

37 Sous-espaces denses 37 - Théorème Inégalité de Minkowski Soit p 1. Soit f et g deux fonctions mesurables positives sur Ω. Alors ( 1/p ( 1/p ( (f + g) dm) p f dm) p + g p dm Ω Ω Ω En particulier, la somme de deux éléments de L p (Ω, K) est encore un élément de L p (Ω, K). Démonstration Voir [UD, théorème 3.5 pages 79 et 80] Conséquences sur L p (Ω, K) ) 1/p Théorème Pour tout p [1, + ], l espace L p (Ω, K) est un espace vectoriel normé par la norme p. Il faut noter que le cas p = + se traite différemment (essentiellement de la même manière que la norme de la convergence uniforme sur les espaces de fonctions bornées, avec simplement quelques précautions de langage liées au passage au quotient). emarque Grâce à l inégalité de Hölder, on vérifie que si Ω est de mesure finie, par exemple parce que m est une mesure de probabilité, si r > p, L r (Ω, K) L p (Ω, K). Cette remarque est souvent utilisée en théorie des probabilités sous la forme suivante : une variable aléatoire de carré intégrable est intégrable La topologie des espaces L p (Ω, K) Complétude Théorème Complétude des espaces L p (Ω, K) Pour 1 p +, L p (Ω, K) est un espace de Banach. Démonstration Voir [UD, théorème 3.11, pages 82 et 83]. Corollaire Si la suite (f n ) n converge vers f dans L p (Ω, K), elle admet une sous-suite (f nk ) k qui converge presque partout vers f Sous-espaces denses Théorème Densité des fonctions étagées Soit S l ensemble des fonctions de Ω dans mesurables et étagées (c est-à-dire ne prenant qu un nombre fini de valeurs) telles que m({x Ω s(x) 0} < (les fonctions de S sont nulles sauf sur une partie de Ω de mesure finie). Alors S est dense dans L p (Ω, K), pour tout p [1, + [. Démonstration Voir [UD, théorème 3.13, pages 83 et 84]. emarque La partie S n est pas dense en général dans L (Ω, K), sauf si m(ω) est finie. Par exemple, si f est la fonction constante x 1 sur muni de la mesure de Lebesgue, toute fonction ϕ de S est nulle sur une partie de de mesure strictement positive (et même infinie) et donc f ϕ 1.

38 38 - Lecon Espaces L p, 1 p +. Théorème Densité des fonctions continues à support compact dans L p ( n, K) Si 1 p < + et Ω = n (n 1), l ensemble C c (Ω) des fonctions continues à support compact est dense dans L p (Ω, K). Démonstration Voir [UD, théorème 3.14, page 84]. emarque Comme ci-dessus, le résultat est faux pour p = +. Par exemple, l adhérence de C c () pour la norme L est égale à l ensemble des fonctions continues tendant vers 0 à l infini. Comme exemple d application de ce théorème, nous proposons un théorème de continuité des translations. Théorème Continuité uniforme des translations dans L p (, ) Pour toute fonction f :, pour tout y, on pose f y (x) = f(x y). On suppose que 1 p +. Si f L p (, dx), alors f y L p (, dx) et, pour tout y, l application f f y est une isométrie de L p (, dx). Si, de plus, 1 p < +, alors pour tout f L p (), l application y f y est uniformément continue de dans L p (, dx). Démonstration Voir [UD, théorème 9.5, page 222]. Ce théorème permet par exemple de prouver la propriété suivante du produit de convolution : Théorème Si p et q sont deux exposants conjugués (p, q [1, + ], 1/p + 1/q = 1), si f L p et g L q, f g est uniformément continue sur Formes linéaires continues sur L p (Ω, K) Théorème Soit (Ω, A, m) un espace mesuré σ-fini et soit p [1, + [. Pour toute forme linéaire continue Φ sur L p (Ω), il existe un unique g L q (Ω) tel que, pour tout f L p (Ω) Φ(f) = f(ω)g(ω) dm(ω) (où q désigne l exposant conjugué de p). De plus, Φ = g q. Ω Preuve - [UD, théorème 6.16, pages 158 à 160] ou [BIL, chap. 3, section 19, théorème 19.3, pages 244 et 245]. emarque Quand p = +, le dual topologique de L p est plus grand que L 1 (voir l exercice 13, page 165, du chap. 6 de [UD], ou le problème 19.3, chapitre 3, section 19, page 253 de [BIL]) emarque Quand p = 2, le théorème indique l existence d un isomorphisme isométrique entre l espace de Hilbert L 2 (Ω, K) et son dual. D - Développements proposés 1 - Théorème (complétude des espaces L p ) 2 - Théorèmes et (densité des fonctions continues à support compact, et application à la continuité uniforme des translations) 3 - Théorème (isométrie entre le dual topologique de L p et L q si p < + )

39 Chapitre III Compléments de théorie de la mesure 3. 1 Le théorème d extension des mesures Théorème Soit A une algèbre et P : A [0, 1] une probabilité. Alors P s étend de manière unique en une probabilité sur l algèbre engendrée par A (notée σ(a)). Nous admettrons ce théorème Unicité de l extension Définition Une partie A de P(Ω) est appelée un π-système si elle est stable par intersection finie. Une partie A de P(Ω) est appelée un λ-système si elle vérifie les propriétés suivantes : (a) Ω A ; (b) Si B, B A et si B B, alors B \ B A ; (c) Si (B n ) n est une famille croissante (au sens de l inclusion) d éléments de A et si B = B n, B A. emarque Si A est à la fois un π-système et un λ-système, c est une σ-algèbre (le vérifier). Théorème Soit P un π-système et L un λ-système contenant P. Alors L contient σ(p), la tribu engendrée par P. Démonstration Nous admettrons ce théorème Corollaire Deux probabilités qui coïncident sur un π-système P coïncident sur la tribu engendrée par P. Exemple Deux probabilités sur qui coïncident sur les ouverts bornés coïncident sur la tribu borélienne. 39

40

41 Chapitre IV Variables aléatoires Bibliographie du chapitre 4 [BIL] - Billingsley Patrick, Measure and probability, third edition, John Wiley and Sons, Un livre traitant simultanément de théorie de la mesure et de probabilités, dans l esprit de ce cours, mais en approfondissant la plupart des résultats. On trouvera néanmoins de bonnes bases au chapitre 4, paragraphes 20 et 21. [COT] - Cottrell Marie, Duhamel, Genon-Catalot, Exercices de probabilités, Masson. De nombreux exercices sur le cours classique de probabilités. Les exercices portant plus spécifiquement sur les concepts étudiés dans ce chapitre se trouvent aux chapitres 2 et 3. [FEL1] - Feller William, An introduction to probability theory and its applications, tome 1, John Wiley and Sons, La théorie des probabilités discrètes (espace d états fini ou dénombrable) fait l objet du tome 1. Le vocabulaire classique des variables aléatoires est réuni au chapitre 9, avec de nombreux exercices. Les notions de probabilité conditionnelle et d indépendance figurent, elles, au chapitre 5. [FEL2] - Feller William, An introduction to probability theory and its applications, tome 2, John Wiley and Sons, Le tome 2 est consacré aux phénomènes aléatoires continus. Il rappelle dans les trois premiers chapitres les exemples classiques de lois continues, avec leurs caractéristiques numériques. [FOA] - Foata Dominique, Fuchs Aimé, Calcul des probabilités, Masson, Un livre de cours et exercices corrigés sur les probabilités, regroupant les aspects combinatoires (probabilités finies ou discrètes, dénombrements : c est essentiellement l objet des chapitres 4, 7, 8 et 9) et les aspects continus : les propriétés utiles de l intégrale ayant été rappelées au chapitre 10 en se limitant au cas réel, les propriétés (et exemples de base) des lois continues sont indiquées aux chapitres 11 et Probabilités : point sur les connaissances et panorama Au lycée et en DEUG, l enseignement des probabilités se fait essentiellement dans le cadre fini (ensemble fini d événements élémentaires) ou dénombrable (on se permet de parler d une suite a priori illimitée d épreuves de pile ou face, ce qui ne se modélise raisonnablement qu en acceptant d introduire une infinité d événements élémentaires). Dans ce contexte, toute fonction résultant de l observation d une expérience aléatoire est une variable aléatoire. Un certain nombre de concepts sont alors introduits, notamment l indépendance, ainsi que des caractéristiques numériques (espérance, variance) ou fonctionnelles (fonction de répartition). Lorsqu on introduit la notion de variable aléatoire continue (qui apparaît naturellement dès que l on s intéresse à des sommes de grands nombres de petits effets aléatoires, comme par exemple dans les sondages), c est le calcul intégral qui remplace les notions usuelles de sommation. 41

42 42 - Variables aléatoires 4. 2 Variables aléatoires, définitions et exemples Définitions et exemples Définition On appelle espace probabilisé un espace mesuré (Ω, T, P ) tel que P (Ω) = 1 (la mesure totale de Ω vaut 1). On dit que P est une mesure de probabilité, et les éléments de T sont appelés événements. En général, on sous-entendra T et P et on dira que Ω est un espace probabilisé. Dans la plupart des cas, l espace Ω lui-même n intervient pas du tout dans les calculs probabilistes, qui sont transférés par X dans l espace d arrivée E. En d autres termes, notre connaissance de Ω est souvent extrèmement réduite, voire nébuleuse : Ω est l ensemble des caprices du hasard... Définition On appelle variable aléatoire toute application mesurable X d un espace probabilisé Ω dans un espace mesurable (E, M). Lorsque E est un ensemble fini ou dénombrable, on dit que X est une variable aléatoire discrète. Dans le cas contraire, on dit que X est une variable continue. Ce vocabulaire est de nature topologique. L idée de discret correspond à une variable prenant des valeurs bien séparées les unes des autres : il faut noter que si E = Q, on parle donc de variable discrète alors que les valeurs prises peuvent être arbitrairement proches les unes des autres. (Mais il est rare, à vrai dire, que E soit égal à Q...) Quand E = ou E = n, on parle respectivement de variable aléatoire numérique ou vectorielle. Exemple Soit Ω = {a 1,, a n } un ensemble fini. Choisissons comme tribu sur Ω toutes les parties de Ω : toute partie de Ω est un événement, et donnons nous une famille de nombres positifs p i telle que p p n = 1. La mesure P définie sur les singletons (on dit aussi : événements élémentaires ) par P ({x i }) = p i fait de Ω un espace probabilisé. Tous les exemples de situations probabilistes rencontrés au lycée relèvent de ce modèle fini. Toute fonction X de Ω dans un espace mesurable E est une variable aléatoire. Exemple Plus généralement, si Ω est un ensemble dénombrable, on choisit de nouveau comme tribu l ensemble de toutes les parties de Ω Loi d une variable aléatoire Définition Soit X : Ω E une variable aléatoire. On appelle loi de X la mesure P X sur E définie sur toute partie mesurable A de E par P X (A) = P (X A) (= P ({ω Ω X(ω) A})) emarque Pour une variable aléatoire X à valeurs réelles, P X est une mesure de probabilité sur : c est la mesure image de P par X. Pour une variable X prenant un nombre fini (ou dénombrable) de valeurs x i, la loi de X est connue dès que le sont les nombres p i = P (X = x i ). C est en général la donnée de cette famille de nombres que l on appelle la loi de X. Pour une variable continue, il arrive fréquemment que la loi de X puisse s écrire sous la forme où f est une fonction positive. P (X [a, b]) = b a f(x) dx

43 Quelques exemples de lois finies ou dénombrables 43 - Définition Lorsqu une telle fonction f existe, on l appelle densité de la variable X (ou de la loi de X). Plus généralement, si {X 1,, X n } est une famille de n variables aléatoires réelles, on dit que (X 1,, X n ) est un vecteur aléatoire. On dira que ce vecteur aléatoire a pour densité la fonction f : n si, pour toute partie mesurable A de n, P ((X 1,, X n ) A) = f(x 1,, x n ) dx 1 dx n A Nous donnons dans les deux paragraphes suivants les exemples les plus classiques de lois finies, dénombrables et continues à densité Quelques exemples de lois finies ou dénombrables Définition On appelle variable de Bernoulli de paramètre p [0, 1] toute variable X telle que On notera X B(p). P (X = 1) = p, P (X = 0) = 1 p Une variable de Bernoulli sert souvent à modéliser le résultat d une expérience aléatoire conduisant à un succés ou à un échec. Définition On appelle variable binomiale de paramètres n N et p [0, 1] toute variable X telle que { C k n p k (1 p) n k si k {0, 1,, n} P (X = k) = 0 sinon On notera X B(n, p). Lorsque nous aurons défini l indépendance des familles de variables aléatoires, nous serons en mesure de prouver que si X 1,, X n sont des variables de Bernoulli indépendantes de même paramètre p, S n = X X n suit une loi binomiale de paramètres n et p. Une telle loi est donc utile pour modéliser le nombre de succés lors d une succession de n expériences aléatoires identiques et indépendantes. Définition On appelle variable de Poisson de paramètre λ + toute variable X prenant ses valeurs dans N et telle que On notera X P(λ). λ λk k N, P (X = k) = e k! La définition suivante requiert un peu de préparatifs. On suppose qu une urne contient N boules, et que parmi ces boules pn sont blanches et (1 p)n sont noires (p [0, 1]). On tire dans cette urne sans remise un échantillon de n boules et on suppose que tous les échantillons possibles sont équiprobables. On désigne par Y le nombre de boules blanches figurant dans l échantillon. Définition On dit qu une variable X suit une loi hypergéométrique de paramètres N, n et p si X a la même loi de probabilité que la variable Y définie ci-dessus. On notera X H(N, n, p).

44 44 - Variables aléatoires En utilisant l équiprobabilité des échantillons, on prouve (le faire à titre d exercice) que, pour tout k {0,, n} P (X = k) = Ck Np Cn k N(1 p) C n N où les coefficients binomiaux CA B doivent être compris comme valant 0 si A ou B est strictement négatif, ou si B > A. Une telle variable peut par exemple être utilisée pour modéliser les résultats d un sondage où l on interroge un échantillon de n personnes parmi une population de N individus et où la question posée possède une réponse binaire du type oui ou non. On verra dans la suite que si n est petit devant N, la loi hypergéométrique H(N, n, p) (et les diverses caractéristiques numériques qui lui sont associées) est proche d une loi binomiale B(n, p) (le mot proche sera défini rigoureusement au chapitre 5) Quelques exemples classiques de variables aléatoires à densité Définition On dit que X suit une loi uniforme sur [0, 1] si elle admet pour densité la fonction 1 [0,1] égale à 1 sur [0, 1], à 0 ailleurs (fonction caractéristique de [0, 1]). Pour tout intervalle [s, t] [0, 1], P (X [s, t]) = t s Plus généralement, on dit que X suit une loi uniforme sur [a, b] si elle admet pour densité la fonction 1 [a,b] t s. Pour tout intervalle [s, t] [a, b], P (X [s, t]) = b a b a. Définition On dit que X suit une loi exponentielle de paramètre λ + si elle admet pour densité la fonction x 1 ]0,+ [ (x) λ e λx. De telles variables sont utilisées notamment pour modéliser les phénomènes de désintégration radioactive. Définition On dit que X suit une loi gaussienne de paramètres m et σ > 0 si X admet pour densité la fonction x 1 ) ( σ 2π exp (x m)2 2σ 2 On note X N (m, σ). Si m = 0 et σ = 1, on dit que X suit une loi normale (ou une loi gaussienne centrée réduite). La loi normale joue un rôle central dans la théorie des probabilités, dans la mesure où l on prouve que toute somme de variables indépendantes de même loi (quelle que soit cette loi) tend à se comporter, une fois convenablement renormalisée (centrage et mise à l échelle), comme une loi normale. Ce théorème d approximation est connu sous le nom de théorème central-limite et est notamment utile pour les applications aux statistiques. Définition On dit que X suit une loi de Cauchy si X a pour densité la fonction x 1 π x Fonction de répartition d une variable aléatoire

45 Espérance 45 - Définition On appelle fonction de répartition de la variable numérique X la fonction F X définie sur par F X (t) = P (X t) Exercice Déterminer la fonction de répartition de la variable de Bernoulli de paramètre p = 2/3. Plus généralement, décrire la fonction de répartition d une variable X prenant un nombre fini de valeurs x 1 < < x n. Dans les deux cas, déterminer la limite de F X en 0 et en +. On constate ainsi que, dans le cas des variables prenant un nombre fini de valeurs x 1 < < x n (P (X = x i ) > 0), la fonction de répartition est une fonction en escaliers croissante (au sens large). Les discontinuités de cette fonction (ses sauts) correspondent aux x i. Par ailleurs, cette fonction prend la valeur 0 pour tout t plus petit que x 1 et la valeur 1 pour tout t plus grand que x n. Le théorème ci-dessous indique comment ces propriétés se généralisent aux variables numériques quelconques. Le théorème ci-dessous généralise les propriétés vues dans ces deux exercices à des variables numériques quelconques. Théorème Propriétés des fonctions de répartition (a) Pour toute variable numérique X, la fonction de répartition F X est croissante sur. (b) lim F X(t) = 0, lim F X(t) = 1. t t + (c) La fonction F X est continue à droite sur, et vérifie lim F X (t) = P (X < t 0 ) t t 0, t<t 0 En particulier, les points de continuité de F X sont les valeurs de t de P -mesure nulle, c est-à-dire pour lesquelles P (X = t) = 0. Démonstration (a) La croissance est évidente. (b) Pour t, posons f t (x) = 1 ],t] (x). Les variables aléatoires f t (X) sont majorées par 1 qui est intégrable. Quand t tend vers, f t (X) converge presque sûrement vers 0 puisque, pour ω fixé tel que X(ω), f t (X(ω)) = O dès que t < X(ω). On peut donc appliquer le théorème de convergence dominée pour conclure que E(f t (X)) tend vers 0 quand t tend vers. Or, E(f t (X)) = P (X ], t]) = F X (t). On établit de même la valeur de la limite de F X en + (car f t (X) converge presque sûrement vers 1 quand t tend vers + ). (c) On reprend les mêmes idées qu en (b) pour prouver la continuité à droite. Il suffit de prouver que quand t décroît vers t 0, f t (X) tend presque sûrement vers f t0 (X). C est évident pour les ω tels que X(ω) t 0 (car alors f t (X(ω)) = 1 (t t 0 par hypothèse) et f t0 (X(ω)) = 1 aussi). Si X(ω) > t 0, on a aussi X(ω) > t pour t suffisamment proche de t 0, donc f t (X(ω)) finit par être égal à 0, comme f t0 (X(ω)). Comme en (b), on conclut en utilisant le théorème de convergence dominée. La situation est analogue quand t croît vers t 0, à une exception près. Si X(ω) = t 0, X(ω) t 0, alors que X(ω) > t pour tout t < t 0. C est pourquoi dans ces conditions f t (X) converge presque sûrement vers 1 ],t[ (X) et non pas 1 ],t] (X) Caractéristiques numériques d une variable aléatoire Espérance Définition Lorsque la variablenumérique X est intégrable, on appelle espérance de X, et on note E(X) son intégrale : E(X) = X(ω) dp (ω). Ω

46 46 - Variables aléatoires On désigne par L 1 (Ω) l ensemble des variables aléatoires intégrables. Pour prouver des résultats théoriques, cette définition de l espérance est souvent l outil le plus adapté (voir par exemple la démonstration de l inégalité de Bienayme-Tchebycheff). En revanche, elle se prête peu aux calculs (car en général on ne connait ni Ω ni P ). Le théorème suivant permet néanmoins de calculer E(X) dès qu on connait la loi de X. Théorème La variable X est intégrable si et seulement si est intégrable par rapport à la mesure dp X ) et l on a alors E(X) = x dp X x dp X existe (c est-à-dire si la fonction x x Si X est une variable aléatoire finie, prenant les valeurs x 1,, x n avec les probabilités p 1,, p n, X est toujours intégrable et n E(X) = p i x i i=1 Si X est une variable aléatoire dénombrable, prenant les valeurs x 1,, x n, avec les probabilités p 1,, p n,, X est intégrable si et seulement si la série p i x i converge et, lorsque c est le cas, E(X) = Si X possède une densité f, X est intégrable si et seulement si l intégrale E(X) = convergente et, lorsque c est le cas, E(X) = + i=1 p i x i x f(x) dx x f(x) dx est On admettra ce théorème, qui correspond pour l essentiel à l explicitation de l intégrale d une fonction par rapport à une mesure image. Le théorème admet la généralisation suivante pour les vecteurs aléatoires à densité : si (X 1,, X n ) est un vecteur aléatoire de densité f, et si g : n est une fonction mesurable, la variable g(x 1,, X n ) est intégrable si et seulement si l intégrale g(x 1,, x n ) f(x 1,, x n ) dx 1 dx n est convergente, et on a alors n E(g(X 1,, X n )) = g(x 1,, x n ) f(x 1,, x n ) dx 1 dx n n emarque On notera que si l univers aléatoire Ω est fini, on dispose d une autre formule pour le calcul de l espérance : E(X) = a Ω P ({a})x(a) On peut établir cette formule à partir de l égalité E(X) = n p i x i si on a choisi cette définition de l espérance (comme c est le cas au lycée notamment), ou directement à partir de la définition Cette formule permet, entre autres, de prouver facilement l égalité E(X +Y ) = E(X)+E(Y ) dans le contexte d un univers aléatoire fini. Exemple L espérance d une variable de Bernoulli de paramètre p est égale à p. L espérance d une variable binomiale de paramètres n et p est égale à np (exercice). i=1

47 Espérance 47 - Exemple L espérance d une variable de Poisson de paramètre λ est égale à λ (exercice). Exemple Calculons l espérance d une variable hypergéométrique. L utilisation directe de la loi paraît vouée à l échec. Nous allons donc employer une autre méthode, en écrivant X comme une somme de variables de Bernoulli. Définissons deux familles de nombres ε i et X i (les premiers déterministes, les seconds aléatoires) de la manière suivante : le nombre ε i vaut 1 si la boule numéro i est blanche, 0 sinon. La variable aléatoire X i vaut 1 si la boule numéro i appartient à l échantillon choisi, 0 sinon. On a alors X = N ε i X i i=1 (une somme de nombres valant 0 ou 1 est égale au nombre de 1 : ε i X i = 1 si et seulement si la boule numéro i est blanche et appartient à l échantillon choisi). N On a donc E(X) = ε i E(X i ). On va prouver que, pour tout i, E(X i ) = n. On aura donc N i=1 E(X) = n N N ε i = n N i=1 Np = np On a E(X i ) = 0 P (X i = 0) + 1 P (X i = 1) = P (X i = 1) (l espérance d une fonction indicatrice 1 A est toujours égale à la probabilité de l événement A). La probabilité pour que l échantillon contienne la boule numéro i est égale au nombre d échantillons contenant cette boule divisé par le nombre total d échantillon. On obtient ce qui termine la démonstration. P (X i = 1) = Cn 1 N 1 CN n = n N Exemple L espérance d une variable X uniforme sur [a, b] est E(X) = a + b 2 (exercice). Exemple L espérance d une variable exponentielle X de paramètre λ est E(X) = 1 λ (exercice). Exemple Calculons l espérance d une variable gaussienne X de paramètres m et σ. D après le théorème 4.3.2, cette espérance existe car l intégrale 1 + ) σ (x m)2 x exp ( 2π 2σ 2 dx est convergente (croissance comparée des exponentielles et des polynômes à l infini). Le changement de variable u = x m donne la formule E(X) = 1 + ) σ (u + m) exp ( u2 2π 2σ 2 du = 1 + ) σ u exp ( u2 2π 2σ 2 du + m 1 + ) σ exp ( u2 2π 2σ 2 du = m En effet, la première intégrale vaut 0 car la fonction à intégrer est impaire, et la deuxième est égale à 1 car c est l intégrale sur d une densité de probabilité. Exemple Une variable de Cauchy n est pas intégrable, puisque l intégrale aux deux bornes. + x dx est divergente 1 + x2

48 48 - Variables aléatoires Théorème Inégalité de Jensen Soit X une variable aléatoire à valeurs réelles, F = X(Ω) l ensemble des valeurs prises par X et ϕ : I une fonction convexe sur un intervalle I contenant X(Ω). On suppose que les variables X et ϕ(x) sont intégrables et que E(X) est un point intérieur à I. Alors, ϕ(e(x)) E(ϕ(X)). Démonstration Soit m = E(X). Puisque m est intérieur à I et puisque ϕ est convexe, elle admet en m une dérivée à droite λ et la courbe représentative de ϕ se situe partout au-dessus de la droite d équation y ϕ(m) = λ(x m). En particulier, l inégalité ϕ(x(ω)) ϕ(m) + λ(x(ω) m) est vraie pour tout ω Ω. En prenant l espérance des deux membres (et compte tenu de E(X m) = 0), on obtient l inégalité de Jensen. Pour une variable X prenant un nombre fini de valeurs, on trouvera une autre démonstration au théorème (faite dans le contexte des espérances conditionnelles, mais qu il suffit de réécrire pour les espérances). Compte tenu de la continuité de ϕ en m (toute fonction convexe est continue sur l intérieur de son intervalle de définition), on pourra même prouver le cas général à partir du cas particulier des variables finies, en utilisant la densité de celles-ci dans L Variance Une autre caractéristique numérique importante des variables aléatoires est leur variance, qui mesure la plus ou moins grande dispersion des valeurs prises. Avant de définir la variance, faisons une remarque : sur un espace de probabilité, toute fonction constante est intégrable puisque la mesure totale de l espace est finie. En particulier, si X est de carré intégrable, comme 1 2 est aussi intégrable, la variable X = X 1 est le produit de deux éléments de L 2 (Ω), donc est intégrable d après le théorème de Cauchy-Schwarz. Ainsi, si X L 2 (Ω), l espérance de X existe. Définition Lorsque X est de carré intégrable, on appelle variance de X, et on note V (X) le nombre V (X) = E ( (X E(X)) 2) Ce nombre existe d après la remarque précédente. Il est évidemment positif ou nul d après l inégalité de Cauchy-Schwarz. On démontre (par exemple, en utilisant le cas d égalité dans l inégalité de Cauchy-Schwarz appliquée à la formule ci-dessous) qu il est nul si et seulement si la variable X est égale à une constante, avec probabilité 1 (on dit que X est presque sûrement constante ). Théorème On a aussi V (X) = E(X 2 ) (E(X)) 2 Ce théorème permet de redémontrer les remarques ci-dessus. Son utilisation dans les calculs numériques nécessite néanmoins des précautions parce qu il risque davantage de conduire à des erreurs d arrondi. Exemple La variance d une variable de Bernoulli X de paramètre p est V (X) = p(1 p) Celle d une variable binomiale X de paramètres n et p est (Vérifier à titre d exercice). V (X) = np(1 p) Exemple La variance d une variable de Poisson X de paramètre λ est V (X) = λ

49 Variance 49 - (Vérifier à titre d exercice). On notera que V (X) = E(X). On verra une application intéressante de cette propriété à l exercice Exemple Calculons la variance d une variable hypergéométrique. N On utilise de nouveau l expression X = ε i X i employée plus haut pour le calcul de l espérance de X. On i=1 sait éjà que E(X) = np. On va calculer E(X 2 ). N On a X 2 = ε 2 i Xi 2 + ε i ε j X i X j (il n y a pas de doubles produits car on autorise comme couples i=1 i j d indices à la fois (i, j) et (j, i)). Pour tout i, donc ε 2 i X 2 i = ε i X i N ε 2 i Xi 2 = X et l espérance de la première somme vaut np. L espérance de la deuxième vaut i=1 ( ) E ε i ε j X i X j i j Nous vérifierons ci-dessous que, pour i j, E(X i X j ) = ( ) E ε i ε j X i X j i j = = i j ε i ε j E(X i X j ) n(n 1). On a donc N(N 1) n(n 1) N(N 1) ε i ε j i j et il reste à calculer la somme des ε i ε j pour i j. On écrit pour cela, comme ci-dessus, ( N ) 2 N ε i = ε 2 i + N ε i ε j = ε i + ε i ε j i=1 i=1 i j i=1 i j Le membre de gauche vaut (Np) 2, le membre de droite vaut Np + i j ε iε j, d où ε i ε j = (Np) 2 Np = Np(Np 1) Finalement d où i j E(X 2 n(n 1) ) = np + Np(Np 1) ( N(N 1) = np 1 + (Np 1) n 1 ) N 1 V (X) = E(X( 2 ) (E(X)) 2 = np 1 + (Np 1) n 1 ) n 2 p 2 ( N 1 = np 1 np + (Np 1) n 1 ) N 1 (1 np)(n 1) + (Np 1)(n 1) = np N 1 N 1 npn + np + Npn Np n + 1 = np N 1 N + np Np n = np N 1 N(1 p) n(1 p) = np N 1 = np(1 p) N n N 1

50 50 - Variables aléatoires On constate que V (X) est plus petite que la variance de la loi binomiale correspondante (égale à np(1 p)), ce que l on peut interpréter en disant que le fait de procéder à des tirages sans remise diminue la dispersion des résultats. Mais quand n est beaucoup plus petit que N (situation de sondage réaliste ), V (X) est voisin de np(1 p). Ceci s interprètera en notant que, dans ces conditions, la probabilité de voir apparaître deux fois le même individu dans un échantillon avec remise devient négligeable, et que les deux modèles doivent donc être voisins. n(n 1) Il reste à justifier la formule E(X i X j ) =. Comme lors du calcul de l espérance de X, on remarque N(N 1) que cette espérance est égale à la probabilité pour que X i X j = 1, c est-à-dire pour que les boules numéro i et j appartiennent à l échantillon. Il y a C n 2 N 2 échantillons favorables et Cn N échantillons possibles d où le résultat. Exemple La variance d une variable X uniforme sur [a, b] est (Vérifier à titre d exercice). V (X) = (a b)2 12 Exemple La variance d une variable exponentielle X de paramètre λ est (Vérifier à titre d exercice). V (X) = 1 λ 2 Exemple Calculons la variance d une variable gaussienne de paramètres m et σ. Comme pour l espérance, le calcul s annonce compliqué, mais sera simplifié par l utilisation de bons changements de variables. On connaît E(X) = m. Calculons E(X 2 ). E(X 2 ) = 1 σ 2π + ) x 2 (x m)2 exp ( 2σ 2 dx (intégrale convergente d après les croissances comparées en l infini des polynômes et des exponentielles). Posons u = x m. E(X 2 ) = 1 + ) σ (u + m) 2 exp ( u2 2π 2σ 2 du Le membre de droite est la somme de trois intégrales 1 + ) σ u 2 exp ( u2 2π 2σ 2 du, 2m 1 + σ u exp 2π ( u2 2σ 2 ) du, m 2 1 σ 2π + exp ( u2 ) 2σ 2 du La deuxième est nulle (intégrale sur d une fonction impaire), la troisième vaut m 2 (l intégrale sur d une densité de probabilité vaut 1). Pour la première on commence par faire le changement de variable u = σv : 1 + ) σ u 2 exp ( u2 2π 2σ 2 du = 1 + ) σ σ 2 v 2 exp ( v2 σdv 2π 2 + ) = σ2 v 2 exp ( v2 dv 2π 2 ) puis on intègre par parties en intégrant v exp ( v2 et en dérivant v. On obtient finalement 2 σ 2 + 2π v 2 exp ) ( v2 dv = 2 σ2 2π [ v exp = 0 + σ 2 Finalement, E(X 2 ) = m 2 + σ 2, d où V (X) = σ 2. )] + ( v2 + σ exp 2π ) ( v2 dv 2

51 Définitions et exemples Inégalités Théorème Inégalité de Markov Si X est une variable aléatoire intégrable positive et si λ > 0 P (X λ) E(X) λ Théorème Inégalité de Bienaymé-Tchebycheff Si X L 2 et si λ > 0, P ( X E(X) λ) V (X) λ 2 L inégalité de Bienaymé-Tchebycheff est une conséquence simple de l inégalité de Markov appliquée à la variable (X E(X)) 2. L inégalité de Markov se démontre en posant A = {ω Ω X(ω) λ} et en écrivant E(X) = X dp + X dp X dp λ dp = λ P (A) A A C A A Exercice On a vu que la loi de Cauchy n est pas intégrable. Montrer qu elle vérifie néanmoins l inégalité analogue à l inégalité de Markov. P ( X λ) 2 π λ 4. 4 Indépendance de familles de variables aléatoires Définitions et exemples Définition Les variables aléatoires (X 1,, X n ) sont mutuellement indépendantes si, quels que soient les intervalles I 1,, I n, on a n P (X 1 I 1,, X n I n ) = P (X i I i ) emarque Cette définition peut sembler peu naturelle. Nous en donnons les motivations au paragraphe du chapitre 8. Exercice Montrer que des variables peuvent être deux à deux indépendantes sans être mutuellement indépendantes. Propriété Vérifier que si n variables sont mutuellement independantes, les m variables obtenues en supprimant n m d entre elles sont encore mutuellement indépendantes. Démonstration Il suffit de le faire avec m = 1 (récurrence sur m) et de supprimer la dernière (quitte à modifier l ordre). Pour cela, on choisit I n = dans la définition de l indépendance. Propriété Si les variables X i sont mutuellement indépendantes et admettent des densités f i, on a pour toute partie mesurable A de n P ((X 1,, X n ) A) = f 1 (x 1 ) f n (x n ) dx 1 dx n... A Lorsque A est un pavé (de la forme I 1 I n ), cela résulte de la définition et du théorème de Fubini. Les pavés forment un π-système, donc d après le théorème 3.1.4, la formule est vraie pour toute partie mesurable A. i=1

52 52 - Variables aléatoires Théorème Soit X 1,, X n des variables aléatoires, F 1 = σ(x 1 ),, F n = σ(x n ) les tribus engendrées par les X i. Les variables X i sont mutuellement indépendantes si et seulement si les tribus F i le sont, c est-à-dire si et seulement si A 1 F 1,, A n F n, P (A 1 A n ) = P (A 1 ) P (A n ) Démonstration Supposons les X i indépendantes. L égalité à démontrer est évidente si les A i sont de la forme X 1 i (B i ) où les B i sont des boréliens de. Fixant les n 1 premiers A i de cette forme, on utilise le théorème pour montrer que la formule est vraie quel que soit le choix de A n dans F n (car les Xn 1 (B n ) forment un π-système qui engendre F n ). Puis, on recommence pour rendre A n 1 quelconque dans F n 1 et ainsi de suite. La réciproque est évidente : il suffit de choisir des A i de la forme X 1 i (B i ) pour obtenir la définition de l indépendance Caractérisation intégrale de l indépendance Théorème Les variables aléatoires numériques X et Y sont indépendantes si et seulement si pour tout couple de fonctions mesurables bornées f et g de dans, E(f(X)g(Y )) = E(f(X))E(g(Y )) Démonstration Supposons tout d abord vérifiée l égalité sur les espérances et choisissons f = 1 A et g = 1 B (où A et B sont des boréliens de ). Alors f(x)g(y ) = 1 (X A) (Y B) d où E(f(X)g(Y )) = P ((X A) (Y B)). De même E(f(X)) = P (X A) et E(g(Y )) = P (Y B). On a donc P ((X A) (Y B)) = P (X A) P (Y B) quels que soient les boréliens A et B, d où l indépendance de X et Y. Prouvons maintenant l autre implication. Nous commençons par le cas où f et g ne prennent qu un nombre fini de valeurs. Soit f i (1 i r) les valeurs de f et g j (1 j s) celles de g. Posons A i = {ω Ω f(x(ω)) = f i } et B j = {ω Ω g(y (ω)) = g j }. Désignons enfin par z k (1 k t) les valeurs possibles de f(x)g(y ). E(f(X)g(Y )) = t z k P (f(x)g(y ) = z k ) k=1 La variable f(x)g(y ) prend la valeur z k chaque fois que f(x) prend une valeur f i et g(y ) une valeur g j telles que f i g j = z k. Cet événement est la réunion disjointe des ((X A i ) (Y B j )) pour tous les couples (i, j) tels que f i g j = z k. L espérance se réécrit donc E(f(X)g(Y )) = = t ( ) f i g j P ((X A i ) (Y B j )) f i g j=z k t ( ) f i g j P (X A i ) P (Y B j ) f i g j=z k k=1 k=1

53 Fonction génératrice d une variable aléatoire à valeurs dans N 53 - du fait de l indépendance. Dans le membre de droite, chaque couple (i 0, j 0 ) possible apparaît exactement une fois (dans la partie de la somme correspondant à z k = f i0 g j0 ). Donc on peut réécrire plus simplement le membre de droite sous la forme r s f i g j P (X A i ) P (Y B j ) qui est aussi égal à ( r i=1 j=1 i=1 ) ( s ) f i P (X A i ) g j P (Y B j ) c est-à-dire à E((X)) E(g(Y )) (même calcul, mais en plus simple). La formule s étend ensuite aux fonctions mesurables bornées par densité des fonctions étagées : on se ramène au cas où f et g sont positives (par découpage de l espace Ω), puis on les approche par une suite croissante de fonctions étagées et on applique le théorème de convergence monotone. emarque On donnera une autre démonstration, très élégante, de cette propriété au théorème et au théorème dans le cadre du chapitre sur le conditionnement. emarque Un examen de la démonstration ci-dessus - et notamment du passage du cas fini au cas général par convergence monotone - permet d établir le résultat suivant, vrai pour des variables indépendantes mais faux en général : si X et Y sont indépendantes et si ϕ et ψ sont mesurables, il suffit que ϕ(x) et ψ(y ) soient intégrables pour que leur produit ϕ(x)ψ(y ) le soit, et alors j=1 E(ϕ(X)ψ(Y )) = E(ϕ(X))E(ψ(Y )) emarque Le théorème s étend aux familles de n variables aléatoires. Corollaire Si X et Y sont indépendantes et de carré intégrable V (X + Y ) = V (X) + V (Y ) Plus généralement, si les X i (1 i n) sont indépendantes et de carré intégrable n n V ( X i ) = V (X i ) (Il suffit même que les X i soient deux à deux indépendantes). Démonstration Commençons par le cas de deux variables. On a i=1 V (X + Y ) = E((X + Y ) 2 ) (E(X + Y )) 2 = E(X 2 ) + 2E(XY ) + E(Y 2 ) (E(X)) 2 2E(X)E(Y ) + (E(Y )) 2 Comme 2E(XY ) 2E(X)E(Y ) = 0 d après le théorème précédent, on en déduit la formule annoncée. Dans le cas général, un calcul analogue montre que n n V ( X i ) = i=1 i=1 V (X i ) + 2 i<j i=1 E(X i X j ) E(X i )E(X j ) L hypothèse d indépendance 2 à 2 des variables X i assure que tous les termes de la seconde somme sont nuls, d où le résultat Fonction génératrice d une variable aléatoire à valeurs dans N Nous décrivons dans ce paragraphe, sans entrer dans les détails, un outil utile pour l étude des lois de vaiables aléatoires : la fonction génératrice. Nous en approfondirons l étude dans la partie?? du chapitre 14.

54 54 - Variables aléatoires Définition Soit X une variable aléatoire à valeurs dans N. On appelle fonction génératrice de X la fonction G X définie par G X : t f X (t) = + n=0 P (X = n)t n Lorsque X prend un nombre fini de valeurs, G X est un polynôme. Dans le cas général, le rayon de convergence de la série entière définissant G X est au moins égal à 1 puisque la série converge (et sa somme vaut 1) pour t = 1. emarque On a, pour tout t tel que G X (t) existe, G X (t) = E(t X ). Théorème Soit X et Y deux variables indépendantes à valeurs dans N. Pour tout t ] 1, 1[, G X+Y (t) = G X (t)g Y (t) L égalité est en fait une égalité formelle de séries (cela résulte du fait que si deux fonctions définies au voisinage de 0 par une série entière coïncident sur un intervalle, les séries sont égales). C est une égalité de polynômes si X et Y prennent un nombre fini de valeurs. Démonstration Posons f(x) = t X et g(y ) = t Y. Ces variables aléatoires sont positives, bornées et le théorème implique donc que E(t X+Y ) = E(t X t Y ) = E(t X )E(t Y ) ce qu il fallait démontrer. Théorème Soit X et Y deux variables aléatoires à valeurs dans N. G X = G Y. Elles ont la même loi si et seulement si Nous verrons dans les exercices 4.56 et 4.57 comment l utilisation combinée des deux théorèmes ci-dessus permet parfois de calculer très simplement la loi de certaines variables aléatoires. Démonstration Si X et Y ont la même loi, P (X = n) = P (Y = n) pour tout n N et donc G X = G Y. Si G X = G Y, ces fonctions coïncident en particulier sur ] 1, 1[, donc elles ont le même développement en série entière en 0, et donc P (X = n) = P (Y = n) pour tout n N : X et Y ont la même loi Somme de deux variables indépendantes Nous indiquons dans cette partie comment calculer la loi de la somme de deux variables indépendantes. Nous avons déjà identifié une méthode dans la partie précédente : s il s agit de variables à valeurs dans N, on calcule la fonction génératrice de chacune, on les multiplie, et si on reconnaît la fonction génératrice d une loi, la somme suit cette loi (on décrira au chapitre 14 une méthode analogue utilisant les fonctions caractéristiques). Théorème Soit X et Y deux variables aléatoires indépendantes à valeurs dans N. La loi de X + Y est donnée par n n N, P (X + Y = n) = P (X = k)p (Y = n k) k=0 La démonstration de ce résultat est immédiate. En pratique, son application peut être plus ou moins compliquée : elle est très simple pour des variables de Poisson (exercice 4.57), un peu plus subtile pour des variables binomiales (exercice 4.56). Pour des variables continues à densité, on dispose aussi d une formule exprimant la densité de la somme :

55 Exercices 55 - Théorème Soit X et Y deux variables aléatoires réelles indépendantes de densités respectives f et g. La variable X + Y a pour densité le produit de convolution f g de f et g, défini pour presque tout t par (f g)(t) = f(x)g(t x) dx Démonstration On remarque tout d abord que, grâce à la positivité de f et g, (f g)(t) 0 (éventuellement infini) pour tout t. On a alors ( ) (f g)(t) dt = f(x)g(t x) dx dt ( ) = f(x) g(t x) dt dx (théorème de Fubini-Tonnelli) ( ) = f(x) g(u) du dx (changement de variable u = t x dans l intégrale du milieu) ( ) ( ) = f(x) dx g(t) dt = 1 1 (f et g sont des densités de probabilité) Par conséquent, la fonction f g est intégrable sur, donc en particulier, (f g)(t) existe pour presque tout t. Posons maintenant D = {(x, y) 2 a x + y b} = {(x, y) 2 x, a x y b x}. On a alors P (X + Y [a, b]) = P ((X, Y ) D) = f(x)g(y) dxdy Le théorème de Fubini-Tonnelli permet d écrire P (X + Y [a, b]) = + D ( ) b x f(x)g(y) dy dx Faisons dans l intégrale en y le changement de variable t = y + x. On obtient ( + ) b b ( + ) P (X + Y [a, b]) = f(x)g(t x) dt dx = f(x)g(t x) dx dt en appliquant de nouveau le théorème de Fubini-Tonnelli. On a donc d où le résultat. a P (X + Y [a, b]) = a x b a a (f g)(t) dt emarque Nous étudierons de manière approfondie les propriétés de la convolution au chapitre 10. L intégrabilité de f g établie ci-dessus sera énoncée dans un contexte plus général au point (a) du théorème Nous verrons aux exercices 4.60, 4.61, 4.62 et 4.63 diverses applications de ce théorème à des calculs de loi Exercices Variables aléatoires, calculs de lois Exercice Soit X et Y deux variables aléatoires numériques définies sur un même espace probabilisé Ω. On suppose que le couple (X, Y ) suit une loi uniforme sur [0, 1] [0, 1], c est-à-dire que pour toute partie borélienne B de [0, 1] [0, 1], on a P ((X, Y ) B) = 1 B (x, y) dx dy [0,1] [0,1]

56 56 - Variables aléatoires 1 Montrer que chacune des variables X et Y suit une loi uniforme sur [0, 1], c est-à-dire que pour toute partie borélienne A de [0, 1] on a P (X A) = 1 A (x) dx (et de même pour Y ). 2 Prouver que les variables aléatoires X et Y sont indépendantes. Exercice Soit X et Y deux variables aléatoires numériques définies sur un même espace probabilisé Ω. On suppose que le couple (X, Y ) suit une loi normale sur 2, c est-à-dire que pour toute partie borélienne B de 2, on a P ((X, Y ) B) = 1 2π [0,1] 2 1 B (x, y)exp ( x2 + y 2 ) dx dy 2 1 Montrer que chacune des variables X et Y suit une loi normale sur. 2 Prouver que les variables aléatoires X et Y sont indépendantes. 3 On définit une nouvelle variable aléatoire par = X 2 + Y 2. a Soit α +. Calculer P ( α). b Calculer soigneusement, pour 0 a b, P ( [a, b]). c Déterminer la densité de probabilité de la variable aléatoire. Exercice Une construction théorique du jeu de pile ou face L ensemble E considéré est l intervalle [0, 1]. Il est muni de la tribu borélienne complétée : les éléments de cette tribu sont les réunions A B, où A est un borélien de inclus dans [0, 1] et B est une partie négligeable (c est-à-dire contenue dans un ensemble de mesure nulle). La mesure est la mesure de Lebesgue sur [0, 1], pour laquelle tout intervalle (a, b) (ouvert ou fermé ou semi-ouvert...) avec 0 a b 1 a pour mesure [a, b]. On considère la procédure suivante : on découpe [0, 1] en deux intervalles I 1 et I 2 avec I 1 = [0, 1/2] (moitié gauche de E) et I 2 = ]1/2, 1] (moitié droite de E). On définit une fonction X 1 sur E par { 1 si x I1 X 1 (x) = 0 si x I 2 Puis on généralise le processus de la manière suivante : si à une étape k donnée, E est découpé en un certain nombre d intervalles (égal à 2 k ), on passe à l étape suivante en découpant chacun de ces intervalles en deux moitiés : une gauche et une droite, et on définit la fonction X k+1 comme étant égale à 1 sur tous les intervalles de gauche et à 0 sur tous les intervalles de droite. 1 On donne x = 3/8. Calculer X 1 (x), X 2 (x), X 3 (x), X 4 (x),... Peut-on faire un calcul analogue avec x = 1/3? 2 Montrer que les fonctions X i sont étagées mesurables positives et calculer leur intégrale. 3 Soit (ε 1,, ε n ) une suite de nombres égaux à 0 ou à 1. On désigne par P (X 1 = ε 1,, X n = ε n ) la mesure de l ensemble des nombres réels x tels que X 1 (x) = ε 1,, X n (x) = ε n Montrer que ce nombre est égal à 1/2 n et en déduire que les variables aléatoires X i sont indépendantes. 4 Calculer l espérance de X i (c est-à-dire E X i dλ), puis la variance de X i. 5 Soit n 1 et S n = (X X n )/n. Calculer l espérance et la variance de S n. (On rappelle que des variables aléatoires indépendantes et de carré intégrable vérifient V (X + Y ) = V (X) + V (Y )). Espérance et variance ; variables indépendantes. Exercice Une formule pour l espérance

57 Exercices 57-1 Soit X une variable aléatoire à valeurs dans N. Prouver que E(X) = + n=0 P (X > n) (X n étant pas intégrable quand la série du membre de droite diverge). Indication - Poser X n = X1 X n. Prouver que (X n ) converge en croissant vers X et vérifier que la formule est vraie pour X n. Conclure en utilisant le théorème de convergence monotone. 2 Prouver que si X est une variable aléatoire à valeurs dans +, (Utiliser le théorème de Fubini). E(X) = + 0 P (X t) dt Exercice Edith et Marcel ont rendez-vous au bar La guignette. Ils doivent arriver entre 17h et 18h. Chacun d eux a dit qu il n attendrait pas plus de 10 minutes. Ils arrivent indépendamment à des instants uniformément distribués entre 17h et 18h. 1 Quelle est la probabilité pour qu ils se rencontrent? 2 Edith décide d arriver à une heure précise x. Quelle est la probabilité pour qu il rencontre Marcel? 3 On appelle X le temps pendant lequel Edith attend Marcel. Calculer la loi de la variable aléatoire X et son espérance. Exercice Soit X et Y deux variables aléatoires indépendantes uniformément réparties sur [0, 1]. On pose Y = max{x 1, X 2 }. Calculer la loi et l espérance de Y. eprendre la question précédente quand Y = max{x 1,, X n }, où les X i sont de nouveau des variables mutuellement indépendantes uniformément réparties sur [0, 1]. Exercice Soit X et Y deux variables aléatoires indépendantes de même densité de probabilité f : 0 si x < 1 f(x) = 1 x 2 sinon On pose U = XY et V = X/Y. 1 Soit a > 0. eprésenter l ensemble des couples (X, Y ) tels que U a. Calculer la probabilité de cet événement. En déduire P (5 U 6). 2 Soit a 0. eprésenter de même les couples (X, Y ) tels que V a (distinguer les cas a 1 et a > 1). Calculer P (V a), puis P (3 V 4). 3 Calculer P ((U, V ) [5, 6] [3, 4]). 4 Les variables U et V sont-elles indépendantes? Exercice Soit X 1,, X n, une famille infinie de variables de Bernoulli de même paramètre p et soit N une variable de Poisson de paramètre λ. On suppose que les variables X n et N sont mutuellement indépendantes. On pose N S = (Attention : le nombre de termes de la somme est lui aussi aléatoire). 1 Calculer la loi de S. Pour cela, écrire P (S = m) = = + k=0 + k=0 n=1 X n P (S = m et N = k) P (X X k = m et N = k)

58 58 - Variables aléatoires puis conclure en utilisant l indépendance. 2 On ne fait plus d hypothèse sur les lois des X i et de N dans cette question. On suppose encore les variables X i et N mutuellement indépendantes, on suppose que toutes ces variables sont à valeurs dans N et sont intégrables d espérance E(X i ) = λ et E(N) = µ. a Justifier pourquoi tous les E(X i ) sont égaux. b Montrer que E(S) = λµ. (Indication : commencer le calcul de la manière suivante E(S) = = + k=0 + m=0 mp (S = m) ( + ) m P (X X k = m et N = k) et utiliser le théorème de Fubini dans le cadre des séries doubles à termes positifs). k=0 Exercice Soit N une variable de Poisson de paramètre λ. Pour ε > 0, donner une minoration de la probabilité P (1 ε Nλ ) 1 + ε en utilisant l inégalité de Bienaymé-Tchebycheff. Quelle est la limite de P (1 ε Nλ ) 1 + ε quand λ tend vers l infini (ε est fixé)? Exercice Somme de deux variables binomiales indépendantes Le but de cet exercice est de prouver, en employant quatre méthodes différentes, que la somme de deux variables binomiales X et Y indépendantes, de lois respectives B(n, p) et B(m, p), est une variable binomiale de paramètre B(n + m, p). 1 Première méthode Montrer que, pour tout k N, P (X + Y = k) = p k (1 p) n+m k nuls si A ou B est négatif, ou si B > A. i+j=k C i nc j m, où les coefficients C B A En déterminant de deux manières le nombre de manières de choisir k éléments dans une population formée de n filles et de m garçons, prouver que CnC i m j = Cn+m k et conclure. 2 Deuxième méthode i+j=k En exprimant de deux manières le coefficient de x k dans le polynôme (1 + x) n+m = (1 + x) n (1 + x) m, retrouver l égalité CnC i m j = Cn+m k et conclure. i+j=k 3 Troisième méthode Calculer la fonction génératrice d une variable binomiale. En utilisant les théorèmes et 4.5.3, conclure. 4 Quatrième méthode Soit X 1,, X n, Y 1,, Y m des variables de Bernoulli mutuellement indépendantes de paramètre p. On pose X = X X n et Y = Y Y m. Montrer que X + Y a la même loi que X + Y (utiliser - sans les refaire - les calculs faits pour la première méthode) et conclure. Exercice Somme de deux variables de Poisson indépendantes sont

59 Exercices 59 - Soit X et Y deux variables de Poisson indépendantes de paramètres respectifs λ et µ. Calculer la loi de la variable X + Y. 1 Première méthode Calculer directement P (X + Y = k) pour k N. 2 Deuxième méthode Calculer la fonction génératrice d une variable de Poisson. En utilisant les théorèmes et 4.5.3, conclure. Exercice Somme de deux variables binomiales non indépendantes On répète 20 fois une expérience pouvant conduire à trois résultats A, B et C avec probabilité 1/3. On suppose que les 20 expériences sont indépendantes. On désigne par X le nombre de fois où le résultat observé est A, par Y, le nombre de fois où le résultat est B. 1 Quelle est la loi de X? Quelle est celle de Y? 2 Les variables X et Y sont-elles indépendantes? Indication - Considérer, par exemple, les événements X = 12 et Y = Quelle est la loi de X + Y? On notera la différence entre le résultat obtenu à cette question et celui établi à l exercice Exercice Dés pipés Peut-on truquer deux dés à 6 faces numérotées de 1 à 6 de telle sorte que lorsqu on lance ces dés, la somme des résultats observés prenne chacune des valeurs de 2 à 12 avec équiprobabilité? (Les résultats des dés sont évidemment supposés indépendants ; en revanche, les dés ont le droit d être truqués de manières différentes). Indication - Soit X le résultat du premier dé, Y le résultat du deuxième dé. Montrer que si c était possible G X G Y serait un polynôme possédant deux racines réelles. Prouver qu il en a au moins quatre et conclure. (On rappelle que G X et G Y désignent les fonctions génératrices de X et de Y ). Exercice Somme de variables uniformes indépendantes Calculer la densité de la somme de deux variables aléatoires indépendantes de loi uniforme sur [0, 1]. Pour les plus courageux : essayer de calculer la densité de la somme de trois telles variables... (On trouve u 2 /2 entre 0 et 1, u 2 + 3u 3/2 entre 1 et 2, u 2 /2 3u + 9/2 entre 2 et 3 et 0 ailleurs...) Exercice Somme de deux variables gaussiennes indépendantes Calculer la densité de la somme de deux variables gaussiennes indépendantes de lois respectives N (m, σ) et N (m, σ ) (utiliser le théorème et beaucoup de courage...). Exercice Somme de deux variables de Cauchy indépendantes Calculer la densité de la somme de deux variables de Cauchy indépendantes (utiliser le théorème et pas mal de courage...). Exercice Soit X une variable exponentielle de paramètre λ. 1 On désigne par F λ la fonction de répartition de X. Calculer F λ (x) pour x 0. On désigne maintenant par X 1,, X n une famille de n variables exponentielles de même paramètre λ et mutuellement indépendantes. On pose S n = X X n, et on désigne par g n et G n respectivement la densité et la fonction de répartition de S n. 2 Montrer que, pour t 0, g 2 (t) = l expression de g 2 (t) et de G 2 (t). t 3 Montrer que, pour tout t 0, pour tout n 1, 0 f λ (t x)f λ (x) dx. (Utiliser le théorème 4.6.2). En déduire g n (t) = λ (λt)n 1 (n 1)! e λt

60 60 - Variables aléatoires (Utiliser de nouveau le théorème 4.6.2). 4 Soit t 0 et n 1. Montrer que 5 Soit t 0. Calculer P (S n t et S n+1 > t). Indication - On pourra tout d abord vérifier que ( G n (t) = 1 e λt 1 + λt + + (λt)n 1 1! (n 1)! (S n+1 > t) = (S n > t) (S n t et S n+1 > t) 6 Soit t 0. On désigne par N(t) le plus grand entier n tel que S n t. Si S 1 > t, on pose N(t) = 0. λt (λt)n a Soit n 0. Montrer que P (N(t) = n) = e. n! b En déduire que N(t) est fini presque sûrement. 7 Montrer que P (N(t) < n) = P (S n > t). En déduire que (penser à l inégalité de Markov) P (N(n 3 ) < n) 1 λ n 2 La dernière question est à faire après avoir étudié le lemme de Borel-Cantelli au chapitre 5. Montrer que, presque sûrement, il existe n 0 tel que, pour tout n n 0, N(n 3 ) n. En déduire que, presque sûrement, N(t) tend vers + quand t tend vers + (on pourra noter que t N(t) est croissante). )

61 Chapitre V Les divers modes de convergence 5. 1 Le lemme de Borel-Cantelli Théorème Lemme de Borel-Cantelli Si (A n ) est une suite d événements telle que la série P (A n ) converge, P (lim sup A n ) = 0 Démonstration appelons que lim sup A n = n 1 qui appartiennent à une infinité de A n. On a P (lim sup A n ) P ( ( k n A k), qui est l ensemble des éléments ω Ω k n A k ) k n P (A k ) qui tend vers 0 quand n tend vers l infini (reste d une série convergente). emarque On aurait pu ainsi dire que si on pose f = finie p.s. ; or lim sup A n = {ω f(ω) = + }. + n=1 1 An, E(f) = Théorème éciproque du lemme de Borel-Cantelli + n=1 P (A n ) < +, donc f est Si (A n ) est une suite d événements indépendants telle que la série P (A n ) diverge, P (lim sup A n ) = 1 Démonstration Il faut démontrer que P ( ( )) A k = 1 ou encore, en passant aux complémentaires, que P ( ( ( n 1 k n A C )) k = 0. Montrons que, pour tout n, P ( A C k ) = 0. Pour tout j > 0 k n n+j P ( A C k ) = k=n = n+j k=n n+j n 1 P (A C k ) k n (1 P (A k )) k=n n+j k=n n+j exp ( P (A k )) = exp ( k=n P (A k )) 61

62 62 - Les divers modes de convergence (en utilisant l inégalité 1 x e x vérifiée pour tout x [0, 1]). Le dernier majorant tend vers 0 quand j tend vers l infini (divergence de la série P (A k )), d où le résultat. emarque On peut prouver que le théorème reste vrai si les A n sont seulement supposés deux à deux indépendants. On propose une preuve à l exercice??. Théorème Loi du tout ou rien Soit (X n ) n une suite de variables aléatoires indépendantes et F = n N σ(x n, X n+1, ) La σ-algèbre F est appelée tribu de queue. Tout événement F-mesurable est de probabilité 0 ou 1. Démonstration Soit A F. Pour tout n, A σ(x n, X n+1, ), donc A est indépendant de σ(x 1,, X n 1 ). Ceci étant vrai pour tout n, A est aussi indépendant de n 2 σ(x 1,, X n 1 ). Cette réunion est une algèbre (pas une σ-algèbre) qui engendre une tribu G contenant F. Donc, A est indépendant de lui-même : P (A A) = P (A) = P (A) P (A) d où le résultat Convergence des suites de variables aléatoires Dans toute la suite du chapitre, on considère des variables aléatoires définies sur un espace probabilisé (Ω, F, P ) et à valeurs dans (v.a. réelles, ou simplement v.a.r.) ou dans k. Si X est une v.a.r., la loi de X est la mesure µ définie sur par µ(a) = P (X A) (pour tout borélien A). La fonction de répartition F X de X est définie sur par F X (t) = µ(], t]) = P (X t) On démontre que F est croissante (c est évident), continue à droite en tout point, continue à gauche en tout point x tel que P (X = x) = 0, et possède des limites en et +, égales respectivement à 0 et 1 (par application du théorème de convergence dominée par exemple) Définitions Définition Si (F n ) n est une suite de fonctions de répartitions, si F est une fonction de répartition, on dit que (F n ) n converge en loi vers F si en tout point x où F est continue. On note cette convergence F n L F. lim F n(x) = F (x) n emarque Il y a unicité de la limite : si F et G coïncident sauf sur un ensemble au plus dénombrable et sont continues à droite, elles sont égales. Définition Si (X n ) n est une suite de variables aléatoires, si X est une variable aléatoire, on dit que (X n ) n converge en loi vers X si la suite (F Xn ) n converge en loi vers F X. On note cette convergence X n L X.

63 Comparaison des convergences 63 - emarque L Il n y a pas cette fois unicité de la limite : si Y a la même loi que X et si X n X, alors L X n Y. Exemple Si les variables aléatoires X n ont pour loi elles convergent en loi vers la variable X de loi P (X n = 1 n ) = P (X n = 1) = 1 2 P (X = 0) = P (X = 1) = 1 2 On note dans ce cas que F n (t) tend vers F (t) en tout point t 0, 1 comme le veut la définition mais aussi en 1, et pas en 0. Si on remplaçait 1/n par 1/n, il y aurait convergence pour tout t, et si on remplaçait au contraire 1 par 1 + 1/n, il n y aurait plus convergence en t = 1. Définition Si (X n ) n est une suite de variables aléatoires, si X est une variable aléatoire, on dit que (X n ) n converge en probabilité vers X si ε > 0, On note cette convergence X n P X. lim P ( X n X ε) = 0 n emarque L espace des classes d équivalence (pour l égalité p.s.) de variables aléatoires peut être muni d une structure d espace métrique pour la convergence en probabilités. Voir l exercice Définition Si (X n ) n est une suite de variables aléatoires, si X est une variable aléatoire, on dit que (X n ) n converge presque sûrement vers X si A Ω, P (A) = 1, ω A, On note cette convergence X n p.s. X. Définition lim X n(ω) = X(ω) n Si (X n ) n est une suite de variables aléatoires, si X est une variable aléatoire et si p 1, on dit que (X n ) n converge dans L p vers X si n, X n L p, X L p, On note cette convergence X n L p X Comparaison des convergences lim E( X n X p ) = 0 n Théorème La suite (X n ) n converge en probabilité vers X si et seulement si de toute sous-suite (X nk ) k de (X n ), on peut extraire une sous-sous-suite (X nki ) i convergeant presque sûrement vers X. En particulier, la convergence presque sûre implique la convergence en probabilité. Démonstration (a) Montrons tout d abord que la convergence presque sûre implique la convergence en probabilité. Pour ε > 0, posons, pour n N, f n = 1 Xn X ε

64 64 - Les divers modes de convergence Si X n p.s. X, la suite f n converge p.s. vers 0 et est dominée par la constante intégrable 1, donc d après le théorème de convergence dominée, E(f n ) tend vers 0. Or, E(f n ) = P ( X n X ε). Prouvons maintenant les deux implications de l équivalence. (b) On commence par le sens =. Supposons que de toute sous-suite (X nk ) k de (X n ), on peut extraire une sous-sous-suite (X nki ) i convergeant presque sûrement vers X et que pourtant X n ne converge pas en probabilité vers X : il existe donc ε > 0, α > 0 et une sous-suite X nk tels que la suite P ( X nk X ε) soit minorée par α. On peut extraire de cette sous-suite une sous-sous-suite X nki qui converge presque sûrement, et d après (a), P ( X nki X ε) tend vers 0, ce qui est absurde puisque cette suite est minorée par α. (c) Prouvons maintenant l implication =. Nous allons montrer que si X n P X, il existe une sous-suite de (Xn ) qui converge presque sûrement vers X. Le résultat annoncé en découle. Fixons n N. La suite P ( X k X 1/n) tend vers 0 quand k tend vers l infini, donc il existe un entier k : = N n tel que ( P X Nn X 1 ) 1 n n 2 On peut supposer, quitte à augmenter leur valeur, que les N n sont strictement croissants. + ( La série P X Nn X 1 ) est convergente, donc d après le lemme de Borel-Cantelli, l événement n ( n=1 X Nn X 1 ) ne se produit presque sûrement qu un nombre fini de fois : p.s., il existe n 0 (ω) tel que, n pour n n 0 (ω), X Nn X < 1 n ce qui prouve la convergence presque sûre de (X Nn ) n vers X. Théorème La convergence dans L p implique la convergence en probabilité. Démonstration Supposons d abord p fini. D après l inégalité de Markov, P ( X n X ε) 1 ε p E( X n X p ) 0 quand n +. d où le résultat. Si p = +, max X n X 0 presque sûrement : il y a convergence uniforme sur presque tout Ω, donc convergence p.s., et donc convergence en probabilité d après le théorème Il en résulte, d après la démonstration du théorème 5.2.6, un résultat déjà obtenu lors de la preuve de la complétude des espaces L p : Théorème Si X n L p X, il existe une sous-suite de (X n ) n qui converge presque sûrement vers X. emarque Comme Ω est de masse totale 1, donc finie, les inclusions suivantes sont valables pour q > p : L L q L p L 1 avec des inégalités sur les normes résultant de l inégalité de Hölder. En particulier, la convergence dans L q implique la convergence dans L p. Théorème Une suite (X n ) n converge en probabilité (resp. p.s.) (resp. dans L p ) si et seulement si elle de Cauchy en probabilité (resp. p.s.) (resp. dans L p ). Démonstration Les deux premières affirmations résultent de la complétude de. La troisième équivaut à la complétude de L p, résultat classique de calcul intégral.

65 Comparaison des convergences 65 - Théorème Une suite (X n ) n converge p.s. vers X si et seulement si (1) ε > 0, lim m P ( X n X ε, n m) = 1 Une suite (X n ) n converge presque sûrement si et seulement si (2) ε > 0, lim m P ( X n X m ε, n m) = 1 Démonstration (a) Prouvons que la convergence p.s. vers X implique la propriété (1). Soit A un ensemble de probabilité nulle tel que, pour tout ω / A, X n (ω) X(ω). Soit B m = n m ( X n X ε). Les B m sont croissants, et si ω A C, il existe m 0 tel que ω B m0 (définition de la convergence). Donc A C m 1 B m et en particulier, P ( m 1 B m) = 1. famille croissante, Or, le théorème de convergence monotone implique que, pour une P ( m 1 B m ) = lim m + P (B m) d où la propriété (1). (b) Prouvons que la propriété (1) implique la convergence p.s. de (X n ) n vers X. Supposons par l absurde qu il existe C tel que P (C) > 0 et tel que, si ω C, la suite (X n (ω)) n ne converge pas vers X(ω). Soit Z la variable aléatoire lim sup X n X et D = (Z > 0). On a C D. L événement D est la réunion dénombrable des D k = (Z 1/k) et P (D) > 0, donc il existe k 0 tel que P (D k0 ) > 0. Posons ε = 1/2k 0. On a donc P (lim sup X n X > ε) > 0. Or, si ω appartient à cet événement, l inégalité X n (ω) X(ω) > ε) se produit pour une infinité de valeurs de n, et donc ω appartient au complémentaire de l événement ( X n X ε, n m) quel que soit m. En d autres termes, pour tout m ( X n X ε, n m) D C k 0 et donc P ( X n X ε, n m) 1 P (D k0 ). On ne peut donc pas avoir lim m P ( X n X ε, n m) = 1. (c) Vérifions que la propriété (1) implique la propriété (2). En effet P ( X n X m ε, n m) P ( X n X ε 2, n m)+p ( X m X ε 2 ) 2P ( X n X ε, n m) 2 d où le résultat. Il en résulte (compte tenu du (a) de la démonstration ci-dessus) que la convergence presque sûre de (X n ) n implique la propriété (2). (d) Il reste à prouver maintenant que (2) implique la convergence presque sûre de (X n ). analogue à celle donnée au point (b) ci-dessus. La preuve est Supposons par l absurde qu il existe C tel que P (C) > 0 et tel que, si ω C, la suite (X n (ω)) n ne converge pas. Si ω C, la suite (X n (ω)) n n est pas de Cauchy : il existe donc ε 0 > 0 tel que, pour tout N, il existe n m N vérifiant X n (ω) X m (ω) > ε 0. Quitte à diminuer sa valeur, on peut choisir ε 0 = 1/n 0 où n 0 N. L événement C est donc la réunion dénombrable des C n = ( N N, n(n), m(n), n(n) m(n) N, X m(n) X n(n) > 1/n) pour n N. Donc l un de ces événements a une probabilité strictement positive. Soit C n0 cet événement.

66 66 - Les divers modes de convergence Si ω C n0, la propriété ( X n X m 1/n 0, n m) est fausse pour tous les entiers m de la forme m(n) décrite ci-dessus (avec comme exception : n = n(n)). Donc, pour tout m de la forme m(n), Par conséquent, la suite (u m ) m définie par P ( X n X m 1/n 0, n m) 1 P (C n0 ) u m = P ( X n X m 1/n 0, n m) admet une sous-suite qui ne tend pas vers 1. Donc cette suite ne tend pas vers 1, en contradiction avec la propriété (2). Théorème Une suite (X n ) n converge p.s. vers X si et seulement si ε > 0, P ( lim sup( X n X > ε) ) = 0 Démonstration Il suffit de retranscrire la démonstration du théorème en traduisant systématiquement en termes de lim sup X n X les propriétés sur les ensembles B m. Théorème La convergence en probabilité implique la convergence en loi. Démonstration Il faut montrer que si X n P X et si P (X = x) = 0, alors P (Xn x) P (X x). Pour ε > 0 et n N, Donc (X x ε) ( X n X ε) (X n x) (X n x) (X x + ε) ( X n X ε) P (X x ε) P ( X n X ε) P (X n x) P (X x + ε) + P ( X n X ε) Soit η > 0. En choisissant ε 0 suffisamment petit, on obtient P (X < x) η/2 P ( X n X ε 0 ) P (X n x) P (X x) + η/2 + P ( X n X ε 0 ) Il existe n 0 tel que, pour tout n n 0, P ( X n X ε 0 ) η/2 d où P (X < x) η P (X n x) P (X x) + η Or P (X < x) = P (X x) puisque P (X = x) = 0, d où : pour tout η > 0, il existe n 0 tel que, pour tout n n 0 P (X x) η P (X n x) P (X x) + η ce qui prouve la convergence annoncée. Finalement, on peut dresser les tableaux d implication suivants : Convergence convergence p.s. = convergence en probabilité = convergence en loi convergence dans L p Convergence d une sous-suite convergence en probabilité = convergence p.s. = convergence dans L p Nous terminerons ce paragraphe par un critère de convergence presque sûre dont la démonstration utilise le lemme de Borel-Cantelli.

67 Equiintégrabilité 67 - Théorème Une condition suffisante de convergence presque sûre est l existence d une série convergente à termes positifs ε n telle que la série + n=1 P ( X n+1 X n > ε n ) converge. Démonstration On utilise le lemme de Borel-Cantelli : il résulte de l hypothèse que l événement ( X n+1 X n > ε n ) ne se produit qu un nombre fini de fois. Par conséquent, X n+1 X n ε n à partir d un certain rang, donc la série (X n+1 X n ) est p.s. absolument convergente, donc p.s. convergente. Ceci équivaut à la convergence p.s. de la suite (X n ) n Equiintégrabilité Définition Une famille (X i ) i I d éléments de L 1 est dite équiintégrable si lim sup X i dp = 0 a + i I X i >a Exemple Toute famille finie d éléments de L 1 est équiintégrable. On vérifie facilement qu il suffit de prouver le résultat pour une famille réduite à un élément. Compte tenu du fait que, pour une variable réelle intégrable lim a + P ( X > a) = 0 (par exemple grâce à l inégalité de Markov à l ordre 1 si X est intégrable, mais aussi simplement parce que cette probabilité est l espérance de 1 X >a qui tend presque sûrement vers 0 quand a + et qui est dominée par la fonction intégrable 1), le résultat découle du théorème suivant : Théorème Absolue continuité des fonctions intégrables Si f : Ω est intégrable relativement à la mesure µ, f dµ = 0 lim µ(a) 0 A Démonstration aisonnons par l absurde : sinon, il existe ε > 0 tel que, pour tout α > 0, il existe une partie mesurable A α avec µ(a α ) < α et A α f dµ > ε. Ceci est vrai en particulier pour α = 1/n 2. Définissons B m = A 1/n 2 n m et posons f m = f 1 Bm. Pour ω Ω, la suite (f m (ω)) m tend vers 0 sauf si ω appartient à une infinité de A 1/n 2, c est-à-dire à lim sup A 1/n 2. Mais cet événement est de mesure nulle d après le lemme de Borel- Cantelli (qui s applique évidemment, mutatis mutandis, aux espaces mesurés quelconques). Donc f m converge µ-presque partout vers 0, est dominée par la fonction intégrable f et par conséquent, f m dµ 0 d après le théorème de convergence dominée. Pourtant, puisque B m contient A 1/m 2, f m dµ = B m f dµ f dµ > ε : contradiction. A 1/m 2 Exemple Toute famille majorée par un même élément de L 1 est équiintégrable : c est le même argument qu à l exemple précédent. En particulier, puisque les constantes sont intégrables, toute famille uniformément bornée est équiintégrable. Exemple S il existe p > 1 tel que sup i X i p < +, la famille est équiintégrable. En effet, pour a > 0 X i p X i dp = dp X i >a X i >a X i p 1 1 a p 1 X i p dp X i >a 1 sup E( X ap 1 i p ) qui tend vers 0 indépendamment de i lorsque a tend vers l infini. i

68 68 - Les divers modes de convergence Théorème Il y a équivalence entre : (a) L équiintégrabilité de la famille (X i ) i (b) L équicontinuité des X i : ε > 0, α > 0, A P (A) < α = X i dp < ε, i I et la bornitude L 1 des X i : sup i I E( X i ) < +. A Démonstration Commençons par prouver que (a) = (b). Soit A un événement, ε > 0 et a > 0. X i dp = X i dp + X i dp A A ( X i a) A ( X i >a) ap (A) + X i dp X i >a D après l équiintégrabilité, il existe a 0 tel que : si a a 0, X X i >a i dp ε/2 quel que soit i I. On a donc, pour tout i : X i dp a 0 P (A) + ε/2 A En particulier, pour A = Ω, E( X i ) a 0 + ε/2 : ceci prouve la deuxième partie de (b). Si, de plus, P (A) ε/2a 0, A X i dp ε : ceci établit l équicontinuité. Montrons maintenant que (b) = (a). Soit M = sup i I E( X i ). D après l inégalité de Markov, pour tout a > 0, P ( X i a) E( X i ) M a a Supposons a > a 0 = M/η. Alors P ( X i a) η pour tout i, et donc i I, X i dp ε X i a d après l équicontinuité. Ceci prouve l équiintégrabilité des X i. Théorème Une suite (X n ) n converge dans L 1 vers X si et seulement si, pour tout événement A, X n dp X dp la convergence étant uniforme par rapport à A. Démonstration Prouvons = : A F, X n dp A A A X dp Il y a bien convergence uniforme par rapport à A. Prouvons = : Ω X n X dp = X n X qui tend vers 0 du fait de l uniformité de la convergence. A A X n X dp Ω X n X dp 0 (X n X) dp (X n X) dp X n<x

69 Equiintégrabilité 69 - Théorème Soit (X n ) n une suite d éléments de L 1. Il y a équivalence entre : (a) La famille (X n ) n est équiintégrable et X n P X ; (b) X L 1 et X n L 1 X. Démonstration Prouvons que (a) = (b). D après le théorème 5.2.6, il existe une sous-suite (X nk ) k de (X n ) n qui converge p.s. vers X. D après le lemme de Fatou E( X ) lim inf E( X nk ) sup E( X nk ) sup qui existe d après le théorème : donc X L 1. L Montrons maintenant que X 1 n X, c est-à-dire que E( X n X ) 0. Soit ε > 0. X n X dp = X n X dp + X n X dp Ω X n X ε X n X >ε ε + X n dp + X dp X n X >ε X n X >ε La convergence en probabilité implique que lim n P ( X n X > ε) = 0. On applique alors l équicontinuité des X n (cf. le théorème ) pour conclure que X n X >ε X n dp 0 quand n tend vers l infini. La convergence vers 0 de l autre intégrale résulte de l absolue continuité de X L 1. Pour n n 0, les deux intégrales du membre de droite ci-dessus sont majorées par ε et donc, E( X n X ) 3ε. D où la convergence. Prouvons que (b) = (a). On a déjà vu au théorème que la convergence L 1 implique la convergence en probabilité. Il reste à prouver que les X n sont équiintégrables. On va encore utliser le critère d équiintégrabilité. La suite (X n ) n converge dans L 1 vers X, donc elle est bornée dans L 1 (résultat classique sur les suites convergentes dans un espace métrique). Ceci prouve la deuxième condition du critère d équiintégrabilité. Etablissons l équicontinuité. Soit ε > 0 et A un événement. D après le critère de Cauchy, il existe n 0 tel que, pour m n 0 et n n 0, E( X n X m ) ε/2. En particulier X n dp X n0 dp + X n X n0 dp X n0 dp + E( X n X n0 ) X n0 dp + ε/2 A A A La variable intégrable X n0 est absolument continue, donc il existe η > 0 tel que, si P (A) η, A X n 0 dp ε/2. Ceci prouve l équicontinuité de la famille (X n ) n n0. L autre partie de la famille est finie donc équicontinue, et la réunion de deux familles équicontinues est équicontinue d où la conclusion. emarque Si les variables X n sont uniformément bornées, elles sont équiintégrables, et par conséquent la convergence en probabilité et la convergence L 1 sont équivalentes. Théorème A Si la suite (X n ) n tend vers X en probabilité, et si les X n appartiennent à L 1, il y a équivalence entre (a) La famille (X n ) n est équiintégrable ; (b) lim n E( X n ) = E( X ). Démonstration Prouvons que (a) = (b). C est une conséquence du théorème , compte tenu de l inégalité X X n dp X X n dp Ω Ω A

70 70 - Les divers modes de convergence Prouvons que (b) = (a). Fixons A > 0 et définissons des variables Y n et Y par { Xn si X Y n = n A A sinon { X si X A, Y = A sinon La suite (Y n ) n tend vers Y en probabilité (cf. l exercice 5.67), et la famille formée par Y et les Y n est L uninformément bornée, donc équiintégrable (cf. le deuxième exemple du paragraphe 5.2.3). Donc Y 1 n Y d après le théorème et par conséquent, E( Y n ) E( Y ). Choisissons pour A un point de continuité de F X (ce n est pas une restriction car il existe de tels points arbitrairement grands, puisqu une fonction croissante ne peut avoir au plus qu un ensemble dénombrable de points de discontinuité). Alors, comme la convergence en probabilité implique la convergence en loi, P ( X n > A) P ( X > A). X n dp = E( X n ) E( Y n ) + AP ( X n > A) X n >A vu la définition des Y n. Quand n tend vers l infini, ceci converge vers E( X ) E( Y ) + AP ( X > A) = vu la définition de Y. Soit ε > 0. X >A X dp Vu l absolue continuité de X, il existe A 0 (que l on peut en plus choisir point de continuité de F X quitte à l augmenter) tel que X >A 0 X dp < ε/2. Vu la convergence établie ci-dessus, il existe n 0 tel que, pour n n 0, X n dp X dp + ε/2 ε X n >A 0 X >A 0 Par conséquent, pour tout A A 0, pour tout n n 0, X n dp ε. X n >A 0 Pour n < n 0, il est possible de trouver A 1 tel que, pour A A 1, X n dp ε (car une famille finie est équicontinue). Finalement, pour A max(a 0, A 1 ), pour tout n N, des X n Convergence des suites de mesures X n >A X n >A X n dp ε, ce qui établit l équiintégrabilité Dans cette partie, on désigne par (µ n ) n N une famille de mesures positives bornées sur Divers modes de convergence Définition On dit que (µ n ) n converge vers µ : (a) vaguement si f dµ n f dµ pour toute fonction f C K (continue à support compact). (a) faiblement si f dµ n f dµ pour toute fonction f C 0 (continue et tendant vers 0 en ± ). (a) étroitement si f dµ n f dµ pour toute fonction f C b (continue bornée).

71 Divers modes de convergence 71 - Théorème Soit H un sous-espace vectoriel dense de C 0 pour la topologie de la convergence uniforme sur. On suppose que (a) sup n µ n () < + ; (b) Pour toute fonction f H, f dµ n f dµ. Alors (µ n ) n converge faiblement vers µ. En particulier, si (a) est réalisée, la convergence vague implique la convergence faible, car C 0 est la fermeture de C K. Démonstration Posons A = max(sup n µ n (), µ()). D après l hypothèse (a), A < +. Soit ε > 0 et g C 0. Soit (f k ) k une suite d éléments de H convergeant uniformément vers g sur. Il existe k 0 tel que sup f k0 g ε/3a. Il existe également n 0 tel que, pour tout n n 0 f k0 dµ n f k0 dµ ε 3 (hypothèse (b)). Alors, pour tout n n 0 g dµ n g dµ (g f k0 ) dµ n + f k0 dµ n f k0 dµ + (g f k0 ) dµ g f k0 dµ n + f k0 dµ n f k0 dµ + g f k0 dµ ε 3A µ n() + ε 3 + ε 3A µ() d où le résultat. ε Théorème Si la suite (µ n ) n converge vaguement vers µ et si µ n () tend vers µ(), (µ n ) n converge étroitement vers µ. Démonstration On va déduire ce théorème d un résultat plus fort. Théorème On suppose que (µ n ) n converge vaguement vers µ. Soit g une fonction continue strictement positive sur. (a) Si sup n g dµ n < +, alors f dµ n f dµ pour toute fonction f continue telle que f/g tende vers 0 en ±. (b) Si g dµ n g dµ, alors f dµ n f dµ pour toute fonction f continue telle que f/g soit bornée. Démonstration Soit Φ k une fonction continue, égale à 1 sur [ k, k], nulle en dehors de [ (k + 1), k+1], partout comprise entre 1 et 1. Quitte à décomposer f en f + f, on peut supposer f positive. Alors fφ k C K et f fφ k, donc, pour tout n, pour tout k, f dµ n fφ k dµ n Par ailleurs, fφ k est positive et converge vers f en croissant quand k tend vers +, donc d après le théorème de convergence monotone, lim fφ k dµ = f dµ k +

72 72 - Les divers modes de convergence Soit ε > 0. Il existe k 0 tel que fφ k0 dµ puis il existe n 0 tel que, pour tout n n 0, fφ k0 dµ n f dµ ε/2 fφ k0 dµ ε/2 (hypothèse de convergence vague de (µ n ) n vers µ). Donc pour tout n n 0, f dµ n f dµ ε (Ceci est vérifié que l on soit dans l hypothèse (a) ou (b)). Prouvons l autre inégalité. On commence par noter que, pour tout n, pour tout k : f dµ n = fφ k dµ n + f(1 Φ k ) dµ n On se place tout d abord dans le cas (a) où f/g tend vers 0 en ±. Comme la fonction 1 Φ k est nulle en dehors de [ k, k], on a f(1 Φ k ) sup g f(1 Φ k ) = sup [ k,k] g C f sup [ k,k] g C (car 0 1 Φ k 1) et le dernier sup tend vers 0 quand k tend vers +. f(1 Φ k0 ) Soit A = sup g dµ n. Il existe k 0 tel que sup ε n g 2A. Alors f(1 Φ k0 ) dµ n ε g dµ n ε 2A 2 On a donc pour tout n : Par ailleurs, lim n + que, pour tout n n 1 f dµ n = fφ k0 dµ n = Finalement, pour n max(n 0, n 1 ) d où la convergence annoncée. fφ k0 dµ n + f(1 Φ k0 ) dµ n fφ k0 dµ n + ε 2 fφ k0 dµ (convergence vague de (µ n ) n vers µ). Donc il existe n 1 tel fφ k0 dµ n f dµ ε fφ k0 dµ + ε 2 f dµ n f dµ + ε 2 f dµ + ε On se place maintenant dans le cas (b). Soit C un majorant sur de f/g. On a alors ( ) f(1 Φ k ) dµ n c g(1 Φ k ) dµ n = c g dµ n gφ k dµ n Fixons k 0 suffisamment grand pour que ( c g dµ ) gφ k0 dµ ε 4 (convergence monotone de gφ k vers g). D après les hypothèses ( ) ( lim c gφ k0 dµ n = c n + g dµ n g dµ ) gφ k0 dµ

73 Divers modes de convergence 73 - donc il existe n 1 tel que, pour n n 1, ( ) ( c g dµ n gφ k0 dµ n c Comme au (a), lim n + que, pour tout n n 2 fφ k0 dµ n = Finalement, pour n max(n 0, n 1, n 2 ) d où la convergence annoncée. g dµ ) gφ k0 dµ + ε 4 ε 2 fφ k0 dµ (convergence vague de (µ n ) n vers µ). Donc il existe n 2 tel fφ k0 dµ n f dµ ε fφ k0 dµ + ε 2 f dµ n f dµ + ε 2 f dµ + ε Théorème Théorème de Skorohod L On suppose que les µ n et µ sont des mesures de probabilité et que µ n µ (id est : la fonction de répartition de µ n converge en loi vers celle de µ). Il existe alors un espace probabilisé (Ω, F, P ) et des variables aléatoires réelles Y n et Y tels que : (a) Pour tout n, Y n a pour loi µ n ; Y a pour loi µ. (b) Pour tout ω Ω, la suite (Y n (ω)) n converge vers Y (ω). Nous admettrons ce théorème. emarque La convergence en loi ne vérifie pas de bonnes propriétés arithmétiques : si par exemple X n tend vers X, il n est pas vrai en général que X n X tend vers 0. Par exemple, si les variables X n et X suivent une loi normale centrée réduite, la loi des X n coïncide avec celle de X mais aussi avec celle de X, car P (X [a, b]) = P ( X [a, b]) (à cause de la parité de la densité). Donc les X n tendent en loi vers X. Pourtant X n + X suit (si l on suppose les X n indépendantes de X) une loi normale centrée de variance 2 qui n est pas la loi de 0. On dispose néanmoins d un résultat partiel. Théorème Si la suite (X n ) converge en loi vers X et si (Y n ) converge en loi vers 0, alors (X n + Y n ) converge en loi vers X. emarque Avant de prouver cette propriété, on peut en donner une justification intuitive. Dire que (X n ) tend en loi vers X, c est dire que la répartition statistique de X n et de X ont tendance à être voisines. Dire que (Y n ) tend vers 0, c est dire que statistiquement Y n est souvent voisin de 0. Il en résulte qu ajouter Y n à X n modifie souvent peu X n et donc également la répartition statistique des valeurs prises par X n. Démonstration Soit t un réel tel que la fonction de répartition F de X soit continue en t. Soit α > 0. Pour que X n + Y n t, il est nécessaire que soit X n t α, soit Y n α. Donc Un raisonnement analogue montre que P (X n + Y n t) P (X n t α) + P (Y n α) P (X n + Y n t) P (X n t + α) P (Y n α) Fixons ε > 0. Il existe α tel que P (X t) ε P (X t + α) 3 (continuité de F X en t). La fonction F X étant décroissante, elle a au plus une infinité dénombrable de points de discontinuité, et en particulier ses points de continuité sont partout denses. On peut donc choisir α tel que t < t + α < t + α et tel que F X soit continue en t + α. On a alors (du fait de la décroissance de F X ) P (X t) ε 3 P (X t + α )

74 74 - Les divers modes de convergence et de plus (du fait de la convergence faible) Il existe donc n 0 tel que, pour n n 0, lim P (X n t + α ) = P (X t + α ) n + P (X n t + α ) P (X t + α ) ε/3 D autre part, la convergence faible de Y n vers 0 entraîne que P (Y n α /2) tend vers 1 (car la fonction de répartition de la variable aléatoire 0 est continue en α /2), et donc que P (Y n < α ) tend vers 0. Comme P (Y n α ) P (Y n < α /2), lim n + P (Y n α ) = 0 et par conséquent il existe n 1 tel que, pour tout n n 1, Finalement, pour tout n max(n 0, n 1 ), P (Y n α ) ε 3 P (X n + Y n t) P (X n t + α ) P (Y n α ) P (X t) ε On montre de même (en raisonnant de l autre côté ) l existence d un nombre N tel que, pour tout n N, P (X n + Y n t) P (X t) + ε et la convergence faible en résulte. emarque Si X est continue, il n y a plus d hypothèse restrictive sur t. Théorème Il y a équivalence entre : (a) µ n µ en loi ; (b) µ n µ étroitement ; (c) µ n (A) µ(a) pour tout borélien A tel que µ( A) = 0 (où A désigne la frontière de A pour la topologie usuelle sur ). Démonstration Montrons que (a) = (b). Définissons, en utilisant le théorème de Skorohod, des p.s. variables Y n de loi µ n et Y de loi µ telles que Y n Y. Pour toute fonction continue bornée f, f(y n ) p.s. f(y ). Il en résulte f dµ n = E(f(Y n )) E(f(Y )) = f dµ (on utilise le théorème de convergence dominée, puisque f est bornée). La convergence étroite est donc prouvée. Montrons que (b) = (c). On utilisera la propriété suivante : pour toute partie fermée F de, il existe une suite de fonctions continues bornées convergeant en décroissant vers 1 F (voir l exercice 5.69 pour un exemple de telle suite). On appliquera ceci aux fermés A, A et B, où B est le complémentaire dans de l intérieur A de A. Soit F un fermé et (g m ) m une suite de fonctions continues bornées convergeant en décroissant vers 1 F. Il résulte de la convergence étroite que, pour m fixé g m dµ n = g m dµ lim m lim n et du théorème de convergence dominée que g m dµ = 1 F dµ = µ(f )

75 Divers modes de convergence 75 - Soit ε > 0. Il existe m 0 tel que Il existe n 0 tel que, pour tout n n 0, µ n (F ) g m0 dµ µ(f ) + ε 2. g m0 dµ n g m0 dµ + ε 2 µ(f ) + ε (la première inégalité est due à la décroissance de la suite (g m ) m vers 1 F, la deuxième à la convergence étroite). Appliquons ceci à F = A : nous concluons que la suite (µ n ( A)) n tend vers 0. Appliquons ceci à F = A puis F = B, nous obtenons l existence d un entier N tel que, pour tout n N µ n (A) µ(a) + ε, µ n (B) µ(b) + ε Or B est la réunion disjointe de A et de A C (propriété des espaces topologiques). On a donc µ n (B) = µ n (A C ) + µ n ( A) = 1 µ n (A) + µ n ( A), µ(b) = 1 µ(a) + µ( A) = 1 µ(a) (car µ n et µ sont des mesures de probabilité). On a donc, pour n N 1 µ n (A) + µ n ( A) 1 µ(a) + ε soit Finalement, pour n N, µ n (A) µ(a) + µ n ( A) ε µ(a) ε µ(a) ε µ n (A) µ(a) + ε d où la convergence de µ n (A) vers µ(a). Le même raisonnement prouve que µ n (B) converge vers µ(b) (car µ n ( A) tend vers 0). Par passage au complémentaire, µ n ( A) converge donc vers µ( A). Or, µ( A) = µ(a) = µ(a) puisque µ( A) = 0. D où la convergence de µ n ( A) et µ n (A) vers µ(a), et donc aussi, par encadrement, celle de µ n (A) vers µ(a), ce qu il fallait démontrer. Montrons que (c) = (a). Il suffit de considérer A =], x] avec µ({x}) = 0 : c est la définition de la convergence en loi. Théorème Théorème de Helly Pour toute suite (F n ) n de fonctions de répartition, il existe une fonction F croissante et continue à droite et une sous-suite convergeant simplement vers F en tout point de continuité de F. emarque Attention, F peut ne pas être une fonction de répartition. On peut par exemple avoir F = 0 si le support de F n part à l infini (par exemple si F n est la fonction de répartition de la variable constante égale à n, dont la loi est la mesure de Dirac en n, notée δ {n} ). Démonstration Par le procédé diagonal, on définit une sous-suite F nk qui converge sur Q vers une fonction G définie sur Q (c est possible car Q est dénombrable : voir l exercice 5.70). Pour simplifier les notations, on désignera par (F n ) cette sous-suite. On pose ensuite, pour tout x, F (x) = inf G(r) r x,r Q La fonction G est croissante comme limite simple de fonctions croissantes, donc F l est aussi (vérifier). Par ailleurs, F et G coïncident sur Q (encore à cause de la croissance de G). Montrons que F est continue à droite.

76 76 - Les divers modes de convergence Soit x et ε > 0. Par définition de la borne inférieure, il existe r 1 > x (et rationnel) tel que F (r 1 ) < F (x) + ε. Soit x [x, r 1 ] : F (x) F (x ) F (r 1 ) < F (x) + ε Ceci prouve la continuité à droite (en posant, pour récupérer la définition classique, α = r 1 x). Montrons maintenant que F n converge en loi vers F. Soit x un point de continuité de F. Soit ε > 0 et y < x tel que F (y) > F (x) ε/2. Soit r et s des rationnels tels que y < r < x < s. Grâce à la continuité à droite, on peut supposer que G(s) < F (x) + ε/2. On a alors (*) F (x) ε 2 < F (y) G(r) G(s) < F (x) + ε 2 et, pour tout n, F n (r) F n (x) F n (s). Puisque lim n F n(r) = G(r) et lim n F n(s) = G(s), il existe n 0 tel que, pour tout n n 0, Il résulte alors de ( ) que, pour tout n n 0, F n (r) > G(r) ε/2 et F n (s) < G(s) + ε/2 F (x) ε < G(r) ε 2 < F n(x) < G(s) + ε 2 < F (x) + ε d où lim n F n(x) = F (x). Corollaire De toute suite (µ n ) n de mesures uniformément bornées, on peut extraire une sous-suite vaguement, et même faiblement, convergente. Démonstration Il suffit de reprendre la démonstration ci-dessus en considérant les fonctions F n associées aux µ n. En effet, dans l utilisation du procédé diagonal, on utilise uniquement le fait que les F n sont uniformément bornées Familles tendues de mesures Définition Soit (µ i ) i I une famille de mesures de probabilité. On dit que (µ i ) i est tendue si elle vérifie la propriété (T ) suivante : (T) Théorème ε > 0, [a, b], i I, µ i ([a, b]) > 1 ε Une famille (µ i ) i I est tendue si et seulement si, de toute suite (µ n ) n extraite de cette famille, on peut extraire une sous-suite (µ nk ) k qui converge étroitement vers une mesure de probabilité µ. emarque La condition (T ) est notamment vérifiée si les µ i sont tous à support dans un même compact de. Démonstration Prouvons que la condition est suffisante. Le théorème de Helly fournit une sous-suite de la suite F µn qui converge en loi vers une fonction croissante continue à droite F. Il suffit de montrer que F est une fonction de répartition, c est-à-dire qu elle possède la propriété supplémentaire : lim F = 0, lim F = 1. + Soit ε > 0 et [a, b] l intervalle associé par la condition (T ) à ε. La fonction F possède des points de continuité a et b tels que a < a et b > b. On a alors pour tout n, F n (a ) < ε et F n (b ) > 1 ε. En passant à la limite, on en déduit que x a, F (x) F (a ) ε, x b, F (x) F (b ) 1 ε

77 Le théorème de Paul-Lévy 77 - ce qui prouve le résultat. Prouvons que la condition est nécessaire. Si, au contraire, la famille n est pas tendue, on peut trouver ε 0 > 0 tel que, pour tout k N, il existe une mesure µ k dans la famille vérifiant µ k ([ k, k]) 1 ε. Pourtant, on peut par hypothèse extraire de cette suite une sous-suite convergeant en loi vers une mesure de probabilité µ. Soit N tel que N et N soient des points de continuité de F µ et tel que µ([ N, N]) > 1 ε. Alors, comme µ([ N, N]) = µ(], N]) µ(], N[) = µ(], N]) µ(], N]) (continuité de F µ en N) = F µ (N) F µ ( N) on a µ([ N, N]) = lim i F µki (N) F µki ( N) = lim i µ ki (] N, N]) Or, dès que i est suffisamment grand pour que k i N, µ ki (] N, N]) µ ki ([ k i, k i ]) 1 ε donc, par passage à la limite, µ([ N, N]) 1 ε, en contradiction avec la définition de N ci-dessus Le théorème de Paul-Lévy Ce paragraphe est consacré à la démonstration du théorème de Paul-Lévy, qui établit le lien entre la convergence en loi des mesures de probabilité et la convergence simple de leurs fonctions caractéristiques. Théorème Théorème de Paul-Lévy Soit (µ n ) n et µ des mesures de probabilité. On pose, pour t réel, pour n N : ϕ n (t) = e itx dµ n (x), ϕ(t) = e itx dµ(x) Les fonctions ϕ n et ϕ sont appelées fonctions caractéristiques de µ n et µ respectivement. (a) Si µ n L µ, ϕn converge vers ϕ uniformément sur tout compact. (b) Si ϕ n converge simplement sur vers une fonction λ continue en 0, il existe une mesure de probabilité µ telle que λ soit la fonction caractéristique de µ, et µ n L µ. Démonstration Prouvons tout d abord (a). Pour tout n, ϕ n (t) = eitx dµ n (x). La fonction x e itx est continue bornée sur et µ n converge étroitement vers µ : on a donc convergence simple de ϕ n (t) vers ϕ(t). Pour prouver la convergence uniforme sur les compacts, nous allons commencer par montrer que la famille (ϕ n ) n est équicontinue, c est-à-dire que, pour tout ε > 0, il existe α > 0, indépendant de n, tel que t, h, n N, si h α, ϕ n (t + h) ϕ n (t) ε Fixons ε > 0. Il existe a tel que µ(], a[ ]a, + [) ε (car µ() < + ) et tel que µ({ a, a}) = 0 8 (car il y a au plus une infinité dénombrable de valeurs x telles que µ({x}) > 0). Du fait de la convergence étroite, il existe n 0 tel que, pour tout n n 0 µ n (], a[ ]a, + [) µ(], a[ ]a, + [) + ε 8 ε 4 (cf. le point (c) du théorème 5.3.7, avec A =], a[ ]a, + [ dont la frontière est A = { a, a}). Quitte à augmenter a, on peut supposer que l inégalité µ n (], a[ ]a, + [) ε 4 est en fait vérifiée pour tout n (puisqu il n y a qu un nombre fini d autres valeurs de n). On supposera ceci réalisé par la suite.

78 78 - Les divers modes de convergence On peut alors écrire ϕ n (t + h) ϕ n (t) e ihx 1 dµ n (x) + e ihx 1 dµ n (x) A [ a,a] 2 dµ n (x) + e ihx 1 dµ n (x) A [ a,a] 2µ n (A) + e ihx 1 dµ n (x) [ a,a] ε 2 + e ihx 1 dµ n (x) [ a,a] Par continuité de l exponentielle en 0, il existe η > 0 tel que, si u η, e u 1 ε 2. Posons alors α = η a (noter que ce nombre α est indépendant de n) et supposons que h α. Alors, pour tout x [ a, a], ihx η et donc e ihx 1 ε. On a alors 2 e ihx 1 dµ n (x) ε 2 µ n([ a, a]) ε 2 µ n() = ε 2 [ a,a] Finalement, si h α, pour tout n, pour tout t, ϕ n (t + h) ϕ n (t) ε : l équicontinuité est établie. Prouvons enfin la convergence uniforme sur les compacts. Soit K un compact de et ε > 0. D après l équicontinuité, il existe α > 0 tel que, si x y α, ϕ n (x) ϕ n (y) ε/3 pour tout n. Fixant x et y et faisant tendre n vers l infini, on en déduit l implication x y α = ϕ(x) ϕ(y) ε 3 ecouvrons K par un nombre fini de boules de rayon α (compacité de K) et désignons par x 1,, x r les centres de ces boules. Les r suites (ϕ n (x i )) n convergent donc il existe n 0 tel que, pour tout n n 0, pour tout i {1,, r}, ϕ n (x i ) ϕ(x i ) ε 3 Soit alors x K. Il existe i {1,, r} tel que x x i α. Donc ϕ n (x) ϕ(x) ϕ n (x) ϕ n (x i ) + ϕ n (x i ) ϕ(x i ) + ϕ(x i ) ϕ(x) ε 3 + ε 3 + ε 3 = ε d où la conclusion (car n 0 est indépendant de x). Prouvons maintenant le point (b). Nous allons considérer l intégrale I u = 1 u u u (1 ϕ n (t)) dt. D après le théorème de Fubini (qui s applique parce que les fonctions considérées sont intégrables [le vérifier]) + ( 1 u ) I u = (1 e itx ) dt dµ n (x) u u + ( = 2 1 sin(ux) ) dµ n (x) ux ( ) dµ n (x) x 2/u ux dµ n (x) = µ n ({x x 2/u}) x 2/u La limite simple λ des ϕ n est continue en 0 et λ(0) = 1 (car ϕ n (0) = 1). Donc, pour tout ε > 0, il existe u 0 > 0 tel que 1 λ(t) ε 4 sur [ u 0, u 0 ], et donc 1 u 0 u0 u 0 (1 λ(t)) dt ε 2

79 Exercices 79 - Fixons désormais u 0. Puisque ϕ n converge simplement sur, donc sur [ u 0, u 0 ], vers λ et puisque les ϕ n sont bornées par 1, le théorème de convergence dominée implique lim n 1 u 0 u0 u 0 (1 ϕ n (t)) dt = 1 u 0 Il en résulte l existence de n 0 tel que, pour tout n n 0, 1 u 0 u0 u0 u 0 (1 ϕ n (t)) dt ε u 0 (1 ϕ n (t)) dt Si on pose a = 2 u 0, on a donc, pour tout n n 0, µ n (], a[ ]a, + [) ε. Quitte à augmenter a, on peut supposer comme ci-dessus que cette inégalité est valable pour tout n (les autres conditions à satisfaire sont en nombre fini). Nous en déduisons que la suite (µ n ) n est tendue. D après le théorème , il existe donc une sous-suite (µ nk ) k convergeant en loi vers une mesure de probabilité µ. Par identification, ceci implique que λ = ϕ µ (appliquer la partie (a) du théorème). Supposons que la suite (µ n ) n possède une autre valeur d adhérence ν. En appliquant la partie (a) du théorème aux fonctions caractéristiques, on en déduit que λ = ϕ ν, et donc que ϕ µ = ϕ ν. Or la transformation de Fourier est une application injective : donc µ = ν. La suite (µ n ) n ne possède donc qu une valeur d adhérence. Comme nous sommes dans une situation de compacité du fait du théorème de Helly, cette suite converge donc vers µ Exercices Exercice Une autre démonstration du lemme de Borel-Cantelli On considère une suite A k d événements et on fait l hypothèse que Pour tout n 0, on pose f n réalisent. + k=1 P (A k ) < + 1 Montrer que l événement A coïncide avec l événement = n k=1 1 A k et on désigne par A l événement : une infinité de A n se lim f n = + n + On désigne par f la fonction f = + k=1 1 A k. La fonction f est donc la limite simple croissante des fonctions f n. 2 Montrer que On désigne par E(f) cette intégrale (espérance de f). E f dp < + 3 Soit N N. Montrer que P (f N) E(f)/N. En déduire que l événement A est de probabilité nulle et que, presque sûrement (c est-à-dire avec probabilité 1), seuls un nombre fini de A n se réalisent. Exercice Limite presque sûre du maximum de n variables indépendantes On considère des variables aléatoires X n indépendantes uniformément distribuées sur [0, 1], c est-à-dire telles que, pour 0 a b 1 P (X n [a, b]) = b a Soit A n l événement {max(x 1,, X n ) 1 1/ n}. Montrer que P (A n ) = (1 1/ n) n et que presque sûrement n 0, n n 0, max(x 1,, X n ) 1 1/ n

80 80 - Les divers modes de convergence Qu en conclut-on quant à la convergence de la suite (max(x 1,, X n )) n? emarque La rapidité de convergence sera précisée à l exercice Exercice Soit E l ensemble des classes d équivalence de variables aléatoires pour l égalité presque sûre. Montrer que les formules ci-dessous définissent bien deux applications d 1 et d 2 sur E E, et que ces applications sont des distances telles que lim d 1(X n, X) = 0 lim d P 2(X n, X) = 0 X n X n n En d autres termes, les métriques d 1 et d 2 définissent la topologie de la convergence en probabilités. d 1 (X, Y ) = inf{ε > 0 P ( X Y ε) ε} ( ) X Y d 2 (X, Y ) = E 1 + X Y Exercice Soit (X n ) n une suite de variables aléatoires convergeant en probabilité vers X. On fixe A > 0 et on définit des variables Y n et Y par { Xn si X Y n = n A A sinon { X si X A, Y = A sinon Montrer que la suite (Y n ) n tend vers Y en probabilité L Exercice On suppose que X n X et que les Xn sont équiintégrables. Montrer que X L 1 et que E(X n ) E(X). Indication : utiliser le théorème pour remplacer les X n par des Y n convergeant p.s. vers Y. Vérifier que les Y n sont équiintégrables et conclure. Exercice Approximation continue d une fonction indicatrice Soit A une partie fermée non vide de. Pour x, on pose d(x, A) = inf y A x y. Pour n N, x, on pose f n (x) = max(0, 1 nd(x, A)) 1 Montrer que, quels que soient x et y réels, d(x, A) d(y, A) x y. 2 En déduire que les f n sont continues et bornées par 0 et 1. 3 Montrer que, pour tout x, la suite (f n (x)) n converge en décroissant vers 1 A (x). Exercice Le procédé diagonal Soit (x k ) k N une famille dénombrable de nombres réels et (f n ) n N une famille dénombrable de fonctions de dans. On suppose que, pour tout n N, f n () [0, 1]. 1 On fixe k = 1 et on considère la suite (f n (x 1 )) n. Montrer que l on peut en extraire une sous-suite convergente (f ϕ1(n)(x 1 )) n. 2 On fixe k = 2 et on considère la suite (f ϕ1(n)(x 2 )) n. Montrer que l on peut en extraire une sous-suite convergente (f ϕ2(n)(x 2 )) n. 3 De manière générale, justifier l existence, pour tout k N, d une suite (f ϕk (n)) n extraite de (f ϕk 1 (n)) n telle que les k suites (f ϕk (n)(x 1 )) n, (f ϕk (n)(x 2 )) n,, (f ϕk (n)(x k )) n soient convergentes. 4 On fixe k N. Montrer que, pour n suffisamment grand, la suite (f ϕn(n)(x k )) n est extraite de la suite (f ϕk (n)(x k )) n. En déduire que cette suite converge. 5 Prouver qu on peut extraire de la suite de fonctions (f n ) une sous-suite qui converge simplement en tous les x k.

81 Exercices 81 - (Ce résultat est un cas particulier d un théorème de topologie, le théorème de Tychonoff, selon lequel tout produit d espaces compacts est compact ; la démonstration ci-dessus peut être facilement adaptée pour prouver le théorème de Tychonoff, dans le cas d un produit dénombrable de compacts métriques). Exercice Soit (Y n ) une suite de variables de Bernoulli indépendantes de même loi définie par P (Y n = 1) = p et P (Y n = 1) = 1 p où 0 < p < 1 et p 1/2. On pose Z 0 = 0 et, pour tout n 1, Z n = Y Y n. On désigne par A n l événement Z n = 0. On appelle un tel événement un retour en zéro. 1 Que représente l événement lim sup A n? 2 Montrer que presque sûrement il n y a qu un nombre fini de retours en zéro. Exercice On considère une suite (X n ) de variables aléatoires indépendantes vérifiant P (X n = 0) = 1 1/n et P (X n = 1) = 1/n. 1 Montrer que P (X n x) tend vers 1 si x > 0 et vers 0 si x < 0. En déduire que la suite (X n ) converge en loi vers 0. Vérifier qu il y a aussi convergence en probabilités. 2 Montrer que, avec probabilité 1, il existe une infinité de valeurs de n telles que X n = 1. En déduire que, presque sûrement, la suite (X n ) ne tend pas vers 0. Exercice Soit F n et F les fonctions définies par 0 si x < 1 F n (x) = n 0 si x < 0 F (x) = 1 si x 1 1 si x 0 n 1 De quelles variables aléatoires X n et X ces fonctions sont-elles les fonctions de répartition? 2 Montrer que F n (x) converge vers F (x) en tout point x où F est continue. Exercice On suppose que la suite (X n ) converge presque sûrement vers X sur Ω. Soit f une fonction continue bornée sur. Montrer que f(x n (ω)) dp (ω) = f(x ( ω)) dp (ω) lim n + et en déduire que la suite X n converge aussi en loi vers X. Ω Exercice Soit X n une suite de variables aléatoires convergeant en loi vers une variable X et Y n une suite de variables aléatoires convergeant en loi vers 0. Montrer que la suite (X n Y n ) converge en loi vers 0. Exercice Soit (X n ) une suite de variables aléatoires réelles. On suppose que, pour tout n, la loi de X n admet une densité f n. On suppose en outre que la suite f n converge presque partout sur vers une densité f (id est : f est la densité d une certaine variable aléatoire X). 1 Montrer que (f(t) f n (t)) dt = 0. 2 Pour chaque valeur de n, on pose g n = max(f f n, 0) et h n = inf(f f n, 0). a Montrer que g n (t) dt = h n (t) dt. b Etudier la convergence de la suite g n. c Vérifier que, pour tout n, g n f et f f n = g n + h n. d Montrer que et en déduire que Ω lim g n (t) dt = 0 n + lim f(t) f n (t) dt = 0 n +

82 82 - Les divers modes de convergence 3 Soit A = ], x]. Montrer que (f(t) f n (t)) dt et en déduire que X n tend en loi vers X. A f(t) f n (t) dt Exercice enormalisation et maximum de variables aléatoires indépendantes de même loi. Cas de variables bornées Soit X 1,, X n des variables aléatoires indépendantes de même loi ; soit G leur fonction de répartition. On suppose qu il existe un nombre x 0 tel que On désigne par M n le maximum des X i. x < x 0, G(x) < 1, G(x 0 ) = 1 1 Montrer que lim n + P (M n [a, b]) = 0 si b < x 0 ou a > x 0 et que cette limite vaut 1 si a < x 0 < b. 2 On suppose que x 0 = 1 et que G(x) = 1 (1 x) α si x [0, 1] (où α désigne un paramètre strictement positif). a Montrer que si α = 1, les variables X i ont une loi uniforme sur [0, 1]. b On pose Z n = n 1/α (M n 1). Montrer que Indication : on utilisera la propriété lim P (Z n < x) = n + { exp ( ( x) α ) si x 0 1 si x > 0 ( lim 1 + x n = exp (x) n + n) Exercice enormalisation et maximum de variables aléatoires indépendantes de même loi. Cas de variables non bornées Comme ci-dessus, on désigne par X 1,, X n des variables aléatoires indépendantes de même loi et par G leur fonction de répartition. On suppose maintenant que x, G(x) < 1 Comme dans l exercice précédent, on désigne par M n le maximum des X i. 1 Montrer que, pour tout x, lim n + P (M n > x) = 1. 2 On suppose ici que les X i suivent une loi exponentielle de paramètre α. En d autres termes { 1 si x 0 P (X i > x) = e αx sinon On pose Z n = αm n ln n. Montrer que, pour tout x, lim P (Z n < x) = exp ( e x ) n + Indication : on utilisera comme à l exercice précédent la propriété ( 1 + n) x n = exp (x) lim n + 3 On suppose dans cette question que les X i suivent une loi de Cauchy de paramètre c > 0. En d autres termes c P (X i A) = π(c 2 + x 2 ) dx On pose Z n = π M n /nc. A Montrer que { lim P (Z n < x) = exp ( x 1 ) si x > 0 n + 0 sinon Indication : outre la limite rappelée à la question précédente, on utilisera le fait que, pour tout x > 0, arctan (x) + arctan (1/x) = π/2.

83 Chapitre VI Les théorèmes limites en probabilités 6. 1 Limites de sommes de variables indépendantes Soit (X n ) n une suite de variables aléatoires, et S n = Théorème n X i. i=1 Si les X n sont indépendantes, la suite (S n ) n converge presque sûrement ou diverge presque sûrement. Démonstration On vérifie facilement que l événement (lim sup S n = lim inf S n ) appartient à la tribu de queue n 1 σ(x n, X n+1, ). Il suffit alors d appliquer la loi du tout ou rien. Théorème Inégalité de Kolmogorov Si les X i sont indépendantes, dans L 2 et centrées (E(X i ) = 0) α > 0, P ( max k=1,,n S k α) Var (S n) α 2 emarque Si les X i sont seulement indépendantes, on peut les tronquer (en les remplaçant par Y i, définie par Y i = X i si X i n, Y i = n (resp. n) si X i > n (resp. X i < n)) puis centrer Y i (en le remplaçant par Z i = Y i E(Y i )) et appliquer l inégalité aux Z i. Démonstration Pour 1 k n, définissons des événements A k par A k = ( i < k 1, S i < α, S k α) Les A k sont deux à deux disjoints et la probabilité que nous cherchons à majorer est celle de leur réunion A. Puisque les X i sont centrées, S n aussi et Var S n = E(S 2 n ) = On écrit alors Ω S 2 n dp A S n 2 dp = n k=1 A k S n 2 dp S 2 [ n dp = 2 Sk + 2S k (S n S k ) + (S n S k ) 2] dp A k A k = S 2 k dp Ak S k (S n S k ) dp + (S n S k ) 2 dp A k Ω A k La première intégrale est supérieure à α 2 P (A k ) (par définition de A k, la troisième est positive. Le seconde est nulle car S n S k est indépendant de 1 Ak S k (à cause de l indépendance des X i ) et par conséquent 1 Ak S k (S n S k ) dp = E(1 Ak S k (S n S k )) = E(1 Ak S k )E(S n S k ) Ω 83

84 84 - Les théorèmes limites en probabilités d après la caractérisation intégrale de l indépendance. Or E(S n S k ) = 0 car les variables X i sont centrées. Finalement d où d où le résultat. Théorème n α 2 P (A k ) k=1 α 2 P (A k ) S 2 n dp A k n k=1 A k S 2 n dp Ω S n 2 dp = V (S n ) Si les X n sont indépendantes, centrées et dans L 2 et si la série + n=1 V (X n) converge, la suite (S n ) n converge presque sûrement et dans L 2. Démonstration Commençons par la convergence dans L 2 : nous allons montrer que (S n ) n est de Cauchy et conclure en utilisant la complétude de L 2. Soit ε > 0. Il existe n 0 tel que + n=n 0+1 V (X n) ε. Choisissons p > q n 0. Alors E( S p S q 2 ) = V (S p S q ) = Le critère de Cauchy est donc satisfait. p n=q+1 V (X n ) + n=n 0+1 V (X n ) ε Soit S la limite de la suite (S n ) n dans L 2. Prouvons maintenant la convergence presque sûre de (S n ) n vers S. D après le théorème , il suffit de prouver que, pour tout ε > 0, ou encore lim P ( S n S ε, n m) = 1 m lim P ( sup S n S > ε) = 0 m n m La suite (S n ) n converge vers S dans L 2, donc admet une sous-suite (S nk ) k convergeant p.s. vers S. D après le théorème , lim P ( sup S nk S > ε K k K 2 ) = 0 Soit ε 1 > 0. Il existe donc K tel que, pour tout k 0 K, et tel que (reste d une série convergente). P ( sup S nk S > ε k k 0 2 ) ε ε 2 + n=m 0+1 V (X n ) ε 1 2 Posons m 0 = n k0. Soit n m 0. Supposons que S n S > ε. Alors : Soit S n S m0 > ε 2 Soit S m0 S > ε 2 En effet, si aucune des deux inégalités n avait lieu, l inégalite triangulaire impliquerait S n S S n S m0 + S m0 S ε

85 Limites de sommes de variables indépendantes 85 - Par conséquent, l événement (sup n m0 S n S > ε) est contenu dans la réunion ( sup n m 0 S n S m0 > ε/2) ( S m0 S > ε/2) La probabilité du deuxième événement est majorée par car S m0 S = S nk0 S par définition de m 0. P ( sup S nk S > ε k k 0 2 ) < ε 1 2 Pour majorer la première probabilité, on remarque que l événement ( sup n m 0 S n S m0 > ε/2) est la réunion croissante quand p tend vers + des événements et donc ( sup S n S m0 > ε/2) m 0 n p P ( sup S n S m0 > ε/2) = lim P ( n m 0 p sup m 0 n p S n S m0 > ε/2) d après le théorème de convergence monotone. Or, l inégalité de Kolmogorov implique que P ( sup m 0 n p S n S m0 > ε/2) V (S p S m0 ) ε 2 = 1 ε 2 p 1 ε 2 ε 1 2 n=m n=m 0+1 V (X n ) V (X n ) vu le choix de k 0. Cette inégalité large passe à la limite et prouve que si m 0 = n k0 avec k 0 K, P ( sup n m 0 S n S > ε) ε 1 Ceci prouve que la suite (P (sup n nk S n S > ε)) k tend vers 0 quand k tend vers l infini. Cette suite est extraite de la suite (P (sup n m S n S > ε)) m dont nous voulons prouver la convergence vers 0. Il suffit pour cela de remarquer que la suite (P (sup n m S n S > ε)) m est décroissante (quand m augmente, le sup est pris sur une famille plus petite de valeurs de n, donc il diminue, donc sa probabilité de dépasser un certain seuil diminue aussi) et de noter qu une suite décroissante qui admet une sous-suite convergeant vers 0 converge elle aussi vers 0. Théorème Si les X n sont indépendantes, la suite (S n ) n converge en probabilité si et seulement si elle converge presque sûrement. Démonstration On a déjà démontré au théorème que la convergence presque sûre implique la convergence en probabilité. Prouvons la réciproque. Pour n m, posons T m,n = S n S m. La suite (S n ) n converge en probabilité si et seulement si elle est de Cauchy en probabilité, et on vérifie facilement (le faire en exercice) que ceci équivaut à la propriété suivante : ε > 0, n 0 (ε) N, n n 0 (ε), m n 0 (ε), P ( T m,n > ε) ε

86 86 - Les théorèmes limites en probabilités Supposons m et n supérieurs à n 0 (ε) et soit k un entier compris entre m et n : désignons par A k, B k et C k les événements A k = ( max m,j 2ε) m j k 1 B k = ( T m,k > 2ε) C k = ( T k,n ε) Les événements A k B k C k sont deux à deux disjoints (B k est incompatible avec A k+1 et les suivants), et tous inclus dans l événement ( T m,n > ε), car T m,n = T m,k + T k,n, donc T m,n T m,k T k,n > ε sur B k C k. On a donc n P (A k B k C k ) ε k=m Puisque les X i sont indépendantes, les événements A k B k et C k sont indépendants, donc n P (A k B k )P (C k ) ε k=m Comme k m n 0, P (C k ) 1 ε. Donc, puisque les A k B k sont deux à deux disjoints n (1 ε)p ( A k B k ) ε Or, n k=m A k B k = ( max m j n T m,j > 2ε). Donc k=m P ( max T m,j > 2ε) ε m j n 1 ε Soit ε 0 > 0 et ε < ε 0. On a alors, pour m et n supérieurs à n 0 (ε), P ( max T m,j 2ε 0 ) P ( max T m,j > 2ε) ε m j n m j n 1 ε Supposons que sup m j T m,j 2ε 0. Alors, puisque ε < ε 0, il existe j 0 m tel que T m,j0 > 2ε, et donc max m j j0 T m,j > 2ε. Donc et par conséquent (sup T m,j 2ε 0 ) m j P (sup m j T m,j 2ε 0 ) P ( + j 0=m Comme la réunion du membre de droite est croissante, P ( + j 0=m + j 0=m ( max T m,j > 2ε) m j j 0 ( max T m,j > 2ε)) m j j 0 ( max T m,j > 2ε)) = lim P ( max T m,j > 2ε) m j j 0 j 0 m j j 0 (théorème de convergence monotone), et comme toutes les probabilités du membre de droite sont majorées ε par 1 ε, on en déduit que, pour tout m n 0(ε), P (sup T m,j 2ε 0 ) ε m j 1 ε Puisque ε > 0 est arbitraire pourvu que ε < ε 0, il en résulte que lim P (sup T m,j 2ε 0 ) = 0 m m j La conclusion résulte alors du théorème (équivalence entre la convergence presque sûre et la propriété (2) de type Cauchy).

87 Loi forte des grands nombres La loi des grands nombres Loi forte des grands nombres. On commence par établir un lemme sur les séries. Théorème Lemme de Kronecker Soit (x k ) k une suite de réels, et (a k ) k une suite de réels positifs tendant en croissant vers +. Si la série x k 1 n converge, lim x k = 0. a k n a n Démonstration Soit ε > 0. Il existe n 0 tel que, pour tout k n 0, k < ε k=1 x p a p=n p 0 Fixons k > n 0 et posons u k = 1 a k k p=1 x p = 1 n 0 1 a k p=1 k a p x p x p + a p=n k a p 0 Convenons de noter S n0 1 = 0, S k = k p=n 0 x p a p pour k n 0. On obtient u k = 1 n 0 1 a k p=1 k a p x p + (S p S p 1 ) a p=n k 0 Dans cette somme, le premier terme ne pose pas de problème puisqu il est majoré par ε dés que a k > n 0 1 p=1 x p ε ce qui est vrai pour tout k k 0 puisque lim a k = +. Quant au second k p=n 0 a p a k (S p S p 1 ) = k a p S p a p=n k 0 = S k + k 1 p=n 0 k 1 a p+1 S p a p=n k 0 1 ( ap a k a p+1 a k ) S p (car S n0 1 = 0) d où k p=n 0 a p (S p S p 1 ) a k S k + k 1 p=n 0 a p+1 a p a k S p car (a p ) p est croissante. Finalement k (S p S p 1 ) a k d où le résultat. p=n 0 a p k 1 a p+1 a p ε + ε a p=n k ( 0 ε + 1 a ) n 0 ε 2ε a k

88 88 - Les théorèmes limites en probabilités Théorème Soit (X n ) n une suite de variables aléatoires indépendantes centrées, (a n ) n une suite croissante de réels strictement positifs tendant vers l infini et ϕ une fonction continue, positive et paire, telle que (i) Le quotient ϕ(x) x (ii) Le quotient ϕ(x) x 2 croît avec x ; décroît quand x croît. Alors, on a les implications suivantes : + n=1 E ( ) ϕ(xn ) + X n < + = ϕ(a n ) a n=1 n Avant de prouver le théorème, nous démontrons un lemme utile. Lemme converge p.s. = S n a n 0 p.s. Soit (X n ) n une suite de variables aléatoires réelles indépendantes ; A un réel strictement positif et Y n = X n 1 Xn A. On suppose que les trois séries suivantes convergent : (i) P ( X n > A) (ii) E(Y n ) (iii) V (Y n ) Alors la série X n converge presque sûrement. emarque La réciproque de ce résultat est vraie. L équivalence ainsi établie (et que nous ne démontrerons pas ici) est connue sous le nom de théorème des trois séries. Démonstration Les variables Z n = Y n E(Y n ) sont indépendantes, centrées et bornées par 2A, donc dans L 2. Puisque la série V (Z n ) converge, le théorème implique que la série Z n converge presque sûrement. Puisque, par hypothèse, E(Y n ) converge, il en résulte que Y n converge presque sûrement. D autre part, P (X n Y n ) = P ( X n > A) et donc, d après la convergence de la série P ( X n > A) et le lemme de Borel-Cantelli, l événement (X n Y n ) ne se produit presque sûrement qu un nombre fini de fois. Deux séries qui diffèrent par un nombre fini de termes ont la même nature. Donc, puisque Y n converge presque sûrement, il en est de même de X n. Démonstration emarquons d abord qu il suffit de prouver la première implication, la seconde résultant du lemme de Kronecker. Soit Y n = X n 1 Xn a n. Par hypothèse, si x a n, ϕ(x) x 2 ϕ(a n), d où x2 a 2 n ( ) Y 2 E n L hypothèse implique donc que la série V a 2 n ( Yn a 2 n ϕ(x). On a donc ϕ(a n ) ϕ(y n ) X n a n ϕ(a n ) dp ϕ(x n ) = X n a n ϕ(a n ) dp ϕ(x n ) Ω ϕ(a n ) dp ( ) ϕ(xn ) = E ϕ(a n ) ) converge (car V (X) E(X 2 ) pour tout X L 2 ). a n

89 Loi forte des grands nombres Posons Z n = Y n E(Y n ). Alors, pour tout n a n Z n 2, E(Z n ) = 0, V (Z n ) = V Il résulte alors du lemme (appliqué aux Z n avec A = 2) que la série Z n converge presque sûrement. D autre part, Si x > a n, ϕ(x) x ( Yn E(Y n ) = 1 X a n a n n dp X n a n = 1 X n dp a n X n >a n (car l intégrale totale est E(X n) = 0 X n dp X n >a n a n ϕ(a n), d où a n E(Y n ) a n ϕ(x n ) X n >a n ϕ(a n ) dp ϕ(x n ) Ω ϕ(a n ) dp ( ) ϕ(xn ) = E ϕ(a n ) L hypothèse implique donc que la série E(Y n) converge, et donc aussi E(Y n). Compte tenu de la a n a n convergence p.s. de Y n E(Y n ) établie ci-dessus, il en résulte par différence que Y n converge presque a n a n sûrement. Pour prouver la convergence presque sûre de X n a n, nous allons montrer, comme dans le lemme que, presque sûrement, X n et Y n ne différent que par un nombre fini de termes. En utilisant le lemme de Borel-Cantelli, il suffit de prouver que la série P (X n Y n ) converge. Or, une fois de plus a n ) P (X n Y n ) = P ( X n > a n ) = 1 dp X n >a n X n dp X n >a n a ( ) n ϕ(xn ) E ϕ(a n ) comme nous l avons prouvé ci-dessus. Ceci prouve la convergence annoncée et achève la démonstration. Nous donnons maintenant un certain nombre de corollaires du théorème Si on choisit ϕ(x) = x 2, a n = n, le théorème permet d écrire + n=1 V (X n ) n 2 < + = S n n 0 p.s. On peut écrire une propriété analogue pour ϕ(x) = x p si p [1, 2]. S il existe δ > 0 et M 0 tels que, pour tout n, E( X n 1+δ ) M, on peut appliquer le théorème avec ϕ(x) = x 1+δ et a n = n. De nouveau, il en résulte que S n /n tend vers 0 presque sûrement.

90 90 - Les théorèmes limites en probabilités Corollaire Si les X n sûrement. sont des variables indépendantes centrées et si + n=1 V (X n ) n 2 < +, S n n 0 presque C est un exemple de loi forte des grands nombres pour des variables aléatoires ne suivant pas forcément la même loi. Ce théorème peut aussi se démontrer directement en appliquant l inégalité de Kolmogorov et le lemme de Kronecker à Z n = X n n. Théorème Loi forte des grands nombres Si les X n sont indépendantes et de même loi, intégrables d espérance commune E(X n ) = m, alors S n lim = m presque sûrement n n Démonstration Par translation, on se ramène au cas où m = 0. Si les variables X n sont dans L 2, leurs translatées Y i le sont aussi et le résultat est immédiat d après le corollaire ci-dessus, puisque V (Y n ) = V (X 1 ) pour tout n (variables de même loi) et 1 n 2 < +. Sinon, posons pour k N, Y k = X k 1 Xk k. Nous allons de nouveau prouver que presque ( sûrement, ) à Y1 + + Y n l exception d un nombre fini de termes, Y k = X k et il suffira donc de prouver que la suite n n tend vers 0, ce que nous ferons ensuite. Grâce au lemme de Borel-Cantelli, il suffit de prouver que P (X k Y k ) converge. Or En effet, k=1 P ( X > t) dt = = = P (X k Y k ) = = E( X ) + k=1 + k k=1 = E(X) P ( X k > k) k 1 P ( X > t) dt ( ) dp X (x) dt x >t ( ) x dt dp X (x) (théorème de Fubini-Tonnelli) 0 x dp X (x) Y Y n Pour prouver que lim = 0, nous allons commencer par prouver la convergence de V (Y k) n n k 2. V (Y k ) E(Yk 2 ) = x 2 dp X (x) Donc + k=1 V (Y k ) k 2 = + k=1 + 1 k 2 1 k 2 k=1 + i=1 i ( ( k ( i=1 k i i=1 x k i 1 x i i 1 x i x 2 dp X (x) x dp X (x) i 1 x i ) x dp X (x) ) + k=i ) 1 k 2

91 Loi forte des grands nombres par application du théorème de Fubini-Tonnelli puisqu on intègre des fonctions positives. Or, + k=i 1 k 2 2 i (comparaison avec une intégrale), donc + k=1 V (Y k ) k i=1 i 1 x i x dp X (x) = 2E( X ) < + Posons Z k = Y k E(Y k ). Les Z k sont centrées, indépendantes, de même variance que Y k, donc Z Z n lim = 0 n n E(Y 1 ) + + E(Y n ) d après le corollaire ci-dessus. Pour conclure, il suffit donc de prouver que lim = 0 n n Posons Y k = X 11 X1 k. Les variables Y k t Y k ont la même loi (car X 1 et X k ont la même loi), donc la même espérance. Mais les variables Y k sont dominées par X 1, et convergent presque sûrement vers X 1 (car X 1 est finie presque sûrement). Donc, d après le théorème de convergence dominée, E(Y k ) tend vers E(X 1) = 0. Il en est donc de même( de E(Y k ). Il suffit alors ) d appliquer le théorème de Cesaro : puisque la suite (E(Y k )) k E(Y1 ) + + E(Y n ) tend vers 0, la suite de ses moyennes de Cesaro tend aussi vers 0. n Ceci termine la démonstration. n emarque Si les X n sont indépendantes et de même loi, et si S n n converge, alors E( X n ) < +. En effet, si S n n converge, on peut écrire X n n = S n n ( n 1 n ) Sn 1 n 1 et conclure que X n tend vers 0 presque sûrement. n Par conséquent, si on pose C n = ( X n > n), P (lim sup C n ) = 0. Les événements C n étant indépendants (car les X n sont des variables indépendantes), on déduit de la réciproque du lemme de Borel-Cantelli que P (Cn ) < +. Or ; en reprenant et en adaptant la preuve donnée au début de la démonstration de la loi des grands nombres, on constate que E( X 1 ) = + 0 P ( X 1 > t) dt + n+1 n=0 n P ( X 1 > n) dt = 1 + La propriété annoncée dans la remarque résulte de la dernière majoration. + n=1 P ( X 1 > n) = n=1 P ( X n > n)

92

93 Chapitre VII Chaînes de Markov à temps discret 7. 1 Généralités Soit S un ensemble dénombrable et P une matrice S S à coefficients positifs, vérifiant, quel que soit i S p i,j = 1 j S Une telle matrice est appelée matrice stochastique. emarque Il arrive parfois que l on ait également, pour tout j S, p i,j = 1 i S On dit alors que P est une matrice bistochastique. Définition Soit X = (X n ) n 0 une suite de variables aléatoires à valeurs dans S. On dit que X est une chaîne de Markov stationnaire (ou homogène) de matrice de transition P si, pour tout n N, pour tout (i 0,, i n, j) S n+2, P (X n+1 = j X 0 = i 0,, X n = i n ) = P (X n+1 = j X n = i n ) = p in,j En d autres termes, l évolution de la chaîne entre les instants n et n + 1 ne dépend que de la position à l état n, et pas de la manière dont cette position a été atteinte. Le mot stationnaire correspond au fait que la probabilité de passage de i n à j entre les étapes n et n + 1 ne dépend pas de n. Le fait que P soit une matrice stochastique implique que l on a bien, quel que soit i, j S P (X n+1 = j X n = i) = j S ce qui est normal car A P (A X n = i) est une probabilité. Désignons par π 0 la distribution initiale de la chaîne : i S, P (X 0 = i) = π 0 (i) p i,j = 1 93

94 94 - Chaînes de Markov à temps discret Théorème (a) Quel que soit l entier n, quels que soient i 0,, i n appartenant à S, P (X 0 = i 0,, X n = i n ) = π 0 (i 0 )p i0,i 1 p in 1,i n (b) Quels que soient les entiers n et m, quels que soient i et j appartenant à S P (X n+m = j X n = i) = p i,j1 p j1,j 2 p jm 1,j = Pi,j m (j 1,,j m 1) S m 1 où P m i,j désigne l élément (i, j) de la puissance mème de P. Démonstration (a) Il suffit de faire des conditionnements successifs. (b) On raisonne par récurrence sur m. La propriété est claire pour m = 1, par définition d une chaîne de Markov. Supposons la vérifiée au rang m. On a alors : P (X n+m+1 = j X n = i) = P ( k S(X n+m+1 = j, X n+m = k) X n = i) = k S P (X n+m+1 = j, X n+m = k X n = i) = k S P (X n+m+1 = j X n+m = k, X n = i) P (X n+m = k X n = i) = k S P (X n+m+1 = j X n+m = k) P (X n+m = k X n = i) (par définition d une chaîne de Markov) = k S P k,j P m i,k (hypothèse de récurrence) = P m+1 i,j Ceci montre l hérédité et termine la preuve. (définition du produit matriciel) On peut réénoncer la partie (b) du théorème en disant que Pi,j m est la probabilité d atteindre j en m étapes sachant qu on part de i Etats transitoires et récurrents Nous allons étudier les propriétés asymptotiques des chaînes de Markov en nous intéressant à la question suivante : si l on suppose que la chaîne de Markov X a pour valeur initiale un élément i de S, passera-t-elle une infinité de fois par cet élément? Nous apporterons dans cette partie une réponse à cette question grâce à un théorème de classification. Nous commençons par quelques définitions et notations. Si j S (on dit que j est un état), on définit la variable aléatoire T j de la manière suivante : T j = min{k > 0 X k = j} C est le premier instant strictement positif pour lequel la chaîne passe par l état j. On pose alors, pour tout couple (i, j) d états f (m) i,j = P (T j = m X 0 = i) probabilité que l on note plus simplement P i (T j = m). On peut remarquer qu à cause de la stationnarité de la chaîne, on a pour tout n N Enfin, on pose f (m) i,j = P (X n+m = j, X n+k j, k = 1,, m 1 X n = i) f i,j = + m=1 f (m) i,j

95 Etats transitoires et récurrents 95 - Définition On dit que l état i est : (a) récurrent si f i,i = 1, (b) transitoire sinon. Théorème Caractérisation des états transitoires et récurrents (a) Les conditions suivantes sont équivalentes : L état i est récurrent. P i (lim sup(x n = i)) = 1. n P n i,i = +. (a) Les conditions suivantes sont équivalentes : L état i est transitoire. P i (lim sup(x n = i)) = 0. n P n i,i < +. Démonstration Soit A k l événement : la chaîne passe au moins k fois par l état j. On a P i (A k ) = f (n1) j,j f (n k) j,j = f i,j (f j,j ) k f (m) i,j m,n 1,,n k (il n y a pas de problème de sommabilité car les termes sont positifs). Supposons j récurrent : alors, quel que soit k P i (A k ) = f i,j Les événéments A k sont décroissants, on sait alors (question 3 de l exercice 1.2) que puisque P (A k ) ne dépend pas de k. P ( k 1 A k ) = lim k P (A k) = f i,j Par conséquent, si j est récurrent, la probabilité, partant de i, d une infinité de passages en j, vaut f i,j, soit P i (lim sup(x n = j)) = f i,j En revanche, si j est transitoire, la probabilité, partant de i, d une infinité de passages en j est majorée par P i (A k ) quel que soit k. Comme dans ce cas f j,j < 1, on a lim k P i(a k ) = 0 et par conséquent P i (lim sup(x n = j)) = 0 En prenant i = j, on obtient la première des deux équivalences de (a) et (b). Commençons par remarquer que si + n=1 P n i,i < +, P i (lim sup(x n = i)) = 0 d après le lemme de Borel- Cantelli. Il faut maintenant prouver que si la série diverge, la probabilité vaut 1. On ne peut évidemment pas utiliser la réciproque du lemme de Borel-Cantelli car les événements (X n = i) ne sont pas indépendants. On écrit n 1 Pi,j n = P i (X 1 j,, X n s = j (pour la première fois),, X n = j) s=0 n 1 = s=0 f (n s) i,j Pj,j s

96 96 - Chaînes de Markov à temps discret d où n Pi,i t = t=1 n t 1 f (t s) i,i Pi,i s t=1 s=0 n 1 = = n P s i,if (t s) i,i s=0 t=s+1 n 1 n Pi,i s f (t s) i,i s=0 t=s+1 n 1 f i,i Pi,i s (les sommes s=0 n t=s+1 f (t s) i,i sont majorées par f i,i ) On peut dans le membre de droite, ajouter Pi,i n f i,i qui est positif. Comme Pi,i 0 = 1, on a donc d où n Pi,i t f i,i (1 + t=1 (1 f i,i ) Si on avait f i,i < 1, on en déduirait que, pour tout t, n t=1 P t i,i) n Pi,i t f i,i t=1 n Pi,i t f i,i 1 f i,i t=1 et la série + n=1 P n i,i convergerait, ce qui est exclu. Donc f i,i = 1. Définition On dit qu une partie non vide A de S est un ensemble clos si : i A, j S \ A, P i,j = 0 (id est : une fois entré dans A, on n en sort plus). Définition Une chaîne de Markov X est dite irréductible si S est le seul ensemble clos. emarque On vérifie (le faire en exercice) qu une chaîne de Markov est irréductible si et seulement si, quels que soient les états i et j, on a f i,j > 0, ou encore si et seulement si, quels que soient les états i et j, il existe un entier n > 0 tel que P n i,j > 0. Théorème Si S est une chaîne de Markov irréductible, on a l alternative suivante : (a) Soit tous les états sont transitoires, et on a alors ( ) i S, P i lim sup(x n = j) = 0 et i, j S, Pi,j n < + j S n (a) Soit tous les états sont récurrents, et on a alors ( ) i S, P i lim sup(x n = j) = 1 et i, j S, j S n P n i,j = +

97 Distributions stationnaires 97 - Démonstration Quels que soient i et j, il existe des entiers positifs r et s tels que P r i,j > 0 et P s j,i > 0, du fait de l irréductibilité. Il en résulte que P r+n+s i,i P r i,j P n j,j P s j,i Donc n P n i,i < + n P n j,j < + (car i et j jouent des rôles symétriques). Le premier point de l alternative est donc vérifié : tous les états sont du même type. (a) Si j est transitoire, P i (lim sup(x n = j)) = 0 (on l a vu lors de la démonstration du théorème 7.2.2). Comme tous les états sont transitoires et comme S est dénombrable, P i ( j S(lim sup(x n = j))) = 0 D autre part, on a vu plus haut que d où Pi,j n = n n n 1 s=0 + Pi,j n f i,j d où la convergence de la série du membre de gauche. (b) On sait que dans ce cas, pour tout état i, Soit j un autre état : P m j,i = P j (X m = i) n f (n s) i,j Pj,j s s=0 P s j,j P i (lim sup(x n = i)) = 1 = P j ((X m = i) (lim sup X n = j)) (car P j (lim sup(x n = j)) = 1) n>0 P j (X m = i, X m+1 j,, X m + n = j) = n>0 P m j,i f (n) i,j = P m j,i f i,j Il existe m tel que P m j,i > 0 (car X est irréductible). Il en résulte que f i,j 1 et donc f i,j = 1 puisque c est une probabilité. D après la démonstration du théorème 7.2.2, on en conclut que P i (lim sup(x n = j)) = 1 et ce résultat reste vrai en passant à l intersection dénombrable. Enfin, n P n i,j = +, sinon on aurait P i (lim sup(x n = j)) = 0 d après le lemme de Borel-Cantelli. emarque Si la partie (a) de l alternative est réalisée, S est infinie (presque sûrement, chaque état n est visité qu un nombre fini de fois ; comme il y a une infinité d étapes, cela nécessite une infinité d états) Distributions stationnaires

98 98 - Chaînes de Markov à temps discret Définition Soit X une chaîne de Markov de matrice de transition P et π une distribution de probabilité sur S. On dit que π est une distribution stationnaire si, pour tout j S, i S p i,j π(i) = π(j). Il en résulte, compte tenu du point (a) du théorème (avec n = 1), que si on choisit π comme distribution initiale de la chaîne, P (X 1 = j) = π(j) = P (X 0 = j) pour tout j, et cette propriété se généralise à tout entier n : P (X n = j) = P (X 0 = j). La loi de X n ne dépend pas de n, d où l expression distribution stationnaire. emarque Vectoriellement, dire que π est une distribution stationnaire équivaut à dire que le vecteur (π(i)) i S est vecteur propre de la matrice t P (transposée de P ) associé à la valeur propre 1. Lorsque S est finie et la chaîne irréductible, la théorie de Perron-Frobenius garantit l existence et l unicité de distributions stationnaires. Nous allons tout de suite vérifier que même sans hypothèse d irréductibilité, il y a toujours au moins une probabilité stationnaire. Théorème Toute chaîne de Markov possédant un nombre fini d états admet une mesure de probabilité invariante. Démonstration Posons S = {1,, p}. La donnée d une mesure de probabilité sur S équivaut à la donnée d un p-uplet (x 1,, x p ) tel que tous les x i soient positifs ou nuls et tel que leur somme soit égale à 1. Soit A l ensemble des tels p-uplets. C est une partie compacte de p. Choisissons un élément quelconque X 0 A et calculons ses images successives X 1 = t P X 0, X 2 = t P X 1, etc. Posons enfin, pour tout entier n Y n = X X n n + 1 Les Y n sont encore des éléments de A (vérification immédiate : A est une partie convexe). La suite (Y n ) n est une suite d éléments du compact A, donc elle admet une valeur d adhérence Y A. Nous allons montrer que Y est une probabilité invariante. Soit (Y nk ) k une sous-suite convergeant vers Y. On a t P Y nk = X X nk + X nk +1 n k + 1 = Y nk + X n k +1 X 0 n k + 1 qui tend vers Y quand k tend vers l infini (car la suite (X nk +1 X 0 ) k est bornée donc le deuxième terme tend vers 0). En passant à la limite, on a donc t P Y = Y, d où le résultat annoncé. On établit dans la fin de ce paragraphe l unicité de la distribution stationnaire pour les chaînes irréductibles possédant une propriété supplémentaire : l apériodicité. Cette unicité résulte d une propriété asymptotique des puissances de la matrice de transition. Définition On dit qu un état i S a pour période T si T est le pgcd des nombres n tels que P n i,i > 0. emarque La définition de la période T de i n implique pas que Pi,i T > 0 (on pourrait par exemple avoir P i,i = 0, Pi,i 2 > 0 et P i,i 3 > 0 : on aurait alors T = 1 et P i,i T = 0). emarque Si la chaîne est irréductible, tous les éléments ont la même période (Le vérifier à titre d exercice). On peut donc parler de la période d une chaîne irréductible. Définition On appelle chaîne apériodique toute chaîne irréductible de période 1.

99 Distributions stationnaires 99 - Lemme Soit X une chaîne apériodique. Quels que soient les états i et j, il existe un entier N(i, j) tel que n N(i, j), P n i,j > 0 Démonstration Puisque S est apériodique, il existe des entiers n 1,, n k de pgcd égal à 1 tels que > 0 pour tout i = 1,, k. P ni j,j Montrons que tout entier n suffisamment grand peut s écrire sous la forme où les a i appartiennent à N. n = k a i n i D après le théorème de Bezout, il existe des entiers b i Z tels que Soit N = écrire d où i=1 k b i n i = 1. k n i. Pour tout n N, il existe q N et r {0,, N 1} tels que n = qn + r. On peut donc i=1 n = r + n = k qn i, r = i=1 i=1 k rb i n i i=1 k (q + rb i )n i i=1 Soit q 0 un entier tel que tous les q 0 + rb i soient strictement positifs (possible cas il n y a qu un nombre fini de rb i possibles, puisque 0 r n n k 1). Si n N 0 = q 0 N, le quotient q de la division euclidienne de n par N est supérieur ou égal à q 0, donc tous les entiers q + rb i sont positifs, ce qui prouve le résultat annoncé. On a alors, pour tout n N 0, P n j,j k i=1 ( P n i j,j) ai > 0 Du fait de l irréductibilité de la chaîne, il existe s > 0 tel que Pi,j s n + s N 0 + s. Théorème > 0. Donc P n+s i,j Soit X une chaîne de Markov apériodique admettant une distribution stationnaire π. (a) La chaîne est récurrente, et quels que soient les états i et j (b) La distribution stationnaire π est unique. lim n P n i,j = π(j) > 0 pour tout entier emarque Ce théorème prouve l unicité, non l existence, d une distribution stationnaire. Voir le théorème pour un énoncé d existence, qui en outre donne la valeur de la distribution stationnaire. Démonstration Le point (b) découle clairement de la deuxième partie de (a). Si la chaîne était transitoiree, on aurait pour tous i et j, n part, pour tout n, ( t P ) n π = π P n i,j < + et donc lim n P n i,j = 0. Mais d autre

100 100 - Chaînes de Markov à temps discret (stationnarité répétée), donc j S, i S P n i,j π i = π j Soit ε > 0. Il existe une partie finie T S telle que i / T π i ε. On a donc 2 π j ε 2 + i T P n i,j π i ε 2 + i T P n i,j La suite ( i T P n i,j) n est une somme finie de suites tendant vers 0, donc elle tend vers 0 : il existe n 0 tel que En choisissant n = n 0, on obtient alors i T P n0 i,j ε 2 π j ε et la distribution π est identiquement nulle, donc n est pas une mesure de probabilité : contradiction. Par conséquent, la chaîne est récurrente. Pour prouver l autre partie du théorème, on introduit une chaîne sur S S de matrice de transition P ((i, j), (k, l)) = p i,k p j,l que nous appellerons chaîne-produit. (Cela revient à étudier l évolution en parallèle d un couple (X n, Y n ) de chaînes de Markov indépendantes admettant toutes les deux la matrice de transition P ). Quels que soient les états i, j, k, l, il existe, d après le lemme 7.3.5, des entiers N 0 et N 1 tels que n N 0 = P n i,k > 0, n N 1 = P n j,l > 0 (car X est irréductible et apériodique). Si on choisit n max(n 0, N 1 ), on obtient donc la chaîne-produit est irréductible. P n ((i, j), (k, l)) = P n i,k P n j,l > 0 Par ailleurs, on vérifie facilement que si on définit une mesure π (2) sur S S par (i, j) S S, π (2) (i, j) = π i π j cette mesure est une distribution de probabilité invariante pour la chaîne-produit : il en résulte, d après le début de la preuve, que cette chaîne est récurrente. On a donc, quels que soient les états i, j, i 0, P i,j (lim sup((x n, Y n ) = (i 0, i 0 ))) = 1 Si on définit la variable aléatoire T par T = inf{n 0 (X n, Y n ) = (i 0, i 0 )}, on a donc P i,j (T < + ) = 1. Soit m n deux entiers : P i,j ((X n, Y n ) = (k, l), T = m) = P i,j ( t < m, (X t, Y t ) (i 0, i 0 ), T = m, (X n, Y n ) = (k, l)) = P i,j ( t < m, (X t, Y t ) (i 0, i 0 ), (X m, Y m ) = (i 0, i 0 )) P i0,i 0 ((X n m, Y n m ) = (k, l)) Sommons sur l ces égalités : = P i,j (T = m) P n m i P n m 0,k i 0,l P i,j (X n = k, T = m) = P i,j (T = m) P n m i 0,k

101 Distributions stationnaires Sommons les égalités précédentes sur k Ces deux termes sont identiques quand k = l : En sommant ces égalités pour m n, on en déduit P i,j (Y n = l, T = m) = P i,j (T = m) P n m i 0,l P i,j (X n = k, T = m) = P i,j (Y n = l, T = m) P i,j (X n = k, T n) = P i,j (Y n = l, T n) On peut alors écrire P i,j (X n = k) P i,j (X n = k, T n) + P i,j (T > n) P i,j (Y n = k, T n) + P i,j (T > n) P i,j (Y n = k) + P i,j (T > n) Or, P i,j (X n = k) = P n i,k et P i,j(y n = k) = P n j,k. Donc P n i,k P n j,k P i,j (T > n) qui devient, en tenant compte du rôle symétrique de (X n ) et (Y n ) dans le raisonnement ci-dessus P n i,k P n j,k P i,j (T > n) On a vu plus haut que P i,j (T < + ) = 1 (récurrence de la chaîne-produit), donc lim n P i,j(t > n) = 0. On a donc lim n P n i,k P n j,k = 0 Or π k Pj,k n = ( ) π i Pi,k n π i Pj,k n i S i S = i S π i (P n i,k P n j,k) d où π k P n j,k i S π i P n i,k P n j,k On conclut en raisonnant de manière analogue à la méthode employée au début de la démonstration. Pour ε > 0 donné, il existe une partie finie T S telle que π i ε 2 i / T La suite ( i T π i P n i,k P n j,k ) n est une somme finie de suites convergeant vers 0, donc elle converge vers 0 : il existe donc n 0 tel que, pour tout n n 0, Finalement, pour n n 0 π k P n j,k i/ T π i Pi,k n Pj,k n ε 2 i T π i P n i,k P n j,k + i T π i P n i,k P n j,k i/ T π i + ε 2 (car si x et y sont compris entre 0 et 1, x y 1) ε 2 + ε 2 = ε

102 102 - Chaînes de Markov à temps discret ce qui achève la démionstration. Pour finir cette partie, nous énonçons sans démonstration quelques propriétés et définitions supplémentaires qui indiquent l importante imbrication entre les diverses notions rencontrées ci-dessus. appelons qu un état i est récurrent si f i,i = 1, ce qui revient à dire que, conditionnellement à X 0 = i, la variable aléatoire T i = inf{k > 0 X k = i} est presque sûrement finie : P i (T i < + ) = 1 Posons alors µ i = E(T i X 0 = i) = + k=1 kp i (T i = k) Définition Le nombre µ i est appelé temps moyen de retour en i. Si i est un état récurrent tel que µ i = +, on dit que i est un état récurrent nul. Si i est un état récurrent tel que µ i < +, on dit que i est un état récurrent ergodique, ou positif. On a alors le théorème suivant : Théorème Soit i S. L état i est récurrent nul si et seulement si Pi,i n = + mais lim P i,i n = 0. Dans ce n n cas, lim P j,i n = 0 pour tout autre état j. n Soit i un état récurrent ergodique de période 1. Alors, pour tout état j, lim P j,i n = f j,i n µ i En utilisant ce résultat et un peu d effort pour les interversions de passage à la limite, on prouve le corollaire suivant, que l on peut comparer au théorème Théorème Si X est une chaîne irréductible dont tous les éléments sont récurrents ergodiques, on a, pour tout couple (i, j) d états lim n P n i,j = 1 µ j On a de plus 1 = 1 et la distribution π définie par π i = 1 est l unique distribution stationnaire µ i µ i i S de la chaîne X. On a vu plus haut qu une chaîne irréductible qui possède une distribution stationnaire ne possède que des états récurrents. On peut se demander ce qu il en est si la chaîne contient des états récurrents nuls. Il est possible de démontrer le résultat suivant, valable pour des chaînes éventuellement non irréductibles. Théorème Si une chaîne X admet une distribution stationnaire π, on a π i = 0 pour tout état transitoire ou récurrent nul. Nous finirons en indiquant que si une chaîne irréductible récurrente ne possédant que des états nuls ne peut pas admettre de distribution invariante, il existe néanmoins toujours une mesure invariante (mais de masse totale infinie). Cette mesure est unique (à coefficient multiplicatif près).

103 Exercices Exercices Exercice Soit P = ( ) a 1 a une matrice stochastique. 1 b b En posant a = x et b = y, montrer que la trace de P 2 est supérieure ou égale à 1. Exercice Montrer qu une chaîne de Markov est irréductible si et seulement si l une des deux conditions suivantes est réalisée : (a) Quels que soient les états i et j, f i,j > 0. (b) Quels que soient les états i et j, il existe un entier n > 0 tel que P n i,j > 0. Exercice Montrer que tous les éléments d une chaîne irréductible ont la même période. Indication - Soit d i la période de i. Montrer que d i divise tous les entiers n tels que Pj,j n > 0. Pour cela considérer N et M tels que Pi,j N > 0 et P j,i M > 0 et vérifier que d i divise N + n + M et N + 2n + M. Conclure. Exercice Montrer que si la matrice de transition d une chaîne de Markov est bistochastique, la loi uniforme sur S (qui n est une mesure finie que si S est finie) est une loi stationnaire. Exercice On suppose que, initialement, N boules blanches et N boules noires sont réparties entre deux urnes A et B, de sorte que chaque urne contienne N boules. A chaque étape, on choisit une boule au hasard dans chaque urne et on les échange. On désigne par X n le nombre de boules noires dans l urne A à l étape n. Calculer les probabilités de transition p i,j et vérifier que la chaîne est irréductible. Exercice On répartit initialement N boules entre deux urnes A et B : on place X 0 boules dans l urne A et N X 0 dans l urne B. On désigne par X n le nombre de boules présentes dans l urne A à l étape n. A cette étape, on fait deux tirages au sort : - On choisit l urne A avec probabilité X n N ou l urne B avec probabilité N X n N. - Inépendamment de ce premier tirage au sort, on choisit de nouveau l urne A avec probabilité X n N B avec probabilité N X n et on tire dans l urne choisie une boule au hasard. N Puis on place la boule choisie au deuxième tirage au sort dans l urne choisie au premier tirage au sort. ou l urne Calculer les probabilités de transition p i,j et vérifier que la chaîne n est pas irréductible : il y a deux états absorbants 0 et N et tous les autres communiquent. Exercice La durée de vie T d un composant électronique est une variable aléatoire entière pouvant prendre toutes les valeurs k 1. On pose, pour k 1 α k = P (T = k), r k = P (T k) A chaque panne, le composant est immédiatement remplacé. En considérant que le processus commence à l instant n = 0, les instants de remplacement successifs sont donc T 1, T 2 + T 1, etc, où les T i représentent les durées de vie des composants successifs, supposées suivre la même loi que T et être des variables indépendantes. A chaque instant n, on désigne par X n l âge du composant en cours d utilisation. Si un composant tombe en panne à l instant n, il est immédiatement remplacé donc X n = 0. 1 Montrer que si j 0 et j i + 1, P (X n+1 = j X n = i) = 0. 2 Montrer que P (X n+1 = 0 X n = i) = P (T = i + 1 T i + 1) = α i+1 r i+1. En déduire que P i,i+1 = r i+2 r i+1. 3 Montrer que la chaîne est irréductible. 4 Pour n 1, on rappelle que f (n) 0,0 produise à l instant n. désigne la probabilité pour que le premier retour en 0 de la chaîne se

104 104 - Chaînes de Markov à temps discret Prouver que f (n) 0,0 = α n. En déduire que 0 est récurrent, et plus généralement que tous les états de cette chaîne sont récurrents. Exercice Processus de naissance et de mort On considère une chaîne de Markov X = (X n ) n 0, d espace d état S = N et de matrice de transition P définie par : P (x, x 1) = q x, P (x, x) = r x, P (x, x + 1) = p x avec p x + q x + r x = 1, q 0 = 0, q x > 0 si x > 0, p x > 0. Une telle chaîne est appelée chaîne de naissance et de mort. Le but est d étudier sous quelles conditions la chaîne est récurrente. Pour i élément de S, on pose T i = inf{n 0 X n = i} Etant donné trois états a, x et b tels que a x b, on désigne par u(x) la probabilité d atteindre l état a avant l état b sachant que l on part de x. On peut aussi écrire u(x) = P x (T a < T b ). 1 Justifier la terminologie. 2 Montrer que la chaîne est irréductible. 3 Montrer que u(x) = q x u(x 1) + r x u(x) + p x u(x + 1) En utilisant le fait que r x = 1 p x q x, en déduire que u(x + 1) u(x) = q x p x [u(x) u(x 1)] = q xq x 1 q a+1 p x p x 1 p a+1 [u(a + 1) u(a)] En calculant u(a) et u(b), et en sommant l égalité ci-dessus pour x = a, a + 1,, b 1, déterminer la différence u(a) u(a + 1). En sommant de nouveau l égalité ci-dessus, cette fois entre x et b 1, en déduire u(x) en fonction des nombres q 1 q t p 1 p t. Déterminer en particulier u(x) quand p x = q x (processus symétrique). 4 Construire une simulation permettant de visualiser le dernier résultat de la question 3. On choisira par exemple a = 0, b = 10, x quelconque entre 1 et 9, et on prendra p x = q x = r x = 1/3. 5 Estimation de la durée moyenne du jeu On suppose dans la suite de l exercice que le jeu est homogène (les nombres p x, q x et r x sont indépendants de x : on les notera p, q et r) et équilibré (p = q). épéter la simulation mise en place à la question précédente pour des valeurs variables de x et de r. Observer sur de nombreuses répétitions la durée moyenne T du jeu. Que constate-t-on? (On pourra s intéresser à la valeur de (1 r)t et conjecturer une formule. 6 Calcul exact de E(T ) Pour a x b, on désigne par E x (T ) l espérance de la variable T sous la condition initiale X 0 = x. On admettra dans la suite que E x (T ) est finie et on désigne ce nombre par u(x). a Calculer u(a) et u(b). b Montrer que si x {1,..., a + b 1}, u(x) = + k=1 + + kp x ((T = k) (X 1 = x 1)) + kp x ((T = k) (X 1 = x)) + kp x ((T = k) (X 1 = x + 1)) Vérifier que, si on pose T = T 1, k=1 P x (T = k X 1 = x 1) = P x 1 (T = k 1) (Utiliser la propriété de Markov en remarquant que T représente la durée du jeu à partir de l instant 1). En déduire que la première somme vaut p(1 + E x 1 (T )) et prouver finalement que u(x) = 1 + pu(x 1) + ru(x) + pu(x + 1) k=1

105 Exercices c En déduire que, si on pose d x = u(x + 1) u(x), la suite d x est arithmétique de raison 1/p. d Calculer d a + + d b 1 de deux manières. En déduire d a. e Calculer d a + + d x 1 de deux manières. En déduire que u(x) = à la conjecture faite grâce aux simulations de la question précédente. Exercice éparation de machines (x a)(b x). Comparer ce résultat 1 r Pendant le jour n un nombre Z n+1 de machines tombe en panne et sont envoyées à un atelier de réparation. Cet atelier livre chaque jour une des machines en cours de réparation. On appelle X n le nombre de machines présentes à l atelier le jour n. Montrer que X n+1 = (X n 1) + + Z n+1 où a + = max(a, 0). On suppose que les Z n sont mutuellement indépendantes, indépendantes de X 0 et de même loi. 1 Montrer que (X n ) est une chaîne de Markov. 2 On pose, pour k 0, a k = P (Z 1 = k). Ecrire la matrice de transition de la chaîne (X n ) en fonction des a k. (On distinguera, pour calculer P (X n+1 = j X n = i), les cas i = 0 et i 0). L étude des propriétés de cette chaîne de Markov (comportement asymptotique, existence et unicité d une distribution stationnaire) dépend de la loi des variables Z n. 3 Simulation On suppose que les Z n suivent une loi de Poisson de paramètre λ = 1/2. Etudier par simulation l évolution asymptotique de la chaîne (X n ). Exercice Gestion de stock La demande pour un certain produit commercial entre les instants n et n + 1 est de Z n+1 unités (où les Z n sont mutuellement indépendantes, et en outre indépendantes de la valeur initiale X 0 du stock). On suit la règle suivante pour la gestion des stocks d un certain produit dans une entreprise : au début de la journée n, un ordre de revalorisation du stock est donné, suivant la stratégie dite (s, S), où s et S sont des entiers vérifiant 0 < s < S. Si au début de la journée n, le stock est inférieur à s, une commande est placée pour monter le stock à S. Sinon, on ne commande rien. On suppose que le stock initial X 0 n excède pas S, de sorte que le stock X n prend ses valeurs dans l ensemble {S, S 1, S 2,...}. Les valeurs négatives sont possibles (elles correspondent à des commandes de clients à satisfaire dès restockage). 1 Vérifier que la suite (X n ) n N des valeurs du stock est une chaîne de Markov (on donnera une relation de récurrence entre X n, Z n+1 et X n+1 en distinguant deux cas). 2 Simuler le déroulement de cette chaîne de Markov sous l hypothèse s = 10, S = 20, et en supposant que les Z n valent 0, 1, 2 ou 3 avec équiprobabilité. Préciser dans ce cas l espace d état, étudier l existence d une probabilité stationnaire et son unicité. Exercice L urne d Ehrenfest Ce modèle d urne a été introduit en 1907 par les physiciens autrichiens Tatiana et Paul Ehrenfest pour décrire en termes de mécanique statistique les échanges de chaleur entre deux systèmes portés initialement à une température différente. On répartit initialement d boules numérotées de 1 à d entre deux urnes A et B. On tire un nombre i au hasard entre 1 et d et la boule numéro i est changée d urne. On désigne par X n le nombre de boules dans l urne A après n tirages indépendants. La chaîne (X n ) n N est appelée chaîne d Ehrenfest. 1 Montrer que (X n ) n N est une chaîne de Markov. Déterminer sa matrice de transition et montrer que la chaîne est irréductible. Vérifier aussi qu elle est périodique. 2 On suppose que X 0 est distribuée suivant une loi binomiale B(d, 1/2). Déterminer la distribution de X 1. Montrer que la loi binomiale est la seule à posséder cette propriété.

106 106 - Chaînes de Markov à temps discret 3 Dans cette question, on suppose que d = 3. Soit T 0 le nombre de tirages nécessaires pour vider A. Déterminer pour tout état x et pour n = 1, 2 ou 3, la probabilité conditionnelle P (T 0 = n X 0 = x). 4 Montrer que si l on choisit comme distribution de X 0 la loi binomiale B(d, 1/2), la chaîne (X n ) possède la propriété de réversibilité suivante : P (X n+1 = j X n = i)p (X n = i) = P (X n+1 = i X n = j)p (X n = j)

107 Chapitre VIII Espérance et probabilité conditionnelle Nous présentons dans ce chapitre un outil extrêmement puissant d analyse des phénomènes aléatoires, le conditionnement. Dans la première partie, nous introduisons un certain nombre d idées et de problématiques dans un contexte fini et équiprobable. La simplification apportée par ce cadre permet de donner du sens aux définitions abstraites d indépendance, de probabilité et d espérance conditionnelle. Après avoir découvert quelques propriétés de ces objets, nous entreprenons de donner leur définition générale et de montrer comment s étendent ces propriétés Espérance et probabilité conditionnelle - Cas fini On se place dans le cadre d un univers aléatoire Ω fini et équiprobable. Dans un tel univers, calculer des probabilités s identifie à déterminer des fréquences, c est-à-dire à faire des statistiques. Notre objectif est d étudier l éventuelle dépendance entre deux variables aléatoires définies sur cet univers. On notera que la dépendance évoquée a uniquement un caractère statistique. Toutes les questions d interprétation sont extérieures à ce travail, ce qui n enlève rien à leur importance, évidemment... L outil majeur pour étudier cette dépendance est le conditionnement. Conditionner, c est limiter l analyse statistique à une partie de l univers aléatoire. Le conditionnement apporte une technique pour analyser l influence statistique d un événement (ou d une variable aléatoire) sur un autre (ou une autre). Comme dit plus haut, il s agit ici de décrire et pas d interpréter. L interprétation peut être motivée par une constatation statistique, mais elle sort de l objet des statistiques (qui de ce point de vue posent plus de questions qu elles n apportent de réponses, contrairement à ce que certaines pratiques médiatiques pourraient laisser croire...). Avant d aborder la notion de loi et d espérance conditionnelle pour des variables aléatoires, nous commençons par un réinvestissement de la notion de probabilité conditionnelle et une nouvelle approche de l indépendance des événements et des variables aléatoires Probabilité conditionnelle. Evénements indépendants Décrivons une situation simple. L univers est formé de N individus, hommes (H) et femmes (F ). Les proportions (probabilités) sont P (H) = 0, 48 et P (F ) = 0, 52 Par ailleurs, il existe dans cette population des individus appelés grands (G) : ceux dont la taille mesure plus d un certain seuil s 0, et des individus appelés petits (P ) (les autres)1. Les proportions (probabilités) sont maintenant : P (G) = 0, 6 et P (P ) = 0, 4 1 Dans une société pratiquant le politiquement correct, on emploierait sans doute plutôt : non grands ou mal grandissants, mais dans le contexte de l éducation à la citoyenneté, on acceptera que le mot petit n ait rien d avilissant

108 108 - Espérance et probabilité conditionnelle Sans information supplémentaire, beaucoup de situations sont statistiquement envisageables : tous les hommes pourraient être grands (ainsi qu un certain nombre de femmes, les autres femmes étant petites), mais cela pourrait être à peu près exactement le contraire : tous les petits pourraient être des hommes... Cette ambiguïté ne peut être levée que si l on connait la distribution (ou la probabilité) conjointe des deux caractères sexe et taille, c est-à-dire la proportion / probabilité des événements tels que homme et petit (ie : H P ). Dans notre exemple, nous supposerons que la distribution conjointe est donnée par le tableau ci-dessous : Taille \ Sexe Homme Femme Total Grand 0,38 0,22 0,6 Petit 0,10 0,30 0,4 Total 0,48 0,52 1 dans lequel la dernière ligne et la dernière colonne montrent comment on peut retrouver, par sommation, la distribution des variables Sexe et Taille (on appelle ces deux lois les distributions marginales du couple (Sexe, Taille)) à partir de la distribution conjointe du couple. On peut grâce à ce tableau répondre à la question : Quelle est la probabilité pour que dans cette population un homme soit grand? (et à sept autres questions analogues que l on pourra formuler à titre d exercice). Désignons par N l effectif total de cette population. Il y a 0, 48 N hommes, et 0, 38 N hommes grands. Puisqu il y a équiprobabilité, la probabilité pour qu un homme soit grand vaut P = Nombre d hommes grands Nombre d hommes = 0, 38 N 0, 48 N Par conséquent, si on choisit un individu au hasard dans cette population : 0, 79 si on ne sait pas à l avance que c est un homme, la probabilité pour qu il soit grand vaut 0,6 ; si on sait à l avance que c est un homme, la probabilité pour qu il soit grand vaut environ 0,79. Le sexe d un individu a donc une influence statistique sur la taille de cet individu (influence statistique : on décrit, on n interprète pas...). Contrairement à cette situation, il pourrait arriver que les trois probabilités ci-dessous soient égales : la probabilité pour qu un individu soit grand, la probabilité pour qu un homme soit grand, la probabilité pour qu une femme soit grande. Dans ce cas, le sexe d un individu n a pas d influence statistique sur la taille de cet individu. On dit aussi : la taille est statistiquement indépendante du sexe. emarque Il n est pas évident a priori que la réciproque soit vraie, c est-à-dire que si la taille est indépendante du sexe, le sexe soit indépendant de la taille. Ce sera démontré plus loin. evenons au langage des événements. On cherche comme ci-dessus à donner la signification de la phrase : l événement A est indépendant de l événement B. Cette phrase signifie que la réalisation de B ne modifie pas statistiquement la réalisation de A. En d autres termes : Définition L événement A est statistiquement indépendant de B si la proportion d individus satisfaisant à l événement A dans la population entière est la même que dans la sous-population réduite aux individus pour lesquels B est satisfait. En utilisant le langage des cardinaux et en notant N l effectif total, on peut donc écrire avec des notations claires : A est indépendant de B si et seulement si Card A Card (A B) = N Card B En divisant le numérateur et le dénominateur dans le membre de droite par N, et en revenant au langage des probabilités, on obtient la caractérisation :

109 Conditionnement d une variable aléatoire par une autre. Indépendance Théorème L événement A est statistiquement indépendant de l événement B si et seulement si P (A) = P (A B) P (B) Dans le théorème ci-dessus, le membre de gauche représente la probabilité de A dans la population entière, tandis que le membre de droite représente la probabilité de A dans la partie de la population où B est réalisé : comme on restreint l univers probabiliste en fonction d un certain critère, cette deuxième probabilité est appelée probabilité conditionnelle de A sachant B, et notée P (A B) (ou aussi, souvent, P B (A) : cette deuxième notation souligne que la probabilité conditionnelle est aussi une probabilité, mais sur un autre univers). L événement A est donc indépendant de B si et seulement si P (A) = P (A B). Ceci équivaut à P (A B) = P (A) P (B), formule dans laquelle A et B jouent un rôle symétrique. On peut alors énoncer une propriété qui valide une remarque faite plus haut (et le discours habituel des cours de probabilités) : Théorème Soit A et B deux événements de probabilité non nulle. Les propriétés suivantes sont équivalentes : (a) A est statistiquement indépendant de B ; (b) B est statistiquement indépendant de A ; (c) P (A B) = P (A) P (B) Ce théorème montre que notre introduction non axiomatique de l indépendance, fondée sur une analyse de ce que veut dire l influence statistique d un événement sur un autre, aboutit aux mêmes définitions (indépendance et probabilité conditionnelle) que l approche axiomatique. emarque Dans ce théorème, on a supposé P (A) et P (B) non nuls pour pouvoir calculer les probabilités conditionnelles. Pour des raisons habituelles de règles générales, on englobera dans la définition de l indépendance le cas où A et / ou B pourraient avoir une probabilité nulle. emarque Les concepts développés ci-dessus dans le cadre statistique ont pu l être grâce à l interprétation facile au moyen des cardinaux. Les formules faisant intervenir les cardinaux ne se généralisent pas au cas non équiprobable (en particulier dans le cas d un univers aléatoire infini), mais leurs traductions en termes de probabilité s étendent sans difficulté particulière : on définira ainsi indépendance d événements et probabilité conditionnelle comme ci-dessus y compris lorsque l on n a plus le support statistique Conditionnement d une variable aléatoire par une autre. Indépendance La réflexion menée plus haut sur la dépendance sexe / taille dans une population contient en filigrane le concept de conditionnement d une variable par une autre. Etudions la répartition de la taille T des individus. Cette répartition se fait suivant trois lois de probabilités suivant que l on étudie : l ensemble des individus la sous-population formée par les hommes la sous-population formée par les femmes Les deux dernières lois de probabilité (sur les sous-populations) sont appelées les lois conditionnelles de T sachant S. Il y a autant de lois conditionnelles qu il y a de valeurs possibles pour la variable qui conditionne (ici S). La connaissance de toutes ces lois conditionnelles nous donne une information plus fine sur la répartition statistique de T : au lieu de connaître globalement cette répartition, on la connaît sur chaque sous-population. On rencontre fréquemment ce type de situation dans les enquêtes sociologiques (ou politiques) où l on cherche à connaître par exemple l opinion des personnes interrogées à propos d une question, en stratifiant la population en catégories (43% des cadres pensent que... alors que 68% des ouvriers ont cette opinion, 52%

110 110 - Espérance et probabilité conditionnelle des électeurs de gauche pensent que la loi votée est bonne alors que 60% des électeurs de droite la jugent mauvaise...). Exercice Vérifier, en utilisant la formule des probabilités totales, que si on connaît toutes les lois conditionnelles de X sachant Y et si on connaît de plus la loi de Y, on peut déterminer la loi conjointe du couple (X, Y ). En déduire la loi de X. Connaître les lois conditionnelles d une variable X sachant Y n est intéressant que si ce supplément d information apporte vraiment de l information statistique, comme c est le cas pour les exemples. S il n y a aucun supplément d information, nous dirons que X est indépendant de Y. Dire qu il n y a aucun supplément d information, c est dire que l information apportée par la valeur de Y est la même pour toutes les valeurs de Y, c est-à-dire que toutes les lois conditionnelles sont les mêmes. Définition Une variable X est dite indépendante de Y si toutes les lois conditionnelles de X sachant Y sont les mêmes. Comme ci-dessus, nous allons voir que cette définition inhabituelle recouvre bien le même concept que la définition classique. Théorème Soit X et Y deux variables aléatoires prenant un nombre fini de valeurs. X est indépendante de Y si et seulement si toutes les lois conditionnelles de X sachant Y coïncident avec la loi de X. Démonstration (a) Si toutes les lois conditionnelles coïncident avec la loi de X elles sont toutes les mêmes et donc X est indépendant de Y. (b) Si X est indépendant de Y : soit y 1,, y r les valeurs possibles de Y. Par hypothèse toutes les probabilités conditionnelles P (X = x Y = y i ) (i = 1,, r) sont égales à un même nombre p x. On vérifie alors avec la formule des probabilités totales que P (X = x) = p x. Il suffit d écrire ( r ( P (X = x) = P (X = x) (Y = yi ) )) = = = i=1 r P ( (X = x) (Y = y i ) ) (car les événements sont 2 à 2 disjoints) i=1 r P (X = x Y = y i )P (Y = y i ) (par définition de la probabilité conditionnelle) i=1 r p x P (Y = y i ) = p x i=1 = p x Théorème r P (Y = y i ) i=1 Soit X et Y deux variables aléatoires. Les conditions suivantes sont équivalentes : (a) X est indépendante de Y ; (b) Pour tout x, pour tout y, les événements (X = x) et (Y = y) sont indépendants ; (c) Y est indépendant de X. Grâce à ce théorème on retrouve la définition classique de l indépendance des variables aléatoires (et en particulier le caractère symétrique de cette définition). Démonstration Grâce au théorème ci-dessus, X est indépendante de Y si et seulement si P (X = x Y = y i ) = P (X = x)

111 Propriétés de l espérance conditionnelle pour toute valeur de X et pour toute valeur possible y i de Y. Ceci revient à dire que les événements (X = x) et (Y = y i ) sont indépendants. Pour les autres valeurs de y, l événement (Y = y) a une probabilité nulle, donc est indépendant de (X = x). D où le théorème. Le rôle symétrique joué par X et Y dans la deuxième propriété justifie le dernier énoncé Espérance conditionnelle Poursuivons l étude du conditionnement de la variable X par la variable Y. Chacune des lois conditionnelle de X sachant Y est une loi de probabilité à support fni, donc possède une espérance. Cette espérance s appelle l espérance conditionnelle de X sachant Y. Les notations sont alors les suivantes : désignons par y 1,, y r les valeurs possibles de Y. Désignons par P yi la loi conditionnelle de X sachant que Y = y i. En d autres termes P yi (x) = P (X = x Y = y i ) L espérance conditionnelle de X sachant que Y = y i est alors l espérance de cette loi conditionnelle, c est-àdire E(X Y = y i ) = x 1 P yi (x 1 ) x m P yi (x m ) = x 1 P (X = x 1 Y = y i ) x m P (X = x m Y = y i ) Ces nombres permettent de définir une nouvelle variable aléatoire, notée E(X Y ) et appelée espérance conditionnelle de X sachant Y : la population statistique (ou l univers aléatoire) Ω est stratifiée en fonction des valeurs prises par Y : il y a r sous-populations (ou sous-univers) Ω i, correspondant aux valeurs y 1,, y r. Sur chaque sous-population Ω i, E(X Y ) = E(X Y = y i ) En d autres termes, sur chaque sous-population, on remplace X par sa valeur moyenne sur la sous-population. En particulier, la variable E(X Y ) est constante sur chaque sous-population Ω i. Il en résulte le théorème suivant : Théorème La variable aléatoire E(X Y ) est une fonction de Y. En particulier, elle est mesurable par rapport à la tribu engendrée par Y. Exemple Une population de salariés est séparée en trois catégories : ouvriers, cadres, personnels de direction. La variable Y représente ces catégories. La variable X associe à chaque salarié son salaire. Alors, la variable Z qui : à chaque ouvrier associe le salaire moyen des ouvriers de cette population à chaque cadre associe le salaire moyen des cadres de cette population à chaque personnel de direction associe le salaire moyen des personnels de direction de cette population est égale à l espérance conditionnelle de X sachant Y Propriétés de l espérance conditionnelle Nous donnons dans le théorème qui suit quelques propriétés permettant de simplifier le calcul de l espérance conditionnelle : Théorème ègles de calcul de l espérance conditionnelle (a) Si X est constante (X = l), E(X Y ) = l. (b) Linéarité : E(aX 1 + bx 2 Y ) = ae(x 1 Y ) + be(x 2 Y ). (c) E(E(X Y )) = E(X) (l espérance de l espérance conditionnelle de X est égale à l espérance de X). (d) Si X est indépendante de Y, E(X Y ) = E(X) (variable aléatoire constante). (e) E(Xf(Y ) Y ) = f(y )E(X Y )

112 112 - Espérance et probabilité conditionnelle Démonstration Sur chaque strate ou sous-population Ω i = {ω Ω Y (ω) = y i }, l espérance conditionnelle se calcule en calculant la moyenne des valeurs prises par X sur Ω i. Les deux premières propriétés en résultent : (a) Si X est constante, la moyenne de X sur Ω i est égale à cette constante ; (b) La moyennisation est linéaire, d où la deuxième formule. (c) La démonstration de la troisième formule résulte de l associativité des moyennes partielles (analogue à celle des barycentres, dont elle n est qu une autre formulation) : l espérance E(X) est la moyenne des valeurs prises par X sur l ensemble de l univers aléatoire Ω. Les formules de calcul de moyenne globale à partir de moyennes partielles pondérées montrent que E(X) est la moyenne des E(X Y = y i ) affectés des coefficients P (Y = y i ) : ceci est exactement l espérance de l espérance conditionnelle. (d) La quatrième formule résulte de la caractérisation de l indépendance par les lois conditionnelles : si X est indépendante de Y, toutes les lois conditionnelles de X coïncident avec la loi de X. Donc, toutes les espérances des lois conditionnelles (c est-à-dire toutes les valeurs prises par E(X Y )) sont égales à l espérance de X (car l espérance ne dépend que de la loi). Donc E(X Y )(ω) = E(X) pour tout ω Ω. (e) Sur chaque strate (Y = y i ), la variable f(y )X coïncide avec la variable f(y i )X. La moyenne de cette variable vaut f(y i )E(X Y = y i ) (car f(y i ) est constant sur la strate : on utilise encore la linéarité de la moyenne), qui est égal sur la strate à f(y )E(X Y ). Cette formule étant valable sur toutes les strates, elle correspond donc à une identité entre les deux variables aléatoires. Exemple Nous allons illustrer la propriété (e) en reprenant l exemple des salaires dans une entreprise vu plus haut. appelons que Y désigne la catégorie d employé (ouvriers O, cadres C, personnels de direction D) et X le salaire. Imaginons que l on augmente les salaires suivant un coefficient qui dépend de la catégorie : augmentation de 5% pour les ouvriers, de 3% pour les cadres et de 7% pour les personnels de direction. Si on pose f(o) = 1, 05; f(c) = 1, 03; f(d) = 1, 06 le nombre f(y (ω))x(ω) représente le salaire après augmentation de l employé ω. L espérance conditionnelle E(f(Y )X Y ) est la moyenne des salaires des employés de la catégorie Y. Puisque tous les salaires de cette catégorie ont été multipliés par f(y ), leur moyenne (qui valait avant l augmentation E(X Y )) est elle aussi multipliée par f(y ) : E(f(Y )X Y ) = f(y )E(X Y ). Comme conséquence de ces résultats, nous retrouvons une partie du théorème 4.4.5, avec une démonstration largement simplifiée. Théorème Si X et Y sont indépendantes, E(XY ) = E(X)E(Y ). Démonstration La démonstration résulte de la suite d égalité ci-dessous : (car E(X) est une constante). E(XY ) = E[E(XY Y )] (d après la propriété (c)) = E[Y E(X Y )] (d après la propriété (e)) = E[Y E(X)] (d après la propriété (d)) = E(X)E(Y ) (linéarité de l espérance) Théorème Inégalité de Jensen Si ϕ : est une fonction convexe, ϕ(e(x Y )) E(ϕ(X) Y ). Démonstration Fixons ω et posons y = Y (ω). Le nombre E(X Y )(ω) est égal à l espérance de la loi conditionnelle de X sachant que Y = y. Désignons par x 1,, x n les valeurs prises par X et par p i les probabilités conditionnelles p i = P (X = x i Y = y). Le membre de gauche de l inégalité de Jensen s écrit donc n ϕ( p i x i ) i=1

113 Probabilité conditionnelle Le membre de droite est égal à l espérance de la loi conditionnelle de ϕ(x) sachant que Y = y. Ce nombre vaut n p i ϕ(x i ) i=1 et l inégalité de Jensen n est rien d autre que la définition de la convexité (car les p i sont positifs de somme 1). Nous verrons dans la suite du chapitre comment généraliser la définition de l espérance conditionnelle à des contextes beaucoup plus généraux. Dans ce cadre, il faudra prendre quelques précautions techniques (pour justifier que les intégrales ou les séries donnant les espérances existent), mais à ceci près, les résultats ci-dessus se généralisent, parfois au prix de pas mal d effort... Exercice On lance 20 fois de suite une pièce de monnaie équilibrée et les lancers sont indépendants. Soit X le nombre de succés au cours des 10 premiers lancers et Y le nombre total de succés. Montrer que E(X Y ) = Y 2. Exercice On lance deux fois un dé ordinaire avec des lancers indépendants. Soit X le plus grand numéro sorti et Y le plus petit. Calculer E(X Y ) et E(Y X). Exercice On suppose que (Ω, F, P ) est un espace probabilisé et que X : Ω est une variable aléatoire finie : X prend les valeurs x i (1 i n) avec les probabilités p i > 0 et n i=1 p i = 1. Soit A un événement. Vérifier que E(1 A X)(ω) = P (A X = X(ω)) pour tout ω Ω Probabilité conditionnelle Nous avons défini ci-dessus probabilité et espérance conditionnelle en réduisant l univers Ω. Nous allons voir ici qu il y a une autre manière de faire, consistant à restreindre la tribu d événements par rapport à laquelle les variables sont mesurables. Soit (Ω, F, P ) un espace probabilisé et G une sous-tribu de F. Soit A F. Définissons une mesure ν sur G par G G, ν(g) = P (A G) On dispose maintenant de deux mesures P et ν sur G, et ν est absolument continue par rapport à P : si P (G) = 0, alors ν(g) = 0. Comme P est une mesure finie, donc σ-finie sur (Ω, G), il résulte alors du théorème de adon-nykodim l existence d un unique élément f L 1 (Ω, G, P ) tel que G G, ν(g) = f dp G On a donc, pour tout G G, P (A G) = f dp. Définition G La fonction f s appelle une version de la probabilité conditionnelle de A sachant G. On note f = P (A G). Si X désigne une variable aléatoire, on définit P (A X) comme la variable P (A G), où G est la tribu engendrée par X (c est-à-dire la plus petite tribu rendant X mesurable). Exercice On suppose que X prend un nombre fini de valeurs x 1,, x n (P (X = x i ) = p i > 0, n i=1 p i = 1). Montrer que G est la tribu engendrée par les n événements (X = x i ). Montrer que, si X(ω) = x i P (A X)(ω) = P (A X = x i ) (probabilité conditionnelle ordinaire : utiliser l unicité de P (A X)) = E(1 A X)(ω) (définition naïve de l espérance conditionnelle vue plus haut) En conclure que la définition ci-dessus de la probabilité conditionnelle coïncide avec la définition naïve lorsque X est une variable aléatoire finie (ou plus précisément la généralisation de cette définition étudiée à l exercice 8.93).

114 114 - Espérance et probabilité conditionnelle Théorème La probabilité conditionnelle f = P (A G) est caractérisée par les propriétés suivantes : (a) On a f L 1 (Ω, G, P ) : f est G-mesurable et intégrable. (b) Pour tout G G, P (A G) dp = P (A G). G Démonstration L une des implications est la définition même. Démontrer la réciproque à titre d exercice. Exemple Si A G, P (A G) = 1 A (qui est bien G-mesurable). Exemple Si G = {, Ω), P (A G) = P (A). emarque Il suffit de vérifier le point (b) du théorème sur un π-système (famille stable par intersection finie) engendrant G, d après le corollaire Exemple Supposons par exemple que Ω = 2, F = B( 2 ) (tribu borélienne) et que G = {E, E B()} (tribu engendrée par les sections sur x ). On suppose en outre que P a une densité f(x, y) par rapport à la mesure de Lebesgue dx dy. Soit A = F, F B(). Calculons P (A G). C est une fonction ϕ de x seul (car elle est G-mesurable) telle que (compte tenu de la remarque ci-dessus) ϕ(x) dp = ϕ(x)f(x, y) dxdy E E ( ) = ϕ(x) f(x, y) dy dx E = P (E F ) = f(x, y) dxdy E F ( ) = f(x, y) dy dx On voit, en comparant les deuxième et cinquième lignes, que la fonction ϕ définie par 0 si f(x, y) dy = 0 ϕ(x) = f(x, y) dxdy F sinon f(x, y) dxdy convient (elle est bien G-mesurable d après le théorème de Fubini). On démontre, et nous admettrons, que la probabilité conditionnelle vérifie les propriétés suivantes : Théorème E (a) P (A G) [0, 1] presque sûrement (l ensemble exceptionnel de mesure nulle dépendant de A). F (b) P ( G) est σ-additive presque sûrement (l ensemble exceptionnel de mesure nulle dépendant de la réunion dénombrable disjointe considérée). (c) Si (A n ) n est une suite décroissante (resp. croissante) d événements telle que P (A n ) tende vers 0 (resp. 1), alors P (A n G) converge p.s. vers 0 (resp. 1). Démonstration (a) Posons X = P (A G) et montrons que P (X > 1 ou X < 0) = 0. Nous prouverons que P (X < 1) = 0, la démonstration de l autre propriété est analogue. ( Si P (X > 1) > 0, il existe n N tel que P X ) ( > 0. Appelons G 1 l événement X ). Il n n appartient à G puisque, par définition, X est G-mesurable. Donc P (A G 1 ) = X dp (1 + 1 G 1 n )P (G 1) > P (G 1 ) (inégalité stricte car P (G 1 ) > 0)

115 Probabilité conditionnelle ce qui est impossible car P (A G 1 ) P (G 1 ). (b) Le raisonnement est analogue. Soit A 1,, A n, ) une famille dénombrable d événements deux à deux disjoints. Posons ( ) X = P G, X n = P ( A n G ) (n 1) Il s agit de montrer que X = n=1 + n=1 n=1 A n X n p.s. Soit m N et soit G m l événement G m = ( ( + ) X > X n + 1 ) m On a de nouveau G m G (G-mesurabilité de X et des X n ), donc ( ) ( + ) P ( A n ) G m = X dp X n dp + P (G m) G m m Supposons que P (G m ) > 0. On a G m n=1 ( + ) X n dp = n=1 + n=1 G m n=1 G m X n dp grâce au théorème de convergence monotone, que l on peut appliquer parce que les X n sont presque sûrement positifs d après le point (a) ci-dessus. D où ( ) + P ( A n ) G m X n dp + P (G m) G m m soit ( P n=1 n=1 ) + (A n G m ) n=1 n=1 P (A n G m ) + P (G m) m + > P (A n G m ) ce qui est absurde (les deux termes extrêmes sont égaux par définition d une mesure). Il en résulte que l événement (X > + n=1 et on raisonne de même pour l événement (X < n=1 X n ), qui est la réunion dénombrable des G m, a pour probabilité 0, + n=1 X n ). (c) emarquons que si l on a prouvé le résultat pour la limite 0, on en déduit facilement le résultat pour la limite 1 : il suffit de considérer les complémentaires des A n et de remarquer que P (A n C G) = 1 P (A n G) p.s. (car pour tout G, P (A n C G) = P (G) P (A n G)). Posons X n = P (A n G) et supposons que la suite (X n ) ne converge pas p.s. vers 0. Comme la suite (A n ) est décroissante, la suite (X n ) l est aussi d après les points (a) et (b) (l additivité et la positivité impliquent que si A B, P (A G) P (B G) p.s.). Comme cette suite est p.s. positive d après (a) (l ensemble exceptionnel est la réunion dénombrable des ensembles exceptionnels associés aux A n, donc il est encore de probabilité nulle), elle est p.s. convergente vers une variable X G-mesurable (d après le corollaire 1.5.3) et positive avec une probabilité p > 0. ( Il existe m tel que l événement G m = X 1 ) ait une probabilité positive. Comme cet événement est m G-mesurable, on a donc P (G m ) m X dp X n dp = P (A n G m ) P (A n ) G m G m ce qui est absurde car le majorant tend vers 0 quand n tend vers l infini alors que le membre de gauche est une constante strictement positive.

116 116 - Espérance et probabilité conditionnelle Théorème Soit X une variable aléatoire réelle sur (Ω, F, P ) et soit B() la tribu borélienne de. Il existe une application µ : B() Ω (appelée probabilité de transition) telle que : (a) ω Ω, H µ(h, ω) est une probabilité sur (, B()). (b) H B(), ω µ(h, ω) est une version de P (X H G). Démonstration Si r Q, on définit F (r, ω) comme une version de P (X r G)(ω). Si r s, F (r, ) F (s, ) sauf sur un événement A r,s de probabilité nulle. En effet, la la σ-additivité et la positivité presque sûres de P ( G) démontrées ci-dessus impliquent la croissance presque sûre de A P (A G). Pour tout r Q, F (r, ) = lim n F (r + 1/n, ), sauf sur un événement B r de probabilité nulle. On applique le point (c) du théorème aux événements A n = (r < X r + 1/n) qui décroissent et dont la probabilité tend vers 0 d après le point (c) du théorème On a lim F (r, ) = 0 et lim F (r, ) = 1, sauf sur un événement C de probabilité nulle. On applique r r + encore le point (c) du théorème aux événements A r = (X r) quand r décroît vers d une part, et croît vers + d autre part (on utilise cette fois le point (b) du théorème ). Soit E = ( ) B r C : P (E) = 0 car la réunion est dénombrable. (r,s),r s A r,s Si ω E C et x, on pose F (x, ω) = r inf F (r, ω). r Q,r x Si ω E, on pose, pour tout x, F (x, ω) = F 0 (x), où F 0 est une fonction de répartition quelconque. Pour tout ω (élément ou non de E), F (, ω) est une fonction de répartition : il existe une probabilité µ(, ω) dont F (, ω) est la fonction de répartition. La propriété (a) est donc vérifiée par µ(, ω). (b) Soit C = {H B() µ(h, ) est G-mesurable}. La famille C est une classe monotone. En effet : (i) Si A C, B C, A B, B \ A C puisque µ(b \ A, ) = µ(b, ) µ(a, ) d après (a). (ii) Si les A n sont des éléments de C croissant vers A, A C, car un sup de fonctions mesurables est mesurable. Par définition de F (r, ω) pour r Q, C contient le π-système {], r], r Q}. On sait alors, d après le théorème??, que C contient la σ-algèbre engendrée par ce π-système, c est-à-dire B(). Finalement, C = B() Espérance conditionnelle Soit X L 1 (Ω, F, P ) et G une sous-tribu de F. Théorème Il existe une unique variable aléatoire G-mesurable et intégrable, notée E(X G) telle que, pour tout G G E(X G) dp = X dp G Démonstration On peut supposer X 0 (sinon, écrire X = X + X ). On définit une mesure ν sur G par G G, ν(g) = X dp Cette mesure est absolument continue par rapport à la mesure P, donc on peut appliquer le théorème de adon-nykodim comme nous l avons fait plus haut pour définir la probabilité conditinnelle (que l on retrouve d ailleurs si l on pose X = 1 A ). G G

117 Espérance conditionnelle Théorème Si X est G-mesurable et si Y et XY sont intégrables E(XY G) = XE(Y G) Démonstration Supposons que X = 1 G, G G. La variable 1 G E(Y G) est G-mesurable et intégrable. Pour tout G 1 G 1 G E(Y G) dp = E(Y G) dp G 1 G 1 G = Y dp G 1 G = 1 G Y dp G 1 = XY dp G 1 = E(XY G) dp G 1 d où E(XY G) = XE(Y G) dans ce cas particulier, par unicité de l espérance conditionnelle. Le cas général en résulte par densité des fonctions simples dans L 1. Théorème Théorème des trois perpendiculaires Si X L 1, si G 1 G 2 F, E[E(X G 2 ) G 1 ] = E(X G 1 ) emarque Nous donnerons dans la partie 8.4 une interprétation géométrique de l opérateur espérance conditionnelle comme projection orthogonale de L 2 (Ω, F, P ) sur L 2 (Ω, G, P ) qui éclairera le nom de ce théorème : si p désigne la projection orthogonale de E sur F et p la projection orthogonale sur F F, p p = p. Les trois perpendiculaires sont alors (pour tout M E), (Mp(M)) (perpendiculaire à F issue de M), (p(m) p p(m)) (perpendiculaire à F issue de p(m)) et (Mp (M)) (perpendiculaire à F issue de M). Ces trois perpendiculaires forment un triangle dans E. Démonstration Par unicité de l espérance conditionnelle, il suffit de montrer que, pour tout G 1 G 1, E(X G 2 ) dp = G 1 X dp G 1 Ceci est évident car G 1 appartient aussi à G 2. Théorème Soit µ la probabilité de transition associée à E(X G). Si ϕ : est borélienne et telle que ϕ(x) soit intégrable E(ϕ(X) G) = ϕ(x) µ(dx, ω) presque sûrement. Démonstration Si ϕ = 1 H, c est la définition de la probabilité de transition. Dans le cas général, on raisonne encore par densité. Nous déduisons de ce résultat l inégalité de Jensen, qui généralise (et utilise) une formule déjà rencontrée pour les espérances ordinaires.

118 118 - Espérance et probabilité conditionnelle Théorème Inégalité de Jensen Soit X une variable aléatoire intégrable et Φ : intégrable. Alors, pour toute tribu F, une fonction convexe telle que ϕ(x) soit Φ(E(X F)) E(Φ(X) F) En particulier, si X L p, E(X G) L p et E(X G) p X p. Démonstration D après le théorème 8.3.4, on a ( ) E(Φ(X) F) = ϕ(x)µ(dx, ω) ϕ xµ(dx, ω) = ϕ(e(x G)) d après l inégalité de Jensen classique pour les espérances (car µ(., ω) est une mesure de probabilité). La deuxième partie de l énoncé se démontre en considérant le cas particulier où ϕ(t) = t p (qui est convexe car p 1) et en se rappelant que E(E(X G)) = E(X). Une autre conséquence utile de l inégalité de Jensen est la propriété suivante : E(X F) E( X F) 8. 4 Une autre approche de l espérance conditionnelle L espace L 2 (Ω, F, P ) est un espace de Hilbert. Si G est une sous-tribu de F, l ensemble L 2 (Ω, G, P ) est un sous-espace fermé (on extrait d une suite convergeant dans L 2 une sous-suite convergeant p.s. [voir le corollaire 1.8.6] pour en déduire la G-mesurabilité de la limite [corollaire 1.5.4]). On peut alors énoncer le théorème suivant. Théorème La restriction à L 2 (Ω, F, P ) de l opérateur d espérance conditionnelle est la projection orthogonale de L 2 (Ω, F, P ) sur L 2 (Ω, G, P ). emarque appelons que L 2 L 1 grâce à l inégalité de Cauchy-Schwarz pour tout espace de mesure finie. Démonstration En effet, la projection orthogonale p sur un sous-espace fermé F d un espace de Hilbert H est caractérisée par deux propriétés : (a) Si X H, p(x) F. (b) Si X H, si Y F, (X Y ) = (p(x) Y ) (où ( ) désigne le produit scalaire dans H). Dans le contexte ci-dessus, ces propriétés se traduisent par : (a) Si X L 2 (Ω, F, P ), E(X G) L 2 (Ω, G, P ). (b) Si X L 2 (Ω, F, P ), si Y L 2 (Ω, G, P ), Ω XY dp = E(X G)Y dp Ω qui constituent la définition de l espérance conditionnelle. emarque Si X L 1 mais si X n est pas de carré intégrable, l approche géométrique ci-dessus ne permet pas a priori de définir E(X G). On démontre alors que si on pose X n = X 1 X n, les X n sont maintenant de carré intégrable (car bornés) et que la suite (E(X n G)) n converge dans L 1 (Ω, G, P ) vers une variable Y dont on prouve qu elle coïncide avec la variable E(X G) définie dans la partie précédente. Théorème Deux variables aléatoires X et T sont indépendantes si et seulement si, pour toute fonction h mesurable et bornée E(h(X) T ) = E(h(X))

119 Une autre approche de l espérance conditionnelle Démonstration Supposons tout d abord X et T indépendantes. On sait alors que, pour toute fonction f mesurable et bornée E(h(X)f(T )) = E(h(X)E(f(T )) (théorème 4.4.5), c est-à-dire Ω h(x)f(t ) dp = Ω E(h(X))f(T ) dp Comme la constante E(h(X)) est G-mesurable, l unicité de l espérance conditionnelle implique E(h(X) T ) = E(h(X)). éciproquement, prouvons que X et T sont indépendantes en prouvant que, pour toutes fonctions h et f mesurables bornées, on a E(h(X)f(T )) = E(h(X))E(f(T )) (cf. le théorème 4.4.5). On va imiter la démonstration du théorème d où la conclusion. E(h(X)f(T )) = E(E(h(X)f(T ) T )) = E(f(T )E(h(X) T )) (d après le théorème 8.3.2) = E(f(T )E(h(X))) (par hypothèse) = E(h(X))E(f(T )) (par linéarité de l espérance) Exemple Soit X et Y deux variables indépendantes, de même loi exponentielle de paramètre 1 : X et Y ont pour densité F : x e x 1 + (x). On cherche à calculer l espérance conditionnelle E(X X + Y ), et plus généralement E(f(X) X + Y ). appelons que la densité de X + Y est égale au produit de convolution G = F F (cf. le théorème 4.6.2), soit G : x xe x 1 + (x). Posons T = X + Y. On cherche une fonction ϕ(t ) telle que, pour toute fonction mesurable bornée g l on ait E(g(T )X) = E(g(T )ϕ(t )) On a E(g(T )X) = = = = = g(x + y)xe x e y dxdy ( t ) g(t)e t x dx dt (changement de variable (x, y) (t = x + y, x) dont le 0 g(t)e t t2 2 dt g(t) t 2 te t dt g(t) t G(t) dt 2 = E(g(T ) T 2 ) déterminant jacobien vaut 1, et théorème de Fubini) On a donc E(X T ) = T. Notons qu un argument de symétrie simple permettait d obtenir ce résultat sans 2 calcul : E(X T ) = E(Y T ) = 1 2 (E(X T ) + E(Y T )) = 1 2 E(T T ) = T 2 Dans le cas général, un calcul analogue à celui effectué ci-dessus donne la formule E(f(X) T ) = 1 T T 0 f(x) dx ce qui montre que la loi conditionnelle de X sachant T est la loi uniforme sur [0, T ].

120 120 - Espérance et probabilité conditionnelle 8. 5 Exercices Exercice Les variables X i (1 i n) sont indépendantes et de même loi : pour tout i, X i peut valoir 1, 0 ou 1 avec probabilité 1/3. On appelle S n le nombre de X i égaux à 1 et T n le nombre de X i égaux à 1. 1 Déterminer la loi de S n et de T n. 2 Déterminer la loi conditionnelle de S n sachant que S n + T n = k (pour 0 k n) et l espérance conditionnelle E(S n S n + T n ). Exercice Soit X et Y deux variables de Poisson indépendantes de paramètres respectifs λ et µ. Déterminer la loi conditionnelle et l espérance conditionnelle de X sachant X + Y. Exercice Soit X et Y deux variables aléatoires indépendantes suivant une loi uniforme sur [0, 1]. 1 Déterminer l espérance conditionnelle de min(x, Y ) sachant max(x, Y ). 2 Déterminer l espérance conditionnelle de X sachant max(x, Y ). Vérifier que la loi de cette variable aléatoire est la somme d une loi à densité et d une masse ponctuelle.

121 Chapitre IX Martingales 9. 1 Généralités : martingales, sous-martingales, sur-martingales Soit (X n ) n N une suite de v.a.r. sur (Ω, F, P ) et (F n ) n N une suite croissante de σ-algèbres contenues dans F. Définition On dit que (X n, F n ) n N est une martingale (resp. sous-martingale) (resp. sur-martingale) si : (a) Pour tout n N, X n L 1 (Ω, F n, P ) ; (b) Pour tout n N, E(X n+1 F n ) = X n (resp. ) (resp. ). emarque La plupart du temps, on omettra de noter les F n et on se contentera d écrire que (X n ) n est une martingale (ou sous-martingale, ou sur-martingale). Exemple Si les X k sont des variables indépendantes centrées, si S n = X X n et si F n est la tribu engendrée par (X 1,, X n ), la suite (S n, F n ) n est une martingale (voir l exercice 9.98). Exemple Si les X k sont des variables aléatoires indépendantes centrées et possédant toutes la même variance V (X k ) = σ 2, si M n = S 2 n nσ 2 et si F n est la tribu engendrée par (X 1,, X n ), la suite (M n, F n ) n est une martingale (voir l exercice 9.99). Exemple Si les X k sont des variables aléatoires indépendantes d espérance 1, si Π n = X 1 X n et si F n est la tribu engendrée par (X 1,, X n ), la suite (Π n, F n ) n est une martingale (voir l exercice 9.100). Théorème Si (X n ) n est une martingale, si ϕ est convexe et si les ϕ(x n ) appartiennent à L 1 (Ω), (ϕ(x n )) n est une sous-martingale. Si (X n ) n est une sous-martingale, si ϕ est convexe et croissante et si les ϕ(x n ) appartiennent à L 1 (Ω), (ϕ(x n )) n est une sous-martingale. Démonstration On applique l inégalité de Jensen : E(f(X n+1 ) F n ) ϕ(e(x n+1 F n )) = ϕ(x n ) si (X n ) est une martingale ϕ(x n ) si (X n ) est une sous-martingale et ϕ croissante en utilisant pour les deux dernières lignes soit la définition d une martingale, soit celle d une sous-martingale (cf. la définition 9.1.1). Exemple Si (X n ) est une martingale ou une sous-martingale, ( X n ) n et (Xn) 2 n sont des sousmartingales. 121

122 122 - Martingales Théorème Inégalité maximale de Doob pour les sous-martingales Soit (X n ) n une sous-martingale. Alors, pour tout α > 0, P ( max k=1,,n X k α) E( X n ) α Démonstration Soit A 1 l événement A 1 = (X 1 α), et pour 2 k n, A k = (X i < α, 1 i k 1, X k α). Les A k sont deux à deux incompatibles et leur réunion est l événement A = (max k=1,,n X k α) dont nous souhaitons majorer la probabilité. n X n dp = X n dp A k=1 A k n = E(X n F k ) dp (car les A k sont F k -mesurables) A k k=1 n X k dp A k n αp (A k ) = αp (A) k=1 k=1 Finalement, αp (A) A k X n dp E( X n ). (définition des sous-martingales et théorème des trois perpendiculaires) emarque Ce théorème implique l inégalité de Kolmogorov, car si les X n sont indépendantes, centrées et dans L 2, (S n ) n est une martingale, et donc (S 2 n) est une sous-martingale. Corollaire Si (X n ) n est une martingale, ( X n ) n est une sous-martingale et, pour tout α > 0, P ( max k=1,,n X k α) E( X n ) α 9. 2 Convergence des sous-martingales Nombre de passages Soit α et β deux réels, α < β, et soit (X n ) n une suite de variables aléatoires. On dit qu il y a un passage entre les instants n et m (n < m) si : X n α, i {n + 1,, m 1}, X i < β, X m β Théorème Si (X n ) n est une sous-martingale, et si U n désigne le nombre de passages jusqu à l instant n, E(U n ) E( X n ) + α β α Démonstration Soit ϕ : x max(α, x). La fonction ϕ est convexe et croissante, donc (ϕ(x n )) est une sous-martingale. Notons la (X n). Si on désigne par U n le nombre de passage de (X n) n jusqu à l instant n, on a U n = U n car X n α X n α et X n β X n = X n β Supposons prouvé que (β α)e(u n ) E(X n X 1)

123 Convergence presque sûre des sous-martingales bornées dans L Alors (β α)e(u n ) E(X n α) E(X 1 α) E(X n α) = (X n α) dp X n α E( X n ) + α On définit une suite (Y n ) de la manière suivante : Y 1 = 0 et Y k reste nul tant que X k 1 > α. Puis Y k devient égal à 1 et le reste tant que X k 1 < β, puis Y k redevient égal à 0 et on recommence. Les variables aléatoires Y k sont F k 1 -mesurables. (On traduit cette propriété en disant que le processus (Y k ) est prévisible). D autre part, Y k est égal à 1 pendant les passages. Posons k = X k X k 1 : on peut alors écrire n X n X 1 = Montrons que E ( n ) (1 Y k ) k 0. k=2 = k=2 k n Y k k + k=2 E ( n ) n (1 Y k ) k = (1 Y k ) k dp k=2 = = 0 k=2 n k=2 n k=2 Y k =0 Y k =0 n (1 Y k ) k k=2 k dp (car 1 Y k = 0 ailleurs) E( k F k 1 ) dp (car l événement (Y k = 0) appartient à F k 1 ) En effet, E( k F k 1 ) = E(X k F k 1) E(X k 1 F k 1) = E(X k F k 1) X k 1 qui est positif puisque (X k ) k est une sous-martingale. Il suffit donc de prouver que n k=2 Y k k (β α)u n. Les suites de 1 consécutifs de Y k sont de deux types : (le cas général) et, éventuellement 01 1 à la fin. Le cas général correspond à un passage : la somme k correspondante vaut X m X p où Y p = 1 et Y p 1 = 0 donc X p α et où Y m = 1 et Y m+1 = 0 donc X m β. On a bien X m X p β α. Le cas final correspond à une somme k = X n X p où comme ci-dessus X p α et où X n α puisque, par définition de la fonction ϕ, toutes les variables X i sont minorées par α. On a donc X n X p 0. Finalement, chaque passage donne une somme k β α, à quoi on ajoute une éventuelle dernière différence positive. On a bien n Y k k (β α)u n ce qui termine la preuve Convergence presque sûre des sous-martingales bornées dans L 1 k=2 Le théorème a pour conséquence le théorème suivant de convergence des sous-martingales.

124 124 - Martingales Théorème Convergence des sous-martingales bornées dans L 1 Soit (X n ) n une sous-martingale. On suppose que sup E( X n ) < +. Alors la suite (X n ) n converge presque sûrement vers une variable aléatoire intégrable X telle que E( X ) sup E( X n ). Démonstration Posons k = sup E( X n ). Soit α < β et n N. D après le théorème 9.2.1, on a, avec les notations ci-dessus E(U n ) k + α β α Comme la suite (U n ) n est positive et croissante, le théorème de convergence monotone implique que E(sup U n ) = lim E(U n) k + α n n β α En particulier, la variable sup U n est finie presque sûrement. n Posons X = lim sup X n et X = lim inf X n. L événement (X > X ) est la réunion dénombrable α,β Q, α<β (X > β > α > X ) Sur ces événements, sup U n = + : ils sont donc tous de probabilité nulle, et donc aussi leur réunion dénombrable. Par conséquent P (X > X ) = 0 et la suite (X n ) n converge presque sûrement vers une variable aléatoire X. L inégalité E( X ) k résulte du lemme de Fatou : E(lim inf X n ) lim inf E(X n ) (pour des variables aléatoires X n positives) Un théorème de convergence L 1 des martingales On étudie maintenant les conditions garantissant la convergence de la suite (X n ) dans L 1. La question se pose car on peut trouver des martingales (X n ) convergeant presque sûrement vers 0 alors que, pour tout n, E(X n ) = 1. Lemme Si Z L 1, les variables E(Z F n ) sont équiintégrables (cf. la définition ). Démonstration Quitte à décomposer Z en Z + Z, on peut supposer Z positive. Soit A α,n = (E(Z F n ) α). L événément A α,n appartient à F n. Par définition de l espérance conditionnelle, E(Z F n ) dp = Z dp A α,n A α,n Puisque Z est intégrable, on sait que, pour tout ε > 0, il existe δ > 0 tel que P (A) δ = Z dp ε (cf. le théorème d absolue continuité des variables intégrables). Or A Pour α > α 0, ceci est inférieur à δ, d où le résultat. P (A α,n ) = P (E(Z F n ) α) 1 α E(E(Z F n)) = E(Z) α

125 Martingales renversées Théorème Soit (F n ) n une suite croissante de tribus engendrant la tribu F et soit Z L 1. Alors la suite (E(Z F n )) n est une martingale convergeant presque sûrement et dans L 1 vers E(Z F ). Démonstration Soit X n = E(Z F n ). La suite (X n, F n ) n est une martingale et E( X n ) E( Z ) (inégalité de Jensen) ; donc X n converge p.s. vers une variable X d après le théorème De plus, les X n sont équiintégrables d après le lemme ci-dessus. Donc, d après le théorème et le théorème , la suite (X n ) n converge aussi vers X dans L 1. On a alors, pour tout événement A, X dp = lim n Supposons que A F k et choisissons n k : X dp = lim E(Z F n ) dp = lim n n A A A A X n dp = lim E(Z F n ) dp n A A E(E(Z F n ) F k ) dp = La réunion des F k (pour k 1) est un π-système qui engendre F. L égalité X dp = Z dp est donc valable pour tout A F, d après le théorème A A A E(Z F k ) dp = Or, X est F -mesurable, comme limite p.s. des X n, qui sont F n -mesurables, donc F -mesurables. emarque L égalité A X dp = A Z dp vérifiée pour tout A F k ne permet pas de conclure que X = E(Z F k ) car X n est pas F k -mesurable Martingales renversées A Z dp Le contexte est maintenant le suivant : les tribus F k sont maintenant indexées par les entiers négatifs et vérifient, pour tout n N F n F n+1 F 0 Les variables X n sont F n -mesurables et intégrables, et vérifient, pour tout n N E(X n+1 F n ) = X n Une telle suite (X n, F n ) n N est appelée une martingale renversée. On s intéresse dans ce paragraphe au comportement de X n quand n tend vers +. Théorème Soit (X n ) n une martingale renversée. La suite (X n ) converge presque sûrement et dans L 1 vers une variable X telle que, pour tout n N, E(X n ) = E(X) Démonstration La famille (X n,, X 1 ) peut être considérée comme le début d une martingale ordinaire. Soit U n le nombre de passages, défini comme au paragraphe En appliquant le théorème 9.2.1, on obtient la majoration E(U n ) E( X 1 ) + α β α Le majorant est indépendant de n. On peut employer le théorème de convergence monotone pour conclure que E(sup U n ) E( X 1 ) + α < + β α

126 126 - Martingales (car la suite (U n ) est croissante et positive). Il en résulte que sup U n est fini presque sûrement. aisonnant comme dans la preuve du théorème 9.2.2, on en conclut que la suite (X n ) n converge presque sûrement. Par ailleurs, on a pour tout n 1, X n = E(X 1 F n ). En utilisant le lemme dont la démonstration n utilisait pas la croissance des tribus, on en conclut que les variables X n sont équiintégrables. La convergence p.s. implique donc la convergence L 1. La dernière égalité est évidente. Lemme Si (G n ) n est une suite décroissante de tribus, G n est une tribu, que l on note G. Démonstration C est évident. Théorème Soit (G n ) une suite décroissante de tribus et Z L 1. La suite (E(Z G n )) n converge presque sûrement vers E(Z G ). Démonstration La suite (E(Z G n )) n est une martingale renversée du fait de la décroissance des G n. Elle converge donc p.s. et dans L 1 vers une variable X, G n mesurable pour tout n, donc G -mesurable. Montrons que X = E(Z G ). Soit A G. On a d où le résultat. A X dp = lim E(Z G n ) dp n A = lim E(E(Z G n ) G 0 ) dp n A = lim E(Z G 0 ) dp n A = E(Z G 0 ) dp 9. 4 Temps d arrêt. Application aux surmartingales positives A Temps d arrêt Soit (F n ) n une suite croissante de tribus et F la tribu engendrée par leur réunion. Définition Soit ν : Ω N une variable aléatoire à valeurs entières positives. On dit que ν est un temps d arrêt si, pour tout n N, l événement (ν = n) appartient à F n. On appelle tribu des événements antérieurs à ν la famille F ν définie par F ν = {F F n N, F (ν = n) F n } Théorème Propriétés (a) Si ν est un temps d arrêt, la famille F ν est une tribu. (b) Si ν = n (v.a. constante), ν est un temps d arrêt et F ν = F n. (c) Si ν et ν sont deux temps d arrêt et si ν ν, alors F ν F ν. (d) Si ν et ν sont deux temps d arrêt, max(ν, ν ) et min(ν, ν ) sont des temps d arrêt. Démonstration Vérifier ces propriétés en exercice.

127 Application aux surmartingales positives Théorème Soit f une fonction F -mesurable. (a) La fonction f est F ν -mesurable si et seulement si, pour tout n, la restriction de f à l événement (ν = n) est F n -mesurable. (b) Sur l événement (ν = n), E(f F ν ) = E(f F n ). Démonstration (a) La propriété annoncée est vraie si f est une fonction indicatrice, par définition de la tribu F ν. Par densité, elle est donc vraie aussi pour f quelconque. (b) Soit h la variable qui coïncide avec E(f F n ) sur l événement (ν = n). D après (a), h est F ν -mesurable. Soit A F ν : h dp = E(f F n ) dp A n A (ν=n) = f dp (car A (ν = n) est F n -mesurable) n A (ν=n) = f dp A = E(f F ν ) dp A d où l égalité h = E(f F ν ) (unicité de l espérance conditionnelle) Application aux surmartingales positives Soit (X n ) n une surmartingale positive, c est-à-dire une suite de variables aléatoires positives intégrables telles que, pour tout n N E(X n+1 F n ) X n Le but de ce paragraphe est de prouver un théorème de convergence pour ces surmartingales. Nous commençons par le théorème suivant : Théorème Inégalité maximale pour les surmartingales positives ( ) X0 Pour tout a > 0, P (sup X n a F 0 ) min a, 1. On utilise, pour prouver ce théorème, le lemme suivant. Théorème Lemme de recollement Soit (Xn) 1 n et (Xn) 2 n deux surmartingales positives et ν un temps d arrêt tel que Xν 1 Xν 2. Alors si on définit X n par { X 1 X n (ω) = n (ω) si ν(ω) > n Xn(ω) 2 si ν(ω) n la suite (X n ) n est encore une surmartingale. Démonstration Par définition, X n = 1 ν>n X 1 n + 1 ν n X 2 n. Donc X n est F n -mesurable puisque ν est un temps d arrêt et puisque X 1 n et X 2 n sont F n -mesurables. Par ailleurs X n 1 ν>n E(X 1 n+1 F n ) + 1 ν n E(X 2 n+1 F n ) Comme les deux indicatrices sont F n -mesurables, on a donc X n E(1 ν>n X 1 n ν n X 2 n+1 F n ) Sur l événement (ν = n + 1), on a X 1 n+1 X 2 n+1 par hypothèse sur ν. Donc 1 ν>n X 1 n ν n X 2 n+1 1 ν>n+1 X 1 n ν n+1 X 2 n+1 = X n+1

128 128 - Martingales d où X n E(X n+1 F n ) par croissance de l espérance conditionnelle. Démonstration du théorème Soit ν a = min{n X n > a} : c est un temps d arrêt et on a X νa > a. Posons, pour tout n, Xn 2 = a. La suite constante (Xn) 2 est une martingale. D après le lemme, si on pose { Xn si n < ν Y n = a a si n ν a la suite (Y n ) est une surmartingale positive. En particulier, pour tout n, Y 0 E(Y n F 0 ). Or Y 0 = min(x 0, a) et Y n a1 n νa. Donc min(x 0, a) ap (n ν a F 0 ). Cette égalité peut se réécrire ( ) X0 P (sup(x 1,, X n ) > a F 0 ) min a, 1 ( ) X0 En faisant tendre n vers l infini, on obtient P (sup X n > a F 0 ) min a, 1. En faisant, enfin, tendre b vers a par valeurs inférieures, on trouve la majoration cherchée de P (sup X n a F 0 ). Corollaire Si (X n ) est une surmartingale positive, lim P (sup X n a, X 0 < + ) = 0. a + En particulier, P (sup X n = +, X 0 < + ) = 0. Démonstration On écrit ( ) X0 P (sup X n a, X 0 < + ) min X 0<+ a, 1 dp et on observe que le membre de droite tend vers 0 quand a tend vers l infini, en utilisant le théorème de convergence dominée. Théorème Théorème de convergence des surmartingales positives Soit (X n ) n ) une surmartingale positive. Alors la suite (X n ) n converge presque sûrement vers une v.a. intégrable X telle que, pour tout n N E(X F n ) X n Démonstration Soit a < b. On définit une suite de temps d arrêt de la manière suivante : ν 1 = min{n 0 X n a} ν 2 = min{n ν 1 X n b} ν 3 = min{n ν 2 X n a} et ainsi de suite. Soit β a,b le nombre total de passages d une valeur inférieure à a à une valeur supérieure à b (cf. le paragraphe 9.2.1). Dire que β a,b > p, c est dire que ν 2p < +. Nous aurons besoin pour la suite du résultat suivant : Théorème Inégalité de Dubins ( ) k ( ) a X0 Pour tout k N, P (β a,b k F 0 ) min b a, 1. Démonstration de l inégalité de Dubins - On définit une suite (Y n ) n de la manière suivante : Y n = 1 sur [0, ν 1 [ = X n a sur [ν 1, ν 2 [ = b a sur [ν 2, ν 3 [. ( ) k 1 b X n = a a sur [ν 2k 1, ν 2k [ ( ) k b = sur [ν 2k, + [ a

129 Martingales régulières La suite (Y n ) n est une surmartingale positive. En effet, en ν 1, X n a, donc 1 X n /a. Le recollement des deux premiers termes donne une surmartingale d après le lemme de recollement. On raisonne de même pour les autres recollements. Comme il n y en a qu un nombre fini, on obtient bien une sous-martingale. ( ) ( ) k ( ) ( ) k X0 b On a Y 0 = min a, 1 X0 b et Y n 1 ν2k n. Donc min a a, 1 P (ν 2k n F 0 ). a ( ) k ( ) a X0 En faisant tendre n vers l infini, on obtient P (β a,b k F 0 ) min b a, 1. evenons à la démonstration du théorème On fait tendre maintenant k vers l infini dans l inégalité de Dubins et on obtient P (β a,b = + F 0 ) = 0 d où P (β a,b = + ) = 0 en prenant l espérance des deux membres. Comme dans le cas des sous-martingales, on en conclut que (X n ) n converge p.s. (cf. la démonstration du théorème 9.2.2). L intégrabilité de la limite X résulte du lemme de Fatou : E(X) = E(lim inf X n ) lim inf E(X n ) sup E(X n ) = E(X 0 ) On obtient la dernière partie du théorème en appliquant de nouveau le lemme de Fatou aux espérances conditionnelles. Fixons un entier p. Pour n p, E( inf m n X m F p ) inf m n E(X m F p ) Quand n tend vers l infini, le membre de gauche tend vers E(X F p ) (théorème de convergence monotone) ; le membre de droite, lui, est constant, égal à X p car n p Martingales régulières Soit (X n ) n une martingale. Théorème Les conditions suivantes sont équivalentes. (a) La suite (X n ) n converge dans L 1. (b) On a sup E( X n ) < + et la suite (X n ) n converge p.s. vers une variable X telle que, pour tout n N, X n = E(X F n ). (c) Il existe une variable X L 1 telle que, pour tout n N, X n = E(X F n ). (d) Les variables X n sont équiintégrables. Démonstration On va prouver que (a) = (b), (b) = (c), (c) = (d) et (d) = (a). (a) = (b) - Puisque (X n ) n converge dans L 1 vers une variable X, sup E( X n ) < +. Donc d après le théorème de convergence des sous-martingales, la suite (X n ) n converge p.s. vers une variable Y. En extrayant de (X n ) une sous-suite convergeant p.s. vers X, on en déduit que Y = X. Il reste à prouver que X n = E(X F n ). Quand m tend vers l infini, E(X m F n ) tend dans L 1 vers E(X F n ). En effet E( E(X F n ) E(X m F n ) ) E(E( X X m F n )) = E( X X m ) qui tend vers 0 par hypothèse (la première inégalité ci-dessus utilise l inégalité de Jensen). En prenant m n et en faisant tendre m vers l infini, on obtient alors X n = E(X m F n ) E(X F n )

130 130 - Martingales d où le résultat. (b) = (c) - C est évident (c) = (d) - On l a prouvé au lemme (d) = (a) - Puisque les X n sont équiintégrables, on a sup E( X n ) < + (implication (a) = (b) du théorème ). Donc d après le théorème de convergence des sous-martingales, la suite (X n ) n converge p.s. vers une variable X. En utilisant de nouveau l équiintégrabilité, on en conclut que (X n ) converge aussi dans L 1 vers X (théorème et théorème ). Définition Une martingale est dite régulière si elle satisfait les conditions du théorème Théorème Soit p > 1 et (X n ) n une martingale telle que, pour tout n N, X n L p. On suppose que sup E( X n p ) < +. Alors la martingale (X n ) n est régulière et converge p.s., dans L 1 et dans L p vers une même limite X. Démonstration On a vu dans le troisième exemple du paragraphe qu une famille uniformément bornée dans L p pour p > 1 est équiintégrable. Donc (X n ) est régulière, et elle converge p.s. et dans L 1 vers une variable X telle que, pour tout n, X n = E(X F n ) (théorème 9.5.1). Le lemme de Fatou implique l intégrabilité de X p : E( X p ) = E(lim inf X n p ) lim inf E( X n p ) sup E( X n p ) < + Il reste à prouver la convergence dans L p. Pour ce faire on supposera que X 0 (sinon, on écrit X = X + X et on applique l argument ci-dessous à X + et à X qui appartiennent tous deux à L p ). Soit a > 0. On a E(X F n ) X = E(X a F n ) (X a) + X a X + E((X (X a) F n ) d après l inégalité de Jensen Donc E(X (X a) F n ) p X (X a) p E(X F n ) X p E(X a F n ) (X a) p + 2 X a X p La variable E(X a F n ) (X a) est dominée par a L p et tend presque sûrement vers 0 quand n tend vers l infini (théorème 9.2.4). Sa norme L p tend donc vers 0 d après le théorème de convergence dominée. Le second s écrit ( ) 1/p X a X p = (X a) p dp X a (car X est positive). Il est majoré par ( X p dp X a qui tend vers 0 quand a tend vers l infini car X p est intégrable et car P (X a) tend vers 0 (inégalité de Markov) : cela résulte de l absolue continuité des variables intégrables (cf. le théorème d absolue continuité des variables intégrables). Il suffit alors de choisir a suffisamment grand pour que 2 X a X p < ε/2 puis, pour cette valeur de a, n assez grand pour que E(X a F n ) (X a) p < ε/2 pour conclure Application des martingales : loi forte des grands nombres ) 1/p

131 Exercices Théorème Loi forte des grands nombres Soit (X n ) n une suite de variables aléatoires, indépendantes et de même loi intégrable. Alors la moyenne empirique X X n converge presque sûrement vers E(X). n Démonstration Désignons par F n la tribu engendrée par X n, X n+1, et par G n la tribu engendrée par S n, X n+1, X n+2, (qui coïncide avec celle engendrée par S n, S n+1, S n+2, ). Pour tout n, F n+1 G n, donc, si on pose F = F n et G = G n, F G. Puisque la famille (G n ) n est décroissante, la suite (E(X 1 G n )) n est une martingale renversée qui converge p.s. vers E(X 1 G ) d après le théorème Nous admettrons le lemme suivant, qui rend compte de l idée selon laquelle les variables X 1,, X n sont indiscernables par rapport à la tribu G n (voir l exercice 9.104). Lemme Pour toute permutation σ de {1,, n}, pour toute fonction mesurable f telle que f(x 1,, X n ) soit intégrable, E(f(X 1,, X n ) G n ) = E(f(X σ(1),, X σ(n) ) G n ) On a alors, pour 1 k n, E(X k G n ) = E(X 1 G n ). En sommant ces égalités et en divisant par n, on obtient, pour tout n, ( ) S n n = E Sn n G n = E(X 1 G n ) E(X 1 G ) p.s. quand n tend vers l infini La limite ne peut être que constante (loi du 0-1 appliquée à S n /n, donc égale à E(E(X 1 G )) = E(X 1 ) Exercices Exercice Soit (X k ) k 1 une famille de variables indépendantes centrées. Pour n 1, on pose S n = X X n et on désigne par F n la tribu engendrée par (X 1,, X n ). Montrer que la suite (S n, F n ) n est une martingale. Exercice Soit (X k ) k 1 une famille de variables aléatoires indépendantes centrées possédant toutes la même variance V (X k ) = σ 2. Pour n 1, on pose M n = S 2 n nσ 2 et on désigne par F n la tribu engendrée par (X 1,, X n ). Montrer que la suite (M n, F n ) n est une martingale. Exercice Soit (X k ) k 1 une famille de variables aléatoires indépendantes d espérance 1. Pour n 1, on pose Π n = X 1 X n et on désigne par F n la tribu engendrée par (X 1,, X n ). Montrer que la suite (Π n, F n ) n est une martingale. Exercice Décomposition des sous-martingales Montrer que la famille (X n ) n est une sous-martingale si et seulement si il existe une martingale (X n) n et un processus (X n) n croissant, positif et prévisible tels que, pour tout n N, X n = X n + X n. Exercice Théorème d arrêt de Doob Soit (X n ) n une martingale et ν un temps d arrêt. Montrer que le processus arrêté (X n ν ) n est aussi une martingale (où n ν est le minimum de n et de ν). Indications? Exercice Soit (X n ) n une surmartingale positive et ν 1, ν 2 deux temps d arrêts. On se propose de montrer que sur l événement (ν 1 ν 2 ), X ν1 E(X ν2 F ν1 )

132 132 - Martingales 1 Montrer qu il suffit de prouver l inégalité suivante (pour n N) : sur l événement (ν 2 n), X n E(X ν2 F n ). 2 Montrer que si ν est un temps d arrêt, (X ν n ) n est une surmartingale qui converge p.s. vers X ν quand n tend vers l infini (où ν n désigne le minimum de ν et n). 3 En utilisant le théorème de convergence des surmartingales positives, montrer que E(X ν2 F n ) X ν2 n et conclure. Exercice Démonstration du lemme Soit (X n ) n une suite de variables réelles indépendantes de même loi et intégrables. Soit S n = X X n. On désigne par A l ensemble des événénements de la forme où les H i sont des boréliens de. (S n H 0 ) (X n+1 H 1 ) (X n+k H k ) 1 Montrer que A est un π-système engendrant la tribu G n engendrée par S n, X n+1, X n+2,. 2 En déduire que pour prouver le lemme 9.6.2, il suffit de prouver que, pour tout B A, pour toute permutation σ de {1,, n}, pour toute fonction f mesurable telle que f(x 1,, X n ) soit intégrable, f(x 1,, X n ) dp = f(x σ(1),, X σ(n) ) dp B 3 Montrer que l on peut se limiter au cas où f est une fonction indicatrice du type et vérifier qu il suffit de prouver l égalité (x 1,, x n ) 1 [a1,b 1](x 1 ) 1 [an,b n](x n ) P (X 1 [a 1, b 1 ],, X n [a n, b n ], S n H 0 ) = P (X σ(1) [a 1, b 1 ],, X σ(n) [a n, b n ], S n H 0 ) 4 Vérifier que le (n + 1)-uplet (X 1,, X n, S n ) a la même loi que le (n + 1)-uplet (X σ(1),, X σ(n), S n ) (remarquer que la somme des X i et celle des X σ(i) sont les mêmes et utiliser l hypothèse sur les X i ). 5 Conclure. B

133 Chapitre X Convolution Définitions Dans tout ce chapitre (sauf dans la partie 10.4, les intégrales seront calculées par rapport à la mesure de Lebesgue dx sur et la notation abrégée L p désignera l ensemble L p (, dx) (pour 1 p ). Définition Soit f et g deux fonctions mesurables de dans. On appelle produit de convolution de f et g la fonction f g définie sur par f g : x + f(t)g(x t) dt emarque Le changement de variable u = x t permet de montrer que, pour tout x, (f g)(x) = (g f)(x) (que cette intégrale existe ou non) : en d autres termes le produit de convolution est commutatif. Exemple Nous avons rencontré des produits de convolution au chapitre 4 quand nous avons étudié la densité de la somme de deux variables aléatoires indépendantes à densité. Nous avons, dans ce contexte probabiliste, démontré un cas particulier du point (a) du théorème ci-dessous. Sans autre hypothèse sur f et g, on ne peut rien dire de l ensemble de définition de f g, qui pourrait même être vide : c est le cas par exemple si f = g = 1. Le théorème suivant donne des conditions qui garantissent l existence presque partout, voire partout, de (f g)(x). Théorème (a) Si f et g appartiennent à L 1, leur produit de convolution f g est défini presque partout, appartient à L 1 et vérifie f g 1 f 1 g 1. (b) Si p 1 et q 1 sont des exposants conjugués (c est-à-dire 1/p + 1/q = 1, p ou q pouvant être infini), si f L p et g L q, leur produit de convolution f g est défini partout, appartient à L et vérifie f g f p g q. (c) Si g est bornée sur tout compact et si f est à support compact et appartient à L 1, leur produit de convolution f g est défini partout. (d) Si f et g sont à support compact, f g aussi. emarque Compte tenu de la commutativité de la convolution, on peut dans les points (b) et (c) échanger les rôles de f et g. 133

134 134 - Convolution Démonstration (a) D après le théorème de Fubini-Tonnelli, ( + ) ( + ) f(t) g(x t) dt dx = f(t) g(x t) dx dt ( + ) = f(t) g(x t) dx dt ( + ) = f(t) g(x) dx dt (changement de variable x x + t = g 1 f(t) dt = g 1 f 1 Comme, pour tout x, (f g) (x) + f(t) g(x t) dt, il en résulte que f g est intégrable d après le théorème 1.4.6, et que f g 1 f 1 g 1. Enfin, on sait qu une fonction intégrable est presque partout définie, d où le point (a). (b) D après l inégalité de Hölder + f(t) g(x t) dt = ( + ( + = f p g q 1/p ( + f(t) dt) p f(t) p dt) 1/p ( + L existence de (f g)(x) en résulte, ainsi que la majoration de f g. ) 1/q g(x t) q dt ) 1/q g(t) q dt (c) Soit K un compact tel que f = 0 en dehors de K. Soit x et soit M x = sup t K g(x t) (qui existe car x K est encore un compact). (f g)(x) = = + K f(t)g(x t) dt f(t)g(x t) dt La valeur absolue de la fonction à intégrer est majorée par M x f qui est intégrable sur K (car elle l est sur ), d où le point (c). (d) Si f est nulle en dehors de [a, b] et si g est nulle en dehors de [c, d], le produit f(t)g(x t) ne peut être non nul que si t [a, b] et x t [c, d]. Ceci implique c + a x d + b : f g est donc nulle en dehors de [a + c, b + d]. Le point (a) du théorème admet la généralisation suivante : Théorème Si f appartient à L 1 et si g appartient à L p (p 1), leur produit de convolution f g est défini presque partout, appartient à L p et vérifie f g p f 1 g p. Démonstration Définissons la mesure µ par A B(), µ(a) = f(t) dt A = f(t) dt A f(t) dt f(t) 1 Cette mesure existe vu les hypothèses, et µ() = 1, donc la fonction constante t 1 est µ-intégrable. L inégalité de Hölder entraîne alors, pour tout x, ( 1/p ( ) 1/q g(x t) 1 dµ(t) g(x t) dµ(t)) p 1 q dµ(t) ( ( g p ) 1/p f )(x) = f 1

135 Propriétés de régularité Par hypothèse, les fonctions g p et f appartiennent à L 1, donc d après le point (a) du théorème , le membre de droite est fini pour presque tout x, et donc aussi le membre de gauche. Par conséquent la fonction t f(t)g(x t) est intégrable sur pour presque tout x, et donc (f g)(x) est défini pour presque tout x. On a par ailleurs f g p (x) dx f p 1 p ( f 1 g(x t) dµ(t)) dx ( g p f )(x) dx d après ce qui précède f 1 = f p 1 1 ( g p f ) 1 f p 1 1 g p 1 f 1 d après le point (a) du théorème = f p 1 g p p d où l inégalité demandée, en prenant les racines pèmes des membres de droite et de gauche Propriétés de régularité Nous verrons dans la partie suivante que l une des plus grandes utillités du produit de convolution est de permettrer l approximation ponctuelle ou uniforme de fonctions assez peu régulières f par des fonctions beaucoup plus régulières g n, obtenues par convolution de f avec des fonctions adéquates h n. La clé de cette régularité est le théorème suivant. Théorème (a) Soit f une fonction de classe C n sur et g une fonction intégrable à support compact. produit de convolution f g est défini partout et de classe C n sur. On a en outre k n, (f g) (k) = f (k) g (b) Ces résultats sont inchangés si on suppose f de classe C n à support compact et g intégrable. Démonstration (a) L existence de (f g)(x) pour tout x a été établie au point (c) du théorème Compte tenu de la forme annoncée de la dérivée de f g, il suffit, en raisonnant par récurrence, de prouver la propriété pour n = 1. Soit [a, b] un compact en dehors duquel g est identiquement nulle et soit x 0. Alors, pour tout x ]x 0 1, x 0 + 1[, g(t) 0 = t [a, b] = x t [x b, x a] [x 0 b 1, x 0 a + 1] Soit K x0 le compact [x 0 b 1, x 0 a + 1]. La fonction f est de classe C 1 sur donc sa dérivée est bornée en valeur absolue par un certain M x0 0 sur K x0. Posons ϕ(x, t) = f(x t)g(t) Pour presque tout t (il faut quand même que g(t) existe), ϕ admet en (x, t) la dérivée partielle par rapport à x ϕ x (x, t) = f (x t)g(t) Donc, pour tout x ]x 0 1, x 0 + 1[, pour presque tout t, ϕ (x, t) x = f (x t)g(t) M x0 g(t) Leur

136 136 - Convolution qui est intégrable. Les conditions de la deuxième version du théorème de dérivabilité des fonctions définies par une intégrale sont réunies (avec I =]x 0 1, x 0 + 1[ et J = ). La fonction f g est donc dérivable sur I et en particulier en x 0, de dérivée (f g) (x 0 ) = + ϕ x (x, t) dt = (f g)(x 0 ) Comme ceci est valable quel que soit x 0, le théorème est démontré. Le point (b) se prouve de manière analogue (exercice). Le théorème admet le corollaire évident suivant : Corollaire Si f est de classe C sur, si g est intégrable, et si une au moins des deux est à support compact, le produit de convolution f g est de classe C sur et vérifie, pour tout n N (f g) (n) = f (n) g Nous finissons cette partie par un théorème de continuité. Théorème Si p et q sont deux exposants conjugués (p, q [1, + ], 1/p + 1/q = 1), si f L p et g L q, f g est uniformément continue sur. Démonstration Nous avons vu au point (c) du théorème que f g est définie sur. Il reste à prouver l uniforme continuité. Pour cela, nous utiliserons le résultat suivant, établi au lemme : pour f L p et y, on pose f y (x) = f(x y). La fonction f y appartient à L p quel que soit y, et si 1 p < +, l application y f y est uniformément continue de dans L p (, dx) (f est fixée). L un des deux exposants p et q est fini. Nous supposerons que c est p (ce n est pas une restriction car f et g jouent des rôles symétriques vu la commutativité du produit de convolution). Soit x et h des réels. On a Utilisons l inégalité de Hölder : (f g)(x + h) (f g)(x) (f g)(x + h) (f g)(x) = ( + = g q ( + + ) 1/q ( + g(t) q dt = g q f f h p = g q f 0 f h p g(t)(f(x t) f(x + h t)) dt ) 1/p f(x t) f(x + h t) p dt f(u) f(u + h) p dt) 1/p (changement de variable u = x t) D après la continuité en 0 de l application y f y, il existe, pour tout ε > 0, α > 0 tel que, pour h α, f 0 f h p ε/ g q, et donc (f g)(x + h) (f g)(x) ε. D où la conclusion Unités approchées On vérifie facilement que l ensemble L 1 muni des lois + et est un anneau commutatif. On peut se demander si cet anneau est unitaire, c est-à-dire s il existe une fonction f 0 L 1 telle que, pour toute fonction f L 1, on ait f f 0 = f. Il est possible de prouver que ce n est pas le cas, par exemple en utilisant la transformée de Fourier (voir l exercice ). Il existe cependant une notion tout à fait importante en relation avec l approximation des fonctions f par des convolées f h n : c est le concept d unité approchée (ou d approximation de l unité).

137 Unités approchées Définition On dit qu une suite (h n ) n de fonctions continues sur est une unité approchée si : (a) Les fonctions h n sont positives. (b) Pour tout n, le support de h n est contenu dans un intervalle [ δ n, δ n ], avec lim n δ n = 0. (c) Pour tout n, + h n(t) dt = 1. L existence de telles unités approchées est facile à obtenir par le procédé suivant : prendre n importe quelle fonction continue et positive à support compact (par exemple, h(x) = cos x si x [ π/2, π/2], et h(x) = 0 sinon), la remplacer par λh pour que son intégrale soit égale à 1 (pour notre exemple, λ = 1/2), poser h 1 = λh et pour tout n, h n (x) = nh 1 (nx) On vérifie alors facilement que la suite (h n ) n est une unité approchée (le faire en exercice). Vu la procédure suivie, on constate que pour garantir l existence d une unité approchée telle que toutes les h n soient de classe C, il suffit d être capable de construire une fonction h non identiquement nulle et positive, de classe C et à support compact. Théorème La fonction h 0 définie sur par est de classe C sur. h 0 (x) = { e 1/x 2 si x > 0 0 sinon La fonction h : x h 0 (1 + x) h 0 (1 x) est de classe C sur, non identiquement nulle et partout positive, et a pour support [ 1, 1]. Démonstration Les diverses affirmations concernant h sont claires. En ce qui concerne h 0, on prouve par récurrence que, sur +, sa dérivée nème est de la forme h (n) (x) = n (x)e 1/x2 où n est une fraction rationnelle. On en déduit que le taux d accroissement h(n) (x) h (n) (0) tend vers x 0 quand x tend vers 0 + et donc, pour peu que l on sache (hypothèse de récurrence) que h (n) (0) = 0, on en conclut que h (n+1) (0) = 0 : ceci prouve l hérédité de la propriété. édiger ceci soigneusement à titre d exercice. La terminologie unité approchée est justifiée par le théorème suivant : Théorème Soit f : une fonction continue sur et (h n ) n une unité approchée. La suite (f h n ) n converge vers f sur. La convergence est uniforme sur les compacts, elle l est sur si f est uniformément continue sur. emarque Compte tenu de l existence d une unité approchée de classe C et du théorème , il en résulte que toute fonction continue sur est limite uniforme sur tout compact de fonctions C sur. Démonstration Compte tenu de l identité h n(t) dt = 1, on peut écrire (f h n )(x) f(x) = Vu l hypothèse sur le support de h n ceci se réécrit (f h n )(x) f(x) = + +δn δ n (f(x t) f(x))h n (t) dt (f(x t) f(x))h n (t) dt

138 138 - Convolution Supposons f uniformément continue sur et fixons ε > 0. Il existe α > 0 tel que, si t α, f(x t) f(x) ε Pour n suffisamment grand, δ n α et donc, pour tout t [ δ n, δ n ], f(x t) f(x) ε. On a alors d où le résultat. (f h n )(x) f(x) +δn δ n ε h n (t) dt = ε Dans le cas général, on fixe un compact K, que l on peut supposer - quitte à l agrandir - égal à [a, b] et on se limite à x K. Pour n n 0, δ n 1 et les nombres x t et x intervenant dans l intégrale appartiennent tous à [a 1, b + 1]. Sur ce nouveau compact, f est uniformément continue. On conclut alors comme on l a fait ci-dessus. emarque On peut légèrement assouplir la condition sur le support des éléments h n constitutifs d une unité approchée, en remplaçant la condition (b) de la définition par la condition moins forte : δ > 0, lim h n (t) dt = 0 n t δ La conclusion du théorème reste vraie à condition d exiger que la fonction continue f soit bornée sur (cf. l exercice ). Corollaire L ensemble CK () des fonctions de classe C à support compact est dense (pour la norme de la convergence uniforme sur ) dans l ensemble C 0 () des fonctions continues sur possédant une limite nulle en ±. Démonstration On commence par vérifier que si f C 0 (), il existe une fonction continue à support compact g telle que sup f g ε/2. Il suffit de choisir A tel que, en dehors de [ A, A], f ε/4, de poser g(x) = f(x) si x [ A, A], de compléter le graphe de g par un segment rejoignant l axe des abscisses sur [ A 1, A] et sur [A, A + 1] et de poser g(x) = 0 pour x A 1 ou x A + 1. La fonction g est continue à support compact, donc uniformément continue sur. Soit (h n ) n une unité approchée de classe C. D après le théorème , g est limite uniforme sur des fonctions g h n, donc il existe n 0 tel que sup g g h n ε/2. Finalement, pour tout ε > 0, on peut trouver une fonction du type g h n telle que sup f g h n ε. On sait que g h n est de classe C d après le corollaire Elle est aussi à support compact car g et h n le sont (cf. le point (d) du théorème ) Généralisations Nous évoquerons au chapitre sur les séries de Fourier la convolution des fonctions périodiques, et verrons que le théorème de Fejer sur la convergence en moyenne de Cesaro de la série de Fourier d une fonction continue f vers f est, pour l essentiel, une conséquence de la remarque ci-dessus. En s éloignant un peu plus des intégrales ordinaires, on peut aussi signaler l existence d un produit de convolution sur les suites de nombres réels ou complexes. Si u = (u n ) n et v = (v n ) n sont deux telles suites, leur produit de convolution w = u v est la suite de terme général n w n = u k v n k k=0 On vérifie que la loi ainsi définie est commutative et associative, que si u et v sont sommables (c est-à-dire si les séries u n et v n convergent), il en est de même de w, et alors + n=0 + + w n = ( u n ) ( v n ) n=0 n=0

139 Exercices (c est la raison pour laquelle la série de terme général w n est appelée la série produit des séries de termes généraux u n et v n ). Contrairement au cas des fonctions, ce produit de convolution admet un élément neutre : la suite (u n ) n définie par u 0 = 1 et u n = 0 pour n 1. Enfin, signalons que, de même que la densité d une somme de variables indépendantes de densités respectives f et g vaut f g, la loi de probabilité d une somme de variables aléatoires à valeurs dans N et indépendantes est donnée par un produit de convolution : si on pose, pour n N, p n = P (X = n), q n = P (Y = n) et r n = P (X + Y = n) et si on suppose X et Y indépendantes, la suite (r n ) n est le produit de convolution des suites (p n ) n et (q n ) n Exercices Exercice Montrer que le produit de convolution d un polynôme et d une fonction intégrable à support compact est un polynôme. Exercice Soit h la fonction caractéristique de [ 1, 0] et f L 1 (). Montrer que, si x En déduire la continuité de l application Calculer lim g(x). x + Exercice suivantes : (a) Les fonctions h n sont positives. (b) Pour tout δ > 0, lim h n (t) dt = 0. n (f h)(x) = x g(x) : = x+1 x x+1 x f(t) dm(t) f(t) dm(t) On considère une suite (h n ) de fonctions continues sur vérifiant les propriétés t δ (c) Pour tout n, + h n(t) dt = 1. Montrer que, si f est continue et bornée sur, h n f converge uniformément vers f sur tout compact de, et que la convergence est uniforme sur si f est uniformément continue sur. Indication - Ecrire (f h n )(x) f(x) = +δ δ (f(x t) f(x))h n (t) dt + (f(x t) f(x))h n (t) dt t δ choisir δ de telle sorte que la première intégrale soit majorée par ε/2 pour tout x K (et même x si f est uniformément continue sur ) et pour tout n, puis choisir n assez grand pour que la deuxième intégrale soit majorée par ε/2 pour tout x. Exercice Approximation uniforme des fonctions continues par des polynômes Montrer que toute fonction continue de [a, b] dans est limite uniforme sur [a, b] d une suite de fonctions polynomiales. Indication - Montrer que la suite de fonctions h n définie par h n (t) = c n (1 t 2 ) n si t [ 1, 1], h n (t) = 0 sinon vérifie les hypothèses (a), (b) et (c) de l exercice si c n est bien choisi. En déduire le résultat si [a, b] = [ 1/2, 1/2] puis généraliser à un segment [a, b] quelconque.

140

141 Chapitre XI Séries de Fourier Bibliographie du chapitre 11 [MON] - Monier Jean-Marie, Analyse, tome 4 : cours et 500 exercices corrigés, Dunod, Le chapitre 6 est consacré aux séries de Fourier. [MONA] - Monasse Denis, Mathématiques, cours complet. Prépa MP et MP *, Vuibert Supérieur, Le chapitre 14 présente les résultats les plus classiques. [TIT] - Titschmarch, Theory of functions, Cambridge University Press, Le chapitre 13 traite des séries de Fourier Introduction Nous développons dans ce chapitre la théorie des séries de Fourier, sous ses deux angles classiques : celui de l approximation ponctuelle (si possible uniforme) des fonctions périodiques suffisamment régulières (théorèmes de Fejer et de Dirichlet), et celui de la construction d une base hilbertienne de l espace de Hilbert L 2 (S 1 ), où S 1 est le cercle-unité de 2 muni de sa mesure invariante par translation (convergence en moyenne quadratique et formule de Parseval) Série de Fourier d une fonction 2π-périodique Nous désignerons dans la suite par E 2π localement intégrables. l ensemble des fonctions de la variable réelle, 2π-périodiques et Définition Soit f E 2π. On appelle série de Fourier de f la série de fonctions où les a n et b n sont définis par a 0 = 1 2π π a n=1 π f(t) dt, n 1, a n = 1 π (a n cos nt + b n sin nt) π π f(t) cos nt dt, b n = 1 π La série de Fourier de f peut aussi être définie sous sa forme complexe + n= c n e int π π f(t) sin nt dt 141

142 142 - Séries de Fourier où les c n sont définis pour tout n Z par On dit aussi que a n=1 c n = 1 2π π π f(t)e int dt (a n cos nt + b n sin nt) est une série trigonométrique. emarque Ne pas oublier la différence entre la définition de a 0 et celle des autres a n et b n. emarque L intégrale d une fonction périodique sur tout intervalle de longueur égale à la période est la même (le vérifier en exercice). Il en résulte que l on peut remplacer l intervalle d intégration [ π, π] par n importe quel intervalle de longueur 2π, par exemple [0, 2π]. emarque On vérifie facilement que si f est paire, tous les b i sont nuls, et que si f est impaire, tous les a i sont nuls. Si f est à valeurs réelles, les a n et les b n sont réels et pour tout n Z, c n est le conjugué de c n. emarque Les coefficients a n, b n et c n sont liés par les formules suivantes : a 0 = c 0, n 1, c n = a n ib n 2, c n = a n + ib n, a n = c n + c n, b n = i(c n c n ) 2 emarque ien ne dit pour l instant que la série de fonctions soit convergente en quelque valeur de t que ce soit. L un des objectifs du chapitre est d obtenir des hypothèses sur f qui assurent cette convergence, et d étudier alors la limite (souvent égale à f(t), mais il y a parfois des exceptions si f n est pas suffisamment régulière). emarque La définition ex abrupto des a n et des b n peut sembler quelque peu parachutée. Nous allons voir ci-dessous que si une série de Fourier converge uniformément sur [ π, π], c est vers une fonction périodique f dont elle est la série de Fourier. Plus précisément, considérons la correspondance suivante : Fonctions Séries trigonométriques f E 2π a n=1 (a n cos nt + b n sin nt) A priori, cette correspondance fonctionne à sens unique (des fonctions vers les séries). Mais il peut arriver que la série de Fourier d une fonction converge en tout point t de. Sa somme S(t) définit alors une fonction 2π-périodique. Supposons pour simplifier que la convergence soit uniforme sur [ π, π]. La fonction S est alors continue, donc localement intégrable et on peut donc calculer sa série de Fourier. On peut visualiser cette suite d opérations : f E 2π a0 + + n=1 (a n cos nt + b n sin nt) (série uniformément convergente sur [ π, π]) S E 2π (somme de la série de Fourier de f) α n=1 (α n cos nt + β n sin nt) (série de Fourier de S) La partie facile de la théorie des séries de Fourier concerne le côté droit de ce diagramme : avec les hypothèses ci-dessus, α i = a i et β i = b i pour tout i (cf. le théorème ). La partie difficile concerne le côté gauche. Nous verrons en particulier les hypothèses à imposer à f pour obtenir S = f. Théorème Si la série trigonométrique S(t) = a n=1 la transformée de Fourier de sa somme S est égale à a 0 + (a n cos nt + b n sin nt) converge uniformément sur [ π, π], + n=1 (a n cos nt + b n sin nt).

143 Série de Fourier d une fonction 2π-périodique Démonstration Avec les notations du diagramme ci-dessus, il s agit de prouver que les α i sont égaux aux a i et les β i aux b i. Montrons par exemple que, pour n 1, α n = a n (les autres calculs sont analogues). On a α n = 1 π π π S(t) cos nt dt Comme la suite S N converge uniformément vers S sur [ π, π], il en est de même de g N : t S N (t) cos nt (car cos est bornée). On peut donc intervertir passage à la limite et intégration pour conclure que α n = 1 π lim π N π π = 1 π lim N π S N (t) cos nt dt a 0 cos nt + N (a p cos pt cos nt + b p sin pt cos nt) dt Le nombre α n est donc la limite d une somme d intégrales de la forme p=1 π [ sin nt a 0 cos nt dt = a 0 = 0 (n 1) π n π π π 1 a p cos pt cos nt dt = a p [cos(p n)t + cos(p + n)t] dt π π 2 { 0 si p n (comme ci-dessus) = πa n si p = n π π 1 b p sin pt cos nt dt = b p [sin(p n)t + sin(p + n)t] dt π π 2 = 0 Finalement, si N n, le seul terme non nul dans l intégrale dont on calcule la limite est πa n, qui divisé par π donne bien a n : α n = a n. Avant de nous consacrer aux résultats de convergence, nous prouvons un résultat concernant le comportement asymptotique des coefficients de Fourier. Théorème Lemme de iemann-lebesgue Si f E 2π a pour coefficients de Fourier a 0, a 1,, a n, ; b 1,, b n,, on a Avec la forme complexe, on a ] π lim a n = lim b n = 0 n n lim c n = 0 n ± Démonstration emarquons tout d abord que le résultat sur les c n est une conséquence simple du résultat sur les a n et les b n et des formules liant les c n et c n aux a n et b n. Puisque f est intégrable sur [ π, π], il existe, pour tout ε > 0, une fonction en escaliers g telle que π π f(t) g(t) dt ε 4 (critère d intégrabilité avec les sommes de Darboux). Il en résulte que, pour tout n 1, a n (f) a n (g) ε 2, b n(f) b n (g) ε 2 avec des notations évidentes. Montrons qu il existe n 0 tel que, pour tout n n 0, a n (g) ε 2 et b n(g) ε 2, c est-à-dire que les suites (a n (g)) n et (b n (g)) n tendent vers 0. Comme une fonction en escaliers est une combinaison linéaire de fonctions indicatrices d intervalles, il suffit de prouver le résultat si g est de la forme g = 1 [a,b] où [a, b] [ π, π]. On a dans ce cas a n = 1 π b a cos nt dt = sin nb sin na, b n = 1 πn π b a sin nt dt = cos na cos nb πn

144 144 - Séries de Fourier qui tendent bien vers 0 d où le résultat. emarque Lorsque f n est plus supposée iemann-intégrable mais simplement Lebesgue-intégrable, le résultat demeure : il est en effet possible de prouver qu une telle fonction peut être approchée dans L 1 ([ π, π]) par une suite de fonctions continues (voir par exemple [UD, théorème 3.14, page 84]). Il suffit alors de noter que la preuve ci-dessus s applique aux fonctions continues et de conclure en reprenant l argument de densité comme ci-dessus. emarque Nous montrerons plus loin que si f est de carré intégrable sur [ π, π], elle vérifie la formule de Parseval : + c n 2 = a ( a n 2 + b n 2 ) = 1 π f(t) 2 dt 2 2π n= n=1 La convergence des séries + n= c n 2 et + n=1 ( a n 2 + b n 2 ) implique dans ce cas particulier le théorème de iemann-lebesgue (mais attention : cette démonstration n est pas générale car une fonction peut être intégrable sur [ π, π] sans être de carré intégrable (par exemple : t 1 )). t π Somme des séries de Fourier : théorème de Dirichlet. Nous nous intéressons dans ce paragraphe à la convergence de la série de Fourier d une fonction f et à la valeur de sa limite. Théorème Théorème de Dirichlet Soit f E 2π. On suppose que f est de classe C 1 par morceaux sur [ π, π] (voir ci-dessous). Alors : (i) f possède en tout point x des limites à droite et à gauche, notées respectivement f(x+0) et f(x 0). (ii) Pour tout x, la série de Fourier S(x) converge et a pour somme 1 [f(x + 0) + f(x 0)]. En 2 particulier, S(x) = f(x) en tout point x où f est continue. (iii) La convergence est uniforme sur tout intervalle fermé (borné ou non) où f est continue. Avant de prouver le théorème, nous précisons le sens de l expression : f est de classe C 1 par morceaux sur [ π, π]. Cela signifie que l on peut découper l intervalle [ π, π] en une famille finie d intervalles [ π, a 1 ], [a 1, a 2 ],, [a n 1, π] de telle sorte que, sur chaque intervalle ouvert ]a i, a i+1 [, f coïncide avec une fonction g i de classe C 1 sur l intervalle fermé [a i, a i+1 ] (on a posé a 0 = π et a n = π). Démonstration Le point (i) est une conséquence simple du fait que f est de classe C 1 par morceaux : en un point x distinct des a i définis ci-dessus, f est continue. En x = a i, f a pour limite à droite g i (a i ) et pour limite à gauche g i 1 (a i. En a 0 = π il n y a pas de g 1 mais on utilise la périodicité pour observer que la limite à gauche en π existe et est égale à la limite à gauche en π, c est-à-dire à g n (π). On raisonne de même pour la limite à droite en π. Signalons également que, en tout point distinct des a i, f est dérivable et qu en un point de la forme a i, si on remplace f par f(x + 0), la fonction ainsi rendue continue à droite en x est dérivable à droite, et de même à gauche. Par abus de langage, nous noterons encore f d (x) et f g(x) ces dérivées à droite et à gauche. f(x + 0) + f(x 0) Posons g(x) =. Nous allons montrer que, pour tout x [ π, π], 2 où S n (f)(x) = a 0 + S n (f)(x) g(x) = 1 π π/2 0 f(x + 2v) f(x + 0) + f(x 2v) f(x 0) sin v n (a k cos kx + b k sin kx) (somme partielle de la série de Fourier). k=1 sin(2n + 1)v dv

145 Somme des séries de Fourier : théorème de Dirichlet On a Posons D n (u) = Par ailleurs, π π S n (f)(x) = a n f(t)(cos kt cos kx + sin kt sin kx) dt π k=1 π = 1 π ( n ) f(t) cos k(t x) dt 2π n cos ku. On a donc k=1 k=1 S n (f)(x) = 1 π f(t)d n (x t) dt 2π π 1 π D n (x t) dt = 1 2π π (revenir à la définition de D n et intégrer terme à terme), de sorte que Finalement g(x) = 1 2π Par périodicité, cette intégrale est aussi égale à π π g(x)d n (x t) dt S n (f)(x) g(x) = 1 π (f(t) g(x))d n (x t) dt 2π π 1 2π x+π x π (f(t) g(x))d n (x t) dt Si on fait le changement de variable t = x + u dans cette intégrale elle devient 1 2π π π (f(x + u) g(x))d n ( u) du = 1 2π π π (f(x + u) g(x))d n (u) du (parité de D n ). Coupons l intégrale en deux : π π = 0 π + π.et effectuons dans la première un nouveau 0 changement de variable v = u. L intégrale devient 1 2π 0 Finalement, en posant u = 2v, π (f(x v) g(x))d n (v) ( dv) + 1 2π = 1 2π S n (f)(x) g(x) = 1 π π 0 π/2 Il suffit pour conclure de prouver que 0 π 0 (f(x + u) g(x))d n (u) du (f(x + u) + f(x u) 2g(x))D n (u) du (f(x + 2v) f(x + 0) + f(x 2v) f(x 0))D n (2v) dv D n (2v) = sin(2n + 1)v sin v ce qui peut se faire par exemple par récurrence, ou, de manière moins guidée, en exprimant la partie réelle de la somme n e iku et en calculant cette somme partielle de somme géométrique. k=1 n cos ku comme k=1

146 146 - Séries de Fourier Posons ϕ(v) = f(x + 2v) f(x + 0) + f(x 2v) f(x 0) sin v si v ]0, π/2] et ϕ(0) = 2(f d (x) f g(x)) (dérivées à droite et à gauche qui existent d après les remarques faites au début de la démonstration). La fonction ainsi définie est continue sur [0, π/2]. Si on la prolonge à [0, 2π[ en posant ϕ(v) = 0 pour π/2 < v < 2π puis à par 2π-périodicité, on constate ϕ E 2π et que S n (f)(x) g(x) = 1 π π π ϕ(v) sin(2n + 1)v dv = b 2n+1 (ϕ) qui tend vers 0 d après le lemme de iemann-lebesgue. Ceci prouve le point (ii). Il reste à prouver (iii) : il y a convergence uniforme de S n (f)(x) vers f(x) sur tout intervalle où f est continue. Soit I un tel intervalle. Pour x I, on a S n (f)(x) f(x) = 1 π π/2 Il suffit de prouver que chacune des deux suites π/2 0 f(x + 2v) f(x) sin v 0 f(x + 2v) f(x) + f(x 2v) f(x) sin v sin(2n + 1)v dv, π/2 0 f(x 2v) f(x) sin v sin(2n + 1)v dv sin(2n + 1)v dv tend uniformément vers 0 sur I. Nous le ferons pour la première, l argument est le même pour la deuxième. L intervalle fermé I peut être borné ou non. S il est non borné, il contient une demi-droite et comme f est périodique et continue sur une demi-droite, elle est continue sur. On peut alors, en utilisant la périodicité de f et S n (f) remarquer que sup x I S n (f)(x) f(x) sup S n (f)(x) f(x) = sup S n (f)(x) f(x) x x [ π,π] de sorte que la convergence uniforme sur I résulte de la convergence uniforme sur [ π, π]. On peut donc se ramener au cas où I est compact : I = [a, b]. Quitte à découper en outre cet intervalle en un nombre fini de sous-intervalles, on peut même supposer que f est de classe C 1 sur I (car s il y a convergence uniforme sur une famille finie d intervalles, il y a aussi convergence uniforme sur leur réunion). Nous ferons cette hypothèse dans la suite de la démonstration. L ensemble D des points de discontinuité d une fonction C 1 par morceaux est discret (dans chaque intervalle [ π + kπ, π + kπ], ils sont en nombre fini puisque ce sont certains des a i + kπ - et peut-être même pas tous) donc fermé. Il existe alors ε > 0 tel que, si x I et si y D, x y > ε. Sinon, on trouverait des suites (x n ) et (y n ) telles que : x n I, y n D, x n y n 1/n. Comme I est compact, on pourrait extraire de (x n ) une sous-suite convergeant vers x I. Mais x serait aussi limite d une suite d éléments de D, donc appartiendrait à D (qui est fermé). Mais il est impossible d être à la fois dans I où f est continue et dans D où f ne l est pas. Ecrivant I = [a, b], on a prouvé l existence d un nombre r > 0 tel que f soit continue sur [a r, b + r]. f(x + 2v) f(x) Posons pour simplifier ϕ x (v) = si v ]0, π/2] et ϕ x (0) = 2f d sin v (x). La fonction ϕ x est elle aussi de classe C 1 par morceaux. Nous allons maintenant couper l intégrale en deux : π/2 0 ϕ x (v) sin(2n + 1)v dv = α où le nombre α > 0 sera déterminé plus loin. α 0 ϕ x (v) sin(2n + 1)v dv + α π/2 α ϕ x (v) sin(2n + 1)v dv Comme ϕ x est de classe C 1 par morceaux, on peut intégrer la deuxième intégrale par parties, et on obtient π/2 [ ] π/2 cos(2n + 1)v ϕ x (v) sin(2n + 1)v dv = ϕ x (v) + 1 π/2 ϕ (2n + 1) 2n + 1 x(v) cos(2n + 1)v dv α

147 Somme des séries de Fourier : théorème de Dirichlet La fonction ϕ x est majorée sur [α, π/2] par M(α) = 2 sin α sup f (f est C 1 par morceaux donc bornée sur [ π, π] et périodique donc bornée sur ). Ce majorant est indépendant de x. Un calcul analogue montre que ϕ x est majorée par M (α) = 2 sin 2 α (sup f + sup f ), là encore un majorant indépendant de x (la majoration est valable sauf aux points a i où la dérivée de f n existe pas, mais ce n est pas gênant pour le calcul des intégrales puisque ces points sont en nombre fini). Il en résulte, tous calculs faits, que π/2 ϕ x (v) sin(2n + 1)v dv 2M(α) 2n πm (α) 2(2n + 1) α qui tend vers 0 uniformément en x pour α fixé, et peut donc être rendu inférieur à ε/2 si n n 0 (α). Etudions maintenant la première intégrale α ϕ x (v) sin(2n + 1)v dv 0 Si on choisit α < r/2, la fonction v f(x + 2v) f(x) est continue sur [0, α], donc comme elle est de classe C 1 par morceaux, elle est égale à l intégrale de sa dérivée. On a donc f(x + 2v) f(x) = x+2v x f (u) du d où f(x+2v) f(x) 2v sup f. Il en résulte que ϕ x (v) 2 v sin v sup f π sup f (car sur [0, π/2], sin v 2v π ). Finalement, ( r Si on choisit α 0 = min α 0 ϕ x (v) sin(2n + 1)v dv απ sup f ), cette première intégrale est majorée par ε/2. Si on choisit 2, π 2, ε 2π sup f n n 0 (α 0 ), l intégrale entre α et π/2 est elle aussi majorée par ε/2. Le nombre n 0 est indépendant de x : la convergence uniforme est établie. emarque Dans le cas où f est continue sur, on peut donner une autre démonstration de la convergence uniforme en utilisant la formule de Parseval (on prouve que les séries a n et b n convergent, c est-à-dire la convergence normale sur de la série de Fourier de f). Voir [MONA, théorème , page 407] pour cette démonstration. Exemple Posons 1 si t ]0, π[ f(t) = 0 si t = 0 1 si t ] π, 0[ et prolongeons f à par périodicité. Cette fonction est impaire donc les coefficients a n de sa série de Fourier sont nuls. Un calcul simple montre que { 0 si n est pair b n = 4 si n est impair nπ La fonction f vérifie les hypothèses du théorème de Dirichlet et on a donc, pour 0 < t < π 1 = + p=0 4 sin(2p + 1)t (2p + 1)π la convergence étant uniforme sur tout intervalle fermé [ε, π ε] (0 < ε < π/2). emarque Vu la discontinuité de f en 0, il est clair qu il ne peut pas y avoir convergence uniforme de la série de Fourier (dont les sommes partielles sont continues) sur un intervalle contenant 0.

148 148 - Séries de Fourier Approximation des fonctions continues : théorème de Fejer En utilisant les définitions et méthodes rencontrées au chapitre chapitre consacré à la convolution, on peut réénoncer un certain nombre de faits établis dans le paragraphe précédent : si on appelle noyau de Dirichlet d ordre n l application D n définie par D n : x sin((n + 1/2)x) sin(x/2) (prolongée par continuité en x = 2kπ), la somme partielle S n (f) de la série de Fourier d une fonction f est le produit de convolution D n f. Le fait que la convergence de S n (f) vers f, telle qu établie dans le théorème de Dirichlet, nécessite une hypothèse de régularité relativement forte sur f (être de classe C 1 par morceaux) tient à la mauvaise qualité du noyau de Dirichlet, c est-à-dire au fait que ce noyau n est pas une unité approximative sur [ π, +π] car lim n π π D n (t) dt = + (la divergence est en ln n). Il se trouve qu en remplaçant les sommes partielles S n (f) de la série de Fourier de f par leurs moyennes de Cesaro σ n (f) = S 0(f) + + S n 1 (f) n appelées sommes de Fejer, ces nouvelles sommes apparaissent comme le produit de convolution de f avec un nouveau noyau F n appelé noyau de Fejer, et que ce noyau est une unité approximative : il en résulte un théorème de convergence beaucoup plus général. Définition On appelle noyau de Fejer d ordre n l application F n définie par (prolongée par continuité en x = 2kπ). F n : x 1 n Théorème Théorème de Fejer (a) La somme de Fejer σ n est égale à f F n. (b) La famille (F n ) n 1 est une unité approximative. sin 2 (nx/2) sin 2 (x/2) (c) Si f est intégrable sur [ π, π], σ n (f)(x) converge vers f(x) en tout point x où f est continue. (d) Si f est continue sur, σ n (f) converge uniformément vers f sur. Démonstration Vu la relation S n (f) = f D n et la définition de σ n (f), il suffit pour prouver (a) de vérifier que 1 n (D D n 1 ) = F n qui équivaut à n 1 k=0 sin((k + 1/2)x) sin(x/2) = sin2 (nx/2) sin 2 (x/2) (sauf si x = 2kπ mais alors le résultat est clair car (2n 1) = n 2 - le vérifier, par récurrence par exemple). L identité est évidente pour n = 1 (elle s écrit 1 = 1). Supposons la vraie au rang n et montrons qu elle l est aussi au rang n + 1. Vu l hypothèse de récurrence, il s agit de prouver que sin 2 (nx/2) sin 2 (x/2) + sin((n + 1/2)x) sin(x/2) = sin2 ((n + 1)x/2) sin 2 (x/2)

149 Approximation des fonctions continues : théorème de Fejer ou encore sin 2 (nx/2) + sin((n + 1/2)x) sin(x/2) = sin 2 ((n + 1)x/2) Linéarisant les trois produits de sinus par la relation la relation à démontrer devient 1 sin a sin b = 1 (cos(a b) cos(a + b)) 2 2 (cos(0) cos(nx)) (cos(nx) cos((n + 1)x)) = 1 (cos(0) cos((n + 1)x) 2 qui est bien vérifiée. La propriété est vraie au rang 1, elle est héréditaire, donc vraie pour tout entier n 1. (b) Quoique nous n ayions défini la notion d identité approximative que dans, on vérifie facilement en adaptant la démonstration du théorème , que si les F n vérifient les trois propriétés (i) 1 π F n (t) dt = 1 2π π (ii) Il existe M 0 tel que, pour tout n 1, (iii) Quel que soit δ tel que 0 < δ π, lim n π +π π δ t π F n (t) dt M. F n (t) dt = 0. et si on pose F n f(t) = 1 f(x t)f n (t) dt (pour f intégrable sur [ π, π]), la suite F n f converge 2π π ponctuellement vers f en tout point de continuité de f, et que la convergence est uniforme sur si f est continue sur. Ce sont donc les propriétés (i) à (iii) que nous prendrons comme définition d une unité approximative, et dès lors que nous aurons prouvé que le noyau de Fejer les vérifie, les parties (c) et (d) du théorème seront établies. La propriété (i) est vraie si on remplace F n par D k (nous l avons vu plus haut). Comme F n est la moyenne arithmétique de D 0,, D n 1, (i) est vraie aussi pour F n par linéarité de l intégrale. Comme les F n sont positifs (ce qui manque aux D n ), (ii) est une conséquence immédiate de (i). Soit δ tel que 0 < δ π et α = min δ t π sin(t/2). Le nombre α est strictement positif, et on a donc F n (t) dt 1 nα 2 sin 2 (nt/2) dt 2π nα 2 d où la propriété (iii). δ t π δ t π Le théorème de Fejer admet l important corollaire suivant. Corollaire Toute fonction continue 2π-périodique est limite uniforme sur d une suite de polynômes trigonométriques, c est-à-dire de fonctions f n du type n f n : x a k,n cos(kx) + b k,n sin(kx) k=0 emarque Ce corollaire évident du théorème de Fejer montre que, même quand le théorème de Dirichlet ne s applique pas, une fonction continue 2π-périodique sur est limite uniforme sur d une suite de polynômes trigonométriques. On peut alors se demander si le résultat du théorème de Dirichlet est optimal, c est-à-dire s il ne serait pas possible, en s y prenant autrement, de prouver que les sommes partielles de la série de Fourier d une fonction continue 2π-périodique convergent vers cette fonction, au moins ponctuellement : il n en est rien. On trouvera par exemple aux pages 83 à 87 du livre Fourier analysis, an introduction (de Elias M. Stein et ami Shakarchi, éd. Princeton Lectures in Analysis), dans le paragraphe 2.2 : A continuous function with diverging Fourier series, un exemple de fonction continue sur dont la série de Fourier diverge en 0.

150 150 - Séries de Fourier Théorie hilbertienne des séries de Fourier Dans ce paragraphe, nous nous intéressons à l espace L 2 (S 1 ) formé par les classes d équivalences (pour l égalité presque partout) de fonctions 2π-périodiques de carré intégrable sur [ π, π] (cf. le paragraphe 1.8.1). Il s agit d un espace de Hilbert du fait de la complétude des espaces L p démontrée au théorème Nous allons prouver que la famille B = {e n : x e inx, n Z} constitue une base hibertienne de cet espace, c est-à-dire une famille orthonormée pour le produit scalaire (f g) = 1 2π π π f(t)g(t) dt telle que l espace engendré par B soit dense dans L 2 (S 1 ) pour la norme, notée. 2 associée à ce produit scalaire. Il résultera notamment de ceci la formule de Parseval 1 2π π π (dont nous verrons qu elle traduit l égalité f(t) 2 dt = a n=1 lim n S n(f) 2 = f 2 ( a n 2 + b n 2 ) analogue à la formule de Plancherel pour la transformation de Fourier dans que nous étudierons au chapitre suivant). Le théorème de Fejer et le corollaire ont pour conséquence le lemme suivant : Lemme Si f : est une fonction continue 2π-périodique, il existe une suite de polynômes trigonométriques telle que P n : t +N n k= N n C k,n e ikt 1 π f(t) P n (t) 2 dt = 0 2π π En d autres termes, l ensemble des polynômes trigonométriques est dense dans L 2 (S 1 ) C 0 (S 1 ). Plus généralement, l ensemble des polynômes trigonométriques est dense dans L 2 (S 1 ). Démonstration D après le théorème de Fejer, il existe une suite (P n ) n de polynômes trigonométriques convergeant uniformément vers f sur [ π, π]. La suite de fonctions ( f P n 2 ) n tend alors uniformément vers 0 et le résultat en découle. Une adaptation simple - mais à rédiger tout de même avec quelque soin - du théorème prouve par ailleurs que L 2 (S 1 ) C 0 (S 1 ) est dense dans L 2 (S 1 ). Il en résulte que l ensemble des polynômes trigonométriques est aussi dense dans L 2 (S 1 ). Pour prouver la formule de Parseval énoncée plus haut, nous allons maintenant raisonner en deux temps. Nous commencerons par prouver que les sommes partielles S n (f) de la série de Fourier d une fonction f L 2 (S 1 ) constituent la meilleure approximation de f (pour la norme L 2 définie ci-dessus) parmi les polynômes trigonométriques de degré n (voir ci-dessous pour un énoncé précis). Puis nous en conclurons, grâce au lemme et à l inégalité triangulaire, que lim n S n(f) 2 = f 2 qui est précisément la formule de Parseval, comme annoncé plus haut.

151 Théorie hilbertienne des séries de Fourier Lemme Soit E n l espace des polynômes trigonométriques de degré inférieur ou égal à n, c est-à-dire la partie de L 2 (S 1 ) engendrée par la famille et soit f L 2 (S 1 ). (a) Pour tout n, S n (f) E n. B n = {e k : t e ikt, n k n} (b) Pour tout n, f S n (f) 2 = inf g En f g 2, et ce minimum est strict. Démonstration La partie (a) est évidente, grâce aux formules d Euler. La partie (b) peut se réénoncer de manière plus géométrique : grâce au théorème de Pythagore, il suffit de vérifier que, si g E n, f S n (f) est orthogonal à S n (f) g. En effet, on aura alors g f 2 2 = g S n (f) f S n (f) 2 2 f S n (f) 2 2 avec égalité si et seulement si g = S n (f). Comme E n est un espace vectoriel, il suffit en fait de vérifier que si g E n, f S n (f) est orthogonal à g. Il suffit de vérifier ceci sur la base B n. Or, l égalité (f S n (f) e k ) = 0 équivaut à Or, nous avons vu que avec On a donc π π π π f(t) e ikt dt = S n (f)(t) = S n (f)(t) e ikt dt = π π +n p= n S n (f)(t) e ikt dt c p e ipt c p = 1 π f(t)e ipt dt 2π π +n p= n π π c p e ipt e ikt dt = 2πc k (les intégrales pour p k sont nulles, celle pour p = k vaut 2π). Finalement π π S n (f)(t) e ikt dt = 2π( 1 2π π π f(t)e ikt dt) = π π f(t)e ikt dt ce qu il fallait démontrer. Lemme Soit f un élément de L 2 (S 1 ) et (S n (f)) n la suite des sommes partielles de sa série de Fourier. On a lim f S n(f) 2 = 0 n Démonstration Désignons par P n une suite de polynômes trigonométriques convergeant dans L 2 (S 1 ) vers f, et par N n le degré de P k. Fixons ε > 0. Il existe un entier n 0 tel que f P n0 2 < ε. Alors, pour tout n N n0, P n0 E n et donc f S n (f) 2 f P n0 2 < ε d après le point (b) du lemme D où le résultat.

152 152 - Séries de Fourier Théorème Formule de Parseval Si f L 2 (S 1 ), 1 π f(t) 2 dt = a π π 2 Démonstration L inégalité triangulaire implique que + n=1 ( a n 2 + b n 2 ) f 2 S n (f) 2 f S n (f) 2 Le lemme implique donc que S n (f) 2 tend vers f 2 quand n tend vers l infini, et donc aussi que S n (f) 2 2 tend vers f 2 2. Puisque f 2 2 est le membre de gauche de la formule de Parseval, il suffit de prouver que le membre de droite est égal à la limite de S n (f) 2 2. Il suffit pour cela que Or, S n (f) 2 2 = a S n (f) 2 2 = 1 π 2π π = 1 2π = 1 2π = π +n n ( a 2 p + b 2 p) p=1 p= n +n π p,q= n +n p,q= n +n p= n c p 2 c p e ipt 2 dt c p c q e ipt e iqt dt π c p c q e ipt e iqt dt (les intégrales sont nulles quand p q, et égales à 2π quand p = q). Or, nous avons vu au début du chapitre que les coefficients a n, b n et c n sont liés par les formules : On a donc et, pour p 0, a 0 = c 0, n 1, c n = a n ib n 2 π, c n = a n + ib n, a n = c n + c n, b n = i(c n c n ) 2 c 0 2 = a 0 2 c p 2 + c p 2 = 1 4 ((a p ib p )(a p ib p ) + (a p + ib p )(a p + ib p )) = 1 4 (2( a p 2 + b p 2 )) (identité du parallélogramme) = 1 2 ( a p 2 + b p 2 ) ce qui termine la démonstration Une application des séries de Fourier : l inégalité isopérimétrique Une intéressante application des séries de Fourier est l inégalité isopérimétrique. Celle-ci affirme que, parmi les courbes fermées de longueur L donnée, celle qui enferme la surface maximale est le cercle. Nous ne prouverons pas ici ce résultat mais donnons deux références : on trouvera aux pages 101 à 105 du livre Fourier analysis, an introduction (de Elias M. Stein et ami Shakarchi, éd. Princeton

153 Exercices Lectures in Analysis), dans le paragraphe 4.1 : The isoperimetric inequality, l énoncé et la preuve de ce résultat (ainsi que des commentaires sur le manque de définition précise de certains des objets étudiés dans cette démonstration). On trouvera une autre démonstration, fondée sur les mêmes idées mais en français (et écrite dans un langage moins moderne), au paragraphe 92 : Applications.- Théorème des isopérimètres. Problème des cordes vibrantes (partie II du chapitre VII) du livre Théorie des fonctions de Georges Valiron, éd. Masson, Exercices Exercice Soit f la fonction périodique de période 2π définie dans l intervalle [0, 2π] par 1 Quelle est l allure du graphe de f? f(x) = 3x2 6πx + 2π Déterminer la série de Fourier de f (utiliser la deuxième remarque après la définition de la série de Fourier d une fonction de E 2π ). Montrer que cette série est uniformément convergente sur. 3 Quelle est la somme des séries 4 Pour p > 0, on pose L(p) = + n=1 + Montrer que cette intégrale converge, que et calculer L(p) n 2 et n=1 e px f(x) dx. L(p) = 5 Montrer que, pour tout p > 0, L(p) = 1 p 1 n 4? 1 1 e 2πp + n=1 Exercice Montrer que, pour tout t, ( sin t = 2 π + 0 e px f(x) dx ( ) 1 n 2 1 n 2 + p n=1 ) cos(2nt) 4n 2 1 Que peut-on dire de l énoncé suivant : si deux séries de Fourier ont la même somme sur [0, π], elles ont les mêmes coefficients? Exercice Soit α \Z, et f la fonction périodique de période 2π égale à cos(αx) si x [ π, π[. 1 Calculer la série de Fourier de f, et montrer que celle-ci converge uniformément vers f sur. 2 Montrer que π α sin απ = 1 + α ( 1) n α 2 n 2. n=1 Exercice Soit f une fonction périodique deux fois continûment dérivable sur. Montrer qu il existe une constante C telle que les coefficients de Fourier a n et b n de f vérifient n 1, a n C n 2, b n C n 2 Indication - On pourra même prouver le résultat plus fort et plus général suivant : si f est de classe C p sur, a n = o(n p ) et b n = o(n p ) quand n tend vers l infini. Pour cela, on prouvera que, pour tout n Z et pour tout k p, c n (f (k) ) = (in) k c n (f) (intégrer par parties) et on concluera en utilisant le lemme de iemann-lebesgue.

154

155 Chapitre XII Transformée de Fourier Bibliographie du chapitre 12 [TIT] - Titschmarch, Theory of functions, Cambridge University Press, Le paragraphe 9 du chapitre 13 traite de la transformation de Fourier comme cas limite de série de Fourier. [UD] - udin Walter, Analyse réelle et complexe, Editions Masson, La transformée de Fourier est étudiée au chapitre 9. On trouvera par ailleurs au chapitre 5 quelques remarques, mais un peu difficiles, sur les séries de Fourier. [STE] - Stein, Elias et Shakarchi, ami, Fourier analysis, an introduction, Princeton Lectures in Analysis, Les propriétés de la transformée et des séries de Fourier sont étudiées et démontrées, inscrites dans une perspective historique et associées à des exemples de situations où elles trouvent de riches applications Transformation de Fourier dans L 1 () : propriétés algébriques Définition Soit f L 1 (). On appelle transformée de Fourier de f, et on note f la fonction définie par t, f(t) = f(x) e ixt dx 2π Dans la suite, nous noterons dm(x) = dx 2π, ce qui permettra d écrire simplement f(t) = f(x) e ixt dm(x) Nous commençons par un exemple qui nous sera utile par la suite. Exemple Si H(x) = e x, alors Ĥ(t) = h(t) = 2 π t 2. Plus généralement, si H λ (x) = e λ x (λ > 0), alors Ĥλ(t) = h λ (t) = 2 λ π λ 2 + t 2. Cette formule se démontre en découpant l intégrale en deux et en notant que, pour ε = ±1, e (ε+it)x admet pour primitive e(ε+it)x ε + it. 155

156 156 - Transformée de Fourier Théorème Soit f un élément de L 1 () et α un nombre réel. (a) Si g(x) = f(x) e iαx, on a ĝ(t) = f(t α). (b) Si g(x) = f(x α), alors ĝ(t) = f(t)e iαt. (c) Si g(x) = f( x), alors ĝ(t) = f(t). (d) Si λ > 0 et si g(x) = f(x/λ), alors ĝ(t) = λ f(λt). La preuve de ces propriétés est immédiate. emarque On retrouve notamment le lien entre Ĥλ et Ĥ vu à l exemple ci-dessus. Théorème Soit f et g deux éléments de L 1 (). Alors (f g) = f ĝ. En d autres termes, la transformée de Fourier transforme les produits de convolution en produits ordinaires. Démonstration On a vu que si f et g appartiennent à L 1, leur produit de convolution f g aussi (évidemment, le produit de convolution est ici calculé par rapport à la mesure dm). On peut donc écrire + ( + ) (f g)(t) = e itx f(x y)g(y) dm(y) dm(x) + ( + ) = g(y)e ity f(x y)e it(x y) dm(x) dm(y) = (on peut appliquer le théorème de Fubini car f et g sont intégrables) ( + ) g(y)e ity f(u)e itu dm(u) dm(y) + (faire le changement de variable u = x y dans l intégrale intérieure ou invoquer l invariance par translation de la mesure dm(x) : c est une autre manière de dire la même chose...) = f(t) ĝ(t) d où le résultat égularité de la transformée de Fourier Théorème Continuité des transformées de Fourier Si f L 1 (), alors f est continue sur, et de plus sup f(x) f 1. x Démonstration La continuité est une application élémentaire du théorème de convergence dominée, que l on pourra traiter comme un exercice, en imitant par exemple la méthode de l exercice L inégalité résulte de la relation f dm f dm. Ω Théorème Dérivée et transformée de Fourier Ω Soit f L 1 () et g la fonction définie par g : x ixf(x). Si g L 1 (), la fonction f est dérivable, de dérivée ĝ. éciproquement, si f et f sont intégrables et si f tend vers 0 en ±, la transformée de Fourier de f est t it f(t).

157 égularité de la transformée de Fourier Démonstration On va utiliser le théorème de dérivabilité des fonctions définies par une intégrale. On a f(t) = f(x)e itx dm(x) = ϕ(t, x) m(x) avec ϕ(t, x) = f(x)e itx. A t fixé, cette fonction est intégrable sur (sinon, on n aurait jamais parlé de transformée de Fourier...). Elle admet clairement une dérivée partielle ϕ t (t, x) = ixf(x)e itx = g(x)e itx dominée par g qui est intégrable par hypothèse. D où la dérivabilité de f et le fait que f (t) = g(x)e itx dm(x) c est-à-dire f = ĝ. La démonstration de la réciproque est laissée en exercice (faire une intégration par parties). Nous montrons maintenant que toute fonction continue sur n est pas une transformée de Fourier, en prouvant qu une transformée de Fourier tend toujours vers 0 en l infini (lemme de iemann-lebesgue, qui possède son équivalent dans le cadre des séries de Fourier). Nous établissons au préalable un lemme utile (qui nous a déjà servi au chapitre 10 à établir l uniforme continuité sur du produit de convolution d une fonction de L p par.une fonction de L q (théorème ). Lemme Pour toute fonction f :, pour tout y, on pose f y (x) = f(x y). On suppose que 1 p +. Si f L p (, dx), alors f y L p (, dx) et, pour tout y, l application f f y est une isométrie de L p (, dx). Si, de plus, 1 p < +, alors pour tout f L p (), l application y f y est uniformément continue de dans L p (, dx). emarque Le résultat est vrai si on remplace dx par dm(x). Démonstration La première affirmation résulte de l invariance par translation de la mesure de Lebesgue quand p est fini (on a donc f p = f y p quels que soient y et f L p (, dx)). Quand p est infini, il existe M tel que f(x) M sauf sur un ensemble A de mesure nulle. Alors f y (x) M sauf sur le translaté A + y qui est encore de mesure nulle (on utilise de nouveau l invariance par translation de la mesure de Lebesgue). En choisissant M = f, on constate que f y f. On obtient l inégalité dans l autre sens en notant que f = (f y ) y et en renversant ainsi les rôles de f et f y. Pour prouver la deuxième affirmation, nous allons utiliser la densité dans L p (, dx) de l ensemble des fonctions continues à support compact. Soit ε > 0. Il existe une fonction g continue à support compact telle que f g p ε/3. Soit A > 0 tel que g soit nulle en dehors de [ A, A], et soit δ > 0 tel que, quels que soient s et t, si s t δ, ε g(s) g(t) < ε 1 : = 3 p. Ce nombre δ existe car une fonction continue à support compact est 2A + 2 uniformément continue, non seulement sur son support mais aussi sur tout entier (il suffit même qu une fonction continue sur ait des limites en et + pour qu elle soit uniformément continue sur ). Quitte à réduire δ, on peut de plus supposer que δ 1. Supposons donc s t δ, ou encore s 1 t s + 1 et estimons g s g t p. g s (x) g t (x) p dx = g(x s) g(x t) p dx = = max(a+s,a+t) min( A+s, A+t) A+s+1 A+s 1 g(x s) g(x t) p dx g(x s) g(x t) p dx (à cause des relations sur s et t) (2A + 2)ε p 1 = εp (car (x s) (x t) δ) 3p

158 158 - Transformée de Fourier d où g s g t p ε 3. On peut alors écrire f s f t p f s g s p + g s g t p + g t f t p f g p + g s g t p + g f p (car à s et t fixés, f f s et f f t sont des isométries de L p (, dx)) ε ce qui achève la démonstration. Théorème Théorème de iemann-lebesgue Si f L 1 (), lim f(t) = 0. t ± Démonstration Nous allons utiliser la formule (b) du théorème : si on pose, comme dans le lemme ci-dessus, f y (x) = f(x y) alors f y (t) = f(t)e iyt. Posons y t = π/t. Alors f yt (t) = f(t) d où 2 f(t) = f(t) f yt (t) Il en résulte que 2 f(t) sup f f yt f f yt 1 (d après le théorème ). Mais d après le lemme , le majorant f f yt 1 = f 0 f yt 1 tend vers 0 quand t tend vers l infini (car y t tend vers 0), d où le résultat Le théorème d inversion. Nous allons prouver dans cette partie le théorème d inversion, selon lequel lorsque la transformée de Fourier d une fonction intégrable est elle aussi intégrable, sa transformée de Fourier coïncide presque partout avec f( x). L outil essentiel de la démonstration sera la convolution et le concept d unité approximative que nous avons déjà rencontré au chapitre 10. Nous suivons dans cette partie la démarche de [UD, chap. 9, 9.7 à 9.12]. Nous reprenons l exemple introduit au début du chapitre de la fonction H : x e x. Si on pose H λ (x) = H(λx), et si on désigne par h λ la transformée de Fourier de H λ, on a En particulier, h λ (t) dm(t) = 1. h λ (t) = 2 π λ λ 2 + t 2 On notera que 0 < H 1 et que H λ converge simplement vers 1 quand λ tend vers 0. Théorème Si f L 1, on a pour tout x (f h λ )(x) = + H λ (t) f(t)e ixt dm(t)

159 Le théorème d inversion Démonstration On applique le théorème de Fubini (vérifier que les hypothèses sont réunies) : d où la conclusion. (f h λ )(x) = = = = = = f(x y)h λ (y) dm(y) f(x y)h λ ( y) dm(y) (parité de h λ ) ( + f(x y) H λ (t) ( + H λ (t)e ixt ( + ) H λ (t)e ity dm(t) dm(y) ) f(x y)e ity dm(y) dm(t) H λ (t) f(t)e ixt dm(t) ) f(x y)e it(x y) dm(y) dm(t) Théorème Si g L et si g est continue en x, lim (g h λ )(x) = g(x). λ 0 Démonstration Puisque h λ est d intégrale 1 sur (par rapport à dm(x)), on a + (g h λ )(x) g(x) = 2 = π = 1 π = 1 π (g(x y) g(x))h λ (y) dm(y) (g(x y) g(x)) (g(x y) g(x)) (g(x λu) g(x)) λ λ 2 + y 2 dm(y) λ 2 dy λ 2 + y 2 λ u 2 du (changement de variable : u = y/λ). La fonction à intégrer converge simplement vers 0 quand λ tend vers 0 2 g (continuité de g en x) ; elle est dominée presque partout par la fonction intégrable π(1 + u 2, donc l intégrale ) tend vers 0 d après le théorème de convergence dominée. Théorème Si 1 p < et si f L p, lim f h λ f p = 0. λ 0 Démonstration Puisque h λ L q où q est l exposant conjugué de p, la fonction f h λ existe et est uniformément continue sur (théorème ). Puisque h λ (t) dm(t) = 1, on a (f h λ )(x) f(x) = + [f(x t) f(x)] h λ (t) dm(t) La mesure dp (t) = h λ (t) dm(t) est une mesure de probabilité sur et la fonction x x p est convexe sur. On peut donc appliquer l inégalité de Jensen pour conclure que (f h λ )(x) f(x) p + f(x t) f(x) p h λ (t) dm(t) Si on intègre cette inégalité par rapport à x et qu on applique le théorème de Fubini-Tonnelli (tout le monde est positif), on obtient : f h λ f p + f t f p p h λ (t) dm(t) = + g(t) h λ (t) dm(t)

160 160 - Transformée de Fourier où g(t) = f t f p p (la notation f t a été introduite au théorème). Ce théorème assure que g est continue (et nulle) en 0. Par ailleurs cette fonction est bornée par 2 p f p p d après l inégalité de Minkowski et l invariance de dm par translation. On peut donc appliquer le théorème pour conclure que le membre de droite de l inégalité ci-dessus, égal à g h λ (0) (car h λ est paire), tend vers g(0) = 0 quand λ tend vers 0. Théorème Théorème d inversion Si f L 1 et si f L 1, et si on désigne par g la transformée de Fourier de f, alors g est continue et tend vers 0 en ±, et pour presque tout x, f(x) = g( x) Démonstration Nous savons grâce au théorème que (f h λ )(x) = + H λ (t) f(t)e ixt dm(t) Pour tout x, pour tout t, pour tout λ, H λ (t)e ixt 1 et la fonction à intégrer est donc dominée par la fonction intégrable f. Quand λ tend vers 0, cette fonction tend vers f(t)e ixt. D après le théorème de convergence dominée, on a donc + lim (f h λ)(x) = f(t)e ixt dm(t) = g( x) λ 0 Par ailleurs, d après le théorème , f h λ converge vers f dans L 1, et donc, d après le théorème 1.8.6, il existe une suite λ n tendant vers 0 telle que Il en résulte que, pour presque tout x, f(x) = g( x). lim f h λ n n (x) = f(x) pour presque tout x On déduit du théorème d inversion l injectivité de la transformation de Fourier, que nous énonçons dans le dernier théorème de cette partie : Théorème Injectivité de la transformation de Fourier Si f L 1 et si f = 0, f est presque partout nulle. Démonstration Si f = 0, f L 1 et par conséquent sa transformée de Fourier, égale à 0, coïncide presque partout avec f( x) d après le théorème d inversion Transformation de Fourier dans L 2 : le théorème de Plancherel Nous allons prouver dans cette partie que la restriction de la transformée de Fourier à E = L 1 L 2 réalise une isométrie, pour la norme 2 sur L 2 ) entre E et une partie de L 2. Nous prolongerons ensuite cette isométrie à L 2 (en utilisant la densité de L 1 L 2 dans L 2 ), et prouverons que l opérateur ainsi défini est un automorphisme unitaire de l espace de Hilbert. Ces résultats (ainsi que quelques précisions supplémentaires font l objet du théorème suivant, connu sous le nom de théorème de Plancherel). Théorème Théorème de Plancherel Si f L 1 L 2, f L 2 et f 2 = f 2. L application f f définie sur L 1 L 2 s étend en un automorphisme unitaire (encore noté f f) de l espace de Hilbert L 2. Pour tout f L 2, les fonctions f et f sont liées par les relations suivantes : si on pose ϕ A (t) = A A f(x)e ixt dm(x), ψ A (t) = A A f(x)e ixt dm(x)

161 Transformation de Fourier dans L 2 : le théorème de Plancherel alors lim ϕ A f 2 = 0 et lim ψ A f 2 = 0. A + A + Démonstration (a) Soit f L 1 L 2. En vue de prouver que f L 2 et f 2 = f 2, nous introduisons une fonction auxiliaire f : x f( x) et nous posons g = f f Comme f L 1 L 2, il en est de même de f et on a même f 1 = f 1 et f 2 = f 2. Puisque f et f appartiennent à L 1, g aussi d après le point (a) du théorème Puisque f et f appartiennent à L 2, g est continue sur d après le théorème (avec p = q = 2), et de plus, g est bornée par f 2 f 2 = f 2 2, d après l inégalité de Hölder. eprenons les notations introduites au début de la partie On a, d après le théorème appliqué avec x = 0, (g h λ )(0) = + car g L 1. On a de plus, d après le théorème , car g est bornée et continue en 0. H λ (t)ĝ(t) dm(t) lim λ 0 (g h λ)(0) = g(0) = f 2 2 La fonction ĝ est à valeurs réelles positives : en effet, on a vu au théorème que f f = f f et au point (c) du théorème que f = f, d où ĝ = f 2 +. De plus, quand λ décroît vers 0, la suite H λ converge en croissant vers la fonction constante t 1. Donc H λ ĝ, qui est positive d après le paragraphe précédent, converge en croissant vers ĝ quand λ décroît vers 0. On en conclut d après le théorème de convergence monotone que + lim λ 0 H λ (t)ĝ(t) dm(t) = On a bien prouvé que f 2 2 = f ĝ(t) dm(t) = + f(t) 2 dm(t) = f 2 2 (b) L application f f est donc uniformément continue de L 1 L 2 dans L 2 qui est complet. Comme L 1 L 2 est dense dans L 2 (par exemple parce que tous deux admettent comme partie dense commune l ensemble des fonctions continues à support compact), cette application peut s étendre en une fonction uniformément continue de L 2 dans L 2. Cette fonction, que nous noterons encore f f est une isométrie. en effet, si f L 2 est limite d une suite (f n ) n d éléments de L 1 L 2, on a par continuité f 2 = lim n f n 2 = lim n f n 2 = f 2 (c) Pour montrer que cette application est unitaire, nous devons en outre prouver sa surjectivité. Pour cela nous allons montrer que si f L 2, il existe une suite (g n ) n d éléments de L 2 telle que ĝ n tende vers f dans L 2. Comme g n g m 2 = ĝ n ĝ m 2, il en résultera que la suite (g n ) n est de Cauchy, donc convergente dans L 2 qui est complet. Si on note g = lim g n, on a par continuité ĝ = lim ĝ n = f. Soit donc f L 2 et f : x f( x) : on a aussi f L 2. Comme nous l avons déjà rappelé ci-dessus, il existe une suite (f n ) n de fonctions continues à support compact convergeant dans L 2 vers f (de sorte que les fn convergent dans L 2 vers f). Si on pose γ n = f n, on souhaiterait pouvoir appliquer le théorème d inversion aux γ n pour conclure que presque partout, f n (t) = γ n ( t), ou encore fn = γ n et donc f = lim γ n. Mais il faudrait pour cela que γ n soit aussi dans L 1, ce qui n est pas garanti. Nous allons voir que c est cependant le cas si on exige un peu plus de régularité sur f que la simple continuité. Fixons n et notons [a, b] le support de f. On sait qu il existe une fonction ϕ n de classe C à support compact inclus dans [a 1, b + 1] telle que sup f n (t) ϕ n (t) 1 t n

162 162 - Transformée de Fourier Ceci résulte, en ce qui concerne la convergence uniforme, du théorème (existence d une unité approximative de classe C à support compact) et du corollaire , et en ce qui concerne l affirmation sur le support de ϕ n de la démonstration du point (d) du théorème On a alors f n ϕ n 2 2 b a + 2 n 2 et il en résulte, par inégalité triangulaire, que la suite (ϕ n ) n converge aussi vers f dans L 2. Il suffit de montrer que g n : = ϕ n L 1 pour pouvoir appliquer le théorème d inversion et obtenir f n = ĝ n. Une première intégration par parties montre que, pour x 0 ϕ n (t) = 1 ϕ it n(x) e ixt dx 2π et en recommençant ϕ n (t) = 1 t 2 ϕ n(x) e ixt (les intégrales existent puisque ϕ n et ϕ n sont encore C à support compact). Finalement, pour t 0, ϕ n (t) = 1 t ϕ 2 n(t). La fonction ϕ n étant dans L 1, sa transformée de Fourier est bornée sur. Donc la ( ) 1 fonction continue ϕ n est en O en ±, donc elle est intégrable sur. Cela termine la démonstration. t 2 dx 2π (d) Il reste à prouver la formule de symétrie : si f L 2 et si on pose, pour t réel et A 0, ϕ A (t) = A A f(x)e ixt dm(x), ψ A (t) = A A f(x)e ixt dm(x) alors lim ϕ A f 2 = 0 et lim ψ A f 2 = 0. A + A + La fonction ϕ A est la transformée de Fourier de f 1 [ A,A]. Quand A tend vers l infini, la fonction f f 1 [ A,A] 2 converge vers 0 et elle est majorée par f 2, donc son intégrale sur tend vers 0 d après le théorème de convergence dominée : en d autres termes, f 1 [ A,A] converge vers f dans L 2 quand A tend vers +. Par continuité, sa transformée de Fourier converge dans L 2 vers f quand A tend vers l infini. Le même raisonnement s applique pour ψ A Une application : résolution de l équation de la chaleur L équation de la chaleur On modélise une tige fine de longueur infinie par. On suppose qu à l instant t = 0, la température du point de la tige d abscisse x s écrit f(x) et on souhaite décrire l évolution de cette température dans le temps : pour x réel et t 0, on désigne par u(x, t) la température à l instant t du point d abscisse x. Des considérations physiques de flux permettent de prouver que la fonction u satisfait une équation aux dérivées partielles du type u t = C 2 u x 2 où C est une constante positive liée aux propriétés thermiques de la tige (voir le paragraphe 2.1 : Derivation of the heat equation du livre Fourier analysis, an introduction (de Elias M. Stein et ami Shakarchi, éd. Princeton Lectures in Analysis), pages 18 à 20. Après une renormalisation convenable, on peut supposer que C = 1, et résoudre l équation de la chaleur consiste donc à chercher une fonction u vérifiant u x, t > 0, t = C 2 u, u(x, 0) = f(x) x2

163 Détermination d une solution (nous préciserons ultérieurement les propriétés exactes de régularité imposées à la fonction u : ceci nous permettra d établir un théorème d unicité.) Nous indiquons maintenant les conditions de régularité imposées à la distribution initiale de température f, et pour cela introduisons l espace S(), connu sous le nom d espace de Schwartz, ou d espace des fonctions à décroissance rapide Le cadre de la résolution : espace de Schwartz S() Définition On désigne par S(), et on appelle espace de Schwartz, ou espace des fonctions à décroissance rapide, l ensemble des fonctions indéfiniment dérivables de dans telles que, pour tout couple d entiers positifs ou nuls n et m, la fonction soit bornée sur. x x m f (n) (x) On vérifie que S() est un espace vectoriel stable par dérivation et par multiplication par les polynômes. Exemple Les fonctions x e λx2 sont à décroissance rapide pour tout λ > 0. Exemple Toute fonction de classe C à support compact est à décroissance rapide. Evidemment, toute fonction à décroissance rapide est intégrable sur et possède donc une transformée de Fourier. Théorème La restriction de la transformation de Fourier à S() réalise une bijection entre S() et lui-même. Démonstration L essentiel de la démonstration consiste à remarquer que la transformée d une fonction à décroissance rapide est elle aussi à décroissance rapide. On note tout d abord que si f S(), sa transformée de Fourier est indéfiniment dérivable grâce à une généralisation immédiate du théorème Par ailleurs, la même généralisation et une généralisation analogue de sa réciproque prouvent que est la transformée de Fourier de x 1 i m t t m ˆf (n) (t) ( ) m d [( ix) n f(x)] dx Cette dernière fonction appartient à L 1 (), donc sa transformée de Fourier est bornée, ce qu il fallait démontrer. L application f f réalise donc une injection de S() dans lui-même. Mais elle est aussi surjective car on peut appliquer le théorème d inversion (les hypothèses de régularité nécessaires sont largement vérifiées par les fonctions de S()). D où la conclusion. Dans la suite de notre travail sur l équation de la chaleur, nous supposerons que la distribution initiale de température f appartient à S() Détermination d une solution Nous construisons dans ce paragraphe des solutions de l équation de la chaleur en introduisant, pour t > 0, la fonction H t définie par H t (x) = 1 e x2 /4t 4πt Cette fonction est connue sous le nom de noyau de la chaleur (sa définition peut varier légèrement d un ouvrage à l autre suivant la convention choisie pour définir la transformée de Fourier). Un exercice élémentaire permet d établir que Ĥ t (x) = e tx2

164 164 - Transformée de Fourier (posant G = Ĥt, écrire G(x) sous forme réelle, dériver sous le signe somme - en justifiant -, intégrer par parties et aboutir à l équation différentielle G = t 2a G que l on résoud. Il reste à déterminer une constante d intégration, égale à G(0), que l on calcule en se ramenant à l intégrale gaussienne par un changement de variable). Théorème Soit f S(). Posons, pour t > 0 et x e x2 /2 dx = 2π u(x, t) = (f H t )(x) (i) La fonction u est de classe C 2 sur l ouvert H = + et elle y est solution de l équation de la chaleur. (ii) La famille de fonctions u t : x u(x, t) converge uniformément sur vers f quand t tend vers 0 +. En particulier, si on prolonge u à l axe réel en posant u(x, 0) = f(x), le prolongement obtenu est continu sur le demi-plan supérieur fermé. Démonstration (i) La régularité de u résulte des théorèmes habituels de dérivabilité sous le signe somme (le fait que f soit à décroissance rapide rend les vérifications de convergence assez faciles...). Puisque u t = f H t, û t = f Ĥt (d après le théorème ). On a donc û t (ξ) = f(ξ)e tξ2 Utilisons la formule d inversion : u t (x) est la valeur en x de la transformée de Fourier de û t. On obtient donc u t (x) = 1 + f(ξ)e tξ2 e ixξ dξ 2π Si l on dérive cette expression une fois par rapport à t ou deux fois par rapport à x on aboutit à la même intégrale u t = 2 u x 2 = 1 + ξ 2 tξ f(ξ)e 2 e ixξ dξ 2π et u est bien solution de l équation de la chaleur sur H. (ii) Pour prouver (ii), il suffit de remarquer que la famille {H t, t > 0} est une identité approchée (le faire en exercice), puis d utiliser le théorème (l hypothèse d uniforme continuité de f sur est vérifiée car f est continue sur et a des limites en ± ) Un théorème d unicité En vue de démontrer un théorème d unicité pour les solutions de l équation de la chaleur, nous énonçons une autre propriété des solutions u déterminées au théorème : Théorème Soit u la fonction définie au théorème La fonction x u(x, t) appartient à S() uniformément par rapport à t, au sens suivant : T > 0, m, n N, x m n u (x, t) xn < sup x,0<t<t

165 Un théorème d unicité Démonstration Commençons par vérifier la propriété pour n = 0. On a d où u(x, t) = (f H t )(x) = u(x, t) + + f(x y)h t (y) dy f(x y) H t (y) dy La fonction f est à décroissance rapide, donc bornée sur par C 0 > 0. La fonction H t a pour intégrale 1 (puisque les H t forment une unité approchée). On a donc u(x, t) C 0 ce qui montre le résultat si m = 0. Pour m 1, on écrit u(x, t) f(x y) H t (y) dy + f(x y) H t (y) dy y x /2 y x /2 La fonction f est à décroissance rapide, donc intégrable sur. Pour y x /2, H t (y) = 1 e y2 /4t 1 e x2 /16t 4πt 4πt et la deuxième intégrale est donc majorée par C 4πt e x2 /16t (avec C = f(s) ds). Dans la première intégrale, on remarque que si y x /2, il existe c ]x/2, 3x/2[ tel que f(x y) = f(x) f (c)y d où x m f(x y) x m f(x) x m+1 f (c) x m f(x) + 2 m c m+1 f (c) en remarquant que x 2 c. Le majorant ci-dessus est borné par une constante C m du fait de l appartenance de f à S(). Donc x m f(x y) H t (y) dy C m H t (y) dy C m y x /2 car H t est positive d intégrale totale égale à 1. y x /2 Finalement, on conclut de ces majorations que x m u(x, t) C m + x m C e x2 /16t 4πt Dans le deuxième terme du membre de droite, posons y = x/ t. Ce deuxième membre devient t m/2 y m C e y2 /16 = C t (m 1)/2 y m e y2 /16 4πt Comme m 1, t (m 1)/2 T (m 1)/2 si 0 < t < T. Par ailleurs la fonction y y m e y2 /16 est bornée par une constante C sur. Finalement, le deuxième membre est majoré pour tout x et tout t ]0, T [ par C C T (m 1)/2. D où T ]0, T [, x, x m u(x, t) C m + C C T (m 1)/2 qui est bien le résultat demandé pour n = 0. Dans le cas où n est quelconque, il suffit de remarquer que n u x n (x, t) = f (n) H t (en utilisant une généralisation du théorème de dérivabilité des fonctions définies par un produit de convolution au cas où aucune des fonctions n est à support compact, hypothèse que l on remplace par la décroissance rapide) et de reprendre le même argument puisque la dérivée nème d une fonction à décroissance rapide est elle aussi à décroissance rapide. Ceci nous permet d énoncer le théorème d unicité suivant.

166 166 - Transformée de Fourier Théorème Soit u : (x, t) u(x, t) une fonction de + dans vérifiant les conditions suivantes : (i) L application u est continue sur +. (ii) La restriction de u à + vérifie l équation de la chaleur. (iii) L application u vérifie la condition aux limites : x, u(x, 0) = 0. (iv) L application x u(x, t) appartient à S() uniformément par rapport à t, au sens indiqué au théorème Alors u = 0. Démonstration Posons, pour t 0, E(t) = + u(x, t) 2 dx Cette fonction, appelée énergie de la solution, est bien définie d après l hypothèse (iv) (décroissance rapide, pour chaque t fixé, de x u(x, t)). Elle est clairement positive ou nulle, et nulle pour t = 0 par l hypothèse (iii). La continuité de x u(x, t) (toujours conséquence de (iv)) garantit que si E est identiquement nulle sur +, u le sera sur +. Nous allons donc montrer la nullité de E. Il suffit de prouver que E est décroissante sur + puisqu alors on a pour tout t 0, E(t) E(0) = 0, d où E(t) = 0. Nous allons procéder en deux temps : d abord en vérifiant que E est décroissante sur + par un calcul de dérivée, puis en notant que E est continue sur +, par application de l hypothèse (iv) et du théorème de convergence dominée ou du théorème de continuité des fonctions définies par une intégrale : ceci prouvera que la décroissance s étend à tout + et permettra de conclure. Décroissance de E sur + Montrons que, pour tout t > 0, E (t) 0. (La dérivabilité de E résulte de la propriété (iv) : le faire en exercice, en adaptant l argument donné ci-dessous pour prouver la continuité en 0 et en utilisant le fait que u est solution de l équation de la chaleur pour transformer les dérivées partielles par rapport à t (pour lesquelles il n y a pas d hypothèse de décroissance rapide) en dérivées partielles par rapport à x pour lesquelles il y en a une ; la démonstration prouvera par ailleurs que toutes les dérivations sous le signe somme faites ci-dessous sont justifiées). On a E (t) = + ( u t (x, t)u(x, t) + u t (x, t)u(x, t) ) dx Utilisant le fait que u est solution de l équation de la chaleur, on en déduit E (t) = + 2 u (x, t)u(x, t) dx + x2 + Calculons la première de ces intégrales par intégration par parties : + 2 [ ] + u u (x, t)u(x, t) dx = (x, t)u(x, t) x2 x 2 u (x, t)u(x, t) dx x2 + Le crochet est nul à cause de la décroissance rapide de u t. Donc + 2 u + (x, t)u(x, t) dx = u x2 (x, t) x L autre intégrale a la même valeur. Finalement comme annoncé. E (t) = 2 Continuité de E en 0 (et partout ailleurs...) + u (x, t) x 2 dx 0 u (x, t) u(x, t) dx x x 2 dx

167 Exercices Nous la prouvons donc en 0 mais une adaptation évidente de l argument proposé permet de la démontrer en n importe quel t 0 0 (il suffit de choisir le T défini ci-dessous strictement supérieur à t 0 ). Fixons T > 0. Il suffit de prouver que la restriction de E à [0, T ] est continue. D après (iv) et la définition donnée au théorème des fonctions appartenant à S() uniformément par rapport à t, il existe des nombres A > 0 et B > 0 tels que t ]0, T ], x, x u(x, t) A (m = 1, n = 0), u(x, t) B (m = 0, n = 0) Cette propriété s étend évidemment au cas où t = 0 d après (iii). Il en résulte que, pour tout t [0, T ], la fonction x (1 + x 2 ) u(x, t) 2 est majorée par A 2 + B 2. Par conséquent, la fonction g : t A2 + B t 2 est une fonction intégrable dominant tous les u t : x u(x, t). Comme lim t 0+ u t (x) = 0, on a bien prouvé, d après le théorème de continuité des fonctions définies par une intégrale, la continuité de E en 0. Compte tenu de la linéarité de l équation de la chaleur, on a bien établi que deux solutions de cette équation sur + qui sont uniformément dans S() et continues sur +, et qui satisfont à la même condition aux limites ont une différence nulle, d où l unicité annoncée. emarque On peut obtenir des conditions d unicité moins fortes (voir le problème 6 du chapitre 5 de [STE]), mais on peut aussi rencontrer des situations où il n y a plus unicité (voir le problème 4 et l exercice 12 du chapitre 5 de [STE]) D autres applications On trouvera d autres exemples de problèmes pour lesquels la transformation de Fourier fournit un outil puissant et particulièrement bien adapté aux chapitres 1 et 4 (dans le cas des séries de Fourier) et aux paragraphes 2, 3 et 4 du chapitre 5 de [STE] Exercices Exercice Soit f L 1 (). On suppose que f(x) > 0 pour tout x. Montrer que, si y 0, f(y) < f(0). Exercice Soit f L 1 (). On suppose que t f(t) dm(t) < + Montrer qu il existe une fonction dérivable g sur telle que f = g presque partout. Calculer g. Indication - Utiliser le théorème d inversion. Exercice Soit f : une fonction deux fois continûment dérivable. On suppose qu il existe A > 0 tel que f(x) = 0 pour tout x n appartenant pas à [ A, A]. (On dit que f est à support compact). 1 Justifier pourquoi f L 1 (). Montrer que, pour tout t 0, f(t) = 1 t 2 f (t) 2 Montrer que f est la transformée de Fourier d une fonction appartenant à L 1. Exercice Transformée de Fourier et convolution 1 Calculer la transformée de Fourier de la fonction caractéristique d un intervalle [a, b]. 2 Pour n 1, soit g n la fonction caractéristique de [ n, n] et h celle de [ 1, 1]. Calculer explicitement g n h. (On trouvera une fonction affine par morceaux). sin nx 3 On pose f n (x) = sin x. Montrer que, à une constante multiplicative près, f n = g n h.

168 168 - Transformée de Fourier Exercice Calculer la transformée de Fourier de la fonction x e x2 /2. Plus généralement, calculer la transformée de Fourier de la fonction x e ax2 (a > 0). Exercice Le produit de convolution n a pas d élément neutre... On se propose de prouver dans cet exercice qu il n existe aucune fonction f L 1 () telle que, pour tout g L 1 (), f g = g. 1 Montrer que si f existait, on aurait, pour tout t, pour tout g L 1 (), f(t)ĝ(t) = ĝ(t). 2 Montrer qu il existe g L 1 () telle que, pour tout t, ĝ(t) 0 (on a rencontré de telles fonctions dans ce chapitre...). 3 En déduire que f = 1 et aboutir à une contradiction. Exercice Soit A et B deux sous-ensembles mesurables de dont la mesure est finie et strictement positive. Montrer que le produit de convolution 1 A 1 B de leurs fonctions indicatrices est une application continue non identiquement nulle. En déduire que A + B contient un intervalle. Exercice Transformée de Fourier en dimension n 1 Généraliser la définition de la transformée de Fourier aux fonctions f L 1 ( n, C). Enoncer le théorème d inversion et le théorème de Plancherel dans ce cas. 2 Calculer la transformée de Fourier de la fonction définie sur n par x e q(x) où q est une forme quadratique définie positive. Indication - Diagonaliser la matrice de q dans une base orthonormée.

169 Chapitre XIII Lecon Transformation de Fourier, produit de convolution. Applications A - Préambule - Quelques conseils extraits des rapports de jury des années précédentes. Les leçons consacrées à Fourier ou à la convolution sont valorisées par un candidat qui sait souligner l utilisation technique de ces outils (boîtes noires, filtrage) ou envisage des ponts avec les probabilités (loi d une somme de variables indépendantes, fonctions génératrices ou caractéristiques). Les leçons sur la transformation de Fourier ne doivent pas omettre la théorie L 2.. Le cadre naturel de l égalité de Parseval est l espace de Hilbert L 2 2π(, C) plutôt que l espace dit de Dirichlet E 2π, souvent utilisé par les candidats. Il serait bon que les candidats ne croient pas que la seule motivation de la transformation de Fourier, est de montrer que sin x x dx = π 2 ou encore, dans le cas des séries de Fourier, de calculer 0 ζ(2) = π2 6 Là encore, même dans les épreuves d analyse ou d algèbre, il est bon de faire appel aux connaissances du programme de modélisation (par exemple pour penser aux applications de la transformée de Fourier ou des séries de Fourier aux équations aux dérivées partielles, au traitement du signal etc... qui en sont les applications réellement pertinentes). Présentation du plan Le plan qui suit introduit dans un premier temps la définition et les propriétés du produit de convolution [partie 1], vu ici comme un outil utile dans l étude de la transformation de Fourier, mais également celle de la régularisation des fonctions (approximation polynomiale uniforme notamment). L étude de la transformation de Fourier est menée classiquement, d abord dans le cadre des fonctions intégrables sur [partie 2], puis dans celui des fonctions de carré intégrable (théorie de Plancherel) [partie 3]. On propose deux exemples substantiels : l utilisation de la transformation de Fourier pour résoudre un problème d équation aux dérivées partielles dans l espace des fonctions à décroissance rapide [partie 4], et l étude des fonctions caractéristiques des variables aléatoires, en vue d établir le théorème central-limite [partie 5]. Le cadre naturel de la leçon est celui de l intégrale de Lebesgue, dont les propriétés importantes (les théorèmes de convergence, la définition et les propriétés des espaces L p, et notamment les théorèmes de densité) seront supposées connues. B - Plan Produit de convolution 169

170 170 - Lecon Transformation de Fourier, produit de convolution. Applications Définition, existence et régularité des produits de convolution Définition Soit f et g deux fonctions mesurables de dans. On appelle produit de convolution de f et g la fonction f g définie sur par f g : x + f(t)g(x t) dt emarque Pour tout x, (f g)(x) = (g f)(x) (que cette intégrale existe ou non). Exemple Si X et Y sont deux variables aléatoires réelles, indépendantes et de densités respectives f et g, X + Y a pour densité f g. emarque L ensemble de définition de f g peut être vide : c est le cas par exemple si f = g = 1. Théorème Existence du produit de convolution (a) Si f et g appartiennent à L 1, leur produit de convolution f g est défini presque partout, appartient à L 1 et vérifie f g 1 f 1 g 1. (b) Si p 1 et q 1 sont des exposants conjugués (c est-à-dire 1/p + 1/q = 1, p ou q pouvant être infini), si f L p et g L q, leur produit de convolution f g est défini partout, appartient à L et vérifie f g f p g q. (c) Si g est bornée sur tout compact et si f est à support compact et appartient à L 1, leur produit de convolution f g est défini partout. (d) Si f et g sont à support compact, f g aussi. emarque Compte tenu de la commutativité, on peut dans (b) et (c) échanger les rôles de f et g. Au point (b), on peut même montrer que f g est uniformément continue sur. L une des plus grandes utillités du produit de convolution est de permettrer l approximation ponctuelle ou uniforme de fonctions assez peu régulières f par des fonctions beaucoup plus régulières g n, obtenues par convolution de f avec des fonctions adéquates h n. La clé de cette régularité est le théorème suivant. Théorème Dérivabilité du produit de convolution (a) Soit f une fonction de classe C n sur et g une fonction intégrable. Si l une des deux est à support compact, leur produit de convolution f g est défini partout et de classe C n sur. On a en outre Ce résultat s applique évidemment aussi si n = Unités approchées k n, (f g) (k) = f (k) g L ensemble L 1 muni des lois + et est un anneau commutatif. Cet anneau n est pas unitaire : on peut le prouver par exemple en utilisant la transformée de Fourier. Il existe cependant une notion d unité approchée, très importante pour l étude de l approximation des fonctions f. Définition On dit qu une suite (h n ) n de fonctions continues sur est une unité approchée si : (a) Les fonctions h n sont positives. (b) Pour tout δ > 0, lim h n (t) dt = 0. n (c) Pour tout n, lim n t δ + h n (t) dt = 1. Il existe des unités approchées de classe C, par exemple h n : t La terminologie unité approchée est justifiée par le théorème suivant : n 2π e n2 t 2 /2.

171 Propriétés de régularité Théorème Soit f : une fonction continue et bornée sur et (h n ) n une unité approchée. La suite (f h n ) n converge vers f sur. La convergence est uniforme sur les compacts, elle l est sur si f est uniformément continue sur. emarque Compte tenu de l existence d une unité approchée de classe C, toute fonction f continue sur est donc limite uniforme sur tout compact de fonctions C sur. On peut démontrer que si f a des limites nulles en ±, elle est limite uniforme sur de fonctions C à support compact. Corollaire Cas particulier du théorème de Stone-Weierstrass Toute fonction continue sur un segment est limite uniforme de fonctions polynomiales Transformation de Fourier : la théorie L 1 éférence - Analyse réelle et complexe, Walter UDIN, éd. Dunod, Paris, 1998 : voir le chapitre 9, pages 219 à Définition et propriétés algébriques Définition Soit f L 1 (). On appelle transformée de Fourier de f, et on note f la fonction définie par t, f(t) = f(x) e ixt dx = f(x) e ixt dm(x) 2π (en posant dm(x) = dx 2π ). Exemple Si H(x) = e x, alors Ĥ(t) = h(t) = 2 π t 2. Plus généralement, si H λ (x) = e λ x (λ > 0), alors Ĥλ(t) = h λ (t) = Théorème Soit f un élément de L 1 () et α un nombre réel. (a) Si g(x) = f(x) e iαx, on a ĝ(t) = f(t α). (b) Si g(x) = f(x α), alors ĝ(t) = f(t)e iαt. (c) Si g(x) = f( x), alors ĝ(t) = f(t). (d) Si λ > 0 et si g(x) = f(x/λ), alors ĝ(t) = λ f(λt). 2 λ π λ 2 + t 2. emarque On retrouve notamment le lien entre Ĥλ et Ĥ vu à l exemple ci-dessus. Théorème Soit f et g deux éléments de L 1 (). Alors Propriétés de régularité (f g) = f ĝ. Théorème Si f L 1 (), alors f est continue sur, et de plus sup f(x) f 1. x

172 172 - Lecon Transformation de Fourier, produit de convolution. Applications Théorème Soit f L 1 () et g la fonction définie par g : x ixf(x). Si g L 1 (), la fonction f est dérivable, de dérivée ĝ. éciproquement, si f et f sont intégrables et si f tend vers 0 en ±, la transformée de Fourier de f est t it f(t). Nous montrons maintenant que toute fonction continue sur n est pas une transformée de Fourier, en prouvant qu une transformée de Fourier tend toujours vers 0 en l infini (ce résultat permet aussi de prouver que le produit de convolution n a pas d élément neutre). Théorème Théorème de iemann-lebesgue Si f L 1 (), lim f(t) = 0. t ± La formule d inversion Nous prouvons dans ce paragraphe le théorème d inversion, selon lequel lorsque f et g = f appartiennent à L 1, la transformée de Fourier de g coïncide presque partout avec f( x). L outil essentiel de la démonstration sera la convolution et le concept d unité approchée. Théorème Théorème d inversion Si f L 1 et si f L 1, et si on désigne par g la transformée de Fourier de f, alors pour presque tout x, f(x) = g( x). On déduit du théorème d inversion l injectivité de la transformation de Fourier, que nous retrouverons dans un contexte différent dans la partie consacrée aux fonctions caractéristiques de variables aléatoires. Théorème Si f L 1 et si f = 0, f est presque partout nulle Transformation de Fourier : la théorie L 2 Nous prouvons dans cette partie que la restriction de la transformée de Fourier à E = L 1 L 2 réalise une isométrie, pour la norme 2 sur L 2 ) entre E et une partie de L 2. Nous prolongeons ensuite cette isométrie à L 2 (en utilisant la densité de L 1 L 2 dans L 2 ), et prouvons que l opérateur ainsi défini est un automorphisme unitaire de l espace de Hilbert L 2. Ces résultats font l objet du théorème suivant. Théorème Théorème de Plancherel Si f L 1 L 2, f L 2 et f 2 = f 2. L application f f définie sur L 1 L 2 s étend en un automorphisme unitaire (encore noté f f) de l espace de Hilbert L 2. Pour tout f L 2, les fonctions f et f sont liées par les relations suivantes : si on pose ϕ A (t) = A f(x)e ixt dm(x), ψ A (t) = A A A f(x)e ixt dm(x) alors lim ϕ A f 2 = 0 et lim ψ A f 2 = 0. A + A +

173 ésolution de l équation de la chaleur ésolution de l équation de la chaleur éférence - Fourier analysis, an introduction, Elias M. Stein et ami Shakarchi, éd. Princeton Lectures in Analysis). Le problème est le suivant : trouver une fonction u vérifiant x, t > 0, u t = C 2 u, u(x, 0) = f(x) x2 (nous préciserons ultérieurement les conditions de régularité imposées à u : ceci nous permettra d établir un théorème d unicité.) Définition On désigne par S(), et on appelle espace de Schwartz, ou espace des fonctions à décroissance rapide, l ensemble des fonctions indéfiniment dérivables de dans telles que, pour tout couple d entiers positifs ou nuls n et m, la fonction soit bornée sur. x x m f (n) (x) On vérifie que S() est un espace vectoriel stable par dérivation et par multiplication par les polynômes. Exemple Les fonctions x e λx2 sont à décroissance rapide pour tout λ > 0. Il en est de même de toute fonction de classe C à support compact. Théorème La restriction de la transformation de Fourier à S() réalise une bijection entre S() et lui-même. Pour résoudre l équation de la chaleur, on introduit, pour t > 0, la fonction H t définie sur par H t : x 1 4πt e x2 /4t Cette fonction est connue sous le nom de noyau de la chaleur (sa définition peut varier légèrement d un ouvrage à l autre suivant la convention choisie pour définir la transformée de Fourier). Elle vérifie, pour tout t > 0 et x, Ĥ t (x) = e tx2 Théorème Soit f S(). Posons, pour t > 0 et x, u(x, t) = (f H t )(x). (i) La fonction u est de classe C 2 sur l ouvert H = + et elle y est solution de l équation de la chaleur. (ii) La famille de fonctions u t : x u(x, t) converge uniformément sur vers f quand t tend vers 0 +. En particulier, si on prolonge u à l axe réel en posant u(x, 0) = f(x), le prolongement obtenu est continu sur le demi-plan supérieur fermé. Théorème Soit u la fonction définie au théorème La fonction x u(x, t) appartient à S() uniformément par rapport à t, au sens suivant : T > 0, m, n N, x m n u (x, t) xn < sup x,0<t<t

174 174 - Lecon Transformation de Fourier, produit de convolution. Applications Théorème Soit u : (x, t) u(x, t) une fonction de + dans vérifiant les conditions suivantes : (i) L application u est continue sur +. (ii) La restriction de u à + vérifie l équation de la chaleur. (iii) L application u vérifie la condition aux limites : x, u(x, 0) = 0. (iv) L application x u(x, t) appartient à S() uniformément par rapport à t, au sens du théorème Alors u = Fonctions caractéristiques et théorème central-limite éférence - An introduction to probability theory and its applications, tome 2, FELLE William, John Wiley and Sons, 1950 : on trouvera aux chapitre XV les propriétés essentielles des fonctions caractéristiques, ainsi qu un certain nombre d exercices. Définition Si X est une variable aléatoire réelle, on appelle fonction caractéristique de X la fonction Φ X définie sur par Φ X (t) = E(exp (itx)) Cette fonction est définie et continue sur. Si E( X m ) existe, tous les E( X k ) existent pour k m (inégalité de Hölder) et Φ X est m fois dérivable, avec Φ (k) X (t) = ik E(X k exp (itx)) emarque Si X a pour densité sur la fonction f, on a donc Φ X (t) = 2π f( t). emarque Si les X i (1 i n) sont indépendantes, Φ X1+ +X n = Φ X1 Φ Xn. Le théorème suivant réénonce dans ce nouveau contexte l injectivité de la transformation de Fourier. Théorème La fonction caractéristique d une variable aléatoire caractérise la loi de cette variable : Φ X = Φ Y seulement si les variables X et Y ont la même loi. si et Fonctions caractéristiques et convergence : théorème central-limite L intérêt des fonctions caractéristiques tient notamment au théorème de Paul Lévy, qui relie la convergence en loi des variables à la convergence simple des fonctions caractéristiques. Théorème Théorème de Paul Lévy La suite (X n ) converge en loi vers X si et seulement si la suite de fonctions Φ Xn converge simplement vers Φ X. L utilisation du théorème de Paul-Lévy permet de prouver le théorème central-limite, qui précise les informations données par la loi faible des grands nombres : Théorème Le théorème central-limite Soit (X n ) une suite de variables aléatoires réelles indépendantes et de même loi, d espérance m et de variance finie σ 2. Soit S n = X X n. Alors la variable normalisée S n nm σ n

175 Fonctions caractéristiques et convergence : théorème central-limite converge en loi vers la loi normale N (0, 1) quand n tend vers +. Développements proposés 1 - Le théorème d inversion (théorème ) 2 - Le théorème de Plancherel (théorème ) 3 - Le théorème d unicité des solutions de l équation de la chaleur (théorème ) Ne pas oublier avant de proposer un plan comme celui-ci, de se remémorer le principe de la démonstration du théorème (la convergence de f h n vers f quand les bonnes hypothèses sont réunies) et du théorème central-limite , qui semblent pouvoir faire l objet de questions de la part du jury.

176

177 Chapitre XIV Fonctions caractéristiques Bibliographie du chapitre 14 [FEL2] - Feller William, An introduction to probability theory and its applications, tome 2, John Wiley and Sons, On trouvera aux chapitre XV les propriétés essentielles des fonctions caractéristiques, ainsi qu un certain nombre d exercices Fonction caractéristique d une variable aléatoire réelle. Définition Si X est une variable aléatoire, on appelle fonction caractéristique de X la fonction Φ X définie par Φ X (t) = E(exp (itx)) emarque Si X a pour densité sur la fonction f, on a donc Φ X (t) = f(x)e itx dx. On a donc Φ X (t) = 2π f( t). Dans ces conditions, on ne sera pas surpris de l analogie entre les résultats ci-dessous et ceux obtenus au chapitre précédent. Cette fonction est définie pour tout t car la fonction à intégrer a pour module 1, donc est intégrable. Par ailleurs, pour chaque valeur fixée de X, la fonction t exp (itx) est continue sur, et on obtient par application du théorème de convergence dominée la continuité de Φ X. Si en outre X est intégrable, on obtiendra de même la dérivabilité sur de Φ X, avec en outre l égalité Φ X(t) = ie(xexp (itx)) Plus généralement, si E( X m ) existe, tous les E( X k ) existent pour k m (en appliquant l inégalité de Hölder) et on prouve alors que Φ X est m fois dérivable, avec Φ (k) X (t) = ik E(X k exp (itx)) Exercice Démontrer ces propriétés en utilisant le théorème de convergence dominée. Théorème Si X et Y sont indépendantes, Φ X+Y = Φ X Φ Y. Plus généralement, si les X i (1 i n) sont indépendantes, Φ X1+ +X n = Φ X1 Φ Xn. Exercice Vérifier ce résultat. 177

178 178 - Fonctions caractéristiques On peut démontrer (et ceci peut contribuer à justifier la terminologie) que la fonction caractéristique d une variable aléatoire caractérise la loi de cette variable : si Φ X = Φ Y, les variables X et Y ont la même loi. Le tableau ci-dessous donne, pour les variables continues les plus classiques, leur densité, l ensemble des valeurs prises et leur fonction caractéristique. Variable Densité Intervalle Fonction caractéristique 1. Loi normale 1 2π exp ( x 2 /2) < x < exp ( t 2 /2) 2. Loi uniforme 1 0 < x < 1 3. Loi exponentielle exp ( x) 0 < x < + 4. Loi de Cauchy 1 π(1 + x 2 ) < x + exp (it) 1 it 1 1 it exp ( t ) emarque La seule de ces fonctions caractéristiques qui ne soit pas dérivable en 0 est celle de la loi de Cauchy, dont nous savons qu elle n est pas intégrable Fonctions caractéristiques et convergence : théorème central-limite L intérêt des fonctions caractéristiques tient notamment au théorème de Paul Lévy, que nous avons démontré au chapitre 5, et qui relie la convergence en loi des variables à la convergence simple des fonctions caractéristiques. Théorème Théorème de Paul Lévy La suite (X n ) converge en loi vers X si et seulement si la suite de fonctions Φ Xn converge simplement vers Φ X. Exercice Vérifier que la convergence en loi implique la convergence simple des fonctions caractéristiques. L utilisation du théorème de Paul-Lévy permet de prouver le théorème central-limite, qui précise les informations données par la loi faible des grands nombres : Théorème Le théorème central-limite Soit (X n ) une suite de variables aléatoires réelles indépendantes et de même loi, d espérance m et de variance finie σ 2. Soit S n = X X n. Alors la variable normalisée S n nm σ n converge en loi vers la loi normale N (0, 1) quand n tend vers +. Démonstration Posons Y n = X n m. Les variables aléatoires Y n sont indépendantes et d espérance nulle, et si l on désigne par S n la variable Y 1 + +Y n, la fonction caractéristique de Z n : = (S n nm)/σ n = S n/σ n vaut ( ) n Φ Zn (t) = E(exp (it S n σ n )) = t Φ Y ( σ n ) La fonction Φ Y est deux fois dérivable puisque les variables considérées appartiennent à L 2, et par conséquent elle admet en 0 le développement limité Φ Y (u) = Φ Y (0) + uφ Y (0) + u2 2 Φ Y (0) + u 2 ε(u) = 1 σ2 u 2 + u 2 ε(u) 2

179 Fonctions caractéristiques et convergence : théorème central-limite avec lim u 0 ε(u) = 0. On a donc ( ( t Φ Y σ ) ) n = n (1 t2 2n + 1 ) n n ε(n) S il n y avait pas le terme correctif ε(n)/n, on pourrait calculer le logarithme du membre de droite, et obtenir, par un calcul d équivalent que ce logarithme tend vers t 2 /2, donc que Φ Zn (t) tend vers exp ( t 2 /2). Nous proposons à l exercice une démonstration de ce résultat dans le cas général. On conclut en remarquant que exp ( t 2 /2) est la fonction caractéristique de la loi normale et en utilisant le théorème de Paul Lévy. Pour la curiosité, nous finissons ce paragraphe par une démonstration élémentaire du théorème central-limite dans le cas où les variables X n sont des variables de Bernoulli indépendantes de paramètre 1/2 (modélisation du jeu de pile ou face infini). On l appelle dans ce cas le théorème de de Moivre-Laplace. Dans ce cas, S n est une variable binomiale de paramètres n et 1/2, d espérance n/2 et de variance n/4, et il s agit de démontrer que, si l on pose Y n == S n n/2 n/2, lim P (a Y n b) = 1 b n 2π a e x2 /2 dx Par la relation de Chasles, l additivité des probabilités et la symétrie de la loi binomiale par rapport à n/2 (et la parité de x e x2 /2 ), on peut toujours supposer que a = 0 et renommer b = a. Il s agit alors de prouver que lim P (0 Y n a) = 1 a e x2 /2 dx n 2π Nous nous limiterons pour simplifier les calculs au cas où n est pair. Posons donc n = 2N. Compte tenu de la définition de Y n, P (0 Y n a) = P (N S 2N N + a ) n avec a = a 2. Désignons par k 0 le plus grand nombre entier plus petit que a. Comme la variable aléatoire S 2N est à valeurs k 0 k 0 dans N, on cherche donc à estimer P (S 2N = N + k) = p N (k), en posant p N (k) = P (S 2N = N + k). On a k=0 et un calcul simple montre que, pour k 0, k=0 p N (k) = CN+k 2N 2 2N k 1 1 i p N (k) = p N (0) N i=0 1 + i + 1 N (avec la convention qu un produit vide est égal à 1). Par ailleurs, l application de la formule de Stirling conduit à l évaluation p N (0) 1 πn La première approximation faite est la suivante : dans l expression de p N (k), remplacer chaque terme de la forme 1 + j/n par e j/n (le premier est le développement limité à l ordre 1 du deuxième au voisinage de 0). Ceci va introduire sur chaque facteur une erreur et il faudra être capable de contrôler l effet cumulé de ces erreurs dans notre estimation. Après calculs, on obtient l estimation P (S 2N = N + k) p N (0)e k2 /N 0

180 180 - Fonctions caractéristiques (vérifier ce résultat). L erreur commise peut s écrire p N (0)ε k, avec ε k = k 1 i=0 1 i N 1 + i + 1 N e k2 /N Nous vérifierons plus bas que cette erreur n influe pas sur le résultat final du calcul. 1 En remplaçant p N (0) par son équivalent, nous constatons que la probabilité cherchée est estimée par πn 1 k 0 πn k=0 e k2 /N avec une erreur maximale de l ordre de p N (0)(ε 0 + ε ε k0 ). Nous montrerons plus loin que cette erreur tend vers 0 quand n tend vers l infini, en tenant compte du fait que k 0 est de l ordre de n 1/2, vu sa définition. Puisqu on souhaite prouver que la somme ci-dessus converge vers une intégrale, on va la faire apparaître comme une somme de iemann d une fonction adéquate. Si on découpe l intervalle [0, a] avec un pas égal à p (de sorte que tous les intervalles sont de largeur p, sauf peut-être le dernier), on obtient une somme de iemann du type K 0 p f(kp) où K 0 p est le plus grand multiple de p inférieur ou égal à a, comme le suggère la figure ci-dessus. Ici, on voudrait aboutir à une somme de iemann sur [0, a] de la fonction f définie par k=0 f(x) = 1 2π e x2 /2 Pour que le quotient devant l exponentielle soit le bon, ceci nous conduit à choisir 2 p = N (vérifier ceci). Le nombre K 0 est donc le plus grand entier vérifiant K 0 2 N a

181 Fonctions caractéristiques et convergence : théorème central-limite ou encore N n K 0 a 2 = a 2 c est-à-dire K 0 = k 0. Par conséquent, la somme de iemann de f sur [0, a] correspondant au pas p s écrit 1 k 0 e (kp)2 /2 = 1 k 0 πn πn k=0 k=0 e k2 /N et par conséquent coïncide avec l estimation de la probabilité P. Comme le pas tend vers 0 (il est de l ordre 1 de grandeur de ), cette somme tend vers l intégrale voulue. Une fois qu on aura démontré que l erreur n globale tend vers 0, le théorème sera établi. p N (0)(ε 0 + ε ε k0 ) Pour démontrer ce dernier point, on va estimer chaque ε k. On a, en valeur absolue k 1 1 i ε k = N i=0 1 + i + 1 e k2 /N N Posons k 1 1 i x k = ln N i=0 1 + i + 1 N On a alors, ε k = e x k e k2 /N Comme les deux nombres x k et k 2 /N sont négatifs, e x k e k2 /N x k ( k 2 /N) d après l inégalité des accroissements finis (car la dérivée de l exponentielle est majorée par 1 sur ). Il suffit donc de majorer x k + k 2 /N. Vu la manière dont a été obtenu k 2 /N dans la première partie de la démonstration, on peut écrire x k + k2 k 1 N = ln(1 i k 1 N ) i=0 i=0 ln(1 + i + 1 N k 1 ) + i=0 k 1 i N + Pour N assez grand, tous les nombres j/n qui interviennent dans les sommes ci-dessus sont compris entre 1/2 et 1/2. Sur cet intervalle, l application de la formule de Taylor-Lagrange ou un prolongement par continuité montrent qu il existe une constante C telle que ln(1 + x) x Cx 2 (vérifier ceci et montrer que l on peut choisir C = 2 dans cette majoration). En regroupant la première et la troisième somme d un côté, la deuxième et la quatrième de l autre, on obtient alors finalement la majoration ( k 1 ) x k + k2 N 2C i 2 k 1 N 2 + (i + 1) 2 N 2 i=0 qui est majoré par 2C k3 N 2 2C k3 0 N 2 (en majorant tous les i et les i + 1 par k). Finalement, puisque le majorant obtenu est indépendant de k, on obtient p N (0)(ε 0 + ε ε k0 ) 2Cp N (0) (k 0 + 1)k 3 0 N 2 qui tend vers 0 puisque k 0 est de l ordre de N 1/2 et p N (O) tend vers 0. Ceci complète la preuve. i=0 i=0 i + 1 N

182 182 - Fonctions caractéristiques Exercices Fonctions caractéristiques Exercice Soit n N. On définit sur Ω = [0, 1] une mesure µ n par µ n (A) = (1 + cos 2πnx) dx pour toute partie A mesurable de Ω. 1 Montrer que µ n est une mesure de probabilité. A 2 Soit (X n ) une suite de variables aléatoires de loi µ n. Montrer que (X n ) converge en loi vers une variable aléatoire uniforme sur [0, 1], en utilisant les fonctions de répartition. 3 Calculer la fonction caractéristique de X n (on se limitera à calculer Φ Xn (t) pour les n tels que 2πn > t ). 4 etrouver le résultat de la question 2 en utilisant les fonctions caractéristiques. Exercice Soit X une variable de Poisson de paramètre λ. Calculer la fonction caractéristique de X. En déduire E(X) et V (X). Exercice Calculer la fonction caractéristique d une loi binomiale de paramètres n et p. Exercice On pourra utiliser, dans cet exercice, l égalité suivante : + + sin xt 1 Soit x un nombre réel, x 0. Calculer dt. 0 t sin xt 2 Vérifier que la fonction t t(1 + t 2 ) est intégrable sur + pour tout réel x. 0 sin t dt = π t 2. 3 Montrer que la fonction x f(x) est continue sur (faire varier x dans [ n, n] et appliquer le théorème de convergence dominée). 4 Montrer que la fonction x f(x) est dérivable sur, et exprimer sa dérivée f. 5 Combien valent f (0) et lim x + f (x)? 6 L objectif de cette question est de montrer que f est dérivable sur et de donner l expression de f. a Montrer que, pour x 0, l intégrale impropre + est convergente (intégrer par parties). b Montrer que (intégrer par parties). c Montrer que f est dérivable sur. 0 t sin xt 1 + t 2 dt + t sin xt n 1 + t 2 dt 1 n x + 1 x + n dt 1 + t 2 7 Montrer que, pour x > 0, f vérifie l équation différentielle f (x) = f(x) π. tandis que, pour x < 0, f 2 vérifie l équation différentielle f (x) = f(x) + π. (On pourra utiliser les résultats de la question 1). 2 8 En déduire, en fonction de x, la valeur de l intégrale + 0 cos xt 1 + t 2 dt Exercice Pour cet exercice, on admettra la propriété d unicité suivante : si deux variables aléatoires ont la même fonction caractéristique, elles ont la même loi.

183 Exercices Soit X et Y deux variables indépendantes suivant des lois de Cauchy de paramètres respectifs λ et µ (λ > 0 et µ > 0). En d autres termes P (X A) = 1 λ π λ 2 + x 2 dx et de même pour Y. 1 Calculer la fonction caractéristique de X, de Y et de X + Y (un changement de variable et l exercice précédent). 2 Montrer que X + Y suit une loi de Cauchy, dont on précisera le paramètre. Exercice On dit qu une variable aléatoire a une distribution arithmétique s il existe des nombres a 0 et b > 0 tels que P (X {a + nb, n = 0, ±1, ±2, }) = 1 On désigne par Φ X la fonction caractéristique de X. 1 On suppose que X a une distribution arithmétique. Montrer qu il existe un nombre c 0 tel que Φ X (c) = 1. 2 éciproquement, montrer que si un tel nombre c 0 existe, X a une distribution arithmétique. 3 On suppose qu il existe des nombres c et c non nuls tels que Φ X (c) = Φ X (c ) = 1 et tels que c /c soit irrationnel. Montrer que X est presque sûrement constante. Convergence et théorème central-limite Exercice Un lemme technique pour le théorème central-limite Le but de l exercice est de montrer que si (u n ) n est une suite de nombres complexes tendant vers z, alors ( lim 1 + u ) n n = e z n n La démarche proposée dans cet exercice s appuie sur celle suivie dans [TOU, chap. 2, 6, lemme 2.19, pages 48-49]. 1 Vérifier le résultat si (u n ) n est une suite réelle. 2 On suppose que la suite (u n ) n est constante : u n = z pour tout n. On pose ( P n (z) = 1 + z + + zn n!, Q n(z) = P n (z) 1 + z n a Montrer que Q n est à coefficients positifs. b En déduire que Q n (z) Q n ( z ) et prouver le résultat dans ce cas particulier en utilisant la question 1. 3 On suppose que z = 0. En remarquant que le polynôme (1 + x) n 1 est à coefficients positifs, adapter la démarche de la question précédente pour montrer que ( lim 1 + u ) n n 1 = 0 n n 4 Il reste à traiter le cas où (u n ) n n est pas constante et z 0. Posons alors z = u n (1 + v n ), avec lim n v n = 0. Montrer que ( 1 + u n n ) n ( 1 + z n et conclure en utilisant les questions 1 et 2. ) n n ( k=0 A Cn k z k n k ((1 + v n ) n 1) 1 + z (1 + v n ) n ) n ) n ( 1 + z n ) n Exercice etrouver la loi faible des grands nombres en utilisant le théorème de Paul Lévy.

184 184 - Fonctions caractéristiques Exercice etrouver le fait que si X n tend en loi vers X et Y n en loi vers 0, alors X n + Y n tend en loi vers X, en utilisant le théorème de Paul Lévy. Exercice Soit (X n ) une suite de variables binomiales de paramètres (n, p) avec p = λ/n. En utilisant le théorème de Paul Lévy, montrer que X n converge en loi vers une variable de Poisson de paramètre λ. Exercice En utilisant le théorème central-limite pour des variables de Poisson indépendantes de paramètre 1, montrer que n n k lim n + e n = 1 k! 2 k=0

185 Chapitre XV Modélisation - Modèles aléatoires Introduction z a z Schéma de Bernoulli Un schéma de Bernoulli est la répétition de n expériences aléatoires de Bernoulli indépendantes identiques. Appelant comme c est la tradition succés et échec les deux issues possibles de chaque expérience, et notant p la probabilité de succés à chaque expérience, le nombre de succés au cours du schéma de Bernoulli suit une loi binomiale B(n, p) de paramètres n et p. De nombreuses situations peuvent être modélisées par un schéma de Bernoulli, même si la plupart utilisent en fait deux approximations classiques de ce schéma que nous étudierons dans la suite du chapitre : approximation par une variable de Poisson pour le comptage à long terme d événements rares (n grand, p petit et np appréciable : par exemple, p = 1/n), approximation par une variable gaussienne quand n est grand et p appréciable (par exemple dans un sondage), grâce au théorème central limite. On trouvera des exemples de modélisation par un schéma de Bernoulli ordinaire dans [FEL1,chapitre VI.2., exemples (a) à (f), pages 148 à 150]. Dans une perspective d applications, nous allons en décrire deux : les exemples (d) [A power supply problem ] et (e) [Testing sera and vaccines ]. Exemple Un problème de fourniture d énergie Dans une usine comptant n ouvriers, chacun d entre eux consomme par intermittence de l énergie électrique. A tout instant, on désigne par p la probabilité pour qu un utilisateur ait besoin d une certaine puissance P, que nous appellerons une unité de puissance (c est le même P et le même p pour tous les utilisateurs, dont on peut supposer qu ils réalisent des tâches identiques avec des appareils identiques). Si le temps moyen d utilisation d énergie par chaque travail est de 12 minutes par heure, on peut poser p = 1/5. Sous l hypothèse que les utisateurs travaillent de manière indépendante, le nombre d unités de puissance nécessaires à un instant donné suit une loi binomiale B(n, 1/5). Supposons par exemple que n = 10 et que la puissance totale disponible est égale à 6P. La probabilité de surcharge du réseau électrique est égale à P (X 7) pour X B(10, 1/5). On trouve une probabilité égale à 0, /1157. En moyenne, il se produira donc une surcharge de consommation une minute toutes les 20 heures environ. Exemple Tests de sérums et vaccins Une maladie touche 25% des animaux d un cheptel. On admet qu il n y a pas d effet de contagion, c est-àdire que pour des animaux A i, les événements : A i a développé la maladie sont indépendants. On teste un vaccin en choisissant un échantillon de n animaux sains et en leur injectant le vaccin. 185

186 186 - Modélisation - Modèles aléatoires Si le vaccin n avait aucun effet sur la maladie, le nombre d animaux qui restent sains dans l échantillon serait une variable binomiale de loi B(n, 3/4). Supposons que n = 10 et qu aucun des animaux vaccinés n a développé la maladie. Sous l hypothèse d inefficacité du vaccin, on aurait donc observé un événement de probabilité (3/4) 10 0, Le résultat est donc assez probant. Si n = 12 et s il n y a toujours aucun animal touché, la probabilité passe à (3/4) 12 0, 032. Si n = 17 et si au plus un animal développe la maladie ; sous l hypothèse d inefficacité du vaccin, on a observé un événement de probabilité (3/4) (3/4) 16 (1/4) 0, On peut donc dire qu un test sur 17 animaux avec au plus un animal développant la maladie est plus probant quant à l efficacité du vaccin qu un test sur 10 animaux sans qu aucun animal ne développe la maladie Variables de Poisson On a déjà défini au chapitre 4 les variables de Poisson de paramètre λ > 0. Nous allons décrire ci-dessous une situation classique de modélisation par une variable de Poisson (et en fait, générique dans la pratique) Comptage d événements rares On a vu à l exercice que, si n tend vers l infini et p vers 0 de telle sorte que np = λ > 0, la loi de Bernoulli B(n, p) converge vers la loi de Poisson P(λ) (id est : si X n B(n, p) et Y P(λ), P (X n = k) tend vers P (Y = k) pour tout k N). La démonstration proposée à l exercice utilisait les fonctions caractéristiques et le théorème de Paul Lévy, mais on peut aussi prouver ce résultat par un calcul direct utilisant la formule de Stirling (on verra aussi qu on peut remplacer l hypothèse np = λ par l hypothèse moins restrictive lim np = λ). n Nous décrirons deux exemples, issus de [FEL1,chapitre VI.7., exemples (a) et (b), pages 159 à 161] Exemple Désintégration radioactive Une substance radioactive émet des rayons α. Le nombre de particules atteignant une portion donnée de l espace dans un temps t suit une loi de Poisson. Même si, avec le temps et la désintégration de la substance, ce nombre tend à diminuer, il peut rester essentiellement constant pendant des années avec un produit comme le radium par exemple. Lors d une expérience réalisée par utherford (relatée dans un article paru en 1920), on observa l émission de rayons α par une substance radioactive pendant N = 2608 intervalles de temps de durée 7, 5 secondes. Le nombre de particules atteignant un compteur fut déterminé pour chacune de ces périodes, et le tableau ci-dessous résume les résultats. Le nombre k désigne le nombre de particules atteignant le compteur. Le nombre N k décrit le nombre d intervalles de temps pour lesquels k particules ont atteint le compteur. Le nombre moyen de particules atteignant le compteur au cours de l expérience est 3, 870. On peut donc comparer la distribution empirique des N k (telle que résultant de l expérience) à la distribution théorique N P (X = k) où N = 2608 et où X P(3, 870). On constate une bonne adéquation entre observation et théorie, confirmée par un test du χ 2. k N k N P (X = k) k N k N P (X = k) , , , , , , , , , , , 075 Exemple Localisation des impacts de fusées V1 lors des bombardements de Londres pendant la seconde guerre mondiale

187 Temps d attente, lois géométriques et binomiales négatives Au cours de la seconde guerre mondiale, des statisticiens ont étudié la répartition spatiale des impacts de fusées V1 sur Londres. L ensemble de la zone bombardée a été divisé en N = 576 carrés de 500 mètres de côté, et le tableau ci-dessous indique le nombre N k de zones ayant subi k impacts. Le nombre moyen d impacts par zone est de 0, 9323 et on peut là encore examiner la qualité de l approximation par une variable de Poisson de paramètre 0, On trouve une très grande qualité d approximation (en fait bien meilleure que celle observée dans l exemple précédent pour la radioactivité). k et plus N k NP (X = k) 226, , 39 98, 54 30, 62 7, 14 1, Temps d attente, lois géométriques et binomiales négatives La situation modélisée ici est celle d une expérience de Bernoulli que l on répète jusqu à l obtention d un nombre r de succés (r est fixé à l avance). Si on désigne par T r la variable égale au nombre d expériences nécessaire à l obtention des r succés, on vérifie facilement les propriétés suivantes (dans le théorème, p désigne la probabilité de succés à chaque expérience, q = 1 p et on suppose pour des raisons évidentes que p > 0) : Théorème Pour r 1, la variable T r a la loi suivante : La variable T r est presque sûrement finie : k r, P (T r = k) = C r 1 k 1 pr q k r + k=r La variable T r est intégrable, d espérance E(T r ) = r p. P (T r = k) = 1. Les variables T 1, T 2 T 1,, T n T n 1,, sont indépendantes et ont toutes la même loi. Pour r 2, la loi de T r est appelée loi binomiale négative de paramètres r et p ou loi de Pascal. Pour r = 1, la forme de la loi fait que l on parle de loi géométrique de paramètre p. On pourra, indépendamment des calculs, réfléchir à la signification intuitive des diverses parties de ce théorème, et notamment les deux dernières. Exercice Simuler l expérience consistant à lancer un dé équilibré jusqu à l obtention pour la troisième fois d un cinq ou d un six. Noter pour chaque simulation les valeurs de T 1, T 2 et T 3. En répétant un grand nombre de fois la simulation, déterminer les lois empiriques de T 1, T 2 T 1 et T 3 T 1 (on se limitera à estimer les probabilités P (X) pour a 8, pour X = T 1, X = T 2 T 1 et X = T 3 T 1 ) ainsi que celle du triplet (T 1, T 2 T 1, T 3 T 1 ). Tester l indépendance (on apprendra plus tard, avec le test du χ 2, à réaliser ce genre d estimation de manière moins impressionniste...). Exemple Le problème des allumettes de Banach Un fumeur a dans chaque poche une boîte d allumettes contenant initialement N allumettes (le même nombre dans chaque poche). A chaque cigarette, il choisit une poche au hasard (avec équiprobabilité) et prend une allumette dans la boîte correspondante. Il ne se rend pas compte qu une boîte est vide tant qu il ne la trouve pas vide en l ouvrant. Soit r {1,, N}. Quelle est la probabilité pour que le fumeur essaie de prendre une allumette dans une boîte vide pour allumer la (N + r)ème cigarette? L événement étudié peut se produire de deux manières incompatibles et de même probabilité : la boîte trouvée vide peut se trouver dans la poche droite ou gauche. Etudions la probabilité pour qu il trouve la boîte vide dans sa poche gauche. Considérons le schéma de Bernoulli associé à l expérience suivante : il y a succés si le fumeur choisit de prendre une allumette dans sa poche gauche, échec sinon. Le fumeur trouve la boîte

188 188 - Modélisation - Modèles aléatoires gauche vide à la (N + r)ème cigarette si et seulement si le (N + 1)ème succés se produit à l étape N + r. La probabilité de trouver la boîte vide dans la poche gauche vaut donc ( ) N+r 1 p = P (T N+1 = N + r) = CN+r 1 N 2 et la probabilité cherchée vaut Exemple Match de tennis P = 2p = CN N+r 1 2 N+r 1 Deux joueurs s affrontent au tennis en cinq sets. Le joueur A a une probabilité p de gagner chaque set. Les sets sont supposés indépendants (hypothèse discutable sut un vrai court...). Quelle est la probabilité pour que A gagne la partie? L exemple est analogue à celui traité ci-dessus, plutôt plus facile à modéliser. Il s agit de calculer la probabilité pour que la troisième victoire de A ait lieu au maximum au cinquième set. On pourra généraliser cet exemple à un match de tennis de table et exprimer en fonction de p (probabilité pour A de gagner chaque point, qu on suppose indépendante du joueur qui met en jeu) la probabilité P (p) pour que A gagne un set en 21 points (donc alors que B a obtenu au maximum 19 points). Les résultats numériques sont frappants : pour p = 0, 4, on obtient P (0, 4) 0, 074 ; pour p = 0, 45, on obtient P (0, 45) 0, 213 ; pour p = 0, 48, on obtient P (0, 48) 0, 34 ; pour p = 0, 5, on obtient P (0, 5) 0, 437 (il est frappant de constater qu entre deux joueurs de forces égales, le fait de demander d arriver à 21 coups avec 2 points d avance (au lieu de 1 point d avance) suffit à faire passer la probabilité de victoire en 21 points de 0, 5 à 0, 437) ; la probabilité P (p) franchit le seuil 0, 5 pour une valeur de p comprise entre et ; pour p = 0, 52, on a P (0, 52) 0, 539 ; pour p = 0, 55, on a P (0, 55) 0, 68 ; pour p = 0, 6, on a P (0, 6) 0, 87. Après le calcul de quelques autres valeurs, on obtient la représentation graphique (approximative) suivante : 1 P (p) = 0, 9 P (p) P (p) = 0, 1 0 0, 5 1 p Exercice Ecrire un programme de calcul des P (p) étudiés ci-dessus. Tracer (un peu mieux que ci-dessus...) la courbe d équation y = P (x) (x [0, 1]). emarque Comme pour le comptage d événements rares, il existe une situation dans laquelle on peut obtenir une approximation de la loi binomiale négative par une variable de Poisson, celle de l attente d un grand nombre d événements probables. Plus précisément, on montre, en utilisant la formule de Stirling, que si q tend vers 0 et r vers l infini de telle sorte que rq = λ, la loi de la variable T r r est proche d une loi de Poisson de paramètre λ.

189 Processus de Poisson Processus de Poisson éférences bibliographiques : [TOU, chap. 12] On considère une succession d événements indépendants et de même loi (par exemple, une suite de pannes d appareils, chaque appareil étant immédiatement remplacé par un nouveau, identique). On désigne par X n la durée du nème événement ; et par T n = X X n la durée totale des n premiers événements (on pose T 0 = 0). Pour tout t 0, on pose N t = Card {n 1 T n t} Le nombre N t est donc le nombre d événements étudiés qui se produisent dans l intervalle [0, t]. Lorsque les variables X i suivent une loi exponentielle de paramètre λ, on appelle la famille N = {N t, t 0} un processus de Poisson d intensité λ. Ce vocabulaire est justifié par le théorème suivant : Théorème Si les X i sont indépendantes de paramètre λ, la variable N t est une variable de Poisson de paramètre λt, pour tout t 0. En d autres termes, pour tout k N, λt (λt)k P (N t = k) = e k! Démonstration Voir l exercice 4.63 du chapitre 4. On démontre qu un processus de Poisson N = {N t, t 0} possède les propriétés suivantes : (P 1 ) La fonction t N t est à valeurs entières, nulle en 0, presque sûrement croissante, et presque sûrement continue à droite. (P 2 ) La loi conditionnelle de (T 1,, T n ) sachant que N t = n est la même que celle de la statistique d ordre1 (U(1),, U(n)) de n variables aléatoires U 1,, U n indépendantes de loi uniforme sur [0, t]. (P 3 ) Le processus est à accroissements indépendants : si 0 = t 0 < t 1 < < t n, les variables N t1 = N t1 N t0, N t2 N t1,, N tn N tn 1 sont mutuellement indépendantes. (P 4 ) Le processus est homogène ou stationnaire : si 0 s < t, N t N s a la même loi que N t s. (P 5 ) Le processus N est un processus stationnaire d événements rares : quand h tend vers 0, P (N t+h N t = 1) = λh + o(h), P (N t+h N t = 2) = o(h) L ensemble de ces propriétés est prouvé dans [TOU, chap. 12, 2.2, pages 240 à 243]. On trouve au paragraphe suivant de la même référence ( 2.3, pages 243 et 244) la réciproque suivante : tout processus N = {N t, t 0} vérifiant les propriétés (P 1 ), (P 3 ), (P 4 ) et (P 5 ) est un processus de Poisson (voir aussi à ce propos [FEL1, chap. XVII, 2, pages 446 à 448]. Exercice Paradoxe de l autobus Soit N un processus de Poisson. Pour tout t > 0, on pose V t = T Nt+1 t et W t = t T Nt. 1 Vérifier que V t et W t sont des variables aléatoires positives, et que W t est majorée par t. 2 Montrer que, pour tout t > 0, V t suit une loi exponentielle de paramètre λ. Indication - Ecrire (V t u) = n 1(T n+1 t + u, N t = n) et prouver que cet événement coïncide avec (N t+u N t 1). 3 Montrer que, pour tout t > 0, W t a la loi suivante : P (W t = t) = e λt, s [0, t[, P (W t [0, s]) = s 0 λe λu du 1 On appelle statistique d ordre d un n-uplet de variables aléatoires (X1,, X n ) le n-uplet (X(1),, X(n)) obtenu en réordonnant les X i dans l ordre croissant.

190 190 - Modélisation - Modèles aléatoires Indication - Adopter une démarche analogue à celle de la question précédente pour écrire l événement (W t < u) sous la forme (N t N t u > 0), pour tout u t. emarquer par ailleurs que, pour u t, P (W t < u) = 1. 4 En utilisant ce qui précède, prouver que E(T Nt+1 T Nt ) = 2 e λt 2λ = 2(E(T n+1 T n )) si λt est λ grand. 5 On suppose que les intervalles de temps entre les passages d autobus consécutifs à un arrêt donné sont des variables exponentielles indépendantes d espérance 5 minute. Montrer que si une personne arrive à l arrêt de bus suffisamment tard dans la journée (pour que λt soit grand ), l intervalle moyen qui sépare le dernier autobus passé avant son arrivée et le prochain autobus est de l ordre de 10 minutes. Nous donnons pour finir ce paragraphe deux exemples de processus de Poisson (pour lesquels nous utiliserons la caractérisation vue ci-dessus), extraits de [TOU, chap. 12, 3, pages 246 et 247]. Exemple La pêche... Soit N(t) le nombre de poissons qu un pêcheur prend dans l intervalle de temps [0, t]. Supposons réalisées les deux conditions suivantes : (1) Le nombre de poissons est très grand (2) Il y a autant de poissons susceptibles de mordre à un instant qu à un autre. Alors le processus (N(t)) t 0 peut être considéré comme un processus de Poisson : vérifier que les conditions (1) et (2), plus un peu de bon sens, garantissent la validité des propriétés (P 1 ), (P 3 ), (P 4 ) et (P 5 ). Exemple Désintégration radioactive à grande échelle Un compteur Geiger indique le nombre de désintégrations de particules radioactives survenant dans l intervalle de temps [0, t]. Si le nombre de particules est grand et s il y a peu de désintégrations sur un intervalle de temps fixé, on peut considérer que la probabilité de désintégration par unité de temps est constante dans le temps (car le nombre de particules susceptibles de se désintégrer reste à peu près constant). Sous ces hypothèses, on montre que la durée de vie X des particules suit une loi exponentielle, car sa fonction de répartition vérifie la relation P (X > t + s) = P (X > t) P (X > s) (due à la formule sur les probabilités conditionnelles P (X > t + s X > s) = P (X > t), elle même conséquence du fait que la probabilité de désintégration par unité de temps est constante dans le temps). Soit N le nombre de particules à l instant 0, et pour 1 i N, X i la durée de vie de la ième particule (mesurée à partir de l instant 0). Désignons par (X (1),, X (n) ) le n-uplet obtenu en réordonnant de manière croissante les X i. (On appelle ce n-uplet la statistique d ordre de (X 1,, X n )). Ce n-uplet représente l ensemble des instants de désintégration des particules, de sorte que si on pose N(t) = min{i 0, X (i+1) > t}, N(t) représente le nombre de désintégration dans l intervalle [0, t] fourni par le compteur Geiger. Il est alors possible de prouver que N(t) t 0 est approximativement un processus de Poisson (voir la preuve dans [TOU, chap. 12, 3.2, page 247]) Modèles gaussiens (sondages, erreurs de mesure,...) Nous donnons dans cette partie des exemples de problèmes dont la solution fait appel au théorème centrallimite. appelons que, qualitativement, ce théorème permet d approcher la loi (inconnue ou difficile à calculer) d une variable aléatoire X par une loi normale (après des ajustements de renormalisation : rendre l espérance de X nulle et sa variance égale à 1) dès lors que X apparaît comme la somme d un grand nombre de variables indépendantes, de même loi et de carré intégrable. Exercice Simuler l expérience consistant à lancer 50 fois une pièce équilibrée et à compter le nombre N de piles obtenu. En répétant la simulation un grand nombre de fois, réaliser un histogramme empirique et vérifier que la loi empirique de N a l allure d une loi gaussienne. eprendre le même travail avec la loi réelle, en calculant avec soin les nombres P (N = a) (0 a 50) (pour limiter les erreurs numériques, partir de la valeur centrale a = 25 et calculer les autres de proche en proche).

191 Taille d une population Approximation gaussienne d une variable binomiale C est une situation que l on retrouve fréquemment dans les modèles de sondages (qu il s agisse de personnes ou, par exemple, de tests de qualité de produits industriels). Lorsque la caractéristique étudiée est de nature binaire (être fumeur ou non, être défectueux ou non, aimer la cassoulet ou non,...), on est conduit à approcher des variables binomiales. Nous donnons deux exemples de modèle binomial pour une situation aléatoire réaliste. Ces exemples sont extraits de [FEL1, chap. VII.4, exemples (f) et (h), pages 188 à 190]. Les calculs nécessaires à la résolution numérique des problèmes posés font appel au théorème central-limite. Exemple Un problème de compétition Deux compagnies ferroviaires assurent quotidiennement un même parcours entre deux villes A et B. Tous les jours, chacune exploite un train entre A et B. Le nombre quotidien de passagers est égal à n = Les trains des deux compagnies ont la même capacité de r places. Chaque passager choisit au hasard, avec équiprobabilité, l une ou l autre des compagnies, et les choix sont indépendants. Quelle doit être la capacité r pour garantir que tous les passagers trouveront une place, avec une probabilité de 95%? Exemple Un problème d échantillonnage Une population contient un pourcentage p inconnu de fumeurs. Quelle taille minimale un échantillon choisi au hasard avec remise doit-il posséder pour que la probabilité que la fréquence observée de fumeurs dans cet échantillon diffère de p de plus de 3% soit inférieure à 3%? Approximation gaussienne d une variable de Poisson éférences : [FEL1, chap. VII.5, exemples (a) et (b), pages 190 à 192] Une variable de Poisson de paramètre λ élevé peut être approchée par une loi normale, grâce au théorème central-limite. En effet, comme la somme de variables de Poisson indépendantes de paramètres λ i est une variable de Poisson de paramètre λ i, une variable de Poisson de paramètre 1000 (par exemple) peut être considérée comme la somme de 1000 variables de Poisson de paramètre 1, somme qui se trouve bien dans le cadre d application du théorème central-limite. On trouve dans l exemple (a) de [FEL1] mentionné ci-dessus la comparaison de P (X [a, b]) pour une variable de Poisson X de paramètre 100 et de l approximation P (Y [a, b]) pour une variable gaussienne Y de même espérance et variance que X, pour divers intervalles [a, b] proches de la valeur moyenne de X, égale à 100. Le tableau est reproduit ci-dessous, et donne une idée de la bonne qualité de l approximation. Intervalle [a, b] P (X [a, b]) P (Y [a, b]) [85, 90] 0, , [90, 95] 0, , [95, 105] 0, , [90, 110] 0, , [110, 115] 0, , [115, 120] 0, , Taille d une population Exercice Pour estimer la taille inconnue N d une population animale, on procède de la manière suivante : on prélève des animaux un par un, chaque animal prélevé est bagué puis remis dans la population. On s arrête la première fois qu on prélève un animal déjà bagué. On supposera que les prélèvements successifs sont indépendants et qu à chaque prélèvement, il y a équiprobabilité de prélever tous les animaux. On désigne par T le numéro du prélèvement pour lequel on s arrête.

192 192 - Modélisation - Modèles aléatoires 1 Soit n N. Calculer P (T n). 2 Soit α > 0 et soit n la partie entière de αn. En faisant l hypothèse que N est grand, utiliser la formule de Stirling pour prouver que P (T n) est voisin de e α/2. N 3 En utilisant les valeurs approchées obtenues ci-dessus, vérifier que P ( T 2 N) est de l ordre 2 de 0, 8. Quel encadrement probable de N obtient-on si on observe T = 100? Exercice Deux relecteurs cherchent indépendamment les fautes de frappe dans un texte destiné à la publication. Le premier en a trouvé n 1, le deuxième n 2 et le nombre de coquilles trouvées par les deux vaut n 12. Donner une estimation raisonnable du nombre total N de fautes de frappe n dans le livre. On fera l hypothèse suivante : si on désigne par A i,j les événements : le relecteur numéro j a repéré la faute de frappe numéro i, ces événements sont indépendants dans leur ensemble, de probabilité p j ne dépendant que du relecteur, et on appliquera la loi des grands nombres. Par ailleurs, on pourra observer qu il y a dans ce modèle trois paramètres inconnus : N, p 1 et p 2, et qu il y a trois observations : n 1, n 2 et n 12...

193 Chapitre XVI Convergence des mesures empiriques Nous décrivons dans ce chapitre des outils permettant d estimer la loi de probabilité d une variable aléatoire X à partir d un échantillon de cette loi. Le théorème de Glivenko-Cantelli fournit la justification théorique de l efficacité de la méthode décrite, et une généralisation du théorème central-limite fournit un test statistique adéquat, le test de Kolmogorov-Smirnov Mesures empiriques. Théorème de Glivenko-Cantelli Soit (X n ) n une suite de variables aléatoires réelles indépendantes de même loi P : pour tout borélien B, P (B) = P (X n B). Dans de nombreuses situations statistiques, la loi P est inconnue et on cherche à l estimer. On associe pour cela à chaque échantillon (X 1,, X n ) une loi appelée loi empirique, et on va établir ci-dessous la convergence presque sûre uniforme de la fonction de répartition de cette loi vers celle de P. Définition Soit (X 1,, X n ) une famille de n variables aléatoires réelles indépendantes de même loi P. appelle loi empirique d ordre n de P la loi de probabilité aléatoire P n sur définie par P n (ω) = 1 n δ Xi(ω) n i=1 Cette loi associe à chaque borélien B le nombre P n (B), égal au quotient du nombre d indices i tels que X i B par le nombre total d indices n. On note F n la fonction de répartition de P n (fonction de répartition empirique d ordre n de P ). On note F la fonction de répartition de P. Théorème Pour tout t, F n (t) converge presque sûrement vers F (t) quand n tend vers l infini. Démonstration C est une application de la loi forte des grands nombres. Fixons t et définissons les variables Y n par Y n = 1 Xn t On a F n (ω)(t) = P n (ω)(], t]). Ce nombre est égal à k n(ω) n, où k n(ω) est le nombre d entiers i n tels que X i (ω) t, c est-à-dire le nombre d entiers i tels que Y i (ω) = 1. On a donc simplement F n (t) = Y Y n n Les variables Y i sont indépendantes et de même loi puisque les X i le sont. Elles sont intégrables (même si les X i ne le sont pas) parce que bornées par 1. On peut donc appliquer la loi forte des grands nombres pour conclure que F n (t) converge presque sûrement vers E(Y 1 ) = P (X 1 t) = F (t). On 193

194 194 - Convergence des mesures empiriques emarque Dans le théorème ci-dessus, l ensemble exceptionnel Ω t de non-convergence de F n (t) vers F (t) (c est-à-dire, l ensemble formé par les ω pour lesquels F n (ω)(t) ne tend pas vers F (t)) dépend de t. Comme n est pas dénombrable, la réunion de ces ensembles quand t parcourt pourrait avoir une probabilité non nulle et on ne pourrait pas affirmer que, presque sûrement, F n converge simplement vers F sur. En réalité, cette convergence a effectivement lieu, et elle est même presque sûrement uniforme, comme le prouve le théorème ci-dessous. Théorème Théoreme de Glivenko-Cantelli Avec les notations ci-dessus, sup t F n (t) F (t) 0 presque sûrement. Démonstration Pour t et n N, posons F (t ) = P (], t[), F n (t ) = P n (], t[) (La notation est cohérente car on sait que P (], t[) = ). Pour tout entier m 1 et tout entier k {0,, m}, posons t m k = inf{t, F (t) k m } lim F (s), d après le point (c) du théorème s t,s<t On a alors F (t m k ) k/m (continuité à droite de la fonction de répartition : c est encore le point (c) du théorème ) et F (t m k ) k/m, car tout s < tm k vérifie F (s) < k/m, par définition de tm k. Il en résulte que F (t m k ) + 1 m F (tm k+1 ) Pour 0 k m 1, choisissons t [t m k, tm k+1 ]. Par croissance des fonctions de répartition, on a D après l inégalité ci-dessus, on en déduit que F n (t m k ) F (t m k+1 ) F n (t) F (t) F n (t m k+1 ) F (t m k ) Finalement, sup t F n (t m k ) F (t m k ) 1 m F n(t) F (t) F n (t m k+1 ) F (t m k+1 ) + 1 m F n (t) F (t) 1 ( m + max max F n(t m k ) F (t m k ), max 0 k m ) F n(t m k ) F (t m k ) 0 k m En raisonnant comme dans la preuve du théorème , on prouve que, pour chaque m fixé, les suites et max F n(t m k ) F (t m k ) 0 k m max F n(t m k ) F (t m k ) 0 k m convergent presque sûrement vers 0 (pour le deuxième il faut changer la définition des Y n : prendre Y n = 1 Xn<t). Cette fois l ensemble négligeable Ω m de non-convergence dépend de l entier m, et la réunion sur tous les m de ces ensembles est encore de probabilité nulle.soit ω un élément du complémentaire Ω de cette réunion. Alors, pour tout m et pour tout n, sup t F n (ω)(t) F (t) 1 ( m + max max F n(ω)(t m k ) F (t m k ), max 0 k m Fixons ε > 0 et un entier m 0 2. Pour tout n ε F n (ω)(t) F (t) ε ( 2 + max max sup t F n (ω)(t m0 k 0 k m 0 ) F (tm0 k ), max ) F n(ω)(t m k ) F (t m k ) 0 k m ) F n (ω)(t m0 k ) F (tm0 k ) 0 k m 0

195 Test de Kolmogorov-Smirnov Comme ω Ω, le max calculé au membre de droite tend vers 0, donc il est inférieur à ε 2 pour n n 0 (qui dépend de ω). On a bien établi que, pour tout ε > 0, il existe un entier n 0 tel que, quel que soit n n 0 d où le résultat annoncé. sup F n (ω)(t) F (t) ε t Exemple Les deux figures ci-dessous montrent les fonctions de répartition empiriques associées à deux échantillons uniformes (obtenus par simulation), de tailles respectives n = 50 et n = Test de Kolmogorov-Smirnov Théorème Test de Kolmogorov-Smirnov Soit (F n ) n 1 les fonctions de répartition empiriques d une fonction de répartition continue F. Alors, pour tout u, lim P ( sup n Fn (t) F (t) u ) + = ( 1) k e 2k2 u 2 n t On notera que nous nous limitons dans cet énoncé au cas des lois de fonction de répartition continue. Ce théorème fournit un très bon test pour décider de la nature d une fonction de répartition inconnue F : à partir d un échantillon aléatoire (X 1,, X n ) de la loi inconnue, on teste si F est égale à une distribution donnée H en évaluant la quantité sup F n (t) H(t) et en examinant si la valeur obtenue n est pas trop t improbable, grâce au théorème (on utilise pour cela des tables de valeurs). Nous ne donnerons pas la démonstration générale du théorème Cette démonstration s appuie sur des propriétés du mouvement brownien qui dépassent le cadre du programme. Nous nous contenterons de prouver ci-dessous que si le théorème est vérifié pour des variables uniformes sur [0, 1] (c est la preuve de ce résultat qui utilise des propriétés du mouvement brownien), il l est en général. Cette réduction au cas des variables uniformes commence par un lemme d utilité générale, que l on utilisera aussi dans l étude des simulations de variables aléatoires à partir de générateurs de nombres pseudo-aléatoires. k=1

196 196 - Convergence des mesures empiriques Lemme Soit F une fonction de répartition sur et soit U la fonction définie sur ]0, 1[ par x ]0, 1[, U(x) = inf{t F (t) x} Alors U est une variable aléatoire sur ]0, 1[ (muni de la mesure de Lebesgue) de fonction de répartition F. Plus précisément, x F (t) si et seulement si U(x) t. Si, en outre, F est continue et si X est une variable aléatoire dont la loi a F pour fonction de répartition, alors F (X) suit une loi uniforme sur [0, 1]. Démonstration Si x F (t), alors U(x) t par définition de la borne inférieure. éciproquement, si U(x) t, F (s) x pour tout s > t d après la croissance de F. Comme F est continue à droite (point (c) du théorème ), on a F (t) x. Désignons par λ la mesure de Lebesgue sur ]0, 1[. On a ce qui démontre la première partie de l énoncé. λ(x ]0, 1[ U(x) t) = λ(x ]0, 1[ x F (t)) = F (t) Supposons maintenant que F est continue. Posons A x = {t F (t) x}. Soit (t n ) n une suite d éléments de A x convergeant en décroissant vers U(x). On a pour tout n, F (t n ) x, donc en passant à la limite à droite F (U(x)) x (on n a pas utilisé ici la continuité de F mais seulement sa continuité à droite, qui est toujours vérifiée). Soit (s n ) n une suite d éléments de A C x convergeant en croissant vers U(x). Grâce à la continuité de F, on a F (U(x)) = lim F (s n) x. n Finalement, si F est continue, F (U(x)) = x pour tout x ]0, 1[. Montrons maintenant que F (X) suit une loi uniforme sur [0, 1]. Il est clair tout d abord que P (F (X) < x) = 0 si x 0 et P (F (X) < x) = 1 si x > 1 (car F est une fonction de répartition, donc prend ses valeurs dans [0, 1]. Si 0 < x 1, P (F (X) < x) = P (X < U(x)) = F (U(x)) = x La fonction de répartition de F (X) est donc celle d une loi uniforme d où le résultat. Nous pouvons maintenant prouver le résultat annoncé ci-dessus. éduction au cas des variables uniformes - Soit X une variable aléatoire sur (Ω, A, P ) de fonction de répartition continue F. D après le lemme , il existe un ensemble négligeable N tel que, pour tout ω / N et tout t, (1) F (X(ω)) F (t) X(ω) t En effet, si on pose le lemme indique que X (ω) = inf{t F (t) F (X(ω))} = U(F (X(ω))) F (X(ω)) F (t) X (ω) t Il suffit donc de prouver que X = X p.s. pour établir l équivalence (1) (l ensemble N étant alors simplement formé par tous les ω tels que X(ω) X (ω)). En choisissant t = X(ω), on voit que l on a toujours X (ω) X(ω). Toujours d après le lemme, on a pour tout t P (X t) = P (F (X) F (t)) = F (t) = P (X t) donc X et X ont la même loi. Posons alors n si X n X n = X si n X n n si X n n X n = X n si X n si n X n si X n Les variables X n et X n ont la même loi puisque X et X ont la même loi, elles sont intégrables car bornées, donc elles ont la même espérance. Par ailleurs, comme X X, on a pour tout n, X n X n. Les variables

197 Test de Kolmogorov-Smirnov X n X n sont donc positives et d espérance nulle, donc nulles p.s. Comme elles convergent p.s. vers X X quand n tend vers l infini, on a bien établi l égalité p.s. de X et X, ce qui prouve (1). Considérons à présent des variables (X i ) i indépendantes et de même loi de fonction de répartition F. Soit N la réunion des ensembles négligeables N i construits ci-dessus pour chaque X i : c est encore un ensemble négligeable. Pour ω / N et t, on a pour tout i (1i) F (X i (ω)) F (t) X i (ω) t et par conséquent, quel que soit l entier n 1, F n (ω)(t) = 1 n n 1 ],t] (X i (ω)) = 1 n i=1 n 1 ],F (t)] (F (X i (ω))) Posons U i = F (X i ). Les variables U i sont indépendantes, et uniformes sur ]0, 1[ d après le lemme Si on désigne par G n la fonction de répartition empirique d une variable uniforme sur ]0, 1[, on a donc Ainsi, pour tout ω / N, pour tout entier n 1, n Fn (t) F (t) = Il suffit donc de prouver que sup t i=1 F n (ω)(t) = G n (F (t)) sup n Gn (x) G(x) x ]0,1[ lim P ( sup n Gn (x) G(x) u ) + = ( 1) k e 2k2 u 2 n x ]0,1[ ce qui est bien la propriété annoncée : si le théorème est vrai pour des variables uniformes, il l est pour des variables de fonction de répartition continue quelconque. k=1

198

199 Chapitre XVII Tests d hypothèse et intervalles de confiance Nous précisons dans ce chapitre la démarche statistique esquissée au chapitre précédent, en formalisant la notion de test d hypothèse, dans un contexte paramétrique, et en décrivant quelques tests classiques utilisés lors de l estimation de paramètres de lois gaussiennes (espérance, variance) ou binomiale (paramètre p des variables de Bernoulli sous-jacentes). La notion de région de confiance, et en particulier celle d intervalle de confiance est en général une reformulation pratique (et très utilisée : la fourchette d un sondage est un intervalle de confiance) des résultats des tests d hypothèse Modèles statistiques, tests d hypothèse Commençons par un exemple. Lors d un contrôle sanitaire, on teste la présence de nitrate dans l eau du robinet. Les normes sanitaires tolèrent un certain niveau m 0 de produit (concentration maximale) et l on souhaite savoir si ces normes sont respectées. Si elles le sont, la consommation d eau est autorisée, sinon elle est interdite. Un tel contrôle est en général entâché d incertitudes. On ne peut jamais être certain à 100% de la précision des mesures faites, par ailleurs la concentration exacte peut connaître d un moment à l autre de légères variations. Il apparaît donc un certain caractère aléatoire dans le résultat du contrôle. Le rôle de la théorie des tests est de proposer des critères de décision prenant en compte ce caractère aléatoire et fournissant la réponse la plus sûre et la plus qualitative possible. Ici le mot sûreté réfère à la sécurité des usagers que l on doit protéger s il y a trop de nitrate, tandis que la notion de qualité réfère plutôt au service, qui ne doit pas être interrompu trop souvent sans raison (elle peut aussi faire référence à la situation économique du vendeur). On constate donc qu il y a deux erreurs de décision possibles : laisser consommer une eau polluée, ne pas laisser consommer une eau saine. Dans la plupart des contextes, des raisons d éthique font que la première erreur est beaucoup moins acceptable que la seconde. Dans de nombreux cas, on considère que l imprécision du résultat de l analyse tient à l addition d un grand nombre de petits facteurs indépendants et de même loi (quoique l auteur de ces lignes serait bien incapable de préciser la nature exacte de ces facteurs... Par ailleurs, il existe d autres contextes dans lesquels le doute est d une autre nature, par exemple lorsque l on fait un sondage sur un échantillon, forcément incomplet, d une population). Une application heuristique du théorème central-limite permet alors d affirmer que le résultat est une variable gaussienne, dont on considère que la moyenne est la valeur exacte (mais inconnue) de la concentration analysée (cette affirmation signifiant que les méthodes d analyse utilisées sont en moyenne fiables). Prendre une décision au vu du résultat de l analyse, c est donc décider si au vu d une observation Y d une variable gaussienne de moyenne inconnue m, il est raisonnable de considérer que m m 0 (le seuil légal) (et alors le produit est déclaré conforme à la règlementation) ou m > m 0 (et alors il est retiré de la vente). Nous allons maintenant proposer une formalisation des idées de cet exemple Modèles statistiques et tests d hypothèse 199

200 200 - Tests d hypothèse et intervalles de confiance On appelle modèle statistique la donnée d une famille de probabilités P θ, qui sont toutes les lois possibles d une variable aléatoire Y définie sur un espace probabilisable (Ω, A), où θ décrit un ensemble Θ de paramètres possibles (en général une partie de ou de k ). Dans l exemple ci-dessus, si Y désigne la concentration mesurée lors d un test, les P θ sont les lois gaussiennes d espérance m et de variance σ 2 et le paramètre θ = (m, σ 2 ) décrit Θ = + (en général, c est un peu plus restreint, mais n oublions pas que nous sommes ici dans un modèle). On appelle hypothèse toute partie de Θ. En général, il existe deux hypothèses correspondant à deux parties complémentaires de Θ. Dans notre exemple, les deux hypothèses sont m m 0 et m > m 0. Nous avons indiqué plus haut que les deux hypothèses ne jouent pas le même rôle lors de la décision, au sens où l une des erreurs possibles est moins acceptable que l autre. La tradition veut de noter H 1 l hypothèse qu on ne veut surtout pas accepter par erreur, et H 0 l autre. Dans notre exemple, H 1 est l hypothèse m m 0 et H 0 l autre. L hypothèse H 0 est aussi appelée l hypothèse nulle et on dit que l on teste H 0 contre H 1. Une hypothèse est dite simple si elle s écrit sous la forme θ = θ 0, elle est dite composite sinon. Un test d hypothèse est une fonction Φ associant à l observation Y soit H 0, soit H 1 : un tel test fournit une procédure de décision au vu de la valeur prise par Y. La qualité d un test se mesure par divers facteurs quantitatifs : le niveau, le biais et la puissance. On dit que le test Φ est de niveau α (ou inférieur ou égal à α, ou asymptotiquement égal à α) si θ H 0, P θ (Φ(Y ) = H 1 ) = α (ou α, ou α) Le nombre α représente donc la probabilité de l erreur grave (dans notre exemple, déclarer l eau buvable alors qu elle contient trop de nitrate). On dit qu un test de niveau inférieur ou égal à α est sans biais si θ H 1, P θ (Φ(Y ) = H 1 ) α En d autres termes, on a plus de chance de décider que H 1 est vraie quand elle est vraie que quand elle ne l est pas. Enfin, on appelle puissance du test Φ la fonction W Φ qui à un élément θ de H 1 associe W Φ (θ) = P θ (Φ(Y ) = H 1 ). Un test parfait (absolument pas aléatoire) aurait pour niveau 0 et pour puissance 1 identiquement. On comprend que nous allons chercher à construire des tests qui se rapprochent de cet idéal. Il se trouve que dans un certain nombre de domaines, cette quête possède un unique résultat, que l on appelle test uniformément le plus puissant. On dit qu un test F est uniformément le plus puissant dans une certaine famille de tests si W ψ W Φ pour tout autre test ψ de la famillle. Lorsque la famille étudiée est celle des tests sans biais, on dit que Φ est uniformément le plus puissant parmi les tests sans biais (que l on note UPPSB) égions de confiance Nous définissons maintenant la notion de région de confiance. Intuitivement, on associe à toute observation de la variable Y une partie (Y ) de Θ telle que, pour toute valeur θ du paramètre, il y ait une grande probabilité pour que θ appartienne à (Y ) quand Y a pour loi P θ. En pratique, il arrive souvent que l on ne souhaite pas estimer tout le paramètre mais seulement une partie de celui-ci (dans l exemple de la concentration en nitrate, nous sommes intéressés par la valeur de m, mais pas celle de σ 2 ). Aussi propose-t-on la définition formelle suivante. Définition Soit g : Θ m une application. On appelle région de confiance de niveau de confiance β (ou supérieur ou égal à β, ou asymptotiquement égal à β) de g une application Y (Y ) qui à toute observation Y associe une partie mesurable de m telle que θ Θ, P θ (g(θ) (Y )) = β (ou β, ou β)

201 Cas où la variance est connue Si est une région de confiance de niveau supérieur ou égal à β, est dite sans biais si pour tout h g(θ) \ {g(θ)}, P θ (h (Y )) β Dans toute la suite, les régions de confiance étudiées seront des intervalles (que l on appellera donc intervalles de confiance...). De même qu il existe une notion de meilleur test, il existe une notion de meilleure région de confiance. Si et sont deux régions de confiance de niveau supérieur ou égal à β, on dit que est meilleure que si, pour tout h g(θ) \ {g(θ)}, P θ (g(θ) (Y )) P θ (g(θ) (Y ))). On dit que est uniformément de maximum de précision dans une classe de régions si elle est meilleure que toutes les autres. Quand une région est uniformément de maximum de précision parmi les régions sans biais, on dit qu elle est UMPSB Liens entre tests d hypothèse et régions de confiance Supposons que nous avons défini, pour chaque valeur du paramètre h g(θ), un test Φ h de l hypothèse H 0 : g(θ) = h, contre l hypothèse H 1 : g(θ) h. Nous pouvons associer à cette famille de tests la région de confiance définie par (Y ) = {h g(θ) Φ h (Y ) = H 0 } En d autres termes, la zone de confiance associée à Y est l ensemble de toutes les valeurs de h pour lesquelles on décide que g(θ) = h. éciproquement, la donnée d une région de confiance permet de définir la famille de tests Φ h par la relation réciproque Φ h (Y ) = H 0 h (Y ) On vérifie alors facilement (le faire à titre d exercice) que les tests Φ h sont tous de niveau α si et seulement si est de niveau 1 α, que les Φ h sont tous sans biais si et seulement si l est, et que les Φ h sont tous uniformément les plus puissants dans une classe de familles de tests si et seulement si est uniformément de maximum de précision parmi les régions associées aux familles de tests de la classe Estimation de la moyenne d une variable gaussienne Cas où la variance est connue On se place dans ce paragraphe dans la situation suivante : Y = (Y 1,, Y n ) est un n-uplet de variables gaussiennes indépendantes de même loi N (m, σ 2 ) où la variance σ 2 est connue. On peut alors prendre θ = m et Θ =. Dans ce cas, la variable Z n = (Y Y n ) nm σ n suit une loi normale N (0, 1). Appelons Z α l unique réel tel que P (Z Z α ) = 1 α (nombre que l on peut 2 obtenir en utilisant des tables statistiques) et définissons, pour h le test Φ h de l hypothèse H 0 : m = h contre l hypothèse bilatérale H 1 : m h de la manière suivante : { H Φ h (Y ) = 0 si Z α (Y Y n ) nh σ Z α n H 1 sinon [ Sn C est la famille de tests associée à l intervalle de confiance (Y ) = n σ Z α, S n n n + σ Z α ]. n

202 202 - Tests d hypothèse et intervalles de confiance Théorème Le test ci-dessus est UPPSB parmi les familles de tests de niveau α de H 0 contre H 1. Il en résulte que l intervalle de confiance est UMPSB. Nous admettrons l essentiel de ce théorème, nous contentant de prouver que le test est effectivement sans biais. Il s agit de prouver que si m h, P m ( Z α (Y Y n ) nh σ n Z α ) 1 α (et donc la probabilité de choisir H 1 est supérieure ou égale à α, puisque le choix de H 1 correspond à l événement complémentaire). Puisque P m est la loi gaussienne d espérance m et de moyenne σ 2, (Y Y n ) nm σ suit une loi normale. n On va donc réécrire la probabilité à estimer sous la forme P m ( Z α n m h σ (Y Y n ) nm σ n Z α n m h ) σ En désignant par F la fonction de répartition de la loi N (0, 1), la probabilité étudiée vaut donc F (Z α n m h σ ) F ( Z α n m h ) σ de la forme F (Z α u) F ( Z α u), en posant u = n m h. La dérivée par rapport à u de cette expression σ est f(z α u) + f( Z α u), où f : t 1 e t2 /2 2π est la densité de la loi normale réduite. On vérifie facilement que cette dérivée est négative pour u > 0 et positive pour u < 0 (c est une conséquence simple de la parité de f et de sa décroissance sur + ). La probabilité étudiée est donc maximale quand u = 0, c est-à-dire quand m = h. On sait qu elle est alors égale à α par construction du test d où le résultat. emarque Lorsque le test est unilatéral, c est-à-dire quand on teste l hypothèse H 0 : m = h contre l hypothèse H 1 : m > h, le test Φ h est donné par { H Φ h (Y ) = 0 si (Y Y n ) nh σ Z α n sinon H 1 où Z α est maintenant défini par P (Z Z α) = 1 α. On pourra, à titre d exercice, écrire l intervalle de confiance associé au test, et vérifier que ce test est sans biais Cas où la variance est inconnue Dans le cas général où la variance est inconnue, on prend comme paramètre θ le couple (m, σ 2 ), mais on estime cette fois la variance par la variance empirique s 2 n = 1 n ( Y k Y ) Y n = 1 n (Y k Y n ) 2 n 1 n n 1 en posant Y n = Y Y n n k=1 k=1 (variable appelée la moyenne empirique de l échantillon). On prouve que s 2 n est une variable aléatoire indépendante de Y n et suit la loi que n Y n m s n σ 2 n 1 χ2 (n 1). Il en résulte suit une loi de Student à n 1 degrés de liberté. En utilisant les tables de cette loi, on peut

203 Tests exacts alors définir un test bilatéral analogue à celui obtenu plus haut quand la variance est connue : si on définit T α (n 1) par P (S T α (n 1)) = 1 α 2 où S suit une loi de Student à n 1 degrés de liberté, on aura { Φ h (Y ) = H 0 si T α (n 1) n Y n h T α (n 1) s n sinon H 1 et le test est associé à l intervalle de confiance (Y ) = [Y n T α (n 1) s n n, Y n + T α (n 1) s n n ]. On prouve que le test ainsi défini est de niveau α, sans biais et UPPSB. Il en résulte que l intervalle de confiance (Y ) est UMPSB Estimation de la moyenne d une variable binomiale L objectif est maintenant l estimation du paramètre P d une variable binomiale Y de loi B(n, p). Dans ce cas, n est connu et on peut prendre θ = p. On posera dans toute la suite X = Y/n et on se limitera aux tests bilatéraux : H 0 : p = p 0 contre H 1 : p p Tests exacts La difficulté pour construire des tests dans ce cas tient au caractère discret de la loi de Y, qui empêche de définir une région d acceptation de l hypothèse H 0 : p = p 0 dont la probabilité sous P p0 soit exactement 1 α (contrairement à ce qui se passait dans le cas gaussien). On va, à la place, construire un test qui sera seulement de niveau inférieur ou égal à α (et non plus égal), et qui de ce fait possèdera un biais (pour des valeurs de p très proches de p 0, la probabilité P p (Φ(Y ) = H 1 ) sera en général inférieure à α. On pourrait en fait définir un test de niveau α en procédant par randomisation, en ajoutant un élément de hasard à la décision d accepter l hypothèse nulle (de manière à augmenter le niveau jusqu à α) : en dépit du caractère quelque peu paradoxal de cette introduction du hasard, c est de cette manière que l on arrive à élaborer des tests optimaux pour la loi binomiale. Nous n en dirons néanmoins pas plus ici, car ce type de test n est pas associé à une région de confiance bien définie. Le test choisi est donc le suivant : pour p 0 et un seuil α > 0 donnés, on définit les entiers u(p 0 ) et v(p 0 ) de la manière suivante : u est le plus grand entier tel que P p0 (Y u) α 2 (u = 1 si cet ensemble est vide), v est le plus petit entier tel que P p0 (Y v) α 2 On peut aussi écrire (v = n + 1 si cet ensemble est vide). u(p 0 ) = max{k {0,, n} v(p 0 ) = min{k {0,, n} k Cnp i i 0(1 p 0 ) n i α/2} i=0 n Cnp i i 0(1 p 0 ) n i α/2} Il est alors clair que le test Φ p0 défini par { H0 si Y [u(p Φ p0 (Y ) = 0 ) + 1, v(p 0 ) 1] sinon est de niveau inférieur à α. H 1 L intervalle de confiance (Y ) associé à ce test est l intervalle formé par tous les nombres p tels que Φ p (Y ) = H 0, c est-à-dire tels que Y [u(p) + 1, v(p) 1]. i=k

204 204 - Tests d hypothèse et intervalles de confiance L inégalité Y u(p) + 1 équivaut à Y Cnp i i (1 p) n i > α/2 (à cause de la croissance de cette somme i=0 par rapport à Y ; l équivalence est vraie y compris quand Y = 0 du fait de la convention sur u(p) quand l ensemble dont il est le plus grand élément est vide). Pour un Y donné, la fonction Y p Cnp i i (1 p) n i i=0 est strictement décroissante : elle a pour dérivée ncn 1p Y Y (1 p) n 1 Y (le vérifier par récurrence sur Y ). Désignons par p + l unique solution de l équation Y Cnp i i (1 p) n i = α/2 i=0 (et p + = 1 quand Y = n : dans ce cas, u(p) n 1 est vérifié quel que soit p car α/2 < 1). La relation Y u(p) + 1 équivaut donc à p < p + si Y < n et à p 1 si Y = n. n De même, l inégalité Y v(p) 1 équivaut à Cnp i i (1 p) n i > α/2 (à cause de la croissance de cette i=y somme quand Y décroît, et avec la même remarque sur le cas extrême Y = n). Pour un Y donné, la fonction Y p Cnp i i (1 p) n i i=0 est strictement croissante : elle a pour dérivée kcn Y p Y 1 (1 p) n Y (le vérifier par récurrence descendante sur Y ). Désignons par p l unique solution de l équation n Cnp i i (1 p) n i = α/2 i=y (et p = 0 quand Y = 0 : dans ce cas, v(p) 1 est vrai pour tout p). La relation Y v(p) 1 équivaut donc à p > p si Y > 0 et à p 0 si Y = 0. On a donc (Y ) =]p, p + [ si 0 < Y < n, (0) = [0, p + (0)[ et (n) =]p (n), 1]. (On vérifie facilement, en utilisant les décroissance et croissance des deux fonctions auxiliaires introduites ci-dessus et le fait que α/2 1 α/2, que p < p + ). A titre d exemple numérique, on obtient, pour un seuil α = 5%, Y = 10 et n = 100, (Y ) =]0, 049; 0, 176[ Tests asymptotiques Quand n tend vers l infini et quand Y B(n, p), on sait d après le théorème central-llimite que la variable Z = Y np np(1 p) converge en loi vers une loi normale centrée réduite N (0, 1). Il en résulte, avec les mêmes notations qu au paragraphe que le test consistant à accepter l hypothèse H 0 : p = p 0 contre l hypothèse H 1 : p p 0 quand Y np 0 Z α np0 (1 p 0 ) Z α est asymptotiquement de niveau α. Pour X = Y/n et α donnés, l intervalle de confiance associé à ce test est l ensemble des paramètres p tels que Z α n(x p Z α, c est-à-dire tels que p 2 (1 + u) (2X + u)p + X 2 0, en posant u = Zα/n. 2 np(1 p) On obtient l intervalle [2X + u u2 + 4uX(1 X) 2(1 + u), 2X + u + ] u 2 + 4uX(1 X) 2(1 + u)

205 Tests asymptotiques On vérifie que, quand n est grand, u est petit et l intervalle de confiance est proche de [X Z α X(1 X)/n, X + Zα X(1 X)/n] eprenant les valeurs numériques étudiées au paragraphe précédent, on obtient pour α = 5%, n = 100 et Y = 10, les intervalles [0, 0558; 0, 1763] (formules exactes) et [0, 0412; 0, 1588] (formules approchées), que l on comparera à l intervalle [0, 049; 0, 176] que nous avions obtenu par les tests exacts. (L intervalle obtenu par test exact est légèrement plus grand que celui obtenu par le test asymptotique de même niveau : cela peut sembler surprenant, mais il ne faut pas oubllier que le test exact est en fait de niveau inférieur à 5%, donc plus exigeant que le test asymptotique : cette exigence d une plus grande certitude a pour contrepartie une fourchette de réponses acceptées plus large).

206

207 Chapitre XVIII Méthode de Monte-Carlo Nous décrivons dans ce chapitre une application de la loi forte des grands nombres et du théorème centrallimite : la méthode de Monte-Carlo. L objectif de cette méthode est le calcul approché d intégrales difficiles à estimer par des moyens algébriques. Nous verrons que l idée de base est simple (il s agit en quelque sorte de proposer un calcul approché par des sommes de iemann aléatoires) et nous indiquerons les avantages et inconvénients de la méthode, puis nous verrons comment réduire certains de ces inconvénients (ce travail de réduction visant pour l essentiel à réduire la taille de l intervalle de confiance associé à l estimation, ceci en diminuant la variance de la famille de variables aléatoires étudiée). Le plan de ce chapitre suit de très près celui proposé dans le livre Thèmes de probabilités et statistiques de Paul S. Toulouse (épuisé) Description de la méthode de Monte-Carlo La méthode de Monte-Carlo vise à calculer une valeur approchée d intégrale en simulant une somme de iemann associée à cette intégrale. Supposons que f est une fonction numérique définie sur [0, 1], intégrable mais dont l intégrale I ne se calcule pas, ou pas facilement, par les techniques algébriques classiques. Définissons une variable aléatoire U de loi uniforme sur [0, 1]. On sait alors que E(f(U)) = f(x)ϕ(x) dx où ϕ est la densité de probabilité de U sur (cf. le théorème et la généralisation qui le suit). Comme ϕ vaut 1 sur [0, 1] et 0 ailleurs, on obtient E(f(U)) = 1 0 f(x) dx = I Cette intégrale est absolument convergente d après l intégrabilité de f. On sait alors que la variable aléatoire f(u) appartient à L 1 et on peut donc appliquer la loi forte des grands nombres : si les U i sont indépendantes, de même loi que U, f(u 1 ) + + f(u n ) lim = E(f(U)) = n n 1 0 f(x) dx presque sûrement Notons S n = f(u 1 ) + + f(u n ) et I n = f(u 1) + + f(u n ), et faisons l hypothèse que la variable f(u) n est de carré intégrable. On peut donc appliquer le théorème central-limite et conclure que, quand n tend vers l infini, la variable Z n définie par Z n = S n nm σ n = n I n m σ 207

208 208 - Méthode de Monte-Carlo (où m = E(f(U)) = I et σ 2 est la variance de f(u)) suit une loi approximativement normale, ce qui implique que P ( 1, 96 Z n 1, 96) 0, 05 Il en résulte que, avec probabilité 0, 95, l intervalle [I n 1, 96 σ n, I n + 1, 96 σ n ] contient la vraie valeur I = m de l intégrale cherchée. (C est un intervalle de confiance pour l estimation de I au seuil de 95%). emarque En théorie, dans ce problème, σ est une donnée connue, mais parfois difficile à calculer (encore une intégrale à estimer). Lorsqu on ne connaît pas σ 2, on l estime par l estimateur sans biais classique S 2 n = 1 n 1 On peut alors prouver que la variable n I n I S n n (f(u i ) I n ) 2 On obtient donc un intervalle de confiance au niveau 95% en posant S 2 I = [I n 1, 96 n S 2 n, I n + 1, 96 n n ] i=1 suit approximativement une loi normale centrée réduite. emarque L inconvénient de cette méthode est sa lenteur certaine (vitesse de convergence en 1/ n). L avantage est que, dès lors que f(u) est de carré intégrable, la vitesse de convergence est indépendante des propriétés de régularité de f. Exemple Estimons l intégrale gaussienne I = 1 2π 1,96 1,96 e x2 /2 dx On se ramène par le changement de variable x = 3, 92u 1, 96 à 3, 92 1 I = e (3,92u 1,96)2 /2 du 2π 0 Trois simulations successives (en Java), avec n = 10000, ont donné les valeurs de I n suivantes (tronquées après la cinquième décimale) : 0, 95154, 0, et 0, Nous sommes ici dans un cas où le calcul exact de σ est difficile. L estimation par Sn 2 = 1 n (f(u i ) I n ) 2 n 1 i=1 donne dans les trois exemples ci-dessus les valeurs suivantes : S 2 n = 0, 19789, S 2 n = 0, et S 2 n = 0, 19641, donnant les trois intervalles de confiance (au seuil de 95%) I 1 = [ ; ], I 2 = [ ; ], I 3 = [ ; ] et la vraie valeur est 0, (en arrondissant à la septième décimale). emarque Cas où la variable f(u) n est pas de carré intégrable Quand f(u) n est pas de carré intégrable, on peut essayer de modifier l estimateur pour que son espérance reste la même (l intégrale cherchée) mais que sa variance devienne finie. On part de l égalité 0 I = 1 0 f(x) dx et on multiplie le haut et le bas de la fonction à intégrer g par une densité de probabilité ϕ strictement positive sur [0, 1] : 1 ( ) f(x) f(y ) I = ϕ(x) dx = E ϕ(x) ϕ(y )

209 éduction de la variance par modification de l estimateur où Y est une variable aléatoire de densité ϕ. Pour le nouvel estimateur, l espérance du carré s écrit ( ( ) ) 2 f(y ) 1 f 2 (x) E = ϕ(y ) ϕ(x) dx qui peut être finie si on a bien choisi ϕ. Si par exemple, f(x) = x 3/4 qui est intégrable mais pas de carré intégrable sur [0, 1], on peut choisir ϕ(x) = (1 + a)x a : pour a > 1, ceci est bien une densité de probabilité sur [0, 1]. Le nouvel estimateur Z de l intégrale vérifie 1 E(Z 2 dx ) = 0 (1 + a)x a+3/2 Cette intégrale est finie si par exemple a = 3/4. C est d ailleurs le choix de a qui minimise la variance de Z. La suite de ce chapitre va être consacrée à la description de méthodes permettant de réduire l amplitude de l intervalle de confiance obtenu plus haut par diminution de la variance Méthodes de réduction de la variance éduction de la variance par modification de l estimateur Posons comme ci-dessus I = 1 f(t) dt = E(f(U)) où U suit une loi uniforme sur [0, 1]. Désignons par ϕ 0 une densité strictement positive sur [0, 1]. On peut alors écrire I = 1 0 f(t) ϕ(t) dt = E(Z) ϕ(t) où Z = f(y ), Y étant une variable de densité ϕ. La variable Z a maintenant pour variance ϕ(y ) f 2 (x) V (Z) = dx I2 ϕ(x) Pour essayer de rendre ce nombre le plus petit possible, on essaie de choisir ϕ(x) proche de f(x), par exemple par développement limité. 1 Exemple Estimons π à l aide de l intégrale 1 x2 dx = π/4. Choisissons ϕ(x) = C(1 ax 2 ), 0 1 avec 0 a < 1 pour que ϕ soit strictement positive sur [0, 1]. Le nombre C vaut (parce que ϕ est 1 a/3 une densité). La variance du nouvel estimateur vaut donc ( V = 1 a ) 1 1 x ax 2 dx I2 = 1 a 1 ( ) (3 a)(1 a) 1 + a 3 6a ln a 1 I 2 a Une recherche numérique du minimum de cette expression lorsque a décrit [0, 1] donne une variance minimale de 0, 0029, pour a = 0, 74, comme le montre la courbe ci-dessous (obtenue avec Excel). Avec l estimateur initial, la variance vaut environ 0, 05. La variance a été divisée environ par 17, et la taille de l intervalle de confiance environ par 4.

Image d un intervalle par une fonction continue

Image d un intervalle par une fonction continue DOCUMENT 27 Image d un intervalle par une fonction continue La continuité d une fonction en un point est une propriété locale : une fonction est continue en un point x 0 si et seulement si sa restriction

Plus en détail

Intégration et probabilités TD1 Espaces mesurés Corrigé

Intégration et probabilités TD1 Espaces mesurés Corrigé Intégration et probabilités TD1 Espaces mesurés Corrigé 2012-2013 1 Petites questions 1 Est-ce que l ensemble des ouverts de R est une tribu? Réponse : Non, car le complémentaire de ], 0[ n est pas ouvert.

Plus en détail

Limites finies en un point

Limites finies en un point 8 Limites finies en un point Pour ce chapitre, sauf précision contraire, I désigne une partie non vide de R et f une fonction définie sur I et à valeurs réelles ou complees. Là encore, les fonctions usuelles,

Plus en détail

Intégration et probabilités TD1 Espaces mesurés

Intégration et probabilités TD1 Espaces mesurés Intégration et probabilités TD1 Espaces mesurés 2012-2013 1 Petites questions 1) Est-ce que l ensemble des ouverts de R est une tribu? 2) Si F et G sont deux tribus, est-ce que F G est toujours une tribu?

Plus en détail

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours Exo7 Continuité (étude globale). Diverses fonctions Exercices de Jean-Louis Rouget. Retrouver aussi cette fiche sur www.maths-france.fr * très facile ** facile *** difficulté moyenne **** difficile *****

Plus en détail

Théorie de la Mesure et Intégration

Théorie de la Mesure et Intégration Université Pierre & Marie Curie (Paris 6) Licence de Mathématiques L3 UE LM364 Intégration 1 & UE LM365 Intégration 2 Année 2010 11 Théorie de la Mesure et Intégration Responsable des cours : Amaury LAMBERT

Plus en détail

La mesure de Lebesgue sur la droite réelle

La mesure de Lebesgue sur la droite réelle Chapitre 1 La mesure de Lebesgue sur la droite réelle 1.1 Ensemble mesurable au sens de Lebesgue 1.1.1 Mesure extérieure Définition 1.1.1. Un intervalle est une partie convexe de R. L ensemble vide et

Plus en détail

Moments des variables aléatoires réelles

Moments des variables aléatoires réelles Chapter 6 Moments des variables aléatoires réelles Sommaire 6.1 Espérance des variables aléatoires réelles................................ 46 6.1.1 Définition et calcul........................................

Plus en détail

Chapitre 7 : Intégration sur un intervalle quelconque

Chapitre 7 : Intégration sur un intervalle quelconque Universités Paris 6 et Paris 7 M1 MEEF Analyse (UE 3) 2013-2014 Chapitre 7 : Intégration sur un intervalle quelconque 1 Fonctions intégrables Définition 1 Soit I R un intervalle et soit f : I R + une fonction

Plus en détail

I. Polynômes de Tchebychev

I. Polynômes de Tchebychev Première épreuve CCP filière MP I. Polynômes de Tchebychev ( ) 1.a) Tout réel θ vérifie cos(nθ) = Re ((cos θ + i sin θ) n ) = Re Cn k (cos θ) n k i k (sin θ) k Or i k est réel quand k est pair et imaginaire

Plus en détail

n N = u N u N+1 1 u pour u 1. f ( uv 1) v N+1 v N v 1 1 2 t

n N = u N u N+1 1 u pour u 1. f ( uv 1) v N+1 v N v 1 1 2 t 3.La méthode de Dirichlet 99 11 Le théorème de Dirichlet 3.La méthode de Dirichlet Lorsque Dirichlet, au début des années 180, découvre les travaux de Fourier, il cherche à les justifier par des méthodes

Plus en détail

Mesures gaussiennes et espaces de Fock

Mesures gaussiennes et espaces de Fock Mesures gaussiennes et espaces de Fock Thierry Lévy Peyresq - Juin 2003 Introduction Les mesures gaussiennes et les espaces de Fock sont deux objets qui apparaissent naturellement et peut-être, à première

Plus en détail

Continuité en un point

Continuité en un point DOCUMENT 4 Continuité en un point En général, D f désigne l ensemble de définition de la fonction f et on supposera toujours que cet ensemble est inclus dans R. Toutes les fonctions considérées sont à

Plus en détail

Développement décimal d un réel

Développement décimal d un réel 4 Développement décimal d un réel On rappelle que le corps R des nombres réels est archimédien, ce qui permet d y définir la fonction partie entière. En utilisant cette partie entière on verra dans ce

Plus en détail

Programmes des classes préparatoires aux Grandes Ecoles

Programmes des classes préparatoires aux Grandes Ecoles Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme

Plus en détail

Théorie de la Mesure et Intégration

Théorie de la Mesure et Intégration Ecole Nationale de la Statistique et de l Administration Economique Théorie de la Mesure et Intégration Xavier MARY 2 Table des matières I Théorie de la mesure 11 1 Algèbres et tribus de parties d un ensemble

Plus en détail

Suites numériques 3. 1 Convergence et limite d une suite

Suites numériques 3. 1 Convergence et limite d une suite Suites numériques 3 1 Convergence et limite d une suite Nous savons que les termes de certaines suites s approchent de plus en plus d une certaine valeur quand n augmente : par exemple, les nombres u n

Plus en détail

Calcul fonctionnel holomorphe dans les algèbres de Banach

Calcul fonctionnel holomorphe dans les algèbres de Banach Chapitre 7 Calcul fonctionnel holomorphe dans les algèbres de Banach L objet de ce chapitre est de définir un calcul fonctionnel holomorphe qui prolonge le calcul fonctionnel polynômial et qui respecte

Plus en détail

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Dualité dans les espaces de Lebesgue et mesures de Radon finies Chapitre 6 Dualité dans les espaces de Lebesgue et mesures de Radon finies Nous allons maintenant revenir sur les espaces L p du Chapitre 4, à la lumière de certains résultats du Chapitre 5. Sauf mention

Plus en détail

MESURE ET INTÉGRATION EN UNE DIMENSION. Notes de cours

MESURE ET INTÉGRATION EN UNE DIMENSION. Notes de cours MSUR T INTÉGRATION N UN DIMNSION Notes de cours André Giroux Département de Mathématiques et Statistique Université de Montréal Mai 2004 Table des matières 1 INTRODUCTION 2 1.1 xercices.............................

Plus en détail

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.

Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. 14-3- 214 J.F.C. p. 1 I Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. Exercice 1 Densité de probabilité. F { ln x si x ], 1] UN OVNI... On pose x R,

Plus en détail

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que

De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que Introduction. On suppose connus les ensembles N (des entiers naturels), Z des entiers relatifs et Q (des nombres rationnels). On s est rendu compte, depuis l antiquité, que l on ne peut pas tout mesurer

Plus en détail

Théorie de la mesure. S. Nicolay

Théorie de la mesure. S. Nicolay Théorie de la mesure S. Nicolay Année académique 2011 2012 ii Table des matières Introduction v 1 Mesures 1 1.1 Sigma-algèbres................................. 1 1.2 Mesures.....................................

Plus en détail

La fonction exponentielle

La fonction exponentielle DERNIÈRE IMPRESSION LE 2 novembre 204 à :07 La fonction exponentielle Table des matières La fonction exponentielle 2. Définition et théorèmes.......................... 2.2 Approche graphique de la fonction

Plus en détail

Intégrale de Lebesgue

Intégrale de Lebesgue Intégrale de Lebesgue L3 Mathématiques Jean-Christophe Breton Université de Rennes 1 Septembre Décembre 2014 version du 2/12/14 Table des matières 1 Tribus (σ-algèbres) et mesures 1 1.1 Rappels ensemblistes..............................

Plus en détail

3 Approximation de solutions d équations

3 Approximation de solutions d équations 3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle

Plus en détail

Chapitre 2 Le problème de l unicité des solutions

Chapitre 2 Le problème de l unicité des solutions Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)

Plus en détail

Continuité d une fonction de plusieurs variables

Continuité d une fonction de plusieurs variables Chapitre 2 Continuité d une fonction de plusieurs variables Maintenant qu on a défini la notion de limite pour des suites dans R n, la notion de continuité s étend sans problème à des fonctions de plusieurs

Plus en détail

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer

Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer Pour commencer Exercice 1 - Ensembles de définition - Première année - 1. Le logarithme est défini si x + y > 0. On trouve donc le demi-plan supérieur délimité par la droite d équation x + y = 0.. 1 xy

Plus en détail

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre IUFM du Limousin 2009-10 PLC1 Mathématiques S. Vinatier Rappels de cours Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre 1 Fonctions de plusieurs variables

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Mesure et Intégration (Notes de cours de L3)

Mesure et Intégration (Notes de cours de L3) Mesure et Intégration (Notes de cours de L3) Ahmed Zeriahi Version préliminaire-octobre 2011 Avertissement : Ceci est une version préliminaire des notes du cours que l auteur a dispensé en troisème année

Plus en détail

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois

Plus en détail

3. Conditionnement P (B)

3. Conditionnement P (B) Conditionnement 16 3. Conditionnement Dans cette section, nous allons rappeler un certain nombre de définitions et de propriétés liées au problème du conditionnement, c est à dire à la prise en compte

Plus en détail

Texte Agrégation limitée par diffusion interne

Texte Agrégation limitée par diffusion interne Page n 1. Texte Agrégation limitée par diffusion interne 1 Le phénomène observé Un fût de déchets radioactifs est enterré secrètement dans le Cantal. Au bout de quelques années, il devient poreux et laisse

Plus en détail

Continuité et dérivabilité d une fonction

Continuité et dérivabilité d une fonction DERNIÈRE IMPRESSIN LE 7 novembre 014 à 10:3 Continuité et dérivabilité d une fonction Table des matières 1 Continuité d une fonction 1.1 Limite finie en un point.......................... 1. Continuité

Plus en détail

Suites numériques 4. 1 Autres recettes pour calculer les limites

Suites numériques 4. 1 Autres recettes pour calculer les limites Suites numériques 4 1 Autres recettes pour calculer les limites La propriété suivante permet de calculer certaines limites comme on verra dans les exemples qui suivent. Propriété 1. Si u n l et fx) est

Plus en détail

Résolution d équations non linéaires

Résolution d équations non linéaires Analyse Numérique Résolution d équations non linéaires Said EL HAJJI et Touria GHEMIRES Université Mohammed V - Agdal. Faculté des Sciences Département de Mathématiques. Laboratoire de Mathématiques, Informatique

Plus en détail

Cours d Analyse. Fonctions de plusieurs variables

Cours d Analyse. Fonctions de plusieurs variables Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........

Plus en détail

Simulation de variables aléatoires

Simulation de variables aléatoires Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo

Plus en détail

Construction de l'intégrale de Lebesgue

Construction de l'intégrale de Lebesgue Université d'artois Faculté des ciences Jean Perrin Mesure et Intégration (Licence 3 Mathématiques-Informatique) Daniel Li Construction de l'intégrale de Lebesgue 10 février 2011 La construction de l'intégrale

Plus en détail

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Chapitre 3. Mesures stationnaires. et théorèmes de convergence Chapitre 3 Mesures stationnaires et théorèmes de convergence Christiane Cocozza-Thivent, Université de Marne-la-Vallée p.1 I. Mesures stationnaires Christiane Cocozza-Thivent, Université de Marne-la-Vallée

Plus en détail

PROBABILITES ET STATISTIQUE I&II

PROBABILITES ET STATISTIQUE I&II PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits

Plus en détail

4. Martingales à temps discret

4. Martingales à temps discret Martingales à temps discret 25 4. Martingales à temps discret 4.1. Généralités. On fixe un espace de probabilités filtré (Ω, (F n ) n, F, IP ). On pose que F contient ses ensembles négligeables mais les

Plus en détail

1 Définition et premières propriétés des congruences

1 Définition et premières propriétés des congruences Université Paris 13, Institut Galilée Département de Mathématiques Licence 2ème année Informatique 2013-2014 Cours de Mathématiques pour l Informatique Des nombres aux structures Sylviane R. Schwer Leçon

Plus en détail

Université Paris-Dauphine DUMI2E 1ère année, 2009-2010. Applications

Université Paris-Dauphine DUMI2E 1ère année, 2009-2010. Applications Université Paris-Dauphine DUMI2E 1ère année, 2009-2010 Applications 1 Introduction Une fonction f (plus précisément, une fonction réelle d une variable réelle) est une règle qui associe à tout réel x au

Plus en détail

Amphi 3: Espaces complets - Applications linéaires continues

Amphi 3: Espaces complets - Applications linéaires continues Amphi 3: Espaces complets - Applications linéaires continues Département de Mathématiques École polytechnique Remise en forme mathématique 2013 Suite de Cauchy Soit (X, d) un espace métrique. Une suite

Plus en détail

Théorème du point fixe - Théorème de l inversion locale

Théorème du point fixe - Théorème de l inversion locale Chapitre 7 Théorème du point fixe - Théorème de l inversion locale Dans ce chapitre et le suivant, on montre deux applications importantes de la notion de différentiabilité : le théorème de l inversion

Plus en détail

Sur certaines séries entières particulières

Sur certaines séries entières particulières ACTA ARITHMETICA XCII. 2) Sur certaines séries entières particulières par Hubert Delange Orsay). Introduction. Dans un exposé à la Conférence Internationale de Théorie des Nombres organisée à Zakopane

Plus en détail

Le produit semi-direct

Le produit semi-direct Le produit semi-direct Préparation à l agrégation de mathématiques Université de Nice - Sophia Antipolis Antoine Ducros Octobre 2007 Ce texte est consacré, comme son titre l indique, au produit semi-direct.

Plus en détail

Cours de mathématiques

Cours de mathématiques DEUG MIAS premier niveau Cours de mathématiques année 2003/2004 Guillaume Legendre (version révisée du 3 avril 2015) Table des matières 1 Éléments de logique 1 1.1 Assertions...............................................

Plus en détail

Chapitre 11. Séries de Fourier. Nous supposons connues les formules donnant les coefficients de Fourier d une fonction 2 - périodique :

Chapitre 11. Séries de Fourier. Nous supposons connues les formules donnant les coefficients de Fourier d une fonction 2 - périodique : Chapitre Chapitre. Séries de Fourier Nous supposons connues les formules donnant les coefficients de Fourier d une fonction - périodique : c c a0 f x dx c an f xcosnxdx c c bn f xsinn x dx c L objet de

Plus en détail

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Filtrage stochastique non linéaire par la théorie de représentation des martingales Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de

Plus en détail

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante

Plus en détail

Capes 2002 - Première épreuve

Capes 2002 - Première épreuve Cette correction a été rédigée par Frédéric Bayart. Si vous avez des remarques à faire, ou pour signaler des erreurs, n hésitez pas à écrire à : mathweb@free.fr Mots-clés : équation fonctionnelle, série

Plus en détail

EXERCICE 4 (7 points ) (Commun à tous les candidats)

EXERCICE 4 (7 points ) (Commun à tous les candidats) EXERCICE 4 (7 points ) (Commun à tous les candidats) On cherche à modéliser de deux façons différentes l évolution du nombre, exprimé en millions, de foyers français possédant un téléviseur à écran plat

Plus en détail

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles Valentin Patilea 1 Cesar Sanchez-sellero 2 Matthieu Saumard 3 1 CREST-ENSAI et IRMAR 2 USC Espagne 3 IRMAR-INSA

Plus en détail

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples, Non-linéarité Contexte Pour permettre aux algorithmes de cryptographie d être sûrs, les fonctions booléennes qu ils utilisent ne doivent pas être inversées facilement. Pour cela, elles doivent être très

Plus en détail

PROBABILITÉS: COURS DE LICENCE DE MATHÉMATIQUES APPLIQUÉES LM 390

PROBABILITÉS: COURS DE LICENCE DE MATHÉMATIQUES APPLIQUÉES LM 390 PROBABILITÉS: COURS DE LICENCE DE MATHÉMATIQUES APPLIQUÉES LM 390 Université PARIS 6 2008/2009 Jean BERTOIN 1 Table des Matières ( ) ces parties peuvent ^etre omises en première lecture, et ne feront pas

Plus en détail

Commun à tous les candidats

Commun à tous les candidats EXERCICE 3 (9 points ) Commun à tous les candidats On s intéresse à des courbes servant de modèle à la distribution de la masse salariale d une entreprise. Les fonctions f associées définies sur l intervalle

Plus en détail

Probabilités sur un univers fini

Probabilités sur un univers fini [http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur

Plus en détail

ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE

ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE JEAN-DENIS FOUKS, EMMANUEL LESIGNE ET MARC PEIGNÉ J.-D. Fouks. École Supérieure d Ingénieurs de Poitiers. 40 avenue du Recteur Pineau, 860 Poitiers

Plus en détail

Approximations variationelles des EDP Notes du Cours de M2

Approximations variationelles des EDP Notes du Cours de M2 Approximations variationelles des EDP Notes du Cours de M2 Albert Cohen Dans ce cours, on s intéresse à l approximation numérique d équations aux dérivées partielles linéaires qui admettent une formulation

Plus en détail

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013 Séminaire ES Andrés SÁNCHEZ PÉREZ October 8th, 03 Présentation du sujet Le problème de régression non-paramétrique se pose de la façon suivante : Supposons que l on dispose de n couples indépendantes de

Plus en détail

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche Bachir Bekka Février 2007 Le théorème de Perron-Frobenius a d importantes applications en probabilités (chaines

Plus en détail

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Exercices - Polynômes : corrigé. Opérations sur les polynômes Opérations sur les polynômes Exercice 1 - Carré - L1/Math Sup - Si P = Q est le carré d un polynôme, alors Q est nécessairement de degré, et son coefficient dominant est égal à 1. On peut donc écrire Q(X)

Plus en détail

MA6.06 : Mesure et Probabilités

MA6.06 : Mesure et Probabilités Année universitaire 2002-2003 UNIVERSITÉ D ORLÉANS Olivier GARET MA6.06 : Mesure et Probabilités 2 Table des matières Table des matières i 1 Un peu de théorie de la mesure 1 1.1 Tribus...............................

Plus en détail

Le modèle de Black et Scholes

Le modèle de Black et Scholes Le modèle de Black et Scholes Alexandre Popier février 21 1 Introduction : exemple très simple de modèle financier On considère un marché avec une seule action cotée, sur une période donnée T. Dans un

Plus en détail

Planche n o 22. Fonctions de plusieurs variables. Corrigé

Planche n o 22. Fonctions de plusieurs variables. Corrigé Planche n o Fonctions de plusieurs variables Corrigé n o : f est définie sur R \ {, } Pour, f, = Quand tend vers, le couple, tend vers le couple, et f, tend vers Donc, si f a une limite réelle en, cette

Plus en détail

Espérance conditionnelle

Espérance conditionnelle Espérance conditionnelle Samy Tindel Nancy-Université Master 1 - Nancy Samy T. (IECN) M1 - Espérance conditionnelle Nancy-Université 1 / 58 Plan 1 Définition 2 Exemples 3 Propriétés de l espérance conditionnelle

Plus en détail

THÉORIE DE LA MESURE ET DE L INTÉGRATION.

THÉORIE DE LA MESURE ET DE L INTÉGRATION. THÉORIE DE LA MESURE ET DE L INTÉGRATION. THIERRY GALLAY Transcrit par Tancrède LEPOINT 29 UNIVERSITÉ JOSEPH FOURIER, GRENOBLE TABLE DES MATIÈRES Avant-propos Biographie sommaire...........................................

Plus en détail

Cours de Probabilités et de Statistique

Cours de Probabilités et de Statistique Cours de Probabilités et de Statistique Licence 1ère année 2007/2008 Nicolas Prioux Université Paris-Est Cours de Proba-Stat 2 L1.2 Science-Éco Chapitre Notions de théorie des ensembles 1 1.1 Ensembles

Plus en détail

Chp. 4. Minimisation d une fonction d une variable

Chp. 4. Minimisation d une fonction d une variable Chp. 4. Minimisation d une fonction d une variable Avertissement! Dans tout ce chapître, I désigne un intervalle de IR. 4.1 Fonctions convexes d une variable Définition 9 Une fonction ϕ, partout définie

Plus en détail

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015

Première partie. Préliminaires : noyaux itérés. MPSI B 6 juin 2015 Énoncé Soit V un espace vectoriel réel. L espace vectoriel des endomorphismes de V est désigné par L(V ). Lorsque f L(V ) et k N, on désigne par f 0 = Id V, f k = f k f la composée de f avec lui même k

Plus en détail

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII ALGORITHMIQUE II NOTION DE COMPLEXITE 1 2 Comment choisir entre différents algorithmes pour résoudre un même problème? Plusieurs critères de choix : Exactitude Simplicité Efficacité (but de ce chapitre)

Plus en détail

Exercices Corrigés Premières notions sur les espaces vectoriels

Exercices Corrigés Premières notions sur les espaces vectoriels Exercices Corrigés Premières notions sur les espaces vectoriels Exercice 1 On considére le sous-espace vectoriel F de R formé des solutions du système suivant : x1 x 2 x 3 + 2x = 0 E 1 x 1 + 2x 2 + x 3

Plus en détail

Approximation diophantienne uniforme et dimension de Hausdorff

Approximation diophantienne uniforme et dimension de Hausdorff Approximation diophantienne uniforme et dimension de Hausdorff Lingmin LIAO Travaux en collaboration avec Yann Bugeaud, Dong Han Kim et Micha l Rams Université Paris-Est Créteil Séminaire de Probabilités

Plus en détail

Introduction à l étude des Corps Finis

Introduction à l étude des Corps Finis Introduction à l étude des Corps Finis Robert Rolland (Résumé) 1 Introduction La structure de corps fini intervient dans divers domaines des mathématiques, en particulier dans la théorie de Galois sur

Plus en détail

Équation de Langevin avec petites perturbations browniennes ou

Équation de Langevin avec petites perturbations browniennes ou Équation de Langevin avec petites perturbations browniennes ou alpha-stables Richard Eon sous la direction de Mihai Gradinaru Institut de Recherche Mathématique de Rennes Journées de probabilités 215,

Plus en détail

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé

Baccalauréat S Antilles-Guyane 11 septembre 2014 Corrigé Baccalauréat S ntilles-guyane 11 septembre 14 Corrigé EXERCICE 1 6 points Commun à tous les candidats Une entreprise de jouets en peluche souhaite commercialiser un nouveau produit et à cette fin, effectue

Plus en détail

I. Ensemble de définition d'une fonction

I. Ensemble de définition d'une fonction Chapitre 2 Généralités sur les fonctions Fonctions de références et fonctions associées Ce que dit le programme : Étude de fonctions Fonctions de référence x x et x x Connaître les variations de ces deux

Plus en détail

Méthodes de Simulation

Méthodes de Simulation Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents

Plus en détail

Structures algébriques

Structures algébriques Structures algébriques 1. Lois de composition s Soit E un ensemble. Une loi de composition interne sur E est une application de E E dans E. Soient E et F deux ensembles. Une loi de composition externe

Plus en détail

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable Eo7 Fonctions de plusieurs variables Eercices de Jean-Louis Rouget Retrouver aussi cette fiche sur wwwmaths-francefr * très facile ** facile *** difficulté moenne **** difficile ***** très difficile I

Plus en détail

Raisonnement par récurrence Suites numériques

Raisonnement par récurrence Suites numériques Chapitre 1 Raisonnement par récurrence Suites numériques Terminale S Ce que dit le programme : CONTENUS CAPACITÉS ATTENDUES COMMENTAIRES Raisonnement par récurrence. Limite finie ou infinie d une suite.

Plus en détail

Problème 1 : applications du plan affine

Problème 1 : applications du plan affine Problème 1 : applications du plan affine Notations On désigne par GL 2 (R) l ensemble des matrices 2 2 inversibles à coefficients réels. Soit un plan affine P muni d un repère (O, I, J). Les coordonnées

Plus en détail

Objets Combinatoires élementaires

Objets Combinatoires élementaires Objets Combinatoires élementaires 0-0 Permutations Arrangements Permutations pour un multi-ensemble mots sous-ensemble à k éléments (Problème du choix) Compositions LE2I 04 1 Permutations Supposons que

Plus en détail

Mesures et Intégration

Mesures et Intégration Mesures et Intégration Marc Troyanov - EPFL - Octobre 2005 30 avril 2008 Ce document contient les notes du cours de Mesure et Intégration enseigné à l EPFL par Marc Troyanov, version 2005-2006. Table des

Plus en détail

Calcul différentiel sur R n Première partie

Calcul différentiel sur R n Première partie Calcul différentiel sur R n Première partie Université De Metz 2006-2007 1 Définitions générales On note L(R n, R m ) l espace vectoriel des applications linéaires de R n dans R m. Définition 1.1 (différentiabilité

Plus en détail

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48 Méthodes de Polytech Paris-UPMC - p. 1/48 Polynôme d interpolation de Preuve et polynôme de Calcul de l erreur d interpolation Étude de la formule d erreur Autres méthodes - p. 2/48 Polynôme d interpolation

Plus en détail

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme

Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme Chapitre 3 Quelques fonctions usuelles 1 Fonctions logarithme et eponentielle 1.1 La fonction logarithme Définition 1.1 La fonction 7! 1/ est continue sur ]0, +1[. Elle admet donc des primitives sur cet

Plus en détail

Comparaison de fonctions Développements limités. Chapitre 10

Comparaison de fonctions Développements limités. Chapitre 10 PCSI - 4/5 www.ericreynaud.fr Chapitre Points importants 3 Questions de cours 6 Eercices corrigés Plan du cours 4 Eercices types 7 Devoir maison 5 Eercices Chap Et s il ne fallait retenir que si points?

Plus en détail

Produits d espaces mesurés

Produits d espaces mesurés Chapitre 7 Produits d espaces mesurés 7.1 Motivation Au chapitre 2, on a introduit la mesure de Lebesgue sur la tribu des boréliens de R (notée B(R)), ce qui nous a permis d exprimer la notion de longueur

Plus en détail

Chapitre 2. Eléments pour comprendre un énoncé

Chapitre 2. Eléments pour comprendre un énoncé Chapitre 2 Eléments pour comprendre un énoncé Ce chapitre est consacré à la compréhension d un énoncé. Pour démontrer un énoncé donné, il faut se reporter au chapitre suivant. Les tables de vérité données

Plus en détail

CHAPITRE IV. L axiome du choix

CHAPITRE IV. L axiome du choix CHAPITRE IV L axiome du choix Résumé. L axiome du choix AC affirme qu il est légitime de construire des objets mathématiques en répétant un nombre infini de fois l opération de choisir un élément dans

Plus en détail

Rappels sur les suites - Algorithme

Rappels sur les suites - Algorithme DERNIÈRE IMPRESSION LE 14 septembre 2015 à 12:36 Rappels sur les suites - Algorithme Table des matières 1 Suite : généralités 2 1.1 Déition................................. 2 1.2 Exemples de suites............................

Plus en détail

Représentation des Nombres

Représentation des Nombres Chapitre 5 Représentation des Nombres 5. Representation des entiers 5.. Principe des représentations en base b Base L entier écrit 344 correspond a 3 mille + 4 cent + dix + 4. Plus généralement a n a n...

Plus en détail

Développements limités, équivalents et calculs de limites

Développements limités, équivalents et calculs de limites Développements ités, équivalents et calculs de ites Eercice. Déterminer le développement ité en 0 à l ordre n des fonctions suivantes :. f() e (+) 3 n. g() sin() +ln(+) n 3 3. h() e sh() n 4. i() sin(

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

Chapitre VI - Méthodes de factorisation

Chapitre VI - Méthodes de factorisation Université Pierre et Marie Curie Cours de cryptographie MM067-2012/13 Alain Kraus Chapitre VI - Méthodes de factorisation Le problème de la factorisation des grands entiers est a priori très difficile.

Plus en détail