Stéphane MISCHLER (mischler at ceremade dot dauphine dot fr)
|
|
|
- Jean-Charles Baril
- il y a 10 ans
- Total affichages :
Transcription
1 Cours de l cole doctorale DDIMO : stimation quantitative et uniforme en temps de la propagation du chaos et introduction aux limites de champ moyen pour des systèmes de particules - VRSION PROVISOIR - Stéphane MISCHLR (mischler at ceremade dot dauphine dot fr) 2 mars 2011
2 2
3 Table des matières Introduction i 0.1 Présentation du cours i 0.2 Les problèmes historiques i 0.3 Vers une formalisation du problème ii 0.4 Références bibliographiques vi I Problèmes stationnaires 1 1 L espace des configurations symétriques, l espace P() et limite de jeux à champ moyen space des configurations symétriques sur N Mesures empiriques et distances dans P() lorsque est un compact Jeux à N joueurs La distance Monge-Kantorovish-Wasserstein dans le cas compact L espace P() pour un espace polonais L espace P(R d ) Complements Notes bibliographiques Fonctions continues sur N et P() Fonctions continues et fonctions polynomiales sur P() Fonctions continues symétriques sur N lorsque N Notes bibliographiques Théorème de Hewitt et Savage et notion de chaos Le théorème de Hewitt-Savage Preuve du théorème de Hewitt-Savage Convergences dans P sym ( N ), N, et Chaos Versions quantifiés du chaos Comparaisons entre différentes mesures du chaos Compléments et questions ouvertes Notes bibliographiques
4 4 TABL DS MATIÈRS 4 ntropies et mesures de Gibbs ntropie de niveau Limite de mesures de Gibbs Information de Fisher, entropie et chaos Notes diverses Notes bibliographiques Calcul différentiel 123 II Problèmes d évolution Modèle de Vlasov Introduction quation de transport linéaire et la méthode des caractéristiques quation de transport non linéaire Mesures empiriques Méthode de couplage Notes bibliographiques Le modèle de McKean-Vlasov Introduction à la méthode de la hiérachie BBGKY et au modèle de Boltzmann-Kac La méthode de dualité 151 A 153 A.1 Un théorème de type Tietze-Urysohn A.2 Le théorème de Stone-Weierstrass A.3 La théorie de Krein-Milman et de Choquet A.4 Le compactifié d Alexandroff A.5 space produit
5 Introduction 0.1 Présentation du cours Ces notes reprennent sous une forme sensiblement plus détaillée des notes d un cours d école doctorale donné en mars 2010 et s appuient également sur des notes d un cours de M2 recherche DPMAD dispensé durant les années scolaires et L objectif de ces notes est double : - Présenter des résultats récents obtenus en collaboration avec M. Hauray, C. Mouhot et B. Wennberg. - Faire une introduction générale aux problèmes de limites de champ moyen en présentant en détail quelques résultats incontournables et en présentant quelques idées et stratégies générales. 0.2 Les problèmes historiques Il existe deux problèmes fondamentaux et difficiles en physique statistique hors équilibre : - Dériver l équation de Boltzmann à partir de la loi fondamentale de la dynamique : c est la limite de Grad (et ce n est pas une limite de champ moyen). Ce problème a été résolu partiellement (pour des temps courts) par Lanford en Dériver l équation de Vlasov-Poisson pour un gaz en intéraction Coulombienne (N particules qui créent un champ de force et le subissent) à partir de la loi fondamentale de la dynamique : c est une limite de champ moyen. Ce problème est résolu pour un potentiel d interaction non singulier par Braun et Hepp en 1977 et pour un potentiel d interaction peu singulier par Hauray et Jabin en 2007, mais il n est pas résolu dans le cas du potentiel Coulombien. Pour contourner ces difficultés, Kac propose en 1956 de regarder un problème beaucoup plus simple : - Déduire l équation de Boltzmann homogène en espace à partir d un processus de sauts collisionnels. C est à nouveau un problème de champ moyen. La question est initialement posée et résolue par Kac pour un modèle simplifié (appelé le modèle de Kac). Cette approche se généralise à l équation de Boltzmann, à l équation de Vlasov (pour un potentiel d interactions régulier) ainsi qu à bien d autres équations (notamment le très populaire modèle de McKean-Vlasov). Le programme de i
6 ii TABL DS MATIÈRS Kac repose sur deux concepts clés que nous introduirons dans le prochain paragraphe et traiterons plus en détail dans la suite du cours : la notion de limite de champ moyen et la notion de chaos (et de propagation du chaos). 0.3 Vers une formalisation du problème On considère un espace d états ou de configurations admissibles. On prendra R d. On considère un système de particules (ou individus/cellules/agrégats,...) dont chaque particule est totalement décrite par sa variable d état y (typiquement ici y est la position de la particule, et on note y = x, ou sa vitesse, et on note y = v, mais on peut imaginer bien d autres situations, en particulier un couple y = (x, v) position-vitesse, une masse y = m 0,... ). Un système de N particules est donc décrit par une variable d état Y = (y 1,..., y N ) N, que l on notera parfois Y = Y N = (y N j ) 1 j N lorsque l on voudra insister sur la dépendance en N. On suppose également le plus souvent que les particules sont indistinguables (échangeables dans la terminologie probabiliste) ce qui signifie qu on ne fait pas de différence entre l état Y et l état Y σ = (y σ(1),..., y σ(n) ) pour toute permutation σ S N = {bijections de {1, 2,..., N}} donnée. Dans ce cas le système est en fait décrit par la classe de Y obtenue par permutation des indices, l espace des états du système est donc N /S N. Le problème à N particules. La configuration du système à N particules est obtenue comme solution d un problème d optimisation (minimisation d une entropie ou problème de minmax, c est un problème stationnaire ou à l équilibre) ou d une équation d évolution (problème hors équilibre) mettant en jeu la variable Y (ou une fonction de densité de la variable Y ). Plus précisément, soit le système est déterministe et est décrit par un point dans l espace des phases Ȳ = solution optimale d un problème stationnaire N (ou N /S N ), Y (t) = solution d un problème d évolution N (ou N /S N ). Soit le système est stochastique et les variables ci-dessus sont aléatoires. Dans ce cas, on peut préferer une description par densité de probabilité qui correspond à la loi de la variables aléatoire précédente, le système est alors décrit par F N = solution optimale d un problème stationnaire P( N ) (ou P sym ( N )), F N (t) = solution d un problème d évolution P( N ) (ou P sym ( N )), où P sym ( N ) est l espace des probabilités symétriques de N, c est à dire invariantes par permutations des indices des variables. Le fait de considérer P sym ( N ) et non pas P( N ) provient de ce que l on suppose que les particules sont indistinguables.
7 TABL DS MATIÈRS iii Il est important de signaler que dans le cas d un problème d évolution, la source d aléas peut provenir : - de la dynamique d évolution elle-même; - de la donnée initiale non connue avec certitude, la dynamique d évolution étant elle déterministe. Question 1 : y a-t-il une limite lorsque N? Une première question est de savoir si on peut identifier une limite lorsque N. Pour que cette question ait un sens il faut d une part que le problème soit observé à la bonne échelle afin que le système (ou plutôt certaines quantités fabriquées à partir de la description complète du système) reste d ordre 1 dans la limite N. Il faut d autre part que l on identifie une limite (c est à dire un objet limite, éventuellement défini comme solution d une équation/d un problème limite). Il est possible d imaginer plusieurs types de limite, et essentiellement trois suivant la précision de l observation souhaitée. - échelle microscopique. On peut souhaiter rester au niveau des particules/individus/ cellules et l espace de configuration limite est alors, c est-à-dire, soit l espace des suites N (ce qui peut être le cas pour des modèles de coalsecence ou de fragmentation d un système de particules decrit par la suite de masses (m i ) i 1, m 1 m 2... m i... 0) soit un espace structuré spatialement du type Zd (ce serait le cas pour un système de particules en interaction et contraint à rester sur un réseau). - échelle mesoscopique/statistique. Souvent lorsqu on s intéresse à un système composé d un nombre très grand de particules ce n est pas tant l état de chaque particule prise individuellement qui nous importe mais bien l état du système globalement (car chaque particule prise individuellement n a qu une action très petite sur le système et son action propre ne peut tout simplement pas être observée). L échelle mésoscopique correspond à l échelle où on s interesse au comportement statistique ou typique des particules, et on répond à la question : quelle chance ai-je de trouver une particule dans un état donné y ou plutôt dans une portion de l espace des états A? - échelle macroscopique. Allons plus loin. Ce qui nous importe vraiment c est comment agir sur un système de particules ou quelle est l action qu exerce celui-ci sur son environnement. Dans les deux cas les quantités pertinentes sont les mêmes et ce sont les observables du systèmes (les quantités que l on peut observer grâce à des appareils de mesure) qui sont obtenues comme moyennes sur la densité de particules : la densité moyenne, la vitesse moyenne, la température,.... Cette distinction entre ces trois échelles est particulièrement pertinente pour les gaz d atomes pour lesquels on peut avoir une description microscopique (la dynamique est donnée par les équations de Newton de la mécanique classique), une description mesoscopique (la dynamique est donnée par les équations cinétiques de Boltzmann ou Vlasov,...), une description macroscopique (la dynamique est donnée par les équations de la mécanique des fluides de uler, Navier-Stokes,...).
8 iv TABL DS MATIÈRS Limite de champ moyen. Nous nous interessons ici uniquement à la deuxième situation ci-dessus. n résumé, on souhaite établir une description statistique du système à partir d une description individuelle des particules et dans la limite où le nombre de particules tend vers l infini. n termes probabilistes, cela correspond à une limite de type loi des grands nombres (LGN). Deux objets permettent de décrire un tel système limite. Le plus simple est une densité de probabilité f P() qui représente la répartition statistique des particules dans le système. De manière un peu plus élaboré, on peut s intéresser à un processus stochastique décrivant une particule typique, et dont la loi correspond à la probabilité f ci-dessus. Pour être plus précis dans la terminologie, nous allons nous intéresser à des limites de champ moyen qui correspondent au cas où l action de chaque particule du système de N particules devient de plus en plus petite lorsque N, mais que l action moyenne des particules est d ordre 1. Comment effectuer une limite N? Un problème majeur réside dans le fait que l espace N ou P( N ) dans lequel vit la solution du problème de N particules change avec N, et est donc a priori différent de l espace dans lequel va vivre sa limite. Rappelons que lorsque le système est déterministe, il est décrit par sa variable d état Y = (y 1,..., y N ) N, ou de manière équivalente lorsque les particules sont indiscernables par la mesure empirique associée µ N Y P(), avec par définition (0.3.1) µ N Y (dy) := 1 N N δ yi (dy) P(). i=1 Dans le cas stochastique le système est décrit pas la variable aléatoire Y N ou la mesure empirique aléatoire assoicée µ N Y P(). n termes de lois, le système est donc décrit par la loi F N P( N ) de la va Y, en fait F N P sym ( N ), ou la loi ˆF N P(P()) de la va µ N Y. Le système limite est quant à lui décrit par une densité typique f P() ou par un état (éventuellement aléatoire) typique Ȳ. Afin d établir la convergence du système de N particules, qui est décrit soit par une suite d états Y N = (y1 N,..., yn N) soit par une suite de densités F N P sym ( N ) ou donc ˆF N P(P()), vers un comportement typique, on peut procéder de différentes manières. (1) On travaille dans P(), et on prouve que µ N Y N f faiblement dans P(). (2) On travaille toujours dans P(), et on prouve qu il existe π 1 P() tel que F1 N := F N dy 2... dy N π 1 faiblement dans P(). N 1
9 TABL DS MATIÈRS v Dans (1) et (2) les quantités µ N Y et F N N 1 représentent la densité de probabilité d une particule du système de N particules de se trouver dans un état donné. Il s avère que la convergence (1) n est envisageable que pour un système déterministe et que nous ne sommes pas toujours capable d identifier la limite avec la seule information (2). On peut alors, comme le fait Kac dans [21], s intéresser à une densité de probabilité des couples de particules du système de N. (2 ) On travaille dans P( 2 ), et on prouve qu il existe π 2 P sym ( 2 ) tel que F2 N := F N dy 3... dy N π 2 faiblement dans P( 2 ). N 2 Là encore l information est souvent trop partielle pour identifier la limite, et nous sommes alors amené à mettre en œuvre l une des stratégies suivantes. (2 ) On travaille dans P( k ), pour tout k N fixé, et on prouve qu il existe π k P sym ( k ) tel que F N k := N k F N dy k+1... dy N π k faiblement dans P( k ). (3) On travaille dans N. Dans le cas déterministe, on prouve que (0.3.2) d 1 (Y N, Ȳ N ) := 1 N N yi N ȳi N 0, i=1 avec ȳ i = ȳ fixé. Dans le cas stochastique, on prouve encore (0.3.2) au sens p.s. ou en espérance, avec Ȳ N = (ȳ 1,..., ȳ N ) un vecteur dont les coordonnées sont des va indépendantes et de loi identique f fixée. n particulier, on prouve W 1 (F N, f N ) (d 1 (Y N, Ȳ N )) 0, où W 1 désigne la distance de Monge-Kantorovich-Wasserstein associée à la distance d 1. On peut également démontrer la variante ( ) ( W 1 (µ N Y, µ N 1 N Ȳ ) := inf N σ S N N N i=1 ) yi N ȳσ(i) N 0, qui peut sembler plus faible, mais ne l est en fait pas pour des particules indistinguables, i.e. lorsque F N P sym ( N ). (4) On travaille dans P(P()), et on prouve qu il existe π P(P()) telle que ˆF N ˆπ faiblement dans P(P()), ou de manière un peu plus précis on travaille dans le cadre des va à valeurs dans P(), le système est décrit par la suite de va µ N Y et on montre qu il N existe une va Ȳ à valeurs dans P() telle que µn Y Ȳ presque sûrement. N
10 vi TABL DS MATIÈRS On ne discutera pas maintenant précisément le sens de ces convergences et des relations entre elles. Faisons toutefois quelques commentaires. A part dans le cas (3), l espace dans lequel on travaille est fixe, on peut donc faire dans ces cas des arguments de compacité et ne pas connaître a priori la limite cherchée f, π k ou π. Les convergences (2 ) (avec π 2 = f 2 ), (2 ) (avec π k = f k ), (3) et (4) (avec ˆπ = δ f) sont équivalentes et impliquent les convergences (1) et (2), ces deux dernières convergences étant équivalentes. La convergence (1) (et (2) avec k = 1) répond bien à la question 1 : la distribution moyenne des N particules converge vers une distribution typique. Question 2 : a-t-on le chaos ou la propagation du chaos? On dit qu une suite Y = Y N N de va est chaotique, ou plus précisément f-chaotique avec f P(), si sa loi F N satisfait (0.3.3) k N F N k f k faiblement dans P( k ). Cela est exactement la convergence (2 ) avec π k = f k pour tout k 1 et c est une formulation précise de l idée vague selon laquelle Y N est asymptotiquement proche d une va de coordonnées indépendantes lorsque N ou dit autrement est presque une va de coordonnées indépendantes dans l asymptotique N. De la même façon, on dit que F N P sym ( N ) est f-chaotique si (0.3.3) a lieu. Une deuxième question est alors de savoir si dans le cas d un problème stationnaire F N (ou Y N ) est f-chaotique (chaos), ou si dans le cas d un problème d évolution F N (0) (ou Y N (0)) est f(0)-chaotique entraîne que F N (t) (ou Y N (t)) est f(t)-chaotique pour tout t 0 (propagation du chaos). Plusieurs remarques s imposent : - La question de la chaoticité est plus exigeante et subtile que celle d une simple limite de champ moyen puisque (0.3.3) implique en particulier (1) et (2). - Il est important de retenir que dès que le système à N particules est en interaction, la dynamique d une particule donnée est toujours corrélée / n est jamais indépendante à celle des autres particules, ce phénomène d indépendance (qu est le chaos) n est donc valable qu à la limite. - Soulignons également que pour certains problèmes (par exemple dans le cas du problème de Boltzmann) on doit répondre à la deuxième question (limite chaotique) pour répondre à la première question (équation sur la loi d une particule typique) : on ne sait démontrer (2) avec k = 1 qu en passant par la preuve préalable de (0.3.3). 0.4 Références bibliographiques Ci-dessous nous présentons une liste de références, classées grosso-modo par ordre chronologique, et qui nous paraissent particulièrement importantes. Cette liste ne prétend pas être exhaustive et d autres références seront présentées à la fin de chaque chapitre.
11 TABL DS MATIÈRS vii - Dans un article fameux de 1955, Hewitt et Savage [19] résolvent dans une très grande généralité une question centrale en probabilité et qui remonte au moins à Bruno de Finetti (1931), à savoir la représentation des suites de mesures symétriques et compatibles (correspondant à des suites de variables aléatoires échangeables) comme moyennes de mesures produits. Nous consacrons le début du chapitre 3 à ce problème en présentant la preuve historique de Hewitt et Savage (qui repose sur le théorème de Krein-Milman) ainsi qu une preuve récente due à P.-L. Lions [23] (qui repose sur le théorème de Stone-Weierstrass et un lemme combinatoire qui apparaît (pour la première fois?) dans l article de F. A. Grünbaum [17] de 1971). - L article de Kac [21] de 1956 est incontournable car c est l article dans lequel est formalisée la notion de propagation du chaos et est l article pionnier concernant la limite vers une équation de la dynamique typique. Par son style précis et direct et par les questions fondamentales qu il pose, cet article reste d une grande actualité. Nous en recommandons donc vivement la lecture. n quelques mots. Kac introduit la notion de propagation du chaos que nous traitons en détails dans le chapitre 3 et introduit une méthode ingénieuse que nous décrivons succinctement dans le chapitre 8. Son résultat principal de propagation du chaos pour l équation de Boltzmann (il traite un modèle simplifié connu sous le nom de caricature de Kac ) sera démontré dans le chapitre 8 par une première méthode dite de la hiérarchie BBGKY et dans le chapitre 9 par une autre méthode obtenue dans [33] en développant une idée introduite dans [17]. nfin, il pose la question du retour exponentiel vers l équilibre pour le système de N particules avec un taux uniforme en N et la possibilité d en déduire un retour exponentiel vers l équilibre pour l équation limite de Boltzmann. Cette question sera brièvement discutée dans le chapitre??. - Dans un article de D.W. Robinson et D. Ruelle [39] datant de 1967 (puis dans le livre de D. Ruelle [40]) la notion d entropie moyenne pour un système composé d une infinité de particules est correctement définie et est étudiée. C est un outil fondamental en physique statistique, en particulier dans l étude de problèmes stationnaires et dans l identification de la limite des mesures de Gibbs associées à un système de N particules à l équilibre. La lecture de [39] est un peu ardue et son cadre est un peu différent de celui développé ici. C est pourquoi nous présentons dans le chapitre 4 la notion d entropie moyenne, quelques résultats de convergence reliés à cette notion et une application simple à un problème de limite des mesures de Gibbs (cf. ci-dessous). - L article de F.A. Grünbaum [17] de 1971 nous semble être absolument fondamental. F.A. Grünbaum annonce un résultat de propagation du chaos pour le modèle de Boltzmann avec section efficace des sphères dures mais il ne présente qu une preuve partielle comme il le confesse lui-même. La preuve repose sur une hypothèse de régularité, en fait de dépendance régulière par rapport à la donnée initiale, non prouvée à l époque, et en fait fausse en l état (il existe des contre-exemples à l unicité dus à Lu et Wennberg [24] qui empèche la dépendance régulière supposée dans [17]). Toutefois l hypothèse de régularité peut être assouplie et démontrée, et le résultat annoncé dans [17] peut même être précisé et généralisé. C est l objet de nos articles
12 viii TABL DS MATIÈRS [33] et [32] en collaboration avec C. Mouhot et B. Wennberg. La preuve (présentée dans un cadre simplifié) fait l objet du chapitre 9. - Les travaux de H. Spohn à partir de la fin des années 1970 sont nombreux et font références. H. Spohn aborde dans [41] la question générale des limites N pour un système de particules, dont la limite dite de champ moyen étudiée dans ces notes n est qu une des limites possibles. Concernant ce vaste programme de la physique statistique nous renvoyons donc à [41] ainsi qu au livre [43]. Citons également l article [42] sur la hierarchie BBGKY pour l équation de Vlasov. Ce type d approche sera présentée dans le chapitre 8. Citons enfin l article de Messer et Spohn [31] concernant la limite de mesures de Gibbs qui sera présentée (sous une forme légèrement différente permettant d inclure des modèles singuliers comme ceux étudiés par Caglioti, Lions, Marchioro et Pulvirenti [6, 7]) dans le chapitre 4. - Il existe de nombreux articles de A.S. Sznitman au cours des années 1980 concernant la propagation du chaos. Certainement le résultat le plus important est celui de propagation du chaos pour l équation de Boltzmann avec section efficace des sphères dures qu il obtient en utilisant une technique de martingale non linéaire [44]. Son cours à l cole d été de Saint-Flour est également une référence obligée [45]. Les notes de Méléard [30] sur le même sujet sont particulièrement claires. - Un article qui nous semble grandement mériter d être cité est l article de L. Arkeryd, S. Caprino et N. Ianiro [2] de 1991 qui traite de l unicité de la solution de la hierarchie BBGKY associée à l équation de Boltzmann pour la section efficace des sphères dures. L article est particulièrement agréable à lire et le résultat obtenu permet d obtenir immédiatement (bien que cela ne soit étrangement pas mentionné) la propagation du chaos pour l équation de Boltzmann pour les sphères dures. C est donc la première preuve alternative (beaucoup plus simple et n utilisant pas d argument probabiliste) du résultat de Sznitmann. Ce résultat sera présenté dans le chapitre 8. - Le livre [38] de Rachev et Rüschendorf (1998) porte sur les problèmes de transfert de masse et sur les métriques dans l espace des probabilités. Une preuve quantitative de chaoticité au sens de la distance W 2 est démontrée. Nous abordons cette question dans le chapitre 3 et nous apportons une preuve alternative tirée de [32]. Une série de résultats concernant l équivalence des distances construites sur l espace des probabilités P(R d ) est présentée dans [38]. Cette question est également abordée dans les très agréables notes [10] de Carrillo, Toscani (2007). Nous présenterons quelques résultats dans ce sens dans le chapitre 1. - Nous renvoyons aux notes de cours de DA [48] de Villani de l année scolaire qui propose un exposé très pédagogique et clair sur ce même sujet des limites de champ moyen. Le livre [50] de Villani contient une très agréable introduction à la théorie du transport optimal ainsi que quelques exemples d applications. n particulier, tous les théorèmes concernant les distances de transport de Monge- Kantorovich-Wasserstein que nous utilisons dans ce cours y sont démontrés. Pour ceux qui veulent en savoir encore plus, consulter [51]. Deux articles peuvent être mentionnés concernant la question du retour vers l équilibre dans un système de N
13 TABL DS MATIÈRS ix particules uniformément en N. n premier lieu, l article de C. Villani [49] qui quantifie ce retour (pour la première fois?) en termes d entropie (qui se trouve être la bonne notion pour espérer un passage N ) et qui est également un des résultats les plus élégant de l auteur et des plus importants concernant la question du retour vers l équilibre pour l équation de Boltzmann. Pour une discussion plus approfondie sur cette question de Kac (et quelques autres) nous renvoyons à l article récent [8] et aux références cités dans cet article. - n 2007, Hauray et Jabin ont obtenu dans [18] une preuve de la limite de champ moyen vers l équation de Vlasov pour un potentiel singulier (sans traiter toutefois le cas du potentiel Coulombien!). Nous n aborderons pas ce résultat dans ces notes, mais nous en recommandons la lecture puisqu il s agit du résultat le plus abouti à ce jour sur ce problème majeur. - Les cours [23] de P.-L. Lions au collège de France des automne-hivers 2008 et 2009 ont été consacrés aux problèmes de limites de jeux à champ moyen. La video de ces cours est accessibles en ligne sur internet. Le présent texte est fortement inspiré de [23]. n particulier la limite de jeux à champ moyen présentée dans le chapitre 1 et la preuve du théorème de Hewitt & Savage présentée dans le chapitre 3 sont tirées de [23]. Notons également que ce cours aborde le problème (encore peu étudié) de définir un calcul différentiel à l ordre 1, 2, et plus. - Le livre de L. Ambrosio, N. Gigli et G. Savaré [?] développe (entre autres choses et à la suite de travaux de F. Otto, W. Gangbo, C. Villani,...) un calcul différentiel dans les espaces de probabilité. Nous aborderons ce problème sous un angle un peu différent dans le chapitre 9, et nous montrerons comment les fonctions différentiables sur les espaces de probabilité interviennent dans le problèmes de limite de champ moyen. - nfin, de nombreuses questions relatives aux limites de champ moyen ne sont pas abordées dans ces notes. Pour en citer quelques unes : la question de la propagation du chaos et de la limite à grand nombre de particules en physique quantique stationnaire (cf. les travaux de Lieb et les références citées), en physique quantique hors équilibre (cf. les travaux récents de Schlein et les références citées), pour les modèles de coagulation (cf. les travaux récents de Rezakhanlou et les références citées), pour les problèmes de vortex (cf. les travaux de Pulvirenti et les références citées), pour des modèle de dynamique adaptative (cf. les travaux récents de Méléard et les références citées),....
14 x TABL DS MATIÈRS
15 Première partie Problèmes stationnaires 1
16
17 Chapitre 1 L espace des configurations symétriques, l espace P() et limite de jeux à champ moyen Dans ce chapitre, étant donné un espace métrique (, d ), nous introduisons les notions et résultats utiles dans les prochains chapitres (et seulement ceux-là) concernant les espaces P() en traitant successivement le cas compact, le cas espace polonais et le cas = R d. Nous donnons également un premier exemple de limite de champ moyen dans le cadre d un problème de jeux à N joueurs. 1.1 space des configurations symétriques sur N. Soit un espace métrique. Pour N N et p [0, ] on définit dans N la distance d p de la manière suivante. Pour tout X = (x 1,..., x N ), Y = (y 1,..., y N ) N, on pose d 0 (X, Y ) := inf{ε > 0; {i, d (x i, y i ) > ε} < N ε}, ( ) 1/p 1 N d p (X, Y ) := d (x i, y i ) p si 0 < p <, p := max(1, p), N d (X, Y ) := i=1 max d (x i, y i ). 1 i N Lemme Les fonctions d p : N N R + sont effectivement des distances et pour tout N 1 et tout 0 < q 1 p <, on a d 2 0 d 1 d p d et d q d q 1. De plus, lorsque p (1, ) et diam() <, on a d p diam() 1/p d 1/p 1 et d p (d p 0 + diam() p d 0 ) 1/p. 3
18 4 Preuve du Lemme tape 1. Le cas 1 p <. D une part, par l inégalité de Hölder associée à la mesure discrète et uniforme sur {1,..., N}, on a d 1 (X, Y ) = 1 N ( N N ) 1/p ( d (x i, y i ) d (x i, y i ) p 1 N ) 1/p 1 N N i=1 i=1 i=1 = d p (X, Y ). D autre part, on a d p (X, Y ) p = 1 N N d (x i, y i ) p diam() p 1 1 N i=1 N d (x i, y i ). i=1 tape 2. Le cas 0 < q < 1. De la même manière, en notant r := 1/q, on a d q (X, Y ) = 1 N ( N N ) 1/r ( d (x i, y i ) q d (x i, y i ) 1 N ) 1/r 1 N N i=1 i=1 i=1 = d 1 (X, Y ) q. tape 3. La distance d 0. Commençons par démontrer que pour tout X, Y N (1.1.1) {i, x i y i > d 0 (X, Y )} N d 0 (X, Y ). Par définition de d 0, pour tout η > 0, on a puisque ε, ε 0, ε > ε, {i, x i y i > d 0 (X, Y ) + η} < N (d 0 (X, Y ) + η), {i, x i y i > ε} < N ε = {i, x i y i > ε } < N ε. Comme le terme de gauche dans l inégalité où intervient η est constant pour tout η [0, η X,Y,ε ), avec η X,Y,ε > 0, on obtient (1.1.1) en passant à la limite η 0. De (1.1.1) on tire en particulier que d 0 (X, Y ) = 0 implique X = Y. Inversement, montrons que pour tout ε 0, on a (1.1.2) {i, x i y i > ε} N ε implique d 0 (X, Y ) ε. A nouveau, il existe η X,Y,ε > 0 tel que pour tout η (0, η X,Y,ε ) {i, x i y i > ε + η} = {i, x i y i > ε} N ε < N (ε + η). Par définition, on en déduit d 0 (X, Y ) ε + η, et on conclut en passant à la limite η 0. n combinant (1.1.1) et (1.1.2) on obtient Soit maintenant X, Y, Z N. Si d 0 (X, Y ) = inf{ε > 0; {i, x i y i > ε} N ε}. x i z i > d 0 (X, Y ) + d 0 (Y, Z) =: ε, alors x i y i + y i z i > d 0 (X, Y )+d 0 (Y, Z), et donc soit x i y i > d 0 (X, Y ) soit y i z i > d 0 (Y, Z). Ainsi {i; x i z i > ε} {i; x i y i > d 0 (X, Y )} + {i; y i z i > d 0 (Y, Z)} N (d 0 (X, Y ) + d 0 (Y, Z)) = N ε,
19 5 ce qui implique d 0 (X, Z) ε. On vient de démontrer l inégalité triangulaire et cela termine la preuve du fait que d 0 est bien une distance. Considérons X, Y N et posons k := A, A := {i; x i y i d 0 (X, Y )}. Par définition de d 0 (X, Y ), pour tout ε (0, ε X,Y ), on a k = {i; x i y i > d 0 (X, Y ) ε} N (d 0 (X, Y ) ε) et en passant à la limite ε 0 il vient k N d 0 (X, Y ). On en déduit nfin, d 1 (X, Y ) = 1 N d p p (X, Y ) = N x i y i 1 x i y i k N N d 0(X, Y ) (d 0 (X, Y )) 2. i=1 i A 1 N x i y i p + 1 N i; x i y i d 0(X,Y ) x i y i p i; x i y i >d 0(X,Y ) d 0 (X, Y ) p + 1 N {i; x i y i > d 0 (X, Y )} diam() p, et on conclut grâce à l inégalité (1.1.1). xercice Compléter la preuve du Lemme. Compléter le lemme afin de traiter tous les exposants 0 < q < p < dans les deux inégalités. tablir la deuxième inégalité en remplaçant la condition diam() < par une condition de moment sur les configurations. On introduit S N le groupe des permutations d un ensemble à N éléments (i.e. l ensemble des bijections de {1,..., N} dans lui-même) et N /S N l ensemble des configurations de N indistinguables par permutation. On note X, Y N /S N les classes d équivalences de N par la relation d équivalence d égalité par permutation. Pour X = (x i ) N, X X et Y = (y i ) N, Y Y on a donc X = Y ssi X Y ssi σ S N X = Y σ, où (y σ ) i := y σ(i) i = 1,..., N. Étant donnée une distance d dans N symétrique par permutation, i.e. telle que on définit ainsi que d(x, Y ) = d(x σ, Y σ ) X, Y N, σ S N, X, Y N d(x, Y ) = min X X, Y Y d(x, Y ) = min σ S N d(x, Y σ ), X, Y N /S N d(x, Y) = d(x, Y ) pour un couple (X, Y ) X Y, la quantité de droite ne dépendant pas (par construction) du choix de ce couple. Lemme La fonction d ne définit pas une distance sur N (si N 2!) mais vérifie l inégalité triangulaire. La fonction d définit bien une distance sur N /S N. De plus, si d 1 C d 2 alors d 1 C d 2.
20 6 Preuve du Lemme Soient X, Y, Z N et σ i S N tels que d(x, Y σ1 ) = d(x, Y ), d(y, Z σ2 ) = d(y, Z), de sorte que d(x, Z) d(x, Z σ2 σ 1 ) d(x, Y σ1 ) + d(y σ1, Z σ2 σ 1 ) = d(x, Y ) + d(y, Z). Cette inégalité triangulaire dans N implique la même inégalité triangulaire dans N /S N. De plus, si d(x, Y) = 0 pour X, Y N, cela implique bien qu il existe X X, Y Y et σ S N tels que 0 = d(x, Y) = d(x, Y σ ), soit donc X = Y σ, X Y et X = Y. Définition Avec les notations des Lemmes et 1.1.3, on note soit plus explicitement pour X, Y N w p (X, Y ) := w p = d p, 0 < p, w LP = d 0, inf σ S N ( 1 N ) 1/p N [d (x i, y σ(i) )] p, i=1 w LP (X, Y ) := inf{ε > 0; σ S N / {i, x i y σ(i) > ε} < N ε}, et on appelle distance de Monge-Kantorovich-Wasserstein (MKW) la fonction w p ainsi définie sur N et N /S N, et distance de Levy-Prokorov la fonction w LP ainsi définie sur N et N /S N. On note également w 0 = w LP. 1.2 Mesures empiriques et distances dans P() lorsque est un compact. Dans cette section nous supposerons toujours (sauf mention explicite du contraire) que R d est un compact. Commençons par définir l application canonique mesure empirique qui est l objet fondamental permettant de passer de la suite d espaces N à l espace fixe P() P N (). Définition Soit un espace polonais (ou juste mesurable). tant donnée la variable/l état X = (x 1,..., x n ) N, on définit la mesure empirique µ N X P() associée par µ N X (dx) := 1 N δ xi (dx) P(). N i=1 On définit ainsi une application Π N : N P(). Mieux, en notant P N () l ensemble des mesures empiriques de la forme ci-dessus (N masses de Dirac de poids 1/N), on définit une application bijective Π N : N /S N P N (), X µ N X.
21 On munit P() d une distance D métrisant sa topologie/convergence faible. On va voir dans cette section que Π N est alors un homéomorphisme de (N /S N, w p ) dans (P N (), D). C est même une isométrie lorsque P N () est muni d une distance de transport convenable, ce que nous verrons dans la section 1.4. Nous allons donc maintenant rappeler la définition de l espace P(), exhiber deux distances sur P() et établir quelques propriétés de P(). L espace P(). On définit l espace M 1 () des mesures de Radon sur comme étant l espace dual de l espace C() des fonctions continues muni de la norme de la convergence uniforme, on note M 1 () = (C()). Comme C() est un espace de Banach, M 1 () est également un espace de Banach lorsqu il est muni de la norme duale de la variation totale Λ M 1 () Λ TV := sup Λ, ϕ. ϕ C(), ϕ 1 De plus, pour tout Λ M 1 () il existe une unique décomposition Λ = Λ + Λ, Λ ± 0, Λ TV = Λ + TV + Λ TV, où la positivité Λ ± 0 signifie que ϕ C(), ϕ 0, implique Λ, ϕ 0. On note M+ 1 () le cône des mesures de Radon positives. D autre part, on définit l ensemble M+ 1 () des mesures de Borel positives finies sur comme l ensemble des fonctions d ensemble σ-additives sur la tribu B à valeurs dans R +. Soit donc µ M+() 1 si µ : B R +, µ( ) = 0 et pour toute famille (A i ) i I finie ou dénombrable de B deux à deux disjointes A i A j si i, j I et i j, on a ( ) µ A i = µ(a i ). i I i I A une telle mesure µ M+(), 1 on peut associer une intégrale de Lebesgue définie pour les fonctions mesurables et positives, pour toutes les fonctions intégrables et donc, en particulier, pour toutes les fonctions continues (et bornées). On définit ainsi I µ : C() R, ϕ I µ (ϕ) = I µ, ϕ := ϕ dµ = ϕ(x) µ(dx). L application I µ est linéaire, positive et bornée, c est donc un élément de M+(), 1 et I µ TV = sup ϕ dµ = dµ = µ(). ϕ C(), ϕ 1 Théorème (Riesz-Markov) Lorsque est compact, on a la réciproque : pour tout Λ M+ 1 () il existe un unique ρ M + 1 () tel que 7 ϕ C(), Λ, ϕ = I ρ (ϕ). Ainsi, l application M 1 + () M1 + (), ρ I ρ, est bijective et on peut identifier M 1 + () et M 1 + (). On note désormais I ρ = ρ.
22 8 De la même manière on caractérise l ensemble des mesures de probabilités grâce aux deux définitions équivalentes suivantes P() = {Λ M 1 +(), Λ, 1 = 1} = {µ M 1 +(), µ() = 1}. n définissant M 1 () l ensemble des mesures de Borel signées par M 1 () = {µ + µ, µ ± M 1 + ()}, on généralise la notion d intégrale en posant I µ (f) = f(x) µ(dx) := f(x) µ + (dx) f(x) µ (dx) pour toute fonction f L 1 (, B, µ ) où µ = µ + + µ est une mesure de Borel positive. Grâce à la décomposition des mesures de Radon en différence de mesures de Radon positives et grâce au théorème de Riesz-Markov on a également que l application M 1 () M 1 (), ρ I ρ, est bijective et on peut identifier M 1 () et M 1 (). On note toujours I ρ = ρ. Ainsi, on a ρ M 1 () ρ () = ρ TV := sup ϕ dρ ϕ C(), ϕ 1 := inf{µ + () + µ (); µ ± 0, µ + µ = ρ} où donc ici ρ = ρ + + ρ avec ρ ± est la décomposition de Hahn de ρ obtenue en choisissant ρ ± 0 étrangères ( A tel que ρ + (A) = 0 et ρ (\A) = 0) dans la classe des mesures η ± 0 vérifiant ρ = η + η. Convergence faible dans P(). Lorsque est compact, on dit qu une suite (µ n ) de P() converge faiblement vers µ P(), on note µ n µ, si ϕ C() ϕ dµ n ϕ dµ. Il s agit bien sûr ici de la (trace sur P() de la) convergence faible σ(m 1 (), C()). Théorème (Banach-Alaoglu pour P()). On suppose compact. L ensemble P() est séquentiellement compact au sens de la convergence faible. Preuve du théorème de Banach-Alaoglu pour P(). Soit (µ n ) une suite de P(). D une part C() est séparable et on note (ϕ k ) une famille dénombrable et dense dans C(). Alors, par compacité de [ ϕ k, ϕ k ] pour tout k N et par le procédé de Cantor d extraction d une sous-suite diagonale, il existe une sous-suite (µ n ) et une suite λ k R telles que µ n, ϕ k λ k lorsque n. Maintenant pour tout ϕ C(), on obtient également qu il existe λ ϕ R tel que µ n, ϕ λ ϕ lorsque n en approchant ϕ par une suite (ϕ k ). On constante que l application Λ : C() R, Λ(ϕ) = λ ϕ est linéaire et positive (donc continue) et Λ(1) = 1. Par le théorème de Riesz-Markov c est une mesure de probabilité.
23 Théorème (Krein-Milman pour les mesures). On suppose compact. Les combinaisons convexes de masses de Dirac sont denses au sens de la convergence faible. n d autres termes et plus précisément, (P N ()) N 1 est dense dans P(). Preuve 1 du théorème Les masses de Dirac sont les points extrémaux 1 de P(). n effet, si δ a = t µ + (1 t) ν, avec a, t (0, 1), µ, ν P() alors nécessairement supp µ = supp ν = {a}, et donc µ = ν = δ a. Inversement, si µ P() et µ n est pas une masse de Dirac, alors il existe ϕ C(), 0 ϕ 1 telle que µ(ϕ) > 0 et µ(1 ϕ) > 0, de sorte que l on peut écrire µ sous la forme d une combinaison convexe µ = µ(ϕ) ([µ(ϕ)] 1 ϕ µ) + (1 µ(ϕ)) ([µ(1 ϕ)] 1 (1 ϕ) µ), et donc µ n est pas un point extrémal. Il suffit alors d appliquer le Théorème A.3.5 de Krein-Milman. Preuve 2 du théorème Comme est compact, pour tout k, il existe N k N et (x k i ) 1 i N k une suite de tels que B(x k i, 1/k), puis il existe une suite (ϕk i ) de partitions de l unité dans C() associée au recouvrement par les B(x k i, 1/k). Plus précisément, il existe ϕ k i C(), 1 i N k, telles que supp ϕ k i B(x k i, 1/k), 0 ϕ k i 1 et N k i=1 ϕk i = 1. Pour construire de telles fonctions dans le cas R d (dans le cas général consulter un cours de topologie) on choisit N k et (x k i ) 1 i N k tels que de plus B(x k i, 1/(2k)), on considère un noyau de convolution 0 γ C(Rd ), supp γ B(0, 1), γ = 1, on note γ ε (x) = ε d γ(x/ε) et on définit On pose maintenant ϕ k i := Pour tout ψ C() on a alors φ k i Nk, φ k j=1 φk j = 1 B(x k i,1/(2k)) γ 1/(2k). j N k µ k := µ(ϕ k i ) δ x. k i i=1 N k µ k, ψ = µ(ϕ k i ) ψ(xk i ) = µ, N k ψk avec ψ k := ψ(x k i ) ϕk i. i=1 Or, pour tout x, on a ψ(x) ψ k (x) N k = (ψ(x) ψ(x k i )) ϕ k i (x) i=1 N k i=1 i=1 sup ψ ψ(x k i ) L (B(x k i 1 i N,1/k)) ϕ k i (x) ω(1/k) 0 k 1 voir la Définition A.3.3 pour la définition d un point extrémal 9
24 10 lorsque k, où ω désigne un module de continuité de ψ, i.e. ω C(R + ), ω(s) > 0 si s 0. On en déduit bien que µ k, ψ µ, ψ. Pour établir la densité de (P N ()) N 1 dans P() il suffit enfin d approcher µ k par un élément µ k,n de P N () en remplaçant les coefficients µ(ϕ k i ) par [N µ(ϕk i )]/N pour tout 2 i N et en remplaçant le coefficient µ(ϕ k 1) par ce qu il faut de sorte que µ k,n soit de masse 1. Distances sur P(). L objectif est maintenant de définir deux métriques sur P() telles que la notion de convergence associée soit la convergence faible définie plus haut. On note Lip() l espace des fonctions Lipschitziennes sur et Lip 1 () l espace des fonctions Lipschitziennes sur de constante de Lipschitz inférieure à 1 : ϕ Lip 1 () si, et seulement si, ϕ(y) ϕ(x) d (x, y) x, y. On note M0 1 () le sous-espace (fermé) des mesures de Radon de masse nulle : µ M0 1 () si, et seulement si, µ M1 () et dµ = 0. Lemme (i) Pour tout µ M0 1 () on définit { } µ KR := sup ϕ dµ; ϕ Lip 1 (). L application µ µ KR est une norme sur M0 1 (), appelée norme de Kantorovich- Rubinstein, et donc l application P() P() R +, (µ, ν) D KR (µ, ν) := µ ν KR définit une distance sur P(). (ii) Soit R > 0 tel que B(0, R). Pour tout µ M0 1 () on a (iii) Pour tout X, Y N on a µ KR R µ TV. (1.2.3) µ N X µ N Y KR w 1 (X, Y ). Preuve du lemme La vérification de (i) ne pose pas de difficulté dès que l on sait que Lip() est dense dans C(). Lorsque R d on peut procéder par régularisation par convolution. Dans le cas général, on utilise le théorème A.2.2 de Stone-Weierstrass. (ii) On écrit pour tout ϕ Lip 1 () ϕ dµ = (ϕ(x) ϕ(0)) (µ + (dx) µ (dx)) x (µ + (dx) + µ (dx)) R µ (), et on prend le suprémum en ϕ.
25 11 (iii) Pour tout ϕ Lip 1 () et σ S N on a µ N X µn Y, ϕ = 1 N (ϕ(x i ) ϕ(y σ(i) )) N 1 N x i y σ(i) i=1 d où on déduit (1.2.3) en prenant le minimum en σ et le suprémum en ϕ. Lemme (i) tant donnée une suite (ϕ k ) dense dans C() et une suite (a k ) de réels strictement positifs telle que la série ((a k ϕ k )) converge, l application D(µ, ν) := a k µ ν, ϕ k k=1 définit une distance sur P(). (ii) De même, si de plus (ϕ k ) est une suite de Lip() et si la série ((a k ϕ k )) converge et est de somme A, alors l application D définie ci-dessus est encore une distance, et de plus µ, ν P() D(µ, ν) A µ ν KR. Preuve du Lemme Traitons seulement (ii), le point (i) se traitant de la même manière. D une part, puisque µ ν M 1 0 () et en fixant x 0, on a D(µ, ν) = k=1 a k ϕ k µ ν, ϕ k ϕ k (x 0 ) ϕ k a k ϕ k µ ν KR. k=1 D autre part, pour montrer que D est une distance, le seul point qui mérite d être détaillé est l implication D(µ, ν) = 0 entraîne µ = ν. Or sous cette hypothèse, on a µ ν, ϕ k = 0 pour tout k, et si ϕ C() est une fonction quelconque, il existe une sous-suite (ϕ kj ) qui converge uniformément vers ϕ et donc également µ ν, ϕ = lim µ ν, ϕ kj = 0. Théorème Pour toute suite (µ n ) de P() et tout µ P(), il y a équivalence entre (i) D(µ n, µ) 0 lorsque n (pour une distance définie comme au lemme 1.2.9); (ii) µ n µ KR 0 lorsque n ; (iii) µ n µ au sens de la convergence faible lorsque n. Preuve du théorème On procède en plusieurs étapes. tape 1. (i) (iii) (très classique). Si D(µ n, µ) 0 alors ϕ k, µ n µ 0 k. Pour ϕ C() quelconque, pour tout ε > 0 et en prenant k tel que ϕ ϕ k < ε, on a lim sup n ϕ, µ n µ sup µ n µ TV ϕ ϕ k + lim ϕ k, µ n µ 2ε, n n
26 12 puisque µ n µ TV µ n TV + µ TV = µ n () + µ() = 2. Ainsi µ n µ faiblement. Réciproquement, supposons que µ n µ faiblement. Pour ε > 0 fixons K tel que a k 2 ϕ k ε, K+1 puis N de sorte que a k ϕ k, µ n µ ε/k pour n N et k = 1,..., K, alors pour tout n N D(µ n, µ) sup a k µ µ n, ϕ k + k=1,...,k k=k+1 a k µ µ n, ϕ k 2ε. tape 2. (ii) (iii). Supposons (ii). Pour tout ϕ Lip() on a ϕ d(µ n µ) ϕ Lip µ n µ KR 0 lorsque k 0. Par densité Lip() C() on en déduit (iii). tape 3. (iii) (ii). Supposons (iii) et que, par l absurde, on n ait pas (ii) : ε > 0 et une sous-suite de (µ n ), toujours notée (µ n ), telle que k ϕ n Lip(), ϕ n Lip 1 ϕ n d(µ n µ) ε. Par le théorème d Ascoli, il existe une sous-suite de (ϕ n ), toujours notée (ϕ n ), et ϕ C() telles que ϕ n ϕ uniformément. On a alors lim inf ϕ d(µ n µ) = = lim (ϕ ϕ n ) d(µ n µ) + lim inf ϕ n d(µ n µ) 0 + ε > 0, ce qui contredit la convergence µ n µ. 1.3 Jeux à N joueurs Soit un sous ensemble compact convexe de R d. On considère N joueurs. Le ième joueur est représenté par la variable y i (qui correspond à son état ), les N joueurs sont décrits par le vecteur Y = (y 1,..., y N ) N. Chaque joueur souhaite optimiser un coût ou sa satisfaction ou son utilité (...), sachant que les ressources sont données pour le système et donc que sa satisfaction dépend de celles des autres joueurs. Mathématiquement, on associe au ième joueur une fonction de coût F i = F i (Y ) : N R.
27 Problème de Nash. Il s agit de trouver un équilibre de Nash (ou équilibre non coopératif) X = (x 1,..., x N ) N tel que pour tout i = 1,..., N le point x i soit un point de minimum de la fonction On note également cela y F i (x 1,..., x i 1, y, x i+1,..., x N ). x i argminf i (., X i ), où pour Y = (y 1,..., y N ) N on note Y i := (y 1,..., y i 1, y i+1,..., y N ) N 1 et F i (y, Y i ) = F i (y 1,..., y i 1, y, y i+1,..., y N ). Théorème (de Nash). Supposons que F i (., Y i ) est une fonction convexe continue sur pour tout i {1,..., N} et tout vecteur Y i N 1. Alors le problème de Nash possède au moins un équilibre de Nash X. Preuve du Théorème tape 1. Supposons dans un premier temps que les fonctions y F i (y, Y i ) sont strictement convexes pour tout i et tout Y i. Alors, pour tout Y N il existe un unique Z = (z 1,..., z N ) N tel que F i (z i, Y i ) = min z F i(z, Y i ) ou encore z i = argmin F i (., Y i ). On définit ainsi une application Φ : N N, Y Z. A cause de l unicité de la solution des problèmes de minimisation (rappelons qu ici les fonctions coût sont strictement convexes), on voit que Φ est continue. n effet, si Y ε Y, on a Z ε = Φ(Y ε ) N appartient à un compact, et on peut en extraire une sous-suite Z ε qui converge vers une limite Z dans N. Par continuité des fonctions F i, on a F i (z i, Y i ) = lim F i (z ε i, Y ε i ) lim F i (z, Y ε i ) = F i (z, Y i ) z. Donc z i = argmin F i (., Y i ) = (Φ(Y )) i. Par le lemme d unicité de la limite c est toute la suite Z ε = Φ(Y ε ) qui converge vers Z = Φ(Y ). Le théorème de Brouwer affirme que Φ : N N possède au moins un point fixe X N, Φ(X) = X. t c est précisément ce qu il fallait démontrer. tape 2. Dans le cas où F i n est que convexe, on introduit la famille de fonctions strictement convexes Fi ε (Y ) = F i (Y )+ε Y 2. La première étape implique qu il existe un équilibre de Nash X ε, dont on peut extraire une sous-suite encore notée (X ε ) qui converge vers une limite X N. Ainsi F i (x i, X i ) = lim F i (x ε i, Xε i ) = lim F i ε (xε i, Xε i ) lim Fi ε (y, Xε i ) = F i(y, X i ) y, 13 et cela prouve que X est un point de Nash pour la famille des F i. La limite lorsque N On fait maintenant les hypothèses :
28 14 1) - les joueurs sont indistinguables; 2) - étant donné un joueur, la dépendance de l action de chacun des autres joueurs sur celui-ci est faible. Cela se traduit mathématiquement par le fait que si on considère N joueurs dont la ième fonction d utilitée est notée Fi N on a (1.3.4) Y N F N i (Y ) = F N (y i, Y i ) = F N ( y i, µ N 1 Y i ). Pour simplifier, on supposera désormais qu il existe une fonction fixe F = F(y, m) C( P()) telle que Fi N (Y ) = F(y i, µ N 1 Y i ). Il convient de noter que comme et donc P() sont compacts, il existe un module de continuité ω tel que F(y, f) F(z, g) ω( x y + f g KR ) y, z, f, g P(). xemple Typiquement on a en tête une fonction de la forme F(y, m) = F 0 (y) + F 1 (y, m), F 1 (y, m) = f((a m)(y)) avec f(t) = c t α, α > 0, et c > 0 (aversion pour la position dominante), c < 0 (préférence pour la position dominante). Attention, pour que le théorème s applique on doit imposer quelques restrictions aux fonctions F 0, a et f. On peut, par exemple, supposer que F 0, a et f sont convexes et que f est croissante (ce qui correspond à une situation d aversion pour la position dominante). Définition Soit F C( P()). On dit que m P() est solution du problème de jeux à champs moyens associé à F (ou que m est un équilibre de Nash pour F) si (1.3.5) suppm argminf(, m). Théorème Soit X N = (x N 1,..., xn N ) une suite de points de Nash associés à une suite de fonctions multi-coûts Fi N de la forme précédente, et donc associées à une fonction fixe F C( P()). Alors, à extraction d une sous-suite près, on a µ N X N := 1 N N δ N x N i m faiblement dans P(), i=1 avec m solution de (1.3.5). Preuve du théorème Par définition, pour tout 1 i N, le point x N i est un point de minimum de la fonction y F(y, µ N 1 ). Cela signifie que δ Xi N x N i réalise Fi N (δ x N i ) = inf Fi N (ρ), Fi N (ρ) = F(y, µ N 1 ) ρ(dy), ρ P() Xi N
29 15 et donc en notant on a pour tout Y N F N (ρ) := F(y, µ N X ) ρ(dy), N F N (µ N X N ) = (1.3.6) 1 N 1 N N F(x N i, µn X ) N i=1 N { } F(y i, µ N 1 ) + F(x N Xi N i, µn X ) F(x N N i, µn 1 ) Xi N i=1 F N (µ N Y ) + 1 N N { } F(y i, µ N 1 ) F(y Xi N i, µ N X ) + F(x N N i, µ N X ) F(x N N i, µ N 1 ) Xi N i=1 F N (µ N Y ) + 2 sup 1 i N ω( µ N 1 X N i µ N X N KR ), où ω désigne le module de continuité de F introduit ci-dessus. Or d une part, pour tout X N = (x 1,..., x N ) N et tout 1 i N, on a µ N 1 X N i de sorte que pour tout N 1 (1.3.7) µ N 1 X N i µ N X N = 1 N (N 1) µ N X N KR C µ N 1 X N i δ xj + 1 N δ x i, j i µ N X N TV 2 C /N. D autre part, on peut extraire une sous-suite de (µ N X ), toujours notée de la même N manière, qui converge dans P() vers une limite notée m P() : µ N X m N faiblement. On définit F(ρ) = F(z, m) ρ(dy), g N (z) := F(z, µ N X ) et g(z) := F(z, m). Puisque g N g N L () ω( µ N X N m KR ) 0, on obtient (1.3.8) F N (µ N X ) = g N (z) µ N N X (dz) g(z) m(dz) = F(m). N nfin, pour tout ρ P(), il existe grâce au théorème une suite (Y N ) de N telle que µ N Y N ρ dans P(), et on prouve de la même manière (1.3.9) lim N FN (µ N Y N ) = F(ρ) n combinant (1.3.6), (1.3.7), (1.3.8) et (1.3.9), on démontre (1.3.10) F(m) = inf F(ρ). ρ P()
30 16 Or (1.3.5) est équivalent à (1.3.10). n effet, si m satisfait (1.3.5) cela signifie que pour tout x supp m on a F(x, m) = I[m] := inf y F(y, m) de sorte que F(x, m) m(dx) = I[m] m(dx) = I[m] = I[m] ρ(dx) F(x, m) ρ(dx) pour tout ρ P(), et donc m satisfait (1.3.10). Inversement, si m ne satisfait pas (1.3.5) cela signifie qu il existe A argmin F(., m) =, et donc en choisissant z argmin F(., m) (un tel point existe puisque F(., m) est continue sur ) on a F(x, m) m(dx) = F(x, m) m(dx) + F(x, m) m(dx) A A c < I[m] m(dx) + I[m] m(dx)f(x, m) A A c = I[m] = F(z, m) = F(x, m) δ z (dx) alors m n est pas solution de (1.3.10). 1.4 La distance Monge-Kantorovish-Wasserstein dans le cas compact. Les objectifs de cette section sont d introduire la notion de transport de masse, de définir la distance W p de Monge-Kantorovish-Wasserstein et de donner quelques propriétés fondamentales de cette distance. Ces propriétés sont ensuite démontrées dans le cas d un espace compact R d Définition du transport de masses. Dans ce paragraphe, et seulement dans ce paragraphe, désigne un espace polonais. On note toujours P() l espace des mesures de probabilité de muni de sa tribu borélienne B, et nous renvoyons aux prochaines sections pour des rappels concernant cet espace dans le cadre d un espace polonais. Pour µ, ν P() on définit l ensemble (1.4.11) Π µ,ν = Π(µ, ν) := {π P( ); dπ(x, y) = dµ(x), dπ(x, y) = dν(y)}. Π(µ, ν) est donc l ensemble des mesures sur dont les marginales sont µ et ν. On dit que π Π(µ, ν) est un plan de transfert de masses (ou un couplage) de µ à
31 17 ν. Une façon plus précise d écrire (1.4.11) est ou également A B, B B π(a ) = µ(a), π( B) = ν(b), [ϕ(x) + ψ(y)] dπ(x, y) = ϕ(x) dµ(x) + ψ(y) dν(y) pour tout (ϕ, ψ) L 1 (dµ) L 1 (dµ) ou L (dµ) L (dµ), C b () C b () 2 (ou C 0 () C 0 () 3 si R d ). Faisons deux remarques : (i) On a toujours µ ν Π(µ, ν), donc Π(µ, ν). (ii) Si π Π(µ, ν) alors supp π supp µ supp ν. n effet, on a par exemple π( (supp ν) c ) = ν((supp ν) c ) = 0. tant données une fonction coût c : R + et deux mesures µ, ν P(), on définit le coût de transfert du plan π Π(µ, ν) par (1.4.12) I c [π] = c(x, y) dπ(x, y). On définit le coût optimal (de transfert entre µ et ν) (1.4.13) T c (µ, ν) = inf π Π(µ,ν) I c[π]. S il existe π Π(µ, ν) tel que I c [ π] = T c (µ, ν), on l appelle plan de transfert optimal. Si c(x, y) est une distance sur, T c définit une distance sur P(). Plus généralement et précisément, pour 0 < p < on définit le sous-espace de probabilité P p () par { } (1.4.14) P p () := ρ P(), d (x, x 0 ) p ρ(dx) <, où x 0 est fixé arbitrairement (cette définition ne dépend pas du choix de x 0 ), et on définit pour ρ, ν P p () la distance de Monge-Kantorovish-Wasserstein W p (µ, ν) par { ( ) } 1/p (1.4.15) W p (µ, ν) = [T d p (µ, = inf d ν)]1/p (x, y) p π(dx, dy), π Π(µ, ν) avec p := max(1, p). Nous donnons maintenant trois résultats fondamentaux concernant la distance W p que nous démontrons dans les trois sous-sections qui suivent. Ces résultats sont énoncés et démontrés dans un cadre simple. On renvoie à la section 1.5 pour leur généralisation. 2 voir la section 1.5 pour la définition de C b () 3 voir la section 1.6 pour la définition de C 0 ()
32 18 Théorème On suppose compact. Pour tout 0 < p <, l application (µ, ν) W p (µ, ν) définie par (1.4.15) est une distance sur P() Théorème Soient un espace polonais (, d ) et un exposant 0 < p <. Pour tout X = (x 1,..., x N ), Y = (y 1,..., y N ) N, on a W p (µ N X, µ N Y ) = w p (X, Y ) := ( 1 min σ S N N ) 1/p N [d (x i, y σ(i) )] p. n d autre termes, N /S N muni de la distance w p est isomorphe à { } P N () := µ N X (dy) := 1 N δ xi (dy), X = (x 1,..., x N ) N N muni de la distance W p. i=1 Théorème On suppose compact R d. La distance W p métrise la convergence faible de P() : pour une suite (µ n ) de P() et µ P(), il y a donc équivalence entre (i) W p (µ n, µ) 0 lorsque n ; (ii) µ n µ faiblement dans P() lorsque n Preuve du théorème : W p est une distance. i=1 Pour alléger les notations on ne traite que le cas p 1. n fait, le cas p (0, 1) s y ramène en remarquant que si d (x, y) est une distance alors (d (x, y)) p également. On procède en plusieurs étapes. tape 1. Grâce au théorème A.2.2 de Stone-Weierstrass on sait que C() C() est dense dans C( 2 ). On définit π := µ ν sur C() C() par π, ϕ ψ = µ, ϕ ν, ψ pour ϕ ψ C() C(), définition que l on étend à C() C() par linéarité, puis à C( 2 ) par continuitédensité. Il est alors clair que µ ν Π µ,ν, qui est donc non vide. La convexité de Π µ,ν est immédiate. nfin, si π n π faiblement dans P( 2 ) et π n Π µ,ν, alors clairement π Π µ,ν : Π µ,ν est fermé. Comme P() est compact, il en est de même de Π(µ, ν). tape 2. On considère une suite minimisante (π n ) de Π µ,ν telle que I[π n ] ց inf I[π]. Par compacité de Π(µ, ν), il existe π Π(µ, ν) et une sous-suite (π nk ) telles que π nk π faiblement dans P( 2 ). Comme d (.,.) C( 2 ), l application π Π(µ, ν) I[π] := I d p [π] = d (x, y) p dπ(x, y), est continue, ce qui implique I[π nk ] I[ π], et donc W(µ, ν) p = inf I[π] = min I[π] [0, ). π Π(µ,ν) π Π(µ,ν) tape 3. Lorsque ν = µ on introduit le plan de transport π que l on définit sur les boréliens produits par π(a B) = µ(a B) A, B B et que l on étend à B par un théorème
33 19 d extension. On a π(a ) = µ(a) et π( B) = µ(b) de sorte que π Π(µ, µ). Il est clair que suppπ := {(x, y) ; y = x} puisque (A B) = si, et seulement si, A B = et donc dans ce cas π(a B) = 0. On en déduit que I[π] = 0 puisque d = 0 sur, et donc W p (µ, µ) I[π] = 0. tape 4. Inversement, si W p (µ, ν) = 0, alors en notant π un plan de transport optimal on a I[ π] = Wp p (µ, ν) = 0. Comme d > 0 sur ( )\ on en déduit que supp π et donc (ϕ(y) ϕ(x))d π(x, y) = 0 pour tout ϕ C(). Il vient ϕ(x)dµ(x) = pour tout ϕ C() et donc µ = ν. ϕ(x)d π(x, y) = ϕ(y)d π(x, y) = ϕ(y) dν(y) tape 5. Montrons enfin l inégalité triangulaire. Soient µ i P(), i = 1, 2, 3, et soient π ij Π(µ i, µ j ) pour (i, j) = (1, 2), (2, 3). On définit sur G := {ϕ C( 3 ); ϕ(x) = ϕ 12 (x 1, x 2 ) + ϕ 23 (x 2, x 3 ) x = (x 1, x 2, x 3 ), ϕ ij C( 2 )} sous-espace vectoriel de C( 3 ) l application L, ϕ := ϕ 12 dπ ϕ 23 dπ Montrons que L ne dépend pas du choix des représentants ϕ ij de la fonction ϕ et que L est une forme linéaire continue (pour la norme de C( 3 )). n effet, si ϕ 12 + ϕ 23 = ψ 12 + ψ 23 alors ϕ 12 ψ 12 = ψ 23 ϕ 23 C() (ne dépend pas des variables x 1 et x 3 ) de sorte que 2 (ϕ 12 ψ 12 )dπ 12 = = (ϕ 12 ψ 12 )dµ 2 (ψ 23 ϕ 23 )dµ 2 = (ψ 23 ϕ 23 )dπ 23, 2 et donc L(ϕ 12 + ϕ 23 ) = L(ψ 12 + ψ 23 ). Pour ϕ = ϕ 12 + ϕ 23 G, on introduit ψ 12 = ϕ 12 + ϕ 12 ϕ 23, ψ 23 = ϕ 23 ϕ 12 + ϕ 23, de sorte que ϕ = ψ 12 + ψ 23, ψ 12 = 0 ou ψ 23 = 0 là où les signes de ϕ 12 et ϕ 23 sont différents, d où on déduit ψ ij 0 si ϕ 0, ϕ = ψ 12 + ψ 23 et enfin ϕ = ψ 12 + ψ 23. On prouve ainsi Lϕ 0 si ϕ 0, Lϕ Lψ 12 + Lψ 23 ψ 12 dπ 12 + ψ 23 dπ 23 ψ 12 + ψ 23 = ϕ, 2 2 et comme L1 = L(1 + 0) = π 12 (1) = 1, L G = 1. Par le théorème de Hahn-Banach, on peut étendre L en une forme linéaire continue π sur C( 3 ) telle que π G = L, π V T = L G = 1 et π 0 puisque π + TV π + (1) π(1) = 1 de sorte que π = 0. On a donc π P( 3 ). Par le théorème de représentation de Markov-Riesz il existe une mesure (de probabilité) π P( 3 ) telle que (ϕ 12 + ϕ 23 )dπ = ϕ 12 dπ 12 + ϕ 23 dπ n particulier, les marginales de π selon les deux premières et les deux dernières variables sont π 12 et π 23. On définit π 13 P( 2 ) sur les boréliens produits par π 13 (A B) = π(a B) A, B B : π 13 est la marginale de π suivant la permière et la dernière variable. Il est clair que π 13 Π(µ 1, µ 3 ), puisque, par exemple, π 13 (ϕ 1) = π(ϕ 1 1) = π 12 (ϕ 1) = µ(ϕ) ϕ C().
34 20 nfin, pour tout π 12, π 23 et en construisant π puis π 13 comme indiqué ci-dessus (on adopte une écriture sous forme intégrale, pour plus de clarté), on a ( ) 1/p ( ) 1/p W p (µ 1, µ 3 ) (I[π 23 ]) 1/p = d (x 1, x 3 ) p dπ 13 = d (x 1, x 3 ) p dπ 2 ( ) 3 1/p [d (x 1, x 2 ) + d (x 2, x 3 )] p dπ ( 3 ) 1/p ( ) 1/p d (x 1, x 2 ) p dπ + d (x 2, x 3 ) p dπ = I p [π 12] + I p [π 23], 3 3 où on a utilisé successivement la propriété de marginale, l inégalité triangulaire dans et l inégalité triangulaire dans L p (π) (inégalité de Minkowski). Maintenant, en prenant l infimum à droite sur tous les π 12 Π(µ 1, µ 2 ) et π 23 Π(µ 2, µ 3 ), on obtient W p (µ 1, µ 3 ) W p (µ 1, µ 2 ) + W p (µ 2, µ 3 ) Preuve du théorème : l identité W p = w p. Pour alléger les notations on ne traite que le cas p 1. Définition On définit B N l ensemble des matrices bistochastique comme étant l ensemble des matrices M M N,N (R) vérifiant 0 M ij 1 et (1.4.16) pour tout 1 i, j N. M i,j = 1 i, j M i,j = 1 j, Lemme Soient X, Y N. On a π Π(µ N X, µn Y ) si, et seulement si, il existe une matrice M B N telle que (1.4.17) π = π M (du, dv) = N i,j=1 i M i,j N δ (x i,y j)(du, dv). Preuve du lemme On procède en plusieurs étapes. (i) Si ν = δ a, mesure de Dirac en a, alors Π(µ, δ a ) = {µ δ a }. n effet, soit π Π(µ, δ a ). Pour tout A B, B B si a / B on a π(a B) π( B) = δ a (B) = 0 = (µ δ a )(A B). Pour tout A B, B B si a B on a π(a B) = π(a ) π(a B c ) = µ(a) = (µ δ a )(A B). Comme la tribu B est engendrée par l algèbre des pavés B B, on en déduit que π = µ δ a. (ii) On a vu que si π Π(µ, ν) alors suppπ suppµ suppν. n particulier, si µ et ν sont discrètes, les mesures de Π(µ, ν) sont des mesures discrètes, portées par supp µ suppν. n particulier si µ est portée par {a 1,..., a p } et ν est portée par {b 1,..., b q } alors π est portée par {(a i, b j )} 1 i p, 1 j q. Plus précisémment, si µ = i µ i δ ai, ν = j ν j δ bj, π = i,j π i,j δ (ai,b j), on p q coefficients π ij qui déterminent π et p + q relations de compatibilité (1.4.18) π i,j = π({a i } ) = µ({a i }) = µ i i, π i,j = ν j j, pour que π Π(µ, ν). j i
35 21 (iii) Lorsque µ = µ N X, ν = µn Y P N() tout plan de transfert π Π(µ N X, µn Y ) peut être représentée par une matrice bistochastique en posant (1.4.17). Cela est bien sûr une conséquence immédiate de (1.4.18) si x i x j et y i y j pour tout i j, et cela est également vrai (bien qu il y aurait bien d autres façons de représenter π) dans le cas sous-déterminé où cette condition n est pas satisfaite. Grâce au lemme , lorsqu on se restraint à P N (), (1.4.12) devient M B N I[π M ] = ij c(x i, y j ) N M ij =: I c,x,y [M] = I[M]. Le problème de minimisation (1.4.15) dans ce cas particulier s écrit (1.4.19) W p p (µ N X, µ N Y ) = inf M B N I[M], I[M] := i,j d (x i, y j ) p M i,j, N ce qui est un problème de minimisation linéaire sur un ensemble convexe et compact B N sousensemble d un espace vectoriel de dimension finie M N N (R). Ce problème se résout grâce à la théorie de Krein-Milman qui est relativement élémentaire dans ce cas particulier et que nous exposons ci-dessous. Définition On note MP N l ensembles des matrices de permutation, c est-à-dire l ensembles des matrices P M N N (R) telles qu il existe σ S N pour lequel P ij = δ iσ(j) = 1 si i = σ(j), = 0 si i σ(j). Le résultat suivant permet d identifier les points extrémaux de B N. Théorème (de Birkhoff). L ensembles des points extrémaux 4 de B N est MP N. Preuve du théorème On procède en plusieurs étapes. (a) Si M B N alors 0 M ij 1. De plus, si les coefficients de M appartiennent à {0, 1}, alors M est un point extrémal puisque pour P, Q B N M = 1 2 (P + Q) implique M ij = 1 2 (P ij + Q ij ) implique P ij = Q ij = M ij. nfin, pour appartenir à B N il faut que pour tout i {1,..., N} il existe un unique entier σ(i) {1,..., N} tel que M iσ(i) = 1, pour tous les autres j on a M ij = 0 (c est la première identité dans la définition (1.4.16)) et que l application σ soit injective, (sinon, en notant j = σ(i) = σ(k), i k on a l M lj 2 ce qui contredit la seconde identité dans la définition (1.4.16)). Cela prouve que σ S N et M ij = δ iσ 1 (j). Remarque On a donc la caractérisation suivante. Pour M B N il y a équivalence entre (i) M MP N ; (ii) i J M ij = 1 (et j J M ij = 0); (iii) j I M Ij = 1 (et i I M ij = 0); (iv) i, j M ij {0, 1}. n particulier, on a MP N (B N ). (b) On veut montrer l inclusion inverse. Soit M = (M ij ) B N. S il existe (i 0, j 0 ) tel que M i0,j 0 ]0, 1[ alors (1.4.16) implique qu il existe j 1, i 1, j 2,... tels que M i0,j 1 ]0, 1[, M i1,j 1 ]0, 1[, 4 voir la Définition A.3.3 pour la définition d un point extrémal
36 On s arrête au premier i k ou j k tel que i k = i l ou j k = j l, k > l. On a donc construit une suite d indices (i l, j l ), (i l, j l+1 ), (i l+1, j l+1 ),..., (i k 1, j k ), (i k, j k ), dans le premier cas, (i l, j l ), (i l, j l+1 ), (i l+1,l+1 ),..., (i k 1, j k 1 ), (i k 1, j k ), dans le second cas, tels que les indices sont tous distincts, sauf aux deux extrêmes. Traitons le premier cas (le second est simlilaire : il consiste à tourner dans l autre sens, d abord en incrémentant l ordonnée j puis en incrémentant l abscisse i). Pour se ramener à un nombre pair d indices on commence par supprimer (i l, j l ) de la liste, puis en renotant la suite d indices, on a ainsi construit un k-cycle S := {(i 1, j 1 ), (i 2, j 1 ), (i 2, j 2 ),..., (i k, j k 1 ), (i k, j k ), (i 1, j k ), (i 1, j 1 )} avec tous les i l distincts et tous les j l distincts et tels que M α,β ]0, 1[ pour tout (α, β) S. On définit ε := min(m α,β, 1 M α,β ; (α, β) S) > 0, puis P αβ = M αβ si (i, j) / S, P αβ = M αβ + ( 1) l+l ε si (α, β) = (i l, j l ) S, Q αβ = M αβ si (i, j) / S, Q αβ = M αβ + ( 1) l+l +1 ε si (α, β) = (i l, j l ) S. On a donc P = (P ij ) B N, Q = (Q ij ) B N, M = (P + Q)/2 et P M, Q N. Cela prouve que les matrices de permutations sont exactement les points extrémaux de B N. Présentons le théorème de Krein-Milman dans le cas de B N, dont la démonstration découle d un argument d approximation. Théorème (de Krein-Milman pour B N ). On a conv (MP N ) = B N : pour tout M B N il existe une suite (M n ) telle que M M n 0 et M n = avec P n,j MP N, 0 θ n,j 1 et j θ n,j = 1. I n j=1 θ n,j P n,j, Preuve 1 du théorème Il suffit d appliquer le Théorème A.3.5 de Krein-Milman. Preuve 2 du théorème On note B(N, p) les matrices bistochastiques qui possèdent au moins p coefficients nuls. Les points extrémaux correspondent à B(N, N 2 N). On part de M 1 = M. Dans la construction de la preuve du théorème précédent, si par exemple on a ε := 1 Mᾱ, β avec (ᾱ, β) = (i l, j l ) alors Pᾱ, β = 1 et si ε := Mᾱ, β avec (ᾱ, β) = (i l, j l ) alors en modifiant la définition de P on aura Pᾱ, β = 0. Dans tous les cas, on est capable de montrer que M = (M 2,1 + M 2,2 )/2 avec M a,b B N et M 2,1 B(N, 1) ou M 2,2 B(N, 1). On recommence, et on obtient M 1 = (M 3,1 + M 3,2 + M 3,3 + M 3,4 )/2 2 avec au moins une matrice dans B(N, 2), deux dans B(N, 1) et au pire une seule sans zéro. On note N n,j le nombre minimum de matrices dans B(N, j) à l étape n, et la convention B(N, j) = MP N si j N 2 N. On a N 1,0 = 1, et la convention N 1,j = 0 pour j 1. On obtient alors par récurrence N n,0 = 1, N n,j = N n 1,j 1 + N n 1,j. On a par exemple ainsi N n,1 = n 1, N n,2 = n (n 1)/2 et surtout N n,k C k n k pour tout n, k. On en déduit card(a c n) N 2 N 1 j=1 N n,j C N n N2 N 1,
37 23 où A n := {j; M n,j MP N }. Il vient alors M 2 n M n,j + 2 n I = 2 n M n,j + 2 n I C N j A n j A c n j A c n j A c n n N2 2 n 0 lorsque n (où par exemple I MP N est la matrice identité), ce qui permet d exhiber une suite (M n ) vérifiant l énoncé du théorème en posant P n,j := M n,j si j A n, P n,j := I si j / A n, θn,j 1 = I n := 2 n. n combinant (1.4.19), le théorème et le théorème on obtient le théorème Preuve du théorème On a d une part inf M B N I[M] inf P MP N I[P] = min P MP N I[P], puisque MP N B N et que MP N est un ensemble fini. On a d autre part, pour tout M B N et en notant M n la suite de conv (MP N ) construite au théorème I[M] = lim I[M n] = lim n n I n lim θ n,i n i=1 I n i=1 min I[P] = P MP N θ n,i I[P n,i ] min P MP N I[P]. n notant P σ la matrice de permutation associée à σ S N, on obtient d après la définition (1.4.19) de I inf I[M] = min I[P] = min I[P σ ] = w p (X, Y ) p. M B N P MP N σ S N On conclut grâce à (1.4.19) Preuve du théorème : W p métrise la convergence faible. Commençons par démontrer deux résultats que nous allons utiliser dans la preuve du Théorème et qui nous servirons plus tard (dans la preuve du Théorème ). Lemme (density coupling lemma). Pour toutes fonctions f, g L 1 (R d ) P(R d ), on a W 2 (f dx, g dx) 3 (f g) x 2 L 1. Preuve du Lemme On note µ = f dx, ν = g dx. Soit π Π(µ, ν) le couplage de µ et ν défini par la relation : pour toute fonction ϕ L 0 + (Rd ) ϕdπ = 1 ϕ(x, y)(f(x) (f g)(x))(g(y) (f g)(y))dxdy 1 A + ϕ(x, x)(f g)(x)dx, A := (f g)(x)dx.
38 24 Il n y a pas de difficulté à vérifier que les marginales de π sont µ et ν. On a alors x y 2 π(dx, dy) = x 2 f(x)dx + y 2 g(y)dy 2 x y π(dx, dy) = x 2 [f(x) (f g)(x)] dx + y 2 [g(y) (f g)(y)] dy 2 x y (f(x) (f g)(x))(g(y) (f g)(y))dxdy 1 A = x 2 f(x) g(x) dx 2 x(f(x) (f g)(x))dx y (g(y) (f g)(y))dy. 1 A Par ailleurs, par l inégalité de Cauchy-Schwartz x(f(x) (f g)(x))dx ( ( ) 1/2 ( ) 1/2 x 2 (f(x) (f g)(x))dx (f f g) x 2 f(x) g(x) dx) 1/2 (1 A) 1/2. Grâce à cette inégalité il vient x y 2 π(dx, dy) 3 x 2 f(x) g(x) dx, et le résultat s en déduit. Lemme Soit γ ε une suite régularisante tendant vers l identité, x R d γ ε (x) = ε d γ(x/ε) avec γ C (R d ) P(R d ). Pour toute mesure µ P(R d ), on a pour la constante C = x 2 γ 1/2 L 1. W 2 (µ, µ γ ε ) C ε, Preuve du Lemme Pour µ, ν P(R d ) on définit π P(R 2d ) par la relation : pour toute fonction continue et bornée ϕ C b (R 2d ) ϕd π = ϕ(x, x + y)µ(dx)ν(dy). n remarquant que ϕ(x) µ(dx)ν(dy) = ϕ(x) µ(dx) et ϕ(x + y)µ(dx)ν(dy) = ϕ(z)(µ ν)(dz) on conclut que π Π(µ, µ ν). On en déduit, en particulier, que W2 2 (µ, µ ν) x y 2 π(dx, dy) y 2 µ(dx)ν(dy) = y 2 ν(dy). On conclut en remarquant que x 2 γ ε L 1 = x 2 γ L 1 ε 2.
39 25 Preuve du Théorème tape 1. On montre que (1.4.20) µ n µ faiblement implique W p (µ n, µ) 0. C est une conséquence des deux lemmes précédents et de la remarque (ii) de la section n effet, on commence par se ramener à R d en remarquant que l on peut voir tout α P() comme un élément de P(R d ) puisque R d (il suffit de définir l extension ᾱ P(R d ) en posant ᾱ(a) = α(a ) pour tout A B R d) et alors avec ces notations Wp p (µ n, µ) = inf d (x, y) p π(dx, dy) π P(µ n,µ) = inf d R d(x, y) p π(dx, dy) =: Wp p ( µ n, µ). π P( µ n, µ) R d R d L égalité des deux infimum provient du fait que si π P( µ n, µ) alors supp π (supp µ n ) (supp µ). On considère γ ε une suite régularisante comme introduit au Lemme avec γ D(R d ) et W 2 est la distance de MKW associée à la distance euclidienne (restreinte à ). Par inégalité triangulaire, on a W 2 (µ n, µ) = W 2 ( µ n, µ) W 2 ( µ n, µ n γ ε ) + W 2 ( µ n γ ε, µ γ ε ) + W 2 ( µ γ ε, µ). Pour être tout à fait rigoureux il convient de remarquer que toutes ces mesures de probabilité vivent dans un compact fixe (par exemple dans une boule de diamètre diam + 1 si suppγ B R d(0, 1)) de sorte que l on sait grâce au théorème que W 2 définie sur ce compact est une distance. Utilisant le lemme pour estimer le premier et le dernier terme et le lemme pour estimer le terme du milieu, on en déduit ε > 0 W 2 (µ n, µ) 2 C ε ( µ n γ ε µ γ ε ) x 2 L 1, tend vers 0 lorsque n, ce qui démontre (1.4.20) dans ce cas particulier. Pour traiter le cas général, il suffit de remarquer que toute distance d sur est équivalente à la distance euclidienne restreinte à et que l on a (1.4.21) µ, ν P() W 1 (µ, ν) W p (µ, ν) diam() 1/p W 1 (µ, ν), de sorte que l on peut se ramener au cas particulier déjà traité. tape 2. On montre que pour tout µ, ν P(), on a (1.4.22) µ ν KR W 1 (µ, ν), ce qui, compte tenu du Théorème et de (1.4.21), démontrera en particulier W p (ρ n, ρ) 0 implique ρ n ρ. On fixe donc µ, ν P(). On considère deux suites (µ n ) et (ν n ) telles que µ n, ν n P N () et µ n µ, ν n ν faiblement dont l existence est assurée par le Théorème D une part, en combinant l inégalité (1.2.3) et l identité du Théorème , on a (1.4.23) µ n ν n KR W 1 (µ n, ν n ). Or d autre part, une conséquence immédiate de l étape 1 est que W 1 (µ, ν) = lim n W 1(µ n, ν n ), et on a également d après le Théorème que µ ν KR = lim n µ n ν n KR. Regroupant les trois informations précédentes, on obtient (1.4.22).
40 L espace P() pour un espace polonais. Nous présentons dans cette section quelques résultats concernant le cas le plus général où est un espace polonais. On rappelle qu un espace polonais est un espace métrique séparable et complet. Les exemples typiques sont les espaces compacts, les espaces localement compacts et σ-finies, mais également P(R d ) et P(P(R d )). Dans toute cette section = (, d ) désignera donc un espace polonais. Ici la définition de l espace de probabilité P() est P() := {ρ M+ 1 (), ρ() = 1}, où M+ 1 () désigne l ensemble des mesures (ensemblistes) de Borel positives (et finies), et il est absolument fondamental de retenir que le théorème de Markov- Riesz ne s applique pas : on ne peut pas identifier P() à une partie d un espace dual d un espace de fonctions continues. Toutefois, les éléments de P() (et plus généralement de M+()) 1 jouissent d un certain nombre de bonnes propriétés : ils sont régulièrs et σ-compacts. Cela signifie que si µ M+ 1 () alors d une part pour tout A B et tout ε > 0 il existe K ε compact, O ε ouvert tels que K ε A O ε et µ(o ε ) ε µ(a) µ(k ε ) + ε, et d autre part il existe une suite (K n ) de compacts telle que µ() = lim µ(k n ). Notant C b () l espace des fonctions continues et bornées (ϕ C b () si ϕ C() et M tel que ϕ(x) M x ) que l on muni de la norme uniforme, on peut encore munir P() d une notion de convergence faible associée à la dualité avec les fonctions de C b (). Pour (ρ n ), ρ P(), on dit que (ρ n ) converge faiblement vers ρ, on note ρ n ρ, si ρ n, ϕ ρ, ϕ pour tout ϕ C b (). Cela implique notamment que si µ, ν P() et µ, ϕ = ν, ϕ pour tout ϕ C b () alors µ = ν. n revanche, on ne prétend pas que si pour tout ϕ C b () il existe l ϕ tel que ρ n, ϕ l ϕ alors il existe ρ P() tel que ρ n ρ. Rappelons la caractérisation suivante de la convergence faible. Théorème ([14, Theorem ] Soit un espace polonais. Soit (ρ n ) une suite de P() et ρ P(). Il y a équivalence entre (i) ρ n ρ faiblement dans P(); (ii) Pour tout ouvert U, lim inf ρ n (U) ρ(u); (iii) Pour tout fermé F, lim sup ρ n (F) ρ(f); (iv) Pour tout ensemble A B tel que ρ(ā\int A) = 0, lim ρ n(a) = ρ(a). Théorème (de Prokhorov) Soit un espace polonais. Un ensemble K P() est relativement séquentiellement compact au sens de la convergence faible si, et seulement si, K satisfait au critère de tension suivant : pour tout ε > 0 il existe un compact K ε tel que pour tout ρ K on a ρ(\k ε ) ε. Autrement dit pour une suite (ρ n ) de P(), il y a équivalence entre
41 (ρ n ) est relativement compacte pour la topologie de la convergence faible avec limite dans P() : 27 (ρ n ) est tendue n n ρ P() ϕ C b () ρ n, ϕ ρ, ϕ ; ε > 0, K compact n ρ n (\K) < ε. Corollaire (Krein-Milman). Soit un espace polonais. Les combinaisons convexes de masses de Dirac sont denses au sens de la convergence faible. n dautres termes et plus pécisément, (P N ()) N 1 est dense dans P(). Preuve du Corollaire Pour tout ρ P() on définit à l aide du Théorème une suite (K n ) de compacts tels que ρ(k c n) 1/n et on pose ρ n := ρ1 Kn ρ(k n ) 1. Pour tout ϕ C b (), on a alors ϕ d(ρ n ρ) ϕ dρ (ρ(k n ) 1 1) + K n ϕ ρ(k c n ) 1 ρ(k c n) + ρ(kc n ) 0, K c n ϕ dρ et il suffit d approcher ρ n P(K n ) par une combinaison convexe de masses de Dirac grâce au théorème de Krein-Milman établi dans le cadre d un espace compact. On peut définir sur P() différentes métriques telles que la notion de suite convergente associée coïncide avec celle de suite convergente au sens de la convergence faible. n d autres termes, la convergence faible est métrisable (de différentes manières). Nous allons donner ci-dessous trois exemples parmi les plus populaires. xemple (Distance de Lévy-Prokhorov) Soit un espace polonais. Le théorème de Strassen affirme que pour tout f, g P(), ε > 0, on a δ ε (f, g) := inf { ε > 0, ρ(a) η(a ε ) + ε A C } = inf π[d (x, y) > ε], π Π(f,g) où dans la première définition C est l ensemble des parties fermées de et où pour tout A, pour tout ε > 0, on définit A ε := {x, d (x, A) < ε} et où dans la seconde définition Π(f, g) est définie en (1.4.11).On définit la distance de Lévy-Prokhorov sur P() par f, g P() W LP (f, g) := inf{ε > 0; δ ε (f, g) ε}. Il est important de noter que comme µ[a ε ] = µ[(ā)ε ] pour tout µ P(), A B et ε > 0, on a δ ε (f, g) = inf { ε > 0, ρ(a) η(a ε ) + ε A B }.
42 28 Théorème Soit un espace polonais. (i) L espace (P(), D LP ) est un espace polonais, en particulier D LP est une distance. (ii) La convergence au sens de la distance de Lévy-Prokhorov est équivalente à la convergence au sens de la convergence faible, et plus précisément, étant données une suite (ρ n ) de P() et une mesure de probabilité ρ P(), on a : D LP (ρ n, ρ) 0 ssi ϕ dρ n ϕ dρ ϕ C b (). xemple (Distance de Monge-Kantorovish-Wasserstein) On rappelle que l on a défini dans la section la distance de transport de Monge-Kantorovish- Wasserstein W p pour 0 < p < et ρ, ν P p () par (1.5.24) W p (µ, ν) = ( ) 1/p inf d (x, y) p π(dx, dy), π Π(µ,ν) où P p () est définie en (1.4.14), Π(µ, ν) en (1.4.11) et p := max(1, p). Voici quelques uns des principaux résultats concernant l application W p. Théorème ([50, Theorem 7.3, Proposition 7.10]). Soit un espace polonais. Pour tout 0 < p <, l application (µ, ν) W p (µ, ν) définie par (1.5.24) est une distance sur P p (), µ, ν P p () W p (µ, ν) 2 d (x 0,.) p (µ ν) TV. et pour tout 1 r < p < on a W r W p sur P p (). Si de plus B(x 0, R) on a l inégalité inverse toujours lorsque 1 r < p < µ, ν P() W p (µ, ν) (2 R) 1/p [W 1 (µ, ν)] 1/p. Théorème (Kantorovich-Rubinstein, [50, Theorem 1.14]). Soit un espace polonais. Pour p = 1 la distance de Monge-Kantorovich-Wasserstein est la norme de Kantorovich-Rubinstein : { } W 1 (µ, ν) = µ ν KR := sup ϕ(x) (µ ν)(dx), ϕ Lip(), ϕ Lip 1. Théorème (Kantorovich, [50, Theorem 1.1]). Soit un espace polonais. Pour 1 p < la distance de Monge-Kantorovich-Wasserstein vérifie : W p (µ, ν) p = ϕ(x) µ(dx) + ψ(y) ν(dy). sup ϕ,ψ C b (),ϕ(x)+ψ(y) x y p n particulier, l application (µ, ν) W p (µ, ν) p est sci au sens de la topologie faible.
43 Théorème ([50, Theorem 7.12]). Soit un espace polonais. Soient 0 < p <, (µ n ) une suite de P p () et µ P(). Les assertions suivantes sont équivalentes : W p (µ n, µ) 0 lorsque n ; µ n µ faiblement lorsque n et satisfait à la condition suivante de tension lim sup d (x 0, x) p µ n (dx) = 0. R n N d (x,x 0 ) R µ n µ faiblement lorsque n et son moment d ordre p converge d (x 0, x) p dµ n d (x 0, x) n p dµ. pour toute fonction continue ϕ sur satisfaisant la condition de croissance ϕ(x) C [1 + d (x, x 0 ) p ] alors ϕ dµ n ϕ dµ. n Théorème ([52, Theorem 6.16]). Soit un espace polonais. Pour 0 < p <, l espace (P p (), W p ) est un espace polonais. xemple (Distance de Zolotarev ou norme duale de Hölder) Soit un espace polonais et s (0, 1]. On note C 0,s () l espace des fonctions s-hölderienne muni de la semi-norme ϕ(y) ϕ(x) [ϕ] s := sup. x,y d (x, y) s Sur l espace P s () (introduit en (1.4.14)) on définit la distance suivante 29 (1.5.25) ρ, η P s () Z s (η, ρ) = [η ρ] s η ρ, ϕ := sup. ϕ C 0,s () [ϕ] s De même, lorsque = R d et s (1, 2], on note [ϕ] s := ϕ L () + [ ϕ] s 1 et on définit la distance de Zolotarev à l aide de (1.5.25). On laisse à titre d exercice le fait de montrer que Z s est bien une distance. (Ind. Reprendre la preuve du Lemme et utiliser le fait que pour tout ρ P() et ε > 0 il existe K ε compact tel que ρ(\k) ε, grâce au théorème ). Théorème ([14, Theorem , problem 5 of paragraph 11.3 and corollary ] ) Soit un espace polonais. On note ϕ BL = ϕ + ϕ Lip et { } β(µ, ν) = sup ϕ d(µ ν) ; ϕ BL 1.
44 30 On note également { α(µ, ν) = sup Alors pour tout µ, ν P() ϕ d(µ ν) ; ϕ L := sup x =y β(µ, ν) = α(µ, ν), β(µ, ν) [µ ν] 1, ϕ(y) ϕ(x) d (x, y) 1 1 }. β(µ, ν) 2 D LP (µ, ν), D LP (µ, ν) 2 β(µ, ν) 1/2. Théorème Soit un espace polonais. Les distances W p, Z s et D LP définies à partir de d 1 sont équivalentes et induisent la convergence faible sur P(). squisse de la preuve du Théorème Compte tenu des théorèmes et la seule chose à démontrer est que pour une suite (ρ n ) de P() et ρ P(), il y a équivalence entre (i) Z s (ρ n, ρ) 0 lorsque n ; (ii) ρ n ρ faiblement lorsque n ; (iii) ρ n, ϕ ρ, ϕ lorsque n pour tout ϕ C 0,1 (). Pour l implication (ii) (i), il suffit de combiner le théorème , le théorème et le fait que Z s C s Z 1 pour tout s (0, 1). Pour l implication (i) (ii), il suffit de reprendre et adapter la preuve de l implication (iii) (i) dans le théorème en pensant à utiliser le théorème pour pouvoir encore utiliser le théorème d Ascoli. On termine cette section en donnant une caractérisation (habituelle) de la tribu borélienne sur P(). n remarquant que d et d 1 définissent la même topologie sur, on voit que l espace de probabilité P() est le même (en termes ensemblistes) s il est défini à partir de d ou de d 1. On peut donc toujours supposer que la métrique d est bornée. Lemme Soit un espace polonais. Sur P() les tribus suivantes sont identiques (i) la tribu borélienne B P() associée à une distance métrisant la convergence faible de P(); (ii) la tribu engendrée par les ensembles C A,λ := {ρ P(); ρ(a) < λ} ou C A,λ := {ρ P(); ρ(a) λ}, lorsque A parcours soit C l ensemble des parties fermées de, soit O l ensemble des parties ouvertes de, soit B l ensemble des parties boréliennes de, et lorsque λ parcours [0, 1].
45 léments de preuve du Lemme On procède en plusieurs étapes. On suppose (ou on s y ramène) que d 1. tape 1. Mise en place. Procédons à un certain nombre de définitions. On définit cinq topologies : les topologies O LP et O W1 dont une base de voisinages est respectivement l ensemble des boules B LP (ρ, r) := {η P(); D LP (ρ, η) < r}, ρ P(), r > 0, et l ensemble des boules B W1 (ρ, r) := {η P(); D W1 (ρ, η) < r}, et les topologie O B, O C et O O traces sur P() des topologies sur M 1 () associées aux familles de semi-normes p A (ρ) := ρ(a) lorsque A parcours respectivement B, C et O, c est-à-dire, les topologies obtenues en prenant les réunions quelconques des intersections finies de C A,λ respectivement pour A B, λ > 0, pour A C, λ > 0 et pour A O, λ > 0. On définit huit tribus : les tribus T LP et T W1 engendrées par O LP et O W1, les tribus T B, T O, T C engendrées par les familles d ensembles C A,λ avec respectivement A boréliens de, A ouverts de, A fermés de, et enfin les tribus T B, T O, T C engendrées par les familles d ensembles C A,λ avec respectivement A boréliens de, A ouverts de, A fermés de. Noter que T B, T C et T O sont également les tribus engendrées par O B, O C et O O. Le théorème sera démontré si on montre que ces huit tribus sont identiques. tape 2. Montrons que T B = T B = T O = T O = T C = T C et que T LP = T W1. n remarquant que pour A un borélien et λ R +, on a C A,λ = n 1 C A,λ+1/n C A,λ = n 1C A,λ 1/n, 31 on obtient T B = T B, T O = T O, T C = T C. Pour tout O ouvert de et tout λ, µ R + on a l identité {η P(), η(o) < λ} = C Ō,λ+µ C O,µ (C O,µ) c, ce qui implique que T O T C. Pour tout A B, λ R + et ρ C A,λ le caractère régulier de ρ implique qu il existe O A tel que ρ(o) < λ, et donc ρ C O,λ C A,λ. Cela prouve que O B O O et donc T B T O. La première série d égalité s en déduit puisque bien évidement T C T B. Le fait que les métriques D LP et W 1 induisent les mêmes suites convergentes (ce sont les suites faiblement convergentes d après le théorème ) implique que les topologies O LP et O W1 sont identiques, et donc T LP = T W1. tape 3. Montrons O C O LP, ce qui impliquera T C T LP. Considérons V O C et ρ V, et exhibons ε > 0 tel que B LP (ρ, ε) V. Par définitions de O C il existe des fermés A 1,..., A J C et des réels λ 1,..., λ N > 0 tels que ρ C A1,λ 1... C AJ,λ J V. On choisit alors ε > 0 de sorte que j {1,..., J} ρ(a ε j ) + ε < λ j,
46 32 ce qui est possible puisque ρ(a ε j ) + ε ρ(a j) < λ j lorsque ε 0 par convergence monotone. Pour tout η B LP (ρ, ε), on a d après la définition de D LP j {1,..., J} η(a j ) ρ(a ε j ) + ε < λ j, et donc η V, ce qui est la conclusion souhaitée. tape 4. Montrons O W1 O B, ce qui impliquera T W1 T B. Donnons nous une boule ouverte B W1 (ρ, δ) pour ρ P() et δ > 0 fixé. On va montrer qu il existe un ouvert V de O B tel que ρ V B W1 (ρ, δ). Pour cela on fixe r (0, δ/10), et en utilisant la régularité de ρ on commence par choisir un compact K tel que ρ(k c ) r, puis on recouvre K par un nombre fini N de boules toutes de rayon r. On en déduit alors un recouvrement de par un nombre fini de boréliens C 0,..., C N disjoints deux à deux et tels que donc = N C n, ρ(c 0 ) r, diam(c n ) r, 1 n N. n=0 Pour ε > 0, que l on choisira à la fin de la preuve, on définit l ensemble ρ V := {ν P(), ν(c n ) < ρ(c n ) + ε n = 0,..., N} O B. On remarque que pour ν V, on a ν(c n ) = 1 m n ν(c m ) 1 m n(ρ(c m ) + ε) ρ(c n ) ε N, ce qui implique ν(c n ) ρ(c n ) ε N pour tout ν V et 0 n N. Maintenant, à toute mesure µ P() on associe µ r P() la mesure discrète µ r := N µ(c n ) δ xn, x n C n. n=0 Grâce au choix (judicieux) du couplage ci-dessous, on voit que W 1 (µ, µ r ) d (x, y) N δ xn (dx)1 Cn µ(dy) µ(c 0 ) + r. n=0 Finalement, pour tout η V, en utilisant l inégalité triangulaire et le théorème , on calcule W 1 (ρ, η) W 1 (ρ, ρ r ) + 2 ρ r η r TV + W 1 (η r, η) N r + 3 ρ(c 0 ) + 2 η(c n ) ρ(c n ) + r + 3 η(c 0 ) 4 r + 2 n=1 N (ε N) + r + 3 (r + ε) = 8 r + ε (2N 2 + 3) < δ, n=1 en choisissant 0 < ε < δ/(5 (2N 2 + 3)). Cela prouve que η B W1 (ρ, δ).
47 L espace P(R d ). Nous terminons ce chapitre en nous intéressant à l espace P(R d ) très important dans les applications. Dans ce cadre nous allons pouvoir généraliser le théorème de représentation de Markov-Riesz, préciser le théorème de Prokhorov et obtenir de nouvelles distances. On considère donc le cas = R d que l on munit d une norme (par exemple la norme euclidienne). Théorème de représentation. Ici, comme dans le cas compact, il est possible de définir les mesures de deux façons différentes : comme mesures de Radon et comme différences de mesures de Borel. Soyons plus précis. Sauf indication explicite du contraire, on utilise les notations de la section 1.2. On note C 0 () l espace des fonctions continues qui tendent vers 0 à l infini (ϕ C 0 () si ϕ C() et ϕ(x) 0 lorsque x 0) que l on munit de la norme uniforme. On note cette fois M 1 () := (C 0 ()) et toujours M 1 () := M 1 + () M 1 + (). Théorème (Riesz-Markov dans R d, [20, Theorem?], [25, Theorem?]) Soit = R d. Alors M 1 () M 1 (), au sens où l application µ M () I µ M 1 () est une isométrie entre evn. Plus précisément, c est une bijection et I µ TV = µ, où et Λ M 1 () Λ TV := sup Λ, ϕ ϕ C 0 (), ϕ 1 µ M 1 () µ := inf{µ + () + µ (), µ ± M + (), µ = µ + µ }. On caractérise encore l ensemble des mesures de probabilités grâce aux deux définitions équivalentes suivantes P() = {Λ M 1 +(), Λ, 1 = 1} = {µ M 1 +(), µ() = 1}. Convergences. On définit dans M 1 () les notions de convergence suivantes. On dit qu une suite (µ n ) de M 1 () converge faiblement (ou au sens faible σ(m 1 (), C 0 ())) vers µ M 1 (), on note µ n µ, si ϕ C 0 () ϕ µ n ϕ µ. On dit qu une une suite (µ n ) de M 1 () converge faiblement (ou étroitement) vers µ M 1 (), on note µ n µ, si ϕ C b () ϕ µ n ϕ µ.
48 34 On introduit également C l () l espace des fonctions continues qui admettent une limite à l infini : C l () := {ϕ C(); l = l ϕ lim ϕ l L m (\B m) 0}, et C c () l espace des fonctions continues à support compact : C c () := {ϕ C(); K compact, supp ϕ K} ainsi que les convergences faibles associées définies par dualité comme ci-dessus. Des inclusions C c () C 0 () C l () C b () on déduit que la convergence faible (dualité avec C b ()) implique la convergence faible au sens de la dualité de C l () qui implique à son tour la convergence faible (dualité avec C 0 ()) qui elle-même implique enfin la convergence au sens de la dualité de C c () (également dénommée parfois convergence vague). Dans P() on peut préciser les choses à l aide du résultat suivant (immédiat et que l on ne démontre donc pas). Lemme Soit (µ n ) une suite de P() et µ M 1 (). Il y a équivalence entre (i) µ n µ au sens faible (de la dualité de C b ()), et donc µ() = 1; (ii) µ n µ au sens de la dualité de C l (), et donc µ() = 1; (iii) µ() = 1 et µ n µ au sens de la dualité de C 0 (); (iv) µ() = 1 et µ n µ au sens vague (de la dualité de C c ()). n particulier, lorsque µ P(), ces quatre sens de convergence sont équivalents. Compacité et compactifié d Alexandroff. Attention, le théorème de Banach-Alaoglu n est plus valable ici. Soyons plus précis : il est important de retenir les faits suivants. Fait 1. P() n est pas (séquentiellement) compact au sens de la convergence faible puisque, par exemple, µ n (dx) := δ n forme une suite de P(R) qui converge faiblement vers 0 / P(R). Fait 2. L ensemble K := {ρ M+ 1 (); ρ() 1} est (séquentiellement) compact au sens de la convergence faible. C est encore le théorème de Banach-Alaoglu appliqué au sous-ensemble convexe, fermé, borné de M 1 () = (C 0 ()). Fait 3. P() est (séquentiellement) fermé au sens de la convergence faible (c est le lemme (i)), mais n est pas (séquentiellement) compact au sens de la convergence faible (reprendre l exemple de la suite µ n (dx) := δ n ). Une première façon de contourner le problème de la non compacité de P() consiste à introduire le compactifié d Alexandroff Ê := { }5 de. L ensemble Ê est alors compact, de sorte que P(Ê) aussi (au sens de la convergence faible) : c est le théorème de Banach-Alaoglu. Comme on peut voir P() comme une partie de P(Ê), P() := {π P(Ê), supp π }, on peut se demander ce qu implique ce théorème de Banach-Alaoglu sur l ensemble P(). 5 voir section A.4
49 Pour cela, on utilise l espace C l (), et les identifications C l () C 0 () R C(Ê) qui proviennent de l identification ϕ( ) := lim ϕ pour ϕ C l() et inversement lim ϕ := ϕ( ) pour ϕ C(Ê). On en déduit (C l()) M 1 () R 1 M (Ê), puis l identification P(Ê) {(ρ, λ) M1 +() [0, 1]; ρ() + λ = 1}. n effet, BÊ = {A ω, A B, ω = ou ω = } et pour π P(Ê) on définit le couple (ρ, λ) M+ 1 () [0, 1] par ρ(a) := ρ(a ) pour tout A B Ê la masse restreinte à et λ = π({ }) la masse du point à l infini, de sorte que A BÊ π(a) = ρ(a ) + λ1 A. L application π (ρ, λ) est évidemment un isomorphisme. n introduisant la suite de boules B m := B (0, m), l inclusion P() P(Ê) s écrit P() = {π P(Ê), π( ) = lim π( ˆB c m ) = 0} = {π P(Ê), π() = lim π(b m) = 1}. Quelle leçon en tirer en termes de séquentielle compacité des suites (ρ n ) de P()? D une part, pour une telle suite il existe une sous-suite, encore notée (ρ n ), et une probabilté π = (ρ, λ) P(Ê) telle que ρ n π faiblement au sens de la convergence faible dans P(Ê). Cette convergence étant équivalente à la convergence au sens de la dualité avec C l () et introduisant la décomposition (ρ, λ) M+ 1 () [0, 1] de π, cela signifie (1.6.26) ϕ C l () ρ n, ϕ ρ, ϕ + λ ϕ( ). Cela constitue une première réponse au manque de compacité de P(). Attention ici, on ne peut pas prendre ϕ C b () quelconque et il se peut que l on perde de la masse à l infini. Compacité et critère de tension. Présentons une deuxième façon de contourner le problème de non compacité de P(). Dire que (ρ n ) est séquentiellement compacte dans P() signifie donc que dans (1.6.26) on a ρ P() ou de manière équivalente que λ = π({ }) = 0. Une condition nécessaire et suffisante lisible sur la suite (ρ n ) pour que cette propriété soit réalisée est la condition de tension ci-dessous. Théorème Soit = R d. Soit (ρ n ) une suite de P(). Il y a équivalence entre (ρ n ) est relativement compacte au sens de la convergence vague avec limite dans P() : 35 n n ρ P() ϕ C 0 () ρ n, ϕ ρ, ϕ ; (ρ n ) est relativement compacte au sens de la convergence faible (étroite) : n n ϕ C b () ρ n, ϕ est une suite convergente;
50 36 (ρ n ) est tendue ε > 0, m ρ n (\B m ) < ε; il existe une fonction η(x) = η( x ) telle que 0 η(s) lorsque s et n ρ n, η C. Structure topologique de P(R d ). On commence par une variante du théorème et du corollaire Théorème (Krein-Milman dans P(R d )). Soient a > 0 et 0 < p < k <. Il existe ε(n) = ε p,k,a (N) 0 lorsque N telle que (1.6.27) sup ρ BP k,a W p (ρ, P N () BP k,a ) ε(n), avec BP k,a () := {ρ P(); x k ρ(dx) a}. Preuve du Théorème On reprend la preuve du corollaire On commence par définir ρ n := ρ1 B(0,n) ρ(b(0, n)) 1 de sorte que ρ n BP k,a et ρ n ρ faiblement dans P(). On approche ρ n par une suite ρ n,m combinaison de masses de Dirac grâce au Théorème de Krein-Miman et on peut toujours supposer que ρ n,m BP k,a quitte à remplacer ρ n,m par la suite θ m ρ n,m +(1 θ m ) δ 0 si θ m := a M k (ρ n,m ) 1 < 1. Il est alors facile d exhiber une suite (ρ n,mn ) telle que ρ n,mn ρ faiblement dans P(). Combiné avec le Théorème et le Théorème , cela prouve que (1.6.28) ρ BP k,a W p (ρ, P N () BP k,a ) 0 lorsque N. L application ρ W p (ρ, P N () BP k,a ) étant continue sur BP k,a et cet ensemble étant compact pour la distance W p, il s ensuit que la convergence (1.6.28) est uniforme en ρ BP k,a, ce qui est exactement (1.6.27). Remarque Un argument similaire permet de montrer que pour tout ρ P p (), on a W p (ρ, P N ()) 0 lorsque N (sans taux). Théorème L espace P k (R d ), k 0, muni d une distance D métrisant la convergence faible de P(R d ), est polonais, mais n est pas localement compact. léments de preuve du Théorème Plutôt que de donner une preuve du théorème dans le cas général nous allons donner un élément de la preuve dans le cas = R d, k = p (0, ), D = W p.
51 Séparabilité. Concernant le caractère séparable, cela provient du fait que l on peut approcher tout élément par une mesure de probabilité de la forme µ = a α δ α, a α = 1, a α 0 α Q d α Q d avec coefficients a α Q, et que cette ensemble est dénombrable. Complétude. Pour montrer le caractère complet on considère une suite de Cauchy (µ n ). D une part, on a x p µ n = x y p µ n (dx) δ 0 (dy) = W p (µ n, δ 0 ) W p (µ n, µ 1 ) + W p (µ 1, δ 0 ) est bornée. Grâce au théorème , on peut extraire une sous-suite (µ n ) et il existe une mesure µ P p () telle que µ n µ faiblement, donc par exemple en distance W p/2. Or comme toute la suite (µ n ) est de Cauchy au sens de W p/2, c est toute la suite qui converge au sens de W p/2, donc au sens faible. Maintenant, grâce au caractère sci au sens de la convergence faible de la fonction W p rappelé au Théorème , on a W p (µ n, µ) lim inf m W p (µ n, µ m ) 0 lorsque n, puisque (µ n ) est une suite de Cauchy. Non locale compacité. On serait tenté de dire que P 2 (R d ) est un espace séparé localement compact à cause du fait que l on peut écrire P 2 () = a N BP 2,a. Il n en est rien. Prenons deux exemples dans le cas d = 1. xemple 1. On munit P 2 (R) de la distance W 1. Alors P 2 (R) est une union de compacts d intérieur vide. (i) BP 2,a est bien W 1 -compact puisque toute suite de BP 2,a est tendue au sens de la convergence W 1 (il suffit de combiner le Théorème et le Théorème ). (ii) mais BP 2,a est d intérieur vide au sens de W 1. n effet, pour tout f BP 2,a L 1 on définit g := f 1 [ u,u] c +v δ w pour u, v, w > 0. On choisit v = u f > 0, u v 0, et w = v 3/4 de sorte que g P 2 (R), W 1 (f, g) (f 1 B(0,u) + v δ z ) (1 + x ) TV 2 v + v (1 + z) 3 v + v 1/4 0, et pourtant R x 2 g(dx) R v δ w x 2 = v w 2 = v 1/2. xemple 2. On munit P 2 (R) de la distance W 2. Alors P 2 (R) est une union d ouverts non relativement compacts. (i) BP 2,a n est pas W 2 -compact. Il suffit de considérer f n := (a n) 2 δ n qui satisfait f n BP 2,a mais x 2 f n δ au sens de la convergence faible dans P(R { }). 37
52 38 (ii) cependant O a BP 2,a avec O a := {ρ P 2 (R d ), x 2 ρ(dx) < a} ouvert puisque Oa c est fermé au sens de la convergence dans W 2. n effet, le Théorème affirme que W 2 (f n, f) 0 implique x 2 f n x 2 f. Distance dans P(R d ). Terminons cette section en présentant encore quelques distances. Ces distances vont être définies sur P(R d ) tout entier, sur la partie P k (R d ) de P(R d ) ou sur P G := P(R d ) G, avec G espace vectoriel de la forme G := {T M 1 (R d ); T, v k <, T,k = 0} pour un certain k 0 et une certaine fonction k : R d R δ telle que k(v) C v k pour tout v R d. Il est important de garder à l esprit que toutes ces distances sont essentiellement topologiquement équivalentes à la topologie de la convergence faible et qu elles sont essentiellement uniformément topologiquement équivalentes entres elles. Le essentiellement signifie qu il faut éventuellement se restreindre à des ensembles (assez) bornés. C est-à-dire plus précisément, pour deux quelconques de ces distances, disons D 0 et D 1 chacune définie sur P G0 et P G1, il existe α i, k 0 tels que pour tout a > 0 il existe C telle que f, g BP k,a P G0 P G1 D i (f, g) C [D 1 i (f, g)] α i i = 0, 1. A titre d exemple nous donnerons une série de résultats de comparaison entre distances. Certaines nous serons utile dans la suite de ce cours. Commençons par généraliser la distance construite dans le lemme xemple (distance liée à une famille dense) Soit = R d. (i) tant donnée une suite (ϕ k ) dense dans C 0 () et une suite (a k ) de réels strictement positifs telle que la série ((a k ϕ k )) converge, l application D(µ, ν) := a k µ ν, ϕ k k=1 définit une distance sur P(). (ii) Si (ϕ k ) est une suite de Lip() et si la série ((a k ϕ k )) converge et est de somme A, alors l application d définie ci-dessus est encore une distance, et de plus µ, ν P 1 () D(µ, ν) A µ ν KR. xemple (distance de type Fourier) Soit = R d et s (0, 1]. On définit G 1 := {ρ M 1 (), ρ, v <, ρ, 1 = 0} et la norme associée (1.6.29) ρ G, ρ s := sup ξ R d ˆρ(ξ) ξ s,
53 ainsi que dans P 1 () la distance D(f, g) = f g s. De même, lorsque s (1, 2], on définit l espace G 2 := {ρ M 1 (), ρ, v 2 <, ρ, 1 = ρ, v j = 0 j = 1,..., d} et la norme associée s gâce à (1.6.29), ainsi que dans P G2 () la distance D(f, g) = f g s. xemple (norme de Sobolev négative) Soient = R d et s (d/2, d/2+ 1/2). Dans G 1 introduit dans l exemple , on définit la norme ρ G 1, ρ G1 = ρ Ḣ s (R d ) := ˆρ(ξ). ξ s De même, lorsque s [d/2 + 1/2, d/2 + 1), dans G 2 introduit dans l exemple on définit la norme ρ G 2, ρ G2 = ρ Ḣ s (R d ) := ˆρ(ξ). ξ s L 2 L 2 39 Lemme Soient f, g P(R d ). Pour k (0, ) on définit { } M k := max (1 + x k ) f(dx) ; (1 + x k ) g(dx). R d R d On a les inégalités suivantes : (1.6.30) q (1, ), k (q 1, ) W 1 (f, g) W q (f, g) 2 q+1 q M (1 α)/q k+1 W 1 (f, g) α/q, avec α := (k + 1 q)/k [0, 1); (1.6.31) s (0, 1], f g s W s (f, g) W 1 (f, g) s ; (1.6.32) s (d/2, d/2 + 1), f g Ḣ s C f g s d/2 1, C = C(d, s) > 0; (1.6.33) s > 0, k > 0 [f g] 1 C M α 1 k+1 f g γ 1 s, C = C(d, s, k) > 0, avec α 1 := d d + k(d + s), γ 1 := k d + k(d + s) ; (1.6.34) s 1, k > 0, [f g] 1 C Mα 2 k+1 f g γ 2 Ḣ s, C = C(d, s, k) > 0, avec α 2 := d/2 d/2 + k s, γ 2 := k d/2 + k s (0, 1/s).
54 40 Preuve du Lemme On procède en plusieurs étapes. tape 1. Preuve de (1.6.30). Pour f, g P q et π Π f,g on écrit d une part W 1 (f, g) ( x y π(dx, dy) ) 1/q ( ) 1/q x y q π(dx, dy) π(dx, dy), et on conclut à W 1 (f, g) W q (f, g) en prenant l infimum en π. D autre part, on a par inégalité de Hölder W q (f, g) ( ( ( 2 ) 1/q x y q 1 x y q 2 π(dx, dy) ) 1/(qr) ( x y q 1 r π(dx, dy) ) 1/(qr ) x y q 2 r π(dx, dy), ) 1/(qr) ( x y q 1 r π(dx, dy) ( x q 2 r + y q 2 r ) π(dx, dy) avec q = q 1 + q 2, q 1 r = 1 et q 2 r = k + 1, de sorte que r = k/(k + 1 q), q 1 = (k + 1 q)/k et q 2 = q (k + 1 q)/k. On obtient W q (f, g) ( (k+1 q)/(qk) q q k x y π(dx, dy)) (M k+1 ) (q 1)/(kq), où on remarque que (q 1)/(kq) 1/q et on conclut comme précédemment. tape 2. Preuve de (1.6.31). Soit π Π(f, g). On écrit ˆf(ξ) ĝ(ξ) = (e i v ξ e iw ξ ) π(dv, dw) R d R d e i v ξ e i w ξ π(dv, dw) R d R d C s R d R d v w s ξ s π(dv, dw), ) 1/(qr ), ce qui implique (1.6.31) en prenant le supremum en ξ R d et l infimum en π Π(f, g). tape 3. Preuve de (1.6.32). Soit la boule B R = {x R d ; x R}, R > 0. On écrit f g 2 = Ḣ BR ˆf(ξ) ĝ(ξ) 2 dξ + ˆf(ξ) ĝ(ξ) 2 dξ s ξ 2s BR c ξ 2s f g 2 dξ 1 ξ + 4 dξ 2(s 1) ξ 2s B R B c R C(d) R d 2(s 1) f g Rd 2s.
55 L inégalité (1.6.32) s en déduit en choisissant R := f g 1 1. tape 4. Preuve de (1.6.33). Introduisons la fonction de troncation χ R (x) = χ(x/r), R > 0, avec χ C (R d ), [χ] 1 1, 0 χ 1, χ 1 sur B(0, 1), supp χ B(0, 2), et la suite régularisante ω ε (x) = ε d ω(x/ε), ε > 0 avec par exemple ω(x) = (2π) d/2 exp( x 2 /2) (et donc ˆω ε (ξ) = ˆω(ε ξ) = exp( ε 2 ξ 2 /2)). Fixons ϕ W 1, (R d ) tel que [ϕ] 1 1, ϕ(0) = 0, definissons ϕ R := ϕ χ R, ϕ R,ε = ϕ R ω ε et écrivons (1.6.35) ϕ (df dg) = ϕ R,ε (df dg)+ (ϕ R ϕ R,ε ) (df dg)+ 41 (ϕ ϕ R ) (df dg). Pour le dernier terme, on a (1.6.36) (ϕ R ϕ) (df dg) (1 χ R ) ϕ (df + dg) B c R [ϕ] 1 x k+1 R k (df + dg) M k+1 R k. Afin de traiter le deuxième terme, on observe que ϕ R χ(x/r) + ϕ (χ R ) χ(x/r) + x R χ (x/r), de sorte que pour tout q [1, ] on a ϕ R L q C R d/q, pour une constante C qui ne dépend que de χ, d. Utilisant ensuite que ϕ R ϕ R,ε ϕ R R d ω ε (x) x dx C ε, il vient (1.6.37) (ϕ R ϕ R,ε ) (df dg) C ε. Pour traiter le premier terme, on utilise l identité de Parseval et on a ϕ R,ε (f g) = 1 2π ˆϕ R ˆω ε ( ˆf ĝ)dξ 1 2π ϕ ˆf ĝ R L 1 ξ s 1 exp( ε 2 ξ 2 /2) dξ ξ s L ( ) ( ) C R d (1 + y ) χ(y) dy f g s ε (d+s 1) z s 1 e z 2 2 dz (1.6.38) C R d ε (d+s 1) f g s. Réunissant les inégalités (1.6.36), (1.6.37) et (1.6.38), on obtient ( [f g] 1 C ε + M ) k+1 + R d ε (d+s 1) f g R k s.
56 42 On conclut à (1.6.33) en optimisant les paramètres ε et R. tape 5. Preuve de (1.6.34). On commence par écrire la même décomposition que précédemment ϕ (df dg) = ϕ R,ε (df dg)+ Le premier terme est contrôlé par ϕ R,ε (df dg) = avec ϕ R,ε Ḣs = ( (ϕ R ϕ R,ε ) (df dg)+ ˆϕ R,ε ξ s ( ˆf ĝ) ξ s ) 1/2 ξ 2 ϕ χ R 2 ξ 2(s 1) ˆω ε 2 dξ (ϕ ϕ R ) (df dg). ϕ R,ε Ḣs f g Ḣ s (1.6.39) (ϕ χ R ) L 2 ξ s 1 ˆω ε (ξ) L (ϕ χ R ) L 2 ε 1 s z s 1 ˆω(z) L C R d/2 ε (s 1). Le second terme et le dernier terme sont contrôlés comme à l étape 4 par C ε et M k+1 R k respectivement. n sommant, on obtient ( [f g] 1 C ε + M ) k+1 + R d/2 ε (s 1) f R k g Ḣ s. On conclut à (1.6.34) en optimisant encore les paramètres ε et R. Nous terminons ce chapitre par une variante du Lemme dans le cas d espaces non homogènes. Lemme Avec les mêmes notations que précédemment, on a les inégalités suivantes : (1.6.40) W1 (f, g) W 1 (f, g) 6 ( W 1 (f, g) + M 1/2 2 avec W 1 (f, g) := inf ( x y 1) π(dx, dy) π Π(f,g) 2 = sup ϕ glip 1 ϕ (f g)(dx) = sup ϕ W 1, 1 W 1 (f, g) 1/2 ), ϕ (f g)(dx), où on note ϕ glip la plus petite constante L telle que ϕ(y) ϕ(x) L ( x y 1) et on utilise les Théorèmes et ; de même pour σ > d/2 + 1 et s 1, k > 0 (1.6.41) 1 C f g H σ W 1 (f, g) 2C M s 1 k avec α := s (1 1 s+d/(2k) ). f g H s + C (2M k ) α f g 1 s+d/(2k) H s
57 Preuve du Lemme tape 1. Preuve de (1.6.40). La première inégalité étant triviale, nous démontrons seulement la seconde. Pour π Π(f, g) et R 1, on écrit W 1 (f, g) x y π(dx, dy) + x y π(dx, dy) B R B R (B R B R ) c 2R( x y 1) π(dx, dy) + ( x + y ) π(dx, dy) B R B R (B R B R ) c 2R ( x y 1) π(dx, dy) + 2 ( x + y ) x π(dx, dy) BR c R 2R ( x y 1) π(dx, dy) { + 2 ( ) 1/2 ( ) } 1/2 x 2 π 1 (dx) + x 2 π 1 (dx) y 2 π 2 (dy). R n minimisant par rapport à π Π(f, g) la quantité de droite, on obtient 43 R 1 W 1 (f, g) 2 R W 1 (f, g) + 4 R M 2. Si W1 (f, g) M 2 on choisit R := ( W 1 (f, g)/(2r)) 1/2 et si W1 (f, g) M 2 on choisit R := 1, ce qui finit d établir (1.6.40). tape 3. Preuve de (1.6.41). La première inégalité est triviale puisque W 1 (f, g) = f g (W 1, ) et Hs W 1,. Nous démontrons la seconde inégalité en reprenant la preuve (et les notations) de (1.6.34). Fixons ϕ W 1, (R d ) tel que ϕ W 1, 1, ϕ(0) = 0, et écrivons encore une fois ϕ (df dg) = Pour le dernier terme, on a (1.6.42) R > 0 ϕ R,ε (df dg)+ (ϕ R ϕ) (df dg) (ϕ R ϕ R,ε ) (df dg)+ B c R (ϕ ϕ R ) (df dg). ϕ x k R k (df + dg) M k R k. Le deuxième terme se traite comme dans la preuve de (1.6.34), de sorte que (1.6.43) R, ε > 0 (ϕ R ϕ R,ε ) (df dg) C ε. nfin, le premier terme est contrôlé par ϕ R,ε (df dg) = ˆϕ R,ε ξ ˆf s ĝ ξ s ϕ R,ε H s f g H s
58 44 avec pour tout R 1 et ε (0, 1] ϕ R,ε H s = ( ) 1/2 ξ 2 ϕ χ R 2 ξ 2(s 1) ˆω ε 2 dξ (1.6.44) ϕ χ R H 1 ξ s 1 ˆω ε (ξ) L C R d/2 ε (s 1). n sommant, on obtient ( W 1 (f, g) C ε + M ) k R + k Rd/2 ε (s 1) f g H s ( ) C 2M s k M s 1 + R d/2+(s 1) k f g k R k H s ε (0, 1], R 1 R 1, où on a choisit ε = 1/R k. Si f g H s 2 Mk s on choisit R = 1 et si f g H s 2 Mk s on optimise R 1 ce qui conduit à (1.6.41). xercice Peut-on établir une inégalité du type (1.6.45) f g H s f g Ḣ s C ( f g α 1 H s + f g α 2 H s )? 1.7 Complements On définit la distance W dans P() par de sorte que encore une fois W (f, g) := inf π Π(f,g) x y L ( 2,dπ), X, Y N W (µ N X, µ N Y ) = w (X, Y ). Il faut faire attention avec la distance W puisque W ( (1 1 n )δ n δ a, δ 0 ) = a et pourtant (1 1 n )δ n δ a δ 0. Les résultats suivants sont énoncés dans [23] µ n, µ κ > 0, µ n µ = W (µ n, µ) 0, µ ρ δ > 0 δ > 0, µ n µ = W (µ n, µ) 0, µ ρ δ > 0 sur suppµ δ > 0, dist(suppµ n, suppµ) 0, µ n µ = W (µ n, µ) 0. On peut également définir la distance de Zolotarev par Z r (µ, ν) := sup ϕd(µ ν), ϕ Λ r R
59 45 pour r > 1 où Λ r est l espace des fonctions holdériennes d exposant r telles que [ϕ] l 1 où l est le plus grand entier strictement inférieur à r (l = [r] si r / N et l = r 1 si r N). La propriété remarquable de cette distance est (W r ) r C r Z r. Soit (Ω, A, P) un espace de probabilité assez grand de sorte qu il existe des va X et Y (indépendantes) et de loi µ et ν pour tout µ, ν P(). Il est usuel de définir les distances W p et W LP par leur interprétation probabiliste W p (µ, ν) = inf{([ Y X p ]) 1/p, loi de X = µ, loi dey = ν} et W LP (µ, ν) = inf{ε > 0; (X, Y ); loi de X = µ, loi dey = ν et P( Y X > ε) < ε}, où dans la première définition désigne l espérance relative à la mesure de probabilité. On remarque alors que les problèmes d optimisation suivants sont équivalents inf{[ Y X 2 ])} = inf{(x 2 ) + (Y 2 ) 2 (XY )} sup (XY ) maximiser la corélation de X, Y. Ainsi pour réaliser la distance W 2 (µ, ν) par une paire de va (X, Y ) le pire des choix est de les prendre indépendantes, ce qui correspond au plan de transport π = µ ν. Pour ρ D(R d ) on peut définir la mesure empirique régulière X R dn ρ N X(z) := 1 N N ρ(z x i ), i=1 pour laquelle on a (1.7.46) ρ N X ρ N Y L 2 ρ L 2 w 2 (X, Y ). On n a pas en revenche l inégalité inverse puisque par exemple si x i = x 1 et y j = y 1 pour tout i 2 et si y 1 x 1 δ, suppρ B(0, δ), alors ρ N X ρn Y TV ρ N X ρn Y L 2 = 2 << 1 δ x 1 y 1 = 1 δ w 2(X, Y ).
60 46 Voici la preuve de (1.7.46). On fixe ici σ S N ρ N X ρ N Y 2 L 2 = = = R d 1 N 1 N 2 R d 1 N 2 1 N 2 = 1 N = 1 N = N ρ(z x i ) 1 2 N ρ(z y i ) dz N i=1 i=1 2 N (ρ(z x i ) ρ(z y σ(i) )) dz N i,j=1 i=1 (ρ(z x i ) ρ(z y σ(i) )(ρ(z x j ) ρ(z y σ(j) ))dz R d N { 1 2 (ρ(z x i) ρ(z y σ(i) )) } 2 (ρ(z x j) ρ(z y σ(j) )) 2 dz i,j=1 N i=1 R d (ρ(z x i ) ρ(z y σ(i) )) 2 dz R d N ( 1 2 (x i y σ(i) ) ρ(z + t (x i y σ(i) ))dt) dz i=1 R d R d ρ 2 dz 1 N 0 N (x i y σ(i) ) 2, i=1 et il suffit de prendre l infimum de ces quantités en σ S N pour conclure. Retour à N /S N et P N (). Fixons N. Dans le cas où est un espace compact, l application Π N : N /S N P N (), X µ N X = 1 N δ xi, N est une bijection entre espaces compacts et elle est continue pour les distances w 1 et KR d après le Lemme (iii) et pour les distances w 1 et D d après le Lemme (ii). Cette application est donc un homéomorphisme. Plus généralement, l application Π N est un homéomorphisme de (N /S N, w p ) dans (P N (), D), dès que D métrise la topologie faible de P(). Cela provient d une part de ce que D est alors topologiquement uniformément équivalente à D au sens où il existe un module de continuité ω tel que D(µ, ν) ω( D(µ, ν)) et D(µ, ν) ω(d(µ, ν)) pour tout µ, ν P(). n effet, il suffit de poser ω(r) := sup µ,ν P(), D(µ,ν) r et de vérifier que ω(r) 0 lorsque r 0. D(µ, ν) n fait le Théorème affirme beaucoup mieux. Il dit que l application Π N est une isométrie entre ( N /S N, w p ) et (P N (), W p ), et ceci est vrai pour 0 p < (est-ce aussi vrai lorsque p =?) et pour un espace polonais localement compact. n particulier, on a : i=1
61 Lemme Soient un compact, D une distance métrisant la topologie faible de P() et p (0, ). Pour tout N, l application Π N est un homéomorphisme de ( N /S N, w p ) dans (P N (), D) uniformément en N, au sens où il existe un module de continuité ω Π = ω(d, w p ) tel que X, Y N D(µ N X, µn Y ) ω Π(w p (X, Y )) et w p (X, Y ) ω Π (D(µ N X, µn Y )). Remarquons enfin que pour toute distance D sur P(), on définit d D sur N ou N /S N en posant d D (X, Y ) := D(µ N X, µn Y ) Notes bibliographiques Pour l essentiel, ce chapitre développe la théorie des espaces de probabilité du point de vue topologique et métrique. D une manière générale les ouvrages qui font référence sont les livres classiques de probabilité [16, 3, 14] et les livres récents (mais déjà classiques) d analyse [1, 50, 52]. On peut également citer les cours d introduction à l analyse fonctionnelle [20, 25] ainsi que le livre [38] dans lequel un très grand nombre de distances sont définies sur l espace P(). De manière plus détaillée, les sections 1.1 et 1.3 reprennent une partie du cours de P.-L. Lions [23]. Le matériel de la section 1.2 est extrêmement classique et basique, et se trouve déjà dans [20, 25]. La section 1.4 est extraite du livre de C. Villani [50]; ce sont essentiellement des résultats de l introduction et des chapitres 1 et 7 (dont la démonstration est parfois laissée en exercice). Les lemmes et sont tirés de [38]. Les résultats présentés dans la section 1.5 sont tirés du livre de S.N. thier et T.G. Kurtz [16] et des livres de Villani [50, 52]; d autres références classiques sont [14], [3, Chapitre 5]. Le théorème de Prokhorov est démontré dans [16, chapitre 3, Théorème 2.2], voir également [14] ou [3, Chapitre 5]. La distance de Lévy- Prokorov est étudiée dans de nombreux ouvrages de probabilité; le théorème est démontré dans [16, chapitre 3, Théorèmes 1.7 et 3.1], voir également [3, Theorem 6.8]. Les théorèmes concernant les distances MKW sont tirés de [50, 52] comme précisé dans la section. La section 1.6 commence par quelques observations très classiques et assez triviales. L ébauche de la preuve du théorème est inspirée de la preuve de [4] qui a été reprise dans [52]. Les résultats de comparaison de distance dans P(R d ) exposés dans cette section sont sûrement également bien connues. On pourra consulter le livre [38] de S.T. Rachev et L. Rüschendorf dans lequel une série de résultats concernant l équivalence des distances construites sur l espace des probabilités P(R d ) est présentée. Cette même question est également abordée dans les très agréables notes [10] de J.A. Carrillo et G. Toscani. La preuve du Lemme est tirée de [32].
62 48
63 Chapitre 2 Fonctions continues sur N et P() Dans tout ce chapitre désignera un espace polonais, un espace polonais localement compact ou un espace compact. 2.1 Fonctions continues et fonctions polynomiales sur P() Définition Soit un espace polonais. On dit qu une fonction U : P() R est continue si ρ n ρ faiblement implique U(ρ n ) U(ρ). On note U C(P()). On note C b (P()) l espace des fonctions continues et bornées. On note UC(P()), l espace des fonctions uniformément continues et bornées sur P() : étant fixée une distance D métrisant la topologie faible, il existe un module de continuité ω (c est-à-dire une fonction ω : R + R + continue et telle que ω(0) = 0) tel que ρ, η P() U(η) U(ρ) ω(d(ρ, η)). Lorsque est compact alors P() est compact et UC(P()) = C b (P()) = C(P()). Le prototype de la fonction continue est le monôme de degré 1 : étant donnée une fonction ϕ C b () on pose ρ P() R ϕ (ρ) = ϕ dρ. On définit bien ainsi R ϕ C b (P()). A noter également que si ϕ Lip() alors R ϕ Lip(P()) UC(P()), où Lip(P()) correspond ai cas où le module de continuité peut être pris de la forme ω(s) = L s, L 0, dans la définition Plus généralement, pour k N et ϕ C b ( k ) donnés, on définit R ϕ : P() R par R ϕ (m) := ϕ(x 1,..., x k ) m(dx 1 )... m(dx k ) = m k, ϕ. k 49
64 50 On dit que R ϕ est un polynôme de degré (au plus) k, et ϕ correspond aux coefficients. On définit la multiplication par un scalaire de manière évidente. On définit l addition de deux polynômes R 1 et R 2, respectivement associés aux fonctions ϕ 1 C( k 1 ) et ϕ 2 C( k 2 ), avec disons k 1 k 2, comme le polynôme de degré au plus k 2 associé à la fonction ϕ(x 1,..., x k2 ) = ϕ 1 (x 1,..., x k1 ) + ϕ 2 (x 1,..., x k2 ). On a bien ainsi R ϕ (m) = R 1 (m)+r 2 (m) pour tout m P(). On définit le produit de R 1 et R 2 comme le polynôme de degré au plus k 1 + k 2 associé à la fonction ψ(x 1,..., x k1, x k1 +1,..., x k1 +k 2 ) = ϕ 1 (x 1,..., x k1 ) ϕ 2 (x k1 +1,..., x k1 +k 2 ). On a bien ainsi R ψ (m) = R 1 (m) R 2 (m) pour tout m P(). On note P(P()) l ensemble des polynômes qui a donc une structure d algèbre unitaire. Lemme Soit un espace polonais localement compact. Alors P(P()) C b (P()) Preuve du Lemme On fixe ϕ C b ( k ). D une part clairement R ϕ est bornée. D autre part, étant donnée une suite (ρ n ) de P() et ρ P() telles que ρ n ρ faiblement dans P(), on a en particulier ρ k n ρ k pour la dualité de C c () k, donc pour la dualité de C c ( k ) (ici on utilise le théorème A.2.2 de Stone-Weierstrass) et donc enfin pour la dualité de C b ( k ) (ici on utilise le lemme d équivalence des convergences). On en déduit R ϕ (ρ n ) R ϕ (ρ). Théorème Lorsque est compact, l algèbre des polynômes P(P()) est dense dans C(P()). Cela signifie que pour toute fonction U C(P()) il existe une suite de polynômes R j = R ϕj, avec ϕ C( j ), (et j si U n est pas un polynôme!) telle que R j U dans C(P()) : sup U(m) R j (m) 0 lorsque j. m P() Preuve du théorème Comme est compact, l espace P() est compact. Il est clair que P(P()) sépare les points de P() : pour ρ 1 ρ 2 P() il suffit de prendre une fonction ϕ C() telle que ρ 2, ϕ ρ 1, ϕ. On applique le théorème de Stone-Weierstrass (mais cette fois sur le compact P()) et on obtient que l algèbre unitaire P(P()) est dense dans C(P()). On note M(P()) l ensemble des monômes : ce sont les polynômes associés aux fonctions tensoriées ϕ = ϕ 1... ϕ k, ϕ i C(). Lorsque est compact, on montre comme ci-dessus que l algèbre engandrée par les monômes est dense dans C(P()). Cela explique pourquoi on peut se restreindre à considérer des fonctions testes tensorisées lorsque l on souhaite montrer des théorèmes de convergence. On reviendra sur ce point dans le chapitre suivant.
65 Considérons φ : R 2 R de classe C 1, φ(, 0) = 0 et S t : P(R) P(R) le semigroupe de la chaleur sur R. Comme S t : P(R) (L 1 L )(R), ρ ρ t := γ t ρ, pour tout t > 0, on peut définir Φ t (ρ) := φ(x, ρ t (y)) dxdy, R 2 et Φ t C b (P(R)). Il est à noter que si φ(x, s) = ψ(x), ψ C c (R) alors Φ t est le polynôme associée à ψ γ t. Dans le cas général, Φ t n est pas un polynôme. Considéons S t : P(R d ) P(R d ), ρ ρ t un semi-groupe non linéaire (par exemple celui obtenu en résolvant l équation de la Boltzmann ou une équation de la chaleur non linéaire). Pour tout φ C c (R d ), la fonction Φ t (ρ) := R φ (ρ t ) appartient à C b (P()) mais n est pas un polynôme. La construction des polynômes ci-dessus nous a permis de définir une application (2.1.1) C b ( k ) C b (P()), ϕ R ϕ. L application π N C. Inversement, étant donnée une fonction U C b(p()), on définit pout tout N une fonction symétrique sur N en posant (2.1.2) X N u N (X) := U(ˆµ N X ). Par exemple, pour un polynôme R = R ϕ de degré 1, avec donc ϕ C b (), on calcule 51 X = (x 1,..., x N ) R ϕ (µ N X ) = 1 N N ϕ(x i ). i=1 Pour tout k, N N en combinant (2.1.1) et on définit une application (2.1.3) C b ( k ) C sym ( N ), ϕ ϕ (N) (X) = R ϕ (µ N X ). Plus précisémment, pour tout ϕ C b ( k ) et tout X N, on a ( ( ) R ϕ (µ N X ) = 1 N 1 N (2.1.4) ϕ(y 1,..., y k ) δ xi1 )(dy 1 )... δ xik (dy k ) N N k = 1 N k N i 1,...,i k =1 i 1 =1 ϕ(x i1,..., x ik ) = ϕ (N) (X). D autre part, pour une fonction ψ C( N ) notons ψ la fonction symétrisée de ψ, c est-à-dire celle obtenue en posant ψ(x) := 1 (S N ) σ S N ψ(x σ(1),..., x σ(n) ). Le résultat suivant établit que pour ψ = ϕ 1 N k, ϕ C b ( k ), on a ψ ϕ asymptotiquement lorsque N. i k =1
66 52 Lemme Soit un espace métrique quelconque et soit ϕ C b ( k ). Alors (2.1.5) sup et donc X N /S N (2.1.6) lim sup N ϕ 1 (N k) (X) R ϕ (ˆµ N X) 2 k2 N ϕ ϕ 1 (N k) L ( N ) sup R ϕ (ρ). ρ P() Preuve du lemme D une part, par définition ϕ 1 (N k) (X) = 1 ϕ(x σ(1),..., x σ(k) ). (S N ) σ S N D autre part, on définit pour tout k N : A N,k := {(i 1,..., i k ); i l i l l l }, son complémentaire B N,k := {(i 1,..., i k ); l l t.q. i l = i l } et pour tout (i 1,..., i k ) A N,k l ensemble C N,k (i 1,..., i k ) := {σ S N ; σ(1) = i 1,..., σ(k) = i k }. stimons le cardinal de B N,k et des C N,k. Pour tout (i 1,..., i k ) A N,k on a C N,k (i 1,..., i k ) = (N k)! puisqu il convient de choisir σ(k + 1) parmi N k termes,..., σ(n 2) parmi 2 termes restants. Pour la même raison A N,k = N... (N k+1). n particulier A N,k C N,k = N! = S N et B N,k = 1 (1 1 k 1 )... (1 N k N N ) ( k 1 ( = 1 exp ln 1 l ) ) N l=0 ( ) k 1 l 1 exp 2 N 2 N l= (k 1) N k2 N, car ln(1 x) 2 x x [0, 1/2] et e x 1 + x x R. On a alors R ϕ (µ N X) = 1 ϕ(x N k i1,..., x ik ) + 1 ϕ(x N k i1,..., x ik ) (i 1,...,i k ) A N,k (i 1,...,i k ) B N,k 1 = ϕ(x i1,..., x ik ) = 1 A N,k C N,k (i 1,...,i k ) A N,k σ C N,k (i 1,...,i k ) ( 1 + N 1 ) ϕ(x k i1,..., x ik ) + 1 ϕ(x A N,k N k i1,..., x ik ) (i 1,...,i k ) A N,k (i 1,...,i k ) B N,k 1 ϕ(x σ(1),..., x σ(k) ) S N σ S ( N 1 +O N 1 k A N,k + 1 ) N k B N,k ϕ, A N,k
67 53 ce qui prouve bien (2.1.5). On en déduit ϕ 1 (N k) L ( N ) sup R ϕ (µ N X ) + 2 k2 X N ϕ L ( k ) N et (2.1.6) à la limite N. 2.2 Fonctions continues symétriques sur N lorsque N Supposons dans un premier temps compact. tant donnée une fonction U C(P()) on définit pout tout N une fonction symétrique sur N en posant (2.2.7) X N u N (X) := U(µ N X). On définit ainsi une application πc N : C(P()) C(N ). Cette application est d une certaine manière l application duale de l application π N introduite à la définition Le résultat suivant concerne le problème inverse. Proposition Pour toute fonction u N C( N ) symétrique il existe une fonction U N C(P N ()) telle que (2.2.7). De plus, il existe une fonction ŪN C(P()) telle que Ū P N () U N et donc telle que (2.2.7). Plus précisément, fixons une distance D sur P() et notons d D la distance sur N /S N définie par d D (X, Y ) = D(µ N X, µn Y ) pour tout X, Y N. Si u N satisfait X, Y u N (Y ) u N (X) ω(d D (X, Y )), pour un module de continuité ω, alors U N et ŪN satisfont uniformément en N f, g P N () f, g P() U N (g) U N (f) ω(d(f, g)), ŪN(g) ŪN(f) ω(d(f, g)). Preuve du Lemme D une part, il suffit de définir U N (ν) := u N (X) pour tout ν P N () en choisissant X N quelconque tel que µ N X = ν. D autre part, on définit ŪN grâce au Lemme A.1.1 de Tietze-Urysohn en prenant K = P(), A = P N (). Plus intéressant pour les applications, on a le résultat suivant. Théorème Soit (u N ) une suite de fonctions telle que u N : N R symétrique. On suppose qu il existe C et un module de continuité (sous-linéaire) ω tels que N, X, Y N u N (X) C, u N (Y ) u N (X) ω(d D (X, Y )). Alors il existe une sous-suite, notée (u N ), et une fonction U C(P()) telle que (2.2.8) sup X N u N (X) U(µ N X ) On notera parfois u N U fort dans C b (P N ()) N. 0. N
68 54 Preuve 1 du Théorème On définit une suite (U N ) de C(P N ()) en posant U N (µ N X ) := u N(X) µ N X P N(). Comme D(µ N Y, µn X ) = d D(Y, X), U N est continue avec module de continuité ω sur l espace (P N (), D). On prolonge U N à (P(), W 2 ) en une fonction ŪN grâce à la proposition Celle-ci a pour module de continuité ω et est bornée par C + ω(diam(p())). Grâce au théorème d Ascoli il existe U C(P()) et une sous-suite qui converge vers U au sens de la norme sup : sup U(m) ŪN(m) 0 lorsque N. m P() On conclut en se restreignant à m = µ N X. Preuve 2 du Théorème On considère d abord des entiers du type N = 2 n, n N, et on remarque qu on a ainsi une injection (isométrique) P 2 k() P 2 n() si k n. Avec les notations de la Proposition 2.2.5, on définit U k,n : P 2 k() R par U k,n := U N P2 k() ou encore X 2k U k,n (µ 2k X ) = U 2 n(µ2k X ) = u 2n(X,..., X) =: u } {{ } 2 n( X n ). 2 n k fois Par hypothèse, on a pour tout µ 2k X, µ2k Y P 2 k() U k,n (µ 2k X ) U k,n(µ 2k Y ) ω(w p( X n, Ỹ n )) = ω(w p (µ 2ñ X n, µ 2n Ỹ n )) = ω(w p (µ 2k X, µ 2k Y )). n appliquant le théorème d Ascoli à la suite de fonctions (U k,n ) n 1 on déduit qu il existe une sous-suite (U k,n k l ) l 1 avec {n k+1 l, l 1} {n k l, l 1} et une fonction U k C(P 2 k()) telles que µ 2k X P 2 k() U k,n k l (µ2k X ) U k(µ 2k X ) lorsque l, et pour tout µ 2k X, µ2k Y P 2 k() (2.2.9) U k (µ 2k X ) U k(µ 2k Y ) ω(w p(µ 2k X, µ2k Y )). De P 2 k() P 2 k+1() on tire que U k+1 (µ 2k X ) = U k(µ 2k X ) pour tout µ2k X P 2k(). On définit alors U C(P()) en posant U(ρ) = U k (ρ) si ρ P 2 k() et en l étendant par continuité à P() grâce à (2.2.9). La fonction U ainsi construite admet comme module de continuité ω pour la distance W p. nfin, par un procédé d extraction diagonale, on peut construire une seule sous-suite U Nl, N l = 2 n l, telle que ρ k 1P 2 k() U Nl (ρ) U(ρ) 0 lorsque l, ce qui est bien (2.2.8) lorsque l on traduit cela en terme de (u N ).
69 Remarque Pour u C 1 ( N ), on a d où on tire u(y ) u(x) N i u L y i x i, (i) i u L C N = u(y ) u(x) max iu L (ii) (iii) i=1 55 N y i x i C w 1 (Y, X), ( i u 2 L C N ) 1/2 ( N = u(y ) u(x) N ) 1/2 i u 2 L y i x i 2 i i u L C = u(y ) u(x) i et bien sûr (i) (ii) (iii). 2. On a pour tout X N /S N u k (X) := max 1 i k x i U(m X ), i=1 i=1 i=1 C w 2 (Y, X), N i u L max y i x i 1 i N i=1 C w (Y, X), avec U(m) := sup(suppm). 3. Si (u N ) est une suite de fonctions continues symétriques justes bornées ( C > 0 N u N C), alors les limites sup et les limites inf suivantes existent U (m) = limsup N, m N X m u N (X), U (m) = liminf N, m N X m u N (X). st-il clair que si U = U =: U alors U C(P()) et a posteriori (u N ) admet un module de continuité (au moins sur la sous-suite qui converge)? xercice Que devient le Théorème lorsqu on suppose que la fonction F N définie en (1.3.4) n est pas constante, mais vérifie seulement x, y, X, Y N 1 F N (x, µ N 1 X ) F N (y, µ N 1 Y ) ω ( x y + w 1 (X, Y ))? On généralise au cas non compact la variante du résultat d Ascoli déjà établie dans le cas d un espace compact. Théorème (variante d Ascoli). Soit = R d (ou un espace polonais localement compact). Soit (u N ) une suite de C b ( N ) telle que X, Y N u N (X) C, u N (X) u N (Y ) ω(w p (µ N X, µn Y )), pour une constante C, un module de continuité ω et un indice p (0, ). Alors il existe une sous-suite (N ), une fonction U C b (P p () W p ) telles que pour tout k > p, a > 0 sup u N (X) U(µ N X ) 0 lorsque N. X N, M k (µ N X ) a
70 56 Preuve du Théorème On reprend la deuxième preuve du Théorème On considère des entiers du type N = 2 n, n N, et on remarque qu on a ainsi une injection (isométrique) P 2 j() P 2 n() si j n. On définit U j,n : P 2 j() R, par µ 2j X P 2 j() U j,n (µ 2j X) = u 2 n(x,..., X) =: u } {{ } 2 n( X n ), 2 n j fois et on note simplement U N = U n,n C b (P N ()). Par hypothèse, pour tout µ 2j X, µ2j Y P 2 j(), on a U j,n (µ 2j X) U j,n (µ 2j Y ) ω(w p ( X n, Ỹ n )) = ω(w p (µ 2ñ X n, µ 2n Ỹ n )) = ω(w p (µ 2j X, µ 2j Y )). Pour tout j fixé, l ensemble P 2 j() BP k,a étant compact (par exemple pour la distance W p ), on peut appliquer le théorème d Ascoli à la suite de fonctions (U j,n ) n 1 de C(P 2 j() BP k,a ), et on déduit qu il existe une sous-suite (U j,n j avec {n j+1 l l) l 1, l 1} {n j l, l 1} et une fonction U j C(P 2 j() BP k,a ) telles que (2.2.10) µ 2j X P 2 j() BP k,a U j,n j(µ 2j X ) U j(µ 2j X ) lorsque l, l et pour tout µ 2j X, µ2j Y P 2 j() BP k,a (2.2.11) U j (µ 2j X) C, U j (µ 2j X) U j (µ 2j Y ) ω(w p (µ 2j X, µ 2j Y )). De P 2 j() P 2 j+1() on tire que U j+1 (µ 2j X ) = U j(µ 2j X ) pour tout µ2j X P 2 j(). On définit alors U C b (P p () Wp ) en posant U(ρ) = U j (ρ) si ρ P 2 j() et en l étendant par continuité à P k (), ou même P p (), grâce à (2.2.11) et au Théorème de densité. La fonction U ainsi construite admet comme module de continuité ω pour la distance W p. nfin, par un procédé d extraction diagonale, on peut construire une seule sous-suite, notée U N, N = 2 n, telle que ρ K a := j 1 P 2 j() BP k,a U N (ρ) U(ρ) 0 lorsque N. Cette dernière convergence est en fait uniforme sur Ka n effet, on écrit avec Kj a := P 2 j BP k,a. n sup ρ K N a U N (ρ) U(ρ) sup η Ka N inf { U N (ρ) U N (η) + U N (η) U(η) + U(ρ) U(η) } η Ka j sup U N (η) U(η) + 2 sup ω(w p (ρ, Ka j )), η Ka J ρ BP k,a et le premier terme tend vers 0 lorsque N tend vers l infini pour tout j fixé (c est une des conséquences du théorème d Ascoli appliqué dans C(P 2 j() BP k,a )) alors que le second terme tend vers 0 lorsque j tend vers l infini (c est la conclusion du Théorème ).
71 Notes bibliographiques. Ce chapitre reprend une partie du cours [23] de P.-L. Lions dans lequel n est traité toutefois que le cas compact. Le lemme apparaît déjà dans l artcile [17] de F. Grünbaum.
72 58
73 Chapitre 3 Théorème de Hewitt et Savage et notion de chaos Dans tout ce chapitre désignera un espace polonais localement compact (donc encore un fois, soit est un compact, soit = R d ) sauf mention explicite du contraire. 3.1 Le théorème de Hewitt-Savage Commençons par quelques définitions. Définition (Mesures symétriques et compatibles de P( N ), N < ). Soit un espace polonais. (i) On dit que m P( N ), N N, est symétrique, on note m P sym ( N ), si A B N, σ S N m(a σ ) = m(a), où A σ = A σ(1)... A σ(n) si A = A 1... A N, A i B. (ii) tant donnée une probabilité m P( N ), N N, on définit sa marginale m k d ordre k, 1 k N, en posant m k ( ) = Π k m = Π N,k m := m(, dy k+1,..., dy N ) N k ou de manière encore plus explicite, pour tout A B k, (Π N,k m)(a) = m k (A) = m(a N k ). (iii) On dit qu une suite finie ou dénombrable (m N ) de mesures de probabilité de P( N ), N N, est compatible si N, k, k N Π N,k m N = m N k = mk. Définition (L espace P sym ( ) des mesures symétriques de P( )). Soit un espace polonais. (i) tant donnée m P( ) 1, on définit sa marginale m k d ordre k N, en 1 voir la section A.5 de l annexe pour des rappels sur les espaces produits 59
74 60 posant m k (A) = m(c A ) A B k, où C A := A B si A B k. La suite (m N ) N 1 est alors compatible au sens de la Définition (iii) : N, k, k N on a Π N,k m N = m k. (ii) On dit que m P( ) est symétrique, on note m P sym ( ), si ses marginales m k sont symétriques, i.e. k 1 m k P sym ( k ). Définition (L espace P( ) des mesures produits de P( )). Soit un espace polonais. On dit que m P( ) est une mesure produit s il existe une mesure de probabilité µ P() telle que A = A 1... A k B k m(c A ) = k µ(a j ). On note alors m = m µ P( ), et on remarque que m µ P sym ( ), de sorte que P( ) P sym ( ). Théorème (de Hewitt et Savage). Soit un espace polonais localement compact. Soit (π k ) k 1 une suite de P( k ). Il y a équivalence entre (i) - (π k ) k 1 est symétrique et compatible; (ii) - il existe π P sym ( ) telle que π k = Π k π k 1; (iii) - il existe ˆπ P(P()) telle que π k = ˆΠ k (ˆπ) := ρ k ˆπ(dρ) k 1; P() (iv) - il existe π P( P( )) telle que π k = Π k ( π) := (Π k α) π(dα) k 1. ep( ) Dès qu il n y aura pas ambiguïté, on notera avec la même lettre π les trois mesures de probabilité π, π, ˆπ, on identifiera les trois espaces P sym ( ), P(P()), P( P( )) que l on aura tendance à noter P(P()), et on notera simplement π k la suite de marginales définie ci-dessus à partir de π, ˆπ et π. Remarque On écrit également l égalité du point (iii) sous la forme k 1 π k (dx 1,..., dx k ) = P() i=1 j=1 k ρ(dx i ) ˆπ(dρ). 2. Pour ˆπ P(P()) et k 1 le sens à donner à l intégrale ˆπ k := ρ k ˆπ(dρ) P( k ) P()
75 est le suivant : pour tout ϕ C b ( k ) (3.1.1) ϕ(x) ˆπ k (dx) = ρ k ˆπ(dρ), ϕ = ρ k, ϕ ˆπ(dρ) k P() P() avec (3.1.2) ρ k, ϕ = ϕ(x 1,..., x k ) ρ(dx 1 )... ρ(dx k ) = R ϕ (ρ). k Or, ρ R ϕ (ρ) C b (P()) comme nous l avons vu à la section 2.1 et sur l espace polonais P() on a défini une tribu grâce au Lemme Ainsi donc, la dernière intégrale dans (3.1.1) est bien définie au sens de Lebesgue. 3. Insistons sur le point fondamental précédent. La relation liant ˆπ et π k est : (3.1.3) ϕ C b ( k ) π k, ϕ = R ϕ (ρ) ˆπ(dρ). P() 4. Pour α = δ µ et β = 1 2 δ µ δ µ 2 on trouve respectivement α k (dx 1,..., dx k ) = β k (dx 1,..., dx k ) = 1 2 k µ(dx i ). i=1 k µ 1 (dx i ) i=1 k µ 2 (dx i ). 5. Concernant la dernière intégrale dans (iv), on sait que P( ) est un espace polonais et on montrera que P( ) est un sous espace fermé de P( ), de sorte que l on peut munir P( ) de la tribu trace de B P( ) et définir ainsi au sens de Lebesgue cette intégrale. 3.2 Preuve du théorème de Hewitt-Savage. Nous allons essentiellement donner deux preuves de ce théorème. L une reprend l argument de. Hewitt et L.J. Savage et repose sur le théorème de Krein-Milman. L autre est due à P.L. -Lions et repose sur le théorème de Stone-Weierstrass. Le fait que (i) soit impliqué par (ii), (iii) ou (iv) est trivial. L implication (i) (ii) et l équivalence (iii) (iv) reposent sur des arguments de la théorie de la mesure assez standards. Les deux implications délicates sont donc (i) (iii) et (ii) (iv) Preuve de (iii) (i) et (i) (ii). (iii) (i). Pour π P(P()) donnée, il est clair que π k définie par (3.1.1)-(3.1.2) est symétrique et que la famille des (π k ) est compatible. (i) (ii). Les (π k ) étant compatibles, le théorème de Kolmogorov A.5.10 affirme qu il existe π P( ) unique caractérisée par π k (A) = π(c A ) pour tout A B k. Il est alors immédiat que π P sym ( ). i=1 61
76 Preuve de (i) (iii) dans le cas compact. On suppose de plus que est compact. On commence par définir π : P(P()) R comme forme linéaire en posant π(r ϕ ) = π j (ϕ) = ϕ(x 1,..., x j ) π(dx 1,..., dx j ) j pour tout polynôme R ϕ de degré j, avec donc ϕ C( j ). La compatibilité des (π j ) implique la linéarité de π. Grâce à la compatibilité et la symétrie de π N, pour ϕ C( j ), on a (3.2.4) π j (ϕ) = π N (ϕ 1 (N j) ) = π N ( ϕ 1 (N j) ). Grâce au lemme 2.1.4, on en déduit que π est continue pour la norme de C(P()) puisque pour tout R ϕ P(P()) et tout N N on a π(r ϕ ) = π N ( ϕ 1 (N j) ) et donc en passant à la limite N ϕ 1 (N j) C( N ) sup R ϕ µ N ϕ X + 2 j2 X N N π(r ϕ ) sup R ϕ (m) = R ϕ C(P()). m P() Comme les polynômes sont denses dans C(P()), il suffit de définir π en général en posant ψ C(P()) π, ψ = lim j π, R j pour une suite de polynômes R j ψ. On a π(1) = 1. nfin, si R ϕ 0 avec ϕ C( j ), cela signifie, par définition, R ϕ (m) 0 m P(), en particulier R ϕ µ N X 0. On conclut que π(r ϕ ) = lim π N( ϕ 1 (N j) ) lim inf [π N(R ϕ µ N X ) ϕ N N N ] 0. On a donc défini π comme forme linéaire continue positive de masse 1 sur C(P()), donc comme un élément de P(P()). nfin, on a bien (3.1.3) Preuve de (i) (iii) dans le cas général. On suppose maintenant seulement polonais et localement compact. Soit Ê = { } le compactifié d Alexandroff de qui est muni d une structure d espace métrique compact (voir la section A.4 de l annexe). Appliquant l implication (i) (iii) à la suite symétrique et compatible (π j ) de P( j ) P(Êj ), il vient (3.2.5) π P(P(Ê)) telle que π j = ρ j π(dρ) j 1. P( b )
77 Il s agit maintenant de montrer que supp π P(), ce qui permettra de considérer π P() = π comme un élément de P(P()), et terminera la preuve. A cette fin, on définit ˆρ P(Ê) la masse de dirac en, ˆρ({ }) = 1, et A := P(Ê) \ (P() {ˆρ}). De cette façon on a P(Ê) = P() A {ˆρ} disjoints deux à deux, et tel que ρ P() ρ() = 1, ρ A 0 < ρ() < 1, ˆρ() = 0. Comme par hypothèse π 1 P(), on a grâce à (3.2.5) 1 = π 1 () = ρ()π(dρ) P( ) b = ρ() π(dρ) + ρ() π(dρ) + ˆρ() π({ˆρ}) (3.2.6) P() }{{} A }{{} =1 =0 = π(p()) + ρ() π(dρ). A }{{} <1 Supposons par contradiction π(a) > 0. On déduit alors de (3.2.6) que 1 < π(p()) + π(dρ) π(p()) + π(a) + π({ˆρ}) = 1, A ce qui est absurde, et donc π(a) = 0. Combiné à (3.2.6), cela implique π(p()) = Preuve de (iii) (iv). Commençons par un lemme. Lemme Soit un espace polonais. L application Λ : P() P( ), µ Λ(µ) := m µ = µ est un homéomorphisme entre espaces topologiques dont l inverse est Λ 1 : P( ) P(), α = m µ Λ 1 (α) = Π 1 α = µ. Preuve du Lemme tape 1. Par définition l application Λ est bijective. Par définition également on munit P( ) de la topologie trace de P( ) que l on rappelle être définie pour une suite (α N ) de P( ) et α P( ) par α N α si, et seulement si, Π k α N Π k α dans P( k ) pour tout k 1 2. On en déduit en particulier que m µ n m µ dans P( ) implique µ n = Π 1 m µ n Π 1 m µ = µ, et donc Λ 1 est continue. tape 2. Λ est continue dans le cas compact. Soit µ n µ faiblement dans P(). Comme m µn P( ) un compact, il existe n une sous-suite, il existe m P() telle que m µn m faiblement dans P( ). Alors pour tout f = f 1... f k on a m µn (f) = µ n (f 1 )... µ n (f k ) µ(f 1 )... µ(f k ) = m µ (f). Cela permet d identifier m = m µ et montre (par unicité de la limite) que Λ est continue. 2 voir le lemme A.5.11 de l appendice 63
78 64 tape 3. Λ est continue dans le cas général. Le seul point à modifier est que maintenant la séquentielle compacité de la suite (m µn ) n est pas automatique : il faut vérifier un critère de tension. Puisque µ n µ, cette suites est tendue dans P() : ε > 0 il existe K ε compact tel que µ n (\K ε ) ε. Pour tout k 1 on définit le cylindre C k = C(K ε 2 k,..., K ε2 k) (avec k répliques de K ε2 k) et l ensemble K := C 1... C k... On vérifie, en utilisant un procédé d extraction diagonale de Cantor 3, que K est un compact de. De plus, on a n 1 m µn ( \K) m µn ( \C k ) ε. k=1 Cela implique que la suite (m µn ) est tendue, et on conclut de la même manière que précédemment. (iii) (iv). Supposons (iii) et définissons π := Λ ˆπ, soit donc pour toute fonction mesurable Φ sur P( ) Φ(α) π(dα) = Φ(α)(Λ ˆπ)(dα) = Φ(Λ(ρ)) ˆπ(dρ) = Φ(m ρ ) ˆπ(dρ). P( ) P( ) P() P() Choisissant Φ : P( ) P( k ), α Φ(α) := Π k (α), et remarquant que Π k (m ρ ) = ρ k, on obtient Π k (α) π(dα) = Π k (m ρ ) ˆπ(dρ) = ρ k ˆπ(dρ) = π k. P( ) P() P() (iv) (iii) Inversement, supposons maintenant (iv) et définissons ˆπ := Λ 1 π, soit donc pour toute fonction mesurable Φ sur P() P() Φ(ρ) ˆπ(dρ) = P() Φ(ρ)(Λ 1 π)(dρ) = Φ(Λ 1 (α)) π(dα) = Φ(Π 1 α) ˆπ(dα). P( ) P( ) Choisissant Φ : P() P( k ), ρ Φ(ρ) = ρ k, et remarquant que (Π 1 α) k = Π k α pour α P( ), on obtient P() ρ k ˆπ(dρ) = (Π 1 α) k ˆπ(dα) = (Π k α) ˆπ(dα) = π k. P( ) P( ) Preuve (directe) de (ii) (iv) dans le cas d un espace compact Lemme Supposons compact. Soit m P( ). Il y a équivalence entre (i) m P sym ( ); (ii) m(a σ ) = m(a) pour tout A B et pour tout σ S, avec S := {σ : N N bijective ; I N fini σ(i) = i i / I}, A σ := {X σ, X A}; (iii) m satisfait f = k f j C() k, σ S k j=1 m(f σ ) = m(f), avec f σ (X) = f(x σ ). n particulier, l espace P sym ( ) est fermé (au sens de la convergence faible) dans P( ), donc c est un espace convexe et compact. 3 voir la preuve du lemme ci-dessous
79 65 Preuve du Lemme L équivalence (i) (iii) est claire, il suffit d utiliser un argument d approximation dans les deux cas : f = limf n avec f n fonctions étagées si f C() et 1 A = limϕ n avec ϕ n+1 ϕ n C() si A est un ouvert, et de passer à la limite dans les définitions. L implication (ii) (i) ést immédiate, et l implication inverse est une conséquence du lemme de classe monotone (puisque les pavés engendrent la tribu B ). Pour montrer que m P sym ( ) il suffit maintenant d utiliser le critère (iii) : si (m n ) est une suite de P sym ( ) telle que m n m faiblement dans P( ) cela implique que (est équivalent à ce que) m n k m k faiblement dans P( k ) pour tout k 1, de sorte que en passant à la limite dans les relations (iii) pour m n on en déduit que m satisfait ces mêmes identités et que donc m P sym ( ). Comme P( ) est compact, cela prouve que P sym ( ) est compact. Lemme Soit m P( ). Il y a équivalence entre (i) m P( ) (ii) m satisfait µ P() f = k f j C b () k, m(f) = j=1 k µ(f j ). n particulier, l espace P( ) est fermé (au sens de la convergence faible) dans P( ). j=1 Preuve du Lemme lle est semblable à la preuve du Lemme Dans la suite, pour des ensembles F 1,..., F k B on note C(F 1,...,F k ) le cylindre C(F 1,..., F k ) := {X = (x n ) n 1 ; x n F n n = 1,..., k} = F 1 F k B. Lemme Soient A = C( 1,..., n ), B = C( 1,..., n, 1,..., n ) et m P sym ( ). Alors (3.2.7) m(a) 2 m(b) Preuve du Lemme Soit χ j la fonction caractéristique du cylindre {a a i+(j 1)n i, 1 i n}. Pour tout l N, on a l (3.2.8) χ j (a) dm(a) = l m(a) N j=1 car m est symétrique. De façon similaire, on calcule (3.2.9) N 2 l χ j (a) dm(a) = j=1 = l l j=1 k=1 l j=1 N (χ j (a)χ k (a))dm(a) N χ 1 (a)dm(a) + j k = l m(a) + l (l 1)m(B). N χ 1 (a)χ 2 (a)dm(a) Maintenant, appliquant l inégalité de Cauchy-Schwarz avec (3.2.8) et (3.2.9), on obtient (3.2.10) N l χ j (a) dm(a) j=1 2 N 2 l χ j (a) dm(a) j=1 l 2 m(a) 2 l m(a) + l (l 1)m(B).
80 66 Ainsi, on a démontré m(a) 2 1 l m(a) + (1 1 l )m(b) m(b) + 1 (m(a) m(b)) l m(b) + 1 l, et comme cela est vrai l N on en déduit (3.2.7). Proposition Soit m P sym ( ) vérifiant l égalité dans (3.2.7) pour tout cylindre A. Alors m est un point extrémal de P sym ( ). n particulier, P( ) xt(p sym ( )). Preuve de la Proposition On suppose que m n est pas un point extrémal de P sym ( ). Alors m 1, m 2 P sym ( ) distincts et 0 < t < 1 tel que m = t m 1 + (1 t)m 2 Comme m 1, m 2 sont distincts on peut choisir un cylindre A = C( 1,..., n ) tel que m 1 (A) m 2 (A). On pose B = C( 1,..., n, 1,..., n ). D une part, en utilisant (3.2.7), on a (3.2.11) m(b) = t m 1 (B) + (1 t)m 2 (B) t m 1 (A) 2 + (1 t)m 2 (A) 2. D autre part, on a m(a) = t m 1 (A) + (1 t)m 2 (A), et puisque m 1 (A) m 2 (A), 0 < t < 1, par convexité stricte de l application α α 2, on déduit (3.2.12) m(a) 2 < t m 1 (A) 2 + (1 t)m 2 (A) 2. n combinant (3.2.11) et (3.2.12) on obtient l inégalité stricte m(a) 2 < m(b). Par conséquent, si m P sym ( ) vérifie l égalité dans (3.2.7) pour tout cylindre A alors m est un point extrémal de P sym ( ). Or, si m = m µ P( ) il est clair que m vérifie l égalité dans (3.2.7). n effet pour A = C( 1,..., n ) et B = C( 1,..., n, 1,..., n ) on a m(a) = µ( 1 ) µ( n ), m(b) = µ( 1 ) µ( n )µ( 1 ) µ( n ) et donc m(a) 2 = m(b). Cela démontre bien l inclusion P( ) xt(p sym ( )). Proposition Aucune probabilité m P sym ( ) \ P( ) n est un point extrémal. n particulier, P( ) xt(p sym ( )). Preuve de la Proposition Comme m P sym ( ) \ P( ) il existe F 0, F 1,..., F n B tel que (3.2.13) m(c(f 0, F 1,...,F n )) m(c(f 0 ))m(c(f 1,..., F n )), puisque dans le cas contraire, en posant µ(f 0 ) := m(c(f 0 )), on aurait m = m µ. On commence par remarquer que nécessairement 0 < m(c(f 0 )) < 1. n effet, d une part m(c(f 0 )) = 0 implique m(c(f 0, F 1,...,F n )) = 0 et on aurait égalité dans (3.2.13). D autre part, si m(c(f 0 )) = 1, on a m(c(\f 0, F 1,...,F n )) m(c(\f 0 )) = 0, et de la relation on tire 1 = m(c(f 0, F 1,...,F n )) + m(c(\f 0, F 1,..., F n )) + m(c(, n \(F 1 F n )), m(c(f 0, F 1,...,F n )) = 1 m(c( n \(F 1 F n )) = m(c(f 1,...,F n )),
81 67 ce qui implique une égalité dans (3.2.13). Pour A = C(A 1,...,A n ) B, on pose Ā = C(, A 1,..., A n ). n utilisant le fait que m(a) = m(ā) par symétrie de m, on peut écrire (3.2.14) m(a) = m(ā C(F 0))m(C(F 0 )) + m(ā C(F c 0))m(C(F c 0 )) = m(c(f 0 )) } {{ } m(ā C(F 0)) + (1 m(c(f 0 ))) } {{ } } {{ } m(ā C(F 0 c } {{ )) } t m 1(A) 1 t m 2(A) = tm 1 (A) + (1 t)m 2 (A), avec m 1, m 2 P sym ( ) distincts, 0 < t < 1, et c est précisément ce qu il fallait démontrer : m / xt(p sym ( )). Preuve de (ii) (iv). n résumé, on a démontré que P sym ( ) est un convexe compact et que xt(p sym ( )) = P( ) est fermé. Alors d après le théorème A.3.8 de Choquet, pour tout π P sym ( ) il existe une mesure de probabilité P( P( )) telle que π = α π(dα), ep( ) ce qui est bien (iv) en appliquant la projection Π k de part et autre de cette égalité. 3.3 Convergences dans P sym ( N ), N, et Chaos Définition & Lemme Soit un espace polonais localement compact. tant donnée F P sym ( N ), il existe une (unique) mesure de probabilité ˆF P(P()) telle que (3.3.15) Φ C b (P()) ˆF, Φ = Φ(µ N X ) F(dX). N Preuve du lemme : construction de ˆF. Lorsque est compact et donc P() aussi, il suffit de prendre (3.3.15) comme définition. Lorsque est seulement localement compact et donc P() est seulement un espace polonais, on procède de la manière suivante. On commence par définir la mesure de Radon α sur P N () en posant Φ C b (P N ()) α, Φ := Φ(µ N X ) F(dX). N L espace P N () muni de la distance W 1 associée à une métrique bornée est isomorphe à N /S N muni de la distance naturelle. On en déduit aisément que P N () est un espace polonais localement compact. La mesure de Radon α définit donc une mesure borélienne sur P N (), que nous notons β P(P N ()). Or comme la tribu borélienne de P N () est la trace de la tribu borélienne de P(), la mesure β induit une mesure borélienne γ sur P() : elle est obtenue en posant γ(a) = β(a P N ()) A B P(). Finalement, en notant ˆF = γ, on a bien (3.3.15). Remarque Soit F N P sym ( N ) et ˆF N P(P()) la mesure associée grâce à la Définition Pour tout 1 k N notons Fk N la kième marginale
82 68 de F N définie au point (ii) de la Définition et la restriction ˆF k N ˆF N donnée par le Théorème de Hewitt et Savage. Alors = ( ˆF N ) k de ˆF N 1 = F N 1, soit de manière plus explicite ϕ C b () ˆF N 1, ϕ = ˆF N, R ϕ = F N 1, ϕ. n effet, pour tout ϕ C(), on a en utilisant juste la symétrie de F N ˆF 1 N, ϕ := ˆF N, R ϕ = 1 N ϕ(x i ) F N (dx) N i=1 = ϕ(x 1 ) F N (dx) = F1 N, ϕ. Définition (i) On dit qu une suite (F N ) de mesures de probabilité sur N converge vers π une mesure de probabilité sur, on note F N π faiblement dans P( k ) k, si toutes les marginales convergent, i.e. si j 1, ϕ C b ( j ) F N j, ϕ N π j, ϕ, où F N j désigne la jième marginale de F N définie au point (ii) de la Définition et π j désigne la jième marginale de π définie au point (i) de la Définition (ii) On dit qu une suite (µ N ) de P(P()) converge faiblement vers µ P(P()), on note µ N µ dans P(P()), si Φ C b (P()) µ N, Φ N µ, Φ. Le résultat suivant est fondamental : il permettra le passage entre les différents points de vue intervenant dans le Théorème de Hewitt et Savage. Lemme Soit un espace polonais localement compact. Soit F N une suite de P sym ( N ) à laquelle on associe la suite de mesures de probabilité ˆF N P(P()) et la suite de marginales à une variable F1 N P(). Il y a équivalence entre (i) ( ˆF N ) est relativement compacte dans P(P()); en particulier, il existe π P(P()) et une sous-suite ( ˆF N ) tels que Φ C b (P()) ˆF N, Φ π, Φ ; (i ) ( ˆF N ) est tendue dans P(P()) : ε > 0 K compact P() N ˆF N (P()\K) ε;
83 (ii) F1 N est relativement compacte dans P(); en particulier, il existe µ P() et une sous-suite (F N 1 ) tels que (ii ) F N 1 est tendue dans P() : ϕ C b () F N 1, ϕ µ, ϕ ; 69 ε > 0 K compact N F N 1 (\K) ε. Preuve du Lemme Puisque et P() sont des espaces polonais les équivalences (i) (i ) et (ii) (ii ) sont classiques (voir le théorème de Prokhorov et les notes bibliographiques de la section 1.8). Il suffit donc de montrer, par exemple, que (i) implique (ii) et (ii ) implique (i ). (i) implique (ii). De (i), et en notant µ = π 1, on déduit ϕ C b () µ, ϕ = π, R ϕ = lim ˆF N, R ϕ = lim F N N N 1, ϕ. (ii ) implique (i ). Le point clef est de se rappeler que ˆF 1 N = F1 N d après la remarque Il s agit donc de montrer qu étant donnée une famille F := {π} P(P()), la tension de la famille G := {π 1 } P() (des mesures d intensité) implique la tension de F. Or en effet, par hypothèse, pour tout ε > 0 il existe K ε un compact tel que π 1 (Kε c ) ε π G. Alors pour tout η, ε > 0 et tout π F on a π{ρ P(); ρ(kε c η) η} = 1 {ρ(k c ε η ) η} π(dρ) On définit le sous-ensemble de P() P() P() ρ(k c ε η ) η π(dρ) = π 1(K c ε η ) η K ε := k 1{ρ P(); ρ(k c ε 2 k k 1 ) 1/k}, ε. qui est bien un compact puisque de toute suite ρ n de K ε on peut extraire une soussuite (à l aide d un procédé diagonal appliqué à ρ n Kε2 k k ) qui converge. On calcule 1 alors pour tout π F ( π(p()\k ε ) = π k 1 { }) ρ P(); ρ(k c ε 2 k k ) > 1/k 1 } π {ρ P(); ρ(k c(ε 2 k)/k ) 1/k ε 2 k = ε, k 1 k 1 ce qui prouve que F est tendue.
84 70 Théorème (Convergences équivalentes). Soit (F N ) une suite de mesures de probabilité de P sym ( N ). Pour π P( ) donnée, et ˆπ P(P()) la mesure associée grâce au théorème de Hewitt et Savage, il y a équivalence entre les convergences (i) F N π dans P( k ) k ; (ii) ˆF N ˆπ dans P(P()); (iii) ˆF N, R ˆπ, R pour tout R P(P()) ou R M(P()). Preuve du théorème Étape 1. L implication (ii) (iii) est évidente grâce à l inclusion P(P()) C b (P()). Étape 2. Soit R ϕ P(P()) avec ϕ C b ( j ). On calcule pour N 2 j ˆF N, R ϕ = F N, R ϕ µ N = F N, ϕ 1 (N j) + O(1/N) (lemme 2.1.4) = F N, ϕ 1 (N j) + O(1/N) (symétrie de F N ) = F N j, ϕ + O(1/N), de sorte que ˆF N, R ϕ Fj N, ϕ 2 j 2 ϕ N. Il y a donc évidemment équivalence entre : (3.3.16) F N j, ϕ π j, ϕ et ˆF N, R ϕ ˆπ, R ϕ, pour tout ϕ C b ( j ), et donc pour tout ϕ C b () j, puisque π j, ϕ = ˆπ, R ϕ d après le théorème de Hewitt et Savage. Cela démontre l équivalence (i) (iii) pour R P(P()) et pour R M(P()) est démontrée de la manière suivante. Finalement, on montre que (iii) pour R P(P()) et (iii) pour R M(P()) sont équivalents en utilisant que la convergence Fk N π k au sens de la dualité C b () k et au sens de la dualité C b ( k ) sont équivalentes (en faisant un détour par l équivalence de la convergence au sens de la dualité C c () k et au sens de la dualité C c ( k ) grâce au théorème de Stone-Weierstrass). Étape 3. (i) (ii). Supposons (i), ce qui implique en particulier que F1 N est tendue. D après le Lemme cela implique qu il existe une sous-suite F N et α P(P()) telles que ˆF N α dans P(P()). Or comme (ii) implique (i), il vient F N k α k dans P( k ) pour tout k 1. Donc en particulier, α k = π k pour tout k 1, ce qui signifie α = π d après le théorème de Hewitt et Savage, et par unicité de la limite, c est toute la suite ˆF N qui converge vers π. Remarque Soit F N P sym ( N ) et ˆF N P(P()) la mesure associée grâce à la Définition Pour tout 1 k N notons Fk N la kième marginale
85 71 de F N définie au point (ii) de la Définition et la restriction ˆF k N ˆF N donnée par le Théorème de Hewitt et Savage. Alors = ( ˆF N ) k de k 2 ˆF N k = F N k + O(k 2 /N). n effet, pour ϕ C b ( k ) et k 2, nous venons de voir dans la preuve précédente que ˆF N k, ϕ := ˆF N, R ϕ = F N k, ϕ + O(k2 /N). Théorème (Compacité). Soit un compact. Soit (F N ) une suite de mesures de probabilité de P sym ( N ). Alors il existe une sous-suite N et il existe ˆπ P(P()) telles que (3.3.17) ˆm N ˆπ dans P(P()) Preuve du théorème Pour tout k 1, définissons la suite (F N k ) N k de P sym ( k ) par F N k := N k F N dx k+1...dx N. Par extraction diagonale et compacité de P sym ( k ), il existe une sous-suite N et pour tout k 1 il existe π k P sym ( k ) telle que F N k π k P( k ) w lorsque N. Par construction (π k ) est compatible et symétrique. On conclut grâce au Théorème (existence de ˆπ) et au Théorème (convergence (3.3.17)). Afin de traiter le cas = R d nous allons introduire quelques notations et définitions. Pour k > 0, on définit l application M k : P() R, f x k f(dx) qui est une application positive, sci et convexe, donc mesurable. Pour π P(P()) on a alors (c est la définition!) π, M k = ρ, v k π(dρ) = M k (π 1 ). On note P k (P()) l espace P() On a bien sûr P k (P()) P(P k ()). P k (P()) := {π P(P()); M k (π 1 ) < }.
86 72 Définition (i) On dit que (π N ) est bornée dans P k (P()), k (0, ), s il existe une constante C telle que N 1 M k (π N 1 ) C. (ii) On dit que (π N ) converge faiblement vers π dans P p (P()), p (0, ), si π N π faiblement dans P(P()) et M p (π N 1 ) M p(π 1 ). Théorème (Compacité). Soit = R d. Pour une suite F N P sym () (resp. π N P(P())) un critère de tension dans P(P()) pour la suite ( ˆF N ) (resp. π N ) est k, C (0, ) M k (F N 1 ) C (resp. M k (π 1 ) C). Pour une telle suite (F N ) (resp. (π N )) il existe une sous-suite (N ) et π P k (P()) telles que F N j π j (resp. π N j π j ) faiblement dans P( j ) pour tout j 1; ˆF N π (resp. π N π) faiblement dans P p (P()) pour tout p (0, k). Comme conséquence immédiate du Théorème et du Théorème on a le résultat suivant. Théorème (Double limite). Soit compact ou = R d. Soit (u N ) une suite de C b ( N ) telle que u N C u N (X) u N (Y ) ω(w p (µ N X, µ N Y )) pour une constante C, un module de continuité ω et un indice p (0, ). Soit (F N ) une suite de P( N ) telle que x k F1 N (dx) C pour une constante C et un exposant k (p, ). Alors il existe une sous-suite (N ), une fonction U C b (P p () Wp ) et une probabilité π P k (P()) telles que u N F N (dx) U(ρ) π(dρ). N P p() Preuve du Théorème Le Théorème implique qu il existe une première sous-suite (N ) et une fonction U C b (P p () Wp ) telles que pour tout a > 0 sup u N (X) U(µ N X ) =: ε a(n ) 0 lorsque N. X N, M k (µ N X ) a Le Théorème implique qu il existe éventuellement une seconde sous-suite toujours notée (N ) et une probabilité π P k (P()) telles que ˆF N π faiblement dans P p (P()).
87 73 On obtient ainsi u N F N (dx) = (u N (X) U(µ N X )1 M k (µ N N N X ) a F N (dx) + (u N (X) U(µ N X )1 Mk (µ N N X )>a F N (dx) + U(µ N X ) F N (dx) N ) = O(ε a (N )) + O (2 C2 + U(ρ) a ˆF N (dρ), et ce dernier terme tend bien vers la limite annoncée. P p() Théorème (État pur). Soit π P(P()) et µ P(). Il y a équivalence entre (i) π = δ µ dans P(P()); (ii) π = µ dans P( ); (iii) π 2 = µ µ; (iv) pour p [1, ) donné, pour tout ϕ C() on a p ϕ d(ρ µ) dπ(ρ) = 0. P() Lorsque π satisfait l une de (donc toutes) ces conditions, on dit que π est un état pur. Preuve du Théorème (i) (ii) est vraie d après le théorème 3.1.4, et (ii) (iii) est évident. De (iii) on tire, grâce au théorème 3.1.4, [ 2 [ ] ϕ d(ρ µ)] dπ(ρ) = ϕ ϕ d(ρ ρ) dπ(ρ) P() P() 2 [ ] [ ] 2 2 ϕ dµ ϕ dρ dπ(ρ) + ϕ dµ = P() [ ϕ ϕ d(µ µ) 2 ϕ dµ] 2 = 0, et donc (iv) dans le cas p = 2. Montrons (i) (iv) pour tout p [1, ). Pour ϕ C() donnée, l application δ ϕ : P() R, ρ ϕ d(ρ µ) est continue. Il s ensuit que P() ϕ d(ρ µ) p dπ(ρ) = δ ϕ (µ) p = 0.
88 74 Montrons enfin que (iv) pour p [1, ) donné (i). Soit (ϕ n ) une suite de Lip 1 () dense dans C() (ou plus exactement telle que l ev engendré par les ϕ n est dense dans C()) et définissons δ p (ρ, µ) := n=1 1 2 n ϕ n d(ρ µ) Clairement, δ p (, µ) C(P()), δ p (ρ, ρ) = 0 et δ p (ρ, µ) > 0 pour tout ρ P(), ρ µ. On en déduit que δ p (ρ, µ) dπ(ρ) = 0 P() implique supp π δ µ, et donc π = δ µ (puisque π est de masse 1). Remarque Donnons une deuxième preuve de (iii) implique (i) que l on reformule de la manière suivante : soit ˆπ P(P()) qui vérifie π 2 = π 1 π 1 alors ˆπ = δ π1. p. Deuxième preuve de (iii) implique (i). Par hypothèse, pour toutes fonctions ϕ i C() ρ ρ, ϕ 1 ϕ 2 ˆπ(dρ) = ρ, ϕ 1 ˆπ(dρ) ρ, ϕ 2 ˆπ(dρ). P() P() P() n choisissant ϕ 1 = ϕ 2 = ϕ C() on a P() ( 2 ρ, ϕ 2 ˆπ(dρ) = ρ, ϕ ˆπ(dρ)). P() C est un cas d égalité dans l inégalité de Cauchy-Schwartz qui implique ρ, ϕ = C ϕ R ρ supp ˆπ. Pour ρ 1, ρ 2 supp ˆπ on a donc ρ 2 ρ 1, ϕ = 0 ϕ C() ce qui implique ρ 1 = ρ 2 et donc supp ˆπ est un singleton {m}. Par définition de π 1 on a m = π 1. Définition On dit qu une suite (G N ) de P sym ( N ) est f-chaotique, avec f P(), si pour tout k et toutes fonctions ϕ 1,..., ϕ k C b () on a N ϕ 1 (x 1 )... ϕ k (x k ) dg N (x 1,..., x k,..., x N ) N ( ) ( ) ϕ 1 df... ϕ k df. On déduit immédiatement des Théorèmes et et de la définition :
89 Corollaire (Chaos asymptotique). Soit (F N ) une suite de P sym ( N ) et f P(). Il y a équivalence entre (0) (F N ) est f-chaotique; (i) F N δ f dans P(P()); (ii) F N f dans P( k ) k ; (iii) F N 2 f f dans P( 2 ); (iv) pour p [1, ) donné, pour tout ϕ C b (), on a 75 N ϕ d(µ N X f) p F N (dx) N 0. Corollaire Soit f P() et Φ C b (P()). Alors f N, Φ µ N X Φ(f). Autrement dit, pour F N = f N, on a ˆF N δ f dans P(P()). 3.4 Versions quantifiés du chaos Nous avons vu que pour f P(), la suite F N := f N est f-chaotique. Une question naturelle est de savoir si on peut quantifier cette convergence Premier taux de convergence vers le chaos Théorème Soit compact ou = R d. Il existe une distance D sur P(P()) (que nous allons construire dans la preuve) telle que f P(), F N := f N D(δ f, ˆF N ) 1/N 1/2. Preuve du théorème tape 1. Pour ϕ C b () fixée, on définit la fonction continue p ϕ : P() R, ρ p ϕ (ρ) := ϕ d(f ρ).
90 76 On calcule alors ˆF [ N, (p ϕ ) 2 = pϕ (µ N X) ] 2 F N (dx) N ( 1 N 2 = ϕ(x i ) ϕ df) df(x 1 )... df(x N ) N N i=1 { ( ) 1 N 1 N ( = ϕ(x N N 2 i ) ϕ(x j ) 2 ϕ(x i ) ϕ df + N i,j=1 i=1 = 1 { } N ( ϕ(x N 2 i ) ϕ(x j ) + ϕ(x i ) 2 df(x 1 )... df(x N ) N j i i=1 ( ) 2 = N2 N ϕ df + 1 ( ) 2 ϕ 2 df ϕ df N 2 N { = 1 ( ) } 2 ϕ 2 df ϕ df ϕ 2 N N. ) } 2 ϕ df df(x 1 )... df(x N ) ) 2 ϕ df tape 2. De la même manière, pour Φ = R ϕ M(P()), ϕ = ϕ 1... ϕ k, ϕ j C b (), on introduit p Φ (ρ) := R ϕ (ρ) R ϕ (f), et en notant M = max ϕ j on a ˆF N, p Φ = Φ(µ N X ) Φ(f) F N (dx) = N N k j=1 k M k 1 j=1 k j=1 N ϕ 1 µ N X (dy 1)... ϕ j (µ N X f)(dy j)... ϕ j (µ N X f)(dy) F N (dx) M ( k 1 ˆF ) 1/2 N, (p ϕj ) 2 M k k N 1/2. ϕ k f(dy k ) F N (dx) tape 3. nfin, on considère une suite (Φ k,l ) k,l 1 de M(P()), telle que Φ k,l = R ϕk,l est un monôme de degré k et telle que pour tout k, la famille (ϕ k,l ) l 1 est dense dans C 0 ( k ). n notant ϕ k,l = ϕ k,l,1... ϕ k,l,k, ϕ k,l,j C b (), M k,l = max j ( ϕ k,l,j ), on définit α, β P(P()) D(α, β) := 1 k M β α, Φ k,l. k,l k 2k+l k,j 1 Il est clair d une part que D est une distance sur P(P()). Notons en particulier que si D(α, β) = 0 alors k, l 1 β k α k, ϕ k,l = 0,
91 77 ce qui implique k 1 α k = β k, et donc α = β. D autre part D( ˆF N, δ f ) = k,j 1 k,j 1 1 k M k k,l 2k+l ˆF N, Φ k,l Φ k,l (f) 1 k M ˆF N, p k,l k Φk,l 2k+l k,j k+l N 1/2 = 1 N 1/2, ce qui termine la preuve Métriques de Monge-Kantorovich dans P(P()) et quantification du chaos Pour une fonction D : P() P() R + sci au sens de la convergence faible et telle que D(f, g) = 0 si, et seulement si f = g (D sera une distance de P() ou une fonction d une telle distance) et pour tout f P(), on définit WD N (f) := D ( µ N V ; f ) f N (dv ). N D une part, pour F N := f N et π N P f N := ˆF N, on a W N D (f) = WN D ( F N ; f ) = W D ( π N P f N ; f ), avec G P( N ) WD N (G; f) := D(µ N V, f) G(dV ) N π P(P()) WD (π; f) := D(ρ, f) π(dρ). P() D autre part, une fois fixée une distance D sur P(), on peut définir dans P(P()) des distances par le procédé de Monge-Kantorovich. Plus précisément, pour p (0, ), p := max(1, p), et pour α i P(P()), on pose W D,p (α 1, α 2 ) := ( ) 1/p inf D(ρ 1, ρ 2 ) p π(dρ 1, dρ 2 ) π Π(α 1,α 2 ) P() P() où Π(α 1, α 2 ) est l ensemble des mesures de probabilité π P(P() P()) de première marginale α 1 et de deuxième marginale α 2. Si α 1 est déterministe, α 1 (ρ) = δ f, et α 2 = α alors Π(α 1, α 2 ) = {(δ f, α)} de sorte que W p D,p (δ f, α) = D(ρ 1, ρ 2 ) p δ f (dρ 1 ) α(dρ 2 ) = D(ρ, µ) p α(dρ). P() P() P()
92 78 Lorsque α = ˆF N avec F N P sym ( N ), on a W p D,p (δ f, ˆF N ) = D(ρ, f) p ˆF N (dρ) = D(f, µ N X )p F N (dx), P() N et enfin lorsque F N = f N, on a W p D,p (δ f, πp N f N ) = D(f, µ N X )p f N (dx) = WD N p(f). N Dans ce dernier cas, comme F N = f N est f-chaotique et donc ˆF N δ f faiblement dans P(P()) d après le Corollaire , et donc W D,1 ( ˆF N, δ f ) 0 d après le Théorème pour la distance D = W 1 associée à une distance d bornée sur, on conclut à WD N (f) 0 pour une large classe de fonctions D (le caractère borné de d peut être enlevé dans de nombreuses situations). A nouveau, la question est de savoir si on peut établir un taux de convergence vers 0 de la fonction WD N(f) lorsque N. On commence par un résultat élementaire destiné à nous permettre de changer de distances D. Lemme Si D 1 C D2 r pour des constantes C > 0 et r < 1, alors il existe une constante C = C (C, r) telle que pour tout f P() (3.4.18) W N D 1 (f) C ( W N D 2 (f) ) r. Preuve du Lemme C est une conséquence immédiate de l inégalité de Jensen. Théorème Nous avons les taux suivantes sur les fonctions W N : Pour tout f P 2 (R d ), s (d/2, d/2 + 1) et N 1, on a (3.4.19) W N (f) = µ N 2 V f 2 f N (dv ) Cst(d, M Ḣ s R Nd Ḣ s 2 ) N 1. La même estimation a lieu pour la norme H s lorsque s > d/2. Pour tout η > 0 il existe k 1 tel que pour tout f P k (R d ) et N 1, on a (3.4.20) W N W 1 (f) Cst(η, k, M k ) N 1/(d +η), d = max(d, 2). Pour tout η > 0 il existe k 2 tel que pour tout f P k (R d ) et N 1, on a (3.4.21) W N W 2 2 (f) Cst(η, k, M k ) N 1/(d +η), d = max(d, 2). Pour tout f P d+5 (R d ) et N 1, on a (3.4.22) W N W (f) Cst(d, M 2 2 d+5 ) N 2 d+4.
93 Preuve du Théorème On procède en plusieurs étapes. Preuve de (3.4.19). Fixons f P 2 (R d ). D une part, on écrit de sorte que W N 2 Ḣ s (f) = R Nd = 1 N 2 D autre part, utilisant et R d on déduit ( ˆµ N V ˆf ) (ξ) = 1 N N R d j 1,j 2 =1 ˆµ N V ˆf ξ 2s R (N+1)d e i v ξ ˆf(ξ) 2 f(dv) = 2 N j=1 ( e i vj ξ ˆf(ξ) ), dξ f N (dv ) 79 ( ) ( ) e i v j ξ 1 ˆf(ξ) e i v j ξ 2 ˆf(ξ) ξ 2s dξ f N (dv ). R d (e i v j ξ ˆf(ξ)) f(dv j ) = 0, j = 1,..., d, R d = 1 ˆf(ξ) 2, [ ] 1 e i v ξ ˆf(ξ) e i v ξ ˆf(ξ) + 2 ˆf(ξ) f(dv) W N (f) = 1 N e ivj ξ ˆf(ξ) 2 dξ f N (dv ) 2 Ḣ s N 2 j=1 R ξ (N+1)d 2s = 1 e i v ξ ˆf(ξ) 2 dξ f(dv) N ξ 2s = 1 N R 2 d Rd 1 ˆf(ξ) 2 dξ. ξ 2s Finalement, observant que ˆf(ξ) = 1 + i f, v ξ + O(M 2 ξ 2 ), et donc ˆf(ξ) 2 = ( 1 + i f, v ξ + O(M 2 ξ 2 ) ) ( ) 1 i f, v ξ + O(M 2 ξ 2 ) on obtient = 1 + O ( M 2 ξ 2), W N 2 Ḣ s (f) = 1 N = 1 N ( ( ξ 1 ξ 1 1 ˆf(ξ) 2 dξ + ξ 2s M 2 dξ + ξ 2(s 1) ξ 1 1 ˆf(ξ) ) 2 dξ ξ 2s ) 1 dξ, ξ 2s ξ 1
94 80 de quoi on déduit (3.4.19). Preuve de (3.4.20). n combinant (3.4.19), (1.6.34) du Lemme et le lemme , nous obtenons aisément WW N 1 (f) = [µ N V f] 1 f N (dv ) R Nd ( ) C k,s,d (M k+1 ) µ N V f 2 γ2/2 Ḣ f N (dv ) s R Nd C k,s,d (M k+1 ) N γ 2/2. On en déduit (3.4.20) puisqu à la limite k = on a γ 2 /2 = 1/(2s) et que l on peut choisir s aussi proche que l on souhaite de d/2 lorsque d 2 et que l on peut choisir s = 1 lorsque d = 1. Preuve de (3.4.21). La borne (3.4.21) se déduit de la borne (3.4.20) en utilisant le Lemme et (1.6.30). Preuve de (3.4.22). Pour une suite (g ε ) régularisante de gaussiennes et pour tout X N, on note φ ε = f g ε, φ N,ε X (y) = (µn X g ε)(y) = 1 N N g ε (y x i ). i=1 Par inégalité triangulaire et le lemme on a W 2 2 (µ N X, f) 3 [W2 2 (µ N X, φ N,ε X ) + W 2 2 (φ N,ε X, φ ε) + W2 2 (φ ε, f)] 3 [2 d ε + W2 2 (φn,ε X, φ ε)], de sorte que (3.4.23) W2 2 ( ˆF N, δ f ) = W2 2 (µn X, f) F N (dx) 2 N D autre part, grâce au lemme , on a W2 2 (φn,ε X, φ ε) 3 y 2 φ N,ε X [ ] 2 d ε + W2 2 (φn,ε X, φ ε) F N (dx). N φ ε dy C (1 + y d+5 ) φ N,ε X φ ε 2 dy. où on a utilisé l inégalité de Cauchy-Schwartz pour établir la dernière inégalité. Appliquant à nouveau l inégalité de Cauchy-Schwartz, il vient N W 2 2 (φn,ε X, φε ) C (1 + y d+5 ) N φ N,ε X φ ε 2 dy,
95 où l on utilise la notation sous forme d une espérance N l intégrale sur N par rapport à la mesure de probabilité F N. n reprennant le calcul de l étape 1 du Théorème , on a ) 2 N (φ N,ε X φε ) 2 = N τ x ǧ ε d(µ (R N X f) { d = 1 ( ) } 2 (τ x ǧ ε ) 2 df τ x ǧ ε df N R d R d 81 = 1 N { (gε ) 2 g (g ε f) 2}. On en déduit N W 2 2 (φ N,ε X, φε ) C N 1/2 (1 + y d+ 5 ) (g ε ) 2 f dy C N 1/2 (1 + z d+5 ) (g ε ) 2 (z) dz (1 + y d+ 5 ) f(dy) (3.4.24) C N 1/2 ε d/4. On conclut en combinant (3.4.23) et (3.4.24) et en choisissant ε = N 2/(d+4). 3.5 Comparaisons entre différentes mesures du chaos. Dans cette section, nous allons comparer différentes mesures du chaos, et donc préciser le Corollaire Nous rappelons que pour G, F P sym ( j ) P 1 ( j ), j 1, on définit la distance W 1 dans P( j ) comme étant la distance W 1 de MKW associée à la distance de j définie par X, Y j d j(x, Y ) = d 1, j(x, Y ) := 1 j j d (x i, y i ). i=1 Nous allons commencer par une série de lemmes de comparaison et nous terminerons par un résultat qui affirme que pour G N P( N ), f P() les mesures de f- chaoticité de G N grâce aux quantités sont essentiellement équivalentes. W 1 (G N, f N ), W 1 (G N j, f j ), W 1 (ĜN, δ f ) On a montré dans la remarque que F N j ˆF N j lorsque N et pour j fixé. On peut être un plus précis, comme le montre le résultat suivant.
96 82 Lemme (Quantification de l équivalence Fj N ˆF j N) Pour tout F N P sym ( N ) P 1 ( N ) (i.e. tel que F1 N P 1 ()) et tout 1 j N, on a W 1 (F N j, ˆF N j ) 2 j2 N M 1(F N 1 ). n particulier, pour tout f P 1 () et en notant F N := f N, on a W 1 (f j, ˆF N j ) 2 j2 N M 1(f). Preuve du Lemme Pour ϕ Lip( j ), ϕ(0) = 0, ϕ Lip 1, ce qui signifie bien sûr ici X, Y j ϕ(y ) ϕ(x) d j(x, Y ) = 1 j j d (x i, y i ), i=1 et en reprenant la preuve du Lemme et les mêmes notations, on a R ϕ (µ N X) ϕ 1 (N j) (X) Pour un tel ϕ, on en déduit j ϕ ( ˆF N j F N j ) = 1 N 1 j A N,j 1 j ( x i x ij ) (i 1,...,i j ) A N,j + 1 N j (i 1,...,i j ) B N,j 1 j ( x i x ij ). ( ) R ϕ (µ N X ) ϕ 1 (N j) (X) F N (dx) N 1 N 1 1 j A N,j (i 1,...,i j ) A j ( x i x ij ) F N (dx) N N,j N j (i 1,...,i j ) B j ( x i x ij ) F N (dx) N N,j ( 1 A N,j + B ) N,j x 1 F1 N (dx 1 ). N j N j On conclut en utilisant le Théorème et les estimations de A N,j et B N,j dans la preuve du Lemme Remarque On peut retrouver tout ou partie des résultats démontrés dans
97 83 le Théorème grâce au Lemme Par exemple, on a pour ϕ W 1, () ˆF N, p 2 ϕ = ˆF N, [R ϕ R ϕ (f)] 2 = ˆF N, R ϕ ϕ 2 ˆF N, R ϕ R ϕ (f) + [R ϕ (f)] 2 = ˆF 2 N, ϕ ϕ 2 ˆF 1 N, ϕ R ϕ(f) + [R ϕ (f)] 2 ( 1 ) = F2 N, ϕ ϕ + O 2 F1 N N, ϕ R ϕ(f) + [R ϕ (f)] 2 ( 1 ) = f f, ϕ ϕ + O 2 f, ϕ R ϕ (f) + [R ϕ (f)] 2 N ( 1 ) = O. N Lemme a) - Pour tout F N, G N P sym ( N ) et 1 j N, on a ( j W 1 (Fj N, G N j ) N [ N j ]) 1 W1 (F N, G N ) 2 W 1 (F N, G N ). b) - Pour tout f, g P(), on a W 1 (f N, g N ) = W 1 (f, g). Preuve du lemme Preuve de a). Pour tout π Π(F N, G N ), on a en introduisant la division euclidienne N = n j + r, 0 r j 1, W 1 (G, F) = d 1, N(X, Y ) π(dx, dy ) 2N = 1 ( n ) j d 1, j(x i, X i ) + r d 1, r(x 0, Y 0 ) π(dx, dy ) N j N 2N n i=1 i=1 2j d 1, j(x i, Y i ) π i (dx i, dx i ), avec π i Π( F i, G i ) où F i, G i P( j ) désignent les marginales de F, G sur le ième bloc de variables. Par l hypothèse de symétrie, on a évidemment F i = F 1 = F j et G i = G 1 = G j, donc 2j d 1, j(x i, Y i ) π i (dx i, dx i ) W 1 (F N j, GN j ), et la première inégalité s en déduit. Or n := [N/j] 1 et donc j [ N ] = n j N j n j + r ce qui implique la seconde inégalité. n j n j + j 1 2,
98 84 Preuve de b). Considérons α Π(f, g) un plan de transport optimal, et définissons la mesure de probabilité π := α N Π(f N, g N ), c est-à-dire, A i, B i π(a 1... A N B 1... B N ) = α(a 1 B 1 )...α(a N B N ). On a alors W 1 (G, F) 1 N N i=1 2N d(x i, y i ) π(dx, dy ) = W 1 (f, g), qui n est autre que l inégalité inverse de celle démontrée dans a) dans le cas j = 1. Lemme Pour tout G P sym ( N ), f P(), = R d, N 1, et pour tout s > d/2 + 1/2, on a ( (3.5.25) W 2 s(ĝ, δ f) C s,d W1 (G 2, G 1 G 1 ) + G 1 f 2 H + 1 ). H s N Preuve du lemme n reprenant la preuve du Théorème on montre que [ G2 Ĝ1 ˇf Ǧ1 ˆf ] dξ + f 2 W 2 s(ĝ, δ f) = (1 1 H N ) + 1 N = (1 1 N ) ξ 2s [ 1 Ĝ1 ˇf Ǧ1 ˆf ] dξ + f 2 ξ 2s [ ] dξ G2 Ĝ1 2 ξ 2s + [ Ĝ1 2 Ĝ1 ˇf Ǧ1 ˆf + f 2 ] dξ ξ Ĝ1 2 dξ, 2s N ξ 2s où on a introduit les notations ȟ(ξ) := ei v ξ h(dv) et H(ξ) = e i (v w) ξ H(dv, dw) 2 pour h P() et H P( 2 ). Concernant le premier terme, on écrit [ ] dξ G2 Ĝ1 2 = Φ(v ξ 2s 1 v 2 ) [G 2 G 1 G 1 ] (dv 1, dv 2 ), 2 avec Φ(z) := e i z ξ dξ dξ et donc Φ ξ 2s W 1, 2 <. ξ 2s 1 Il s ensuit que (v 1, v 2 ) Φ(v 1 v 2 ) appartient à W 1, ( 2 ) (de même norme) et on déduit [ ] dξ G2 Ĝ1 2 ξ Φ 2s W 1, W1 (G 2, G 1 G 1 ). On conclut en remarquant que le second terme est exactement G 1 f 2 H et que s l intégrale intervenant dans le troisième terme est bornée.
99 Corollaire On suppose = R d. Pour tout G P sym ( N ) P k ( N ), f P k (), N 1, k > 0, on a ( W 1 (ĜN, δ f ) C W1 (G N 2, f f) + W 1 (G N 2, f f)γ 2/2 + 1 ), N γ 2/2 pour une constante C qui dépend de d, k, s > d/2 + 1 et des moments d ordre k de f et G 1, γ 2 := (s + d/(2k)) 1, et où ici W 1 ( ˆF, Ĝ) := inf W 1 (ρ, η) π(dρ, dη) de sorte que π Π( ˆF,Ĝ) W 1 (ĜN, δ f ) = N P() P() W1 (µ N X, f) GN (dx). Preuve du lemme D une part, pour s > d/2 + 1, on a W 1 (G 2, G 1 G 1 ) + G 1 f 2 H s W 1 (G 2, f f) + W 1 (f f, G 1 G 1 ) + C W 1 (f, G 1 ) 2 W 1 (G 2, f f) + W 1 (f, G 1 ) + C W 1 (f, G 1 ) 2 2 W 1 (G 2, f f) + C W 1 (G 2, f f) 2, où on a successivement utilisé l inégalité triangulaire, l estimation (1.6.41), l identité prouvée au Lemme puis l inégalité prouvée au Lemme avec N = 2 et j = 1. D autre part, on a W 1 ( ˆF, Ĝ) C 2 C C C ( µ N X f 2 H s)γ i/2 G N (dx) N 2 ( ) γi /2 µ N X f 2 H s GN (dx) N 2 ( W 1 (G 2, G 1 G 1 ) + G 1 f 2 H + 1 ) γi /2 s N 2 ( W 1 (G 2, f f) + W 1 (G 2, f f) ) γi /2, N i=1 i=1 i=1 i=1 où on a successivement utilisé la deuxième inégalité de (1.6.41) (et donc γ 1 = 1, γ 2 défini dans l énoncé), le lemme , le lemme puis enfin l inégalité que nous avons établi en début de preuve. On conclut en gardant les termes dominant dans cette expression. Lemme Pour tout f P 1 (), G N P sym ( N ) P 1 ( N ), N 1, et 1 j N, on a (3.5.26) W 1 ((ĜN ) j, f j ) W 1 (ĜN, δ f ) 85
100 86 et (3.5.27) W 1 (G N j, f j ) W 1 (ĜN, δ f ) + 2 j2 N M 1(G N 1 ). Preuve du Lemme Preuve de (3.5.27). Nous donnerons deux démonstrations de (3.5.26). La première passera par la formulation en norme de Kantorovich- Rubinstein alors que la seconde passera par la formulation en terme de transport de masses. nsuite pour démontrer (3.5.27) il suffit d utiliser (3.5.26) après avoir écrit W 1 (G N j, f j ) W 1 (G N j, (ĜN ) j ) + W 1 ((ĜN ) j, f j ) 2 j2 N M 1(G N 1 ) + W 1((ĜN ) j, f j ) où on a utilisé l inégalité triangulaire et la première inégalité du lemme Première preuve de (3.5.26). On remarque que pour ϕ Lip( j ) tel que ϕ Lip 1, au sens où X, Y j ϕ(x) ϕ(y ) d j(x, Y ) = 1 j x i y i, j l application x ϕ i (x, X i ) = ϕ(x 1,..., x i 1, x, x i+1,..., x j ) est Lipschitzienne dans pour tout X i = (x 1,..., x i 1, x i+1,..., x j ) j 1 fixé, de constante de Lipschit 1/j. On en déduit que R ϕ Lip(P()) de constante de Lipschitz 1 puisque ρ, η P() R ϕ (ρ) R ϕ (η) = ϕ(x) (ρ j (dx) η j (dx)) j j ϕ(x) (ρ (i 1) (dx 1,..., dx i 1 ) (ρ(dx i ) η(dx i )) η (j i) (dx i+1,..., dx j )) i=1 j j sup ϕ i (., X i ) Lip() ρ (i 1) W 1 (ρ, η) η (j i) W 1 (ρ, η). X i j 1 i=1 j 1 Pour α, β P(P()), j 1 et une telle fonction ϕ Lip( j ), on a donc ϕ (α j β j ) = R ϕ (α β) R ϕ Lip(P()) W 1 (α, β) W 1 (α, β). j P() On en déduit immédiatement le résultat en prenant α := ĜN et β := δ f. Deuxième preuve de (3.5.26). On écrit ( ) W 1 (ĜN j, f j ) = W 1 ρ j Ĝ N (dρ), f j P() W 1 (ρ j, f j ) ĜN (dρ) P() = W 1 (ρ, f) ĜN (dρ) = W 1 (ĜN, δ f ), P() i=1
101 où on a utilisé la propriété de convexité de W 1, l identité démontrée dans le lemme et le fait que Π(ĜN, δ f ) = ĜN δ f. Proposition Pour tout f P 1 () et G N P sym ( N ) P 1 ( N ), on a (3.5.28) W 1 (ĜN, δ f ) Ω f (N) W 1 (G N, f N ) W 1 (ĜN, δ f ) + Ω f (N) où on a posé Ω f (N) := W 1 (µ N X, f) f N (dx), N dont on a donné un taux de convergence vers 0 dans le Théorème Preuve de la Proposition tape 1. tant données F N, G N P sym ( N ) P 1 ( N ) et π N Π(F N, G N ), on définit ˆπ N Π( ˆF N, ĜN ) par la relation Φ C b (P() P()) ˆπ N, Φ = Φ(µ N X, µn Y ) πn (dx, dy ). N N On définit W 1( ˆF N, ĜN ) := inf W 1 (ρ, η) ˆπ N (dρ, dη) π N Π(F N,G N ) P() P() = inf W 1 (µ N π N Π(F N,G N X, µn Y ) πn (dx, dy ) ) N N =: W 1(F N, G N ). Or, on a le résultat suivant dont la preuve sera présentée après la fin de la démonstration en cours. Lemme Pour tout F N, G N P sym ( N ) P 1 ( N ) on a l identité (3.5.29) W 1(F N, G N ) = W 1 (F N, G N ). Du Lemme et de l inégalité triviale on déduit la première relation W 1 ( ˆF N, ĜN ) W 1( ˆF N, ĜN ), (3.5.30) W 1 ( ˆF N, ĜN ) W 1 (F N, G N ). tape 2. Pour F N = f N avec f P() fixée, et G N P sym ( N ), on a par inégalité triangulaire (3.5.31) W 1 (ĜN, ˆF N ) W 1 (ĜN, δ f ) W 1 (δ f, ˆF N ) =: Ω f (N). n combinant (3.5.30) et (3.5.31), on obtient la première inégalité dans (3.5.28). 87
102 88 tape 3. On pose encore F N := f N. Puisque Π(ĜN, δ f ) = {ĜN δ f } et F N G N Π(F N, G N ), on a W 1 (ĜN, δ f ) = W 1 (ρ, f) ĜN (dρ) = W 1 (µ N Y, f) GN (dy ) P() N = W 1 (µ N Y, f) F N (dx) G N (dy ) N N [W 1 (µ N Y, µn X ) W 1(µ N X, f)] F N (dx) G N (dy ) N N inf W 1 (µ N π N Π(F N,G N Y, µn X ) πn (dx, dy ) W 1 (µ N X, f) F N (dx) ) N N N = W 1 ( ˆF N, ĜN ) W 1 (δ f, ˆF N ). Combiné avec l identité (3.5.29) cela démontre la deuxième inégalité Preuve du Lemme tape 1 : mise en place. On souhaite établir l identité inf w 1 (X, Y ) dπ(x, Y ) = inf W 1 (µ N X, µ N π Π(F N,G N ) 2N π Π(F N,G N Y ) dπ(x, Y ). ) 2N Comme on a d j(x, Y ) := 1 N N i=1 1 d (x i, y i ) w 1 (X, Y ) := inf σ S N N N d (x i, y σ(i) ) = W 1 (µ N X, µn Y ), i=1 il suffit de montrer que le terme de droite est également plus grand que le terme de gauche. Comme la fonction (X, Y ) W 1 (µ N X, µn Y ) est invariante par permutation des coordonnées de X et Y, quitte à remplacer π par π := 1 (N!) 2 σ, τ S N π σ,τ, avec π σ,τ, ϕ ψ = π, ϕ σ ψ τ, on peut supposer que π P sym ( 2N ) (au sens où π σ,τ = π pour tout σ, τ S N ). Le problème se résume maintenant au suivant. tant donnée F N, G N P sym ( N ) et π Π(F N, G N ) P sym ( 2N ), comment définir π Π(F N, G N ) telle que w 1 (X, Y ) π (dx, dy ) = W 1 (µ N X, µ N Y ) π(dx, dy ). N N N N tape 2 : on suppose que est fini. Cette hypothèse fini, nous permet de considérer F N, G N et π comme des fonctions de N, N et 2N respectivement à valeurs dans [0, 1]. Dans N on définit la relation d équivalence par Z Z si σ S N, Z σ = Z,
103 pour Z, Z N. On désigne par X N (resp. Y N ) les classes d équivalence (pour cette relation d équivalence sur N ) et par X (resp. Y ) l ensemble de ces classes d équivalence (où N est considéré comme étant respectivement l espace de la première marginale et de la deuxième marginale). Attention, si X est une classe et X X alors 89 X = {X σ, σ S N } = {X 1,..., X k }, k := X, mais en général on a seulement k N!. C est-à-dire qu on peut avoir X σ = X σ pour σ σ S N et donc les N! éléments du premier ensemble peuvent ne pas tous être distincts, alors que dans le deuxième ensemble ils sont tous présents mais il ne sont comptés qu une fois chacun. On a k = N! lorsque les coordonnées de X sont toutes distinctes et k < N! dans le cas contraire. A cause des hypothèses de symétrie, les fonctions F N et G N sont constantes sur chaque classe et la fonction π est constante sur chaque paire de classes. Plus préciément, pour tout X X, Y Y et pour tout X X, Y Y F N (X) = F N X := F N (X) X, GN (Y ) = G N Y := F N (Y) Y, π(x, Y ) = π X,Y := π(x Y) X Y, où dans les termes de droite de ces trois égalités F N, G N et π sont considérés comme des fonctions d ensemble (c est-à-dire des mesures de probabilités!). Il est important de noter pour la suite que les relations de compatibilité suivantes ont lieu : pour toute classe X et tout X X F N (X) = π(x, Y ) = π X,Y Y N Y Y Y Y (3.5.32) = Y Y π X,Y Y = Y Y π(x Y ) X = π(x N ), X et de la même manière, pour toute classe Y et tout Y Y (3.5.33) G N (Y ) = X X π X,Y X = X X π(x Y) Y = π(n Y). Y Pour une paire de classes (X, Y), on définit le réel positif δ X Y := W 1 (µ N X, µ N Y ) pour un couple (X, Y ) (X, Y), le terme de droite ne dépendant évidemment pas du choix de (X, Y ) (X, Y). nsuite, pour une paire de classes (X, Y), pour X X et Y Y, on définit les ensembles de couples optimaux C X,Y := {(X, Y ) X Y; w 1 (X, Y ) = δ X Y }, C X,Y := {Y Y; (X, Y ) C X,Y }, C X,Y := {X X; (X, Y ) C X,Y }.
104 90 On remarque que pour toute paire de classes (X, Y), on a (3.5.34) X, X X C X,Y = C X,Y, Y, Y Y C X,Y = C X,Y. n effet, il existe σ S N telle que X = X σ de sorte que Y C X implique Y σ C X (cela provient de ce que w 1 (X σ, Y σ ) = w 1 (X, Y ) = δ X,Y ). De plus, si Y 1, Y 2 C X, Y 1 Y 2, alors Yσ 1 Yσ 2 (puisque Yσ 1 = Yσ 2 impliquerait Y 1 = Y 1 σ σ = Y 2 1 σ σ = 1 Y 2 ). On vient de démontrer ainsi que C X,Y C X,Y, et les trois autres inégalités se démontrent de la même manière. On affirme maintenant que pour toute paire de classes (X, Y) et tout X X, Y Y, on a (3.5.35) C X,Y X = C X,Y = C X,Y Y. Montrons par exemple la première identité. On calcule C X,Y = {(X, Y ) X Y, (X, Y ) C X,Y } = {X X, Y C X,Y} = C X,Y = C X,Y = X C X,Y. X X X X On est maintenant en mesure de définir la probabilité π P( N N ). On pose π π(x Y) (X, Y ) = si (X, Y ) C X,Y, C X,Y π (X, Y ) = 0 si (X, Y ) / C X,Y. X X, Y Y Avec cette définition, il est clair que si X N et X est la classe de X, on a grâce à (3.5.35) et (3.5.32) π 1(X) := = Y Y Y N π (X, Y ) = C X,Y Y Y π(x Y ) C X,Y X = Y Y Y Y π (X, Y ) = π(x Y ) X Y Y Y C X,Y = F N (X), π(x Y ) C X,Y et de la même manière Y N π 2 (Y ) = GN (Y ). Cela prouve bien que π
105 91 Π(F N, G N ). De plus, par construction, on a w 1 (X, Y ) π (X, Y ) = X N, Y N = = = = = X X, Y Y X X, Y Y X X, Y Y X X, Y Y X X, Y Y w 1 (X, Y ) π (X, Y ) w 1 (X, Y ) π (X, Y ) (X,Y ) C X,Y π(x Y) δ X,Y C X,Y (X,Y ) C X,Y δ X,Y π(x Y) X X, Y Y X X, Y Y W 1 (µ N X, µ N Y ) π(x, Y ) W 1 (µ N X, µn Y ) π(x, Y ). X N, Y N tape 2 : on considère le cas général où est un espace polonais localement compact. Soit (f n ) et (g n ) deux suites de P( N ) telles que f n := 1 n n δ A j,n F N, g n := 1 n j=1 n j=1 δ B j,n G N faiblement dans P( N ) avec A j,n, B j,n N. Comme pour tout σ S N, on a σ f n σ F N = F N, σ g n σ G N = G N on peut supposer que f n et g n sont symétriques 4. Plus précisément, on modifie la définition de f n et g n de la manière suivante f n := 1 1 n N! σ S N n j=1 δ σ A j,n, g n := 1 1 n N! σ S N n j=1 δ σ B j,n, et on a encore f n F N, f n F N faiblement dans P( N ). On définit maintenant n := {A j,n σ(i), Bj,n σ(i), 1 j n, 1 i N}, de sorte que f n, g n P(n N ). D après la première étape, on sait que (3.5.36) W 1(f n, g n ) = inf W 1 (µ N X, µ N Y ) π(dx, dy ) π Π(f n, g n) N N = inf w 1 (X, Y ) π(dx, dy ) = W 1 (f n, g n ), π Π(f n, g n) N N 4 ici correspond à la mesure image par l application σ, voir la définition 6.2.1, et non pas à un cardinal!
106 92 où on utilise ici que l ensemble des plans de transport de P(n N N n ) de marginales f n et g n coïncide avec Π(f n, g n ) l ensemble des plans de transport de P( N N ) de marginales f n et g n. D une part, on sait que W 1 (f n, g n ) W 1 (F N, G N ) puisqu on peut construire (f n ) et (g n ) telles qu elles sont tendues dans P 1 ( N ), et qu alors convergence faible et convergence au sens de W 1 sont équivalentes. D autre part, puisque c : N N R +, (X, Y ) c(x, Y ) := W 1 (µ N X, µn Y ) est continue le problème de minimisation α, β P sym ( N ) W 1(α, β) := inf c(x, Y ) π(dx, dy ) π Π(α,β) N N rentre dans le cadre classique des problèmes de minimisation de Monge-Kantorovich. De plus, comme c vérifie l inégalité triangulaire c(x, Y ) c(x, Z)+c(Z, Y ), la quantité W 1 vérifie également l inégalité triangulaire5. Utilisant deux fois cette inégalité triangulaire ainsi que l inégalité c w 1, on obtient W 1(F N, G N ) W 1(f n, g n ) W 1(F N, f n ) + W 1(f n, G N ) W 1(f n, g n ) W 1 (F N, f n ) + W 1 (g n, G N ) W 1 (F N, f n ) + W 1 (g n, G N ), et ce dernier terme tend vers 0. n conclusion, on peut passer à la limite n dans l identité (3.5.36) et en déduire (3.5.29). Théorème Pour f P() et (G N ) un suite de P sym ( N ) P 1 ( N ), on note D j (G N ; f) := W(G N j, f j ), 1 j N, D N+1 (G N ; f) := W 1 (ĜN j, δ f). Alors pour tout 2 k, l N + 1, k l, il existe γ k,l et α k,l de sorte que D k (G N ; f) C ( D l (G N ; f) α k,l + 1 ). N γ k,l 3.6 Compléments et questions ouvertes xemples de suites chaotiques et symétriques xemple L exemple le plus simple de suite chaotique est l exemple trivial de la suite tensoriée F N P sym ( N ) définie par F N (X) := f(x 1 )... f(x N ), X N, avec f P() L 1 (). On a alors F N δ f dans P( N ). 5 pour voir ce dernier point, il suffit d adapter la preuve de cette même inégalité triangulaire dans la démonstration du Théorème Une alternative possible est de reprendre la preuve de cette inégalité triangulaire dans la démonstration du [50, Théorème 7.3] qui repose sur le [50, Gluing lemma 7.6].
107 93 xemple Le premier exemple non trivial de suite chaotique, et c est un des exemples les plus fameux, est la suite de mesures uniformes sur la sphère F N = σ N P(R dn ) définie par où S dn 1 N σ N = 1 S dn 1 N est la sphère de R dn de rayon N, i.e. S dn 1 N δ S dn 1, N := {X R dn ; X 2 = x x N 2 = N}. Lemme (de Poincaré) La suite σ N est γ-chaotique, où γ désigne la gaussienne centrée réduite de R d γ(x) := (2 π) d/2 exp( x 2 /2). Dans le même esprit que dans l exemple précédent, on a les deux exemples suivants. xemple tant donné f P(R) assez réguière (par exemple f C(R) P 4 (R)), on définit F N P(R N ) la mesure produit f N conditionnée à S N 1 N par On montre alors que F N est f-chaotique. F N := Z 1 N f N δ S dn 1, Z N := δ N S dn 1, f N. N xemple tant donné f P(R d ) assez réguière, on définit F N P(R dn ), la mesure produit f N conditionnée à l ensemble Σ N := {(x x N )/N = a}, par F N = Z 1 N f N δ ΣN. On montre alors que F N est g-chaotique, avec g(x) := Z 1 e λ x f(x), λ R d, Z > 0. xemple On définit F N P( N ) une mesure de Gibbs par F N := Z 1 N f N exp(n α Φ(µ N X)), avec Z N une constante de normalisation, f P(), α R, Φ C b (P()), typiquement Φ(ρ) := K(x, y)ρ(dx)ρ(dy), K C b ( ). On verra dans le prochaîn chapitre des conditions sous lesquelles F N est chaotique. xemple Plus généralement encore, on peut naturellement construire des suites F N P sym ( N ) de la forme F N (X) := ϕ N ( X p ), F N := 1 N N N (fn, fn,n ), ou en considérant les produits de telles quantités.
108 Interprétation probabiliste et limite détereministe On appelle en général mesure (de probabilité) ponctuelle toute mesure ρ de la forme ρ = N a i δ xi i=1 (telle que a i 0 et de somme 1). Ici on s intéresse à des mesures ponctuelles qui sont des mesures empiriques : a i = 1/N pour tout 1 i N. Si on se fixe a priori l entier N, la donnée d une mesure empirique est la donnée d un vecteur X N /S N comme nous l avons vu dans le premier chapitre. Maintenant, on appelle variable aléatoire à valeurs mesures ponctuelles (ou plutôt empiriques) toute application M : Ω N P N (), M(ω) = 1 N(ω) δ Xi(ω) N(ω) avec X i (ω). Si on se fixe a priori l entier N, la donnée d une mesure empirique alatoire M est la donnée d un vecteur aléatoire X : Ω N /S N lié par la relation i=1 (3.6.37) M = µ N X = 1 N N δ Xi, i=1 c est-à-dire M(ω, dy) = µ N X(ω) (dy) = 1 N N i=1 δ y=xi(ω). On a ainsi une correspondance entre va à valeurs N /S N et va à valeurs P N (). Pour M = µ N X une va empirique et en notant F N la loi de M dans P() (dont le support est porté par P N ())) on a pour toute fonction Φ C(P()) P() Φ(ρ)m(dρ) = (Φ(M)) = (Φ(µ N X )) = N /S N Φ(µ N x )F N (dx 1,..., dx N ) = N Φ(ˆµ N x )F N (dx 1,..., dx N ) où F N est une mesure sur P( N /S N ) (c est la loi de X) ou de manière équivalente F N est une mesure de P sym ( N ). On retrouve ainsi la correspondance entre la donnée de la loi ˆF N P(P()) d une va à valeurs mesures empiriques et la donnée d une mesure de F N P sym ( N ) P(NS). Autrement dit, l application continue x µ N x de N dans P() permet d associée à toute va aléatoire X une mesure empirique aléatoire M par (3.6.37), et si X = (X 1,..., X n ) a pour loi F N dans P sym ( N ) alors µ N X a pour loi ˆF N dans P(P()). La condition m = δ f P(P()) avec f P() correspond donc à une va M à valeur P() telle que (Φ(M)) = Φ(ρ)m(dρ) = Φ(f). P() n remarquant que si D est une distance sur P() alors la fonction Φ : P() R, Φ(g) = D(g, f) est continue, on obtient que (D(M, f)) = D(f, f) = 0, donc D(M, f) = 0 p.s. ou encore M = f p.s. Ainsi la loi de M est une masse de Dirac δ f si, et seulement si, la va M est constante (déterministe) : M(ω) = f pour presque tout ω Ω.
109 3.6.3 Quelques remarques naïves sur la dualité P sym ( N )- C b ( N ) et sur l entropie xemple La suite u N C sym ( N ) la plus simple est le monôme u N (X) := 1 N (ϕ(x 1) ϕ(x N )) avec ϕ C b (). On a alors u N U dans C b ( N ) avec U(ρ) := ϕdρ. Pour les exemples et , on a l identité u N F N dx = 1 N ϕ(x i )f(x i )dx i N i=1 = ϕf = U(f) = δ f, U. xemple n particulier, si on choisit F N = f N et u N := 1 N log f N = 1 N (log f(x 1) log f(x n )) on a (3.6.38) H(F N ) := 1 F N log F N = F N, u N = (log f)f = H(f) = δ f, U, N N avec U(ρ) := (log f)dρ. On se pose une première question : peut-on déduire (3.6.38) des théorèmes généraux de compacité et convergence? Rappelons qu en combinant le théorème 2.2.6, la remarque 2.2.7, et le théorème , on a établi les critères de convergence suivants Lemme Pour deux suites F N P sym ( N ) et u N C( N ), on a : - Si u N + N u N L ( N ) C alors il existe U C(P()) tel que u N U fort; - Si F N π faiblement et u N U fortement alors F N, u N π, U. Dans l exemple , - si f / L alors u N := 1 N log f N / L ( N ) et alors ce résultat n est donc pas une conséquence du Lemma ; - au contraire, si f P() et log f W 1, () on a bien u N (X) U (définie ci-dessus), F N δ f et le Lemma implique u N F N ρ, log f δ f (dρ) = f, log f = H(f). N P() On se pose une deuxième question : peut-on déduire la convergence de H(F N ) vers sa limite dans un cas un peu plus général que précédemment et ceci toujours comme conséquence des théorèmes généraux de compacité et convergence? - Supposons maintenant f, g P(), log f, log g W 1, (), ce qui implique en particulier 0 < 1/K f, g K <, et définissons F N := 1 2 (f N + g N ) et u N := 1 N log F N. On a F N 1 2 (δ f + δ g ) et u N = 1 ( ) 1 N log 2 f N + g N 1 N log KN = K, 95
110 96 ainsi que i u N = 1 i f N + i g N N f N + g N 1 i f N N f N + 1 i g N N g N 1 N log f(x i) + 1 N log g(x i) C/N. Comme on a également u N C, on en déduit qu il existe U C(P()) tel que u N U et donc 1 F N log F N = u N F N 1 N N 2 (δ f + δ g ), U = 1 2 U(f) U(g). N On montrera au prochain chapitre que 1 F N log F N 1 N 2 H(f) + 1 H(g), H(ϕ) = 2 N ϕ log ϕ. Problème ouvert L identification de U n est toutefois pas claire (excepté dans le cas trivial f = g). (a) Donner des conditions sur f, g h pour que la suite f N 1 ( g N N log + h N ) 2 N converge vers une limite que l on puisse identifier. (b) Peut-on identifier la limite de u N = 1 N log GN lorsque G N π de manière régulière, ou même (G N ) est fortement g-chaotique? Problème ouvert Les estimations présentées au Théorème sont-elles optimales? On trouvera dans [12, 37] et dans la discussion de [32, Remarque 2.28] quelques éléments de réponses. xercice Obtenir une estimation du type de celle obtenue dans le lemme mais pour la distance W W 2 2 de MKW à gauche de l inégalité , et en utilisant la méthode utilisée dans la preuve de (3.4.22). Obtenons-nous ainsi un meilleur taux? 3.7 Notes bibliographiques. Les sections 3.1 à 3.3 reprennent une partie du cours [23] de P.-L. Lions dans lequel n est traité toutefois que le cas compact. La preuve de (i) (iii) dans le Théorème est dûe à P.-L. Lions [23]. Dans ce même théorème, la preuve de (ii) (iv) (iii) est la preuve historique de Hewitt et Savage [19]. lle a été rédigée par K. Carrapatoso pour son mémoire de Master 2. La section 3.3 reprend et développe également la problématique du Chapitre 5 - Propagation du chaos des notes de cours de C. Villani [48]. Dans cette section, le Lemme est tiré du cours de A.S. Sznitman [45]. Le matériel présenté dans la section 3.4 provient de l article de S. Mischler et C. Mouhot [32] à l exeption près de la preuve de (3.4.22) qui est tirée du livre de S. Rachev et L. Rüschendorf [38]. Les résultats présentés dans la section 3.5 sont, je crois, originaux : ils permettent de quantifier les équivalences présentées dans la section 3.3 grâce aux techniques de la section 3.4, et surtout de
111 montrer l équivalence avec la mesure du chaos qui apparaît naturellement dans les techniques de couplage que nous présenterons au chapitre 6. Je tiens à remercier M. Hauray qui m a signalé une faute dans la preuve initiale du Lemme , qui m a proposé un schéma de preuve pour ce résultat, schéma que j ai en grande partie suivi dans la preuve présentée ici. On trouvera une preuve du lemme de Poincaré dans [45, Proposition 3.1] ou [8, xemple 2] (qui fait remonter ce résultat à Mehler [29] en 1866). On trouvera la preuve de la chaoticité de la suite définie dans l exemple dans [21] et [8, Théorème 9]. On trouvera la preuve de la chaoticité de la suite définie dans l exemple dans [45, Proposition 3.2]. 97
112 98
113 Chapitre 4 ntropies et mesures de Gibbs 4.1 ntropie de niveau 3. Dans cette section = R d. Pour f P() fonction régulière on définit l entropie (de Boltzmann) par (4.1.1) H(f) := f log f. Afin de définir cette quantité pour des densités f les plus générales possibles, on commence par remarquer que (4.1.2) H(f) = h(f/g k ) G k + f log G k (=: H (2) (f)) où G k (v) := C k exp( v k ) P(), k, C k > 0, et h(s) := s log s s+1. Le terme de droite est alors bien défini comme élément de R {+ } dès que f P() L 1 k () (c est la somme d un terme positif et d un terme fini). nfin, on étend cette définition à ρ P k () en posant (4.1.3) H(ρ) := sup φ C c() (G k φ + log G k ) dρ h (φ) G k (=: H (3) (ρ)) où h (t) := e t 1 est la transformée de Legendre de h. Théorème (Caractérisation de l entropie de niveau 3) Soit m > 0. Pour tout π P m (P()), on a 1 H(π) := H(ρ) π(dρ) = sup j N j H 1 j(π j ) = lim j j H j(π j ), P() où π j dénote la suite de probabilités marginales définies dans le théorème de Hewitt et Savage et H j est l entropie de Boltzmann définie sur P m ( j ) et donc H 1 = H. 99
114 100 Les quatre paragraphes suivants sont consacrés à la preuve du Théorème Pour ce faire, on introduit les définitions des fonctionnelles d entropie de Boltzmann de niveau 3 par H 1 (π) := sup j 1 1 j H j(π j ), H 2 (π) := H(ρ) π(dρ), P() pour tout π P m (P()), et on montre que ces deux fonctionnelles sont identiques Considérations élémentaires sur l entropie de Boltzmann. On commence par deux résultats élémentaires, mais fondamentaux, sur l entropie usuelle ( de niveau 1 ) de Boltzmann. Lemme Soit m > 0. La fonctionnelle P m () R {+ }, ρ H(ρ) est bien définie par la formule (4.1.3) pour tout k (0, m), est convexe et sci pour la notion de suites convergentes ρ n ρ si ρ n ρ au sens faible des mesures et ρ n, v m est bornée. De plus, la quantité H(ρ) ne dépend pas de l expression de G k utilisée dans la formule (4.1.3) et H(ρ) < si, et seulement si, ρ(dv) = f(v) dv où f est une fonction mesurable telle que f log f L 1 (), et alors H(ρ) = H(f) définie par (4.1.1). Preuve du lemme On écrit H(ρ) = S 1 (ρ) + S 2 (ρ) avec S 2 (ρ) := ρ, log G k, k (0, m), de sorte que S 2 est continue au sens de la convergence utilisée et S 1 est sci convexe comme transformée de Legendre/fonction conjuguée d une fonctionnelle convexe. Montrons que si ρ n est pas une fonction mesurable, c est-à-dire si elle n est pas absolument continue par rapport à la mesure de Lebesgue λ sur, alors H (3) (ρ) = +. Comme ρ est une mesure régulière (c est une mesure borélienne finie) il existe une boule B = B(x 0, 1) et un compact K B tel que λ(k) = 0 et ρ(k) > 0. Pour ε (0, 1), on considère une fonction ϕ ε C c () telle que 0 ϕ ε 1, ϕ ε = 1 sur K et ϕ 0 sur Kε c, K ε := {x ; dist(x, K) 2ε} 2B. On a ainsi K ε ց K lorsque ε 0 et donc λ(k ε ) λ(k) = 0, et également G k ϕ ε dρ inf G k dρ =: κ > 0. B n revenant à la définition de H (3) (ρ) on obtient pour tout A > 0 H (3) (ρ) lim inf (G k A ϕ ε + log G k ) dρ h (A ϕ ε ) G k ε 0 A κ + ρ, log G k lim ε 0 K K ε (e A 1) G k = A κ + ρ, log G k. La conclusion est donc bien H (3) (ρ) = +. Par ailleurs, pour f P() L 1 k (), il est clair que H (3) (f) H (2) (f) puisque h(s) t s h (t). Mieux, de h(s) =
115 101 (log s) s h (log s) pour tout s > 0, on tire en approchant ψ := log(f/g k ) par des fonctions régulières H (2) (f) = G k (ψ f h (ψ)) + f log G k ) = H (3) (f), ce qui termine de montrer que les définitions (4.1.1), (4.1.2) et (4.1.3) coïncident. Lemme (i) Pour toutes fonctions f, g L 1 m () P(), m > 0, on a (4.1.4) H(f) := f log f f log g, ou de manière équivalente H(f g) := f log(f/g) = g [f/g log(f/g) f/g + 1] 0. (ii) Plus généralement, pour toutes fonctions f, g L 1 +() L 1 m(), m > 0, on a f log f g F log F G, avec F := f, G := g. (iii) L entropie est suradditive : pour toute fonction F L 1 m( i+j ) P sym ( i+j ), i, j N, m > 0, on a l inégalité (4.1.5) h i+j h i + h j, avec h k = H k (F k ) = F k log F k, k où F k désigne la marginale d ordre k de F. (iv) Soient = R d et a > 0. Il existe une constante C a := C(a, d) R telle que pour tout f P a () on ait (4.1.6) H(f) C a f v a dv. (iv) Lorsque = R d, f L 1 2 () P(), g L1 () P(), on a f log g H(f g) d 2 log(2π) 1 f v 2 dv. 2 Preuve du Lemme (i) Le deuxième (et donc premier) point provient de ce que la fonction s s log s s + 1 est positive. (ii) On écrit f log f g = F f/f log f/f g/g + f log F G, le premier terme est positif (c est la deuxième inégalité énoncée) et le dernier terme est celui annoncé.
116 102 (iii) Si h i+j = + il n y a rien à démontrer. Supposons désormais h i+j <. Dans R { }, on calcule h i+j h i h j = F i+j log F i+j i+j F i+j log F i (v 1,.., v i ) F i+j log F j (v i+1,.., v i+j ) i+j i+j = F i+j log F i+j F i+j log F i F j 0, i+j i+j grâce au point (i). (iv) Grâce à un argument de densité, il suffit de se restreindre au cas f L 1 () P k (), ce qui nous permet d utiliser l expression (4.1.1) ou (4.1.2). L inégalité (4.1.4) avec g := G k (v) = A k exp( v k ) P(), A k > 0, implique que H(f) f log G k = log A k f v k dv. (v) D une part, l inégalité (4.1.4) avec g := (2π) d/2 exp( v 2 /2) implique que H(f) f log G = d 2 log(2π) 1 f v 2 dv. 2 Lorsque H(f g) <, on écrit d autre part f log g = H(f g) + H(f). On conclut en combinant ces deux informations La fonctionnelle H 1. Lemme La fonctionnelle H 1 : P m (P()) R { + } est bien définie, séquentiellement sci, linéaire et pour tout π P m (P()) 1 lim j j H j(π j ) = H 1 (π). Preuve du Lemme tape 1. D une part, H 1 (π) H 1 (π 1 ) et H 1 (π 1 ) R {+ } de sorte que H 1 (π) R {+ }. Si π N π faiblement dans P m (P()) on a, en particulier, π N j π j faiblement dans P( j ) et donc H j (π j ) lim inf H j (π N j ). Cela implique bien que H 1 est séquentiellement sci. tape 2. On pose h k := H k (π k ). Pour i, j N on a l inégalité (4.1.5). Si h i+j < on en déduit h i < et h j <. n d autres termes h i < entraîne h j < pour tout j i. Ainsi h j = implique également h i = pour tout i j et donc toujours dans ce cas limh i /i = +. Supposons déssormais que h j < pour
117 103 tout j 1. On note alors s = sup h j /j R {+ }. Pour ε > 0 et en choisissant k N tel que h k /k > s ε si s R (resp. h k /k > 1/ε si s = + ) on peut écrire j = m k + n, 0 n < k de sorte que h j = h m k+n m h k + h n m k(s ε) + min h n j (s ε) C ε 1 n<k ( ) resp. m k (1/ε) + min h n j/(2ε) C ε. 1 n<k Dans le cas s <, on en déduit s lim sup j h j j lim inf j h j j lim inf j [s ε C ε/j) = s ε, ce qui démontre H 1 (π) = sup j h j j = lim h j j j. t on arrive à la même conclusion dans le cas s =. tape 3. tant données F, G P m (P()) telles que H j (F j ) <, H j (G j ) < pour tout j 1 et θ (0, 1) et utilisant la croissance de la fonction s log s et la convexité de la fonction s s log s, on a H j (θ F j + (1 θ) G j ) = (θ F j + (1 θ) G j ) log(θ F j + (1 θ) G j ) j θ F j log(θ F j ) + (1 θ) G j ) log((1 θ) G j ) j = θ H j (F j ) + (1 θ) H j (G j ) + θ log θ + (1 θ) log(1 θ) H(θ F j + (1 θ) G j ) + θ log θ + (1 θ) log(1 θ). Grâce au résultat de l étape 1, on en déduit immédiatement H 1 (θ F + (1 θ) G) θ H 1 (F) + (1 θ) H 1 (G) H 1 (θ F + (1 θ) G), ce qui est bien la relation de linéarité. Lorsque H j (F j ) = + ou H j (G j ) = +, on a H j (θ F j + (1 θ) G j ) = +, ce qui implique la linéarité (de part et autre de l égalité les termes sont égaux à + ) La fonctionnelle H 2. D après la définition de H 2 il est clair que H 2 : P k (P()) R {+ } puisque la condition α P k (P()) signifiant m k := ρ, v k α(dρ) <, P()
118 104 on a bien grâce à (4.1.6) H 2 (α) P() ( ) C k ρ v k dv α(dρ) = C k m k >. La linéarité de H 2 provient de la linéarité de l intégrale. Le caractère sci de H 2 est une conséquence du lemme suivant. Lemme Soit (π N ) une suite bornée de P k (P()), k (0, ), telle que π N π faiblement dans P(P()), soit donc π N 1, v k C et π N, Φ π, Φ lorsque N pour tout Φ C b (P()). Alors, on a H 2 (π) lim inf H 2 (π N ). Preuve du Lemme On introduit ρ t la solution de l équation de la chaleur t ρ t ρ t = 0, ρ 0 = ρ pour tout ρ P() donné. On calcule facilement t ρ t v k = ρ t v k k 2 ρ t v k, de sorte que ρ t P k (P()) pour tout t 0. Cette borne permet de définir l entropie H(ρ t ) et on calcule alors ρ t 2 t H(ρ t ) = (1 + log ρ t ) ρ t = 0, ρ t de sorte que H(ρ t ) H(ρ) pour tout t 0. De plus, ρ t ρ faiblement P(R d ) lorsque t 0, de sorte que par sci de H on a H(ρ t ) H(ρ) lorsque t 0. nfin, en écrivant ρ t = γ t ρ on voit clairement que ρ k ρ faible P(R d ) implique ρ kt ρ t fort pour tout t > 0. Ce dernier point implique en particulier que l application ρ H(ρ t ) est continue de P(R d ) dans R pour tout t > 0. On introduit maintenant la fonctionnelle régularisée H2 t (π) := H(ρ t ) π(dρ). Pour tout t > 0, on a donc ce qui implique H t 2 (πn ) H 2 (π N ) P() et H t 2 (πn ) H t 2 (π), (4.1.7) t > 0 H2 t (π) lim inf H 2(π N ). n nfin, de H(ρ t ) ր H(ρ) lorsque t 0, on déduit par le théorème de convergence monotone que (4.1.8) H 2 (π) = lim t 0 H t 2 (π). On conclut en combinant (4.1.7) et (4.1.8).
119 Conclusion de la preuve du Théorème tape 1. Pour ω i, 1 i N, une partition de P m (), on introduit π = α 1 γ α N γ N, γ i := 1 1 ωi π, α i := π(dρ), α i ω i ainsi que π N := Pour tout 1 i N on a N α i δ fi, i=1 H 1 (γ i ) := sup j 1 f i := γ i 1 = P() ρ γ i (dρ). 1 j H j(γ i j) H 1 (f i ) = H(f i ), et par inégalité de Jensen H 2 (γ i ) = H(f) π(df) ω i α i ( H f π(df) ω i α i ) = H(f i ). n utilisant la linéarité de H j, j = 1, 2, on en déduit H j (π) = α 1 H j (γ 1 ) α N H j (γ N ) α 1 H(f 1 ) α N H(f N ) = H(ρ) π N (dρ) = H 2 (π N ) P() = α 1 H 1 (δ f1 ) α N H 1 (δ fn ) = H 1 (π N ). tape 2. Pour ε > 0 fixé, on recouvre la grande boule BP m,1/ε par un nombre fini de petites boules B i := {f BP m,1/ε ; D(f, f i ) < ε}, 1 i N 1, où D désigne la distance de MKW1 (ou encore de Kantorovich-Rubinstein) associée à la distance bornée d (x, y) := x y 1 comme définie au Théorème n effet, comme D métrise la convergence faible de P(), l espace (BP m,1/ε, D) est compact d après le théorème On suppose qu aucune de ces boules n est incluse dans une union d autres boules et on définit ω 1 := B 1,..., ω k := B k \(B 1... B k 1 ) pour 1 k N 1 et ω N := P m ()\(B 1... B N 1 ). On a ainsi défini une partition de P m (). On considère maintenant une suite ε 0 et (π N ) une suite ainsi définie à l aide de la partition correspondant au paramètre ε. Pour cette suite, on a d une part j = 1, 2 H j (π) H + = lim sup N Par ailleurs, on remarque que π N 1 = π 1, et en particulier π N 1, v m = π 1, v m = M m (π) <, H 1 (π N ) = lim sup H 2 (π N ). N
120 106 puisque π P m (P()). Pour tout k N et ϕ = ϕ 1 ϕ k, ϕ j Cc 1 (), de sorte que ϕ j (x) ϕ j (y) L j ( x y 1) pour une constante L j, on a également π N k π k, ϕ = = N (f k N,i ρ k ) π(dρ), ϕ i=1 ω N,i N 1 k ( ) ( f N,i, ϕ j f N,i ρ, ϕ j i=1 j=1 ω N,i j <j j >j + f k N,i ρ k, ϕ π(dρ) ω N,N N 1 k ( ) ( ϕ j L j i=1 ω N,i j=1 ω N,N + N 1 Cϕ 1 ε i=1 j j <j ϕ j π(dρ) ω N,i π(dρ) + C 2 ϕ (C 1 ϕ + C 2 ϕ M m (π)) ε 0. j >j { ρ, v m 1/ε} ) ρ, ϕ j π(dρ) ) ϕ j D(f N,i, ρ) π(dρ) ε ρ, v m π(dρ) D après le Théorème cela implique bien que π N π au sens de la convergence faible dans P(P()). Or le caractère sci des fonctions H j implique que j = 1, 2 H j (π) H = lim inf N H 1(π N ) = lim inf N H 2(π N ). On en déduit Ce qui termine la preuve. H 1 (π) = lim H 1 (π N ) = lim H 2 (π N ) = H 2 (π). 4.2 Limite de mesures de Gibbs. Cette section est consacrée au passage à la limite dans une suite de mesures de Gibbs en méchanique statistique. Cette limite a été obtenue par Messer, Spohn [31] et par Caglioti, Lions, Machioro, Pulvirenti [6, 7]. La preuve que nous présentons diffère légèrement de celles que l on peut trouver dans ces articles : elle est plus économique (nécessite moins de bornes a priori) mais est également moins précise. Avant de décrire (très succintement) le problème physique, nous commençons par établir le résultat mathématique clé qui permettra le passage à la limite mentionné. Théorème Soit R d. Soit (F N ) une suite de P sym ( N ) et π P(P()) telles que F N π faiblement au sens où Fj N π j faiblement dans P( j ) et il
121 107 existe C, a > 0 tels que F N 1, v a C. Alors (4.2.9) H(π) lim inf 1 N H N(F N ). Preuve du Théoème Pour j N fixé, on introduit la décomposition uclidienne N = n j +r avec n N, 0 r j 1. n itérant l inégalité de suradditivité (4.1.5), on a H N (F N ) n H j (F N j ) + H r (F N r ). D après la borne inférieure (4.1.6), l hypothèse de bornitude des moments de F N et l équivalence des normes dans r, 0 r j 1, on a aisément H r (Fr N ) C a,rd Fr N v a dv r C a,rd C r F1 N v a dv C a,rd C r C K >, pour tout 0 r j 1. On en déduit et donc 1 N H N(F N ) n N H j(f N j ) + K N lim inf 1 N H N(F N ) 1 j H j(π j ) pour tout j N puisque N/n j lorsque N, H j (π j ) lim inf H j (Fj N) et K/N 0. On conclut grâce au Théorème Dans la suite de cette section on suppose que est une partie compact de R d (ou seulement de mesure de Lebesgue finie). Pour des potentiels a 1 : R et a 2 : R, on définit l Hamiltonien a (N) (X) = 1 N et la mesure de Gibbs associée N i=1 a 1 (x i ) N f (N) (X) = e a(n) (X) Z(N), Z(N) = N i j=1 Pour tout g P sym ( N ) on définit son énergie V (N) (g) := a (N) g(dx) N et son énergie libre F (N) (g) := V (N) (g) + H (N) (g), a 2 (x i, x j ) N e a(n) (X) dx. où H (N) désigne (changement de notations) l entropie sur N. La mesure de Gibbs f (N) est l équilibre associé à la fonctionnelle d énergie libre F (N) (à l Hamiltonien a (N) ).
122 108 Lemme Pour tout N on a F (N) (f (N) ) = inf F (N) (g). g P( N ) Preuve du Lemme Un premier argument est le suivant. Si g est un point de minimum pour F (N) sous la contrainte d être d intégrale 1, alors il existe un multiplicateur de Lagrange λ R tel que log g a (N) = λ, d où on obtient f (N). Un deuxième argument, plus explicite, est le suivant. On écrit pour tout g P( N ) F (N) (g) = H (N) (g f (N) ) + (log f (N) + a (N) ) g(dx) N = H (N) (g f (N) ) + (log f (N) + a (N) ) f (N) (dx) N H (N) (f (N) f (N) ) + (log f (N) + a (N) ) f (N) (dx) = F (N) (f (N) ), N ce qui est bien l inégalité annoncée. On fait les hypothèses suivantes sur les potentiel a i, i = 1, 2 : (4.2.10) (4.2.11) (4.2.12) a i est mesurable, i = 1, 2, a 2 est symétrique, a i, L M <, i = 1, 2, a 1,+ L (), a 2,+ L 1 ( 2 ). On définit l énergie d une densité de particules typiques g P() par V (g) := 1 a 2 (x, y) g(dx) g(dy) R {+ }, 2 et son énergie libre par F(g) := H(g) + V (g) R {+ }, où H = H 1 est l entropie sur. Il est classique de montrer qu il existe au moins une solution f P() au problème de minimisation (4.2.13) F( f) = min g P() F(g), et en écrivant l équation d uler correspondante, que f vérifie ( ) (4.2.14) f(x) = Z 1 exp a 2 (x, y) f(y) dy, Z R +.
123 On note S P() l ensemble des solutions f de (4.2.13). Soulignons qu en général il n y a pas unicité de la solution de (4.2.13), et donc S n est pas un singleton. Pour π P(P()) on définit son énergie libre (de niveau 2) par F(π) := V(π) + H(π), où H est l entropie de niveau 2 définie dans la section précédente et V est l énergie de niveau 2 définie par V(π) := V (ρ) π(dρ). P() 109 Théorème Il existe une sous-suite encore noté f (N) et une probabilité de mélange π P(P()) vérifiant supp π S telles que f (N) π faiblement. Plus précisément pour la première égalité et de manière équivalente pour la seconde égalité, on a 1 (4.2.15) lim N N F (N) (f (N) ) = F( π) = inf F(π). π S nfin, si le problème (4.2.13) admet un unique minmum noté f P() alors π = δ f et toute la suite f (N) est f-chaotique. On commence par un résultat reliant énergie de niveau 1 et de niveau 2 dans l esprit du Théorème Lemme Pour tout π P(P()) on a 1 (4.2.16) V(π) = lim j j (j) (π j ) = 1 a 2 (x, y) π 2 (dx, dy), 2 où π j P( j ) désigne la marginale de degré j associée à π et définie dans le théorème de Hewitt et Savage. Preuve du Lemme Puisque V est un polynôme (au sens où cela a été introduit dans le chapitre 3) on a d une part et par définition V(π) = = = 1 2 P() P() V (ρ) π(dρ) { } 1 a 2 (x, y) ρ(dx) ρ(dy) π(dρ) a 2 (x, y) π 2 (dx, dy).
124 110 On a d autre part, V (j) (π j ) = a (j) (X) π j (dx) j { 1 j = a 1 (x i ) + 1 j 2j = 1 j = j j i=1 i=1 j i j=1 a 2 (x i, x j ) a 1 (x 1 ) π j (dx 1,..., dx j ) + 1 j j a 1 (x) π 1 (dx) + (j 1) } j i j=1 π j (dx 1,..., dx j ) a 2(x, y) π 2 (dx, dy), ce qui implique bien que la deuxième égalité dans (4.2.16). j 1 2 a 2(x 1, x 2 ) π j (dx 1,..., dx j ) Preuve du Théorème tape 1 - Bornes a priori. Soit ϕ P() L (). Par définition de f (N) et l hypothèse (4.2.12), on a (4.2.17) 1 N F (N) (f (N) ) 1 N F (N) (ϕ N ) F(ϕ) + a 1,+ L <, puisque H (N) (ϕ N ) = N H(ϕ) et V (N) (ϕ N ) = (N 1) V (ϕ) + n reprenant la preuve du Théorème 4.2.6, on a (4.2.18) n définissant V (N) (4.2.19) 1 N V (N) (f (N) ) = 1 j + 1 H(j) (f (N) j ) 1 N H(N) (f (N) ) + K. a 1 dρ. à partir de a 2,, la preuve du lemme implique ( 1 1 ) 1 N 2 a 2, (x 1, x 2 ) f (N) 2 (dx 1, dx 2 ) a 1, (x 1 ) f (N) 1 (dx 1 ) 3 N 2 M. Combinant (4.2.17), (4.2.18) et (4.2.19), on obtient (4.2.20) 1 j + 1 H(j) (f (N) j ) 1 N F (N) (f (N) ) + 1 N V (N) (f (N) ) + K F(ϕ) M + K <. tape 2 - Passage à la limite. D après le Théorème de compacité, on sait qu il existe une sous-suite toujours notée f (N) telle que f (N) π faiblement. Plus précisément, grâce à la borne (4.2.20), on a pour tout j N (4.2.21) f (N) j π j faiblement dans L 1 ( j ).
125 111 On introduit a 2,ε := min(a 2, 1/ε) pour tout ε > 0, de sorte que a 2,ε a 2 et a 2,ε L, et la fonctionnelle d énergie V ε (N) associée. On écrit 1 (4.2.22) N H(N) (f (N) ) + 1 N V ε (N) (f (N) ) 1 N F (N) (f (N) ). Toujours à cause du même calcul effectué dans la preuve du lemme 4.2.9, on a ( 1 N V ε (N) (f (N) ) = 1 1 ) 1 a 2,ε f (N) 2 dxdy + 1 a 1 f (N) 1 dx, N 2 N 2 de sorte que grâce à (4.2.21) on déduit (4.2.23) lim 1 N V (N) ε (f (N) ) = a 2,ε π 2 dxdy. Combinant (4.2.22), (4.2.23) et le résultat du théorème 4.2.6, on obtient H( π) + 1 a 2,ε π 2 dxdy lim inf 1 2 N F (N) (f (N) ). 2 pour tout ε > 0, et donc par convergence monotone (4.2.24) F( π) lim inf 1 N F (N) (f (N) ). tape 3 - Identification de la limite. Soit ϕ S. Comme alors ϕ log ϕ L 1 et a 2 ϕ ϕ L 1, on vérifie sans difficulté que Or par ailleurs, pour tout N, de sorte que lim 1 N F (N) (ϕ N ) = F(ϕ) = F(δ ϕ ). 1 N F (N) (f (N) ) 1 N F (N) (ϕ N ), (4.2.25) lim sup 1 N F (N) (f (N) ) lim 1 N F (N) (ϕ N ) = F(ϕ). On a également pour tout π P(P()), l inégalité (4.2.26) F(π) = F(ρ) π(dρ) F(ϕ) π(dρ) = F(ϕ). P() P() n combinant (4.2.24), (4.2.25) et (4.2.26), on en déduit ainsi que F(ϕ) = inf F(π) π P(P()) F( π) = lim 1 N F (N) (f (N) ) = F(ϕ) ce qui prouve (4.2.15). La condition de support provient du fait que si supp π n est pas inclus dans S alors F(π) > F(ϕ).
126 Information de Fisher, entropie et chaos. On introduit les information de Fisher I j (G) := 1 j G 2 et I(π) := j G pour G P( j ) et π P(P()). P() I 1 (ρ) π(dρ) Lemme Soit G P sym ( j ). Alors pour tout 1 l j la probabilité marginale G l satisfait I l (G l ) I j (G). Preuve du Lemme On calcule I j (G) = 1 j G 2 j j G = 1 G 2 G = 1 log G 2 G j = 1 log(g/g l ) + 1 log G l 2 G j { = 1 log(g/g l ) log(g/g l ) 1 log G l + 1 log G l 2} G j =: T 1 + T 2 + T 3. Or on a T 2 = 2 1 (G/G l ) 1 G l j ( ) = 2 1 (G/G l ) dv l+1...dv N 1 G l = 0, l N l T 3 = 1 log G l 2 G l = I l (G l ), l et on conclut en utilisant que T 1 0. Lemme Soit (f n ) une suite de P(), = R d, telle que f n f faible, (f n ) bornée P k (), k > 0, et I(f n ) C. Alors on a (4.3.27) I(f) lim inf I(f n ) et H(f n ) H(f). n particulier, si de plus, k > 2, f n (1, v, v 2 ) dv = (1, 0, d) et I(f n ) I(M) alors H(f n M) 0.
127 113 Preuve du Lemme tape 1. Par l inégalité de Sobolev, on a f n L 2 /2 = f n 2 L 2 C d f n L 2 = C d I(f n ) 1/2 C. Par Rellich, on peut extraire une sous-suite telle que f nk converge p.p. et fortement dans L 2q vers une limite notée g, et donc f nk converge vers g en norme dans L q L 1 k pour tout q [1, 2 /2), k [0, k), ce qui implique f = g. On a ainsi f n f dans D, donc f n f dans D, et enfin I(f) = f 2 L 2 lim inf f n 2 L 2 = lim inf I(f n). Pour montrer la convergence de l entropie on a recours à un procédé classique de découpage. On écrit pour R, M 1 H(g) = g log g + g (log g) + 1 g M + g (log g) + 1 M g 1 B R BR c BR c g(log g) 1 1 g e v g(log g) k/2 1. e v k/2 g 0 B c R Pour le premier terme, on écrit que g (log g) + C ε g 1+ε C ε g 1+2ε /M ε sur {g M} avec ε := (2 /2 1)/2. Pour le second terme, on écrit que g (log g) + g log M g (log M) v k /R k sur {g M, v R}. Pour le troisième terme, on écrit que log g v k/2 sur {g exp( v k/2 )} et donc g(log g) g v k/2 g v k /R k/2 sur {1 g exp( v k/2 ), v R}. Pour le dernier terme, on écrit que g (log g) 4 g sur {0 g 1} et donc g (log g) 4 exp( v k/2 /2) sur { exp( v k/2 ) g 0, v R}. On a donc ainsi B H(g) g log g R C ε M ε I(g) + B c R ( log M + 1 ) R k R k/2 g v k + 4 e 1 2 v k/2. BR c Comme B R f n log f n B R f log f par une variante classique du théorème de convergence dominée, on a bien démontré la deuxième convergence de (4.3.27). tape 2. On définit D := {f L 1 (R d ); f 0, f = 1, f v = 0, f v 2 = d}, et M(v) := (2π) d/2 exp( v 2 /2). On définit l information relative de Fisher par f 2 I(f) = = 4 f 2, I(f M) = I(f) I(M) = I(f) d. f On va démontrer (4.3.28) f D I(f M) 0, avec égalité si, et seulement si, f = M.
128 114 Pour f D, I(f) <, on a 0 J(f) := = 2 2 f + x f f dx ( 4 f x f + x f) 2 dx = I(f) + M 2 (f) 2 d = I(f) d = I(f) I(M) =: I(f M). De plus, si I(f M) = 0 alors J(f) = 0 et donc 2 f +x f = 0 p.p.. Par bootstrap (injection de Sobolev, de Morrey, puis calcul différentiel classique) on en déduit que f C. Soit alors x 0 R d tel que f(x 0 ) > 0 (existe car f D) et O l ouvert composante connexe de {f > 0} contenant x 0. On déduit de l identité précédente que (log f + x 2 /4) = 0 dans O et donc f(x) = e C x 2 /2 sur O avec C R. Par continuité de u, on en déduit que O = R d, et donc C = log(2 π) d/2 (condition de normalisation). tape 3. Par hypothèse, et avec les notations de l étape 2, on a f n f avec f D. Grâce aux deux premières étapes, on en déduit I(M) I(f) lim inf I(f n ) = I(M), donc f = M. Or par (4.3.27) on a H(f n ) H(M), et on conclut en écrivant H(f n M) = H(f n ) f n log M H(f) f log M = 0. On a vu que lorsque la dimension de l espace est fixée un contrôle de l information de Fisher d une suite plus sa convergence au sens faible implique sa convergence au sens de l entropie relative (et également forte dans L 1 ). Nous allons étendre ce genre de résultat au cas de la dimension infinie et au cas de la dimension N. Lemme Soit (π n ) une suite de P k (P()), k > 0, telle que π n π faible et I(π n ) C. Alors on a I(π) lim inf I(π n ) et H(π n ) H(π). Preuve du Lemme On reprend des arguments développés dans la preuve du Lemme La preuve de la limite inférieure étant en tout point similaire à celle de la fonctionnelle H 2, on ne prouve que la deuxième convergence. On introduit ρ t la solution de l équation de Fokker-Planck t ρ t = ( ρ t + v ρ t ), ρ 0 = ρ pour tout ρ P() donné. On rappelle que pour J = H et J = I on a J(ρ t ) J(ρ) pour tout t 0, que J(ρ t ) J(ρ) lorsque t 0 et que ρ m ρ faible P(R d ) implique que ρ mt ρ t fort, par exemple dans L 2 et avec une borne L 2 uniforme (qui ne dépend que de t), pour tout t > 0. Ce dernier point implique en particulier
129 que l application ρ H(ρ t ) est continue de P(R d ) dans R pour tout t > 0. Pour voir cela, il suffit de reprendre la preuve de la première étape dans le Lemme et d y remplacer la borne sur l information de Fisher par une borne sur une borne L 2 de (ρ mt ) On introduit maintenant la fonctionnelle régularisée H t (π) := H(ρ t ) π(dρ). P() Utilisant que I(ρ t ) I(ρ) pour tout t 0, on a t H(ρ t ) H(ρ) = [I(ρ s ) I(M)] ds t [I(ρ) + I(M)]. On écrit alors avec 0 H(π n ) H(π) = (H(π n ) H t (π n )) + (H t (π n ) H t (π)) + (H t (π) H(π)) H t (π) := On a évidemment, pour tout t > 0 P() H(ρ t ) π(dρ). 115 H t (π n ) H t (π) lorsque n et on a également pour tout α P(P()) H t (α) H(α) H(ρ t ) H(ρ) α(dρ) t [I(α) + I(M)]. P() On conclut en combinant ces deux informations. Lemme Soit (F N ) une suite de P( N ) et g, f P(), = R d. On suppose ainsi que D 2 ( log g) K R, I(f) <, M k (F N ) C, F N est f-chatotique, I(F N g N ) C ou I(F N ) C, log g(v) C v k/2, avec K R, C (0, ), k (2, ). Alors F N est entropie chaotique au sens où H(F N g N ) H(f g). n particulier, si de plus D 2 ( log f) K et I(F N f N ) C, alors F N est entropie relative chaotique au sens où H(F N f N ) 0.
130 116 Preuve du Lemme On définit G N := g N de sorte que si g = e ψ avec D 2 ψ K au sens des matrices symétriques de, on a G N = e Ψ N, Ψ N = ψ(v i ), avec D 2 Ψ K au sens des matrices symétriques de N. D après une égalité de type HWI (que l on peut trouver dans [36, preuve du Théorème 3]) (4.3.29) H(F N G N ) H(f N G N ) + I(F N G N )W 2 (F N, f N ) + K 2 W 2(F N, f N ) 2, où on rappelle que H(β α) = 1 β log β N α, N I(β α) = 1 β log β N α 2, N W 2 (β, α) 2 = 1 N inf X Y 2 π(dx, dy ). π Π(α,β) 2N D une part, on a 1 N inf X Y 2 π(dx, dy ) π Π(α,β) 2N de sorte que 1 N 2N x i k + y i k inf π(dx, dy ) N π Π(α,β) M k 2 i=1 + 1 N inf x i y i 2 1 xi y N i M π(dx, dy ) π Π(α,β) i=1 2N 1 M (M k(α) + M k 2 k (β)) ( ) 1 N +M inf ( x i y i M) π(dx, dy ), π Π(α,β) N W 2 (F N, f N ) 1 M k 2 (M k(f N ) + M k (f)) + M W M 1 (F N, f N ) avec W1 M la distance de MKW définie à partir de la distance bornée ci-dessus et donc W1 M(F N, f N ) 0 lorsque N puisque F N est f-chaotique. On en déduit que W 2 (F N, f N ) 0 lorsque N. D autre part, en développant le carré et en utilisant une intégration par parties, on a I(F N G N ) = 1 F N N F GN 2 N N G N F N = I(G N ) + 1 [ ] log G N G N. N Utilisant log g N log g N = N F N 2N i=1 N i log g(v i ) i log g(v i ) i=1
131 et la propriété de symétrie de G N, on obtient [ I(F N g N ) = I(F N ) + log g log g ]. F1 N Puisque log g 2 C v k/2 et log g K on en déduit que I(F N g N ) est une suite bornée (puisque majorée). On conclut grâce à (4.3.30) que (4.3.30) lim sup H(F N g N ) lim sup H(f N g N ) = H(f g). Corollaire Soit (F N ) une suite de P( N ), = R d. On suppose Alors I(F N ) C, M k (F N ) C, k > 2. H(F N ) H(F N 1 ) C W 2 (F N, (F N 1 ) N ) n particulier, si F N est f-chatotique, alors F N est entropie chaotique au sens où H(F N ) H(f). Remarque Le corollaire est une version forte du chaos dans lesquelles on demande plus que la simple convergence faible des marginales. Problème ouvert Sous quelle condition sur F N une suite f-chaotique et G N une suite g-chaotique, a-t-on H N (F N G N ) H(f g)? Remarque On a logdet D 2 ϕ ϕ d si ϕ : R d R. La preuve est la suivante. Comme D 2 ϕ est symétrique, elle est diagonalisable, et appelons λ 1,..., λ d ses valeurs propres et A la matrice diagonale associée, de sorte que log det D 2 ϕ = log det A = log( i n utilisant l inégalité log λ i λ i 1, on obtient λ i ) = i log λ i. 117 log det D 2 ϕ i (λ i 1) = tra d = tr D 2 ϕ d = ϕ d. 4.4 Notes diverses Mesures de Gibbs et information de Fisher On considère l Hamiltonien a (N) défini dans la section 4.2 avec a 2 /β la fonction de Green associée à l équation de Poisson avec conditions de Dirichlet dans un ouvert borné R 2, soit donc a 2 (x, y) = β 2π log x y + β γ(x, y), β 2π log diam() β γ L. avec γ : R est une fonction symétrique et harmonique dans les deux variables et β > 0. Avec les notations de la section 4.2 on rappelle une borne sur f (N) obtenue dans [6].
132 118 Théorème [6, Théorème 3.1] Il existe deux constantes C = C(β, ), K = K(β, ) telles que f (N) j (X) C j e β j N a(j) (X) K j X j, 1 j N. Corollaire Il existe une constante C = C(β, ) telle que Preuve du Corollaire. On écrit 1 N I N(f (N) ) = = = = N 1 f (N) 2 f (N) 1 N I N(f (N) ) C. 1 a (N) 2 f (N) N α(x 1, x j ) N N (N 1)2 N 2 j 2 3 k=2 2 f (N) K α(x, y) 2 dxdy C 2 1 α(x 1, x 2 ) 1 α(x 1, x k )f (N) 3 3 (1 + 1 x y )dxdy, B R 4(0,M) et ce dernier terme est fini ntropies pour des combinaisons finies d états purs xercice a) - Soit π P(P()). A l aide de l inégalité de Jensen (dans P()) montrer que H j (π j ) := 1 π j log π j H(π) := H 1 (ρ)π(dρ). j j P() Soient maintenant f 1,..., f N P() telles que H(f k ) <. On considère π := (δ f δ fn )/N P(P()). b) - Montrer que π j = (f j f j N )/N satisfait π j log π j = j ( ) N (H(f f j 1 1) H(f N )) + π j Φ,..., f j N, j N π j j N π j avec Φ : R N + R définie par ( ) ( ) 1 1 Φ(X) := x 1 log x N log. N x 1 N x N c) - Montrer que X R N +, i x i = 1, logn Φ(X) 0, et en déduire ( 1 log N π j log π j = H(π) O j j j ) H(π). j d) Retrouver le résultat du Théorème dans le cas particulier π := (δ f δ fn )/N P(P()).
133 Retour sur l information de Fisher xercice Montrer que I j (g j ) = I 1 (g) pour tout g P(). Problème ouvert a) - A-t-on I N est sci au sens suivant : si (G N ) est une suite de P sym ( N ) qui est g-chaotique alors I(δ g ) liminf I N (G N )? b) - Plus simplement, a-t-on I(π) = limi j (π j )? On va faire un calcul dans le cas le plus simple. On prend G = 1 2 (δ g + δ h ) avec g = γ, h(x) = γ(x a). On a alors G j = 1 2 (g N + h N ). On commence le calcul avec I j (G j ) = = 1 log(g j /G j 1 ) 2 G j + I j 1 (G j 1 ) j j J k + I j 1 (G j 1 ), k=1 J k := = 1 log(g k /G k 1 ) 2 G k k 1G k 1G k 1 2 Gk. G k 1 k G k Or on a g = v g, h = (v a)h, 1 G k = 1 2 (v 1 g k + (v 1 a)h k ) ce qui implique 1 G k G k = v 1 + a et donc avec la notation g k = g(v k ), h k = h(v k ) 1G k 1G k 1 2 G k G k 1 On écrit maintenant J k = a 2 ϕ k (a), ϕ k (a) := h k g k + h k = a 2 h k g k + h k h (k 1) 2 g (k 1) + h (k 1) = a 2 h (k 1) g (k 1) (h k g k ) (g k + h k )(g (k 1) + h (k 1) 2. ) k h (k 1) g (k 1) (g k + h k )(g (k 1) + h (k 1) 2 G k (h k g k ) 2 ) Puisque a (h g) 2 = 2 a h (h g), aa 2 (h g)2 a=0 = 2 ( ah) 2 a=0 = 2 v2 g 2, il est facile de voir que ϕ k (0) = 0, ϕ k (0) = 0, et ϕ k(0) = = 1 8 (g 2 ) (k 1) (2 g k )(2 g (k 1) 2 g k 2 vk 2 gk 2 ) k k g (k 1) v 2 k g k = 1 8 Il n est pas clair que l on puisse en déduire quelque chose de pertinent!
134 Retour sur l entropie relative Lemme Soit = R d. Si f n f L 1 () P() et g n g p.p., alors (4.4.31) H(f g) liminf H(f n g n ). Mieux, si f n f et g n g faiblement dans L 1 () P(), alors (4.4.32) H(f g) liminf H(f n g n ). Problème ouvert Sous quelles conditions (supplémentaires) sur f n f et g n g faiblement dans L 1 () P() a-t-on (4.4.33) H(f g) = limh(f n g n )? Idée de la preuve du Lemme tape 1. On montre (4.4.31). On montre que f = 0 sur A 0 := {g = 0} de sorte que par définition H A0 (f g) = H(0 0) = 0. On a g n 0 uniformément sur A ε A 0 avec A 0 \A ε < ε. On raisonne par l absurde et on peut donc supposer également que f > ε sur A ε, que A ε B(0, R) et que H(f n g n ) C. On a alors C H(f n g n ) g n h(f n /g n ) A ε f n log f n + f n ( log g n ) + g n A ε A ε A ε e 1 log e 1 + ( log g n L (A ε)) f n 1 A ε A ε et cela est absurde puisque le terme du milieu tend vers ( log 0 L (A ε)) f = +! A ε Maintenant, sur A = {M g ε} on a f log f f log g f + g A A A A liminf f n log f n f n log g n A liminf H(f n g n ), ce qui termine la preuve de (4.4.31). tape 2. On montre (4.4.32). Il suffit d écrire H(f n g n ) = A h(f n g n )dv A A ε f n f n + g n A avec h(x y) := x log(x/y). Or on calcule son gradient et sa Hessienne ( ) ( ) 1 + log(x/y) h(x y) =, D x/y 2 1/x 1/y h(x y) = 1/y x/y 2 0, ce qui prouve que h est convexe par rapport à ses deux arguments. Il suffit alors d écrire { } H(f n g n ) = ϕ(v)f n (dv) + ψ(v)g n (dv) h (ϕ(v), ψ(v)) dv sup ϕ,ψ C 0() où h désigne la fonction conjuguée de h dans R 2. t il n y a pas de difficulté pour passer à la limite inférieur dans cette dernière expression.
135 4.4.5 Injection d espace de configurations sur N dans un espace régulier Nous avons vu (et nous reverrons) que l injection N P(), V µ N V est utile pour passer d un espace de N particules à un espace fixe de configurations N, et donc pour établir des limites de champ moyen. Pour pouvoir opérer dans un tel cadre il est nécessaire que les modèles avec lesquels on travaille soient assez réguliers. Une question naturelle est donc de savoir si on peut travailler dans un cadre plus régulier que celui des mesures qui aurait comme avantage de pouvoir considérer des modèles moins régulier. L objet de cette section est d esquisser une piste possible. Voici deux résultats élémentaires et une question. On fixe ρ S() P(), = R d, et on définit pour tout N N, ε > 0, 121 µ N,ε V := 1 N N ρ ε i, i=1 ρ ε i(z) = ρ ε (z v i ) := 1 ε d ρ( z v i ) ε Lemme Si f L 2 () P(), alors Preuve du lemme On calcule µ N V 2 L 2 () f N (dv ) = N = 1 N 2 i j = N 1 N µ N V 2 L 2 () f N (dv ) f 2 ρ 2 L2 L2 + ε d N. N N+1 ρ ε (v v i )ρ ε (v v j )f N (dv ) + 1 N 2 N i=1 3 ρ(x)ρ(y)f(εx + v)f(εy + v)dxdydv + 1 N ε d ρ ε (v v i ) 2 f N (dv ) N+1 1 v v i ) ε dρ2( f(v1 )dv 1 dv ε 2 et on utilise l inégalité de Young f(εx + v)f(εy + v) f(εx + v) 2 + f(εy + v) 2 afin de borner le premier terme. On souhaite maintenant se passer de l hypothèse de tensorisation. Lemme Soit F N P( N ) et = R d avec d = 1, alors N µ N V 2 L 2 () F N (dv ) C ρ I 2 (F N 2 )1/2 + Preuve du lemme On reprend le calcul précédent µ N V 2 L 2 () F N (dv ) = N = 1 N 2 i j = N 1 N N+1 ρ ε (v v i )ρ ε (v v j )F N (dv ) + 1 N 2 N i=1 3 ρ(x)ρ(y)f N 2 (εx + v, εy + v)dxdydv + 1 N ε d ρ 2 L2 ε d N. ρ ε (v v i ) 2 F N (dv ) N+1 1 v v i ) ε dρ2( F N ε 1 (v 1 )dv 1 dv. 2 On ne peut plus utiliser l inégalité de Young pour borner le premier terme, mais le second terme se majore de la même manière. On suppose maintenant que ρ(x) := (2π) d/2 e x2 /2. Le premier
136 122 terme devient T 1 (N 1)/N, avec ( ( c T 1 = exp 1 R 2d R ε2d d ( ( { c = exp 1 R 2d R ε2d 2ε 2 d c = ( ε d exp v 2 v 1 2 4ε 2 R 2d { (v v1 2ε 2 ) 2 + (v v 2 ) 2} ) v v 1 + v 2 2 ) F N 2 (v 1, v 2 )dv 1 dv 2 ) dv F2 N (v 1, v 2 )dv 1 dv 2 } ) ) 2 + v 2 v 1 2 dv F2 N 2 (v 1, v 2 )dv 1 dv 2 Maintenant, on suppose que d = 1, de sorte que v1 c T 1 = ( R 2 ε exp v 2 x 2 ) 4ε 2 dx F2 N v (v 1, v 2 )dv 1 dv 2 1 (R2 C 1 F2 N dv 1 F N ) 1/2 2 1dv 2 C 2 dv 1 dv 2, R 2 par intégartion par parties. F N 2 Problème ouvert Peut-on trouver des fonctionnelles, par exemple du type de information de Fisher généralisée L k (f) := f 2k f 2k 1 ou J k (f) := D k f 2, f qui jouissent de bonnes propriétés concernant la dimension croissante de l espace (du type de celle que l on a démontrée pour l information de Fisher usuelle dans le lemme ) et pour lesquelles un résultat du type obtenu dans le lemme soit vrai en dimension d 2? 4.5 Notes bibliographiques. L énoncé (sous une forme légèrement différente) du théorème apparaît dans l article de L. Arkeryd, S. Caprino et N. Ianiro [2] de Ils citent l article de D.W. Robinson et D. Ruelle [39] datant de 1967 comme référence pour la démonstration. Toutefois le cadre de l article [39] est un peu différent de celui développé dans ce chapitre et la preuve repose sur un résultat (de représentation?) de G. Choquet et P.A. Meyer [11] que je ne comprends pas. La preuve du théorème présentée ici repose d une part sur des arguments classiques de sous additivité de l entropie comme ils preuvent apparaître dans [39] ou [15] dont le lemme est tiré. Cette preuve est peut-être originale, elle permet en tout cas de se passer de l argument de G. Choquet et P.A. Meyer. La section 4.2 reprend l étude d un problème introduit dans un article de Messer, Spohn [31] puis de Caglioti, Lions, Machioro, Pulvirenti [6, 7]. Les preuves présentées en sont largement inspirées. Les résultats (essentiellement les deux derniers) de la section 4.3 donnent des réponses à des questions posées dans [8]. On renvoie à [8] pour d autres résultats de cette nature, liant chaos au sens de Kac et chaos en des sens entropique.
137 Chapitre 5 Calcul différentiel sur P() 123
138 124
139 Deuxième partie Problèmes d évolution 125
140
141 127 Cette partie est consacrée à l étude de problèmes d évolution. Partant d une dynamique de N particules, on souhaite identifier la dynamique typique d une particule dans la limite de champ moyen, c est-à-dire, lorsque N et l action (subie/exercée) par chaque particule est de l ordre de 1/N. Nous allons concidérer uniquement trois modèles : (a) - Le modèle de Vlasov pour lequel la dynamique du système de N particules est donnée par un système d DO et la dynamique de la particule typique est donnée par l équation de Vlasov. (b) - Le modèle de McKean-Vlasov pour lequel la dynamique du système de N particules est donnée par un système d DS Brownien et la dynamique de la particule typique est donnée par l équation de McKean-Vlasov. (c) - Le modèle de Boltzmann-Kac pour lequel la dynamique du système de N particules est décrit par un processus de collisions (processus de Markov à sauts) et la dynamique de la particule typique est donnée par l équation de Boltzmann (homogène). Nous allons identifier les dynamiques typiques pour ces modèles en utilisant quatre stratégies ou méthodes différentes. (1) - La méthode de la mesure empirique. Cette méthode n est efficiente que pour le modèle de Vlasov (déterministe!). L idée est de montrer que la mesure empirique associée à la dynamique des N particules est solution de l équation (non linéaire) de Vlasov et d utiliser un résultat de stabilité sur cette dernière équation. On utilise ici l injection N P N () P(), puis on travaille dans P(). (2) - La méthode dite de couplage. Cette méthode a été developpée pour traiter le modèle de Vlasov-McKean et sera présentée d abord sur le modèle de Vlasov. L idée est d introduire une dynamique à N particules auxiliaire (plus simple car découplée) et de montrer que les trajectoires (dans N ) du modèle de départ sont proches des trajectoires du modèle auxiliaire. (3) - La méthode de la hiérachie BBGKY. Cette méthode s applique aux trois modèles mais ne permet pas d avoir de taux de convergence. L idée est de décrire la dynamique du systèmes de N particules par la dynamique de sa loi F N (t, ) et, dans une première étape, d identifier l équation limite satisfaite par la limite π j de la loi marginale Fj N (t, ) lorsque N et cela pour tout j 1. On obtient ainsi une famille (hiérachie) d équations satisfaite par la famille π = (π j ) et pour laquelle on démontre l unicité de la solution. On travaille ici dans P sym ( j ) pour tout j 1 fixé, puis dans l espace des familles π = (π j ) des mesures de probabilité compatibles dans (P sym ( j )) j 1. nfin on utilise que (P sym ( j )) j 1 P(P()) par Hewitt et Savage, et qu à une solution f(t) P() de l équation de champ moyen, on peut associe une (la!) solution statistique (f(t) j ) j 1 δ f(t), ce qui permet d identifier la limite et de conclure. (4) - La méthode de dualité dans C(P()). Cette méthode s applique également aux trois modèles et elle permet d obtenir un taux de convergence. On peut l interpréter comme une méthode de la hiérachie BBGKY quantifiée. L idée centrale est de se
142 128 ramener à comparer la dynamique dans C(P()) engendrée par F N (t) (en utilisant la dualité P( N ) C( N ) puis la projection C( N ) C(P())) et celle engendrée par f(t) (par pullback ). Il est important de noter que, sauf dans le cas de la méthode de la mesure empirique, la convergence vers la dynamique typique est démontrée en même temps que le résultat (beaucoup plus fort) de propagation du chaos (éventuellement quantifié).
143 Chapitre 6 Introduction au modèle de Vlasov, à la méthode de la mesure empirique et à la méthode de couplage 6.1 Introduction Ce chapitre est consacré à la dérivation d une équation de type Vlasov avec coefficients réguliers comme limite de champ moyen d une dynamique déterministe sur un système de N particules. Le grand intérêt de ce modèle est qu il est le plus simple possible (des modèles que nous traitons ici) et que les quatre stratégies présentés précédemment fonctionnent pour obtenir la limite de champ moyen et démontrer la propagation du chaos. La méthode de la mesure empirique et la méthode de couplage seront présentées dans ce chapitre. Nous renvoyons aux chapitres ultérieurs pour l illustration sur ce modèle de la méthode de la hierachie BBGKY (chapitre 8) et de la méthode de dualité dans C(P()) (chapitre 9). On consière un système de particules identiques en interaction déterministe décrit par sa variable d état Y (t) = (y 1 (t),..., y N (t)) N, = R D ou = le tore, et dont la dynamique est gouvernée par un système d DO dont la forme la plus simple est (6.1.1) 1 i N, ẏ i = A(y i, µ N Y ), y i(0) donné, avec A : P(), (y, g) A(y, g) une application régulière. On souhaite montrer que dans la limite de champ moyen, c est-à-dire ici simplement N, la dynamique typique est gouvernée par l équation de Vlasov (équation non linéaire de transport) (6.1.2) t f + (A(y, f) f) = 0 dans D ((0, T) ), f(0) = f 0 donnée. 129
144 130 La section 6.2 est consacrée à une rapide introduction à l étude des équations de transport linéaires et la section 6.3 à celle des équations de transport non linéaires du type (6.1.2). Dans la section 6.4 on obtient (6.1.2) comme limite de champ moyen de (6.1.1). On y montre que si Y (t) est solution de (6.1.1) alors µ N Y (t) est solution de (6.1.2), puis que µ N Y (0) f 0 implique µ N Y (t) f(t), où f désigne la solution de (6.1.2) de donnée initiale f 0. Plus précisément si Y (0) est une variable aléatoire de loi F0 N et si désigne l espérance associée, on démontre (6.1.3) (W 1 (µ N Y (t), f(t))) e L t (W 1 (µ N Y (0), f 0 )), ce qui implique en particulier que si Y (0) est f 0 -chaotique alors Y (t) est f(t)- chaotique. nfin, la méthode de couplage est introduite dans la section 6.5. Cela nous permettra de retrouver et même d améliorer le taux de convergence qui découle de (6.1.3). 6.2 quation de transport linéaire et la méthode des caractéristiques Soit B = B(t, y) : (0, T) R D R D un champ de vecteur de classe C 1 Lip et on note L une constante de Lipschitz de B en la deuxième variable : t [0, T], x, y R D B(t, x) B(t, y) L x y. On appelle équation de transport une équation de la forme (6.2.4) f t + (B f) = 0 dans D ((0, T) R D ), où soit f = f(t, x) 0 est une fonction mesurable, t 0, y R D, soit f = f(t, dx) = df t (x) est une application de (0, T) dans P(R D ). On dit que (6.2.4) est linéaire si B est une fonction donnée, on dit que (6.2.4) est non linéaire si B est une fonction qui dépend elle-même de l inconnue f. Nous commençons par nous intéresser dans cette section au cas linéaire où B = B(t, y) ne dépend pas de l inconnue. Définition (Mesure Image). Soient (,, µ) un espace mesué, F un ensemble et Φ : F une application. On peut définir une tribu F sur F en posant F := {A F; Φ 1 (A) }, c est la plus petite tribu de F rendant mesurable l application Φ, et on peut définir une mesure ν sur F en posant A F ν[a] := µ[φ 1 (A)]. On notera ν = Φ µ et on dira que c est la mesure image de µ par Φ. On a donc pour toute fonction mesurable f : (F, F) R + la relation f d(φ µ) = f Φdµ. F
145 131 Définition Soit B : (0, T) R D R D un champ de vecteurs, on appelle caractéristiques associées à B et issue de x 0 la solution (maximale) de l équation (6.2.5) ẏ(t) = B(t, y(t)), y(0) = y 0 R D. On note y(t) = Φ t y 0 = Φ B t (y 0), de sorte que d dt Φ t(y) = B(t, Φ t (y)) pour tout t [0, T], y R D. Théorème (Caractéristiques). Soit B un champ de vecteurs de [0, T] R D dans R D de classe C 1 Lip, de sorte que les caractéristiques sont bien définies et que l application flot Φ t : R D R D est un difféomorphisme de classe C 1 pour tout t [0, T]. Étant donnée f 0 M 1 (R D ), l unique solution f C([0, T]; M 1 (R D ) w) de l équation (6.2.4) et associée à la condition initiale f 0 est donnée par (6.2.6) f(t,.) = Φ t f 0 t R. Étant données deux conditions initiales f 0, g 0 P 1 (R D ) et soient f, g C([0, );P(R D ) w) les solutions de l équation de transport (6.2.4) correspondantes, alors (6.2.7) t [0, T] W 1 (f t, g t ) e L t W 1 (f 0, g 0 ). Remarque Pour le système déterministe ci-dessus associé au champ de vecteur B, on dit que (6.2.5) est une description Lagrangienne (ou trajectorielle) de sa dynamique alors que (6.2.4) en est une description ulerienne. La relation (6.2.6) montre l équivalence de ces deux points de vue. Preuve du théorème Montrons que f(t) := Φ t f 0 est solution de (6.2.4). Fixons ϕ D(R D ). On a alors f t, ϕ = d ϕ f(t) = d ϕ(φ t (y 0 )) f 0 (dy 0 ) dt R dt D R D = ( ϕ)(φ t (y 0 )) d R dt (Φ t(y 0 )) f 0 (dy 0 ) D = ( ϕ)(φ t (y 0 )) B(t, Φ t (y 0 )) f 0 (dy 0 ) R D = ( ϕ)(y) B(t, y) f(t, dy) R D = (B f), ϕ, au sens de la dualité D ((0, T)). Cela signifie que (6.2.4) a lieu au sens de la dualité (D(0, T) D(R D )), et donc par densité, au sens de la dualité D ((0, T) R D ). 2. Montrons l unicité. Par linéarité il suffit de montrer que si f 0 = 0 alors f T = 0. Pour ce faire, on met en oeuvre une technique de dualité. On définit le flot rétrograde Ψ t en posant Ψ t (z) = z(t), où z(t) est la solution de l équation z (t) = B(t, z(t)), z(t) = z.
146 132 Étant donnée ϕ T Cc 1(RD ), on définit ϕ(t, y) := ϕ T (Ψ 1 t (y)) Cb 1([0, T] RD ). De l équation implicite ϕ(t, z(t)) = ϕ T (z) on tire 0 = d dt [ϕ(t, z(t))] = ( tϕ)(t, z(t)) + ( ϕ)(t, z(t)) z (t) = [ t ϕ B ϕ](t, z(t)). Cette équation étant vraie pour tout t [0, T], pour tout z R D, et l application Ψ t étant un isomorphisme de R D, on a bien (au sens du calcul différentiel classique) t ϕ B ϕ = 0 [0, T] R D. Pour finir, on calcule d dt f t, ϕ t = [ t ϕ(x)] f t (dx) + t f t, ϕ t R D = [ B ϕ t (x)] f t (dx) + [B ϕ t (x)] f t (dx) = 0. R D R D Cela implique ϕ T (x) f T (dx) = ϕ 0 (x) f 0 (dx) = 0, R D R D et cette identité étant vraie pour tout ϕ T C 1 b (RD ), on conclut que f T Commençons par rappeler que le flot Φ t satisfait (6.2.8) t [0, T] y Φ t e tl. n effet, étant donnés x 0, y 0 R D, les solutions x t = Φ t (x 0 ), y t = Φ t (y 0 ) vérifient d dt x t y t ẋ t ẏ t B(t, x t ) B(t, y t ) L x t y t, et on conclut grâce au lemme de Gronwall. Maintenant grâce au Théorème et par définition de W 1 et, on calcule W 1 (f t, g t ) = W 1 (Φ t f 0, Φ t g 0 ) = sup ϕ d(φ t f 0 Φ t g 0 ) ϕ 1 R D = sup ϕ Φ t d(f 0 g 0 ) ϕ 1 R D sup ϕ Φ t sup ψ d(f 0 g 0 ) ϕ 1 ψ 1 R d Φ t W 1 (f 0, g 0 ) d où la conclusion grâce à (6.2.8).
147 133 Remarque Lorsque la solution admet une densité par rapport à la mesure de Lebesgue f t (dy) = g t (y) dy avec g t C 1 b (RD ), le théorème de changement de variables dans la définition de la mesure image implique g 0 (y) = g t (Φ t (y))det(dφ t (y)). n particulier, φ 0 (y) n est pas égale à g t (Φ t (y)) en général. 2. Cependant, un calcul un peu fastidieux permet de montrer que le jacobien du flot J(t, y) := det(dφ t (y)) satisfait l équation de Liouville d dt J(t, y) = [(divb)(t, Φ t(y))] J(t, y), J(0, y) = det(id) = 1. On en déduit dans le cas d un champ à divergence nulle div B = 0 la relation d incompressibilité J(t, y) 1 du flot. n particulier dans ce cas g t (Φ t (y)) = g 0 (y). 3. Lorsque div B = 0 une façon peut-être plus simple de voir que g t (Φ t (y)) = g 0 (y) (et donc d en déduire la relation d incompressibilité du flot!) est de reprendre l argument d unicité dans la preuve du Théorème On définit h(t, z) := g 0 (Φ 1 t (z)) pour g 0 Cb 1(RD ), et on calcule On en déduit 0 = d dt [h(t, y(t))] = [ th + B h] (t, y(t)). 0 = t h + B h = t h + (B h), h(0,.) = g 0. Par unicité de la solution (faible) de l équation ci-dessus, on a h = g, et donc g(t, Φ t (y)) = h(t, Φ t (y)) = g 0 (y) = g(t, Φ t (y)) J(t, y). n choisissant g 0 1, on en déduit J Lorsque f 0 = δ y0 on a Φ t δ y0 = δ Φt(y 0 ). n effet, pour toute fonction ϕ C b (R D ) on écrit ϕ(x)(φ t δ y0 )(dx) = ϕ(φ t (x)) δ y0 (dx) R D R D = ϕ(φ t (y 0 )) = ϕ(x) δ Φt(y 0 )(dx). R D 6.3 quation de transport non linéaire Dans cette section on s intéresse au cas où B dépend de l inconnue, et plus précisément on suppose que B(t, y) = A(y, f(t,.)) avec (6.3.9) f P(R D ) A(, f) C 1 (R D ); (6.3.10) y, z R D, f, g P(R D ) A(y, f) A(z, g) L ( y z + W 1 (f, g)).
148 134 Un exemple typique est A(y, f) = k(y, z) f(dz) k : R 2D R D régulier, R D = a 0 (y) + (a 1 f)(y), a, b : R D R D réguliers. xemple L exemple le plus classique d équation de Vlasov est le suivant. On prend D = 2d, y = (x, v) R 2d, A(y, f) = (v, (b ρ)(x)) R 2d, ρ(x) = f(x, v) dv, R d qui se met bien sous la forme précédente en définissant a 0 (y) = (v, 0) et a 1 (y) = (b(x), 0). Si on suppose que b C 1 (R d, R d ), b L L, il est alors clair que A vérifie bien (6.3.9) et (6.3.10) pour la constante max(l, 1). On s intéresse donc à l équation de transport non linéaire (ou équation de Vlasov) (6.3.11) f t + (A(y, f) f) = 0 dans D ((0, T) R D ). Théorème On suppose (6.3.9) et (6.3.10). Pour toute donnée initiale f 0 P(R D ) il existe une unique solution f C([0, );P(R D ) w) à l équation de Vlasov (6.3.11). De plus, pour deux solutions f t et g t de cette équation de Vlasov, on a (6.3.12) t 0 W 1 (f t, g t ) e L t W 1 (f 0, g 0 ). Preuve du Théorème Pour f C([0, );P(R D ) w) donné, on note Φ f t le flot associé à l équation différentielle et donc à l équation de transport linéaire ẏ(t) = A(y(t), f(t)), t h + div(a(x, f(t)) h) = 0. tape 1. On commence par démontrer (6.3.12). On fait la remarque suivante. Une solution f de (6.3.11) satisfait f t = Φ f t f 0. Cette écriture peut paraître sans grand intérêt car Φ f t est un opérateur compliqué, à l instant t, il dépend de toute la trajectoire passée (f s ) 0 s t. Cependant, cette écriture va nous permettre d utiliser le résultat du Théorème en remarquant que le champ de vecteur B(t, x) := A(x, f(t)) satisfait t, x, y R D B(t, x) B(t, y) = A(x, f(t)) A(y, f(t)) L x y.
149 135 Puisque W 1 est une distance on a W 1 (f t, g t ) = W 1 (Φ f t f 0, Φ g t g 0 ) Le premier terme est borné par W 1 (Φ f t f 0, Φ f t g 0 ) + W 1 (Φ f t g 0, Φ g t g 0 ). W 1 (Φ f t f 0, Φ f t g 0 ) e t L W 1 (f 0, g 0 ) grâce à (6.3.12). Concernant le second terme, par définition de la mesure image, on a W 1 (Φ f t g 0, Φ g t g 0 ) = sup (ϕ Φ f t ϕ Φ g t) dg 0 ϕ 1 R D Φ f t Φ g t dg 0 =: λ(t), R D et l on va estimer λ(t) par un lemme de Gronwall. On calcule d dt λ(t) d R dt Φf t d dt Φg t dg 0 D A(Φ f t x, f t ) A(Φ g tx, g t ) dg 0 R D A(Φ f t x, f t ) A(Φ g tx, f t ) dg 0 + A(Φ g tx, f t ) A(Φ g tx, g t ) dg 0 R D R D L Φ f t x Φ g tx dg 0 (x) + L W 1 (f t, g t ) dg 0 R D R D L λ(t) + L W 1 (f t, g t ) Comme λ(0) = 0, on obtient par Gronwall la borne sur le second terme W 1 (Φ f t g 0, Φ g t g 0 ) λ(t) L n regroupant les deux estimations, il vient W 1 (f t, g t ) e Lt W 1 (f 0, g 0 ) + L t 0 t 0 e L(t s) W 1 (f s, g s ) ds. e L(t s) W 1 (f s, g s ) ds, à quoi on peut encore appliquer le lemme de Gronwall et conclure à (6.3.12). n particulier, cette étape montre l unicité de la solution de l équation de Vlasov (6.3.11). tape 2. On montre succinctement comment modifier l étape 1 afin de montrer le résultat d existence. On fixe f 0 P(R D ). On définit l opérateur Λ : C([0, T];P(R D ) w) C([0, T];P(R D ) w) qui à f C([0, T];P(R D ) w) associe F = Λ(f) la solution de l équation de transport linéaire t F + div(a(x, f(t)) F) = 0, F(0) = f 0.
150 136 On a donc F t = Φ f t f 0. Une solution de l équation de Vlasov (6.3.11) est simplement un point fixe de l application Λ, et donc il suffit d établir que Λ est une application contractante pour montrer l existence de solutions à l équation (6.3.11). Pour g C([0, T];P(R D ) w) on note G = Λ(g). n reprenant le calcule du second terme, il vient W 1 (F t, G t ) = W 1 (Φ f t f 0, Φ g t f 0 ) Φ f t Φ g t df 0 =: λ(t), R D puis d dt λ(t) L λ(t) + L W 1(f t, g t ). Comme λ(0) = 0, on obtient par Gronwall W 1 (F t, G t ) λ(t) L t et il suffit de choisir T > 0 assez petit. 0 e L(t s) W 1 (f s, g s ) ds (e T L 1) sup W 1 (f s, g s ), s [0,T] 6.4 Première stratégie : la méthode de la mesure empirique On considère un système de particules identiques en interaction déterministe Y (t) = (y 1 (t),..., y N (t)) N, = R D ou = le tore, (6.4.13) 1 i N, ẏ i = A i (Y ), y i (0) donné. De l hypothèse que les particules sont identiques (indistinguables), on déduit que A 1 (y 1 ; y 2,..., y N ) = fonction symétrique des y 2,..., y ) N 1 = A 1 (y 1 ; δ yj N 1 et, en échangeant les particules 1 2, que On peut donc écrire j i A 1 (y 1 ; y 2, y 3,..., y N ) = A 2 (y 2 ; y 1, y 3,..., y N ). ( ) (6.4.14) 1 i N ẏ i = A N (y i ; Ŷi) = A N y i ; µ N 1 Ŷ i 1 i N, où l indice N dans A N est maintenant là pour rappeler la dépendance en N dans la limite N, Ŷi = Y \{y i } = (y 1,..., y i 1, y i+1,..., y N ), et A N (y,.) est une fonction symétriques des N 1 dernières variables, donc s écrit comme fonction d une mesure empirique à N 1 termes.
151 137 xemple L exemple le plus classique est le suivant. On considère un système de particules qui évolue suivant la loi fondamentale de la dynamique de Newton dans laquelle la force exercée sur une particule dérive d un potentiel d interaction créé par l ensemble des particules, le potentiel globale étant lui-même la somme de potentiels d interaction à deux corps. Plus précisément, la dynamique est = R 2d, y = (x, v) et (6.4.15) 1 i N ẋ i = v i, v i = 1 N ( V )(x i x j ). j i On peut noter que cette dynamique est Hamiltonienne : en définissant l hamiltonien H(Y ) := 1 2 N v i N i=1 V (x i x j ), i<j V ( z) = V (z), on a bien de sorte que 1 i N ẋ i = vi H(Y ), v i = xi H(Y ) t R H(Y (t)) = H(Y 0 ). n notant a 0 (y) = v et a 1 (y) = b(x) := V (x), on peut bien écrire (6.4.15) sous la forme (6.4.14) avec De plus, si b C(R d ), alors A N (y, f) := a 0 (y) + N 1 N (a 1 f)(y). ( A N (y i ; µ N 1 Y i ) = a 0 (y) b(0) ) + (a 1 µ N Y ) = N ĀN(y, µ N Y ). nfin, si V C 2 (R d ), D 2 V L, alors ĀN vérifie bien les hypothèses de régularité (6.3.9)-(6.3.10). Remarque ) - Dans l exemple précédent, les hypothèses d interaction de type champ moyen proviennent d une part de la structure lisible par exemple sur (6.4.14) (une particule donnée interagit avec toutes les autres particules selon une règle identique) et d autre part de la borne (6.3.10) qui provient du scaling (mise à l échelle) en 1/N (chaque particule ne subit pas trop l action d une autre particule quelconque, mais subit une action de l ordre de 1 de l ensemble du système). 2) - Le jeu de passage de µ N 1 à µ N Ŷ i Y est précisément ce qui coince dans le cas d un potentiel non régulier! Il n est donc pas si anodin que cela.
152 138 L idée de cette première méthode est de travailler sur (l équation satisfaite par) la mesure empirique associée à la dynamique générée par (6.4.14). Proposition (Limite de champ moyen) 1) Soit A N (C 1 Lip)( N ; ) un champ de vecteurs tel que pour tout y N on a A N (y,.) C sym ( N 1 ). Alors pour toute donnée initiale Y 0 N le système d équations différentielles (6.4.14)admet une unique solution globale Y C 1 (R; N ), on notera Φ N t (Y 0 ) := Y t. 2) On suppose de plus que pour une fonction ĀN C( P()) on a (6.4.16) y, Ŷ N 1, A N (y, Ŷ ) = ĀN(y, µ N Y ), Y = (y, Ŷ ) N. Alors la mesure empirique associée f N (t, dy) := µ N Y N (t) (dy) est solution faible de l équation de transport non linéaire (6.4.17) g t + (ĀN(y, g) g) = 0. 3) On suppose enfin que ĀN = A satisfait (6.3.10). Considérons une donnée initiale f 0 P 1 () et notons f(t) C(R;P() w) la solution de l équation (6.3.11). Alors pour toute suite (Y0 N) de données initiales dans N telles que µ N f Y0 N 0 faiblement dans P 1 () la suite des solutions Yt N = Φ N t (Y0 N ) des sytstèmes d équations différentielles pour N particules admet une limite de champ moyen au sens où t R f N t := µ N Y N t f(t) Plus précisément, on a l estimation d erreur faiblement dans P(). (6.4.18) W 1 (µ N Y N (t), f(t)) el t W 1 (µ N Y N (0), f(0)). Preuve de la proposition tape 1. C est le théorème de Cauchy-Lipschitz. tape 2. Avec la définition précédente de f N et pour toute fonction test ϕ D(R D ) on a ( ) d ϕ f N = d 1 N ϕ(y i (t)) dt R dt N D i=1 = 1 N ( ϕ)(y i (t)) A N (y i, Y (t)) N i=1 ( ) ( ) = ( ϕ)(y) ĀN y, 1 N 1 N δ yi (t) δ yi (t)) (dy) R N N D i=1 i=1 = ϕ {ĀN(y, f N ) f N }, R D
153 ce qui est exactement dire que f N est solution faible (dans D ((0, T)) D (R D )) de l équation de transport non linéaire (6.4.17). tape 3. On calcule pour k max(p, 1) d dt M k(y (t)) = = k N d 1 dt N N i=1 N y i (t) k i=1 y i y i k 2 (A(y i, µ N 1 Y i ) A(0, δ 0 ) + A(0, δ 0 )) k A(0, δ 0 ) M k 1 (Y (t)) + k N N i=1 139 y i y i k 2 L { y i + W p (µ N 1 Y i, δ 0 ) } C {1 + M k (Y (t))} + k L M k 1 (Y (t)) M p (Y (t)) 1/p C {1 + M k (Y (t))} pour une constante C qui dépend de k, L, A(0, δ 0 ) et où on a utilisé pour arriver à la dernière inégalité le fait que M k 1 (Y ) M k (Y ) 1 1/k et que M p (Y ) 1/p M k (Y ) 1/k. Le même calcul montre que f(t) P 1 () pour tout t 0. On peut alors invoquer le Théorème : l estimation d erreur (6.4.18) est une application directe de l estimation (6.3.12). Remarque Sous la seule hypothèse 1) avec x, y, ˆX, Ŷ N 1, (6.4.19) A N (x, µ N 1 ˆX ) A N(y, µ N 1 ) L ( x y + W p (µ N 1 Ŷ ˆX, µn 1 Ŷ on peut encore établir la limite de champ moyen dès que µ N f Y0 N 0 faiblement dans P(). Il convient alors d une part de montrer qu il existe A satisfaisant (6.3.10) et une sous-suite N telle que )) sup x B(0,a) sup ˆX N 1,µ N 1 ˆX BP k,a A N (x, µ N 1 ) A(x, µn 1) 0. ˆX ˆX Il convient d autre part d écrire l équation satisfaite par f N et de passer à la limite dans celle-ci. On se pose maintenant la question de la propagation du chaos, c est-à-dire, celle de savoir si partant d un état initial où les particules sont indépendantes (non corrélées) elles le restent au cours du temps asymptotiquement lorsque le nombre de particules tend vers l infini (rappelons que pour un système comportant un nombre fini de particules en interaction celles-ci sont toujours corrélées (c est la définition de l interaction!)). Introduisons la fonction de densité F0 N P( N ) des particules à l instant initial. n reprenant la notation Φ N t : N N pour l application flot le long de la dynamique (6.4.13), la densité est alors transportée par ce flot selon la formule t R F N (t) := Φ N t F 0 N P( N ),
154 140 où de manière plus explicite (6.4.20) ϕ C b ( N ) ϕ(y ) F N (t, dy ) = ϕ(φ N t (Y )) F 0 N N N (dy ). Proposition (Propagation du chaos) On suppose les hypothèses 3) de la Proposition vérifiées. Si F0 N est f 0 -chaotique alors F N (t) est f(t)-chaotique. De manière plus précise, on a (6.4.21) W 1 ( ˆF N (t), δ f(t) ) e LT W 1 ( ˆF N 0, δ f 0 ), où W 1 est la distance de transport MKW dans P(P()) définie à partir de W 1 la distance de transport MKW habituelle dans P(). Remarque Une donnée initiale déterministe δ Y N 0 est rarement chaotique. n effet, il faut déjà qu elle soit symétrique, ce qui implique Y0 N = (y 1,..., y N ) avec les y i tous égaux à un même ȳ : cela ne donne pas une dynamique très intéressante! Cependant, à partir d une condition initiale déterministe et de sa dynamique (toujours déterministe, c est δ Φ N t (Y0 N) ) on peut construire la densité symmétrique (les particules sont indistinguables) F N t (dz) := 1 (S N ) σ S N δ σ 1 Φ N t (Y N 0 ) (dz) avec σ 1 Φ N t (Y 0 N) = (y σ(1)(t),..., y σ(n) (t)) si Φ N t (Y 0 N) = (y 1(t),..., y N (t)). On voit alors que sous la condition F0 N est f 0 -chaotique, ce qui est équivalent à F N 2 (0, dz 1, dz 2 ) = 1 N (N 1) 1 i j N δ xi (dz 1 ) δ xj (dz 2 ) f 0 (dz 1 ) f 0 (dz 2 ), alors F N t est f t -chaotique. Preuve de la Proposition On calcule W 1 ( ˆF N (t), δ f(t) ) = W 1 (µ N Y, f(t)) F N (t, dy ) N = W 1 (µ N Φ t(y ), f(t)) F 0 N (dy ) N e LT N W 1 (µ N Y, f 0) F N 0 (dy ) = e LT W 1 ( ˆF N 0, δ f0 ), où on a successivement utilisé des manipulations (élémentaires) présentées dans la section 3.4.2, la définition (6.4.20), l estimation d erreur (6.4.18), puis à nouveau les mêmes manipulations de la section
155 141 Corollaire (Propagation du chaos) Sous les hypothèses de la Proposition et si de plus F0 N := f0 N, f 0 P k (), k > 0, on obtient le taux de convergence vers le chaos (6.4.22) t [0, T] sup W 1 (Fj N (t), f(t) j ), W 1 ( ˆF t N, δ ft ) 1 j N avec d := max(d, 2) et ε = ε(k) lorsque k. C k,t N 1/(d +ε), Preuve du Corollaire Il suffit de combiner (6.4.21) avec les bornes (3.4.20), (3.5.28) et la première inégalité du Lemme Deuxième stratégie : la méthode de couplage L idée de cette deuxième méthode est d introduire un problème auxiliaire dans lequel les particules n interagissent pas entre elles mais sont seulement transportées par le champ de vecteur obtenu par limite de champ moyen. Plus précisément, on commence par changer de notations et on note X(t) = (x i (t)) 1 i N la solution du système de N particules (6.4.13) issue de la condition initiale X(0) = (x i (0)) 1 i N. On définit alors Y = (y i ) 1 i N, y i, la famille des solutions des équations non homogène en temps (6.5.23) ẏ i = A N (y i, f t ), y i (0) = x i (0), où f est la densité de l équation de transport non linéaire sur la densité typique (6.5.24) f t + (A N(y, f) f) = 0. On fait l hypothèse de structure suivante : (6.5.25) A N (x i ; µ N 1 X i ) = A(x i ; µ N X ) et A(x, f) := R d b(x, z) f(dz). Proposition (Chaos par couplage) On suppose b W 1, (R 2d ). On considère f 0 P() et f la solution de (6.5.24) de condition initiale f 0, ainsi que F0 N P sym () et F N := Φ N t F 0 N la densité transportée par le flot Φ N t associé à l équation de Vlasov (6.4.14) pour laquelle on fait l hypothèse de structure (6.5.25). Alors, on a ( 1 ) sup W 1 (Ft N, f(t) N ) C T + W 1 (F0 N, f0 N ). [0,T] N Preuve de la proposition tape 1. Pour tout couple (X 0, Y 0 ) N on note (X t ) la solution de (6.4.14)-(6.5.25) associée à une donnée initiale X 0 et (Y t ) =
156 142 (Yt 1,..., Y t N ) le vecteur dont chaque coordonnée Yt i est solution de l équation (6.5.23) associée à la donnée initiale Y0. i Par définition, on a d où la majoration d dt (Xi t Y i t ) = 1 N = 1 N + 1 N + 1 N N b(xt i, Xj t ) b(yt i, y) f t(dy) R d N [b(xt i, Xj t ) b(yt i, Xj t )] j=1 j=1 N j=1 N j=1 [b(y i t, X j t ) b(y i t, X j t )] [b(y i t, Y j t ) R d b(y i t, y) f t(dy)], d dt Xi t Y t i b Lip Xt i Y t i + 1 N b Lip X j t Y j t N j=1 1 N + [b(yt i, Y j t ) b(y i t, y) f t (dy)] N R. d n sommant ces N inégalités il vient j=1 d 1 dt N N Xt i Y t i 2 b 1 N Lip N k=1 + 1 N 1 N N N j=1 i=1 j=1 X k t Y k t [b(y i t, Y j t ) b(yt i, y) f t (dy)] R. d On peut réécrire cette inégalité différentielle sous la forme (6.5.26) d dt X t Y t 2 b Lip X t Y t + a(t) avec, en notant b i,t (.) := b(y i t,.), a(t) := 1 N N a i (t), a i (t) := b i,t (y) [µ N Y t f t (dy)], R d i=1 et où on note X Y := N 1 x i y i pour tout X, Y N.
157 tape 2. Une première estimation d erreur. On remarque que b i,t W 1, (R d ) avec b i,t Lip 2 b, de sorte que pour tout 1 i N a i (t) b i,t Lip W 1 (µ N Y t, f t ) 2 b C T W 1 (µ N Y 0, f 0 ), où C T est la constante dans le terme de droite de (6.3.12) et correspondant au fait que f et µ N Y t sont solutions de la même équation de transport linéaire t g + (A(x, f) g) = 0. Combinant cette borne et (6.5.26), on obtient d dt X t Y t α X t Y t + β T W 1 (µ N Y 0, f 0 ), ce qui intégrée en temps (lemme de Gronwall) donne une première estimation d erreur sup X t Y t C T (W 1 (µ N Y 0, f 0 ) + X 0 Y 0 ), C T = β T [0,T] α eα T. 143 On suppose que X 0 = Y 0 suit la loi f N 0, et maintenant seulement on intégre par rapport au choix de la donnée initiale ce qui donne sup N X t Y t C T N W 1 (µ N Y 0, f 0 ), [0,T] où N est une notation condensée pour désigner l intégrale sur N par rapport à la loi de probabilité f N 0. tape 2. Une parenthèse. n utilisant les inégalités W 1 (µ N X t, µ N Y t ) X t Y t 1, puis W 1 (µ N X t, f t ) W 1 (µ N X t, µ N Y t ) + W 1 (µ N Y t, f t ), on obtient On conclut alors à sup N W 1 (µ Xt, f t ) [0,T] C T N W 1 (µ N Y 0, f 0 ) + sup N W 1 (µ Yt, f t ) [0,T] 2 C T N W 1 (µ N Y 0, f 0 ). sup W 1 ( ˆF t N, δ ft ) 2 C T W 1 ( ˆF 0 N, δ f 0 ), [0,T] avec F0 N := f0 N et Ft N = X t F0 N la densité probabilité transportée par le flot de l équation (6.4.14)-(6.5.25). On retrouve ainsi exactement le résultat de la proposition tape 2. Fin de la parenthèse. On peut faire un mieux en commençant par observer que N est également l intégrale sur N N par rapport à la loi de probabilité π 0 (dx 0, dy 0 ) = δ Y0 =X 0 (dy 0 ) f0 N (dx 0 ) Π(f0 N, f0 N ) et est même le transport
158 144 optimal (par exemple pour le coût d j). n définissant π t := (X t Y t ) (f N 0 f N 0 ) le mesure de probabilité transportée par les flots des équations, soit plus explicitement Θ(X, Y ) π t (dx, dy ) = Θ(X t, Y t ) π 0 (dx 0, dy 0 ) Θ C b ( 2N ), 2N 2N on constate aisément que π t Π(Ft N, f(t) N ) puisque Ft N Y t f0 N, et donc = X t f N 0, f(t) N = W 1 (Ft N, f(t) N ) X Y π t (dx, dy ) = N X t Y t C T N W 1 (µ N Y 0, f 0 ). 2N tape 3. Une deuxième (cette fois-ci c est la bonne!) estimation d erreur. L idée est de reprendre et adapter la preuve du Théorème , et également de commencer par intégrer par rapport au choix de la donnée initiale puis d utiliser le lemme de Gronwall (et non pas l inverse comme dans l étape 2). Avec les notations de l étape 2, on introduit la semi-norme p i,t (g) := b i,t (y) (g f t )(dy), ainsi que l application Ψ N t : N N, Y 0 Ψ N t (Y 0) = Y t, où (Y t ) est le vecteur formé des solutions des équations différentielles (6.5.23)-(6.5.25) associées aux données initiales y 0,1,..., y 0,N. On introduit les notations F0 N := f0 N et Ft N := Ψ N t F 0 N = ft N, la dernière égalité étant une conséquence du Théorème On commence par remarquer que par définition de la mesure image Ft N := Ψ N t F0 N, on a N [a i (t)] 2 F N 0 (dy 0) = = = [p i,t (µ N Ψ N N t (Y 0) )]2 F0 N (dy 0) [p i,t (µ N Y 0 )] 2 Ft N (dy 0 ) N b i,t (y) [µ N Y f t](dy) N 2 f N t (dy ). Le calcul de la première étape de la preuve du Théorème donne N [a i (t)] 2 F N 0 (dy 0 ) = 1 N { ( ) } 2 b 2 i,t df t b i,t df t b N.
159 145 On considère maintenant un plan de transport π0 N Π(F0 N, f 0 N ) optimal et on définit πt N := (X t Y t ) π0 N. n revenant à l inégalité différentielle (6.5.23) on trouve d X Y πt N (dx, dy ) = d X t Y t π0 N (dx 0, dy 0 ) dt dt 2N 2N α X t Y t π0 N (dx 0, dy 0 ) + a(t, µ N Y t ) π0 N (dx 0, dy 0 ) 2N 2N = α X Y πt N (dx, dy ) + 1 N a i (t, µ N Y N t ) F0 N (dy 0) 2N N i=1 α X Y πt N (dx, dy ) + 1 N ( ) 1/2 [a i (t)] 2 F0 N (dy 0 ) N 2N N i=1 Combinant ces deux dernières inégalités, le lemme de Gronwall implique ( X Y πt N (dx, dy ) C T X Y π0 N (dx, dy ) + 1 ). 2N 2N N Comme π N t Π(F N t, f(t) N ) on en déduit ( W 1 (Ft N, f(t) N ) C T X Y π N 1 0 (dx, dy ) + ), 2N N et on conclut en minimisant le terme de droite par rapport à π N 0 Π(F N 0, f N 0 ). On peut déduire de la Proposition plusieurs autres estimations de type propagation du chaos. Corollaire (Propagation du chaos) On fait les mêmes hypothèses que dans la Proposition , et on suppose de plus que F0 N := f0 N avec f 0 P 1 (). Alors la densité de probabilité Ft N = Φ N t f0 N des trajectoires du système de N particules associé à la donnée initiale F0 N est f t -chaotique, et plus précisément, on a (6.5.27) (6.5.28) (6.5.29) (6.5.30) 1 k N W 1 (Fk N (t), ft k ) C T N 1/2, W 1 ( ˆF t N, δ ft ) C T N 1/(d ) +, d = max(d, 2), ϕ Lip 1 () ˆF t N, R ϕ ( ) R ϕ (f t ) 2 C T N 1/2, ϕ Lip 1 () ˆF t N, R ϕ ( ) R ϕ (f t ) C T min(n 1/4, N 1/(d ) + ). Preuve du Théorème L estimation (6.5.27) est une conséquence de la Proposition et de la première inégalité énoncée dans le Lemme??. L estimation (6.5.28) est une conséquence de la Proposition et du Lemme Pour établir (6.5.29), il suffit de reprendre la preuve des Théorème et Lemme ,
160 146 de remarquer que l application (x, y) ϕ(x) ϕ(y) est Lipschitzienne dans 2, afin d obtenir une estimation du type ˆF N, R ϕ ( ) R ϕ (f) 2 C W 1 (F N 2, f 2 ) + 1/N). L estimation (6.5.29) se déduit alors de (6.5.27). Concernant (6.5.30), on obtient une première borne grâce à l inégalité de Cauchy-Schwartz et (6.5.29). La deuxième borne s obtient en remarquant que l application ρ R ϕ (ρ) R ϕ (f t ) est une fonction Lipschitzienne sur P() de sorte ˆF N, R ϕ ( ) R ϕ (f) ˆF N, W 1 (, f) = W 1 ( ˆF N, δ f ), et on conclut grâce à (6.5.28). Remarque ) Avec les hypothèses du Corollaire et les notations de la preuve de la proposition , on a également sup [0,T] N (W 1 (µ N X t, µ N Y t )) sup N ( X t Y t 1 ) [0,T] Remarque ) Avec les notations de l introduction on a (W 1 (µ N X(t), f(t))) = W 1( ˆF N (t), δ f(t) ). C T N. 2) La méthode de couplage permet d obtenir un meilleur taux (taux en 1/ N sur les distances W 1 (F N k, f k )) que la méthode de la mesure empirique (taux en 1/N (d ) + ). 3) Cependant, la méthode de couplage nécessite une donnée initiale chaotique (ce qui n est pas nécessaire pour l obtention d une simple limite de champ moyen par la méthode de la mesure empirique) et des hypothèses de structure et de régularité plus fortes sur la dynamique (au moins dans la version simple présentée dans ce chapitre). 6.6 Notes bibliographiques Ce chapitre est très fortement inspiré des notes de cours [48] de C. Villani dans lesquelles sont présentées quelques arguments classiques concernant la limite de champ moyen des modèles de Vlasov et McKean-Vlasov, et donc également du cours [45] de A.S. Sznitman. Les sections 6.2 et 6.3 sont extrêmement classiques, et suivent pour l essentiel les notes [48]. La méthode de la mesure empirique que nous présentons dans la section 6.4 est due à Dobrusin [13]. Soulignons que Braun et Hepp dans [5] ont établi la même limite de champ moyen, par une méthode similaire (utilisant les mesures empiriques), mais sans taux de convergence. La première preuve de la limite de champ moyen pour ce modèle de Vlasov serait due à Neuzert et Wick dans [35] (l article est rédigé en allemand). La méthode de couplage présentée dans la section 6.5 reprend la preuve classique pour le modèle de McKean-Vlasov telle qu elle apparaît dans [45].
161 Chapitre 7 Le modèle de McKean-Vlasov 147
162 148
163 Chapitre 8 Introduction à la méthode de la hiérachie BBGKY et au modèle de Boltzmann-Kac 149
164 150
165 Chapitre 9 Méthode quantitative de dualité abstraite et illustrée 151
166 152
167 Annexe A A.1 Un théorème de type Tietze-Urysohn Lemme A.1.1 (variante de Tietze-Urysohn). Soit (K, d K ) un espace compact, A K fermé, u : A R une fonction continue de module de continuité ω (que l on peut supposer sous-linéaire car K est compact). Alors il existe ū : K R continue, de module de continuité ω et telle que ū A = u. Ici on ne prétend pas ū = u mais seulement ū u + ω(diam(k)). Preuve du Lemme A.1.1. On définit ū(x) := inf a A [u(a) + ω(d K(x, a))]. Alors pour tout x, y K et si l infimum est atteint en a A dans la définition de ū(x), on a ū(y) u(a) + ω(d K (y, a)) u(a) + ω(d K (x, a)) + ω(d K (x, y)) ū(x) + ω(d K (x, y)). n inversant les rôles de x et y, on trouve ū(y) ū(x) ω(d K (y, x)). nfin, lorsque x A, on a u(x) u(a) + ω(d K (x, a)) pour tout a A, et donc ū(x) = u(x). A.2 Le théorème de Stone-Weierstrass Théorème A.2.2 (Le théorème de Stone-Weierstrass) Soit un espace métrique compact et A C(; R). On suppose que (i) A est une algèbre (stable par addition, multiplication et multiplication par un scalaire); (ii) A contient les constantes; (iii) A sépare les points de (pour tout x, y, x y, il existe ϕ A telle que ϕ(x) ϕ(y)). Alors A est dense (au sens de la convergence uniforme) dans C(, R). 153
168 154 A.3 La théorie de Krein-Milman et de Choquet Définition A.3.3 Soit X un espace vectoriel et K X un convexe compact. (i) On dit que x K est un point extrémal de K si pour tout y, z K, t (0, 1) on a (1 t) y + t z = x implique y = z = x. On note (K) l ensemble des points extrémaux de K. (ii) Plus généralement, on dit que M K est un ensemble extrémal de K si M est convexe et compact, et pour tout y, z K, t (0, 1) on a (1 t) y + t z M implique y, z M. (iii) Ainsi un singleton M = {x} est un ensemble extrémal si, et seulement si, x est un point extrémal. Lemme A.3.4 (de Krein-Milman). Soit X un evn et K X un convexe compact. a) - Pour tout f X, les ensembles K + f := {x, f(x) = max y K f(y)}, K f := {x, f(x) = min y K f(y)}. sont des ensembles extrémaux. b) - Tout ensemble extrémal M K contient un point extrémal. Idée fondamentale. L idée fondamentale est de couper un ensemble convexe compact non vide K par des hyperplans H α := [f = α] pour tout α R, et tout f X \{0} fixé. Alors les deux hyperplans extrèmes pour lesquels l intersection n est pas vide sont des sous-ensembles extrémaux K ± f. Xn itérant, on trouve ainsi des singletons qui sont des points extrémaux. Preuve du Lemme de Krein-Milman. L assertion a) est immédiate et il suffit de montrer l assertion b) pour l ensemble extrémal K. On note M la collection des ensembles compacts extrémaux de K. On a K M. Sous (M i ) une famille totalement ordonée (pour l inclusion) d éléments de M. Alors M := M i est un compact, convexe, non vide. C est également un ensemble extrémal qui est un minorant de la famille (M i ). M est donc un ensemble inductif, et par le lemme de Zorn, M admet au moins un élement minimal, notons le M 1. Montrons que M 1 = {x 1 }. Xn effet, s il existe x 2 M 1, x 2 x 1, il existe f X qui sépare {x 1 } et {x 2 } et donc on peut supposer f, x 1 < f, x 2. On définit M 0 := {x M 1 ; f, x = m 1 := inf y M 1 f, y }. On a M 0 M 1, M 0 M 1 (puisque x 2 / M 0 ), M 0 est non vide, convexe, compact, et M 0 est un ensemble extrémal. Xn effet, si x, y K, t (0, 1) et (1 t) x + t y M 0 M 1 alors x, y M 1 (puisque M 1 est extrémal) et alors, par définition de M 0, on doit avoir f, x = f, y = m 1, ce qui implique x, y M 0. Cela contredit la minimalité de M 1. Xn conclusion M 1 est un singleton.
169 155 Théorème A.3.5 (de Krein-Milman cadre abstrait). Soit K un convexe compact (non vide) d un evn X. Alors K est l adhérance de l enveloppe convexe de l ensemble (non vide!) de ses points extrémaux. : K = conv((k)). Preuve du théorème de Krein-Milman. L inclusion conv(a) K est claire. Supposons par l absurde qu il existe b K\conv(A). Alors, par la forme géométrique du théorème de Hahn-Banach, il existe f X, l R telle que a conv(a) f, a l < f, b. On définit L := {x K; f(x) = m := sup y K f(y)}. De m f, b > l on déduit que L A =. De plus, il est clair que L est un sous-ensemble compact convexe (non vide) de K, et est un ensemble extrémal de K. Par le lemme de Krein-Milman il existe c L élément extrémal de L, donc également élément extrémal de K. Cela implique c A L, ce qui est absurde. Corollaire A.3.6 (Krein-Milman pour les mesures). Soit un espace métrique compact. Les masses de Dirac sont les éléments extrémaux de P() et donc toute mesure de probabilité est limite faible d une suite de combinaisons convexes de masses de Dirac. Preuve du Corollaire A.3.6. Corollaire A.3.7 (Krein-Milman pour MB N ). Les matrices de permutations MP N forme l ensemble des points extrémaux de l ensemble des matrices bistochastiques B N, et donc toute matrice bistochastique est limite faible d une suite de combinaisons convexes de matrices de permutations. On peut préciser le théorème de Krein-Milman grâce au résultat suivant. Théorème A.3.8 (de Choquet). Soit K un convexe compact d un evn X tel que l ensemble des points extrémaux (K) est fermé (donc compact). Pour tout x K il existe une mesure ˆπ x P((K)) telle que x = y ˆπ x (dy). (K) Preuve du théorème de Choquet. On considère une suite (x n ) telle que x n conv((k)) et x n x. La condition x n conv((k)) s écrit également π n P(xt(K)) x n = y π n (dy) Comme P((K)) est compact, on peut extraire une sous-suite (π n ) telle que π n π faiblement dans P((K)) pour un certain π P((K)). On conclut en passant à la limite dans la formule de représentation ci-dessus, et on obtient donc π x := π. (K)
170 156 Le théorème de Hewitt et Savage est alors un avatar du théorème de Choquet. n effet, pour tout π P sym ( N ) il existe d après le théorème de Choquet une mesure de probabilité ˆπ P((P sym ( N ))) sur les points extrémaux de P sym ( N ) telle que π = e ˆπ(de) = ρ ˆπ(dρ), (P sym( N ) la première égalité provenant du (P sym ( N )) est un fermé de P sym ( N )) et la deuxième égalité reposant sur le fait que P() (P sym ( N )) via l application ρ ρ N. P() A.4 Le compactifié d Alexandroff La procédé de compactification d Alexandroff permet partant d un espace non compact de le rendre compact en adjoignant un point à l infini à l espace. Théorème A.4.9 (Compactifié d Alexandroff) Soit (, d) un espace métrique localement compact, non compact, séparable. Soit un point (à l infini) n appartenant pas à. Alors, on peut munir l ensemble Ê = { } d une distance ˆd telle que (Ê, ˆd) est un espace métrique compact et ˆd définie la même topologie que d sur. Preuve du théorème d Alexandroff. tape 1. On définit la topologie ˆ T de Ê par T ˆ = {O, O ouvert} {Ê \ K, K compact}. On a clairement que T ˆ est la topologie T de, et que (Ê, T ˆ) est un espace (séparé et) compact et séparable. 1. Ê est séparé : Soit x 1, x 2 deux points distincts de Ê. Si x 1, x 2 alors O 1, O 2 deux ouverts disjoints tels que x 1 O 1 et x 2 O 2 car est séparé. Si x 1 et x 2 = il existe un ouvert O 1 tel que Ō1 est compact. Ainsi O 2 = Ê \ Ō1 est un ouvert de Ê qui contient x 2 et O 1 O 2 =. 2. Ê est compact : Soit {O n } n N un recouvrement de Ê par des ouverts. Au moins un des ces ensenbles, disons O N, N N, contient. Par définition de T ˆ, on a O N = Ê \ K pour un ensemble compact K. Comme K est compact, il existe un ensemble fini J N tel que {O j } j J recouvre K. Ainsi O N {O j } j J est un recouvrement fini de Ê. tape 2. Soit (z p ) une suite dénombrable et dense de et soit (O j ) une base dénombrable d ouverts relativement compacts de de la forme {O j, j N} = {B(z p, 2 q ), p N, q N },
171 157 plus précisément, on ne considéra que les couples (p, q) tels que de plus B(z p, 2 1 q ) est un compact de. Pour tout j N, O j = B(z pj, 2 q j ), choisissons une fonction φ j C c () telle que 0 φ j 1, φ j 1 sur O j, supp φ j B(z pj, 2 1 q j ) et posons φ j ( ) := 0. On définit la distance x, y Ê ˆd (x, y) := 2 j φ j (x) φ j (y). j=0 On vérifie alors sans trop de difficulté que la topologie associée à ˆd est Tˆ et que la topologie associée à ˆd est celle de. A.5 space produit On se donne un espace polonais muni de sa distance d = d, de sa topologie induite O = O et de sa tribu borélienne B = B. space produit. On définit = N l espace produit (des suites de ) : X N si X = (x n ) n N avec x n. Distance produit. On définit la fonction D : N N R + par D(X, Y ) = n=0 1 2 n min{d(x n, y n ), 1}, X = (x n ) n N, Y = (y n ) n N. Alors D est une distance. Toplogie produit. On définit la topologie produit O 1 sur comme la famille des ensembles de la forme C O lorsque O O k et k 1. On définit la topologie produit O 2 sur comme la topologie induite par la distance D. On montre alors O 1 = O 2, topologie que l on note O. Si est compact alors est compact et si est polonais alors est polonais. Tribu produit. On définit la tribu produit T 1 sur comme étant la tribu engendrée par les ensembles A = A 0 A 1... avec A n B et il existe J sous-ensemble fini de N tel que A n = n / J. On définit la tribu produit T 2 sur comme la tribu engendrée par la distance produit D / la topologie produit B. On montre alors T 1 = T 2, tribu que l on note B. Probabilités sur l espace produit. On note Π k : N k, k < N l application qui à X = (x n ) n N N associe Π k X = (x n ) n k k. On dit qu une suite (π N ) P( N ), N N, est compatible si Π k π N = π k si N k où par définition Π k π N P( k ) (Π k π N )(A 1... A k ) = π N (A 1... A k...). Il est clair que pour toute mesure de probabilité π P( ) on définit une famille de mesures de probabilité compatibles en posant π n := Π n π. Inversement, le théorème
172 158 de Kolmogorov affirme qu étant donnée une famille (π n ) de mesures de probabilité compatibles il existe une (unique) mesure de probabilité π P( ) telle que π n := Π n π pour tout n 1. Théorème A.5.10 (de Kolmogorov) Convergence faible sur l espace des probabilités sur l espace produit. Lemme A.5.11 Pour une suite (α j ) de P( ) et α P( ) il y a équivalence entre (1) α j α au sens de la convergence faible de P( ); (2) Π k (α j ) Π k (α) au sens de la convergence faible de P( k ). Preuve du Lemme A Comme il n est pas forcément pratique de définir (1) à l aide de la définition usuelle α j, Φ α, Φ Φ C b ( ), nous utilisons le critère (ii) du Théorème On a évidemment (c est la définition de la topologie O ) l équivalence suivante (1 ) lim inf α j (C O ) α(c O ) pour tout C O O ; (2 ) lim inf α j k (O) α k(o) pour tout O O k et tout k 1. t on conclut en utilisant l équivalence (i) (ii) dans le Théorème (i) tant donné un espace polonais, on définit = N l espace produit (des suites de ) qui est un espace polonais lorsqu il est muni de la distance canonique. On définit sa tribu borélienne B qui est également la tribu engendrée par les cyindres, i.e. les ensembles de la forme C A = A......,. avec A B k ou même A = A 1... A k B k. C est exactement le théorème de Kolmogorov qui affirme qu une mesure sur un espace produit infini est bien défini, et de manière unique, par l ensemble de ses marginales ou formulé d une autre manière, par une famille de mesures de N compatibles : il existe π P( N ) telle que k π( à j ) = π k ( A i ). j=1 pour tout j=1 Ãj B() N tel que Ãj = pour tout j j i, i = 1,..., k et à ji = A i pour tout i = 1,..., k. i=1
173 Bibliographie [1] Ambrosio, L., Gigliand, N., and Savare, G. Gradient ows in metric spaces and in the space of Probability measures, vol of Lectures in Mathematics TH Zurich. Birkhauser, [2] Arkeryd, L., Caprino, S., and Ianiro, N. The homogeneous Boltzmann hierarchy and statistical solutions to the homogeneous Boltzmann equation. J. Statist. Phys. 63, 1-2 (1991), [3] Billingsley, P. Convergence of probability measures, second ed. Wiley Series in Probability and Statistics : Probability and Statistics. John Wiley & Sons Inc., New York, A Wiley-Interscience Publication. [4] Bolley, F. Separability and completeness for the Wasserstein distance. In Séminaire de probabilités XLI, vol of Lecture Notes in Math. Springer, Berlin, 2008, pp [5] Braun, W., and Hepp, K. The Vlasov dynamics and its fluctuations in the 1/N limit of interacting classical particles. Comm. Math. Phys. 56, 2 (1977), [6] Caglioti,., Lions, P.-L., Marchioro, C., and Pulvirenti, M. A special class of stationary flows for two-dimensional uler equations : a statistical mechanics description. Comm. Math. Phys. 143, 3 (1992), [7] Caglioti,., Lions, P.-L., Marchioro, C., and Pulvirenti, M. A special class of stationary flows for two-dimensional uler equations : a statistical mechanics description. II. Comm. Math. Phys. 174, 2 (1995), [8] Carlen,., Carvalho, M., Loss, M., Le Roux, J., and Villani, C. ntropy and chaos in the kac model. preprint. [9] Carlen,. A., Gabetta,., and Toscani, G. Propagation of smoothness and the rate of exponential convergence to equilibrium for a spatially homogeneous Maxwellian gas. Comm. Math. Phys. 199, 3 (1999), [10] Carrillo, J., and Toscani, G. Contractive probability metrics and asymptotic behavior of dissipative kinetic equations. Rivista Matemtica di Parma 6 (2007), [11] Choquet, G., and Meyer, P.-A. xistence et unicité des représentations intégrales dans les convexes compacts quelconques. Ann. Inst. Fourier (Grenoble) 13 (1963),
174 160 [12] Dobrić, V., and Yukich, J.. Asymptotics for transportation cost in high dimensions. J. Theoret. Probab. 8, 1 (1995), [13] Dobrušin, R. L. Vlasov equations. Funktsional. Anal. i Prilozhen. 13, 2 (1979), 48 58, 96. [14] Dudley, R. M. Real analysis and probability, vol. 74 of Cambridge Studies in Advanced Mathematics. Cambridge University Press, Cambridge, Revised reprint of the 1989 original. [15] llis, R. S. ntropy, large deviations, and statistical mechanics. Classics in Mathematics. Springer-Verlag, Berlin, Reprint of the 1985 original. [16] thier, S. N., and Kurtz, T. G. Markov processes. Wiley Series in Probability and Mathematical Statistics : Probability and Mathematical Statistics. John Wiley & Sons Inc., New York, Characterization and convergence. [17] Grünbaum, F. A. Propagation of chaos for the Boltzmann equation. Arch. Rational Mech. Anal. 42 (1971), [18] Hauray, M., and Jabin, P.-. N-particles approximation of the Vlasov equations with singular potential. Arch. Ration. Mech. Anal. 183, 3 (2007), [19] Hewitt,., and Savage, L. J. Symmetric measures on Cartesian products. Trans. Amer. Math. Soc. 80 (1955), [20] Hirsch, F., and Lacombe, G. Éléments d analyse fonctionnelle. nseignement des Mathématiques. [The Teaching of Mathematics]. Masson, Paris, Cours et exercices. [Course and exercises]. [21] Kac, M. Foundations of kinetic theory. In Proceedings of the Third Berkeley Symposium on Mathematical Statistics and Probability, , vol. III (Berkeley and Los Angeles, 1956), University of California Press, pp [22] Kac, M. Probability and related topics in physical sciences, vol of With special lectures by G.. Uhlenbeck, A. R. Hibbs, and B. van der Pol. Lectures in Applied Mathematics. Proceedings of the Summer Seminar, Boulder, Colo. Interscience Publishers, London-New York, [23] Lions, P.-L. Thorie des jeux de champ moyen et applications (mean field games). In Cours du Collège de France. http :// der/audio video.jsp, [24] Lu, X., and Wennberg, B. Solutions with increasing energy for the spatially homogeneous Boltzmann equation. Nonlinear Analysis : RWA 3, 2 (2002), [25] Malliavin, P. Intégration et probabilités. Analyse de Fourier et analyse spectrale. Masson, Paris, Collection : Maîtrise de Mathématiques Pures. [Collection : Masters in Pure Mathematics]. [26] McKean, Jr., H. P. A class of Markov processes associated with nonlinear parabolic equations. Proc. Nat. Acad. Sci. U.S.A. 56 (1966),
175 161 [27] McKean, Jr., H. P. An exponential formula for solving Boltmann s equation for a Maxwellian gas. J. Combinatorial Theory 2 (1967), [28] McKean, Jr., H. P. Propagation of chaos for a class of non-linear parabolic equations. In Stochastic Differential quations (Lecture Series in Differential quations, Session 7, Catholic Univ., 1967). Air Force Office Sci. Res., Arlington, Va., 1967, pp [29] Mehler, F. G. Ueber die entwicklung einer function von beliebig vielen variablen nach laplaschen functionen höherer ordnungn. Crelle s Journal 66 (1866), [30] Méléard, S. Asymptotic behaviour of some interacting particle systems; McKean-Vlasov and Boltzmann models. In Probabilistic models for nonlinear partial differential equations (Montecatini Terme, 1995), vol of Lecture Notes in Math. Springer, Berlin, 1996, pp [31] Messer, J., and Spohn, H. Statistical mechanics of the isothermal Lane- mden equation. J. Statist. Phys. 29, 3 (1982), [32] Mischler, S., and Mouhot, C. Quantitative uniform in time chaos propagation for boltzmann collision processes. Work in progress. [33] Mischler, S., Mouhot, C., and Wennberg, M. Quantitative chaos propagation for N-particle systems. Work in progress. [34] Mouhot, C. Rate of convergence to equilibrium for the spatially homogeneous Boltzmann equation with hard potentials. Comm. Math. Phys. 261, 3 (2006), [35] Neunzert, H., and Wick, J. Theoretische und numerische rgebnisse zur nichtlinearen Vlasov-Gleichung. In Numerische Lösung nichtlinearer partieller Differential- und Integrodifferentialgleichungen (Tagung, Math. Forschungsinst., Oberwolfach, 1971). Springer, Berlin, 1972, pp Lecture Notes in Math., Vol [36] Otto, F., and Villani, C. Generalization of an inequality by Talagrand and links with the logarithmic Sobolev inequality. J. Funct. Anal. 173, 2 (2000), [37] Peyre, R. Some ideas about quantitative convergence of collision models to their mean field limit. J. Stat. Phys. 136, 6 (2009), [38] Rachev, S. T., and Rüschendorf, L. Mass transportation problems. Vol. II. Probability and its Applications (New York). Springer-Verlag, New York, Applications. [39] Robinson, D. W., and Ruelle, D. Mean entropy of states in classical statistical mechanics. Comm. Math. Phys. 5 (1967), [40] Ruelle, D. Statistical mechanics : Rigorous results. W. A. Benjamin, Inc., New York-Amsterdam, [41] Spohn, H. Kinetic equations from Hamiltonian dynamics : Markovian limits. Rev. Modern Phys. 52, 3 (1980),
176 162 [42] Spohn, H. On the Vlasov hierarchy. Math. Methods Appl. Sci. 3, 4 (1981), [43] Spohn, H. Large scale dynamics of interacting particles. Texts and Monograph in physics. Springer-Verlag, [44] Sznitman, A.-S. Équations de type de Boltzmann, spatialement homogènes. Z. Wahrsch. Verw. Gebiete 66, 4 (1984), [45] Sznitman, A.-S. Propagation of chaos for a system of annihilating Brownian spheres. Comm. Pure Appl. Math. 40, 6 (1987), [46] Sznitman, A.-S. Topics in propagation of chaos. In École d Été de Probabilités de Saint-Flour XIX 1989, vol of Lecture Notes in Math. Springer, Berlin, 1991, pp [47] Tanaka, H. Probabilistic treatment of the Boltzmann equation of Maxwellian molecules. Z. Wahrsch. Verw. Gebiete 46, 1 (1978/79), [48] Villani, C. Limite de champ moyen. Cours de DA, , ÉNS Lyon. [49] Villani, C. Cercignani s conjecture is sometimes true and always almost true. Comm. Math. Phys. 234, 3 (2003), [50] Villani, C. Topics in Optimal Transportation, vol. 58 of Graduate Studies in Mathematics series. American Mathematical Society, [51] Villani, C. Optimal transport, vol. 338 of Grundlehren der Mathematischen Wissenschaften [Fundamental Principles of Mathematical Sciences]. Springer- Verlag, Berlin, Old and new. [52] Villani, C. Optimal transport, vol. 338 of Grundlehren der Mathematischen Wissenschaften [Fundamental Principles of Mathematical Sciences]. Springer- Verlag, Berlin, Old and new.
Dualité dans les espaces de Lebesgue et mesures de Radon finies
Chapitre 6 Dualité dans les espaces de Lebesgue et mesures de Radon finies Nous allons maintenant revenir sur les espaces L p du Chapitre 4, à la lumière de certains résultats du Chapitre 5. Sauf mention
Intégration et probabilités TD1 Espaces mesurés Corrigé
Intégration et probabilités TD1 Espaces mesurés Corrigé 2012-2013 1 Petites questions 1 Est-ce que l ensemble des ouverts de R est une tribu? Réponse : Non, car le complémentaire de ], 0[ n est pas ouvert.
Image d un intervalle par une fonction continue
DOCUMENT 27 Image d un intervalle par une fonction continue La continuité d une fonction en un point est une propriété locale : une fonction est continue en un point x 0 si et seulement si sa restriction
3 Approximation de solutions d équations
3 Approximation de solutions d équations Une équation scalaire a la forme générale f(x) =0où f est une fonction de IR dans IR. Un système de n équations à n inconnues peut aussi se mettre sous une telle
Continuité d une fonction de plusieurs variables
Chapitre 2 Continuité d une fonction de plusieurs variables Maintenant qu on a défini la notion de limite pour des suites dans R n, la notion de continuité s étend sans problème à des fonctions de plusieurs
Chapitre 2 Le problème de l unicité des solutions
Université Joseph Fourier UE MAT 127 Mathématiques année 2011-2012 Chapitre 2 Le problème de l unicité des solutions Ce que nous verrons dans ce chapitre : un exemple d équation différentielle y = f(y)
Intégration et probabilités TD1 Espaces mesurés
Intégration et probabilités TD1 Espaces mesurés 2012-2013 1 Petites questions 1) Est-ce que l ensemble des ouverts de R est une tribu? 2) Si F et G sont deux tribus, est-ce que F G est toujours une tribu?
La mesure de Lebesgue sur la droite réelle
Chapitre 1 La mesure de Lebesgue sur la droite réelle 1.1 Ensemble mesurable au sens de Lebesgue 1.1.1 Mesure extérieure Définition 1.1.1. Un intervalle est une partie convexe de R. L ensemble vide et
Le modèle de Black et Scholes
Le modèle de Black et Scholes Alexandre Popier février 21 1 Introduction : exemple très simple de modèle financier On considère un marché avec une seule action cotée, sur une période donnée T. Dans un
Théorème du point fixe - Théorème de l inversion locale
Chapitre 7 Théorème du point fixe - Théorème de l inversion locale Dans ce chapitre et le suivant, on montre deux applications importantes de la notion de différentiabilité : le théorème de l inversion
Exercices - Fonctions de plusieurs variables : corrigé. Pour commencer
Pour commencer Exercice 1 - Ensembles de définition - Première année - 1. Le logarithme est défini si x + y > 0. On trouve donc le demi-plan supérieur délimité par la droite d équation x + y = 0.. 1 xy
Continuité en un point
DOCUMENT 4 Continuité en un point En général, D f désigne l ensemble de définition de la fonction f et on supposera toujours que cet ensemble est inclus dans R. Toutes les fonctions considérées sont à
Intégrale de Lebesgue
Intégrale de Lebesgue L3 Mathématiques Jean-Christophe Breton Université de Rennes 1 Septembre Décembre 2014 version du 2/12/14 Table des matières 1 Tribus (σ-algèbres) et mesures 1 1.1 Rappels ensemblistes..............................
I. Polynômes de Tchebychev
Première épreuve CCP filière MP I. Polynômes de Tchebychev ( ) 1.a) Tout réel θ vérifie cos(nθ) = Re ((cos θ + i sin θ) n ) = Re Cn k (cos θ) n k i k (sin θ) k Or i k est réel quand k est pair et imaginaire
Mesures gaussiennes et espaces de Fock
Mesures gaussiennes et espaces de Fock Thierry Lévy Peyresq - Juin 2003 Introduction Les mesures gaussiennes et les espaces de Fock sont deux objets qui apparaissent naturellement et peut-être, à première
Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications
Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications A. Optimisation sans contrainte.... Généralités.... Condition nécessaire et condition suffisante
Calcul différentiel sur R n Première partie
Calcul différentiel sur R n Première partie Université De Metz 2006-2007 1 Définitions générales On note L(R n, R m ) l espace vectoriel des applications linéaires de R n dans R m. Définition 1.1 (différentiabilité
3. Conditionnement P (B)
Conditionnement 16 3. Conditionnement Dans cette section, nous allons rappeler un certain nombre de définitions et de propriétés liées au problème du conditionnement, c est à dire à la prise en compte
Suites numériques 3. 1 Convergence et limite d une suite
Suites numériques 3 1 Convergence et limite d une suite Nous savons que les termes de certaines suites s approchent de plus en plus d une certaine valeur quand n augmente : par exemple, les nombres u n
Limites finies en un point
8 Limites finies en un point Pour ce chapitre, sauf précision contraire, I désigne une partie non vide de R et f une fonction définie sur I et à valeurs réelles ou complees. Là encore, les fonctions usuelles,
Université Paris-Dauphine DUMI2E 1ère année, 2009-2010. Applications
Université Paris-Dauphine DUMI2E 1ère année, 2009-2010 Applications 1 Introduction Une fonction f (plus précisément, une fonction réelle d une variable réelle) est une règle qui associe à tout réel x au
Texte Agrégation limitée par diffusion interne
Page n 1. Texte Agrégation limitée par diffusion interne 1 Le phénomène observé Un fût de déchets radioactifs est enterré secrètement dans le Cantal. Au bout de quelques années, il devient poreux et laisse
Fonctions de plusieurs variables
Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme
De même, le périmètre P d un cercle de rayon 1 vaut P = 2π (par définition de π). Mais, on peut démontrer (difficilement!) que
Introduction. On suppose connus les ensembles N (des entiers naturels), Z des entiers relatifs et Q (des nombres rationnels). On s est rendu compte, depuis l antiquité, que l on ne peut pas tout mesurer
Calcul différentiel. Chapitre 1. 1.1 Différentiabilité
Chapitre 1 Calcul différentiel L idée du calcul différentiel est d approcher au voisinage d un point une fonction f par une fonction plus simple (ou d approcher localement le graphe de f par un espace
Théorie de la Mesure et Intégration
Université Pierre & Marie Curie (Paris 6) Licence de Mathématiques L3 UE LM364 Intégration 1 & UE LM365 Intégration 2 Année 2010 11 Théorie de la Mesure et Intégration Responsable des cours : Amaury LAMBERT
Théorie de la mesure. S. Nicolay
Théorie de la mesure S. Nicolay Année académique 2011 2012 ii Table des matières Introduction v 1 Mesures 1 1.1 Sigma-algèbres................................. 1 1.2 Mesures.....................................
Cours3. Applications continues et homéomorphismes. 1 Rappel sur les images réciproques
Université de Provence Topologie 2 Cours3. Applications continues et homéomorphismes 1 Rappel sur les images réciproques Soit une application f d un ensemble X vers un ensemble Y et soit une partie P de
Approximations variationelles des EDP Notes du Cours de M2
Approximations variationelles des EDP Notes du Cours de M2 Albert Cohen Dans ce cours, on s intéresse à l approximation numérique d équations aux dérivées partielles linéaires qui admettent une formulation
Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/
Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation
Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48
Méthodes de Polytech Paris-UPMC - p. 1/48 Polynôme d interpolation de Preuve et polynôme de Calcul de l erreur d interpolation Étude de la formule d erreur Autres méthodes - p. 2/48 Polynôme d interpolation
Calcul fonctionnel holomorphe dans les algèbres de Banach
Chapitre 7 Calcul fonctionnel holomorphe dans les algèbres de Banach L objet de ce chapitre est de définir un calcul fonctionnel holomorphe qui prolonge le calcul fonctionnel polynômial et qui respecte
Théorie de la Mesure et Intégration
Ecole Nationale de la Statistique et de l Administration Economique Théorie de la Mesure et Intégration Xavier MARY 2 Table des matières I Théorie de la mesure 11 1 Algèbres et tribus de parties d un ensemble
Espérance conditionnelle
Espérance conditionnelle Samy Tindel Nancy-Université Master 1 - Nancy Samy T. (IECN) M1 - Espérance conditionnelle Nancy-Université 1 / 58 Plan 1 Définition 2 Exemples 3 Propriétés de l espérance conditionnelle
* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours
Exo7 Continuité (étude globale). Diverses fonctions Exercices de Jean-Louis Rouget. Retrouver aussi cette fiche sur www.maths-france.fr * très facile ** facile *** difficulté moyenne **** difficile *****
Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre
IUFM du Limousin 2009-10 PLC1 Mathématiques S. Vinatier Rappels de cours Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre 1 Fonctions de plusieurs variables
Cours d Analyse. Fonctions de plusieurs variables
Cours d Analyse Fonctions de plusieurs variables Licence 1ère année 2007/2008 Nicolas Prioux Université de Marne-la-Vallée Table des matières 1 Notions de géométrie dans l espace et fonctions à deux variables........
Probabilités sur un univers fini
[http://mp.cpgedupuydelome.fr] édité le 7 août 204 Enoncés Probabilités sur un univers fini Evènements et langage ensembliste A quelle condition sur (a, b, c, d) ]0, [ 4 existe-t-il une probabilité P sur
La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1
La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois
Moments des variables aléatoires réelles
Chapter 6 Moments des variables aléatoires réelles Sommaire 6.1 Espérance des variables aléatoires réelles................................ 46 6.1.1 Définition et calcul........................................
Capes 2002 - Première épreuve
Cette correction a été rédigée par Frédéric Bayart. Si vous avez des remarques à faire, ou pour signaler des erreurs, n hésitez pas à écrire à : [email protected] Mots-clés : équation fonctionnelle, série
La fonction exponentielle
DERNIÈRE IMPRESSION LE 2 novembre 204 à :07 La fonction exponentielle Table des matières La fonction exponentielle 2. Définition et théorèmes.......................... 2.2 Approche graphique de la fonction
Simulation de variables aléatoires
Chapter 1 Simulation de variables aléatoires Références: [F] Fishman, A first course in Monte Carlo, chap 3. [B] Bouleau, Probabilités de l ingénieur, chap 4. [R] Rubinstein, Simulation and Monte Carlo
PRIME D UNE OPTION D ACHAT OU DE VENTE
Université Paris VII - Agrégation de Mathématiques François Delarue) PRIME D UNE OPTION D ACHAT OU DE VENTE Ce texte vise à modéliser de façon simple l évolution d un actif financier à risque, et à introduire,
(Ir)réversibilité et entropie
Séminaire Poincaré XV Le Temps (2010) 17 75 Séminaire Poincaré (Ir)réversibilité et entropie Cédric Villani Université de Lyon & Institut Henri Poincaré 11 rue Pierre et Marie Curie 75231 Paris Cedex 05,
Amphi 3: Espaces complets - Applications linéaires continues
Amphi 3: Espaces complets - Applications linéaires continues Département de Mathématiques École polytechnique Remise en forme mathématique 2013 Suite de Cauchy Soit (X, d) un espace métrique. Une suite
Filtrage stochastique non linéaire par la théorie de représentation des martingales
Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de
Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche
Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche Bachir Bekka Février 2007 Le théorème de Perron-Frobenius a d importantes applications en probabilités (chaines
Correction de l examen de la première session
de l examen de la première session Julian Tugaut, Franck Licini, Didier Vincent Si vous trouvez des erreurs de Français ou de mathématiques ou bien si vous avez des questions et/ou des suggestions, envoyez-moi
CHOIX OPTIMAL DU CONSOMMATEUR. A - Propriétés et détermination du choix optimal
III CHOIX OPTIMAL DU CONSOMMATEUR A - Propriétés et détermination du choix optimal La demande du consommateur sur la droite de budget Résolution graphique Règle (d or) pour déterminer la demande quand
MESURE ET INTÉGRATION EN UNE DIMENSION. Notes de cours
MSUR T INTÉGRATION N UN DIMNSION Notes de cours André Giroux Département de Mathématiques et Statistique Université de Montréal Mai 2004 Table des matières 1 INTRODUCTION 2 1.1 xercices.............................
CHAPITRE 5. Stratégies Mixtes
CHAPITRE 5 Stratégies Mixtes Un des problèmes inhérents au concept d équilibre de Nash en stratégies pures est que pour certains jeux, de tels équilibres n existent pas. P.ex.le jeu de Pierre, Papier,
Séminaire TEST. 1 Présentation du sujet. October 18th, 2013
Séminaire ES Andrés SÁNCHEZ PÉREZ October 8th, 03 Présentation du sujet Le problème de régression non-paramétrique se pose de la façon suivante : Supposons que l on dispose de n couples indépendantes de
La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique
La programmation linéaire : une introduction Qu est-ce qu un programme linéaire? Qu est-ce qu un programme linéaire? Exemples : allocation de ressources problème de recouvrement Hypothèses de la programmation
Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens
Chapitre 7 Statistique des échantillons gaussiens Le théorème central limite met en évidence le rôle majeur tenu par la loi gaussienne en modélisation stochastique. De ce fait, les modèles statistiques
4. Martingales à temps discret
Martingales à temps discret 25 4. Martingales à temps discret 4.1. Généralités. On fixe un espace de probabilités filtré (Ω, (F n ) n, F, IP ). On pose que F contient ses ensembles négligeables mais les
Programmation linéaire et Optimisation. Didier Smets
Programmation linéaire et Optimisation Didier Smets Chapitre 1 Un problème d optimisation linéaire en dimension 2 On considère le cas d un fabricant d automobiles qui propose deux modèles à la vente, des
Mesure et Intégration (Notes de cours de L3)
Mesure et Intégration (Notes de cours de L3) Ahmed Zeriahi Version préliminaire-octobre 2011 Avertissement : Ceci est une version préliminaire des notes du cours que l auteur a dispensé en troisème année
Sur certaines séries entières particulières
ACTA ARITHMETICA XCII. 2) Sur certaines séries entières particulières par Hubert Delange Orsay). Introduction. Dans un exposé à la Conférence Internationale de Théorie des Nombres organisée à Zakopane
Commun à tous les candidats
EXERCICE 3 (9 points ) Commun à tous les candidats On s intéresse à des courbes servant de modèle à la distribution de la masse salariale d une entreprise. Les fonctions f associées définies sur l intervalle
Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques.
14-3- 214 J.F.C. p. 1 I Exercice autour de densité, fonction de répatition, espérance et variance de variables quelconques. Exercice 1 Densité de probabilité. F { ln x si x ], 1] UN OVNI... On pose x R,
Cours Fonctions de deux variables
Cours Fonctions de deux variables par Pierre Veuillez 1 Support théorique 1.1 Représentation Plan et espace : Grâce à un repère cartésien ( ) O, i, j du plan, les couples (x, y) de R 2 peuvent être représenté
République Algérienne Démocratique et Populaire
République Algérienne Démocratique et Populaire الشعبية الجمهوریة الجزاي ریة الدیمقراطية Ministère de l enseignement Supérieur et de la Recherche Scientifique Université 8 mai 45 Guelma التعليم العالي
Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I
Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I Roxane Duroux 1 Cadre de l étude Cette étude s inscrit dans le cadre de recherche de doses pour des essais cliniques
ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE
ÉTUDE ASYMPTOTIQUE D UNE MARCHE ALÉATOIRE CENTRIFUGE JEAN-DENIS FOUKS, EMMANUEL LESIGNE ET MARC PEIGNÉ J.-D. Fouks. École Supérieure d Ingénieurs de Poitiers. 40 avenue du Recteur Pineau, 860 Poitiers
DYNAMIQUE DE FORMATION DES ÉTOILES
A 99 PHYS. II ÉCOLE NATIONALE DES PONTS ET CHAUSSÉES, ÉCOLES NATIONALES SUPÉRIEURES DE L'AÉRONAUTIQUE ET DE L'ESPACE, DE TECHNIQUES AVANCÉES, DES TÉLÉCOMMUNICATIONS, DES MINES DE PARIS, DES MINES DE SAINT-ÉTIENNE,
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Le produit semi-direct
Le produit semi-direct Préparation à l agrégation de mathématiques Université de Nice - Sophia Antipolis Antoine Ducros Octobre 2007 Ce texte est consacré, comme son titre l indique, au produit semi-direct.
Correction du Baccalauréat S Amérique du Nord mai 2007
Correction du Baccalauréat S Amérique du Nord mai 7 EXERCICE points. Le plan (P) a une pour équation cartésienne : x+y z+ =. Les coordonnées de H vérifient cette équation donc H appartient à (P) et A n
TIQUE DE FRANCE NILSYSTÈMES D ORDRE 2 ET PARALLÉLÉPIPÈDES
Bulletin de la SOCIÉTÉ MATHÉMATIQUE DE FRANCE NILSYSTÈMES D ORDRE 2 ET PARALLÉLÉPIPÈDES Bernard Host & Alejandro Maass Tome 135 Fascicule 3 2007 SOCIÉTÉ MATHÉMATIQUE DE FRANCE Publié avec le concours du
Exo7. Matrice d une application linéaire. Corrections d Arnaud Bodin.
Exo7 Matrice d une application linéaire Corrections d Arnaud odin. Exercice Soit R muni de la base canonique = ( i, j). Soit f : R R la projection sur l axe des abscisses R i parallèlement à R( i + j).
Programmes des classes préparatoires aux Grandes Ecoles
Programmes des classes préparatoires aux Grandes Ecoles Filière : scientifique Voie : Biologie, chimie, physique et sciences de la Terre (BCPST) Discipline : Mathématiques Seconde année Préambule Programme
Probabilités sur un univers fini
[http://mp.cpgedupuydelome.fr] édité le 10 août 2015 Enoncés 1 Proailités sur un univers fini Evènements et langage ensemliste A quelle condition sur (a,, c, d) ]0, 1[ 4 existe-t-il une proailité P sur
Équations non linéaires
Équations non linéaires Objectif : trouver les zéros de fonctions (ou systèmes) non linéaires, c-à-d les valeurs α R telles que f(α) = 0. y f(x) α 1 α 2 α 3 x Equations non lineaires p. 1/49 Exemples et
1 Définition et premières propriétés des congruences
Université Paris 13, Institut Galilée Département de Mathématiques Licence 2ème année Informatique 2013-2014 Cours de Mathématiques pour l Informatique Des nombres aux structures Sylviane R. Schwer Leçon
Les indices à surplus constant
Les indices à surplus constant Une tentative de généralisation des indices à utilité constante On cherche ici en s inspirant des indices à utilité constante à définir un indice de prix de référence adapté
Limite de champ moyen
Limite de champ moyen Cours de DEA, 2001-2002 Cédric Villani UMPA, ESL 46 allée d Italie 69364 Lyon Cedex 07 [email protected] 2 CHAPITRE 0 Ce document constitue le support écrit pour un cours
Construction de l'intégrale de Lebesgue
Université d'artois Faculté des ciences Jean Perrin Mesure et Intégration (Licence 3 Mathématiques-Informatique) Daniel Li Construction de l'intégrale de Lebesgue 10 février 2011 La construction de l'intégrale
Optimisation Discrète
Prof F Eisenbrand EPFL - DISOPT Optimisation Discrète Adrian Bock Semestre de printemps 2011 Série 7 7 avril 2011 Exercice 1 i Considérer le programme linéaire max{c T x : Ax b} avec c R n, A R m n et
Calcul intégral élémentaire en plusieurs variables
Calcul intégral élémentaire en plusieurs variables PC*2 2 septembre 2009 Avant-propos À part le théorème de Fubini qui sera démontré dans le cours sur les intégrales à paramètres et qui ne semble pas explicitement
Relation d ordre. Manipulation des relations d ordre. Lycée Pierre de Fermat 2012/2013 Feuille d exercices
Lycée Pierre de Fermat 2012/2013 MPSI 1 Feuille d exercices Manipulation des relations d ordre. Relation d ordre Exercice 1. Soit E un ensemble fixé contenant au moins deux éléments. On considère la relation
Produits d espaces mesurés
Chapitre 7 Produits d espaces mesurés 7.1 Motivation Au chapitre 2, on a introduit la mesure de Lebesgue sur la tribu des boréliens de R (notée B(R)), ce qui nous a permis d exprimer la notion de longueur
M2 IAD UE MODE Notes de cours (3)
M2 IAD UE MODE Notes de cours (3) Jean-Yves Jaffray Patrice Perny 16 mars 2006 ATTITUDE PAR RAPPORT AU RISQUE 1 Attitude par rapport au risque Nousn avons pas encore fait d hypothèse sur la structure de
Optimisation des fonctions de plusieurs variables
Optimisation des fonctions de plusieurs variables Hervé Hocquard Université de Bordeaux, France 8 avril 2013 Extrema locaux et globaux Définition On étudie le comportement d une fonction de plusieurs variables
Intégration sur des espaces produits
Chapitre 5 Intégration sur des espaces produits 5.1 Produit de deux mesures Étant donnés deux espaces mesurés (Ω 1, F 1, µ 1 ) et (Ω 2, F 1, µ 2 ), le but de cette section est de construire une mesure
I. Introduction. 1. Objectifs. 2. Les options. a. Présentation du problème.
I. Introduction. 1. Objectifs. Le but de ces quelques séances est d introduire les outils mathématiques, plus précisément ceux de nature probabiliste, qui interviennent dans les modèles financiers ; nous
Théorèmes du Point Fixe et Applications aux Equations Diérentielles
Université de Nice-Sophia Antipolis Mémoire de Master 1 de Mathématiques Année 2006-2007 Théorèmes du Point Fixe et Applications aux Equations Diérentielles Auteurs : Clémence MINAZZO - Kelsey RIDER Responsable
FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4)
FONCTIONS DE PLUSIEURS VARIABLES (Outils Mathématiques 4) Bernard Le Stum Université de Rennes 1 Version du 13 mars 2009 Table des matières 1 Fonctions partielles, courbes de niveau 1 2 Limites et continuité
Chapitre 3. Quelques fonctions usuelles. 1 Fonctions logarithme et exponentielle. 1.1 La fonction logarithme
Chapitre 3 Quelques fonctions usuelles 1 Fonctions logarithme et eponentielle 1.1 La fonction logarithme Définition 1.1 La fonction 7! 1/ est continue sur ]0, +1[. Elle admet donc des primitives sur cet
Continuité et dérivabilité d une fonction
DERNIÈRE IMPRESSIN LE 7 novembre 014 à 10:3 Continuité et dérivabilité d une fonction Table des matières 1 Continuité d une fonction 1.1 Limite finie en un point.......................... 1. Continuité
Chapitre 3. Mesures stationnaires. et théorèmes de convergence
Chapitre 3 Mesures stationnaires et théorèmes de convergence Christiane Cocozza-Thivent, Université de Marne-la-Vallée p.1 I. Mesures stationnaires Christiane Cocozza-Thivent, Université de Marne-la-Vallée
Précision d un résultat et calculs d incertitudes
Précision d un résultat et calculs d incertitudes PSI* 2012-2013 Lycée Chaptal 3 Table des matières Table des matières 1. Présentation d un résultat numérique................................ 4 1.1 Notations.........................................................
Résolution de systèmes linéaires par des méthodes directes
Résolution de systèmes linéaires par des méthodes directes J. Erhel Janvier 2014 1 Inverse d une matrice carrée et systèmes linéaires Ce paragraphe a pour objet les matrices carrées et les systèmes linéaires.
Exercices - Polynômes : corrigé. Opérations sur les polynômes
Opérations sur les polynômes Exercice 1 - Carré - L1/Math Sup - Si P = Q est le carré d un polynôme, alors Q est nécessairement de degré, et son coefficient dominant est égal à 1. On peut donc écrire Q(X)
Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)
Examen optimisation Centrale Marseille (28) et SupGalilee (28) Olivier Latte, Jean-Michel Innocent, Isabelle Terrasse, Emmanuel Audusse, Francois Cuvelier duree 4 h Tout resultat enonce dans le texte peut
Qu est-ce qu une probabilité?
Chapitre 1 Qu est-ce qu une probabilité? 1 Modéliser une expérience dont on ne peut prédire le résultat 1.1 Ensemble fondamental d une expérience aléatoire Une expérience aléatoire est une expérience dont
CHAPITRE IV. L axiome du choix
CHAPITRE IV L axiome du choix Résumé. L axiome du choix AC affirme qu il est légitime de construire des objets mathématiques en répétant un nombre infini de fois l opération de choisir un élément dans
Formes quadratiques. 1 Formes quadratiques et formes polaires associées. Imen BHOURI. 1.1 Définitions
Formes quadratiques Imen BHOURI 1 Ce cours s adresse aux étudiants de niveau deuxième année de Licence et à ceux qui préparent le capes. Il combine d une façon indissociable l étude des concepts bilinéaires
Introduction à l optimisation de forme et application à la mécanique des fluides
Laboratoire Jacques-Louis LIONS Introduction à l optimisation de forme et application à la mécanique des fluides Master 2 - Année universitaire 2014-2015 Pascal FREY et Yannick PRIVAT Laboratoire Jacques-Louis
Cours d Analyse 3 Fonctions de plusieurs variables
Université Claude Bernard, Lyon I Licence Sciences, Technologies & Santé 43, boulevard 11 novembre 1918 Spécialité Mathématiques 69622 Villeurbanne cedex, France L. Pujo-Menjouet [email protected]
