CHAPITRE 22. Machines à sous



Documents pareils
Intégration et probabilités ENS Paris, TD (20)13 Lois des grands nombres, théorème central limite. Corrigé :

STATISTIQUE : TESTS D HYPOTHESES

Processus et martingales en temps continu

Chapitre 3 : Fonctions d une variable réelle (1)

. (b) Si (u n ) est une suite géométrique de raison q, q 1, on obtient : N N, S N = 1 qn+1. n+1 1 S N = 1 1

Limites des Suites numériques

Séries réelles ou complexes

[ édité le 10 juillet 2014 Enoncés 1. Exercice 6 [ ] [correction] Si n est un entier 2, le rationnel H n =

FEUILLE D EXERCICES 17 - PROBABILITÉS SUR UN UNIVERS FINI

CHAPITRE 2 SÉRIES ENTIÈRES

Suites et séries de fonctions

Etude de la fonction ζ de Riemann

14 Chapitre 14. Théorème du point fixe

Séquence 5. La fonction logarithme népérien. Sommaire

Convergences 2/2 - le théorème du point fixe - Page 1 sur 9

1 Mesure et intégrale

Statistique descriptive bidimensionnelle

x +1 + ln. Donner la valeur exacte affichée par cet algorithme lorsque l utilisateur entre la valeur n =3.

Cours de Statistiques inférentielles

Dénombrement. Chapitre Enoncés des exercices

Deuxième partie : LES CONTRATS D ASSURANCE VIE CLASSIQUES

Dénombrement. Introduction. 1 Cardinaux d'ensembles nis. ECE3 Lycée Carnot. 12 novembre Quelques dénitions

20. Algorithmique & Mathématiques

2 ième partie : MATHÉMATIQUES FINANCIÈRES

Cours 5 : ESTIMATION PONCTUELLE

Comportement d'une suite

UNIVERSITE MONTESQUIEU BORDEAUX IV. Année universitaire Semestre 2. Prévisions Financières. Travaux Dirigés - Séances n 4

Exo7. Déterminants. = 4(b + c)(c + a)(a + b). c + a c + b 2c Correction. b + a 2b b + c. Exercice 2 ** X a b c a X c b b c X a c b a X

SÉRIES STATISTIQUES À DEUX VARIABLES

LES ÉCLIPSES. Éclipser signifie «cacher». Vus depuis la Terre, deux corps célestes peuvent être éclipsés : la Lune et le Soleil.

Chap. 5 : Les intérêts (Les calculs financiers)

Les Nombres Parfaits.

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Processus géométrique généralisé et applications en fiabilité

STATISTIQUE AVANCÉE : MÉTHODES

EXERCICES : DÉNOMBREMENT

Probabilités et statistique pour le CAPES

TRANSFERT DE CHARGE DANS UN RÉSEAU DE PROCESSEURS TOTALEMENT CONNECTÉS (*) par Maryse BÉGUIN ( 1 )

II LES PROPRIETES DES ESTIMATEURS MCO 1. Rappel : M1 LA REGRESSION : HYPOTHESES ET TESTS Avril 2009

Statistique Numérique et Analyse des Données

Exercice I ( non spé ) 1/ u 1 = u / Soit P la propriété : u n + 4. > 0 pour n 1. P est vraie au rang 1 car u 1

Chapitre 3 : Transistor bipolaire à jonction

PROMENADE ALÉATOIRE : Chaînes de Markov et martingales

4 Approximation des fonctions

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

La France, à l écoute des entreprises innovantes, propose le meilleur crédit d impôt recherche d Europe

55 - EXEMPLES D UTILISATION DU TABLEUR.

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable

Groupe orthogonal d'un espace vectoriel euclidien de dimension 2, de dimension 3

Université Victor Segalen Bordeaux 2 Institut de Santé Publique, d Épidémiologie et de Développement (ISPED) Campus Numérique SEME

Principes et Méthodes Statistiques

Polynésie Septembre Exercice On peut traiter la question 4 sans avoir traité les questions précédentes.

Chap. 6 : Les principaux crédits de trésorerie et leur comptabilisation

Exercices de mathématiques

UV SQ 20. Automne Responsable d Rémy Garandel ( m.-el. remy.garandel@utbm.fr ) page 1

Consolidation. C r é e r un nouveau classeur. Créer un groupe de travail. Saisir des données dans un groupe

Examen final pour Conseiller financier / conseillère financière avec brevet fédéral. Recueil de formules. Auteur: Iwan Brot

c. Calcul pour une évolution d une proportion entre deux années non consécutives

Échantillonnage et estimation

Formation d un ester à partir d un acide et d un alcool

Chapitre 2 SONDAGE ALEATOIRE SIMPLE OU A PROBABILITES EGALES. 2.1 DEFINITIONS 2.2 SONDAGE ALEATOIRE SIMPLE SANS REMISE (PESR) 2.2.

Module 3 : Inversion de matrices

UNIVERSITÉ DE SFAX École Supérieure de Commerce

Baccalauréat S Asie 19 juin 2014 Corrigé

Introduction : Mesures et espaces de probabilités

Gérer les applications

Université de Bordeaux - Master MIMSE - 2ème année. Scoring. Marie Chavent machaven/

Donnez de la liberté à vos données. BiBOARD.

Sommaire Chapitre 1 - L interface de Windows 7 9

3.1 Différences entre ESX 3.5 et ESXi 3.5 au niveau du réseau. Solution Cette section récapitule les différences entre les deux versions.

capital en fin d'année 1 C 0 + T C 0 = C 0 (1 + T) = C 0 r en posant r = 1 + T 2 C 0 r + C 0 r T = C 0 r (1 + T) = C 0 r 2 3 C 0 r 3...

Etude Spéciale SCORING : UN GRAND PAS EN AVANT POUR LE MICROCRÉDIT?

Mobile Business. Communiquez efficacement avec vos relations commerciales 09/2012

Renseignements et monitoring. Renseignements commerciaux et de solvabilité sur les entreprises et les particuliers.

Les algorithmes de tri

La tarification hospitalière : de l enveloppe globale à la concurrence par comparaison

S-PENSION. Constituez-vous un capital retraite complémentaire pour demain tout en bénéficiant d avantages fiscaux dès aujourd hui.

Des résultats d irrationalité pour deux fonctions particulières

Chaînes de Markov. Arthur Charpentier

La maladie rénale chronique

Terminale S. Terminale S 1 F. Laroche

Université Pierre et Marie Curie. Biostatistique PACES - UE

One Office Voice Pack Vos appels fixes et mobiles en un seul pack

Initiation à l analyse factorielle des correspondances

RESOLUTION DES FLOW SHOP STOCHASTIQUES PAR LES ORDRES STOCHASTIQUES. DERBALA Ali *)

Compte Sélect Banque Manuvie Guide du débutant

Réseaux d ondelettes et réseaux de neurones pour la modélisation statique et dynamique de processus

Statistiques appliquées à la gestion Cours d analyse de donnés Master 1

DETERMINANTS. a b et a'

La fibre optique arrive chez vous Devenez acteur de la révolution numérique

Télé OPTIK. Plus spectaculaire que jamais.

Faites prospérer vos affaires grâce aux solutions d épargne et de gestion des dettes

Une action! Un message!

Simulations interactives de convertisseurs en électronique de puissance

Tempêtes : Etude des dépendances entre les branches Automobile et Incendie à l aide de la théorie des copulas Topic 1 Risk evaluation

POLITIQUE ECONOMIQUE ET DEVELOPPEMENT

Un nouvel opérateur de fusion adaptatif. A new adaptive operator of fusion. 1. introduction

Neolane Leads. Neolane v6.0

Comment les Canadiens classent-ils leur système de soins de santé?

Neolane Message Center. Neolane v6.0

Transcription:

CHAPITRE 22 Machies à sous 22. Corrigé possible du texte 22.. Eocé du problème et défiitio du modèle statistique associé O étudie ici u modèle statistique avec observatios icomplètes : o dispose d observatios parcellaires sur u certai phéomèe aléatoire, dot o coaît la forme de la loi, mais pas les paramètres. Le phéomèe est formé par des couples de variables aléatoires idépedates (Et A, Et B ), à valeurs das {0, } 2, eux-mêmes idépedats et idetiquemet distribués lorsque t varie. La loi commue est doc u produit de lois de Beroulli, de paramètres otés θ A et θ B. Pour éviter les trivialités, o exclut les cas extrêmes θ A, θ B {0, }, de sorte que l espace des paramètres est fialemet = ]0, [ 2. Les observatios sot icomplètes (ou parcellaires) au ses où l o observe à aucu tour t le vecteur (Et A, Et B ) e etier, mais seulemet ue de ses composates, au libre choix du statisticie, celle d idex oté C t {A, B} ci-dessous (ou la première, ou la secode composate). O ote E C t t = X t cette composate observée ; elle forme égalemet le gai obteu. L objectif ici est pas directemet de bie estimer θ A et θ B, il e s agit doc pas vraimet d u problème statistique au ses classique ; mais de faire e sorte que les sommes E C +... + E C soiet grades, e u ses précisé au paragraphe 22..2. O parle de problème d appretissage, et o verra que le joueur aura à arbitrer etre exploratio (recueillir des iformatios sur les paramètres, et otammet, les estimer efficacemet) et exploitatio de ces iformatios. Cotrairemet aux problèmes statistiques habituels, o est pas tat itéressé par la boe descriptio du phéomèe stochastique sous-jacet que par les coséqueces de cette boe modélisatio e termes d objectifs cocrets (ici, gager de l arget!). Explicitos maiteat le lie avec la réalité et développos la ature de ces objectifs cocrets. Tout d abord, il est bo de rappeler qu u syoyme de machie à sous est badit machot ; ue machie à sous a e effet u seul bras. Das la suite, o va cosidérer que le joueur fait face à deux machies, ou, plus simplemet, à ue machie ihabituelle, à deux bras. C est pourquoi o parle de badits à deux bras. Chacu des deux bras, à chaque fois qu o l actioe (avec ue pièce de e), tire u lot au hasard parmi la liste des lots dispoibles (par exemple, e, 2 e, 0 e, etc. jusqu au gros lot). Les compteurs sot remis à zéro à chaque tirage, la machie est sas mémoire : cela garatit que les couples de paiemets sot effectivemet idépedats etre eux et idetiquemet distribués. Le fait que les bras sot sas ifluece l u sur l autre assure quat à lui que ces couples de paiemets sot formés de variables aléatoires idépedates. O ote cepedat

302 STATISTIQUE EN ACTION qu a priori, les paiemets e sot pas doés par ue loi de Beroulli, mais par ue loi plus compliquée, discrète et admettat pour support les lots dispoibles. La simplificatio proposée, das le texte du chapitre 0, par le modèle de Beroulli admet deux justificatios (et demie). Premièremet, o pourrait imagier que l o e s itéresse qu au fait d avoir u gai, peu importe so motat : o veut activer le bras qui obtiet le plus souvet u gai, quel que soit le motat de ce derier, ou alors, le plus souvet u gros gai (supérieur à u certai seuil psychologique, ce qui permet de cosidérer les petits gais comme peu itéressats pour le joueur). La mise de e etre alors plus e lige de compte. C est ue modélisatio e termes d ivresse ou de frisso du gai, pas tellemet e termes d efficacité des gais ; o pourrait otammet se retrouver à actioer presque exclusivemet u bras qui gage souvet mais peu, alors que l autre bras a ue meilleure espérace de gai. Plus raisoablemet, o pourrait peser que le seul lot dispoible est 2 e ; à chaque coup, o gage aisi, tous comptes faits et mise déduite, 2 E C t t e, que l o veut comparer au gai moye du meilleur bras, 2 max {θ A, θ B }. La différece, ( 2 E C t t max { θ A, θ B}), est, au facteur 2 près, la quatité d itérêt das le texte et das ce qui suit. O pourra oter que les variables e jeu ici e sot plus alors distribuées selo des lois de Beroulli, mais selo des lois de Rademacher (id est, elles ot pour support {, }) ; il est par ailleurs évidet que les paramètres θ A et θ B doivet alors être plus petits que /2, sas quoi, das ce modèle, le casio perdrait de l arget! Efi et c est la demi-justificatio, les calculs ci-dessous, et otammet ceux mettat e jeu la loi des grads ombres pour les martigales, sot valables pour tout couple de lois sur les bras admettat toutes deux u momet d ordre deux. Or, c est le cas pour toutes les lois sur les gais des machies à sous, qui ot u support fii. Les lois de Beroulli offret ue simplificatio ecore suffisammet riche pour illustrer les méthodes de martigales sas trop alourdir ou compliquer le raisoemet ; les mêmes stratégies atteiget l objectif fixé au paragraphe 22..4 sur des lois plus complexes. Seule la dérivatio des itervalles de cofiace par méthode de réijectio («plug-i») au paragraphe 22..7 utilise la forme particulière de la variace des lois de Beroulli et leur estimatio cosistate à partir d estimateurs de leur moyee (de leur paramètre). Défiitio mathématique d ue stratégie O a parlé ci-dessus de stratégies, sas vraimet les défiir formellemet ; mais e faisat simplemet appel à l ituitio que l o peut s e faire, à savoir que l actio choisie au tour t repose uiquemet sur l iformatio dispoible au début du tour t, qui est formée par la suite des actios et gais passés. Voici maiteat la même défiitio, mais formulée de maière rigoureuse mathématiquemet. Ue stratégie (détermiiste) est ue suite de variables aléatoires (C ) à valeurs das {A, B} telle que C est détermiiste, et pour t 2, la variable aléatoire C t est mesurable par

CHAPITRE 22. MACHINES À SOUS 303 rapport à la tribu egedrée par C, E C,..., C t, E C t t ; e réalité, il est équivalet de requérir C t soit mesurable par rapport à E C,..., EC t t, comme o le motre par récurrece. Remarque au passage. Ce qui suit traite essetiellemet des stratégies détermiistes ; l appel à l aléa arrive que das certais cas d égalités etre estimées des paramètres des bras, où l o veut alors tirer A ou B au hasard. Pour modéliser cela, et même des règles aléatoires plus géérales, o suppose disposer d ue suite de variables aléatoires U, U 2,... idépedates des gais des bras (Et A, Et B ), idépedates etre elles, et idetiquemet distribuées selo ue loi uiforme. O utilise le fait que toute probabilité sur {A, B} peut être simulée grâce à ue loi uiforme (voir le chapitre 9) : ue stratégie aléatoire est alors ue suite de variables aléatoires (C ) telle que C est U mesurable, et pour t 2, la variable aléatoire C t est mesurable par rapport à U, C, E C,..., U t, C t, E C t t, U t. Ici ecore, o peut motrer que les choix passés e sot pas écessaires das la défiitio de la filtratio. 22..2 Premiers exemples de stratégies et limitatios de toute stratégie Le but d ue stratégie est de recevoir u paiemet moye aussi proche que possible de celui du meilleur bras. O souhaite doc que G = X t = e soit pas trop éloigé du gai du meilleur bras, { } max Et A, Et B max { θ A, θ B}, où l approximatio procède de la loi des grads ombres (et peut être quatifiée par les techiques du chapitre 3). Certaies stratégies aïves e covieet pas, otammet celles qui jouet toujours le même bras, C t = A pour tout t ou C t = B pour tout t. E effet, selo les lois e questio, l ue ou l autre de ces deux stratégies, pas toujours la même, obtiet u mauvais paiemet moye, égal à celui du plus mauvais bras. La stratégie qui altere etre A et B et joue C 2t = A puis C 2t = B pour tout t obtiet asympotiquemet qu u paiemet moye égal à la moyee de θ A et θ B. O motre ci-dessous, au Corollaire 22.3, que le gai moye G de toute stratégie vérifie mi { θ A, θ B} lim if G lim sup G max { θ A, θ B} p.s. (22.) E C t t

304 STATISTIQUE EN ACTION Remarque au passage. Notos qu ici, ous sommes e situatio de prise de décisios séquetielles, cotrairemet aux situatios de statistique plus classiques où toutes les observatios sot dispoibles avat l estimatio ; ce e sot pas des assertios de covergece e probabilité que l o désire obteir alors, mais de covergece presque sûre, qui seules traitet du comportemet idividuel de toutes les trajectoires. Au vu de ces iégalités asymptotiques, ue stratégie pourra être cosidérée comme aussi boe que possible lorsque so paiemet moye G ted effectivemet vers la bore supérieure max {θ A, θ B } ; o verra qu il existe de telles stratégies. Cette défiitio de boe stratégie est u peu frustre au ses où il faudrait égalemet s itéresser à la vitesse de covergece du gai moye vers la bore supérieure max {θ A, θ B }. O a evie de cosidérer que des stratégies qui coverget suffisammet vite vers la limite. Le paragraphe 22..7 motre qu ue vitesse de covergece au mois e / est possible. Pour que le reste du traitemet du problème e soit pas trivial, o suppose évidemmet que θ A = θ B ; pour le cas θ A = θ B, toutes les stratégies sot boes au ses défii ci-dessus et l o a que des égalités das (22.). Pire, la loi de G est e fait idépedate de la stratégie employée, G suit toujours ue loi biomiale de paramètres et θ A = θ B. 22..3 Preuve de la loi des grads ombres pour les martigales Le Corollaire 22.3 découlera des résultats de martigale suivats. O commece par u bref retour sur les lies etre martigales et accroissemets de martigale, et o démotre la loi des grads ombres pour les martigales. Lies etre martigales et accroissemets de martigale O itroduit u raccourci de otatio efficace : état doée ue filtratio (F ) 0, o ote E t l espérace coditioelle par rapport à F t, pour t. (Notez bie le décalage d idice.) O défiit ci-dessous la otio d accroissemets de martigale à partir de la otio de martigale et o explique les lies etre deux tels processus. O part d ue martigale (M ) adaptée à ue filtratio (F ), que, sas perte de gééralité, o éted à ue martigale (M ) 0 adaptée à la filtratio (F ) 0, où M 0 = E [ M ] est l espérace commue des élémets de la martigale et F0 est la tribu triviale (réduite à l esemble vide et à l espace probabilisé tout etier). O défiit alors la suite (Y ) 0 de ses accroissemets par Y 0 = M 0 (= y 0, où y 0 est ue costate), et Y t = M t M t pour t. La suite (Y ) 0 est égalemet (F ) 0 adaptée, et E t [ Yt ] = Et [ Mt ] Mt = 0 pour tout t, car (M ) 0 est ue martigale. Réciproquemet, ue suite (Y ) qui est (F ) adaptée et telle que E t [ Yt ] = 0 pour tout t est appelée ue suite d accroissemets de martigale. Le processus (M ) 0 défii par M 0 = y 0 (ue costate libremet choisie, évetuellemet ulle) et M t = y 0 +Y +...+Y t pour t, est alors ue martigale adaptée par rapport à (F ) 0.

CHAPITRE 22. MACHINES À SOUS 305 Eocé de la loi des grads ombres pour les martigales O part doc das le texte d ue martigale (M ) ou (M ) 0, que l o décompose comme idiqué ci-dessus e la suite (Y t ) t 0 de ses accroissemets. O défiit alors le processus (V ) 0 comme la somme des variaces coditioelles des accroissemets ; mais ceux-ci état d espéraces coditioelles ulles, (V ) 0 est simplemet la somme des espéraces coditioelles des carrés des accroissemets. Avec les otatios ci-dessus, pour tout 0, [ V = y0 2 + E t où la sommatio est évidemmet ulle das la défiitio lorsque = 0, de sorte que V 0 = y 2 0. (V ) 0 est ue suite croissate de variables aléatoires, elle admet doc p.s. ue limite V = lim V. O remarque égalemet, cela servira par la suite, qu u élémet V t est mesurable par rapport à F t (et pas seulemet par rapport à F t ). La suite (V ) 0 est doc (F ) 0 adaptée (où F = F 0 est égalemet la tribu triviale) ; ce qu o appelle égalemet le caractère prévisible du processus (V ) 0. La termiologie usuelle est que (V ) est le compesateur prévisible du processus ( M 2 ). E effet, ( M 2 ) est ue sous-martigale positive (par iégalité de Jese), mais ( M 2 V ) est ue martigale : pour tout t, Yt 2 ], E [Mt 2 ] [ ( ) ( [ V t Ft = E Yt 2 + 2M t Y t + Mt 2 V t + E ] [Y t Ft = 2M t E Y 2 t + M 2 t V t = M 2 t V t, ] ) ] Ft F t où l o a essetiellemet utilisé que les processus étaiet adaptés à la filtratio et que (Y ) est ue suite d accroissemets de martigale. O peut maiteat éocer l extesio de la loi forte des grads ombres aux martigales. Théorème 22. (Loi des grads ombres pour les martigales) Avec les otatios précédetes,. sur { (V ) est borée }, la martigale (M ) coverge p.s. das R ; 2. si V p.s., alors M = o(v ) p.s. Preuve du poit. du Théorème 22. Preuve Pour tout c > 0, o cosidère la variable aléatoire ν c = if { 0 : V + > c } (avec la covetio habituelle que if = ). ν c est u temps d arrêt pour la filtratio (F ) ; e effet, pour tout etier k, au vu de la croissace de (V ), o peut réécrire {ν c = k} = {V k+ > c et V k c},

306 STATISTIQUE EN ACTION qui est F k mesurable, puisque (V ) est prévisible. Par théorème d arrêt, e otat ν c = mi {, ν c }, o a que (M νc ) est ecore ue (F ) martigale. O calcule maiteat le momet d ordre deux de ses élémets ; o veut motrer qu ils sot uiformémet borés (par c). Pour ce faire, o remarque que puisque ( M 2 V ) est égalemet ue martigale, le même théorème d arrêt assure que ( M ν 2 ) c V νc est elle aussi ue (F ) martigale. E particulier, le terme idexé par = 0 état ul, o a que l espérace commue des élémets de la martigale est ulle : pour tout 0, ] E [M ν 2 c = E [ ] [ ] V νc, où E V νc c par défiitio même de ν c. Or, o sait qu ue martigale borée das L 2 coverge p.s. (et das L 2 ) : o défiit légitimemet Mν c = lim M νc pour tout c > 0 (par exemple pour tout c N ). O pose alors M = lim sup Mν c, c qui est bie ue variable aléatoire (elle est bie mesurable), et o va motrer que (M ) coverge vers M sur {V < }. Pour c fixé, sur l évéemet {ν c = }, o a ν c = pour tout c c, de sorte que M = lim M sur c N {ν c = }. Lorsque V <, o a que ν c = pour tout c > V ; réciproquemet, lorsqu il existe c tel que ν c =, alors o sait que (V ) est borée par c, de sorte que V c <. O viet de prouver que { {ν c = } = {V < } = (V ) est borée }, c N ce qui coclut la preuve du poit. du Théorème 22.. Remarque au passage. Ue des meilleures référeces pour avoir u aperçu rapide des résultats essetiels du cours de probabilités (martigales et chaîes de Markov) est [MPB98]. Au chapitre 3, o pourra relire par exemple l éocé du théorème d arrêt (paragraphe 3.3(v)) et le passage sur la covergece des martigales borées das L 2 (Théorème 3.7). Le résultat de covergece ci-dessus est prouvé de maière légèremet différete au Problème 3.7. Preuve du poit 2. du Théorème 22. O s attache maiteat au poit 2. du théorème, qui découle du poit., comme o le verra. Il éoce que M = o(v ) p.s. sur {lim if V = }, ce qui est ue gééralisatio de la loi forte des grads ombres aux martigales. E effet, si o a ue suite (Z ) de variables aléatoires idépedates et idetiquemet distribuées selo ue loi admettat u momet d ordre deux, d espérace et de variace

CHAPITRE 22. MACHINES À SOUS 307 otées respectivemet µ et σ 2 > 0, alors (Y t ) = (Z t µ) est ue suite d accroissemets de martigale ; le compesateur prévisible associé au carré de la martigale est (V ) = (σ 2 ), il diverge p.s. vers. Le poit 2. du Théorème 22. assure alors que Y +... + Y = o(σ 2 ), soit exactemet Z t µ p.s. Preuve O ote, pour tout t, Y t = Y t V t I {t τ} où τ = if { : V > 0} est u temps d arrêt prévisible, puisque (V ) est prévisible. Aisi, {t τ} = {V t > 0} est F t mesurable. V t état égalemet F t mesurable et Y t état quat à elle F t mesurable, o a bie que Y t est F t mesurable ; de plus, [ Yt ] E I {t τ} Ft = E [ ] Y t F t I{t τ} = 0, V t V t ce qui prouve que (Y t [( ) 2 Yt E I {t τ} F t ] V t ) est ue suite d accroissemets de martigale. Par ailleurs, = [ Vt 2 E Y 2 t ] Ft I {t τ} = (V t V t )I {t τ}, de sorte que le compesateur prévisible du carré de la martigale associée à (Y t ) est (V ) défii, pour, par V = V 2 t (V t V t )I {t τ}. E utilisat pour l iégalité le caractère croissat de (V ), il viet que sur {τ < }, V = V τ I { τ} + V τ + + Vt t=τ+ Vt I {t τ+} V t Vt 2 V t x 2 dx = V τ + dx Vt 2 V τ x 2 dx = 2 V τ < E fait, τ < p.s., car V p.s. par hypothèse. Aisi, la suite (V ) est p.s. borée et par le poit. du théorème, Y t = Y t I {t τ} V t est p.s. ue série covergete. O utilise ecore ue fois le fait que τ < p.s. pour voir qu il suffit de motrer que V t=τ Y t 0 p.s. pour avoir M = o(v ) p.s.

308 STATISTIQUE EN ACTION Le résultat attedu procède de l applicatio du lemme de Kroecker (rappelé ci-dessous) aux suites de terme gééral respectivemet défii, pour k, par u k = Y k+τ /V k+τ et b k = V k+τ : V t=τ Y t = b τ+ τ+ k= b k u k 0 Remarque au passage. O rappelle le lemme de Kroecker ; il est par exemple utilisé das certaies preuves de la loi des grads ombres, voir [GS0, exercices du paragraphe 7.8]. p.s. Lemme 22.2 (Kroecker) Pour ue série covergete (u ) et pour tout suite croissate de réels strictemet positifs (b ) divergeat vers +, o a lim b k u k = 0. b k= Preuve O ote S = u +... + u pour (et S 0 = 0) ; par hypothèse, il existe u réel L tel que S L. Ue trasformatio d Abel doe b k u k = b b k= k= b k ( Sk S k ) = S b ( ) bk+ b k Sk L L = 0 par applicatio d ue versio gééralisée du lemme de Cesaro au secod terme (utilisat que b et que b k+ b k 0 pour tout k assez grad). k= 22..4 Objectif optimal et défiitio de la otio de boe stratégie Nous sommes maiteat e mesure de prouver les iégalités doat les possibilités et limitatios de toute stratégie das le cadre de jeux de badits. La preuve du corollaire 22.3 motre d ailleurs que même si l o observait tous les paiemets, et pas seulemet celui du bras que l o a utilisé, ces mêmes ecadremets tiedraiet ecore. Corollaire 22.3 La suite des gais moyes (G ) de toute stratégie de jeu vérifie mi { θ A, θ B} lim if G lim sup G max { θ A, θ B} p.s. O a doc désormais u critère ous permettat de dire quelles sot les stratégies que l o apprécie : celles dot le gai moye G atteit p.s., à la limite, la bore supérieure max { θ A, θ B} des iégalités du Corollaire 22.3. O a vu plus haut, au paragraphe 22..2, qu il y a a priori u peu de travail à fourir, et l étude des stratégies aïves qui suivet va cofirmer ce setimet. E attedat, ous prouvos le corollaire.

CHAPITRE 22. MACHINES À SOUS 309 Preuve O rappelle qu o ote X t = E C t t le gai obteu au tour t. Les accroissemets de martigale que l o va cosidérer sot doés par Y t = X t θ C t pour t (et Y 0 = 0). Ils sot (G t ) adaptés, où pour t, o défiit G t comme la tribu associée à la défiitio d ue stratégie, celle egedrée par les variables aléatoires G t = σ ( U, C, X,..., U t, C t, X t, U t+ ) (et G 0 est la tribu egedrée par U ) ; o pourra se reporter à la fi du paragraphe 22... O ote e particulier que C t+ est G t mesurable, pour tout t 0. O motre maiteat que (Y t ) est ue suite d accroissemets de martigale par rapport à (G t ) : pour t, E [ ] [ Y t G t = E X t θ C ] [ t Gt = E E C t t θ C ] t Gt [ [ = I {Ct =A} E E A t θ A Gt ] + I {Ct =B} E E B t θ B Gt ] = 0, où l o a utilisé, pour l égalité fiale, l idépedace de Et A et Et B par rapport à G t et le fait que leurs espéraces respectives sot θ A et θ B. O remarque, avec les otatios du texte stipulat que N A, N B sot le ombre de fois où les bras A et B ot été joués durat les premiers tours, que la martigale (M ) associée à (Y t ) est doée par ( M = G N A θ A + N B θ B). O calcule maiteat le compesateur prévisible de ( M 2 ) : pour tout, où l o a oté V = = [ E Y 2 t ] Gt Var (Ber ( θ C ) ) t G t = N A θ A( θ A) + N B θ B( θ B) σ 2, σ 2 = mi { θ A( θ A), θ B( θ B)} et où l o a utilisé que Y t suit, coditioellemet à C t, la loi d ue variable de Beroulli de paramètre θ C t recetrée par so espérace. O ote que σ > 0 puisque i θ A i θ B e sot égaux à 0 ou. Aisi, V et par loi des grads ombres pour les martigales, M = o(v ) p.s., de sorte que la majoratio V assure alors que M = o(). Cette comparaiso asymptotique se reformule exactemet comme G N A θ A + N B θ B 0 p.s. (22.2)

30 STATISTIQUE EN ACTION Les valeurs d adhérece de (G ) sot aisi celles de la suite des N Aθ A + N Bθ B ; comme elles sot écessairemet comprises etre mi { θ A, θ B} et max { θ A, θ B}, cela coclut cette preuve. 22..5 Ue stratégie aïve : la décisio simple selo les succès empiriques Elle repose sur la cosidératio d estimateurs des paramètres θ A et θ B. Ceux costruits au tour t sot otés θ t A et θ t B (parce qu ils e dépedet que des résultats des tours à t, i.e., sot G t mesurables). E particulier, o fixera des valeurs détermiistes pour θ 0 A et θ 0 B. O cosidère la stratégie de jeu suivate, défiie à partir d eux et d ue suite C, C 2,... de variables aléatoires idépedates et idetiquemet distribuées selo la loi uiforme sur {A, B} : pour t, A si θ t A > θ t B, C t = B si θ t A < θ t B, sio. C t Tout est das la défiitio des estimateurs : s ils sot bos (o eted par exemple leur cosistace), la stratégie le sera. S ils sot mauvais, la stratégie e remplira pas so cotrat, qui est d atteidre p.s. la bore supérieure éocée au Corollaire 22.3. Les estimateurs les plus immédiats, qui sot défiis par le choix d ue costate θ 0 selo θ C = N C X t I {Ct =C} si N C = I {Ct =C}, et θ C = θ 0 sio (22.3) pour C {A, B} doet lieu à la stratégie appelée de décisio selo les succès empiriques. Malheureusemet, ils e sot pas automatiquemet cosistats ici. O propose u exemple de mauvaise situatio pour le cas où θ A < θ B et θ 0 > 0, les autres cas état traités par des raisoemets tout à fait similaires. O se place das la réalisatio où au premier tour, o joue le bras A, qui obtiet u gai E A = 0, et où au secod tour o joue alors B, qui obtiet égalemet u gai E B = 0. Cette réalisatio arrive bie avec probabilité strictemet positive. Comme alors θ A 2 = θ B 2 = 0, o a ue probabilité /2 de jouer A au tour t = 3 et A a ue probabilité strictemet positive d obteir le gai E3 A =. Arrivé das cette situatio, o motre par récurrece qu o aura θ t A > 0 pour tout t 3 alors qu o e restera à θ t B = 0 et que B e sera plus jamais tiré.

CHAPITRE 22. MACHINES À SOUS 3 Cet exemple est u peu extrême au ses où les trois premiers tours de jeu peuvet tout détermier. Cela dit, même si l o s offre u ombre fii 2N, même arbitrairemet grad, de tours d exploratio, où l o tire chaque bras N fois (peu importe l ordre) pour costruire les estimateurs θ 2N A et θ 2N B, le même problème surviet, certes avec ue probabilité plus faible (expoetielle e N). E effet, même avec θ A < θ B, il arrive avec probabilité strictemet positive, ( ( θ A) ) N ( θ B ) N, que θ 2N B = 0 mais θ 2N A > 0, empêchat la stratégie de décisio par les succès empiriques, si l o utilise pour les tours postérieurs à 2N, de choisir à ouveau le bo bras B. Remarque au passage. Ces argumets peuvet être gééralisés à toute procédure statistique se fodat sur u ombre fii (même aléatoire) de tours pour calibrer des estimateurs avat de passer à la décisio par succès empiriques : il existe alors toujours ue probabilité strictemet positive (même si o peut la redre arbitrairemet petite) que (G ) e coverge pas vers max { θ A, θ B}. Le paragraphe 22..8 expliquera pour quel type de critère ue telle stratégie avec exploratio préalable est itéressate. Pour l istat, il est doc clair qu il faut cotiuer à affier os estimateurs, id est, à forcer au besoi la stratégie à jouer de temps e temps chacu des deux bras. O appelle cela l exploratio, par oppositio aux tours de jeu où l o utilise les estimateurs dispoibles pour choisir u bras qui ous semble bo : ce sot les tours d exploitatio. Il s agit de réaliser u compromis etre exploitatio et exploratio. 22..6 Ue stratégie plus élaborée : la décisio selo les succès empiriques avec excitatio Le maquemet das la stratégie précédete est qu ue exploratio suffisate était pas garatie. Celle-ci est quatifiée mathématiquemet par les coditios N A p.s. et N B p.s. Ces coditios assuret e retour la cosistace forte des estimateurs θ A et θ B itroduits e (22.3). L éocé et la preuve du résultat ci-dessous sot évidemmet valables autat pour B que pour A. p.s., l estimateur θ A du paramètre θ A est fortemet cosis- Lemme 22.4 Lorsque N A tat. Preuve O cosidère la suite de variables aléatoires ( Yt A ), défiie, pour t, par Y A t = ( X t θ C t ) I {Ct =A} ; elle forme u accroissemet de martigale par rapport à (G t ), comme o peut le voir par u argumet similaire à celui du paragraphe 22..4. Il est immédiat que la martigale ( M A ) associée est défiie par = N ( θ A A θ A) M A

32 STATISTIQUE EN ACTION pour. Or, o a l équivalece suivate pour la cosistace forte désirée : θ A θ A p.s. M A = o( N A ) p.s. O veut appliquer la loi des grads ombres pour les martigales. Le compesateur prévisible de ( (M A)2) est ( V A ) doé par V A = N A θ A( θ A) pour, comme o peut le voir par des calculs similaires, ecore ue fois, à ceux du paragraphe 22..4. Or, par hypothèse d excitatio, N A p.s., la loi des grads ombres s applique doc ; M A = o(n A ) livre la cosistace forte désirée. Il s agit doc de faire e sorte que N A, N B p.s. d ue part, ce qu o appelle l exploratio ; et d utiliser à bo esciet les estimateurs fortemet cosistats qui e résultet, ce qui forme l exploitatio. Pour réaliser ce compromis etre exploratio et exploitatio, o recourt presque à la même stratégie que celle décrite plus haut (décisio simple selo les succès empiriques), à ceci près qu o la force de temps à temps à explorer, e lui faisat choisir u bras qu elle avait pas décidé de jouer. Ces istats sot doés par ue suite (c k ) strictemet croissate d etiers dits istats d exploratio. Avec les défiitios (22.3), et o cosidérat toujours la même suite (C t ) qu au paragraphe précédet, o défiit, pour t, C t = A B A B C t si θ t A > θ t B si θ t A < θ t B si θ t A = θ t B si t = c 2k pour k N si t = c 2k pour k N aux autres tours t. Il est clair que le terme gééral c k e peut être proportioel à k, sas quoi la stratégie résultate tire trop souvet le mauvais bras pour atteidre p.s. le gai moye souhaité. Aisi, o impose que c k k ; le résultat ci-dessous motre que c est égalemet ue coditio suffisate pour ue telle covergece. L excitatio corrige de la sorte les erremets de la stratégie simple de décisio selo les succès empiriques et o peut se sortir des pièges das lesquels o était tombé das les premiers tours. Théorème 22.5 Lorsque les istats d exploratio sot tels que c k k, la suite (G ) des gais moyes de la stratégie de décisio selo les succès empiriques avec excitatio coverge vers le gai maximal, G max { θ A, θ B} p.s.

CHAPITRE 22. MACHINES À SOUS 33 Preuve Grâce à l excitatio, (c k ) état strictemet croissate, o a directemet que N A, N B, d où la cosistace des estimateurs, par applicatio du Lemme 22.4. O suppose par exemple que θ A > θ B : o a idiqué au paragraphe 22..2 que le cas θ A = θ B était trivial au ses où toute stratégie atteit l objectif, et le cas θ A < θ B est aturellemet symétrique au cas que ous allos traiter. O va prouver ici qu à partir d u certai rag, le bras B est plus joué que par suite de l excitatio. La cosistace des estimateurs sigifie exactemet que pour tout ε > 0 (pris tel que ε < θ A θ B ), il existe ue variable aléatoire T 0 fiie p.s. telle que pour tout t T 0, θ B t θ B + ε 2 θ A ε 2 θ A t ; (22.4) aisi, das les tours de jeu où la stratégie emploie ue décisio selo les succès empiriques, B est pas jouée à partir du rag T 0. Or N A est, aux temps d exploratio près, le ombre de succès de A, et doc N A I { } ˆθ t A > ˆθ I t B {c2k }. Par (22.4), tadis que k= I { } T 0 + ˆθ t A > ˆθ t B k= k= p.s., I {c2k } I {ck } = max { k N : c k } ot. = c (), où c est appelée u iverse gééralisé de l applicatio c : N N défiissat la suite (c k ). Puisque c k k par hypothèse, il viet c (). Au fial, N A I { } ˆθ t A > ˆθ t B I {c2k } k= p.s., soit, par ecadremet, N A/ p.s. Puis, N B/ = N A / 0 p.s. Or, o a vu e (22.2) que G N Aθ A + N Bθ B 0 p.s. ; soit ici, G θ A p.s. Remarque au passage. O a idiqué au paragraphe 22..2 pourquoi le cas θ A = θ B était iitéressat : toutes les stratégies sot équivaletes. O peut malgré tout se demader si, pour la stratégie de décisio selo les succès empiriques avec excitatio N A 2 et N B 2 p.s.

34 STATISTIQUE EN ACTION 0.425 0.42 0.45 0.4 Gai moye 0.405 0.4 0.395 d = k 2 k Expl. puis d k = k 2 d k = 2 k d = k 3 k 0.39 50 00 50 200 250 300 Pas de temps FIGURE 22.. Performaces moyees (sur 000 simulatios) de quatre suites d excitatio pour θ A = 0.45 et θ B = 0.30. das ce cas. C est évidemmet faux pour la stratégie simple, toujours à cause des mêmes pièges das lesquels o peut tomber e temps fii. Il est pas évidet, mais pas impossible o plus, que ce soit vrai e dépit de l excitatio, parce que l échatilloage des bras déped de leurs performaces passées. Le choix précis de la suite des istats d excitatio (c k ) est assez libre, hormis la coditio c k k. O verra au paragraphe 22..7 que des coditios supplémetaires du type c k k 2+α, pour u α > 0 libremet choisi par le joueur, permettet d obteir des itervalles de cofiace sur le gai. Cela e ous doe doc pas vraimet la meilleure valeur (i même la meilleure forme) de cette suite (c k ). O a essayé d e comparer quelques-ues par simulatios et o e reporte le résultat e figure 22.. O a pris θ A = 0.45 et θ B = 0.30 (o explique le choix de ces valeurs au paragraphe 22..9 : elles coduiset aux figures 22.3, qui sot plus satisfaisates que les figures 22.4). Les quatre suites d exploratio sot de la forme (c k ) k = (d, d +, d 2, d 2 +,...),

CHAPITRE 22. MACHINES À SOUS 35 c est-à-dire que dès que l o explore le premier bras, o explore aussi le secod au tour suivat. O cosidère des d k doés par k 2 (e poitillés) ; par (d, d 2 d 3, d 4 ) = (, 3, 5, 7) et d k = 8 + (k 4) 2 pour k 5 (e trait plei), qui met e œuvre ue exploratio prélimiaire de quatre coups sur chacu des bras avat de passer à ue excitatio mois fréquete ; par d k = 2 k (e traits mixtes poitillés poits) ; et efi, d k = k 3 (e poits). Pour chaque suite, o relace 000 fois la stratégie par excitatio et o calcule le gai moye à chaque pas de temps sur ces 000 itératios ; c est ce derier que l o a tracé à la figure 22.. Là ecore, o justifie ce lissage par répétitio au paragraphe 22..9. O retiet essetiellemet de cette étude rapide que les quatre choix sot très comparables (l axe des ordoées a ue graduatio resserrée). A cause de la coditio supplémetaire sur (c k ) itroduite au paragraphe 22..7 et parce que l o étudiera d autres stratégies par exploratio préalable ci-dessous, o fixe pour les simulatios suivates le choix d k = 2 k et le choix résultat (c k ) = (2, 3, 4, 5, 8, 9,...). O ote qu ici c k 2 k/2. 22..7 Itervalles de cofiace sur les paramètres O veut établir la formule suivate de ormalité asymptotique pour (G ), afi d e déduire des itervalles de cofiace sur le paiemet moye maximal max { θ A, θ B}. Théorème 22.6 Lorsque les istats d exploratio sot tels que c k k 2, la suite (G ) des gais moyes de la stratégie de décisio selo les succès empiriques avec excitatio est asymptotiquemet ormale, ( G θ ) N ( 0, θ ( θ ) ) où θ = max { θ A, θ B}. Ce résultat de ormalité asymptotique est bie sûr à comparer au résultat de cosistace procuré par le Théorème 22.5. La coditio c k k 2 est équivalete à ce que c (), et est assurée par exemple lorsque c k k 2+α pour α > 0. Preuve Ici, comme au paragraphe précédet, le résultat est clair lorsque θ A = θ B (par théorème de la limite cetrale ordiaire, pour des observatios idépedates et idetiquemet distribuées) ; et par symétrie, il suffit de le prouver das le cas où θ A > θ B. Le raisoemet est le suivat : à partir d u certai rag, B est plus joué que du fait de l exploratio, dot o peut faire e sorte qu elle soit suffisammet peu fréquete. G est aisi à peu de choses près ue moyee de paiemets du bras A, et ue telle moyee est asymptotiquemet ormale. Plus précisémet, le théorème de la limite cetrale assure que or, G ( E A t ) ( Et A θ A N 0, θ A( θ A)) ; N B T 0 + c () 0 p.s.,

36 STATISTIQUE EN ACTION 0.8 Variace (obs. o seuillées) 0.922 Variace (obs. seuillées) 0.266 0.7 0.6 0.5 0.4 0.3 0.2 0. 0 4 3 2 0 2 FIGURE 22.2. Histogramme des valeurs prises par ( G θ A) sur 0 000 simulatios pour = 300, θ A = 0.45 et θ B = 0.30. où l o a majoré N B e utilisat les résultats du paragraphe précédet, à savoir que B est plus joué après le rag T 0 (fii p.s.) que par exploratio, et où la covergece vers 0 procède du choix, par hypothèse, d ue suite d istats d exploratio telle que c (). Le lemme de Slutzky assure alors que ( G θ A) ( N 0, θ A( θ A)), ce qui coclut la preuve du cas où θ A > θ B. O illustre cette covergece par l histogramme de la figure 22.2. O remarque que l approximatio de la distributio de la statistique d itérêt, ( G θ A), est pas ecore tout à fait gaussiee. La distributio semble plutôt bimodale, avec deux modes gaussies ; le mode domiat est cetré e 0, et la variace des observatios correspodates (celles plus grades que.5) est de 0.266, raisoablemet proche doc de la valeur théorique θ A ( θ A ) = 0.2475. L autre mode cocere les chemis tels que le gai moye G est ecore loi de θ A (qui est le meilleur paramètre). La masse de ce mode ted vers 0, mais letemet,

CHAPITRE 22. MACHINES À SOUS 37 visiblemet, puisqu au rag = 300, la simulatio motre qu u peu mois de 5 % de la masse de probabilité y est ecore située. O e peut déduire directemet du Théorème 22.6 u itervalle de cofiace sur θ = max {θ A, θ B }, car la variace asymptotique σ 2 = θ ( θ ) déped du paramètre θ à estimer. O est exactemet das la situatio du paragraphe 3.4. Ue première méthode reposerait sur la majoratio de σ 2 par /4. Cepedat, comme o dispose d u estimateur (fortemet) cosistat de σ 2, e la persoe de G ( G ), il est plus efficace de procéder par réijectio («plug-i»), comme au paragraphe 3.4.2 : ue secode applicatio du lemme de Slutzky livre ( G θ ) N (0, ), G ( G ) d où l o tire l u itervalle de cofiace asymptotique de iveau α sur θ I, α = [ ] G ( G ) G ( G ) G z α/2, G + z α/2 où z α/2 désige, ici ecore, le quatile d ordre α/2 de la loi ormale stadard., Arbitrage etre qualité d estimatio et obtetio d u bo paiemet moye Pour avoir u itervalle de cofiace de taille proportioelle à / sur le paramètre θ = mi { θ A, θ B}, il s agirait que le mauvais bras soit actioé liéairemet souvet ; mais cela empêcherait le gai moye de tedre p.s. vers θ = max { θ A, θ B}. Il y a, là ecore, ue alterative das la problématique : soit avoir u bo paiemet moye G et estimer efficacemet max { θ A, θ B} mais pas mi { θ A, θ B}, soit arriver à estimer efficacemet et simultaémet θ A et θ B. C est ue questio d objectifs, tous e sot pas cociliables. Das otre cadre, où l o s itéresse surtout au paiemet moye, les itervalles de cofiace sur θ serot doc plus larges que ceux sur θ. Les théorèmes de la limite cetrale existet pour les martigales, mais o voudrait éviter de recourir à eux ; aussi va-t-o se coteter de costruire l itervalle de cofiace uiquemet sur les istats d exploratio. Pour détermier s il faut utiliser l exploratio de A ou celle de B, o se fode sur le classemet courat etre θ A et θ B : asymptotiquemet, ils sot classés das l ordre correct parce que ce sot des estimateurs cosistats, I { } ˆθ A> ˆθ I{θ B A >θ B } p.s. O ote c A () = max {k N : c 2k+ } et c B () = max { k N : c 2k } le ombre d istats d exploratio pour A et B respectivemet, jusqu au tour ; évidemmet, c () = c A () + c (). Par ue applicatio de la loi forte des grads ombres ordiaire B

38 STATISTIQUE EN ACTION (les istats d exploratio état choisis de maière détermiiste), o a l estimatio cosistate g = c A () X t I { ˆθ A ˆθ } + B c B () X t I { ˆθ A> ˆθ } θ B p.s. t:c 2t t:c 2t+ De même, par applicatio du théorème de la limite cetrale ordiaire sur les temps d exploratio et du lemme de Slutzky, c A () c A () + c t : c 2t+ B () X t θ I { ˆθ A ˆθ B c B () t : c 2t } X t θ I { ˆθ A> ˆθ } N ( 0, θ B ( θ ) ). Par la même méthode de réijectio que précédemmet, e utilisat la cosistace de (g ) pour l estimatio de θ, o e tire u itervalle de cofiace asymptotique sur θ de iveau α : [ ] g z α/2 g ( g ) mi { c A (), c B ()}, g + z α/2 g ( g ) mi { c A (), c B ()} Il est maiteat temps de comparer la largeur de cet itervalle de cofiace à celle de I, α, qui est proportioelle à /. Comme c A () c B (), o a c () 2 mi { c A (), c B ()} c (), 2 et la largeur est ici de l ordre de / c () au lieu de /. Das les cas cosidérés plus haut, le choix de d k k 2+α mèe à ue vitesse de l ordre de /(4+2α), et d k 2 k à / log. 22..8 A propos des critères d évaluatio : uiformité, critère e espérace, critère d ( ε) optimalité Il existe pas de otio uiverselle de boe stratégie ; le choix du critère pour détermier la qualité d ue stratégie est crucial. Itérêt d u critère uiforme Le texte itroduit u critère de covergece presque sûre vers la meilleure moyee possible : est coveable toute stratégie telle que, pour tous θ A et θ B das ]0, [, le gai moye G coverge p.s. vers max {θ A, θ B }, ce que l o peut reformuler de maière compacte par if θ A, θ B lim if { G max { θ A, θ B}} 0..

CHAPITRE 22. MACHINES À SOUS 39 Voici ue petite histoire, u paradoxe, pour illustrer, sur u cas simple (sur u jeu semblable aux jeux de badits e u coup), la écessité de raisoer pour tous les paramètres possibles θ A et θ B. Remarque au passage. U statisticie est l heureux destiataire d u lot tiré X uiformémet au hasard das {m, M}, où m < M sot deux réels strictemet positifs qui lui sot icous et qu il a aucu moye d estimer. Au momet de recevoir X, o lui demade s il veut échager X cotre l autre valeur X (id est, X = m si X = M et X = M si X = m). Evidemmet, la valeur X e lui est pas révélée et comme m et M lui sot icous, o e voit pas très bie ce qu il peut faire. Toujours est-il qu o ote Y so choix, qui déped de X et évetuellemet d ue radomisatio auxiliaire idépedate de X et X. Quelle est ue boe faço de faire? Il est clair qu e l absece de toute iformatio comme c est le cas ici, o s attedrait à ce que E[Y ] soit égal à E[X] = (M + m)/2 quelle que soit la stratégie Y. Cepedat, o suppose disposer ici d u aléa V de loi E(), la loi expoetielle de paramètre (ou, comme le motrera la preuve, toute loi à desité strictemet positive sur R + ). O coserve alors X si et seulemet si X V, et l o obtiet doc fialemet Y = X I {X V } + X I {X<V }. Ce gai est tel que P{Y = M} > P{X = M} = /2 ; e effet, par disjoctio d évéemets puis idépedace de X et V, P {Y = M} = P {X = M et V M} + P {X = m et V > m} = P {X = M} P {V M} + P {X = m} P {V > m} = ( ) P {V M} + P {V > m} 2 = ( ) + P {m < V M} > = P {X = M}. 2 2 Notos que cette probabilité peut être arbitrairemet proche de, selo la masse que la loi de V accorde à ]m, M] ; et par coséquet, l espérace de gai E[Y ], égale à m P {Y = m}+ M P {Y = M}, peut être arbitrairemet proche de M. Il semble doc qu o gage toujours à se fixer u seuil (aléatoire) et à chager de lot selo ce seuil! Remarquos que c est vrai même pour u seuil détermiiste v : lorsque m et M sot soit tous deux plus petits, soit tous deux plus grads que v, alors l espérace de gai de Y est celle de X ; et das le cas où m < v M, cette espérace est M. Cela ous met sur la voie de la résolutio du paradoxe. C est u paradoxe de super-efficacité, à rapprocher de l exemple fameux de Hodge [vdv98, exemple 8.]. S il est vrai que E[Y ] (M + m)/2 > 0 pour tous m et M avec le seuil aléatoire, il e demeure pas mois que das u ses miimax, o e peut pas mieux faire que la stratégie se cotetat de X, sup Y if 0<m<M { E [ Y ] M + m } = 0 2 où le supremum est sur toutes les stratégies Y possibles, évetuellemet radomisées, et l ifimum, sur tous les choix possibles des couples m et M. O voit ici que requérir des comportemets uiformes e m et M permet de e pas cosidérer des amélioratios trop locales, qui e valet que par chace (elles dépedet de m et M, que l o e cotrôle pas).

320 STATISTIQUE EN ACTION Critère e espérace O défiit doc le critère de qualité e espérace e preat égalemet e compte ue certaie uiformité : est boe, e espérace, toute stratégie telle que { if lim if E [ ] { G max θ A, θ B}} 0. θ A, θ B Ce critère est équivalet à la covergece e probabilité de (G ) vers max { θ A, θ B}, pour tout θ A et θ B. Remarque au passage. E effet, o procède de même que pour les équivaleces discutées à la Défiitio Théorème 20.2. Au paragraphe 22..4, o a exhibé ue certaie martigale, d espérace ulle : l espérace du gai de toute stratégie vérifie E [ [ ] N A G = E θ A + N B θ B ]. O a aisi E [ ] { G max θ A, θ B} si et seulemet si [ E max { θ A, θ B} ( N A θ A + N B θ B )] 0, si et seulemet si (s agissat d ue variable aléatoire positive) max { θ A, θ B} ( N A θ A + N B θ B ) P 0, soit, e faisat appel à (22.2), si et seulemet si G P max { θ A, θ B}. Covergeces e probabilité et presque sûre état très liées (par des argumets de soussuites), ce ouveau critère e espérace est aisi très loi d être réellemet plus facile à satisfaire que celui du texte. Par exemple, les stratégies aïves des paragraphes 22..5 et 22..2 e covieet pas o plus das ce cadre. Critère d ( ε) optimalité Ue modificatio ous permettat e revache de cosidérer et justifier la stratégie avec exploratio préalable sur 2N tours décrite à la fi du paragraphe 22..5 est de fixer u seuil d erreur ε > 0 et de requérir que pour tous θ A et θ B, lim if E[ G ] ( ε) max { θ A, θ B} + ε mi { θ A, θ B}. Ue boe stratégie pour ε fixé (choisi par le statisticie) repose alors par exemple sur l idetificatio e u temps fii (évetuellemet aléatoire) et avec probabilité au mois ε du bo bras.

CHAPITRE 22. MACHINES À SOUS 32 O étudie das u premier temps les capacités d idetificatio du bo bras par la stratégie qui explore uiformémet les bras et utilise, pour t, les choix C 2t = A et C 2t = B. Pour tout, les estimateurs θ 2 A et θ 2 B sot alors des moyees empiriques d u ombre détermiiste,, de variables aléatoires idépedates et idetiquemet distribuées. C est le cas égalemet de la différece θ 2 A θ 2 B. O va costruire à partir d elles des itervalles de cofiace (de iveaux suffisammet grads) sur la différece etre les paramètres, = θ A θ B. Si pour u certai rag (aléatoire) T, la valeur 0 appartiet plus à u de ces itervalles, alors pour tout t 2T +, o jouera C t = A si θ 2T A > θ 2T B et C t = B si θ 2T A < θ 2T B. O appellera cette stratégie la stratégie par exploratio préalable. Il reste à expliquer commet fixer T e foctio du paramètre ε que l o se fixe. Il faut le predre suffisammet grad pour qu avec probabilité ε, les estimateurs θ T A et θ T B soiet classés das le même ordre que θ A et θ B. Or, par iégalité de Hoeffdig (pour variables aléatoires idépedates et idetiquemet distribuées, Lemme 3.7), appliquée successivemet aux Y t et aux Y t, où pour t, Y t = X 2t X 2t θ A + θ B et Y t = Y t, et ue uio de deux évéemets, o a que pour tout, avec probabilité au mois ε (avec ε > 0), [ = θ A θ B ot. = θ A θ B 2 2 log 2 ] ε, θ A θ B + 2 2 log 2 ε. Il e suffit pas de predre ε = ε, il faut être u peu plus précautioeux ; cela viet essetiellemet du fait que les et T e sot pas idépedats. O choisit, pour tout, ue probabilité ε = 6ε/(π 2 2 ) : pour tout, avec probabilité au mois 6ε/(π 2 2 ), = θ A θ B = θ A θ B 2 2 log π 2 2 3ε, θ A θ B + 2 2 log π 2 2. 3ε O défiit alors T comme le temps d arrêt costruit sur ces ouveaux itervalles : T = if { : 0 } ; T est fii presque sûremet dès que θ A = θ B, comme o peut le voir par loi des grads ombres. O a égalemet P { } T = P { et T = } P { } 6ε π 2 2 = ε. Par costructio, 0 T (de maière détermiiste), ce qui sigifie que T est iclus soit das R + (auquel cas, l algorithme jouera uiquemet C t = A pour t 2T + ), soit das

322 STATISTIQUE EN ACTION R (auquel cas, o joue B pour le reste des tours de jeu). O choisit le meilleur bras pour le reste du jeu dès qu il est effectivemet le cas que T, ce qui arrive avec probabilité au mois ε. Au fial, la stratégie cosidérée obtiet ue espérace de gai moye au mois égale, asymptotiquemet, à lim if E [ G ] ( ε) max { θ A, θ B} + ε mi { θ A, θ B}, ce qui motre que le critère d ( ε) approximatio est vérifié. Remarquos que ce critère modifié, s il mèe à des stratégies de décisio plus ituitives, est dagereux das certaies situatios. La phase préparatoire d exploratio peut faire jouer u grad ombre de fois le mauvais bras au début (ce qui e pose pas de problème ici puisque ce ombre, même grad, est fii et que le critère est asymptotique). E revache, das les applicatios de la vie réelle comme, par exemple, la comparaiso de deux traitemets médicaux, o peut et doit, pour des raisos d éthique et d égalité etre les patiets, utiliser autat que faire se peut et aussi rapidemet que possible le bo traitemet. (Au lieu de raisoer e termes de machies à sous et gais, o raisoe ici e termes de patiets et de guérisos.) O a alors pas evie d utiliser ue stratégie e deux phases, exploratio itesive puis exploitatio des résultats de l observatio, mais d exploiter immédiatemet le peu d iformatio dot o dispose, comme o le faisait ci-dessus pour les stratégies dot le gai moye covergeait presque sûremet vers celui du meilleur bras. Le raisoemet précédet repose sur l idetificatio, avec grade probabilité, du meilleur bras. O pourrait peser que la théorie des tests serait utile ; il e est rie, car ceux-ci e diset pas vraimet commet choisir etre deux hypothèses possibles, mais mettet seulemet e exergue les situatios où les observatios cotrediset gravemet l hypothèse testée (l hypothèse ulle), auquel cas o passe alors à l autre hypothèse, dite alterative. Ici, les deux hypothèses sot > 0 et < 0, et les tests cosidérés seraiet des tests de coformité sur la moyee, avec pour statistiques les θ 2 A θ 2 B. Il se pourrait que des tests sur la moyee choisissat chacu ue des hypothèses comme hypothèse ulle la coservet tous deux (comme idiqué à la remarque 4.8). Evidemmet, lorsque le ombre d observatios augmete, ce est plus le cas pour de bos tests (puissats) ; mais alors, cela reviet à voir quad les itervalles de cofiace de θ A et θ B sot disjoits, ce qui est exactemet ce que l o a fait (de maière o-asymptotique) ci-dessus, avec l iégalité de Hoeffdig. E résumé, le cadre des tests d hypothèses apporte rie ici, à cause de la dissymétrie de traitemet etre les hypothèses : pour les mettre e œuvre, il faudrait avoir ue raiso subjective de suspecter que l u des deux paramètres θ A et θ B est plus grad que l autre, ce qui est pas le cas face à deux machies à sous d apparece idetique (mais qui pourrait l être das l exemple des traitemets médicaux). 22..9 Performaces pratiques de ciq stratégies et demie O compare ici les performaces des stratégies suivates, la stratégie aïve N d exploitatio pure du paragraphe 22..5 ;

CHAPITRE 22. MACHINES À SOUS 323 cette même stratégie, précédée de 20 coups d exploratio pure, 0 pour chaque bras, o alterés : c est la demi-stratégie, que l o appelle EN ; la stratégie avec excitatio X (utilisat, pour k, les temps d exploratio c 2k = 2 k et c 2k = 2 k + comme idiqué au paragraphe 22..6) ; la stratégie E d exploratio préalable du paragraphe 22..8, pour ε = 0.0 ; la stratégie U dite ucb («upper cofidece boud») das la littérature de l appretissage ; ue stratégie S du type «problème du scruti». Il ous faut ecore simplemet préciser les défiitios des stratégies U et S (et les heuristiques associées). La stratégie U joue chacu des deux bras aux deux premiers tours, puis choisit, pour t 3, le bras C {A, B} maximisat (avec les otatios précédetes) θ C t + 2 log(t ) N C t (et u bras au hasard e cas d égalité). Les quatités e jeu peuvet être iterprétées comme les bores supérieures de certais itervalles de cofiace sur les paramètres θ A et θ B. Cet algorithme est coçu pour miimiser ue quatité appelée regret cumulé et o admet ici qu il vérifie e particulier le critère de covergece e espérace du paragraphe 22..8. La défiitio de la stratégie S ressemble quat à elle à celle de la stratégie aïve, excepté que lorsqu u bras obtiet u gai ul, o le péalise pour cela, e retirat à ses gais cumulés. Plus précisémet, C est tiré uiformémet sur {A, B}, et pour t 2, A C t = B C t si r t A > r t B, si r t A < r t B, sio, où C t est tiré uiformémet sur {A, B}, où r A t et r B t sot les estimateurs suivats de r A = 2θ A et r B = 2θ B : r t A = t Nt A (2 X s )I {Cs =A} lorsque Nt A, s= et r A t = 0 sio (et de même pour B). O trasforme ici les lois de Beroulli (à support {0, }) e lois de Rademacher (à support {, }). C est d ailleurs comme cela que l o peut implémeter e pratique l algorithme S à partir de N : e le laçat sur les paiemets trasformés 2 X t. L algorithme S évite certais écueils de N : il e peut tomber das certais pièges, par exemple celui où le mauvais bras est joué au premier tour, obtiet u paiemet de, et est joué à jamais ; avec ue probabilité raisoable, les péalités vot s accumuler suffisammet ici pour que le bo bras soit de ouveau joué. Cela dit, il e semble pas garati que tous les pièges soiet évités, leur probabilité est simplemet moidre. O l appelle algorithme du scruti car sa formulatio rappelle le problème du scruti (voir par exemple [FF98, paragraphe 4.5] pour ue descriptio de ce derier).

324 STATISTIQUE EN ACTION 0.5 0.43 Gais moyes 0.45 0.4 0.35 0.3 U N S E EN X Gais moyes 0.42 0.4 0.4 0.39 0.38 EN X S U N 0.25 0.37 E 0.2 0 50 00 50 200 250 300 Pas de temps 0.36 0 50 00 50 200 250 300 Pas de temps 0.43 0.43 EN EN 0.42 X 0.42 X Gais moyes 0.4 0.4 0.39 S U N Gais moyes 0.4 0.4 0.39 N S U 0.38 E 0.38 E 0.37 0 50 00 50 200 250 300 Pas de temps 0.37 0 50 00 50 200 250 300 Pas de temps FIGURE 22.3. Performaces moyees des six algorithmes, e foctio du temps ; paramètres θ A = 0.45 et θ B = 0.30. E haut : sur simulatio (à gauche), 00 simulatios (à droite) ; e bas : sur 000 simulatios (à gauche), 0 000 simulatios (à droite). E résumé, o dispose de stratégies dot o sait ou pese qu elles ot ue probabilité strictemet positive d échouer (que leur gai moye e coverge pas vers l espérace du meilleur bras, i p.s. i même e espérace) : N, EN et S. Ue assure ue covergece e espérace, il s agit de U ; et E assure ue telle covergece à u facteur ε près. Quat à X, c est celle qui dispose de la meilleure garatie théorique, so gai moye covergeat presque sûremet vers l espérace du meilleur bras. Il s agit maiteat de voir si les performaces pratiques sot liées ou o à ces garaties théoriques différetes. Bie que toutes ces stratégies s étedet plus ou mois aturellemet au cas de plusieurs bras, ous e doos de résultats expérimetaux que pour le cas de deux bras. La figure 22.3 motre les performaces moyees des six algorithmes pour le couple de paramètres ( θ A, θ B) = (0.45, 0.30) et pour les tours de jeu 2 à 300. Pour chacu des graphiques de performaces, o a tiré m réalisatios des suites de paiemets, pour des tailles m {, 00, 000, 0 000}, lacé les algorithmes dessus, et représeté la moyee (sur les m simulatios) des moyees mobiles des gais G ; c est-à-dire, que l o a réalisé ue appro