Présenaion groupe de ravail Sofiane Saadane jeudi 23 mai 2013 Résumé L aricle sur lequel on ravaille [LP09] présene un problème de bandi à deux bras comporan une pénalié. Nous commencerons par présener l algorihme e nous monrerons que sous des hypohèses (peu resricive) l algorihme converge oujours vers le bras opimal. Dans un second emps, nous éudierons une renormalisaion de l algorihme qui condui à une convergence éroie vers un processus de Markov disconinue (PDMP). Table des maières 1 Eude de la convergence de l algorihme du bandi pénalisé 2 1.1 Noions sur l approximaion sochasique....................... 2 1.2 Propriéés de l algorihme............................... 4 1.3 Cas de la pénalié consane.............................. 4 1.4 Cas où la pénalié end vers 0............................. 5 1.5 Convergence de l algorihme renormalisé....................... 6 1
Inroducion Le problème du bandi Le problème du bandi à deux bras es rès connu des personnes fréquenan les casinos. En effe, un bandi es une machine comporan un bras que l on acionne en espéran un gain. Le problème que l on éudie es différen au sens où on a le choix enre deux bras A,B e à chaque éape on choisi d acionner un des deux bras selon une ceraine dynamique. Reprenons le conexe de [LP09] qui perme de bien comprendre le sens de l algorihme. On présene le premier algorihme où la pénalié n éai pas présene puis le nouvel algorihme. Une personne P gère une ceraine somme d argen en bourse qu elle confie à deux raders A e B, ou les jours P choisi d évaluer A ou B e cee évaluaion modifie le pourcenage d argen géré par les raders. Noons X n le pourcenage géré par A au emps n (X n [0, 1]). Nous supposerons que P choisi le rader à évaluer au hasard de sore que la probabilié que A soi évaluer soi égale à X n afin d évaluer le rader responsable de la par la plus imporane. Si le rader es bien évalué alors sa par augmene de γ n fois la par de l aure rader, e sinon rien ne se passe. La dynamique de X n es modélisée comme sui X n+1 = X n + γ n+1 ((1 X n )1 {Un+1 X n},a n+1 X n 1 {Un+1>X n},b n+1 ) X 0 = x [0, 1] où (U n ) n 1 es une suie de variables aléaoires i.i.d de loi uniforme sur [0,1], A n (resp.b n ) es l événemen "le rader A (resp. B) es bien évalué au emps n". Nous supposerons que P(A n ) = p A, P(B n ) = p B e on supposera que les événemens A n, B n e la suie (U n ) n 1 son indépendans. Pour améliorer ce algorihme déjà éudié, on va ajouer une pénalié en cas de mauvaise performance du rader. Plus précisémen si le rader rae son évaluaion au emps n alors sa par diminue par muliplicaion par un faceur γ n ρ n. Ceci nous condui à l algorihme du "bandi à deux bras pénalisé" X n+1 = X n + γ n+1 ((1 X n )1 {Un+1 X n},a n+1 X n 1 {Un+1>X n},b n+1 ) γ n ρ n (X n 1 {Un+1 X n},a c n+1 (1 X n)1 {Un+1>X n},b c n+1 ) où la noaion A c désigne le complémenaire de l événemen A. Nous préciserons les condiions sur les faceurs γ n, ρ n plus ard. 1 Eude de la convergence de l algorihme du bandi pénalisé 1.1 Noions sur l approximaion sochasique Nous nous appuierons sur le héorème suivan valable pour une suie X n à valeurs dans un compac I. 2
Théorème 1 a) Théorème de Kushner e Clark : soi g : I R de sore que I soi sable par Id + g. Considérons le schéma sochasique suivan défini sur I X n+1 = X n + γ n+1 (g(x n+1 ) + R n+1 ) X 0 I où (γ n ) n 0 es une suie à valeurs dans [0,1] elle que γ n 0, γ n =. Posons N() = min{n : γ 1 +... + γ n+1 > }. Si pour ou T > 0 max N() n N(+T ) n k=n()+1 γ k R k 0 p.s (1) Soi x un zéro de g aracif dans I e g(i) un domaine d aracion. Alors sur l événemen {X n visie une infinié de fois un compac de g(i)} on a X n x p.s. b) La condiion d Hoeffding : si ( R n ) n 0 es une suie bornée d incrémens de maringale, si (γ n ) n 1 es décroissane e η n 1 e γn < pour ou η > 0 alors (1) es vérifiée. La condiion de Hoeffding perme de saisfaire la condiion (1) du Théorème de Kushner e Clark mais il exise une condiion dans le cas où R n = M n + κ(x n ), M n éan une maringale e κ une foncion bornée. Proposiion 2 (Méivier-Prioure) On considère M n une maringale de carré inégrable ainsi qu une suie de pas γ n vérifian γ n = alors si γne( 2 2 n) < (1) la condiion (1) es saisfaie. n 1 Dans la suie nous uiliserons de domaine d aracion e de poins sables, considérons l ODE suivane où h es une foncion coninue Noons z une soluion de l équaion. dz d = h(z()) Définiion 3 ou > 0. Définiion 4 son saisfaies : Un ensemble I es di invarian pour l ODE si z(0) I alors z() I pour Soi z un zéro de h. I es un domaine d aracion pour z si les propriéés -I es invarian pour l ODE. -si z(0) I alors lim z() = z. -Pour ou ɛ > 0, il exise δ > 0 el que pour ou z(0) I el que z(0) z < δ implique z() z < ɛ pour ou > 0. z es alors di asympoiquemen sable. 3
Proposiion 5 Soi I un ensemble invarian pour l ODE e z un zéro de h apparenan à I. On suppose qu il exise V une foncion de classe C 1 elle que V (z ) = 0, e V (z) > 0 pour ou z z I es borné ou V quand z. V (z)h(z) > 0 pour ou z I, z z. Alors I es un domaine d aracion pour z. 1.2 Propriéés de l algorihme Dans la suie nous supposerons que (γ n ) n 1 es décroissane, posiive sricemen inférieure à 1 (condiions classiques pour un algorihme sochasique) e vérifie la condiion de Hoeffding. On supposera que (ρ n ) n 1 es une suie posiive elle que γ n ρ n < 1. Nous noerons (F n ) n 0 la filraion naurelle associée aux variables aléaoires (U n, 1 An, 1 Bn ) n 0 e noons π = p A p B Avec ces nouvelles noaions nous parvenons à la formulaion suivane de l algorihme X n+1 = X n + γ n+1 (πh(x n ) + ρ n+1 κ(x n )) + γ n+1 M n+1 (2) où les foncions h e κ son définies par h(x) = x(1 x), κ(x) = (1 p A )x 2 + (1 p B )(1 x) 2 M n+1 = M n+1 M n e (M n ) n 0 es une maringale issue de 0 e M n+1 = (1 X n )1 {Un+1 X n},a n+1 X n 1 {Un+1>X n},b n+1 πh(x n ) ρ n+1 (X n 1 {Un+1 X n},a c n+1 (1 X n)1 {Un+1>X n},b c n+1 κ(x n)) Noons que M n+1 es borné. 1.3 Cas de la pénalié consane Il es naurel, dans un premier emps, de considérer le cas où n 1, ρ n = ρ avec 0 < ρ 1. On a alors où X n+1 = X n + γ n+1 (h ρ (X n ) + M n+1 ) h ρ (x) = πh(x) + ρκ(x), 0 x 1 En noan que h ρ (0) = ρ(1 p B ) > 0 e h ρ (1) = ρ(1 p A ) < 0, on monre qu il exise un unique x ρ el que h ρ (x ρ ) = 0. Un calcul immédia monre que 4
x ρ = π 2ρ(1 p B) + π 2 + 4ρ 2 (1 p B )(1 p A ) 2π(1 ρ) 1 p B = π = 0, ou ρ = 1 (1 p A ) + (1 p B π 0, ρ 1 En pariculier, si π = 0 on a x ρ = 1/2 pour oue valeur de ρ. On a aussi h ρ (1/2) = π(1 ρ)/4 0 de sore que x ρ > 1/2 si π > 0 Soi x la soluion de l ODE dx d = h ρ(x). Si x(0) [0, x ρ ] alors x es croissane e end vers x ρ. Si x(0) [x ρ, 1] alors x es décroissane e end vers x ρ. L inervalle [0,1] es donc un domaine d aracion pour x ρ. Le héorème de Kushner e Clark perme de monrer Proposiion 6 Supposons ρ n = ρ avec 0 < ρ 1, alors X n x ρ p.s quand n. Une inerpréaion naurelle de ce résula es que l algorihme fini oujours par désigner le meilleur rader mais il n affece jamais la gesion du fond à un seul rader. 1.4 Cas où la pénalié end vers 0 Proposiion 7 {0, 1}. Supposons que ρ n n 0. La suie (X n ) n 1 converge p.s vers X Preuve Un moyen d améliorer la preuve de cee aricle es donné par Méivier e Prioure perme de se passer de la condiion de Hoeffding. Le rese de la preuve repose sur la condiion imposée à la pénalié. A parir de mainenan nous supposerons π > 0 i.e p A > p B, nous allons voir que sous de faibles hypohèses l algorihme ne se rompe pas. Proposiion 8 Supposons que ρ n n 0. Si la suie Supposons que (γ n /ρ n ) n 1 es bornéé e n 1 ρ nγ n = e si π > 0 alors (X n ) n 1 converge p.s vers 1. Preuve Comme h 0 d après (2) on a X n X 0 + Comme les M k son bornées, on a n γ k M k 2 2 C n γ k ρ k κ(x k 1 ) + n n γ k M k γk 2 C sup(γ k /ρ k ) k 1 5 n γ k ρ k
avec C > 0. Comme n γ nρ n = d où n L 2 lim γ k M k n n γ = 0 kρ k Sur {X = 0} lim sup n n γ k M k n γ kρ k 0 ce qui enraîne, oujours sur {X = 0} n lim γ kρ k κ(x k 1 ) n n γ = κ(0) > 0 kρ k lim sup n X n n γ kρ k > 0 On doi donc avoir nécessairemen P(X = 0) = 0. 1.5 Convergence de l algorihme renormalisé En plus des condiions sur la suie (γ n ) n 1 nous supposerons que avec g > 0. γ 2 n γ 2 n 1 = o(γ 2 n), γ n ρ n = g + o(γ 2 n) (3) Nous allons éudier la suie Reprenan (1) on a Y n = 1 X n ρ n 1 X n+1 = 1 X n γ n+1 (πh(x n ) ρ n+1 κ(x n )) γ n+1 M n+1 1 X n+1 = 1 X n γ n+1 πh(x n ) κ(x n ) γ n+1 M n+1 ρ n+1 ρ n+1 ρ n+1 ρ n+1 ce que nous écrirons Y n+1 = Y n (1 + γ n+1 ɛ n γ n+1 π n X n ) γ n+1 κ(x n ) γ n+1 ρ n+1 M n+1 (4) avec ɛ n = ρ n ) e π n = sous les hypohèses faies en débu de paragraphe (Y n ) n 1 es endue( voir lemme 1 e remarque 2). Nous allons voir que la suie converge en loi. ρn 1 γ n+1 ( ρ n+1 1 ρn ρ n+1 π. Noons que ɛ n 0 e π n π. Il es monré que 6
Théorème 9 Sous (3), (Y n ) n 1 converge éroiemen vers l unique mesure saionnaire du processus de Markov défini sur [0, ) don le généraeur infiniésimal L es donné par f(y + g) f(y) Lf(y) = p B y + (1 p A p A y)f (y) g pour oue foncion f de classe C 1 e à suppor compac sur [0, ). La méhode pour prouver ce héorème es classique pour un algorihme sochasique. Nous éudierons pour cela la suie de processus coninue Y (n) = (Y (n) ) 0 don nous monrerons qu elle converge vers un processus de Markov de généraeur infiniésimal L. Ensuie nous prouverons que ce processus a une unique mesure invariane qui es la limie de (Y n ) n 1. La suie Y (n) es définie comme sui. Soi n N e > 0 posons où Y (n) = Y N(n,) N(n, ) = min{m n m γ k+1 > }, de sore que N(n, 0) = n pour [0, γ n+1 ( e pour m n + 1, N(n, ) = m si e seulemen si m k=n γ k+1 < m+1 k=n γ k+1. Théorème 10 Sous les hypohèses du héorème précéden, (Y (n) ) 0 converge éroiemen vers un processus de Markov de généraeur infiniésimal L. La preuve de ce héorème se fai en deux éapes : nous commençons par éablir la propriéé de ension puis nous caracérisons la limie via un problème de maringale. Les preuves ne seron pas déaillés mais nous donnerons la démarche pour éablir les résulas, le leceur inéressé rouvera des complémens dans [LP09]. k=n Tension En uilisan (4) on obien la décomposiion suivane de Y (n) Y (n) = Y n + B (n) + M (n) (5) avec e B (n) = N(n,) γ k {Y k 1 (π k 1 X k 1 ɛ k 1 ) + κ(x k 1 )} M (n) = N(n,) γ k ρ k M k Le processus (M (n) ) 0 es une maringale de carré inégrable par rappor à sa filraion naurelle (F (n) ) 0 = (F N(n,) ) 0 e on a 7
N(n,) < M (n) > = ( γ k ) 2 E( Mk 2 F k 1 ). ρ k Nous savons que (Y n ) es endue. Pour monrer que M n es endue il suffi de monrer que (< M (n) >) es C-endue. Commençons par quelques noions qui serviron dans les preuves. Définiion 11 Un processus X n es di C-endu si il es endu e si oue limie (au sens de la convergence éroie) d une sous-suie de X n converge vers un processus coninu. Théorème 12 Soi M n une maringale de carré inégrable e < M (n) > son croche associé. Pour que M n soi C-endue il suffi que < M (n) > le soi. Définiion 13 Soi X e Y deux processus. On di que X es L-dominé (L pour Lenglar à qui l on doi cee définiion) par Y si E(X T ) E(Y T ) pour ou emps d arrê T borné. Théorème 14 Le crière d Aldous pour la ension : Soi X n un processus el que -pour ou n N, ɛ > 0 il exise N e K > 0 els que n N, P (sup X n > K) ɛ n -pour ou n N, ɛ > 0 on a lim θ 0 lim sup n sup P (sup X S,T F n N :S T S+θ S n XT n ɛ) = 0 n désigne l ensemble des emps d arrês bornés par N rel- Alors la suie (X n ) es endue. (FN n aivemen à la filraion de X). On rouvera dans [JS03] des complémens à ces résulas. On déduira de la proposiion qui sui la ension de Y (n). Proposiion 15 Sous (3), les suies (B (n) ) e < M (n) > son C-endues. Preuve Soien 0 s, en uilisan le fai que κ es bornée on a e de même B (n) B s (n) N(n,) k=n(n,s)+1 γ k (a + by k 1 ) < M (n) > < M (n) > s N(n,) k=n(n,s)+1 γ k (a + b Y k 1 ) où a, b, a, b son des consanes posiives. Ces inégaliés monren que les processus B (n) e < M (n) > son L-dominés par les processus X (n) = N(n,) γ k e Z (n) = N(n,) k=n(n,s)+1 γ ky k 1. Il nous rese seulemen à monrer que X (n) e Z (n) son C-endus. Pour X (n) c es immédia car 8
convergean vers le processus déerminise. Il fau simplemen monrer que Z (n). On a pour 0 s Z (n) Z s (n) ( sup Y j ) n j N(n,) N(n,) k=n(n,s)+1 γ k ( s + γ N(n,s)+1 ) sup Y j n j N(n,) ( s + γ n+1 ) sup Y j n j N(n,) on a uilisé le fai que N(n,) γ k e N(n,s) γ k s e la monoonie de la suie (γ n ) n 1. pour conclure on uilise le lemme 6 de [LP09] qui donne la propriéé de ension. Idenificaion de la limie L défini précédemmen. Le lemme qui sui fai apparaîre le généraeur infiniésimal Lemme 16 Soi f foncion de classe C 1 e à suppor compac dans [0, ). On a avec P lim n Z n = 0. E(f(Y n+1 ) f(y n ) F n ) = γ n+1 Lf(Y n ) + γ n+1 Z n Nous pouvons nous ourner vers la preuve du héorème. Preuve On sai que la suie (Y (n) ) n 1 es endue. D aure par le lemme précéden nous perme d écrire pour f de classe C 1 e à suppor compac dans [0, ), f(y n ) = f(y 0 ) + n γ k (Lf(Y k 1 ) + Z k 1 ) + M n où M n es une maringale e P lim n Z n = 0. D où où M (n) f(y (n) ) f(y (n) 0 ) = M (n) + N(n,) γ k (Lf(Y k 1 ) + Z k 1 ) = M N(n,) M n, on vérifie aisémen que c es une F (n) -maringale. On a aussi 0 N(n,) Lf(Y s (n) )ds = En conclusion, on a obenu f(y (n) ) f(y (n) 0 ) γ k Lf(Y k 1 ) + ( 0 N(n,) γ k )Lf(Y (n) ) Lf(Y s (n) )ds = M (n) + R (n) 9
où P lim n R (n) = 0. On a monré que oue limie de la suie (Y (n) ) n 1 es soluion du problème de maringale associé à L. Le héorème suivan va permere d éudier la mesure invariane e de démonrer les héorèmes 9 e 10. La mesure invariane Théorème 17 Le processus de Markov (Y () ) 0, sur [0, ), de généraeur L adme une unique probabilié invariane ν qui saisfai la propriéé suivane : pour ou compac K [0, ) e oue foncion bornée f on a, lim sup E y (f(y ) fdν = 0 (6) y K Nous ne donnerons que la preuve du héorème 9 qui repose sur (7). Preuve héorème 9 Fixons > 0. Pour n assez grand, on a γ n < n γ k de sore qu il exise n {1,..., n 1} el que Soi n = n k= n+1 γ k. On a n γ k < n k= n+1 k= n γ k 0 n < γ n, Y ( n) n = Y n comme es fixé la condiion n k= n+1 γ k implique lim n n = e lim n n =. Soi ɛ > 0, il exise un compac K el que oue limie µ de (Y n ) n N, µ(k c ) < ɛ. En uilisan (7), on choisi el que sup E y (f(y ) fdν < ɛ y K Considérons une sous-suie (Y nk ) k N de (Y n ) n N qui converge éroiemen vers (Y ( ) ) une soluion du problème de maringale associé à L. Le processus (Y ( ) ) éan quasi-coninu à gauche ( rappelons qu un processus X cadlag es quasi-coninu à gauche si X T = X T X T = 0 p.s sur {T < } pour ou emps d arrê T ) on a lim E(f(Y n k nk ) = E(Y ( ) ) pour oue foncion f bornée. D où lim E(f(Y nk ) = E(Y ( ) ). Noons qu en an que 0 K) < ɛ. Mainenan on a limie au sens de la convergence éroie de Y n, Y ( ) 0 vérifie P(Y ( ) E(f(Y nk ) en noan L(Y ( ) 0 ) = µ, fdν = E(f(Y nk ) E(Y ( ) ) + E(Y ( ) ) fdν 10
lim sup E(f(Y nk ) k fdν E(Y ( ) = ) fdν E y (f(y ))dµ(y) ɛ + 2 f µ(k c ) ɛ(1 + 2 f ) fdν 9. ceci prouve que ν es l unique limie de la suie (Y n ) n N, ceci ermine la preuve du héorème 11