Mater MVA: Apprentiage par renforcement Lecture: 3 Introduction aux algorithme de bandit Profeeur: Rémi Muno http://reearcher.lille.inria.fr/ muno/mater-mva/ Référence bibliographique: Peter Auer, Nicolo Cea-Bianchi, and Paul Ficher. Finite-time analyi of the multi-armed bandit problem. Machine Learning, 47(2/3):235-256, 2002. Auer, Cea-Bianchi, Freund, Schapire. The nontochatic multi-armed bandit problem. 2003. T. L. Lai and Herbert Robbin. Aymptotically efficient adaptive allocation rule. Advance in Applied Mathematic, 6:4-22, 985. Le bandit tochatique à K bra Conidéron K bra (action, choix) défini par de ditribution (ν k ) kk à valeur dan [0, ], de loi inconnue. A chaque intant, l agent choiit un bra I t {,..., K} et oberve une récompene x t ν It, réaliation indépendante (de récompene paée) générée elon la loi du bra I t. Son objectif et de maximier la omme de récompene qu il reçoit, en epérance. Noton µ k = E X νk [X] l epérance de récompene de chaque bra, et µ = max k µ k la valeur moyenne du meilleur bra. Si l agent connaiait le loi, il choiirait alor le meilleur bra à chaque intant et obtiendrait une récompene moyenne µ. Comme il ne connait pa le loi initialement, il doit explorer le différent bra pour acquérir de l information (exploration) qui lui ervira enuite pour agir optimalement (exploitation). Cela illutre le compromi exploration-exploitation. Pour évaluer la performance d une tratégie donnée, on va définir à quelle vitee cette tratégie permet d atteindre un taux de récompene moyen optimal. Pour cela on définit le regret cumulé à l intant n: R n = nµ x t, qui repréente la différence en récompene cumulée entre ce qu il a obtenu et ce qu il aurait pu obtenir en moyenne il avait joué optimalement dè le début. On intéree à définir de tratégie qui ont un petit regret cumulé moyen ER n. Remarquon que ER n = nµ E µ It = E T k (n)(µ µ k ) = E T k (n) k, où k = µ µ k et le gap entre le bra optimal et le bra k, et où T k (n) = n {I t = k} et le nombre de foi que le bra k a été tiré juqu à l intant n. Aini un bon algorithme de bandit devra tirer peu ouvent le bra ou-optimaux.
2 Introduction aux algorithme de bandit. Stratégie UCB La tratégie UCB (pour Upper Confidence Bound) [Auer et. al, 2002] conite à choiir le bra: 2 log t I t = arg max B t,tk (t )(k), avec B t, (k) = ˆµ k, +, k où ˆµ k, = i= x k,i et la moyenne empirique de récompene reçue en ayant tiré le bra k (i.e., x k,i et la i-ème récompene reçue en ayant tiré le bra k). Il agit d une tratégie dite optimite dan l incertain. La valeur B t,tk (t )(k) repréente une borne upérieure de µ k en forte probabilité. Aini on choiit le bra qui erait le meilleur i le valeur de bra étaient le meilleure poible (en forte proba), achant ce qui a été obvervé. En effet, rappelon l inégalité de Chernoff-Hoeffding: Soient X i [0, ] variable aléatoire indépendante de moyenne µ = EX i. Alor P ( i= X i µ ɛ ) e 2ɛ2, et P ( X i µ ɛ ) e 2ɛ2. () i= Donc pour t fixé, 2 log t P(ˆµ k, + µ k ) e 4 log(t) = t 4. (2) Et aui: 2 log t P(ˆµ k, µ k ) e 4 log(t) = t 4. (3) Propoition. Chaque bra ou-optimal k et tiré en moyenne au plu ET k (n) 8 log n foi. Donc le regret cumulé moyen d UCB et borné elon ER n = k k ET k (n) 8 + π2 3 k: k >0 log n k Ce réultat établit que le regret cumulé moyen et logarithmique en n. + K π2 3. Proof. Intuition de la preuve: uppoon qu à l intant t le moyenne empirique de bra ont dan leur intervalle de confiance repectif, c et à dire 2 log t (a) (b) 2 log t µ k ˆµ k, µ k +. (4) pour = T k (t ). Alor oit k un bra ou-optimal et k un bra optimal. Si le bra k et tiré à l intant t, cela ignifie que B t,tk (t )(k) B t,tk (t )(k ), oit 2 log t 2 log t ˆµ k, + ˆµ k, +, (5) pour = T k (t ) et 2 log t = T k (t ) donc d aprè (4), µ k + 2 µ, c et à dire 8 log t.
Introduction aux algorithme de bandit 3 Maintenant, pour tout entier u, nou avon: T k (n) u + {I t = k; T k (t) > u} u + t=u+ t=u+ { : u < t, : t, B t, (k) B t, (k )} (6) Maintenant, d aprè le raionnement précédent, l évènement {B t, (k) B t, (k )} (c et à dire (5)) implique que 8 log t ou bien qu une de deux inégalité (a) ou (b) dan (4) n et pa atifaite. Donc en choiiant u = 8 log(n), on en déduit que (a) ou (b) n et pa atifaite. Mai d aprè (2), l inégalité (a) n et pa atifaite avec une probabilité t 4, et d aprè (3) l inégalité (b) n et pa vraie avec une probabilité t 4. En prenant l epérance de deux coté de (6), E[T k (n)] 8 log(n) 8 log(n) + t=u+ + π2 3 [ t =u+ t 4 + t = t 4] Propoition 2. Nou avon la borne uniforme ur le regret Proof. Par Cauchy-Schwarz, ER n 8Kn(log n + π2 3 ) ER n = k k ETk (n) ET k (n) ET k(n) ET k (n) k k 8Kn(log n + π2 3 )..2 Borne inférieure Nou avon la borne inférieure aymptotique (pour une clae de ditribution aez riche) [Lai et Robbin, 985] fonction de ditribution: ET k (n) lim up n log n KL(ν k ν ), avec la ditance de Kullback Leibler KL(ν ν ) = dν log(dν/dν ). Donc ER n = Ω(log n). Nou avon aui une borne inférieure minimax non-aymptotique (voir par exemple [Cea-Bianchi et Lugoi, Prediction, Learning, and Game, 2006]): inf up R n = Ω( nk). Algo Problème
4 Introduction aux algorithme de bandit.3 Amélioration Utiliation de la variance empirique pour affiner le intervalle de confiance [Audibert, Muno, Szepevari, Ue of variance etimation in the multi-armed bandit problem, 2008]. Borne minimax améliorée [Audibert, Bubeck, Minimax Policie for Adverarial and Stochatic Bandit, 2009]. On obtient la borne inf Kn. Application au online learning (claification ou régreion en-ligne) avec information partielle..4 Extenion Il exite de nombreue extenion au problème du bandit tochatique à K bra: Bandit dan un MDP [Jakch, Ortner, Auer. Near-optimal regret bound for reinforcement learning, 200]. Stratégie d exploration optimite dan l incertain (baée ur UCB) pour explorer un Proceu de déciion markovien. > poibilité de mini-projet Bandit avec information contextuelle. A chaque intant t, on oberve une information x t X et on prend une déciion a t A. La récompene et une foncion de a t et de x t. On e compare à une clae de tratégie π : X A. Bandit avec un nombre de bra dénombrable. [Wang, Audibert, Muno, Algorithm for inifinitely many-armed bandit, 2008]. Chaque nouveau bra a une probabilité ɛ β d être ɛ-optimal. Compromi entre exploration - exploitation - découverte. > poibilité de mini-projet Bandit linéaire [Dani, Haye, Kakade, Stochatic Linear Optimization under Bandit Feedback, 2008] On choiit un bra x t X R d. La récompene moyenne et une fonction linéaire r t = x t α, où α R d et un paramètre inconnu. On e compare à max x X x α. > poibilité de mini-projet Bandit en epace métrique [Kleinberg, Slivkin, Upfal, Multi-armed bandit in metric pace, 2008], [Bubeck, Muno, Stoltz, Szepevari, Online optimization in X-armed bandit, 2008]. On choiit un bra x t X dan un epace métrique. La récompene moyenne f(x t ) et uppoée Lipchitz. On e compare à up x X f(x). Il agit d un problème d optimiation online. Bandit hiérarchique Algorithme UCT [Koci et Szepevari. Bandit baed monte-carlo planning., 2006], BAST [Coquelin et Muno, Bandit algorithm for tree earch, 2007], HOO [Bubeck, Muno, Stoltz, Szepevari, Online optimization in X-armed bandit, 2008]. Application au jeu de go (programme MoGo) [Gelly, Wang, Muno, Teytaud. Modification of UCT with pattern in monte-carlo go, 2006]. Utiliation d algorithme de bandit de manière hiérarchique pour effectuer une recherche dan de grand arbre. > poibilité de mini-projet 2 Le bandit contre un adveraire Ici le récompene ne ont plu néceairement i.i.d. mai choiie arbitrairement par un adveraire. Dan ce ca, on ne peut plu epérer faire aui bien que i on avait connu à l avance le récompene (car l adveraire n a aucune envie de e laier dévoiler). Mai on peut comparer le performance obtenue par notre algorithme aux performance obtenue par une clae de tratégie de comparaion, et tenter de faire prequ aui bien que la meilleure tratégie dan cette clae.
Introduction aux algorithme de bandit 5 Nou pouvon ditinguer 2 type de problème elon l information reçue à chaque round: information parfaite ( full information ) ou information partielle ( bandit information ). Voici un modèle de bandit contre un adveraire: On dipoe de K bra. A chaque intant t =..., n, L adveraire choii de récompene x t (),..., x t (K) (uppoée à valeur dan [0, ], an le dévoiler au joueur Le joueur choiit un bra I t Dan le ca information parfaite, le joueur oberve le récompene de tou le bra x t (k), pour k =..., K. Dan le ca information partielle, le joueur n oberve que la récompene du bra choii: x t (I t ). La clae de tratégie de comparaion et l enemble de tratégie contante. Aini le regret par rapport à la tratégie contante k et défini elon R n (k) = x t (k) x t (I t ). La tratégie du joueur pouvant être aléatoire, on conidère le regret moyen pour la meilleure tratégie contante: R n = max ER n(k), kk et l on déire contruire un algorithme qui oit bon pour toute équence de récompene fournie par l adveraire, i.e. tel que up x,...,x n R n oit petit. 2. Information complete Conidéron l algorithme EWF (Exponentially Weighted Forecater): On initialie l algorithme avec w (k) = pour tout k =,..., n. A chaque intant t =,..., n, le joueur choiit le bra I t p t, où p t (k) = où > 0 et un paramètre de l algorithme. w t (k) = e P t = x(k), w t(k) P K i= w t(i), avec Propoition 3. Soit. On a Aini, en choiiant = 8 log K n, il vient R n log K + n 8. n log K R n. 8
6 Introduction aux algorithme de bandit Preuve. Noton = K w k(t). On a + = w k (t)e x t(k) = p k (t)e xt(k) [ = E I pt e x ] t(i) = e E[x t(k)] E I pt [ e (x t (I) E J pt [x t (J)]) ] e E[xt(I)] e 2 /8, par le lemme de Hoeffding Donc Maintenant log W n+ W E [ n x t (I t ) ] + n 2 8. log W n+ W = log e P n xt(k) log K x t (k) log K, pour n importe quel k =,..., n. Aini pour tout k, on a x t (k) E [ n x t (I t ) ] log K + n 8. Remarque: Borne inf du même ordre: R n = Ω( n log K). Dépendance logarithmique en K Poibilité d avoir un algorithme anytime (qui ne néceite pa la connaiance de l horizon temporel n) en choiiant un pa t = O( log K t ). Prédiction à bae d expert [Lugoi and Cea-Bianchi, 2006]. 2.2 Information partielle Conidéron l algorithme EXP3 (Exploration-Exploitation uing Exponential weight): > 0 et β > 0 ont deux paramètre de l algorithme. On initialie l algorithme avec w (k) = pour tout k =,..., n. A chaque intant t =,..., n, le joueur choiit le bra I t p t, où w t (k) p t (k) = ( β) K i= w t(i) + β K, avec où x (k) = x (k) p (k) {I = k}. w t (k) = e P t = x (k),
Introduction aux algorithme de bandit 7 Propoition 4. Soit, et β = K. On a Aini, en choiiant = log K (e )nk, il vient R n log K + (e )nk. R n 2.63 nk log K. Preuve. Noton = K w k(t). Remarquon que E I p [ x (k)] = K i= p (i) x (k) p (k) {i = k} = x (k), que E I p [ x (I )] = K i= p (i) x (i) p (i) K. On a + = w k (t)e x t(k) = p k (t) β/k e x t(k) β p k (t) β/k ( + x t (k) + (e 2) 2 x t (k) 2 ), β puique x t (k) K/β =, et e x + x + (e 2)x 2 pour x. Mai on a aui + + β log + log W n+ W log W n+ W = log β β p k (t)( x t (k) + (e 2) 2 x t (k) 2 ), p k (t)( x t (k) + (e 2) 2 x t (k) 2 ), p k (t)( x t (k) + (e 2) 2 x t (k) 2 ). e P n x t(k) log K x t (k) log K, pour n importe quel k =,..., n. l algorithme), on a pour tout k, En prenant l epérance (par rapport à la randomiation interne de [ E ( β) x t (k) i= [ n E x t (k) ] p i (t) x t (i) ] x t (I t ) E[R n (k)] log K ( β) log K βn + log K [ n + (e 2)E + (e 2)nK + (e )nk p k (t) x t (k) 2] Remarque: Borne inf R n 20 nk (voir [Auer et al., 2002]).
8 Introduction aux algorithme de bandit Algorithme INF [Audibert et Bubeck 2009] obtient un regret O( nk). Exp3 donne un regret en epérance en O( nk log K) mai le regret peut être grand ur certaine réaliation de l algorithme. En effet le récompene repondérée x t (k) ont d ordre /p t (k) ce qui peut être (en négligeant la dépendance en K) aui grand que n pour le valeur de β conidérée, ce qui entraîne un regret dont la variance et en n 3/2 et aini le regret peut être en n 3/4. On ne peut donc pa obtenir de regret en n avec forte probabilité. Cependant en modifiant légèrement l algorithme afin d augmenter l exploration (en uretimant le récompene reçue), on obtient un algorithme EXP3.P [Auer et al., 2002] qui dépend d un paramètre δ > 0 tel que max kk x t (k) x t (I t ) = O( nk log(kn/δ)). (7) 2.3 Equilibre de Nah Conider a 2-player zero-um repeated game: A and B play action: or 2 imultaneouly, and receive the reward (for A): A \ B 2 2 0 2 - (A like conenu, B like conflict) Nah equilibrium: (mixed) trategy (p, q ) for both player, uch that no player ha incentive for changing unilaterally hi own trategy: for any p and q, r A (p, q ) r A (p, q ) and r B (p, q) r B (p, q ). Ar Here the Nah i: A play with probability p A = /2, B play with probability p B = /4. B=2 2 A Now, let A and B be bandit algorithm, aiming at minimizing their regret, i.e. for player A: R n (A) def = max r A (a, B t ) r A (A t, B t ). and that of B accordingly. a {,2} In the cae of zero-um game (i.e. r A = r B ), the value of the game V i defined a V = inf up q [0,] p [0,] r A (p, q) = up inf r A(p, q) q [0,] p [0,] B=
Introduction aux algorithme de bandit 9 (minimax Theorem). Note that there may exit everal Nah equilibria (p, q ) but their value r A (p, q ) i unique and equal V. Indeed: V = up p [0,] inf r A(p, q) q [0,] inf r A(p, q) = r A (p, q ) = up r A (p, q ) q [0,] p [0,] inf r A(p, q) = V. q [0,] Propoition 5. If both player perform a (Hannan) conitent regret-minimization trategy (i.e. R n (A)/n 0 and R n (B)/n 0), then the average value of the received reward converge to the value of the game: lim n n r A (A t, B t ) = V. In addition, the empirical frequencie of choen action of both player converge to a Nah equilibrium. (Note that EXP3.P i conitent!). Preuve. Write p n def A = n n A and p n def B = n n B the empirical frequencie of played action. Write r A (p, q) def = E A p,b Q r A (A, B). Player A play a Hannan-conitent regret-minimization trategy, thu lim up max r A (a, B t ) r A (A t, B t ) n a {,2} n n 0 lim up up r A (p, B t ) r A (A t, B t ) n n n 0 p [0,] ince p r A (p, q) i a linear mapping. Thu V = inf q up r A (p, q) lim inf p n n r A (A t, B t ). Now, ince player B doe the ame, we alo have that lim up r A (A t, B t ) up inf n n r A(p, q) = V. p q Thu lim n n n r A(A t, B t ) = V. We alo have that the empirical joint ditribution (p q) n (a, b) = n n {A t = a, B t = b} converge to the et of Nah equilibria {(p, q )} ince the et of joint ditribution i compact (ince we conider a finite number of action) and any (p, q ) uch that r A (p, q ) = V i a Nah equilibrium: r A (p, q ) inf r A(p, q) V up r A (p, q ) r A (p, q ). q [0,] p [0,] Example: Texa Hold em Poker In the 2-player Poker game, the Nah equilibrium i intereting (zero-um game) A policy: information et (my card + board + pot) probabilitie over deciion (check, raie, fold) Space of policie i huge!
0 Introduction aux algorithme de bandit Idea: Approximate the Nah equilibrium by uing bandit algorithm aigned to each information et. Thi method provided the world bet Texa Hold em Poker program for 2-player with pot-limit [Zinkevitch et al., 2007]. Extenion: In non-zero um game or in game with more than 2 player, there are general convergence reult toward correlated equilibrium [Foter and Vohra, 997].