Introduction aux algorithmes de bandit



Documents pareils
La lettre. La Gestion des filiales dans une PME : Bonnes Pratiques et Pièges à éviter. Implantations à l étranger : Alternatives à la création

Voyez la réponse à cette question dans ce chapitre.

Cap Maths. Guide de l enseignant. Nouveaux programmes. cycle. Roland CHARNAY Professeur de mathématiques en IUFM

Le paiement de votre parking maintenant par SMS

Progressons vers l internet de demain

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Trouver des sources de capital

Principe de symétrisation pour la construction d un test adaptatif

EPFL TP n 3 Essai oedomètrique. Moncef Radi Sehaqui Hamza - Nguyen Ha-Phong - Ilias Nafaï Weil Florian

Apprentissage par renforcement (1a/3)

Projet. Courbe de Taux. Daniel HERLEMONT 1

Caractérisation de l interface Si/SiO 2 par mesure C(V)

Ventilation à la demande

Prudence, Epargne et Risques de Soins de Santé Christophe Courbage

Produire moins, manger mieux!

Le compte épargne temps

Instructions Mozilla Thunderbird Page 1

RETIRER DE L ARGENT DE VOTRE SOCIÉTÉ

GAME CONTENTS CONTENU DU JEU OBJECT OF THE GAME BUT DU JEU

Dualité dans les espaces de Lebesgue et mesures de Radon finies

3 Approximation de solutions d équations

TP6 : ALIMENTATION A DECOUPAGE : HACHEUR SERIE ET CONVERTISSEUR STATIQUE ABAISSEUR DE TENSION

Moments des variables aléatoires réelles

Parcours Hydrologie-Hydrogéologie. Apport des méthodes d infiltrométrie à la compréhension de l hydrodynamique de la zone non-saturée des sols.

Intégration et probabilités TD1 Espaces mesurés Corrigé

4. Martingales à temps discret

N 320 EDITORIAL INDUSTRIE PLUS LOIN QUE NOS DROITS. PUBLICITE page 8. Adresse du site de la FTM-CGT.

Suites numériques 4. 1 Autres recettes pour calculer les limites

FIMA, 7 juillet 2005

Rappels sur les suites - Algorithme

Édito. Mon Université Numérique. Édito. L Université Numérique Paris Île-de-France Les formations UNPIdF Mobilité

Conception de convertisseurs DC/DC à base de MEMS

Table des matières. Introduction. 1

unenfant Avoir en préservant ses droits

Cadeaux d affaires, cadeaux d entreprises, objets publicitaires - services@france-cadeaux.fr

Dossier. Vtech, leader en France. Lexibook, leader en Europe

Modélisation d une section de poutre fissurée en flexion

Mon Université Numérique. Édito L Université Numérique Paris Île-de-France Les formations UNPIdF Mobilité

Intégration et probabilités TD1 Espaces mesurés

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Probabilités sur un univers fini

Le passé composé. C'est le passé! Tout ça c'est du passé! That's the past! All that's in the past!

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Impact de l éolien sur le réseau de transport et la qualité de l énergie

Guide de configuration d'une classe

Chapitre 3. Mesures stationnaires. et théorèmes de convergence

Équations non linéaires

FÉDÉRATION INTERNATIONALE DE NATATION Diving

Édito. Mon Université Numérique. Édito. L Université Numérique Paris Île-de-France Les formations UNPIdF Mobilité

Distribution Uniforme Probabilité de Laplace Dénombrements Les Paris. Chapitre 2 Le calcul des probabilités

COMMUNE DE FELLETIN. P R O C E S V E R B A L D U C O N S E I L M U N I C I P A L Séance ordinaire du jeudi 8 septembre 2011

Mon Université Numérique. Édito L Université Numérique Paris Île-de-France Les formations UNPIdF Mobilité

Introduction à l approche bootstrap

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Suites numériques 3. 1 Convergence et limite d une suite

La direction des solidarités Se loger à Moissy

Image d un intervalle par une fonction continue

Probabilités. Rappel : trois exemples. Exemple 2 : On dispose d un dé truqué. On sait que : p(1) = p(2) =1/6 ; p(3) = 1/3 p(4) = p(5) =1/12

calls.paris-neuroscience.fr Tutoriel pour Candidatures en ligne *** Online Applications Tutorial

Construction de l'intégrale de Lebesgue

Simulation de variables aléatoires

Cours d analyse numérique SMI-S4

N à voir Date moi Année Nom_source Type_source Auteur Titre Url_bdd Langue_ Pays Texte_original Texte_traduit. Computers

PROBABILITES ET STATISTIQUE I&II

Grégoire de Lassence. Copyright 2006, SAS Institute Inc. All rights reserved.

* très facile ** facile *** difficulté moyenne **** difficile ***** très difficile I : Incontournable T : pour travailler et mémoriser le cours

Édito. Mon Université Numérique. Édito. L Université Numérique Paris Île-de-France Les formations UNPIdF Mobilité

Analyse fonctionnelle Théorie des représentations du groupe quantique compact libre O(n) Teodor Banica Résumé - On trouve, pour chaque n 2, la classe

Mon Université Numérique. Édito L Université Numérique Paris Île-de-France Les formations UNPIdF Mobilité

s 1 un skatepark public 100 pages pour arrêter d improviser Une publication de l EuroSIMA / préface de Tony Hawk

Eléments de statistique

Texte Agrégation limitée par diffusion interne

How to Login to Career Page

Surveillance de Scripts LUA et de réception d EVENT. avec LoriotPro Extended & Broadcast Edition

Édito. Mon Université Numérique. Édito L Université Numérique Paris Île-de-France Les formations UNPIdF Mobilité

Méthodes de Simulation

Théorie des Jeux Et ses Applications

SERVICE PUBLIC DE WALLONIE

Paxton. ins Net2 desktop reader USB

Gestion des prestations Volontaire

Post-processing of multimodel hydrological forecasts for the Baskatong catchment

RULE 5 - SERVICE OF DOCUMENTS RÈGLE 5 SIGNIFICATION DE DOCUMENTS. Rule 5 / Règle 5

Gestion des services IT Foundation basée sur la norme ISO/CIE 20000

Laboratory accredited by the French Home Office (official gazette date February 5 th, 1959, modified) Valid five years from August 27 th, 2013

Règles et paramètres d'exploitation de Caparmor 2 au 11/12/2009. Pôle de Calcul Intensif pour la mer, 11 Decembre 2009

Limites finies en un point

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

Espérance conditionnelle

Travaux dirigés d introduction aux Probabilités

2013 IIHF WORLD WOMEN S HOCKEY CHAMPIONSHIP

Frequently Asked Questions

FCM 2015 ANNUAL CONFERENCE AND TRADE SHOW Terms and Conditions for Delegates and Companions Shaw Convention Centre, Edmonton, AB June 5 8, 2015

Guide d installation Deco Drain inc. DD200

Méthodes de quadrature. Polytech Paris-UPMC. - p. 1/48

SCHOLARSHIP ANSTO FRENCH EMBASSY (SAFE) PROGRAM APPLICATION FORM

Calculation of Interest Regulations. Règlement sur le calcul des intérêts CONSOLIDATION CODIFICATION. Current to August 4, 2015 À jour au 4 août 2015

APPENDIX 6 BONUS RING FORMAT

ASSURANCE AUTO. conditions générales

BAREME sur 40 points. Informatique - session 2 - Master de psychologie 2006/2007

Institut français des sciences et technologies des transports, de l aménagement

Transcription:

Mater MVA: Apprentiage par renforcement Lecture: 3 Introduction aux algorithme de bandit Profeeur: Rémi Muno http://reearcher.lille.inria.fr/ muno/mater-mva/ Référence bibliographique: Peter Auer, Nicolo Cea-Bianchi, and Paul Ficher. Finite-time analyi of the multi-armed bandit problem. Machine Learning, 47(2/3):235-256, 2002. Auer, Cea-Bianchi, Freund, Schapire. The nontochatic multi-armed bandit problem. 2003. T. L. Lai and Herbert Robbin. Aymptotically efficient adaptive allocation rule. Advance in Applied Mathematic, 6:4-22, 985. Le bandit tochatique à K bra Conidéron K bra (action, choix) défini par de ditribution (ν k ) kk à valeur dan [0, ], de loi inconnue. A chaque intant, l agent choiit un bra I t {,..., K} et oberve une récompene x t ν It, réaliation indépendante (de récompene paée) générée elon la loi du bra I t. Son objectif et de maximier la omme de récompene qu il reçoit, en epérance. Noton µ k = E X νk [X] l epérance de récompene de chaque bra, et µ = max k µ k la valeur moyenne du meilleur bra. Si l agent connaiait le loi, il choiirait alor le meilleur bra à chaque intant et obtiendrait une récompene moyenne µ. Comme il ne connait pa le loi initialement, il doit explorer le différent bra pour acquérir de l information (exploration) qui lui ervira enuite pour agir optimalement (exploitation). Cela illutre le compromi exploration-exploitation. Pour évaluer la performance d une tratégie donnée, on va définir à quelle vitee cette tratégie permet d atteindre un taux de récompene moyen optimal. Pour cela on définit le regret cumulé à l intant n: R n = nµ x t, qui repréente la différence en récompene cumulée entre ce qu il a obtenu et ce qu il aurait pu obtenir en moyenne il avait joué optimalement dè le début. On intéree à définir de tratégie qui ont un petit regret cumulé moyen ER n. Remarquon que ER n = nµ E µ It = E T k (n)(µ µ k ) = E T k (n) k, où k = µ µ k et le gap entre le bra optimal et le bra k, et où T k (n) = n {I t = k} et le nombre de foi que le bra k a été tiré juqu à l intant n. Aini un bon algorithme de bandit devra tirer peu ouvent le bra ou-optimaux.

2 Introduction aux algorithme de bandit. Stratégie UCB La tratégie UCB (pour Upper Confidence Bound) [Auer et. al, 2002] conite à choiir le bra: 2 log t I t = arg max B t,tk (t )(k), avec B t, (k) = ˆµ k, +, k où ˆµ k, = i= x k,i et la moyenne empirique de récompene reçue en ayant tiré le bra k (i.e., x k,i et la i-ème récompene reçue en ayant tiré le bra k). Il agit d une tratégie dite optimite dan l incertain. La valeur B t,tk (t )(k) repréente une borne upérieure de µ k en forte probabilité. Aini on choiit le bra qui erait le meilleur i le valeur de bra étaient le meilleure poible (en forte proba), achant ce qui a été obvervé. En effet, rappelon l inégalité de Chernoff-Hoeffding: Soient X i [0, ] variable aléatoire indépendante de moyenne µ = EX i. Alor P ( i= X i µ ɛ ) e 2ɛ2, et P ( X i µ ɛ ) e 2ɛ2. () i= Donc pour t fixé, 2 log t P(ˆµ k, + µ k ) e 4 log(t) = t 4. (2) Et aui: 2 log t P(ˆµ k, µ k ) e 4 log(t) = t 4. (3) Propoition. Chaque bra ou-optimal k et tiré en moyenne au plu ET k (n) 8 log n foi. Donc le regret cumulé moyen d UCB et borné elon ER n = k k ET k (n) 8 + π2 3 k: k >0 log n k Ce réultat établit que le regret cumulé moyen et logarithmique en n. + K π2 3. Proof. Intuition de la preuve: uppoon qu à l intant t le moyenne empirique de bra ont dan leur intervalle de confiance repectif, c et à dire 2 log t (a) (b) 2 log t µ k ˆµ k, µ k +. (4) pour = T k (t ). Alor oit k un bra ou-optimal et k un bra optimal. Si le bra k et tiré à l intant t, cela ignifie que B t,tk (t )(k) B t,tk (t )(k ), oit 2 log t 2 log t ˆµ k, + ˆµ k, +, (5) pour = T k (t ) et 2 log t = T k (t ) donc d aprè (4), µ k + 2 µ, c et à dire 8 log t.

Introduction aux algorithme de bandit 3 Maintenant, pour tout entier u, nou avon: T k (n) u + {I t = k; T k (t) > u} u + t=u+ t=u+ { : u < t, : t, B t, (k) B t, (k )} (6) Maintenant, d aprè le raionnement précédent, l évènement {B t, (k) B t, (k )} (c et à dire (5)) implique que 8 log t ou bien qu une de deux inégalité (a) ou (b) dan (4) n et pa atifaite. Donc en choiiant u = 8 log(n), on en déduit que (a) ou (b) n et pa atifaite. Mai d aprè (2), l inégalité (a) n et pa atifaite avec une probabilité t 4, et d aprè (3) l inégalité (b) n et pa vraie avec une probabilité t 4. En prenant l epérance de deux coté de (6), E[T k (n)] 8 log(n) 8 log(n) + t=u+ + π2 3 [ t =u+ t 4 + t = t 4] Propoition 2. Nou avon la borne uniforme ur le regret Proof. Par Cauchy-Schwarz, ER n 8Kn(log n + π2 3 ) ER n = k k ETk (n) ET k (n) ET k(n) ET k (n) k k 8Kn(log n + π2 3 )..2 Borne inférieure Nou avon la borne inférieure aymptotique (pour une clae de ditribution aez riche) [Lai et Robbin, 985] fonction de ditribution: ET k (n) lim up n log n KL(ν k ν ), avec la ditance de Kullback Leibler KL(ν ν ) = dν log(dν/dν ). Donc ER n = Ω(log n). Nou avon aui une borne inférieure minimax non-aymptotique (voir par exemple [Cea-Bianchi et Lugoi, Prediction, Learning, and Game, 2006]): inf up R n = Ω( nk). Algo Problème

4 Introduction aux algorithme de bandit.3 Amélioration Utiliation de la variance empirique pour affiner le intervalle de confiance [Audibert, Muno, Szepevari, Ue of variance etimation in the multi-armed bandit problem, 2008]. Borne minimax améliorée [Audibert, Bubeck, Minimax Policie for Adverarial and Stochatic Bandit, 2009]. On obtient la borne inf Kn. Application au online learning (claification ou régreion en-ligne) avec information partielle..4 Extenion Il exite de nombreue extenion au problème du bandit tochatique à K bra: Bandit dan un MDP [Jakch, Ortner, Auer. Near-optimal regret bound for reinforcement learning, 200]. Stratégie d exploration optimite dan l incertain (baée ur UCB) pour explorer un Proceu de déciion markovien. > poibilité de mini-projet Bandit avec information contextuelle. A chaque intant t, on oberve une information x t X et on prend une déciion a t A. La récompene et une foncion de a t et de x t. On e compare à une clae de tratégie π : X A. Bandit avec un nombre de bra dénombrable. [Wang, Audibert, Muno, Algorithm for inifinitely many-armed bandit, 2008]. Chaque nouveau bra a une probabilité ɛ β d être ɛ-optimal. Compromi entre exploration - exploitation - découverte. > poibilité de mini-projet Bandit linéaire [Dani, Haye, Kakade, Stochatic Linear Optimization under Bandit Feedback, 2008] On choiit un bra x t X R d. La récompene moyenne et une fonction linéaire r t = x t α, où α R d et un paramètre inconnu. On e compare à max x X x α. > poibilité de mini-projet Bandit en epace métrique [Kleinberg, Slivkin, Upfal, Multi-armed bandit in metric pace, 2008], [Bubeck, Muno, Stoltz, Szepevari, Online optimization in X-armed bandit, 2008]. On choiit un bra x t X dan un epace métrique. La récompene moyenne f(x t ) et uppoée Lipchitz. On e compare à up x X f(x). Il agit d un problème d optimiation online. Bandit hiérarchique Algorithme UCT [Koci et Szepevari. Bandit baed monte-carlo planning., 2006], BAST [Coquelin et Muno, Bandit algorithm for tree earch, 2007], HOO [Bubeck, Muno, Stoltz, Szepevari, Online optimization in X-armed bandit, 2008]. Application au jeu de go (programme MoGo) [Gelly, Wang, Muno, Teytaud. Modification of UCT with pattern in monte-carlo go, 2006]. Utiliation d algorithme de bandit de manière hiérarchique pour effectuer une recherche dan de grand arbre. > poibilité de mini-projet 2 Le bandit contre un adveraire Ici le récompene ne ont plu néceairement i.i.d. mai choiie arbitrairement par un adveraire. Dan ce ca, on ne peut plu epérer faire aui bien que i on avait connu à l avance le récompene (car l adveraire n a aucune envie de e laier dévoiler). Mai on peut comparer le performance obtenue par notre algorithme aux performance obtenue par une clae de tratégie de comparaion, et tenter de faire prequ aui bien que la meilleure tratégie dan cette clae.

Introduction aux algorithme de bandit 5 Nou pouvon ditinguer 2 type de problème elon l information reçue à chaque round: information parfaite ( full information ) ou information partielle ( bandit information ). Voici un modèle de bandit contre un adveraire: On dipoe de K bra. A chaque intant t =..., n, L adveraire choii de récompene x t (),..., x t (K) (uppoée à valeur dan [0, ], an le dévoiler au joueur Le joueur choiit un bra I t Dan le ca information parfaite, le joueur oberve le récompene de tou le bra x t (k), pour k =..., K. Dan le ca information partielle, le joueur n oberve que la récompene du bra choii: x t (I t ). La clae de tratégie de comparaion et l enemble de tratégie contante. Aini le regret par rapport à la tratégie contante k et défini elon R n (k) = x t (k) x t (I t ). La tratégie du joueur pouvant être aléatoire, on conidère le regret moyen pour la meilleure tratégie contante: R n = max ER n(k), kk et l on déire contruire un algorithme qui oit bon pour toute équence de récompene fournie par l adveraire, i.e. tel que up x,...,x n R n oit petit. 2. Information complete Conidéron l algorithme EWF (Exponentially Weighted Forecater): On initialie l algorithme avec w (k) = pour tout k =,..., n. A chaque intant t =,..., n, le joueur choiit le bra I t p t, où p t (k) = où > 0 et un paramètre de l algorithme. w t (k) = e P t = x(k), w t(k) P K i= w t(i), avec Propoition 3. Soit. On a Aini, en choiiant = 8 log K n, il vient R n log K + n 8. n log K R n. 8

6 Introduction aux algorithme de bandit Preuve. Noton = K w k(t). On a + = w k (t)e x t(k) = p k (t)e xt(k) [ = E I pt e x ] t(i) = e E[x t(k)] E I pt [ e (x t (I) E J pt [x t (J)]) ] e E[xt(I)] e 2 /8, par le lemme de Hoeffding Donc Maintenant log W n+ W E [ n x t (I t ) ] + n 2 8. log W n+ W = log e P n xt(k) log K x t (k) log K, pour n importe quel k =,..., n. Aini pour tout k, on a x t (k) E [ n x t (I t ) ] log K + n 8. Remarque: Borne inf du même ordre: R n = Ω( n log K). Dépendance logarithmique en K Poibilité d avoir un algorithme anytime (qui ne néceite pa la connaiance de l horizon temporel n) en choiiant un pa t = O( log K t ). Prédiction à bae d expert [Lugoi and Cea-Bianchi, 2006]. 2.2 Information partielle Conidéron l algorithme EXP3 (Exploration-Exploitation uing Exponential weight): > 0 et β > 0 ont deux paramètre de l algorithme. On initialie l algorithme avec w (k) = pour tout k =,..., n. A chaque intant t =,..., n, le joueur choiit le bra I t p t, où w t (k) p t (k) = ( β) K i= w t(i) + β K, avec où x (k) = x (k) p (k) {I = k}. w t (k) = e P t = x (k),

Introduction aux algorithme de bandit 7 Propoition 4. Soit, et β = K. On a Aini, en choiiant = log K (e )nk, il vient R n log K + (e )nk. R n 2.63 nk log K. Preuve. Noton = K w k(t). Remarquon que E I p [ x (k)] = K i= p (i) x (k) p (k) {i = k} = x (k), que E I p [ x (I )] = K i= p (i) x (i) p (i) K. On a + = w k (t)e x t(k) = p k (t) β/k e x t(k) β p k (t) β/k ( + x t (k) + (e 2) 2 x t (k) 2 ), β puique x t (k) K/β =, et e x + x + (e 2)x 2 pour x. Mai on a aui + + β log + log W n+ W log W n+ W = log β β p k (t)( x t (k) + (e 2) 2 x t (k) 2 ), p k (t)( x t (k) + (e 2) 2 x t (k) 2 ), p k (t)( x t (k) + (e 2) 2 x t (k) 2 ). e P n x t(k) log K x t (k) log K, pour n importe quel k =,..., n. l algorithme), on a pour tout k, En prenant l epérance (par rapport à la randomiation interne de [ E ( β) x t (k) i= [ n E x t (k) ] p i (t) x t (i) ] x t (I t ) E[R n (k)] log K ( β) log K βn + log K [ n + (e 2)E + (e 2)nK + (e )nk p k (t) x t (k) 2] Remarque: Borne inf R n 20 nk (voir [Auer et al., 2002]).

8 Introduction aux algorithme de bandit Algorithme INF [Audibert et Bubeck 2009] obtient un regret O( nk). Exp3 donne un regret en epérance en O( nk log K) mai le regret peut être grand ur certaine réaliation de l algorithme. En effet le récompene repondérée x t (k) ont d ordre /p t (k) ce qui peut être (en négligeant la dépendance en K) aui grand que n pour le valeur de β conidérée, ce qui entraîne un regret dont la variance et en n 3/2 et aini le regret peut être en n 3/4. On ne peut donc pa obtenir de regret en n avec forte probabilité. Cependant en modifiant légèrement l algorithme afin d augmenter l exploration (en uretimant le récompene reçue), on obtient un algorithme EXP3.P [Auer et al., 2002] qui dépend d un paramètre δ > 0 tel que max kk x t (k) x t (I t ) = O( nk log(kn/δ)). (7) 2.3 Equilibre de Nah Conider a 2-player zero-um repeated game: A and B play action: or 2 imultaneouly, and receive the reward (for A): A \ B 2 2 0 2 - (A like conenu, B like conflict) Nah equilibrium: (mixed) trategy (p, q ) for both player, uch that no player ha incentive for changing unilaterally hi own trategy: for any p and q, r A (p, q ) r A (p, q ) and r B (p, q) r B (p, q ). Ar Here the Nah i: A play with probability p A = /2, B play with probability p B = /4. B=2 2 A Now, let A and B be bandit algorithm, aiming at minimizing their regret, i.e. for player A: R n (A) def = max r A (a, B t ) r A (A t, B t ). and that of B accordingly. a {,2} In the cae of zero-um game (i.e. r A = r B ), the value of the game V i defined a V = inf up q [0,] p [0,] r A (p, q) = up inf r A(p, q) q [0,] p [0,] B=

Introduction aux algorithme de bandit 9 (minimax Theorem). Note that there may exit everal Nah equilibria (p, q ) but their value r A (p, q ) i unique and equal V. Indeed: V = up p [0,] inf r A(p, q) q [0,] inf r A(p, q) = r A (p, q ) = up r A (p, q ) q [0,] p [0,] inf r A(p, q) = V. q [0,] Propoition 5. If both player perform a (Hannan) conitent regret-minimization trategy (i.e. R n (A)/n 0 and R n (B)/n 0), then the average value of the received reward converge to the value of the game: lim n n r A (A t, B t ) = V. In addition, the empirical frequencie of choen action of both player converge to a Nah equilibrium. (Note that EXP3.P i conitent!). Preuve. Write p n def A = n n A and p n def B = n n B the empirical frequencie of played action. Write r A (p, q) def = E A p,b Q r A (A, B). Player A play a Hannan-conitent regret-minimization trategy, thu lim up max r A (a, B t ) r A (A t, B t ) n a {,2} n n 0 lim up up r A (p, B t ) r A (A t, B t ) n n n 0 p [0,] ince p r A (p, q) i a linear mapping. Thu V = inf q up r A (p, q) lim inf p n n r A (A t, B t ). Now, ince player B doe the ame, we alo have that lim up r A (A t, B t ) up inf n n r A(p, q) = V. p q Thu lim n n n r A(A t, B t ) = V. We alo have that the empirical joint ditribution (p q) n (a, b) = n n {A t = a, B t = b} converge to the et of Nah equilibria {(p, q )} ince the et of joint ditribution i compact (ince we conider a finite number of action) and any (p, q ) uch that r A (p, q ) = V i a Nah equilibrium: r A (p, q ) inf r A(p, q) V up r A (p, q ) r A (p, q ). q [0,] p [0,] Example: Texa Hold em Poker In the 2-player Poker game, the Nah equilibrium i intereting (zero-um game) A policy: information et (my card + board + pot) probabilitie over deciion (check, raie, fold) Space of policie i huge!

0 Introduction aux algorithme de bandit Idea: Approximate the Nah equilibrium by uing bandit algorithm aigned to each information et. Thi method provided the world bet Texa Hold em Poker program for 2-player with pot-limit [Zinkevitch et al., 2007]. Extenion: In non-zero um game or in game with more than 2 player, there are general convergence reult toward correlated equilibrium [Foter and Vohra, 997].