Utilisation de la divergence de Kullback-Leibler pour des algorithmes optimistes en apprentissage par renforcement en collaboration avec Olivier Cappé, Aurélien Garivier Page 1 / 22
Apprentissage par Renforcement Observation S t Agent Action A t Envir. dilemme exploration exploitation Récompense R t Le système est dans un état S t qui évolue de façon markovienne : S t+1 P(S t, A t ; ) et R t = r(s t, A t ) + ε t A chaque instant t, l agent choisit une action A t A en fonction du passé (S s, A s, R s ) s<t pour maximiser la récompense cumulée n t=0 R t Page 2 / 22
Politique, récompense moyenne et regret But : trouver la politique π : S A qui a la plus grande récompense moyenne : [ n ] ρ π 1 = lim n n Eπ R t t=0 Récompense moyenne optimale ρ = sup π ρ π = ρ π Mesure de performance : regret cumulé Regret(n) = n ρ R t t=0 Page 3 / 22
Plan Algorithmes optimistes Définition pour des MDPs L algorithme UCRL-2 L algorithme KL-UCRL Estimation des transitions L algorithme KL-UCRL Regret : bornes et simulations Propriétés de KL-UCRL Page 4 / 22
Algorithmes optimistes Algorithmes optimistes : [Lai&Robins 85 ; Agrawal 95] Fais comme si tu te trouvais dans l environnement qui t est le plus favorable parmi tous ceux qui rendent les observations assez vraisemblables Pour les modèles de bandit : UCB (Upper Confidence Bound) = établir une borne supérieure de l intérêt de chaque action, et choisir celle qui est la plus prometteuse [Auer&al 02 ; Audibert&al 07] Page 5 / 22
Algorithme optimiste pour des MDPs Environnements { qui rendent les observations vraisemblables C R M t = P, r : s, a, ˆr t (s, a) r(s, a) Nt (s, a) ) tel que s, a, d (ˆPt (s, a;.), P(s, a;.) } C P g(n t (s, a)) où d est une distance et g : R R une fonction croissante. Environnement le plus favorable Le MDP (dit optimiste) maximise les équations d optimalité : ( ) s, h (s) + ρ = max max P,r M t a A r(s, a) + s S P(s, a; s )h (s ) Page 6 / 22
Etape de maximisation On doit résoudre, à chaque étape, des problèmes du type : pour une loi empirique p et pour un vecteur de biais V, trouver q = argmax q V d(p,q) δ Illustration en dim. 3 : p, q S 3 = {p [0, 1] 3, 3 i=1 p i = 1}, V R 3 Page 7 / 22
Algorithme UCRL-2 [Auer&Ortner, 09] Utilisation de la distance L 1 pour calculer le modèle optimiste d(p, q) = p q 1 Utilisation d inégalité de concentrations de type Hoeffding [Weissman&al, 03] pour déterminer C P et g(.) La recherche de q = argmax p q 1 δ q V est triviale et facilement interprétable. De plus, on peut montrer les bornes de regret suivantes : E(Regret(n)) C S 2 A log(n), C étant une constante dépendant de (M) = min ρ π <ρ ρ ρ π Page 8 / 22
Limites de l algorithme UCRL-2 Les voisinages L 1 n ont pas beaucoup de sens pour des lois de probabilités Le modèle optimiste a quelques propriétés indésirables : peut mettre à 0 des transitions observées ne peut pas mettre à 0 des transitions vers le "paradis" Page 9 / 22
Plan Algorithmes optimistes Définition pour des MDPs L algorithme UCRL-2 L algorithme KL-UCRL Estimation des transitions L algorithme KL-UCRL Regret : bornes et simulations Propriétés de KL-UCRL Page 10 / 22
Inégalité de concentration Théorème : [Garivier&Leonardi, 10] si X 1,..., X n sont des v.a. iid à valeur dans S et de loi p = (p(1),..., p( S )), l estimateur ˆp n = (ˆp n (1),..., ˆp n ( S )) défini par nˆp n (i) = n j=1 1 {i}(x j ) vérifie ( P t n, KL(ˆp t, p) > δ ) 2e(δ log(n) + S )e δ/ S t Le voisinage KL est adapté à la géométrie et aux propriétés probabilistes du simplexe. Page 11 / 22
Kullback-Leibler UCRL Stratégie optimiste : à l instant t 1. considère l ensemble M t de tous les MDP qui rendent les observations { assez vraisemblables C R M t = P, r : s, a, ˆr t (s, a) r(s, a) Nt (s, a) ) tel que s, a, KL (ˆPt (s, a;.); P(s, a;.) 2. trouve le MDP optimiste dont la valeur est la plus grande : ( s, h (s) + ρ = max max P,r M t a A C } P N t (s, a) r(s, a) + s S P(s, a; s )h (s ) ) 3. joue pendant un certain temps la politique optimale de ce MDP Page 12 / 22
La maximisation On doit résoudre à chaque étape des problèmes du type : pour une loi empirique p et pour un vecteur de biais V, trouver q = argmax q V KL(p;q) δ Solution explicite de cette maximisation : maximisation d une fonction linéaire sur un espace convexe. Pour ν > max i:pi >0 V i on définit : f (ν) = i p i log(ν V i ) + log ( i p i ν V i ) Page 13 / 22
Trouver le maximum Soit i = argmax V i. Deux possibilités : Cas 1 : si p i > 0 alors f (ν) = δ et p i q i ν V i Cas 2 : Si p i = 0, 2 cas : Cas 2.A : si f (V i ) δ, alors cf. Cas 1 Cas 2.B : si f (V i ) < δ, alors q i > 0, ν = V i et pour i i, q i p i ν V i delta Cas 1 : pas de paradis f V* nu Page 14 / 22
Trouver le maximum Soit i = argmax V i. Deux possibilités : Cas 1 : si p i > 0 alors f (ν) = δ et p i q i ν V i Cas 2.A : renoncement au paradis f Cas 2 : Si p i = 0, 2 cas : Cas 2.A : si f (V i ) δ, alors cf. Cas 1 Cas 2.B : si f (V i ) < δ, alors q i > 0, ν = V i et delta pour i i, q i p i ν V i V* nu Page 14 / 22
Trouver le maximum Soit i = argmax V i. Deux possibilités : Cas 1 : si p i > 0 alors f (ν) = δ et p i q i ν V i Cas 2.B : espoir de paradis f Cas 2 : Si p i = 0, 2 cas : Cas 2.A : si f (V i ) δ, alors cf. Cas 1 Cas 2.B : si f (V i ) < δ, alors q i > 0, ν = V i et delta pour i i, q i p i ν V i nu=v* Page 14 / 22
Commentaires La maximisation ne pose donc aucun problème algorithmique et peut être résolue très rapidement en quelques itérations de Newton. Si aucune transition vers un "paradis" n a été observée, l algorithme arbitre entre ajouter de la probabilité à cette transition reconnaître qu elle est invraisemblable et ajouter de la probabilité à d autres transitions en fonction du nombre de transitions observées (dont dépend δ) l intérêt relatif de cet état (mesuré par son biais) Page 15 / 22
Majoration du regret Théorème : Pour un horizon n > 1 assez grand, le regret moyen en utilisant l algorithme KL-UCRL est borné par : E(Regret(n)) C S 2 A log(n), C étant une constante dépendant de (M) = min ρ π <ρ ρ ρ π Page 16 / 22
Exemple / Benchmark : RiverSwim Exemple nécessitant une bonne politique d exploration [Strehl&Littman 08] Action 1 R=5 Action 2 0.4 0.6 0.6 0.6 0.6 0.6 1 0.6 0.35 0.35 0.35 0.35 2 3 4 5 6 R=10000 0.05 0.05 0.05 0.05 0.4 1 1 1 1 1 1 courant Page 17 / 22
Simulations : RiverSwim Action 1 R=5 Action 2 0.4 0.6 0.6 0.6 0.6 0.6 1 0.6 0.35 0.35 0.35 0.35 2 3 4 5 6 R=10000 0.05 0.05 0.05 0.05 0.4 1 1 1 1 1 1 courant Début Page 18 / 22
Simulations : RiverSwim Action 1 R=5 Action 2 0.4 0.6 0.6 0.6 0.6 0.6 1 0.6 0.35 0.35 0.35 0.35 2 3 4 5 6 R=10000 0.05 0.05 0.05 0.05 0.4 1 1 1 1 1 1 courant Début Page 18 / 22
Simulations : RiverSwim 5 x 107 KL UCRL UCRL 4 Regret 3 2 1 0 0 2 4 6 8 10 t x 10 4 FIGURE: Comparaison des regrets des algorithmes UCRL-2 et KL-UCRL. Page 19 / 22
Compatibilité avec les observations Le modèle optimiste donne toujours une probabilité non-nulle aux évènements observés. Soit p 3 0, q = argmax p q 1 δ q V Voisinage L 1 : q 3 = 0 Voisinage KL : q 3 0 Page 20 / 22
Propriétés des modèles optimistes Quand une transition de x vers y n a pas été observée, l algorithme arbitre entre l attractivité relative de y et les preuves statistiques accumulées contre l existence d une telle transition. Page 21 / 22
Propriétés des modèles optimistes Quand une transition de x vers y n a pas été observée, l algorithme arbitre entre l attractivité relative de y et les preuves statistiques accumulées contre l existence d une telle transition. Page 21 / 22
Conclusion Utilisation de la divergence de KL pour construire un nouvel algorithme optimiste Il ne nécessite aucune connaissance a priori de la structure du MDP Le calcul du modèle optimiste peut se faire très efficacement avec quelques itérations de Newton L analyse de l algorithme permet de garantir des bornes de regret du même odre que celles connues dans la littérature Les simulations montrent un comportement significativement meilleur en pratique Extension : utilisation de la divergence de KL pour construire un nouvel algorithme pour des modèles de bandit à récompenses binaires (KL-UCB) Page 22 / 22