Utilisation de la divergence de Kullback-Leibler pour des algorithmes optimistes en apprentissage par renforcement

Documents pareils
Programmation linéaire

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Programmation Linéaire - Cours 1

Optimisation Discrète

FIMA, 7 juillet 2005

MCMC et approximations en champ moyen pour les modèles de Markov

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

Couplage efficace entre Optimisation et Simulation stochastique Application à la maintenance optimale d une constellation de satellites

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

LES MÉTHODES DE POINT INTÉRIEUR 1

Exercices du Cours de la programmation linéaire donné par le Dr. Ali DERBALA

Optimisation des fonctions de plusieurs variables

Chp. 4. Minimisation d une fonction d une variable

3 Approximation de solutions d équations

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Cours de Master Recherche

I Stabilité, Commandabilité et Observabilité Introduction Un exemple emprunté à la robotique Le plan Problème...

Sujet 4: Programmation stochastique propriétés de fonction de recours

Contexte. Pour cela, elles doivent être très compliquées, c est-à-dire elles doivent être très différentes des fonctions simples,

Lagrange, où λ 1 est pour la contrainte sur µ p ).

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Continuité et dérivabilité d une fonction

Cours de Recherche Opérationnelle IUT d Orsay. Nicolas M. THIÉRY. address: Nicolas.Thiery@u-psud.fr URL:

Introduction aux algorithmes de bandit

Apprentissage par renforcement (1a/3)

Programmation linéaire

Echantillonnage Non uniforme

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

aux différences est appelé équation aux différences d ordre n en forme normale.

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Examen optimisation Centrale Marseille (2008) et SupGalilee (2008)

Chapitre 7. Récurrences

Modélisation aléatoire en fiabilité des logiciels

Chapitre 6. Fonction réelle d une variable réelle

Décision Markovienne appliquée à un jeu de stop ou encore : Pickomino (Heckmeck Am Bratwurmeck)

Résolution d équations non linéaires

Nouvelles propositions pour la résolution exacte du problème de sac à dos bi-objectif unidimensionnel en variables binaires

Rappels sur les suites - Algorithme

Amphi 3: Espaces complets - Applications linéaires continues

PRECISION - REJET DE PERTURBATIONS T.D. G.E.I.I.

I. Polynômes de Tchebychev

Parallélisme et Répartition

Analyse des Systèmes Asservis

Communications collectives et ordonnancement en régime permanent pour plates-formes hétérogènes

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

Annexe 6. Notions d ordonnancement.

Image d un intervalle par une fonction continue

Prise en compte du facteur humain. Cédric Soubrié

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : hivert

de calibration Master 2: Calibration de modèles: présentation et simulation d

Dualité dans les espaces de Lebesgue et mesures de Radon finies

Chapitre 5. Équilibre concurrentiel et bien-être

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Programmation par contraintes. Laurent Beaudou

Équations non linéaires

RECHERCHE OPERATIONNELLE

CHAPITRE 5. Stratégies Mixtes

Principe de symétrisation pour la construction d un test adaptatif

Théorèmes de Point Fixe et Applications 1

«Cours Statistique et logiciel R»

Chapitre VI - Méthodes de factorisation

OPTIMISATION À UNE VARIABLE

Tests d indépendance en analyse multivariée et tests de normalité dans les modèles ARMA

Resolution limit in community detection

ALGORITHMIQUE II NOTION DE COMPLEXITE. SMI AlgoII

Simulation de variables aléatoires

Calcul de développements de Puiseux et application au calcul du groupe de monodromie d'une courbe algébrique plane

Projet de Traitement du Signal Segmentation d images SAR

Analyse de la Commande Prédictive Floue : Algorithmes et Méthodologies de Solution

Chapitre 5 : Flot maximal dans un graphe

Probabilités III Introduction à l évaluation d options

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Exercices - Polynômes : corrigé. Opérations sur les polynômes

Cours d analyse numérique SMI-S4

Programmation linéaire et Optimisation. Didier Smets

Audition pour le poste de Maître de conférence INSA Lyon distributed Robotics avec aectation au CITI. Guillaume Lozenguez.

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

MATHS FINANCIERES. Projet OMEGA

Complexité. Licence Informatique - Semestre 2 - Algorithmique et Programmation

Apprentissage artificiel pour l ordonnancement des tâches dans les grilles de calcul

1.1 Codage de source et test d hypothèse

4.2 Unités d enseignement du M1

C algèbre d un certain groupe de Lie nilpotent.

Chapitre 7. Statistique des échantillons gaussiens. 7.1 Projection de vecteurs gaussiens

Chapitre 7 : Intégration sur un intervalle quelconque

Approximation diophantienne uniforme et dimension de Hausdorff

Agrégation des portefeuilles de contrats d assurance vie

Limites finies en un point

Travaux dirigés n 1. Programmation linéaire

TP N 57. Déploiement et renouvellement d une constellation de satellites

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Cours des Méthodes de Résolution Exactes Heuristiques et Métaheuristiques

Objectifs du cours d aujourd hui. Informatique II : Cours d introduction à l informatique et à la programmation objet. Complexité d un problème (2)

Comment démontrer des formules sans effort? exposé de maîtrise

Algorithmes pour la planification de mouvements en robotique non-holonome

Rapport d activité. Mathieu Souchaud Juin 2007

Contrôle par commande prédictive d un procédé de cuisson sous infrarouge de peintures en poudre.

Contrôle stochastique d allocation de ressources dans le «cloud computing»

Utilisation du backtrack intelligent dans un branch-and-bound Application au problème d Open-Shop

Transcription:

Utilisation de la divergence de Kullback-Leibler pour des algorithmes optimistes en apprentissage par renforcement en collaboration avec Olivier Cappé, Aurélien Garivier Page 1 / 22

Apprentissage par Renforcement Observation S t Agent Action A t Envir. dilemme exploration exploitation Récompense R t Le système est dans un état S t qui évolue de façon markovienne : S t+1 P(S t, A t ; ) et R t = r(s t, A t ) + ε t A chaque instant t, l agent choisit une action A t A en fonction du passé (S s, A s, R s ) s<t pour maximiser la récompense cumulée n t=0 R t Page 2 / 22

Politique, récompense moyenne et regret But : trouver la politique π : S A qui a la plus grande récompense moyenne : [ n ] ρ π 1 = lim n n Eπ R t t=0 Récompense moyenne optimale ρ = sup π ρ π = ρ π Mesure de performance : regret cumulé Regret(n) = n ρ R t t=0 Page 3 / 22

Plan Algorithmes optimistes Définition pour des MDPs L algorithme UCRL-2 L algorithme KL-UCRL Estimation des transitions L algorithme KL-UCRL Regret : bornes et simulations Propriétés de KL-UCRL Page 4 / 22

Algorithmes optimistes Algorithmes optimistes : [Lai&Robins 85 ; Agrawal 95] Fais comme si tu te trouvais dans l environnement qui t est le plus favorable parmi tous ceux qui rendent les observations assez vraisemblables Pour les modèles de bandit : UCB (Upper Confidence Bound) = établir une borne supérieure de l intérêt de chaque action, et choisir celle qui est la plus prometteuse [Auer&al 02 ; Audibert&al 07] Page 5 / 22

Algorithme optimiste pour des MDPs Environnements { qui rendent les observations vraisemblables C R M t = P, r : s, a, ˆr t (s, a) r(s, a) Nt (s, a) ) tel que s, a, d (ˆPt (s, a;.), P(s, a;.) } C P g(n t (s, a)) où d est une distance et g : R R une fonction croissante. Environnement le plus favorable Le MDP (dit optimiste) maximise les équations d optimalité : ( ) s, h (s) + ρ = max max P,r M t a A r(s, a) + s S P(s, a; s )h (s ) Page 6 / 22

Etape de maximisation On doit résoudre, à chaque étape, des problèmes du type : pour une loi empirique p et pour un vecteur de biais V, trouver q = argmax q V d(p,q) δ Illustration en dim. 3 : p, q S 3 = {p [0, 1] 3, 3 i=1 p i = 1}, V R 3 Page 7 / 22

Algorithme UCRL-2 [Auer&Ortner, 09] Utilisation de la distance L 1 pour calculer le modèle optimiste d(p, q) = p q 1 Utilisation d inégalité de concentrations de type Hoeffding [Weissman&al, 03] pour déterminer C P et g(.) La recherche de q = argmax p q 1 δ q V est triviale et facilement interprétable. De plus, on peut montrer les bornes de regret suivantes : E(Regret(n)) C S 2 A log(n), C étant une constante dépendant de (M) = min ρ π <ρ ρ ρ π Page 8 / 22

Limites de l algorithme UCRL-2 Les voisinages L 1 n ont pas beaucoup de sens pour des lois de probabilités Le modèle optimiste a quelques propriétés indésirables : peut mettre à 0 des transitions observées ne peut pas mettre à 0 des transitions vers le "paradis" Page 9 / 22

Plan Algorithmes optimistes Définition pour des MDPs L algorithme UCRL-2 L algorithme KL-UCRL Estimation des transitions L algorithme KL-UCRL Regret : bornes et simulations Propriétés de KL-UCRL Page 10 / 22

Inégalité de concentration Théorème : [Garivier&Leonardi, 10] si X 1,..., X n sont des v.a. iid à valeur dans S et de loi p = (p(1),..., p( S )), l estimateur ˆp n = (ˆp n (1),..., ˆp n ( S )) défini par nˆp n (i) = n j=1 1 {i}(x j ) vérifie ( P t n, KL(ˆp t, p) > δ ) 2e(δ log(n) + S )e δ/ S t Le voisinage KL est adapté à la géométrie et aux propriétés probabilistes du simplexe. Page 11 / 22

Kullback-Leibler UCRL Stratégie optimiste : à l instant t 1. considère l ensemble M t de tous les MDP qui rendent les observations { assez vraisemblables C R M t = P, r : s, a, ˆr t (s, a) r(s, a) Nt (s, a) ) tel que s, a, KL (ˆPt (s, a;.); P(s, a;.) 2. trouve le MDP optimiste dont la valeur est la plus grande : ( s, h (s) + ρ = max max P,r M t a A C } P N t (s, a) r(s, a) + s S P(s, a; s )h (s ) ) 3. joue pendant un certain temps la politique optimale de ce MDP Page 12 / 22

La maximisation On doit résoudre à chaque étape des problèmes du type : pour une loi empirique p et pour un vecteur de biais V, trouver q = argmax q V KL(p;q) δ Solution explicite de cette maximisation : maximisation d une fonction linéaire sur un espace convexe. Pour ν > max i:pi >0 V i on définit : f (ν) = i p i log(ν V i ) + log ( i p i ν V i ) Page 13 / 22

Trouver le maximum Soit i = argmax V i. Deux possibilités : Cas 1 : si p i > 0 alors f (ν) = δ et p i q i ν V i Cas 2 : Si p i = 0, 2 cas : Cas 2.A : si f (V i ) δ, alors cf. Cas 1 Cas 2.B : si f (V i ) < δ, alors q i > 0, ν = V i et pour i i, q i p i ν V i delta Cas 1 : pas de paradis f V* nu Page 14 / 22

Trouver le maximum Soit i = argmax V i. Deux possibilités : Cas 1 : si p i > 0 alors f (ν) = δ et p i q i ν V i Cas 2.A : renoncement au paradis f Cas 2 : Si p i = 0, 2 cas : Cas 2.A : si f (V i ) δ, alors cf. Cas 1 Cas 2.B : si f (V i ) < δ, alors q i > 0, ν = V i et delta pour i i, q i p i ν V i V* nu Page 14 / 22

Trouver le maximum Soit i = argmax V i. Deux possibilités : Cas 1 : si p i > 0 alors f (ν) = δ et p i q i ν V i Cas 2.B : espoir de paradis f Cas 2 : Si p i = 0, 2 cas : Cas 2.A : si f (V i ) δ, alors cf. Cas 1 Cas 2.B : si f (V i ) < δ, alors q i > 0, ν = V i et delta pour i i, q i p i ν V i nu=v* Page 14 / 22

Commentaires La maximisation ne pose donc aucun problème algorithmique et peut être résolue très rapidement en quelques itérations de Newton. Si aucune transition vers un "paradis" n a été observée, l algorithme arbitre entre ajouter de la probabilité à cette transition reconnaître qu elle est invraisemblable et ajouter de la probabilité à d autres transitions en fonction du nombre de transitions observées (dont dépend δ) l intérêt relatif de cet état (mesuré par son biais) Page 15 / 22

Majoration du regret Théorème : Pour un horizon n > 1 assez grand, le regret moyen en utilisant l algorithme KL-UCRL est borné par : E(Regret(n)) C S 2 A log(n), C étant une constante dépendant de (M) = min ρ π <ρ ρ ρ π Page 16 / 22

Exemple / Benchmark : RiverSwim Exemple nécessitant une bonne politique d exploration [Strehl&Littman 08] Action 1 R=5 Action 2 0.4 0.6 0.6 0.6 0.6 0.6 1 0.6 0.35 0.35 0.35 0.35 2 3 4 5 6 R=10000 0.05 0.05 0.05 0.05 0.4 1 1 1 1 1 1 courant Page 17 / 22

Simulations : RiverSwim Action 1 R=5 Action 2 0.4 0.6 0.6 0.6 0.6 0.6 1 0.6 0.35 0.35 0.35 0.35 2 3 4 5 6 R=10000 0.05 0.05 0.05 0.05 0.4 1 1 1 1 1 1 courant Début Page 18 / 22

Simulations : RiverSwim Action 1 R=5 Action 2 0.4 0.6 0.6 0.6 0.6 0.6 1 0.6 0.35 0.35 0.35 0.35 2 3 4 5 6 R=10000 0.05 0.05 0.05 0.05 0.4 1 1 1 1 1 1 courant Début Page 18 / 22

Simulations : RiverSwim 5 x 107 KL UCRL UCRL 4 Regret 3 2 1 0 0 2 4 6 8 10 t x 10 4 FIGURE: Comparaison des regrets des algorithmes UCRL-2 et KL-UCRL. Page 19 / 22

Compatibilité avec les observations Le modèle optimiste donne toujours une probabilité non-nulle aux évènements observés. Soit p 3 0, q = argmax p q 1 δ q V Voisinage L 1 : q 3 = 0 Voisinage KL : q 3 0 Page 20 / 22

Propriétés des modèles optimistes Quand une transition de x vers y n a pas été observée, l algorithme arbitre entre l attractivité relative de y et les preuves statistiques accumulées contre l existence d une telle transition. Page 21 / 22

Propriétés des modèles optimistes Quand une transition de x vers y n a pas été observée, l algorithme arbitre entre l attractivité relative de y et les preuves statistiques accumulées contre l existence d une telle transition. Page 21 / 22

Conclusion Utilisation de la divergence de KL pour construire un nouvel algorithme optimiste Il ne nécessite aucune connaissance a priori de la structure du MDP Le calcul du modèle optimiste peut se faire très efficacement avec quelques itérations de Newton L analyse de l algorithme permet de garantir des bornes de regret du même odre que celles connues dans la littérature Les simulations montrent un comportement significativement meilleur en pratique Extension : utilisation de la divergence de KL pour construire un nouvel algorithme pour des modèles de bandit à récompenses binaires (KL-UCB) Page 22 / 22