Introduction à l apprentissage par renforcement

GRAPPA, Université Charles de Gaulle Lille 3 17 mars 2005

Plan 1 Introduction Problèmes de décision séquentielle Apprentissage par renforcement 2 Processus de décision de Markov Itération de la valeur TD(λ) Sarsa(λ) 3 Problèmes de grande taille Inférence statistique TD-Gammon Les nageurs 4

Problèmes de décision séquentielle Problèmes de décision séquentielle Apprentissage par renforcement Problème Dans un système qui évolue au cours du temps, comment choisir des actions de manière à optimiser un critère? Exemples Jeux (dames, backgammon, poker) Démonstration mathématique Commande optimale Routage Planification 1 2 3 7 4 6? 5 8

Apprentissage par renforcement Problèmes de décision séquentielle Apprentissage par renforcement Définition L apprentissage par renforcement désigne toute méthode adaptative permettant de résoudre un problème de décision séquentielle. (d après Sutton et Barto, 1998). Le terme adaptatif signifie qu on part d une solution inefficace, et qu elle est améliorée progressivement en fonction de l expérience de l agent (ou des agents).

Processus de décision de Markov Processus de décision de Markov Itération de la valeur TD(λ) Sarsa(λ) Cadre formel classique de l apprentissage par renforcement: discret, fini, stochastique, totalement observable. Définition Un processus de décision de Markov est défini par S, ensemble fini d états. s S. A, ensemble fini d actions pour l état s. a A(s). r, fonction récompense. r(s, a) R P, probabilités de transition. P(s s, a) γ [ 1, 1] s 0 s 1 s 2 s 3

Exemple: Labyrinthe Processus de décision de Markov Itération de la valeur TD(λ) Sarsa(λ) S = ensemble des cases de la grille A(s) {Haut, Bas, Gauche, Droite}. r(s, a) = 1, sauf dans l état terminal où r(s, a) = 0 Les transitions sont déterministes. l état terminal est un état puits. γ = 1

Politiques et fonctions valeurs Processus de décision de Markov Itération de la valeur TD(λ) Sarsa(λ) Définition Une politique π est une fonction qui à un état associe une action. π(s) A(s). Définition La fonction valeur d une politique π est notée V π, et définie par: ( ) V π (s) = E γ t r t r t étant la récompense obtenue à l instant t, en partant de l état s à l instant 0 et en appliquant π. t=0

Itération de la valeur Processus de décision de Markov Itération de la valeur TD(λ) Sarsa(λ) Calcul de V π : Équation de Bellman ( ) V π (s) = E γ t r t = E ( r ( s, π(s) ) + γv π (s ) ) t=0 Équation de point fixe V π = f (V π ). Résolution par itération. Politique gloutonne par rapport à V (Démo) π(s) = arg max a A(s) E( r(s, a) + γv (s ) )

TD(λ) Introduction Processus de décision de Markov Itération de la valeur TD(λ) Sarsa(λ) Algorithme en ligne Itération de la valeur: balaie tous les états TD(λ): apprendre sur les états visités au cours de trajectoires. Différence temporelle δ = r(s, a) + γv (s ) V (s) Différence entre récompense obtenue et espérée δ > 0: bonne surprise δ < 0: mauvaise surprise (Démo)

Sarsa(λ) : apprentissage sans modèle Processus de décision de Markov Itération de la valeur TD(λ) Sarsa(λ) Fonction Q ( Q π (s, a) = E γ t r t ), a 0 = a t=0 Q π (s, a) = E (r(s, a) + γq π( s, π(s ) )) δ = r(s, a) + γq ( s, π(s ) ) Q(s, a) π(s) = arg max Q(s, a) a A(s) (Démo)

Problèmes de grande taille Problèmes de grande taille Inférence statistique TD-Gammon Les nageurs Limites de l approche tabulaire Nombre d états astronomiques Malédiction de la dimensionalité Solution Exploiter les régularités de la structure du problème Généraliser

Principes de l inférence statistique Problèmes de grande taille Inférence statistique TD-Gammon Les nageurs Objectif Définir une règle générale à partir de l observation de cas particuliers. L inférence statistique est... Arbitraire : dépend d hypothèses préalables Dangereuse : généraliser, c est prendre le risque de se tromper

Outils de l inférence statistique Problèmes de grande taille Inférence statistique TD-Gammon Les nageurs Outils pour l apprentissage supervisé Régression linéaire Réseaux de neurones artificiels Arbres de décision Support-vector machines...

Formulation des algorithmes Problèmes de grande taille Inférence statistique TD-Gammon Les nageurs Idée Paramétrer V : V w (s) Remplacer affectation par V (s) w w + ηδ w Ne fonctionne pas bien avec itération de la valeur Fonctionne avec les algorithmes en ligne: TD(λ),...

TD-Gammon (Tesauro, 1992) Problèmes de grande taille Inférence statistique TD-Gammon Les nageurs Perceptron multi-couches 1 500 000 parties d apprentissage Niveau supérieur aux autres programmes Style original Imité depuis par les humains!

Le problème des nageurs Problèmes de grande taille Inférence statistique TD-Gammon Les nageurs continu déterministe : x = f ( x, u) n segments n 1 variables de commande 2n + 2 variables d état r( x, u) = vitesse dans une direction (Démo)

Le TD(λ) continu Introduction Problèmes de grande taille Inférence statistique TD-Gammon Les nageurs ( π( x) = arg max r( x, u) s γ V w ( x) + V w u U x ) f ( x, u) H = r ( x, π( x) ) s γ V w ( x) + V w x f ( x, π( x) ) w = ηh e e = (s γ + s λ ) e + V w ( x) w x = f ( x, π( x) )

Introduction Résumé et perspectives Applicable à une grande variété de problèmes Des succès expérimentaux Un domaine en développement Pour aller plus loin Compromis exploration/exploitation Optimisation dans l espace des politique (acteur-critique,... ) Recherche en profondeur (α-β, A ) Didactique: aide de l agent apprenant (imitation, façonnage) Problèmes partiellement observables, multi-agents