Introduction à l apprentissage par renforcement

Dimension: px

Commencer à balayer dès la page:

Download "Introduction à l apprentissage par renforcement"

Claudine Marie-Claire Beaudet
il y a 9 ans
Total affichages :

1 GRAPPA, Université Charles de Gaulle Lille 3 17 mars 2005

2 Plan 1 Introduction Problèmes de décision séquentielle Apprentissage par renforcement 2 Processus de décision de Markov Itération de la valeur TD(λ) Sarsa(λ) 3 Problèmes de grande taille Inférence statistique TD-Gammon Les nageurs 4

3 Problèmes de décision séquentielle Problèmes de décision séquentielle Apprentissage par renforcement Problème Dans un système qui évolue au cours du temps, comment choisir des actions de manière à optimiser un critère? Exemples Jeux (dames, backgammon, poker) Démonstration mathématique Commande optimale Routage Planification ? 5 8

4 Apprentissage par renforcement Problèmes de décision séquentielle Apprentissage par renforcement Définition L apprentissage par renforcement désigne toute méthode adaptative permettant de résoudre un problème de décision séquentielle. (d après Sutton et Barto, 1998). Le terme adaptatif signifie qu on part d une solution inefficace, et qu elle est améliorée progressivement en fonction de l expérience de l agent (ou des agents).

5 Processus de décision de Markov Processus de décision de Markov Itération de la valeur TD(λ) Sarsa(λ) Cadre formel classique de l apprentissage par renforcement: discret, fini, stochastique, totalement observable. Définition Un processus de décision de Markov est défini par S, ensemble fini d états. s S. A, ensemble fini d actions pour l état s. a A(s). r, fonction récompense. r(s, a) R P, probabilités de transition. P(s s, a) γ [ 1, 1] s 0 s 1 s 2 s 3

6 Exemple: Labyrinthe Processus de décision de Markov Itération de la valeur TD(λ) Sarsa(λ) S = ensemble des cases de la grille A(s) {Haut, Bas, Gauche, Droite}. r(s, a) = 1, sauf dans l état terminal où r(s, a) = 0 Les transitions sont déterministes. l état terminal est un état puits. γ = 1

7 Politiques et fonctions valeurs Processus de décision de Markov Itération de la valeur TD(λ) Sarsa(λ) Définition Une politique π est une fonction qui à un état associe une action. π(s) A(s). Définition La fonction valeur d une politique π est notée V π, et définie par: ( ) V π (s) = E γ t r t r t étant la récompense obtenue à l instant t, en partant de l état s à l instant 0 et en appliquant π. t=0

8 Itération de la valeur Processus de décision de Markov Itération de la valeur TD(λ) Sarsa(λ) Calcul de V π : Équation de Bellman ( ) V π (s) = E γ t r t = E ( r ( s, π(s) ) + γv π (s ) ) t=0 Équation de point fixe V π = f (V π ). Résolution par itération. Politique gloutonne par rapport à V (Démo) π(s) = arg max a A(s) E( r(s, a) + γv (s ) )

9 TD(λ) Introduction Processus de décision de Markov Itération de la valeur TD(λ) Sarsa(λ) Algorithme en ligne Itération de la valeur: balaie tous les états TD(λ): apprendre sur les états visités au cours de trajectoires. Différence temporelle δ = r(s, a) + γv (s ) V (s) Différence entre récompense obtenue et espérée δ > 0: bonne surprise δ < 0: mauvaise surprise (Démo)

10 Sarsa(λ) : apprentissage sans modèle Processus de décision de Markov Itération de la valeur TD(λ) Sarsa(λ) Fonction Q ( Q π (s, a) = E γ t r t ), a 0 = a t=0 Q π (s, a) = E (r(s, a) + γq π( s, π(s ) )) δ = r(s, a) + γq ( s, π(s ) ) Q(s, a) π(s) = arg max Q(s, a) a A(s) (Démo)

11 Problèmes de grande taille Problèmes de grande taille Inférence statistique TD-Gammon Les nageurs Limites de l approche tabulaire Nombre d états astronomiques Malédiction de la dimensionalité Solution Exploiter les régularités de la structure du problème Généraliser

12 Principes de l inférence statistique Problèmes de grande taille Inférence statistique TD-Gammon Les nageurs Objectif Définir une règle générale à partir de l observation de cas particuliers. L inférence statistique est... Arbitraire : dépend d hypothèses préalables Dangereuse : généraliser, c est prendre le risque de se tromper

13 Outils de l inférence statistique Problèmes de grande taille Inférence statistique TD-Gammon Les nageurs Outils pour l apprentissage supervisé Régression linéaire Réseaux de neurones artificiels Arbres de décision Support-vector machines...

14 Formulation des algorithmes Problèmes de grande taille Inférence statistique TD-Gammon Les nageurs Idée Paramétrer V : V w (s) Remplacer affectation par V (s) w w + ηδ w Ne fonctionne pas bien avec itération de la valeur Fonctionne avec les algorithmes en ligne: TD(λ),...

15 TD-Gammon (Tesauro, 1992) Problèmes de grande taille Inférence statistique TD-Gammon Les nageurs Perceptron multi-couches parties d apprentissage Niveau supérieur aux autres programmes Style original Imité depuis par les humains!

16 Le problème des nageurs Problèmes de grande taille Inférence statistique TD-Gammon Les nageurs continu déterministe : x = f ( x, u) n segments n 1 variables de commande 2n + 2 variables d état r( x, u) = vitesse dans une direction (Démo)

17 Le TD(λ) continu Introduction Problèmes de grande taille Inférence statistique TD-Gammon Les nageurs ( π( x) = arg max r( x, u) s γ V w ( x) + V w u U x ) f ( x, u) H = r ( x, π( x) ) s γ V w ( x) + V w x f ( x, π( x) ) w = ηh e e = (s γ + s λ ) e + V w ( x) w x = f ( x, π( x) )

18 Introduction Résumé et perspectives Applicable à une grande variété de problèmes Des succès expérimentaux Un domaine en développement Pour aller plus loin Compromis exploration/exploitation Optimisation dans l espace des politique (acteur-critique,... ) Recherche en profondeur (α-β, A ) Didactique: aide de l agent apprenant (imitation, façonnage) Problèmes partiellement observables, multi-agents

Documents pareils

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche