Introduction à l apprentissage par renforcement

Documents pareils
Coup de Projecteur sur les Réseaux de Neurones

Apprentissage par renforcement Notes de cours

4.2 Unités d enseignement du M1

Apprentissage artificiel pour l ordonnancement des tâches dans les grilles de calcul

Apprentissage Automatique

Apprentissage par renforcement (1a/3)

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

L apprentissage automatique

MCMC et approximations en champ moyen pour les modèles de Markov


Introduction à l'apprentissage par renforcement

CMI ECONOMIE, FINANCE QUANTITATIVE ET STATISTIQUES - PARCOURS FORMATION EN APPRENTISSAGE

Modélisation du comportement habituel de la personne en smarthome

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

I Stabilité, Commandabilité et Observabilité Introduction Un exemple emprunté à la robotique Le plan Problème...

Outils logiciels pour la combinaison de vérification fonctionnelle et d évaluation de performances au sein de CADP

Algorithmes pour la planification de mouvements en robotique non-holonome

1 de 46. Algorithmique. Trouver et Trier. Florent Hivert. Mél : Florent.Hivert@lri.fr Page personnelle : hivert

Réseaux grande distance

UNIVERSITE DES ANTILLES et DE LA GUYANE Campus de Fouillole BP Pointe-à-Pitre Cedex CONTRAT LE MASTER NOM DU DOMAINE STS

Couplage efficace entre Optimisation et Simulation stochastique Application à la maintenance optimale d une constellation de satellites

Introduction. I Étude rapide du réseau - Apprentissage. II Application à la reconnaissance des notes.

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

Température corporelle d un castor (une petite introduction aux séries temporelles)

Web Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.

Conception d un lecteur de musique intelligent basé sur l apprentissage automatique.

Introduction au datamining

5255 Av. Decelles, suite 2030 Montréal (Québec) H3T 2B1 T: F:

Résumé

Intelligence Artificielle et Robotique

Resolution limit in community detection

Initiation à l algorithmique

Résolution d équations non linéaires

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Master IMA - UMPC Paris 6 RDMM - Année Fiche de TP

Peut-on imiter le hasard?

Le modèle de Black et Scholes

Propriétés des options sur actions

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Ordonnancement robuste et décision dans l'incertain

CarrotAge, un logiciel pour la fouille de données agricoles

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Introduction au Data-Mining

MATHS FINANCIERES. Projet OMEGA

Intelligence Artificielle Planification

Routage AODV. Languignon - Mathe - Palancher - Pierdet - Robache. 20 décembre Une implémentation de la RFC3561

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Algèbre 40 Analyse Stat. 1 - IES : Probabilités discrètes et calcul intégral 29,5 6 Stat. 2 - IES : Probabilités générales 54 8 UE1-02 M-E-IS

Probabilités III Introduction à l évaluation d options

Optimisation Combinatoire (Méthodes approchées) II. Recherche Locale simple (Les bases)

Data 2 Business : La démarche de valorisation de la Data pour améliorer la performance de ses clients

ET 24 : Modèle de comportement d un système Boucles de programmation avec Labview.

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

Annexe 6. Notions d ordonnancement.

Organisation du parcours M2 IR Les unités d enseignements (UE) affichées dans la partie tronc commun sont toutes obligatoires, ainsi que le stage et

Machines virtuelles Cours 1 : Introduction

Cours de Recherche Opérationnelle IUT d Orsay. Nicolas M. THIÉRY. address: Nicolas.Thiery@u-psud.fr URL:

CHAPITRE 5. Stratégies Mixtes

L E Ç O N. Marches aléatoires. Niveau : Terminale S Prérequis : aucun

Chaînes de Markov au lycée

Tâche complexe produite par l académie de Clermont-Ferrand. Mai 2012 LE TIR A L ARC. (d après une idée du collège des Portes du Midi de Maurs)

Modélisation aléatoire en fiabilité des logiciels

Efficacité énergétique des réseaux de cœur et d accès

introduction Chapitre 5 Récursivité Exemples mathématiques Fonction factorielle ø est un arbre (vide) Images récursives

Les apports de l informatique. Aux autres disciplines

Conception de réseaux de télécommunications : optimisation et expérimentations

de calibration Master 2: Calibration de modèles: présentation et simulation d

PROGRAMME DETAILLE. Parcours en première année en apprentissage. Travail personnel CC + ET réseaux

Théorèmes de Point Fixe et Applications 1

Programme scientifique Majeure INTELLIGENCE NUMERIQUE. Mentions Image et Réalité Virtuelle Intelligence Artificielle et Robotique

Jeux sous forme extensive (Jeux dynamiques)

Agrégation des portefeuilles de contrats d assurance vie

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Algorithmes récursifs

Eléments de spécification des systèmes temps réel Pierre-Yves Duval (cppm)

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Débouchés professionnels

Algorithmique I. Algorithmique I p.1/??

Le calcul formel dans l enseignement des mathématiques

Jean-Philippe Préaux

Pourquoi l apprentissage?

Formation Excel, Niveau initiation, module 1 DUREE DE LA FORMATION OBJECTIFS DE LA FORMATION

Dossier projet isn 2015 par Victor Gregoire

Canevas théoriques du projet sur le poker Partie A

Introduction à la théorie des files d'attente. Claude Chaudet

Contrôle stochastique d allocation de ressources dans le «cloud computing»

GENIE STATISTIQUE GESTION DES RISQUES ET INGENIERIE FINANCIERE MARKETING QUANTITATIF ET REVENUE MANAGEMENT

Object Removal by Exemplar-Based Inpainting

Théorie des Jeux Et ses Applications

Programmes des classes préparatoires aux Grandes Ecoles

Évaluation et implémentation des langages

Se Perfectionner à Excel

Pour obtenir le grade de. Spécialité : Sciences Pour l Ingénieur. Arrêté ministériel : 7 août 2006

Workflow/DataWarehouse/DataMining LORIA - Université d automne Informatique décisionnelle - L. Mirtain 1

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

PROGRAMME DU CONCOURS DE RÉDACTEUR INFORMATICIEN

Transcription:

GRAPPA, Université Charles de Gaulle Lille 3 17 mars 2005

Plan 1 Introduction Problèmes de décision séquentielle Apprentissage par renforcement 2 Processus de décision de Markov Itération de la valeur TD(λ) Sarsa(λ) 3 Problèmes de grande taille Inférence statistique TD-Gammon Les nageurs 4

Problèmes de décision séquentielle Problèmes de décision séquentielle Apprentissage par renforcement Problème Dans un système qui évolue au cours du temps, comment choisir des actions de manière à optimiser un critère? Exemples Jeux (dames, backgammon, poker) Démonstration mathématique Commande optimale Routage Planification 1 2 3 7 4 6? 5 8

Apprentissage par renforcement Problèmes de décision séquentielle Apprentissage par renforcement Définition L apprentissage par renforcement désigne toute méthode adaptative permettant de résoudre un problème de décision séquentielle. (d après Sutton et Barto, 1998). Le terme adaptatif signifie qu on part d une solution inefficace, et qu elle est améliorée progressivement en fonction de l expérience de l agent (ou des agents).

Processus de décision de Markov Processus de décision de Markov Itération de la valeur TD(λ) Sarsa(λ) Cadre formel classique de l apprentissage par renforcement: discret, fini, stochastique, totalement observable. Définition Un processus de décision de Markov est défini par S, ensemble fini d états. s S. A, ensemble fini d actions pour l état s. a A(s). r, fonction récompense. r(s, a) R P, probabilités de transition. P(s s, a) γ [ 1, 1] s 0 s 1 s 2 s 3

Exemple: Labyrinthe Processus de décision de Markov Itération de la valeur TD(λ) Sarsa(λ) S = ensemble des cases de la grille A(s) {Haut, Bas, Gauche, Droite}. r(s, a) = 1, sauf dans l état terminal où r(s, a) = 0 Les transitions sont déterministes. l état terminal est un état puits. γ = 1

Politiques et fonctions valeurs Processus de décision de Markov Itération de la valeur TD(λ) Sarsa(λ) Définition Une politique π est une fonction qui à un état associe une action. π(s) A(s). Définition La fonction valeur d une politique π est notée V π, et définie par: ( ) V π (s) = E γ t r t r t étant la récompense obtenue à l instant t, en partant de l état s à l instant 0 et en appliquant π. t=0

Itération de la valeur Processus de décision de Markov Itération de la valeur TD(λ) Sarsa(λ) Calcul de V π : Équation de Bellman ( ) V π (s) = E γ t r t = E ( r ( s, π(s) ) + γv π (s ) ) t=0 Équation de point fixe V π = f (V π ). Résolution par itération. Politique gloutonne par rapport à V (Démo) π(s) = arg max a A(s) E( r(s, a) + γv (s ) )

TD(λ) Introduction Processus de décision de Markov Itération de la valeur TD(λ) Sarsa(λ) Algorithme en ligne Itération de la valeur: balaie tous les états TD(λ): apprendre sur les états visités au cours de trajectoires. Différence temporelle δ = r(s, a) + γv (s ) V (s) Différence entre récompense obtenue et espérée δ > 0: bonne surprise δ < 0: mauvaise surprise (Démo)

Sarsa(λ) : apprentissage sans modèle Processus de décision de Markov Itération de la valeur TD(λ) Sarsa(λ) Fonction Q ( Q π (s, a) = E γ t r t ), a 0 = a t=0 Q π (s, a) = E (r(s, a) + γq π( s, π(s ) )) δ = r(s, a) + γq ( s, π(s ) ) Q(s, a) π(s) = arg max Q(s, a) a A(s) (Démo)

Problèmes de grande taille Problèmes de grande taille Inférence statistique TD-Gammon Les nageurs Limites de l approche tabulaire Nombre d états astronomiques Malédiction de la dimensionalité Solution Exploiter les régularités de la structure du problème Généraliser

Principes de l inférence statistique Problèmes de grande taille Inférence statistique TD-Gammon Les nageurs Objectif Définir une règle générale à partir de l observation de cas particuliers. L inférence statistique est... Arbitraire : dépend d hypothèses préalables Dangereuse : généraliser, c est prendre le risque de se tromper

Outils de l inférence statistique Problèmes de grande taille Inférence statistique TD-Gammon Les nageurs Outils pour l apprentissage supervisé Régression linéaire Réseaux de neurones artificiels Arbres de décision Support-vector machines...

Formulation des algorithmes Problèmes de grande taille Inférence statistique TD-Gammon Les nageurs Idée Paramétrer V : V w (s) Remplacer affectation par V (s) w w + ηδ w Ne fonctionne pas bien avec itération de la valeur Fonctionne avec les algorithmes en ligne: TD(λ),...

TD-Gammon (Tesauro, 1992) Problèmes de grande taille Inférence statistique TD-Gammon Les nageurs Perceptron multi-couches 1 500 000 parties d apprentissage Niveau supérieur aux autres programmes Style original Imité depuis par les humains!

Le problème des nageurs Problèmes de grande taille Inférence statistique TD-Gammon Les nageurs continu déterministe : x = f ( x, u) n segments n 1 variables de commande 2n + 2 variables d état r( x, u) = vitesse dans une direction (Démo)

Le TD(λ) continu Introduction Problèmes de grande taille Inférence statistique TD-Gammon Les nageurs ( π( x) = arg max r( x, u) s γ V w ( x) + V w u U x ) f ( x, u) H = r ( x, π( x) ) s γ V w ( x) + V w x f ( x, π( x) ) w = ηh e e = (s γ + s λ ) e + V w ( x) w x = f ( x, π( x) )

Introduction Résumé et perspectives Applicable à une grande variété de problèmes Des succès expérimentaux Un domaine en développement Pour aller plus loin Compromis exploration/exploitation Optimisation dans l espace des politique (acteur-critique,... ) Recherche en profondeur (α-β, A ) Didactique: aide de l agent apprenant (imitation, façonnage) Problèmes partiellement observables, multi-agents