Processus Décisionnels Markoviens

1 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens Processus Décisionnels Markoviens Représentation d une interaction synchrone entre un agent et le monde États Monde Agent Actions Planification des actions d un agent dans l incertain 2 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 1

1. PDM classiques Incertain probabiliste Récompenses additives Critère de décision EU Cours 4.2 - Processus décisionnels Markoviens Représentation dans un graphe d état 0.4 8 Etat État courant 9 0.1 0.2 2 7 initial 0.3 10 4 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 2

Formalisation d un PDM 5 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens Hypothèse de Markov 0.4 s a 9 0.1 0.2 0.3 6 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 3

Décisions et Stratégies Règles de décision : «si l état est s alors exécuter l action a» Représentation par une fonction de décision Hypothèse : observabilité totale (on connaît l état courant) 7 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens Décision dynamique n étapes de décision (n = horizon, fini ou infini) s 1 2 n-1 n Stratégie = 8 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 4

Critères à optimiser Horizon fini Horizon infini 9 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens Évaluation locale d une stratégie Le cas déterministe v u d(u) d(v) à horizon 1 à horizon 2 10 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 5

Évaluation Locale d une stratégie Le cas non-déterministe x d(x) v à horizon 1 u d(u) y d(v) à horizon 2 d(y) + γ 11 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens Evaluation Locale d une stratégie Dernière décision Décision à t étapes de la fin 12 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 6

Décisions optimales (horizon fini) Dernière décision Décision à t étapes de la fin γ = 1 13 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens Algorithme pour le cas d un horizon fini 14 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 7

Algorithme d itération de la valeur 15 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens Une autre approche 16 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 8

Application : planification en IA Robot 1 2 3 4 5 6 7 1 goals On souhaite atteindre l objectif dans une fenêtre de temps qui autorise au plus 3 mouvements 0.4 1 0.4 1 0.2 1 1 17 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens Graphe de décision associé 1 2 3 4 5 6 7 1 goals 3 1 0.6 4 0.6 2 4 0.8 5 1 7 6 0.8 4 2 5 7 6 0 0 1 18 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 9

Décisions optimales (horizon infini) 19 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens Calcul de la stratégie optimale Algorithme de l itération de la valeur (Bellman, 57) 20 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 10

Garantie de performance Borne de l erreur (Williams and Baird, 1993) 21 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens Exemple γ = 0.75 s1 s2 s3 s4 left s1 s2 s3 s4 s1 0,9 0,1 0 0 s2 0,9 0 0,1 0 s3 0 0,9 0 0,1 s4 0 0 0,9 0,1 s1 s2 s3 s4 ql 0 0 0 1 qr 0 1 0 0 V1 0 1 0 1 right s1 s2 s3 s4 s1 0.1 0,9 0 0 s2 0,1 0 0,9 0 s3 0 0,1 0 0,9 s4 0 0 0,1 0.9 22 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 11

Itération de la valeur s1 s2 s3 s4 left s1 s2 s3 s4 ql 0 0 0 1 s1 0.9 0.1 0 0 qr 0 1 0 0 s2 0.9 0 0.1 0 0 1 0 1 s3 0 0.9 0 0.1 s4 0 0 0.9 0.1 ql 0.08 0.00 0.75 1.08 qr 0.68 1.00 0.75 0.00 right s1 s2 s3 s4 0.675 1 0.75 1.075 s1 0.1 0.9 0 0 s2 0.1 0 0.9 0 ql 3 1 0.76 1.59 s3 0 0.1 0 0.9 qr 0.68 1.56 0.80 0.06 s4 0 0 0.1 0.9 0.675 1.557 0.801 1.587 22 ql 1.23 1.19 1.74 2.38 qr 1.56 2.32 1.78 0.13 1.562 2.316 1.777 2.377 23 ql 1.23 1.19 1.74 2.38 qr 1.56 2.32 1.78 0.13 1.563 2.317 1.778 2.378 24 ql 1.23 1.19 1.74 2.38 qr 1.56 2.32 1.78 0.13 1.564 2.317 1.779 2.379 s1 s2 s3 s4 23 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens Algorithme d itération de la valeur 24 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 12

Une autre approche 25 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens Observabilité partielle (POMDPs) L agent n est pas capable de connaître avec certitude l état courant Déplacement à droite (qui réussit à 0.9) s1 s2 s3 s4 Observation on ne voit pas le but Révision des croyances 0.33 0.33 0.33 0.1 0.45 0.45 26 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 13

Pour aller plus loin Tutorial sur le web http://www.cs.brown.edu/research/ai/pomdp/tutorial/index.html Articles http://www.cs.duke.edu/~mlittman/topics/pomdp-page.html 27 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 14