Algorthme approché d optmsaton d un modèle de Processus Décsonnel de Markov sur Graphe Nathale Peyrard Régs Sabbadn INRA-MIA Avgnon et Toulouse E-Mal: {peyrard,sabbadn}@toulouse.nra.fr Réseau MSTGA, Avgnon, 20-21 Octobre 2007
Processus Décsonnel de Markov Itératon de la Poltque exacte Processus Décsonnels de Markov (1) Défnton (Processus Décsonnel de Markov) Un PDM est défn par un quadruplet < X, A, p, r > : X = {x 1,..., x X }. Etats possbles du système A = {a 1,..., a A }. Actons applcables p(x x, a). Probablté de transton entre états r(x, a). Foncton de récompense mmédate. Poltque : δ : X A Trajectore : τ =< x 0,δ(x 0 ), x 1,δ(x 1 ),..., x t,δ(x t ),... >, t H {1... + } Valeur d une poltque : V δ (x 0 ) = E [ γ t r t (x t,δ(x t )) ], 0 γ 1. t H
Processus Décsonnel de Markov Itératon de la Poltque exacte Processus Décsonnels de Markov (2) Défnton (Soluton d un PDM) Une poltque δ est soluton d un PDM < X, A, p, r > ss V δ (x) V δ (x), δ, x Proposton (Exstence d une poltque optmale) Une poltque optmale δ exste et est soluton du système (non lnéare) : { V δ (x) = max r(x, a) + γ p(x x, a) V δ (x) }, x X a A δ (x) = arg max a A x X { r(x, a) + γ p(x x, a) V δ (x) }, x X x X
Résoluton d un PDM Processus Décsonnel de Markov Itératon de la Poltque exacte Trouver une poltque optmale δ, telle que V δ (x) V δ (x), x Algorthme (Itératon de la Poltque) Alterne évaluaton et améloraton d une poltque courante Évaluaton d une poltque δ : Système lnéare V δ (x) = r(x,δ(x)) + γ p(x x,δ(x)) V δ (x ), x x X Améloraton de la poltque : δ (x) = argmax a A (r(x, a) + γ p(x x, a) V δ (x )), x x X Proprété : V δ (x) V δ (x), x et V δ = V δ δ optmale.
Processus Décsonnel de Markov Itératon de la Poltque exacte Evaluaton de la poltque et mesure d occupaton Défnton (Mesure d occupaton) Sot une poltque δ : X A et x X un état ntal. La mesure d occupaton P x,δ,γ : X [0, 1] est défne par : + y X, P x,δ,γ (y) = (1 γ) γ t P(Xx,δ t = y) t=0 Proposton (Foncton de valeur et mesure d occupaton) x X, V δ (x) = 1 1 γ P x,δ,γ (y) r(y,δ(y)) y X
Lmtes de l Itératon de la Poltque Processus Décsonnel de Markov Itératon de la Poltque exacte Complexté trop élevée lorsque X est grand : Evaluaton. Calcul de P x,δ,γ (y) en tout x, y. Améloraton Calcul d un argmax sur A X. Approxmaton de P x,δ,γ (y) en champ moyen
Défntons Non-optmalté des poltques locales d un PDMG Processus Décsonnels de Markov sur Graphes Défnton (Processus Décsonnel de Markov sur Graphes) Un Processus Décsonnel de Markov sur Graphes est un PDM défn par un quntuplet < X, A, p, r, G > : X = X 1... X n : espace d états multdmensonnel A = A 1... A n : espace d actons multdmensonnel p et r : fonctons de transton et de récompense locales G = (V, B) : graphe orenté de sommets V = {1,...,n} et d arêtes B V 2 exprmant les dépendances entre varables On utlsera auss la noton de vosnage d un sommet : N() = {j {1,..., n},(j, ) B}
Localté d un PDMG Défntons Non-optmalté des poltques locales d un PDMG Défnton (Processus local) Le processus est dt local s p(x x, a) s écrt : n x, x X 2, a A, p(x x, a) = p (x x N(), a ) Défnton (Poltque locale) Une poltque δ : X A est dte locale ss δ = (δ 1,...,δ n ) où δ : X N() A et δ (x N() ) = a A, x N() X N(). Défnton (Récompense locale) Une foncton de récompense r : X A R est dte locale ss x, a X A, r(x, a) = V =1 r (x N(), a ).
Exemple PDM et Itératon de la Poltque Approchée Défntons Non-optmalté des poltques locales d un PDMG Un Processus Décsonnel Markoven sur Graphe
Exemple PDM et Itératon de la Poltque Approchée Défntons Non-optmalté des poltques locales d un PDMG Localté autour du noeud 4
Exemple PDM et Itératon de la Poltque Approchée Défntons Non-optmalté des poltques locales d un PDMG Probablté de transton locale
Exemple PDM et Itératon de la Poltque Approchée Défntons Non-optmalté des poltques locales d un PDMG Récompense locale
Exemple PDM et Itératon de la Poltque Approchée Défntons Non-optmalté des poltques locales d un PDMG Poltque locale
Non-optmalté des poltques locales Défntons Non-optmalté des poltques locales d un PDMG {0,1} {0,1} {0,1} {0,1} X 1 X 2 X 3 A 3 t t+1 t+1 t r 3 t+1 p 1 (x t+1 1 = 0) = p 1 (x t+1 1 = 1) = 1 2, p 2 (x t+1 2 = x1 t x 1 t) = p 3(x t+1 3 = z a t 3 = z) = 1 r 3 (x2 t, x 3 t) = 1 s x 2 t = x 3 t et 0 snon. Poltque locale : δ3 l : (x 2 t, x 3 t) at 3 V δ l (x) = 1 3 2(1 γ), x Poltque optmale : a t 3 = δ 3 (x 1 t) = x 1 t V δ 3 (x) = 1 (1 γ), x
Défntons Non-optmalté des poltques locales d un PDMG Recherche d une bonne poltque locale La melleure poltque locale d un PDMG peut être arbtrarement lon de la poltque optmale : S X = n, V δ l (x) = 1 3 n V δ3 (x), x, mas les poltques locales ne nécesstent qu un espace rasonnable pour être décrtes. La melleure poltque locale est emprquement bonne. L ensemble des poltques locales est de talle rasonnable. Questons : Algorthme de type champ moyen pour le calcul de bonnes poltques locales? Evaluaton de l erreur lée à l approxmaton?
Evaluaton de la poltque approchée Améloraton de la poltque approchée Décomposton de la foncton de valeur Proposton V δ (x) = 1 1 γ y X P x,δ,γ (y) ( n r (y N(),δ (y N() ) ) =1 V δ (x) = 1 1 γ y X Sot, V δ (x) = n =1 Vδ (x) où P x,δ,γ (y) r (y N(),δ (y N() )) Problème! Vδ dépend toujours de x en enter!
Evaluaton de la poltque approchée Améloraton de la poltque approchée Décomposton par approxmaton en champ moyen Rappel + P x,δ,γ (y) = (1 γ) γ t P(Xx,δ t = y) t=0 Défnton (Approxmaton en CM de la mesure d occupaton) P(X t x,δ = y) = P δ(x t = y X 0 = x) Ĉ,t δ (X t = y X 0 = x )
Evaluaton de la poltque approchée Améloraton de la poltque approchée Décomposton par approxmaton en champ moyen Défnton Ĉ N(),t δ (x N(), y N() ) = Ĉ j,t δ (X j t = y j Xj 0 = x j ) j N() En utlsant l approxmaton de la mesure d occupaton : Proposton (Foncton de valeur approchée dans un PDMG) V δ (x) V δ (x) n + =1 t=0 n ˆV δ (x N()) =1 ( ) γ t Ĉ N(),t δ (x N(), y N() ) r (y N(),δ (y N() )) y N()
Evaluaton de la poltque approchée Améloraton de la poltque approchée Approxmaton des fonctons de transton locales ˆQ,1 δ (y x ) : approxmaton de p δ (y x N() ) = p (y x N (),δ(x N() )) ˆQ,1 δ (y x ) = Sot, s on pose P 0 (x) = 1 X N() X N() p δ (y x N() ) n P 0, (x ) où P 0, unforme, =1 ˆQ,1 δ (y [ x ) = E P 0 p δ (y x, X N() ) ]
Evaluaton de la poltque approchée Améloraton de la poltque approchée Approxmaton des fonctons de transton locales Défnton (Approxmaton de type champ moyen) Une dstrbuton P(u 1,..., u n ) est approchée par une dstrbuton ndépendante n =1 Q (u ) mnmsant la dvergence de Kullback-Lebler : ( Q )] KL(Q P) = E Q [log. P Proposton (Mnmsaton de dvergence de Kullback-Lebler) ˆQ 1 δ arg mn Q 1 KL ( Q 1 (X 1 X 0 ).P 0 (X 0 ) p δ (X 1 X 0 ).P 0 (X 0 ) ) Remarque : mnmsaton sur la lo jonte de (X 0, X 1 )!
Evaluaton de la poltque approchée Améloraton de la poltque approchée Calcul tératf de Ĉ,t δ (X t = y X 0 = x ) P t, ˆQ,t+1 δ (x t+1 δ (x ) est la probablté approchée que X t = x x t ) est la probablté approchée de passer de x t à x t+1 (à l nstant t) Ĉ,t δ (x t x 0 ) est la probablté approchée de passer de x 0 à x t en t pas de temps Défnton (Calcul de,t ˆQ δ (x t t 1 x ), Ĉ,t δ (x t x 0 ), P t, δ (x )) ˆQ,t δ (x t t 1 x ) = E P t 1 Ĉ,t δ (x t x 0 ) = x t P t, δ (x t ) = [ p δ (x t ˆQ,t δ (x t t 1 x t 1 x, X t 1 N() 1 )] ) Ĉ,t 1 Ĉ,t δ (x t x 0 ) P 0, δ (x 0 ) δ (x t 1 x 0 )
Remarques PDM et Itératon de la Poltque Approchée Evaluaton de la poltque approchée Améloraton de la poltque approchée P x,δ,γ (y) remplacé par n ˆP =1 x,δ,γ (y ), va l approxmaton de p δ(x t,t ) par ˆQ δ (x t x t 1 N() x t 1 ). Un processus nterdépendant statonnare est approché par un ensemble de processus ndépendants non-statonnares Deux facteurs d approxmaton : ˆQ,t δ (x t t 1 x ) est obtenu va une presque-mnmsaton d une dvergence (approxmaton térée à chaque t) Approxmaton ntale (chox d une dstrbuton ntale P 0 ) Questons lées à ces approxmatons,t ˆQ δ (x t t 1 x Borner l erreur de ) borner l erreur de ˆV δ (x) Chox judceux de P 0 (x), entre lo unforme, Drac (s x 0 fxé) et approxmaton d une mesure d occupaton smulée
Evaluaton de la poltque approchée Améloraton de la poltque approchée Améloraton de la poltque approchée Améloraton de la poltque : δ (x) = arg max(r(x, a) + γ p(x x, a) ˆV δ (x )), x a A x X On peut montrer : δ (x) = arg max a 1...a n n =1 r (x N(), a )+γ x N() Sot δ (x) = arg max a 1...a n P(x N() x N(N()), a N() ) ˆV δ (x N() ) n f (x N(N()), a N() ) =1 Même s δ est locale, δ ne l est pas!
Evaluaton de la poltque approchée Améloraton de la poltque approchée Améloraton de la poltque approchée ˆδ (x) = arg max r (x N(), a )+γ P δ (x a N() x N(N()), a ) ˆV δ (x N() ) x N() où P δ (x N() x N(N()), a ) = p (x x N(), a ) j N() mas ˆδ (x) dépend de x N(N()). On pose donc : et ˆδ ˆP δ (x N() x N(), a ) = E P 0 p j (x j x N(j),δ(x N(j) )), [ ] P δ (x N() x N(), X N(N()) N(), a ) (x) = arg max r (x N(), a )+γ ˆP δ (x a N() x N(), a ) ˆV δ (x N() ) x N()
Remarques PDM et Itératon de la Poltque Approchée Evaluaton de la poltque approchée Améloraton de la poltque approchée Encore deux approxmatons : On amélore tous les ˆδ ndépendament en consdérant les δ j fxés Améloraton séquentelle? Encore une approxmaton en espérance de P δ (x N() x N(N()), a ) par ˆP δ (x N() x N(), a ) P 0 non unforme?
Evaluaton de la poltque approchée Améloraton de la poltque approchée L algorthme d tératon de la poltque approchée alterne : phase d évaluaton approchée et phase d améloraton approchée (basée également sur le Champ Moyen) Jusqu à trouver deux poltques locales successves δ et δ telles que ˆV δ = ˆV δ.
Concluson provsore Evaluaton de la poltque approchée Améloraton de la poltque approchée Un formalsme (PDMG) et une méthode de résoluton approchée basée sur le Champ Moyen pour résoudre des problèmes de PDM factorsés. Une méthode approchée de complexté lnéare en le nombre de varables Ben que sans garante, la méthode converge vers des poltques globales apparement de bonne qualté Autres méthodes de type Programmaton Lnéare Approchée (Forsell et Sabbadn, 2006)
Processus de contact contrôlé Evaluaton de la poltque approchée Améloraton de la poltque approchée Défnton (Processus de contact contrôlé) X = {S, I, R} : san, nfecté, retré A = {, } : soler, ne ren fare p (x t+1 = R x t = R) = 1 ; p (x t+1 p (x t+1 p (x t+1 p (x t+1 = S x t = S, a t = ) = 1 = R x t = I) = α ; p (x t+1 = I x t = I) = 1 α = S xn() t, at = ) = j N(),xj t=i(1 β j) = 1 x t N(), at = ) = 1 j N(),x t j =I(1 β j) r (x t, at ) = c I(x t) + c (a t ) : coûts d nfecton et d solaton Conjecture (Optmalté des poltques locales) Il exste une poltque locale globalement optmale
Processus de contact contrôlé Evaluaton de la poltque approchée Améloraton de la poltque approchée Remarques : Résoudre un processus de contact contrôlé est plus facle que résoudre un PDMG Un processus de contact contrôlé (PCC) admet (peut-être) une poltque optmale locale On peut montrer qu on ne peut pas résoudre exactement un PCC en temps polynomal Questons : est-l plus smple de trouver des bornes de qualté pour l algorthme de champ moyen applqué à un PCC? L algorthme de champ moyen se smplfe-t-l dans le cas d un PCC?