MDP hybrides sans intégration analytique en utilisant régression, échantillonnage et mises-à-jour locales

Transcription

1 MDP hybrides sans intégration analytique en utilisant régression, échantillonnage et mises-à-jour locales Florent Teichteil-Königsbuch and Guillaume Infantes ONERA-CERT 2, av. Edouard Belin BP Toulouse Cedex 4 {florent.teichteil,guillaume.infantes}@onera.fr ONERA-CERT 2, av Edouard Belin BP Toulouse Cedex 4, France florent.teichteil@onera.fr et guillaume.infantes@onera.fr Résumé : Dans la plupart des problèmes réels de décision dans l incertain, des variables continues (par exemple le niveau de carburant) doivent être prises en compte. Le cadre des Processus Décisionnels de Markov Hybrides (PDMH, HMDP) permet de modéliser directement à la fois les composantes discrètes et continues de l espace d états. Les principales difficultés avec les PDMH sont : comment représenter de façon compacte la fonction de valeur (l espérance des gains) et comment la mettre à jour efficacement (effectuer le Bellman backup ) sur l espace hybride? Dans le cas général, le calcul analytique de la mise-à-jour est impossible sans simplification du modèle, particulièrement lorsque l on veut mettre à jour sur l ensemble de l espace d états, et une représentation compacte de la fonction de valeur doit nécessairement passer par une approximation du résultat de ce calcul. Nous présentons HRTDP, un algorithme qui lève les restrictions sur la forme des fonctions de transition, tout en permettant une représentation compacte de la fonction de valeur. Ceci est rendu possible grâce aux mises-à-jour asynchrones sur seulement certaines parties de l espace hybride, approximé par des techniques d échantillonnage, et grâce à des techniques de régression modernes utilisées pour avoir des représentation compactes de la fonction de valeur, ceci sans perdre en précision. Il tire également avantage d avancées récentes dans le domaines de la planification heuristique en avant : construction de politique partielle reposant sur des heuristiques de relaxation indépendantes du domaine, et étend ce cadre aux domaines hybrides. Nous montrons l intérêt de notre approche sur différentes instances de deux problèmes hybrides avec des fonction de transition complexes : search-and-rescue et gestion du trafic sol d un aéroport. 1 Introduction Malgré des avancées récentes, la prise de décision autonome est toujours un défi pour des scénarios réalistes. Une cause est que de tels scénarios impliquent la prise en compte du l indéterminisme dans de grands espaces. Les Processus Décisionnels de Markov (MDPs) ont prouvé récemment leur capacité à traiter de larges espaces en modélisant l indéterminisme par des probabilités, particulièrement en utilisant des recherches en avant se basant sur des heuristiques de façon à élaguer l espace de recherche. Mais un autre problème fondamental pour la mise en œuvre réelle est la possibilité de gérer des caractéristiques continues de l espace des états. Typiquement, il est impossible de gérer de façon native les ressources d un agent dans les MDPs. En général, de telles composantes sont discrétisées, ce qui rend l espace de recherche exponentiellement plus grand, tout en dégradant la précision de la représentation de telles composantes. Les MDPs hybrides (où l espace des états est un produit cartésien entre les variables d état continues et discrètes) permettent une représentation compacte de grands MDPs avec des composantes continues, comme nous allons le montrer dans la section 2. En utilisant ce cadre, des problèmes réalistes peuvent être facilement modélisés, nous présentons deux exemples dans la section 2.3. Autant que nous sachions, il y a eu assez peu de travaux dans le domaine des HMDPs, comme nous montrons section 2.1. Les obstacles principaux pour résoudre les HMDPs sont : la représentation de l espérance des gains (la fonction de valeur) sur l espace hybride (à cause du support infini), et le calcul des mises-à-jour de cette fonction, les Bellman backups (à cause de l intégrale hybride sur des variables continues et discrètes corrélées). Afin de résoudre de tels problèmes, il faut disposer d un schéma d approximation pour la fonction de valeur, et d une façon

2 JFPDA 29 de calculer les mises-à-jour efficacement. Des travaux précédents proposent de restreindre les fonctions de transition possibles ainsi que les représentations de la fonction de valeur afin de résoudre ces deux problèmes. La contribution principale de cet article est de lever de telles restrictions en utilisant des mises-à-jour asynchrones de la fonction de valeur. Ceci est rendu possible en adaptant l échantillonnage heuristique en avant utilisé pour des MDPs (discrets), et en représentant de façon compacte la fonction de valeur en utilisant des techniques issues du domaine de l apprentissage automatique. Nous expliquons ce qui est nécessaire pour adapter ces techniques en section 3 et que des avancées récentes du domaines de l apprentissage automatique (en particulier en ce qui concerne la classification et la régression) peuvent être utilisées dans le cœur de l algorithme, et quelles approximations peuvent être utilisées pour les Bellman backups. Il est intéressant de souligner que même si nous utilisons des techniques d apprentissage pour représenter des fonctions dans notre algorithme, nous n apprenons pas la politique comme c est le cas dans l apprentissage par renforcement, nous préférons utiliser des recherches heuristiques en avant et des backups asynchrones. Après avoir expliqué notre algorithme en détails dans la section 4, nous montrons l efficacité de notre approche en section 5. 2 Résolution de Processus Décisionnels de Markov Hybrides Definition 1 Un processus décisionnel de Markov hybride est un quadruplet S, A, T, R avec : S = p i=1 Vc i q i=1 Vd i est le produit cartésien de p variables d état continues et de q variables discrètes. Un état s S est une instanciation de toutes les variables d état : s = ( ) v1, c, vp, c v1, d, vq d. A est l ensemble des actions ; on suppose que les actions sont énumérées et discrètes. Chaque action a A est applicable en un ensemble d états S a. T : S A S [, 1] est la fonction de transition qui modélise les effets des actions ; c est une densité de probabilité sur les variables continues dont l intégration donne les probabilités des variables discrètes. R : S A S R est la fonction de récompense ; R(s, a, s ) est la récompense gagnée en atteignant l état s depuis l état s en appliquant l action a. On suppose que les domaines des variables continues sont dans n importe quel intervalle de R, et que l espace des actions est dénombrable et fini. L optimisation d un HMDP consiste en le calcul de la politique π : S A qui maximise la moyenne sur les trajectoires possibles des récompenses accumulées amorties sur un horizon infini : π (s) = arg max E π A S 2.1 Travaux voisins [ + t= γt r t s, π ] avec γ ], 1[ le facteur d amortissement. Comme nous allons voir dans les exemples, la principale difficulté vient des bellman backups dans des domaines hybrides. Comme l espace des états est composé de variables continues et discrètes, l intégration analytique est impossible dans le cas général. Un autre problème est la représentation de la fonction de valeur elle-même, qui peut être quelconque, et donc doit être approchée. Les auteurs connaissent principalement deux algorithmes pour résoudre des HMDPs. Le premier est HALP (Kveton et al. (26)) ; et l autre est l adaptation de AO aux domaines hybrides, nommé HAO (Meuleau et al. (29)). Le cadre HALP a été le premier algorithme pour résoudre des HMDPs en utilisant la programmation linéaire approchée, projetant la fonction de valeur sur un ensemble fini de fonctions (une base de fonctions ), en discrétisant les variables continues et en utilisant des sommes de fonctions beta pour représenter les transitions. La formulation en programmation linéaire du MDP utilise un ensemble infini de contraintes linéaires pour chaque paire (s, a). Les critiques principales à l encontre de cette approche est que les auteurs utilisent une base de fonctions sur laquelle ils projettent la fonction de valeur, mais sans dire comment trouver une bonne base, et ils ont besoin de limiter sévèrement la forme des fonctions de transitions et de la base de fonction pour effectuer des intégrations analytiques ; ils tronquent également l ensemble des contraintes afin de résoudre le problème linéaire. Alors même que ces restrictions dégradent la qualité de la solution, elles nécessitent malgré tout des implémentations complexes. Un autre problème est la nécessité d utiliser des fonctions de densité qui modélisent la pondération de chaque état dans l optimisation, et ces fonctions sont dures à définir dans certains problèmes. La génération automatique de bonnes bases de fonctions a été présentée récemment dans (Kveton & Hauskrecht (26)), ainsi que la possibilité d utiliser des fonctions de

3 HRTDP transition plus générales (Kveton et al. (26)), montrant que les auteurs sont conscients de ces limitations ; mais ces problèmes ne sont toujours pas entièrement résolus. Dans HAO les auteurs étendent AO à des domaines hybrides. Il effectuent une intégration analytique sur l ensemble d état continu atteignable et représentent la fonction de valeur par une fonction linéaire par morceaux, organisée en arbre-kd (dans l implémentation actuelle), et explorent l espace des états par une recherche arborescente classique, en groupant les états ayant la même valeur. Dans ce cas, les intégrations exactes nécessitent d utiliser des techniques de programmation linéaire coûteuses afin de mettre à jour les vecteurs des fonctions linéaires par morceaux dans les backups. Nous voyons deux problèmes principaux avec cette approche : l intégration elle-même est très lourde, et est dépendante de la représentation utilisée pour la fonction de valeur. De plus, l implémentation actuelle de HAO ne peut pas gérer les cycles (comme dans nos domaines) du fait de la représentation de la fonction de valeur utilisée, et il repose sur une heuristique dépendant du domaine (et qui ne peut être généralisée pour des domaines sans cycles). Nous pouvons également citer (Li & Littman (25)), dans lequel les auteurs utilisent un schéma d approximation de moindre engagement pour la fonction de valeur, mais utilisent néanmoins une représentation en fonction linéaire par morceaux ; et (Marecki et al. (27)) dans lequel la fonction de valeur est représentée comme des distributions de phases. Même si ces représentations sont consistantes et relativement efficaces, elles ne résolvent pas le problème des backups analytiques. 2.2 La malédiction des backups analytiques : proposition d approche Il faut remarquer que le besoin de faire des intégrations exactes vient du fait que tous ces algorithmes effectuent leurs Bellman backups sur l ensemble de l espace d états (éventuellement uniquement atteignable) en même temps. Donc ils ont besoin d une intégration analytique, effectuée par une intégration exacte ; puis d une approximation de la solution. Nous proposons une approche différente, basée sur l utilisation d échantillonage intelligent (rendu facile par l utilisation du cadre de l algorithme RTDP : Barto et al. (1995)), et d apprentissage automatique moderne, particulièrement pour représenter la fonction de valeur (et la confiance en cette approximation), ceci à mémoire constante (ou limitée). Nos points de vue sont les suivants : la fonction de valeur doit être représentée localement (la fonction de valeur globale doit être décomposée en plusieurs fonctions de valeur définies uniquement sur des parties de l espace des états), et ceci lève la contrainte d avoir à utiliser des approximations complexes et des intégrations analytiques ; ensuite, grâce à des mises-à-jour asynchrones de la fonction de valeur (comme dans RTDP), il est consistant de mettre à jour uniquement des représentations locales pour un sous-ensemble d états S i (il n est pas besoin d évaluer la fonction de valeur sur l ensemble des états en même temps, comme font des approches utilisant la programmation linéaire) ; grâce à cette représentation locale de la fonction de valeur, des techniques d échantillonage peuvent être utilisées pour approcher l intégration de Bellman, permettant de prendre en compte uniquement les états atteignables depuis S i (on ne fait pas l intégration sur tout l espace d états, ni même sur l ensemble des états atteignables) ; de plus, des techniques d apprentissage automatique récentes permettent de représenter localement la fonction de valeur de façon efficace (régression). Cette approche a aussi des propriétés théoriques intéressantes : d abord, comme on ne prend en compte que des représentations locales de la fonction de valeur et une approximation de l intégration utilisant de l échantillonnage, il n est pas besoin de poser des limitations sur la représentation des fonctions de transition, contrairement aux autres approches. de plus, RTDP est un algorithme anytime, comme le sera notre algorithme, comme nous ne verrons dans la section 5 ; enfin, comme nous effectuons une exploration en avant (les trials de RTDP ), nous pouvons concentrer la recherche sur sur les états atteignables, mais aussi sur des zones de l espace où la confiance en la connaissance acquise est faible, permettant une convergence plus rapide. 2.3 Exemples de domaines Nous présentons deux exemples de domaines pour la planification stochastique avec des variables d état continues et discrètes, et des cycles dans le graphe de transition. Le premier a un grand nombre de variables

4 JFPDA 29 discrètes, ce qui rend ardue la recherche dans le graphe de planification à cause de phénomène de malédiction de la dimensionalité (Bellman (1957)). Le second comporte de nombreuses variables continues, ce qui rend difficile l approximation efficace des fonctions des variables continues Search-and-rescue Dans la mission de recherche et sauvetage représenté sur la figure 1, l hélicoptère autonome doit : trouver des zones d atterrissage potentielles près du survivant (en utilisant sa caméra, sa mémoire et des algorithmes d analyse d images) ; puis les explorer pour décider s il peut effectivement atterrir dedans. Après l atterrissage, le survivant essaie d embarquer, mais peut échouer avec une probabilité dépendant de sa distance à la zone. En cas de succès, l hélicoptère revient au centre de contrôle. Sinon, il essaie une zone différente et ainsi de suite jusqu à ce que son niveau de carburant descende en dessous d un seuil donné ou bien sûr que la mission réussisse. control center Z1 Z5 survivor Z2 Z4 Z3 FIGURE 1 search and rescue domain Soit Z = {z 1,, z n } l ensemble des zones d atterrissage potentielles et cc le centre de contrôle. Formellement, les variables discrètes sont : at {z 1,, z n } {cc} : zone au-dessus de laquelle l hélicoptère vole ; explored(z) {, 1}, z Z : un booléen qui indique si la zone a été explorée ; landable(z) {, 1}, z Z : booléen qui indique pour chaque zone si il est possible d atterrir dedans (après qu elle ait été explorée) ; com {, 1} : booléen qui indique si la communication avec le centre de contrôle est possible ; on_ground {, 1} : booléen indiquant si l hélicoptère est au sol ou en vol. Les variables d état continues sont : fuel [, F M] : carburant restant (F M : niveau initial) ; mem [, M M] : mémoire disponible (M M : mémoire maximum). Les actions du domaines de planification sont : goto(z), z Z {cc} : aller à la zone z ; take_picture (et l analyser) ; download afin de libérer de la mémoire ; explore (la zone survolée) ; land (dans la zone survolée) ; take_off ; end_mission (si le survivant a embarqué ou si le niveau de carburant restant est trop faible). Afin d illustrer la difficulté de l intégration de Bellman, on peut voir sur la figure 2 que les effets de l action sont définis par morceaux à la fois continus et discrets ; le succès de l atterrissage lui-même est probabiliste, et, suivant ce succès, soit le niveau de carburant décroît suivant une loi normale (fonction de l altitude), soit le survivant est secouru suivant une probabilité fonction de la distance. Clairement, ces effets ne peuvent pas être intégrés de façon analytique.

5 HRTDP (and (probabilistic (land-success) (and (on-ground) (when (not (at bs)) (forall (?z - zone) (when (at?z) (probabilistic (/ 1 (+ 1 (*.3 (distance?z hm)))) (human-rescued))))))) (probabilistic (gaussian (* (altitude) (land-consumption)) ;; mean (*.1 (* (altitude) (land-consumption))) ;; variance #rv ;; random variate ) (decrease (fuel-level) #rv) ) ) FIGURE 2 Effet conditionnel probabiliste de l action land Gestion du trafic sol d un aéroport Ce domaine consiste à déplacer des avions au sol dans un aéroport. Les voies de circulation sont modélisées par un graphe comme montré sur la figure 3. À chaque date de décision, les avions essaient d atteindre le prochain point de passage planifié, mais les distances parcourues sont stochastiques. En conséquence, les positions des avions à chaque date de décision sont des variables continues stochastiques définies sur les arêtes du graphe. Enfin, des pilotes pourraient ne pas essayer d atteindre les points de passages calculés par le planificateur (erreur, non-compréhension des consignes etc.). FIGURE 3 Gestion du trafic sol d un aéroport On note P = {p 1,, p n } l ensemble des avions, et W = {w 1,, w q } l ensemble des points de passage. La fonction C : W W {, 1} indique si 2 points de passage sont connectés dans le graphe. Les variables d état de ce domaine sont : at(p) C 1 ({1}), p P : variable discrète qui indiquent sur quelle arête est un avion. Une arête est représentée par une paire ordonnée de façon à modéliser le sens de parcours de l avion ; abs(p) [, 1], p P : variable continue représentant la position d un avion p sur son arête at(p). On suppose que tous les avions bougent en même temps, ainsi l action est factorisée sur les actions individuelles de chaque avion. Les actions de chaque avion p sont (on note (w 1, w 2 ) = at(p) l arête parcourue par p) : move(p) : essaye d atteindre la fin de l arête courante, et attend la prochaine action si c est le cas ; move_and_target(p, w), w {w W \ {w 1 } C(w 2, w ) = 1} : bouge jusqu à atteindre la fin du segment courant, puis si il est atteint, bouge en essayant d atteindre le point w ; stop(p) : stoppe à la position (continue) courante.

6 JFPDA 29 3 Utiliser RTDP sur des domaines hybrides 3.1 Real Time Dynamic Programming RTDP est un algorithme proposé dans (Barto et al. (1995)). Partant d un état donné (l état initial pour un problème de plus court chemin stochastique ou l état courant si utilisé en ligne), il simule une trajectoire de l agent en sélectionnant de manière gloutonne la meilleure action (suivant la connaissance courante) dans chaque état rencontré. Une trajectoire (un trial ) est stoppée quand le but est atteint (dans le cas d un plus court chemin stochastique où un but unique est donné, ou quand un horizon donné est atteint). Afin d évaluer les actions pour des états inexplorés, une fonction heuristique donne une valeur pour ces états. Une caractéristique importante de cet algorithme est qu il ne met à jour les valeurs que des états rencontrés, c est-à-dire ceux qui, grâce aux mécanisme de trials, seront les plus probablement rencontrés à l exécution. Le pseudo-code de RTDP est donné dans l algorithme 1. Le pendant que extérieur répète indéfiniment les RTDP trials. En pratique, cette boucle est stoppée quand la valeur de l état initial ne décroît plus (pas plus qu un ɛ donné), ou quand la mission est terminée (comme RTDP peut être utilisé en ligne). Il faut remarquer que ceci n est pas une condition suffisante d optimalité, par exemple dans le cas où la solution optimale n a pas encore été explorée du fait de la nature stochastique des trials Algorithm 1: RTDP // s est l état initial au début // tous les s.explored sont faut au début while true do while GOAL(s) do a greedyaction(s); s.v alue update(s); s picknextstate(s, a); s.explored true; Dans le cas de MDP (discret), mettre à jour la valeur d un état s prend la forme de l équation 1, avec H(s) la valeur d une heuristique admissible sur S, et a l action choisie de manière gloutonne. s.v alue = s S T (s, a, s )[R(s, a, s ) + γv (s )] (1) V (s) = { s.v alue if s.explored = true H(s) if s.explored = f alse (2) Choisir la meilleure action est fait en faisant le même calcul que la mise-à-jour de la valeur de l état courant (vu qu elle est calculée par l équation 3). De la même manière, si les valeurs sont stockées pour chaque état, la politique peut être calculée par l équation 3. π (s) = argmax a A X T (s, a, s )[R(s, a, s ) + γv (s )] A (3) 3.2 Intégration de Bellman avec des variables d état hybrides s S Afin de généraliser RTDP au cas hybride, nous devons définir plusieurs fonctions. La première est s.explored : on ne peut donner un indicateur exploré pour chaque état continu ; il faut à la place définir une fonction indicateur explored : S {true, false}, qui sera appelée pour savoir si l algorithme doit utiliser une valeur heuristique ou bien la valeur calculée. Un autre problème vient de s.value : dans la même veine, s.value ne peut stocker la valeur comme fait habituellement, vu que l espace d état est continu. Nous devons définir une fonction : value : S R, qui pour n importe quel état s de l espace continu va stocker la valeur associée. Avec cette représentation de la fonction de valeur, nous avons besoin d un façon consistante de stocker la politique, vu qu elle ne peut pas être représentée par un tableau comme fait classiquement.

7 HRTDP Mais la plus grosse difficulté vient de la mise-à-jour elle-même (équation 1) où l on somme sur l espace discret : ceci doit être généralisé par une intégrale, ou plus exactement par un mélange de sommations et d intégration dans un espace hybride, avec des bornes d intégration corrélées. Pour l instant nous avons juste besoin de définir une fonction de mise-à-jour : update : ((S R), S) (S R), capable de mettre à jour la fonction de valeur pour un état s S, et son voisinage. 4 Planifier dans des domaines hybrides en utilisant l apprentissage automatique Des méthodes récentes d apprentissage automatique en ligne comme LWPR (Vijayakumar et al. (25)) et les processus gaussiens en ligne (Csató & Opper (22)) peuvent être utilisées pour représenter efficacement des fonctions de variables continues dont les valeurs changent et doivent être réapprises (à l inverse de l apprentissage hors-ligne). De telles méthodes apprennent les valeurs de ces fonctions pour certains états, et permettent également de prédire les valeurs de ces fonctions pour les états voisins. Si les valeurs apprises sont dans un ensemble discret, l algorithme d apprentissage est un classifieur ; si les valeurs sont dans un état continu, on l appelle régresseur. De plus, la plupart des méthodes en ligne sont focalisées, c est-à-dire que la mémoire utilisée pour l apprentissage peut être borné par une constante. Quelque soit le cadre dans lequel on les applique, de telles méthodes d apprentissage automatique sont des outils permettant de représenter efficacement des fonctions de variables continues en termes de place mémoire et de temps de calcul. Ainsi, nous utilisons des régresseurs en ligne pour représenter la fonction de valeur de MDPs hybrides, et des classifieurs pour stocker la politique. Même si ces méthodes viennent de la communauté de l apprentissage automatique, notre algorithme n est pas lié à l apprentissage par renforcement, car nous connaissons (et utilisons) le modèle du domaine. Des méthodes d apprentissage en ligne sont utilisées dans des espaces continus, mais notre espace d états contient à la fois des variables continues et discrètes. Il serait possible de considérer que chaque variable discrète fait partie d un ensemble de valeurs spéciales d un ensemble continu, lequel serait utilisé par les algorithmes d apprentissage. Cependant, nous pensons que cette solution ne serait pas très efficace car elle ajouterait de nombreuses dimensions aux régresseurs et classifieurs, dont la complexité augmente grandement avec les dimensions des espaces considérés. Donc nous n utilisons des outils d apprentissage en ligne que sur les composantes continues de l espace des états, en utilisant la structure suivante, similaire au graphe hybride de HAO (Meuleau et al. (29)). La différence est que ce dernier utilise des kd-trees pour représenter des fonctions de variables continues. Definition 2 Un graphe de planification hybride (HPG) est un graphe orienté (S d, T d ) avec : S d q i=1 Vd i est la projection de l espace d états hybride sur les variables discrètes ; chaque sommet (v1, d, vq d ), appelé état discret, est une paire π c, V r avec : π c : p i=1 Vc i A est un classifieur multi-classes tel que : π c(v1, c, vp) c = π(v1, c, vp, c v1, d, vq d ) ; V r : p i=1 Vc i R est un régresseur tel que V r(v1, c, vp) c = V (v1, c, vp, c v1, d, vq d ). T d = {(s d 1, s d 2) (S d ) 2 (s c 1, s c 2, a) ( p i=1 Vc i )2 A, T ((s c 1, s d 1), a, (s c 2, s d 2)) > } est l ensemble des transitions possibles entre les états discrets du graphe. Dans cette définition, la fonction explored définie plus haut n est pas présente. Nous simulons cette fonctions avec les fonctions V r : comme les boites à outils de régression que nous utilisons donnent en plus de la prédiction elle-même la confiance en celle-ci (ou la borne sur la confiance), c est-à-dire le bruit d apprentissage, nous disons simplement que si la confiance est trop basse (ou la borne trop haute), alors le point de l espace des états considéré n a pas été assez exploré, et donc que explored = false. Donc on n a pas besoin d un classifieur binaire séparé pour savoir si un état a été exploré ou non. À l initialisation de HRTDP, le HPG contient un seul sommet, correspondant aux instanciations des variables discrètes de l état initial. De nouveaux nœuds sont ajoutés au graphe pendant la résolution à chaque bellman backup, comme expliqué plus bas. Lors des trials (trajectoires) HRTDP on va de nœud en nœud du HPG en mettant à jour la valeur de l état hybride courant en utilisant la régresseur de la fonction de valeur pour chaque nœud visité.

8 JFPDA Confiance en l information apprise Un des aspects fondamentaux lors de l utilisation de techniques de régression et de classification est la notion de confiance : les boites à outils récentes permettent d utiliser non seulement le résultat de la prédiction, mais donnent également la confiance en cette prédiction. Cette valeur peut être la probabilité que la prédiction soit correcte étant donné les informations connues. Certaines boites à outils, comme cette que nous avons utilisé donnent plutôt la borne sur la confiance, dont l intuition est l inverse : si la borne est élevée, la qualité de la connaissance est faible. De fait, il est très important de prendre cette confiance en compte lorsque l on utilise l apprentissage automatique ; sinon on considérerait implicitement que la phase d apprentissage est parfaite, et particulièrement que le régresseur donne une valeur correcte, ceci même avec petit un jeu d apprentissage, ce qui est impossible. De plus, comme nous allons le voir dans la section 5, la confiance permet de guider l exploration ellemême dans la cadre RTDP. Si l on a en tête que RTDP choisi de manière gloutonne la meilleure action dans la cadre discret, on peut se dire que dans notre cas la meilleure action est un critère relatif : si la confiance est élevée, alors on peut croire que l on connaît la meilleure action, mais si elle est faible, alors on ne devrait pas croire que l action considérée est effectivement la meilleure (particulièrement s il n y a pas eu beaucoup de données d apprentissage autour de cette action). Nous proposons un schéma exploration contre exploitation basé sur la confiance en quelle action est la meilleure pour guider l algorithme. 4.2 Bellman backup hybride Mettre à jour la valeur d un état hybride nécessite de calculer une intégrale sur des variables continues et discrètes. Comme le montre l algorithme 2, on calcule une approximation de cette intégrale hybride avec une simulation de Monte-Carlo où la valeur de la fonction intégrée est prédite à partir du régresseur des nœuds suivants dans le HPG (ligne 9). De nouveaux nœuds sont ajoutés quand les successeurs aléatoires discrets n ont pas été explorés (ligne 6). Si un successeur n a pas été exploré (que la confiance dans ses prédictions est trop faible), on utilise une valeur heuristique et demande à son régresseur de fonction de valeur de l apprendre (lignes 7 et 8). Finalement, le régresseur de fonction de valeur et le classifieur de politique apprennent la nouvelle valeur (lignes 14 and 15). La fonction random_next utilise la fonction de transition T du HMDP pour générer au hasard des successeurs. Aucune hypothèse n est prise sur la forme de la distribution de probabilité de T. De ce fait, notre algorithme marche avec n importe quelle distribution de probabilité qui peut être échantillonnée. À la connaissance des auteurs, aucun autre algorithme de résolution de HMDP n est capable de gérer n importe quel type de fonction de transition. 4.3 HRTDP En utilisant le mécanisme de mise-à-jour décrit ci-dessus, nous pouvons maintenant présenter l algorithme HRTDP (alg. 3). Premièrement, on met à jour la valeur pour l état s et apprend la politique et la valeur comme montré précédemment. On mémorise (dans la même boucle dans l implémentation courante) la meilleure action ainsi que l action qui conduit à la région la moins connue de l espace. Ensuite, en fonction d à quel point est mal connue cette région, on choisit d appliquer soit la meilleure action (comme dans RTDP), soit une action d exploration qui va faire explorer des régions mal connues, de façon à réduire le biais d apprentissage et augmenter la connaissance aussi vite que possible. Le paramètre α > permet de régler le compromis exploration contre exploitation, et pourrait être changé en ligne, par exemple pour effectuer un recuit-simulé. Dans l algorithme 3, tout comme dans les expérimentations décrites ci-dessous, nous choisissons au hasard la meilleure action avec la probabilité e α worstconf, ce qui signifie que moins la région est connue, plus l exploration est choisie. 4.4 Heuristique admissible indépendante du domaine À chaque fois que le nous considérons qu un état hybride s n a pas encore été exploré, une valeur heuristique admissible H(s) doit être calculée telle que H(s) V π (s). Une heuristique naïve pourrait avoir besoin de générer tous les nœuds du HPG, dont le nombre est exponentiel en fonction du nombre de variables discrètes. Nous avons implémenté une heuristique par relaxation inspirée du planificateur déterministe FF

9 HRTDP Algorithm 2: Mise-à-jour de l état hybride // s = (s c, s d ) est l état à mettre à jour // s d est le nœud du HPG contenant s // N est le nombre d échantillons utilisés pour calculer l approximation de l intégrale // CT est le seuil de confiance, au-dessus duquel le nœud est considéré inexploré best_qvalue ; for a A do qvalue ; for i 1 to N do ((s c, s d ), r) s.random_next(t ((s c, s d ), a, )); if s d HP G.nodes() then HP G.add_node(s d ); if confidence(s d.v c.predict(s c )) > CT then s d.v r.learn(s c, H(s c, s d )); qvalue qvalue + (γ s d.v r.predict(s c )) + r; qvalue qvalue/n; if best_qvalue < qvalue then best_qvalue qvalue; best_action a; s d.v r.learn(s c, best_qvalue); s d.π c.learn(s c, best_action); Algorithm 3: HRTDP 1 while true do // s est l état initial au début 2 while GOAL(s) do 3 hybrid_state_update(s); 4 lessknowna action menant à des prédictions avec la plus grande borne de confiance ; 5 worstconf confiance correspondante; 6 besta action menant à la plus grande valeur; 7 j a s picknextstate(s, a); besta with p = e α.worstconf lessknowna with p = 1 e α.worstconf (Hoffmann & Nebel (21)), afin de gérer le modèle HMDP 1. Cette heuristique assume que toutes les variables sont binaires, ce qui n est pas une limitation car une variable n-aire peut être traduite en log 2 (n) variables binaires. Cette heuristique construit de façon incrémentale deux listes des valeurs true et f alse prises par chaque variable discrète durant la recherche heuristique, sans jamais enlever de valeurs à cette liste. Bien que linéaire en espace nécessaire, cette heuristique perd les dépendances des variables par rapport aux états. La fonction de transition est relaxée de façon à utiliser directement ces listes, sans prendre en compte les composantes continues. La recherche stoppe quand l état but est inclus dans ces listes, et l opposé de la distance amortie est une valeur heuristique admissible pour les problèmes de plus court chemin stochastique. La complexité de la recherche heuristique est polynomiale en la longueur des listes, c est-à-dire polynomiale en le nombre de variables discrètes. Bien qu effectuant une recherche dans les états discrets uniquement, cette heuristique reste admissible dans notre cas car, intuitivement, plus d étapes seraient nécessaires pour atteindre le but en considérant les variables continues (il y aurait moins d actions applicables pendant l expansion). Du coup, la distance relaxée est plus faible que la distance qui serait calculée avec les états hybrides. Cette heuristique a été choisie car elle a donné de bons résultats dans la compétition de planification de 28, car elle est indépendante du 1. Cette heuristique est inspirée du planificateur FSP, plus précisément est une implémentation de l heuristique RDH décrite dans http ://ippc-28.loria.fr/wiki/images/c/c2/team1-fsp.pdf

10 JFPDA 29 domaine et car elle peut être utilisée dans des domaines avec des cycles. 5 Expérimentations Nous avons testé notre algorithme HRTDP sur des instances de plus court chemin stochastique des domaines présentés en section Nous avons utilisé le langage PPDDL décrit dans (Teichteil (28)). Nous avons utilisé LWPR (Vijayakumar et al. (25)) pour l implémentation des régresseurs et des classifieurs des nœuds du HPG. Pour chaque test, nous avons lancé HRTDP 1 fois et moyenné différents critères sur les 1 instances. Chaque critère est présenté en tant que moyenne en fonction du temps d optimisation (en secondes), observé après chaque trial. Dans les courbes présentées, la valeur moyenne est présentée en vert, et l enveloppe en rouge. 5.1 Domaine search-and-rescue Selon la description de ce domaine, il y a 2 3+2n (n + 1) états discrets (nombre maximal de nœuds dans le HPG) et 2 variables continues, avec n le nombre de zones. La figure 4 montre que HRTDP converge très vite en terme de valeur de l état initial (la valeur est l espérance des récompenses collectées en exécutant la politique), ce qui signifie que notre algorithme est capable de donner très vite de bonnes solutions pour l état initial (et pour les trajectoires les plus probables). Une vallée est visible pour le problème à 2 zones, il semble que les régresseurs sous-estiment les espérances de coûts à un certain moment. Comme on peut le voir sur la figure 5, le nombre de nœuds dans le graphe hybride continue d augmenter après que la valeur de l état initial se soit stabilisée, ce qui montre que notre algorithme continue d explorer des états moins atteignables (comportement anytime ), sans vraiment augmenter la récompense estimée, exactement comme l on s y attend avec des algorithmes à la RTDP (si les états soient moins atteignables, leur influence sur la valeur de l état initial est plus faible). On peut remarquer que le nombre de nœuds dans le HPG est très faible en regard du nombre maximal théorique, ceci est dû à la nature du domaine dans lequel de nombreuses actions ont des pré-conditions restrictives, et donc ne peuvent être appliquées quand dans quelques états, conduisant à un grand nombre d états à peu près inatteignables. Sur la figure 6(a), on peut voir le pourcentage de choix explicite d exploration. Ce pourcentage ne décroît pas pendant la résolution ; ceci est lié à la pire confiance pendant les backups, montrée sur la figure 6(b), qui semble atteindre une borne supérieure. En fait LWPR donne une borne sur la confiance qui se comporte à l opposé de l intuition de la confiance : plus cette valeur est grande, moins on peut avoir confiance en la prédiction. Dans ce cas, comme on explore de plus en plus d états, la borne sur la confiance devient de pire en pire. Nous pensons qu elle pourrait devenir meilleure après que l ensemble des états ait été exploré suffisamment, ce que nous voulons bien sûr éviter. Afin de monter l influence du choix explicite d exploration, nous avons conduit d autres expérimentations avec un très faible α, conduisant à très peu d explorations explicites, comme on peut le voir sur la figure 7(a). Dans ce cas, on peut voir que la pire valeur de confiance est la même, mais est atteinte moins vite (sur la figure 7(b)). Ceci semble confirmer l intuition de l explication du grand (et non-décroissant) pourcentage d explorations. Finalement, à la fois le choix explicite d exploration et le bruit induit par les régressions ont un impact sur la longueur des trials de HRTDP. Ces trials stoppent quand le but est atteint, ce qui nous donne une idée de la qualité de la solution obtenue. Sur les figures 8(a), on peut voir que la longueur (bruitée) des trials, et sur la figure 8(b), on peut voir que lorsque la valeur de l état initial devient minimale pour la première fois, HRTDP effectue de très courts trials (c est la solution optimale), et après ceci la longueur augmente graduellement car HRTDP explore de nouvelles régions, sans arriver à améliorer la valeur de l état initial. Nous avons également testé l influence du nombre d échantillons utilisés pour l approximation des intégrales, mais elle est évidente : avec moins de particules, le calcul est plus rapide mais on voit beaucoup de bruit, avec avec plus de particules, les calculs sont plus précis mais plus lents. 2. Nous n avons pas pu nous comparer à HALP ni à HAO sur les domaines qu ils peuvent résoudre car nous n avons pas pu obtenir leur codes, très durs à re-implementer, ni de version compilée. De plus, les domaines utilisés ne sont pas non plus disponibles.

11 HRTDP value function of the initial state value function of the initial state value function of the initial state (a) 5 zones (b) 1 zones (c) 2 zones FIGURE 4 valeur de l état initial pour le domaine search-and-rescue domain avec 5 zones number of nodes in the HPG number of nodes in the HPG number of nodes in the HPG (a) 5 zones (b) 1 zones (c) 2 zones FIGURE 5 Nombre de nœud développés par HRTDP pour le domaine search-and-rescue 18.1 percentage of exploration actions worst confidence during Bellaman backup (a) % choix d exploration (b) Pire borne de confiance x FIGURE 6 Expl. and conf. pour 2 zones pour le domaine S&R percentage of exploration actions worst confidence during Bellaman backup value function of the initial state (a) Pourcentage de choix d exploration (b) Pire borne de confiance (c) Valeur de l état initial FIGURE 7 S&R (1 zones) : réduction du pourcentage d exploration (α =.1) 5.2 Gestion d aéroport La Figure 9 montre les résultats obtenus sur une instance de la gestion du trafic sol d un aéroport avec (2N) p états discrets et p variables continues, et N le nombre de points de passages (N = 12 pour l aéroport testé), et p le nombre d avions (5 pour les résultats présentés ici). Bien que ce domaine soit encore plus dur que le précédent, on peut voir que HRTDP arrive à le résoudre. Malgré le plus grand nombre de régresseurs pour ce domaine, HRTDP converge rapidement vers une politique stable. On voit moins de points sur la figure, ceci car beaucoup plus de calculs sont nécessaires pour chaque Bellman backup.

12 JFPDA depth of HRTDP trajectories depth of HRTDP trajectories (a) α = 1 (b) α =.1 FIGURE 8 Longueur des trials (dans le domaine S&R pour 1 zones) value function of the initial state worst confidence during Bellaman backup number of nodes in the HPG (a) Valeur de l état initial.2 (b) Pire borne sur la confiance 16 (c) Nombre de nœuds FIGURE 9 Résultats pour la gestion d aéroport 5.3 Comparaison avec une stratégie heuristique Afin de montrer que HRTDP améliore la valeur heuristique et trouve de bonnes stratégies, nous avons comparé HRTDP avec une stratégie heuristique qui consiste à choisir simplement la meilleure action suivant l heuristique, sans apprentissage ni optimisation (la valeur heuristique d une action en un état donné est la somme de sa récompense immédiate et la moyenne des valeurs heuristiques des états successeurs par cette action). Bien que donnant des valeurs informatives pour les backups, l heuristique présentée (qui se base sur une relaxation de l espace d états), utilisée comme stratégie est complètement incapable d atteindre le but sur 1 tests de profondeur 2, et ce pour chacun des problèmes testés. D autre part, la valeur statistique de l état initial en utilisant cette stratégie est de 1 = 1/(1 γ) dans tous les cas (avec γ =.9), ce qui correspond à des trajectoires infinies qui n atteignent jamais le but. Au contraire, comme montré précédemment, HRTDP avec cette heuristique atteint une solution en quelques secondes, en bien moins de 2 étapes, et la valeur de l état initial n était jamais au-dessous de 5 ou 2 (suivant le problème). Comparé à une stratégie heuristique, ceci prouve que HRTDP optimise correctement la fonction de valeur, et ce malgré le bruit d apprentissage. 6 Conclusion et perspectives Nous avons montré qu il est possible de résoudre des HMDPs de manière asynchrone en utilisant une recherche heuristique en avant, et une représentation hybride des composants nécessaire aux Bellman backups. Nous avons proposé une formulation d un tel algorithme, en utilisant des techniques d apprentissage automatique pour la régression, ainsi qu un apprentissage incrémental pour les Bellman backups. Nous avons montré que cette approche marche, ce sur deux domaines complexes. Notre technique permet de traiter des fonctions de transition quelconques, ce qui n était possible avec aucune approche précédente. Nous pensons pour le futur utiliser d autres technique d apprentissage comme les processus gaussiens (Csató & Opper (22); Lawrence et al. (23)), de façon à montrer l influence des techniques de régression, ce qui sera nécessaire pour nous assurer de la qualité des politiques calculées, et si possible prouver une (ɛ-)optimalité. Nous pensons également étendre cette approche pour gérer des MDPs partiellement observables, en utilisant les mêmes techniques dans l espace des croyances (qui est complètement continu et non hybride).

13 HRTDP Références BARTO A. G., BRADTKE S. J., SINGH S. P., YEE T. T. R., GULLAPALLI V. & PINETTE B. (1995). Learning to act using real-time dynamic programming. Artif. Intel., 72. BELLMAN R. E. (1957). Dynamic Programming. Princeton University Press. CSATÓ L. & OPPER M. (22). Sparse on-line gaussian processes. Neural Computation, 14(3), HOFFMANN J. & NEBEL B. (21). The FF planning system : Fast plan generation through heuristic search. Journal of Artificial Intelligence Research, 14, KVETON B. & HAUSKRECHT M. (26). Learning basis functions in hybrid domains. In AAAI. KVETON B., HAUSKRECHT M. & GUESTRIN C. (26). Solving factored mdps with hybrid state and action variables. JAIR, 27, LAWRENCE N. D., SEEGER M. & HERBRICH R. (23). Fast sparse gaussian process methods : the informative vector machine. In NIPS. LI L. & LITTMAN M. (25). Lazy approximation for solving continuous finite-horizon MDPs. In AAAI. MARECKI J., KOENIG S. & TAMBE M. (27). A fast analytical algorithm for solving Markov decision processes with continuous ressources. In Proceedings of IJCAI. MEULEAU N., BENAZERA E., BRAFMAN R., MAUSAM & HANSEN E. A. (29). A heuristic search approach to planning with continuous resources in stochastic domains. Journal of Artificial Intelligence Research, 34, TEICHTEIL F. (28). Extending PPDDL1. to model hybrid markov decision processes. In ICAPS 8 workshop on A Reality Check for Plan. and Sched. Under Uncertainty. VIJAYAKUMAR S., D SOUZA A. & SCHAAL S. (25). Incremental online learning in high dimensions. Neural Computation, 17(12),