MDP hybrides sans intégration analytique en utilisant régression, échantillonnage et mises-à-jour locales
|
|
- Paule Gignac
- il y a 8 ans
- Total affichages :
Transcription
1 MDP hybrides sans intégration analytique en utilisant régression, échantillonnage et mises-à-jour locales Florent Teichteil-Königsbuch and Guillaume Infantes ONERA-CERT 2, av. Edouard Belin BP Toulouse Cedex 4 {florent.teichteil,guillaume.infantes}@onera.fr ONERA-CERT 2, av Edouard Belin BP Toulouse Cedex 4, France florent.teichteil@onera.fr et guillaume.infantes@onera.fr Résumé : Dans la plupart des problèmes réels de décision dans l incertain, des variables continues (par exemple le niveau de carburant) doivent être prises en compte. Le cadre des Processus Décisionnels de Markov Hybrides (PDMH, HMDP) permet de modéliser directement à la fois les composantes discrètes et continues de l espace d états. Les principales difficultés avec les PDMH sont : comment représenter de façon compacte la fonction de valeur (l espérance des gains) et comment la mettre à jour efficacement (effectuer le Bellman backup ) sur l espace hybride? Dans le cas général, le calcul analytique de la mise-à-jour est impossible sans simplification du modèle, particulièrement lorsque l on veut mettre à jour sur l ensemble de l espace d états, et une représentation compacte de la fonction de valeur doit nécessairement passer par une approximation du résultat de ce calcul. Nous présentons HRTDP, un algorithme qui lève les restrictions sur la forme des fonctions de transition, tout en permettant une représentation compacte de la fonction de valeur. Ceci est rendu possible grâce aux mises-à-jour asynchrones sur seulement certaines parties de l espace hybride, approximé par des techniques d échantillonnage, et grâce à des techniques de régression modernes utilisées pour avoir des représentation compactes de la fonction de valeur, ceci sans perdre en précision. Il tire également avantage d avancées récentes dans le domaines de la planification heuristique en avant : construction de politique partielle reposant sur des heuristiques de relaxation indépendantes du domaine, et étend ce cadre aux domaines hybrides. Nous montrons l intérêt de notre approche sur différentes instances de deux problèmes hybrides avec des fonction de transition complexes : search-and-rescue et gestion du trafic sol d un aéroport. 1 Introduction Malgré des avancées récentes, la prise de décision autonome est toujours un défi pour des scénarios réalistes. Une cause est que de tels scénarios impliquent la prise en compte du l indéterminisme dans de grands espaces. Les Processus Décisionnels de Markov (MDPs) ont prouvé récemment leur capacité à traiter de larges espaces en modélisant l indéterminisme par des probabilités, particulièrement en utilisant des recherches en avant se basant sur des heuristiques de façon à élaguer l espace de recherche. Mais un autre problème fondamental pour la mise en œuvre réelle est la possibilité de gérer des caractéristiques continues de l espace des états. Typiquement, il est impossible de gérer de façon native les ressources d un agent dans les MDPs. En général, de telles composantes sont discrétisées, ce qui rend l espace de recherche exponentiellement plus grand, tout en dégradant la précision de la représentation de telles composantes. Les MDPs hybrides (où l espace des états est un produit cartésien entre les variables d état continues et discrètes) permettent une représentation compacte de grands MDPs avec des composantes continues, comme nous allons le montrer dans la section 2. En utilisant ce cadre, des problèmes réalistes peuvent être facilement modélisés, nous présentons deux exemples dans la section 2.3. Autant que nous sachions, il y a eu assez peu de travaux dans le domaine des HMDPs, comme nous montrons section 2.1. Les obstacles principaux pour résoudre les HMDPs sont : la représentation de l espérance des gains (la fonction de valeur) sur l espace hybride (à cause du support infini), et le calcul des mises-à-jour de cette fonction, les Bellman backups (à cause de l intégrale hybride sur des variables continues et discrètes corrélées). Afin de résoudre de tels problèmes, il faut disposer d un schéma d approximation pour la fonction de valeur, et d une façon
2 JFPDA 29 de calculer les mises-à-jour efficacement. Des travaux précédents proposent de restreindre les fonctions de transition possibles ainsi que les représentations de la fonction de valeur afin de résoudre ces deux problèmes. La contribution principale de cet article est de lever de telles restrictions en utilisant des mises-à-jour asynchrones de la fonction de valeur. Ceci est rendu possible en adaptant l échantillonnage heuristique en avant utilisé pour des MDPs (discrets), et en représentant de façon compacte la fonction de valeur en utilisant des techniques issues du domaine de l apprentissage automatique. Nous expliquons ce qui est nécessaire pour adapter ces techniques en section 3 et que des avancées récentes du domaines de l apprentissage automatique (en particulier en ce qui concerne la classification et la régression) peuvent être utilisées dans le cœur de l algorithme, et quelles approximations peuvent être utilisées pour les Bellman backups. Il est intéressant de souligner que même si nous utilisons des techniques d apprentissage pour représenter des fonctions dans notre algorithme, nous n apprenons pas la politique comme c est le cas dans l apprentissage par renforcement, nous préférons utiliser des recherches heuristiques en avant et des backups asynchrones. Après avoir expliqué notre algorithme en détails dans la section 4, nous montrons l efficacité de notre approche en section 5. 2 Résolution de Processus Décisionnels de Markov Hybrides Definition 1 Un processus décisionnel de Markov hybride est un quadruplet S, A, T, R avec : S = p i=1 Vc i q i=1 Vd i est le produit cartésien de p variables d état continues et de q variables discrètes. Un état s S est une instanciation de toutes les variables d état : s = ( ) v1, c, vp, c v1, d, vq d. A est l ensemble des actions ; on suppose que les actions sont énumérées et discrètes. Chaque action a A est applicable en un ensemble d états S a. T : S A S [, 1] est la fonction de transition qui modélise les effets des actions ; c est une densité de probabilité sur les variables continues dont l intégration donne les probabilités des variables discrètes. R : S A S R est la fonction de récompense ; R(s, a, s ) est la récompense gagnée en atteignant l état s depuis l état s en appliquant l action a. On suppose que les domaines des variables continues sont dans n importe quel intervalle de R, et que l espace des actions est dénombrable et fini. L optimisation d un HMDP consiste en le calcul de la politique π : S A qui maximise la moyenne sur les trajectoires possibles des récompenses accumulées amorties sur un horizon infini : π (s) = arg max E π A S 2.1 Travaux voisins [ + t= γt r t s, π ] avec γ ], 1[ le facteur d amortissement. Comme nous allons voir dans les exemples, la principale difficulté vient des bellman backups dans des domaines hybrides. Comme l espace des états est composé de variables continues et discrètes, l intégration analytique est impossible dans le cas général. Un autre problème est la représentation de la fonction de valeur elle-même, qui peut être quelconque, et donc doit être approchée. Les auteurs connaissent principalement deux algorithmes pour résoudre des HMDPs. Le premier est HALP (Kveton et al. (26)) ; et l autre est l adaptation de AO aux domaines hybrides, nommé HAO (Meuleau et al. (29)). Le cadre HALP a été le premier algorithme pour résoudre des HMDPs en utilisant la programmation linéaire approchée, projetant la fonction de valeur sur un ensemble fini de fonctions (une base de fonctions ), en discrétisant les variables continues et en utilisant des sommes de fonctions beta pour représenter les transitions. La formulation en programmation linéaire du MDP utilise un ensemble infini de contraintes linéaires pour chaque paire (s, a). Les critiques principales à l encontre de cette approche est que les auteurs utilisent une base de fonctions sur laquelle ils projettent la fonction de valeur, mais sans dire comment trouver une bonne base, et ils ont besoin de limiter sévèrement la forme des fonctions de transitions et de la base de fonction pour effectuer des intégrations analytiques ; ils tronquent également l ensemble des contraintes afin de résoudre le problème linéaire. Alors même que ces restrictions dégradent la qualité de la solution, elles nécessitent malgré tout des implémentations complexes. Un autre problème est la nécessité d utiliser des fonctions de densité qui modélisent la pondération de chaque état dans l optimisation, et ces fonctions sont dures à définir dans certains problèmes. La génération automatique de bonnes bases de fonctions a été présentée récemment dans (Kveton & Hauskrecht (26)), ainsi que la possibilité d utiliser des fonctions de
3 HRTDP transition plus générales (Kveton et al. (26)), montrant que les auteurs sont conscients de ces limitations ; mais ces problèmes ne sont toujours pas entièrement résolus. Dans HAO les auteurs étendent AO à des domaines hybrides. Il effectuent une intégration analytique sur l ensemble d état continu atteignable et représentent la fonction de valeur par une fonction linéaire par morceaux, organisée en arbre-kd (dans l implémentation actuelle), et explorent l espace des états par une recherche arborescente classique, en groupant les états ayant la même valeur. Dans ce cas, les intégrations exactes nécessitent d utiliser des techniques de programmation linéaire coûteuses afin de mettre à jour les vecteurs des fonctions linéaires par morceaux dans les backups. Nous voyons deux problèmes principaux avec cette approche : l intégration elle-même est très lourde, et est dépendante de la représentation utilisée pour la fonction de valeur. De plus, l implémentation actuelle de HAO ne peut pas gérer les cycles (comme dans nos domaines) du fait de la représentation de la fonction de valeur utilisée, et il repose sur une heuristique dépendant du domaine (et qui ne peut être généralisée pour des domaines sans cycles). Nous pouvons également citer (Li & Littman (25)), dans lequel les auteurs utilisent un schéma d approximation de moindre engagement pour la fonction de valeur, mais utilisent néanmoins une représentation en fonction linéaire par morceaux ; et (Marecki et al. (27)) dans lequel la fonction de valeur est représentée comme des distributions de phases. Même si ces représentations sont consistantes et relativement efficaces, elles ne résolvent pas le problème des backups analytiques. 2.2 La malédiction des backups analytiques : proposition d approche Il faut remarquer que le besoin de faire des intégrations exactes vient du fait que tous ces algorithmes effectuent leurs Bellman backups sur l ensemble de l espace d états (éventuellement uniquement atteignable) en même temps. Donc ils ont besoin d une intégration analytique, effectuée par une intégration exacte ; puis d une approximation de la solution. Nous proposons une approche différente, basée sur l utilisation d échantillonage intelligent (rendu facile par l utilisation du cadre de l algorithme RTDP : Barto et al. (1995)), et d apprentissage automatique moderne, particulièrement pour représenter la fonction de valeur (et la confiance en cette approximation), ceci à mémoire constante (ou limitée). Nos points de vue sont les suivants : la fonction de valeur doit être représentée localement (la fonction de valeur globale doit être décomposée en plusieurs fonctions de valeur définies uniquement sur des parties de l espace des états), et ceci lève la contrainte d avoir à utiliser des approximations complexes et des intégrations analytiques ; ensuite, grâce à des mises-à-jour asynchrones de la fonction de valeur (comme dans RTDP), il est consistant de mettre à jour uniquement des représentations locales pour un sous-ensemble d états S i (il n est pas besoin d évaluer la fonction de valeur sur l ensemble des états en même temps, comme font des approches utilisant la programmation linéaire) ; grâce à cette représentation locale de la fonction de valeur, des techniques d échantillonage peuvent être utilisées pour approcher l intégration de Bellman, permettant de prendre en compte uniquement les états atteignables depuis S i (on ne fait pas l intégration sur tout l espace d états, ni même sur l ensemble des états atteignables) ; de plus, des techniques d apprentissage automatique récentes permettent de représenter localement la fonction de valeur de façon efficace (régression). Cette approche a aussi des propriétés théoriques intéressantes : d abord, comme on ne prend en compte que des représentations locales de la fonction de valeur et une approximation de l intégration utilisant de l échantillonnage, il n est pas besoin de poser des limitations sur la représentation des fonctions de transition, contrairement aux autres approches. de plus, RTDP est un algorithme anytime, comme le sera notre algorithme, comme nous ne verrons dans la section 5 ; enfin, comme nous effectuons une exploration en avant (les trials de RTDP ), nous pouvons concentrer la recherche sur sur les états atteignables, mais aussi sur des zones de l espace où la confiance en la connaissance acquise est faible, permettant une convergence plus rapide. 2.3 Exemples de domaines Nous présentons deux exemples de domaines pour la planification stochastique avec des variables d état continues et discrètes, et des cycles dans le graphe de transition. Le premier a un grand nombre de variables
4 JFPDA 29 discrètes, ce qui rend ardue la recherche dans le graphe de planification à cause de phénomène de malédiction de la dimensionalité (Bellman (1957)). Le second comporte de nombreuses variables continues, ce qui rend difficile l approximation efficace des fonctions des variables continues Search-and-rescue Dans la mission de recherche et sauvetage représenté sur la figure 1, l hélicoptère autonome doit : trouver des zones d atterrissage potentielles près du survivant (en utilisant sa caméra, sa mémoire et des algorithmes d analyse d images) ; puis les explorer pour décider s il peut effectivement atterrir dedans. Après l atterrissage, le survivant essaie d embarquer, mais peut échouer avec une probabilité dépendant de sa distance à la zone. En cas de succès, l hélicoptère revient au centre de contrôle. Sinon, il essaie une zone différente et ainsi de suite jusqu à ce que son niveau de carburant descende en dessous d un seuil donné ou bien sûr que la mission réussisse. control center Z1 Z5 survivor Z2 Z4 Z3 FIGURE 1 search and rescue domain Soit Z = {z 1,, z n } l ensemble des zones d atterrissage potentielles et cc le centre de contrôle. Formellement, les variables discrètes sont : at {z 1,, z n } {cc} : zone au-dessus de laquelle l hélicoptère vole ; explored(z) {, 1}, z Z : un booléen qui indique si la zone a été explorée ; landable(z) {, 1}, z Z : booléen qui indique pour chaque zone si il est possible d atterrir dedans (après qu elle ait été explorée) ; com {, 1} : booléen qui indique si la communication avec le centre de contrôle est possible ; on_ground {, 1} : booléen indiquant si l hélicoptère est au sol ou en vol. Les variables d état continues sont : fuel [, F M] : carburant restant (F M : niveau initial) ; mem [, M M] : mémoire disponible (M M : mémoire maximum). Les actions du domaines de planification sont : goto(z), z Z {cc} : aller à la zone z ; take_picture (et l analyser) ; download afin de libérer de la mémoire ; explore (la zone survolée) ; land (dans la zone survolée) ; take_off ; end_mission (si le survivant a embarqué ou si le niveau de carburant restant est trop faible). Afin d illustrer la difficulté de l intégration de Bellman, on peut voir sur la figure 2 que les effets de l action sont définis par morceaux à la fois continus et discrets ; le succès de l atterrissage lui-même est probabiliste, et, suivant ce succès, soit le niveau de carburant décroît suivant une loi normale (fonction de l altitude), soit le survivant est secouru suivant une probabilité fonction de la distance. Clairement, ces effets ne peuvent pas être intégrés de façon analytique.
5 HRTDP (and (probabilistic (land-success) (and (on-ground) (when (not (at bs)) (forall (?z - zone) (when (at?z) (probabilistic (/ 1 (+ 1 (*.3 (distance?z hm)))) (human-rescued))))))) (probabilistic (gaussian (* (altitude) (land-consumption)) ;; mean (*.1 (* (altitude) (land-consumption))) ;; variance #rv ;; random variate ) (decrease (fuel-level) #rv) ) ) FIGURE 2 Effet conditionnel probabiliste de l action land Gestion du trafic sol d un aéroport Ce domaine consiste à déplacer des avions au sol dans un aéroport. Les voies de circulation sont modélisées par un graphe comme montré sur la figure 3. À chaque date de décision, les avions essaient d atteindre le prochain point de passage planifié, mais les distances parcourues sont stochastiques. En conséquence, les positions des avions à chaque date de décision sont des variables continues stochastiques définies sur les arêtes du graphe. Enfin, des pilotes pourraient ne pas essayer d atteindre les points de passages calculés par le planificateur (erreur, non-compréhension des consignes etc.). FIGURE 3 Gestion du trafic sol d un aéroport On note P = {p 1,, p n } l ensemble des avions, et W = {w 1,, w q } l ensemble des points de passage. La fonction C : W W {, 1} indique si 2 points de passage sont connectés dans le graphe. Les variables d état de ce domaine sont : at(p) C 1 ({1}), p P : variable discrète qui indiquent sur quelle arête est un avion. Une arête est représentée par une paire ordonnée de façon à modéliser le sens de parcours de l avion ; abs(p) [, 1], p P : variable continue représentant la position d un avion p sur son arête at(p). On suppose que tous les avions bougent en même temps, ainsi l action est factorisée sur les actions individuelles de chaque avion. Les actions de chaque avion p sont (on note (w 1, w 2 ) = at(p) l arête parcourue par p) : move(p) : essaye d atteindre la fin de l arête courante, et attend la prochaine action si c est le cas ; move_and_target(p, w), w {w W \ {w 1 } C(w 2, w ) = 1} : bouge jusqu à atteindre la fin du segment courant, puis si il est atteint, bouge en essayant d atteindre le point w ; stop(p) : stoppe à la position (continue) courante.
6 JFPDA 29 3 Utiliser RTDP sur des domaines hybrides 3.1 Real Time Dynamic Programming RTDP est un algorithme proposé dans (Barto et al. (1995)). Partant d un état donné (l état initial pour un problème de plus court chemin stochastique ou l état courant si utilisé en ligne), il simule une trajectoire de l agent en sélectionnant de manière gloutonne la meilleure action (suivant la connaissance courante) dans chaque état rencontré. Une trajectoire (un trial ) est stoppée quand le but est atteint (dans le cas d un plus court chemin stochastique où un but unique est donné, ou quand un horizon donné est atteint). Afin d évaluer les actions pour des états inexplorés, une fonction heuristique donne une valeur pour ces états. Une caractéristique importante de cet algorithme est qu il ne met à jour les valeurs que des états rencontrés, c est-à-dire ceux qui, grâce aux mécanisme de trials, seront les plus probablement rencontrés à l exécution. Le pseudo-code de RTDP est donné dans l algorithme 1. Le pendant que extérieur répète indéfiniment les RTDP trials. En pratique, cette boucle est stoppée quand la valeur de l état initial ne décroît plus (pas plus qu un ɛ donné), ou quand la mission est terminée (comme RTDP peut être utilisé en ligne). Il faut remarquer que ceci n est pas une condition suffisante d optimalité, par exemple dans le cas où la solution optimale n a pas encore été explorée du fait de la nature stochastique des trials Algorithm 1: RTDP // s est l état initial au début // tous les s.explored sont faut au début while true do while GOAL(s) do a greedyaction(s); s.v alue update(s); s picknextstate(s, a); s.explored true; Dans le cas de MDP (discret), mettre à jour la valeur d un état s prend la forme de l équation 1, avec H(s) la valeur d une heuristique admissible sur S, et a l action choisie de manière gloutonne. s.v alue = s S T (s, a, s )[R(s, a, s ) + γv (s )] (1) V (s) = { s.v alue if s.explored = true H(s) if s.explored = f alse (2) Choisir la meilleure action est fait en faisant le même calcul que la mise-à-jour de la valeur de l état courant (vu qu elle est calculée par l équation 3). De la même manière, si les valeurs sont stockées pour chaque état, la politique peut être calculée par l équation 3. π (s) = argmax a A X T (s, a, s )[R(s, a, s ) + γv (s )] A (3) 3.2 Intégration de Bellman avec des variables d état hybrides s S Afin de généraliser RTDP au cas hybride, nous devons définir plusieurs fonctions. La première est s.explored : on ne peut donner un indicateur exploré pour chaque état continu ; il faut à la place définir une fonction indicateur explored : S {true, false}, qui sera appelée pour savoir si l algorithme doit utiliser une valeur heuristique ou bien la valeur calculée. Un autre problème vient de s.value : dans la même veine, s.value ne peut stocker la valeur comme fait habituellement, vu que l espace d état est continu. Nous devons définir une fonction : value : S R, qui pour n importe quel état s de l espace continu va stocker la valeur associée. Avec cette représentation de la fonction de valeur, nous avons besoin d un façon consistante de stocker la politique, vu qu elle ne peut pas être représentée par un tableau comme fait classiquement.
7 HRTDP Mais la plus grosse difficulté vient de la mise-à-jour elle-même (équation 1) où l on somme sur l espace discret : ceci doit être généralisé par une intégrale, ou plus exactement par un mélange de sommations et d intégration dans un espace hybride, avec des bornes d intégration corrélées. Pour l instant nous avons juste besoin de définir une fonction de mise-à-jour : update : ((S R), S) (S R), capable de mettre à jour la fonction de valeur pour un état s S, et son voisinage. 4 Planifier dans des domaines hybrides en utilisant l apprentissage automatique Des méthodes récentes d apprentissage automatique en ligne comme LWPR (Vijayakumar et al. (25)) et les processus gaussiens en ligne (Csató & Opper (22)) peuvent être utilisées pour représenter efficacement des fonctions de variables continues dont les valeurs changent et doivent être réapprises (à l inverse de l apprentissage hors-ligne). De telles méthodes apprennent les valeurs de ces fonctions pour certains états, et permettent également de prédire les valeurs de ces fonctions pour les états voisins. Si les valeurs apprises sont dans un ensemble discret, l algorithme d apprentissage est un classifieur ; si les valeurs sont dans un état continu, on l appelle régresseur. De plus, la plupart des méthodes en ligne sont focalisées, c est-à-dire que la mémoire utilisée pour l apprentissage peut être borné par une constante. Quelque soit le cadre dans lequel on les applique, de telles méthodes d apprentissage automatique sont des outils permettant de représenter efficacement des fonctions de variables continues en termes de place mémoire et de temps de calcul. Ainsi, nous utilisons des régresseurs en ligne pour représenter la fonction de valeur de MDPs hybrides, et des classifieurs pour stocker la politique. Même si ces méthodes viennent de la communauté de l apprentissage automatique, notre algorithme n est pas lié à l apprentissage par renforcement, car nous connaissons (et utilisons) le modèle du domaine. Des méthodes d apprentissage en ligne sont utilisées dans des espaces continus, mais notre espace d états contient à la fois des variables continues et discrètes. Il serait possible de considérer que chaque variable discrète fait partie d un ensemble de valeurs spéciales d un ensemble continu, lequel serait utilisé par les algorithmes d apprentissage. Cependant, nous pensons que cette solution ne serait pas très efficace car elle ajouterait de nombreuses dimensions aux régresseurs et classifieurs, dont la complexité augmente grandement avec les dimensions des espaces considérés. Donc nous n utilisons des outils d apprentissage en ligne que sur les composantes continues de l espace des états, en utilisant la structure suivante, similaire au graphe hybride de HAO (Meuleau et al. (29)). La différence est que ce dernier utilise des kd-trees pour représenter des fonctions de variables continues. Definition 2 Un graphe de planification hybride (HPG) est un graphe orienté (S d, T d ) avec : S d q i=1 Vd i est la projection de l espace d états hybride sur les variables discrètes ; chaque sommet (v1, d, vq d ), appelé état discret, est une paire π c, V r avec : π c : p i=1 Vc i A est un classifieur multi-classes tel que : π c(v1, c, vp) c = π(v1, c, vp, c v1, d, vq d ) ; V r : p i=1 Vc i R est un régresseur tel que V r(v1, c, vp) c = V (v1, c, vp, c v1, d, vq d ). T d = {(s d 1, s d 2) (S d ) 2 (s c 1, s c 2, a) ( p i=1 Vc i )2 A, T ((s c 1, s d 1), a, (s c 2, s d 2)) > } est l ensemble des transitions possibles entre les états discrets du graphe. Dans cette définition, la fonction explored définie plus haut n est pas présente. Nous simulons cette fonctions avec les fonctions V r : comme les boites à outils de régression que nous utilisons donnent en plus de la prédiction elle-même la confiance en celle-ci (ou la borne sur la confiance), c est-à-dire le bruit d apprentissage, nous disons simplement que si la confiance est trop basse (ou la borne trop haute), alors le point de l espace des états considéré n a pas été assez exploré, et donc que explored = false. Donc on n a pas besoin d un classifieur binaire séparé pour savoir si un état a été exploré ou non. À l initialisation de HRTDP, le HPG contient un seul sommet, correspondant aux instanciations des variables discrètes de l état initial. De nouveaux nœuds sont ajoutés au graphe pendant la résolution à chaque bellman backup, comme expliqué plus bas. Lors des trials (trajectoires) HRTDP on va de nœud en nœud du HPG en mettant à jour la valeur de l état hybride courant en utilisant la régresseur de la fonction de valeur pour chaque nœud visité.
8 JFPDA Confiance en l information apprise Un des aspects fondamentaux lors de l utilisation de techniques de régression et de classification est la notion de confiance : les boites à outils récentes permettent d utiliser non seulement le résultat de la prédiction, mais donnent également la confiance en cette prédiction. Cette valeur peut être la probabilité que la prédiction soit correcte étant donné les informations connues. Certaines boites à outils, comme cette que nous avons utilisé donnent plutôt la borne sur la confiance, dont l intuition est l inverse : si la borne est élevée, la qualité de la connaissance est faible. De fait, il est très important de prendre cette confiance en compte lorsque l on utilise l apprentissage automatique ; sinon on considérerait implicitement que la phase d apprentissage est parfaite, et particulièrement que le régresseur donne une valeur correcte, ceci même avec petit un jeu d apprentissage, ce qui est impossible. De plus, comme nous allons le voir dans la section 5, la confiance permet de guider l exploration ellemême dans la cadre RTDP. Si l on a en tête que RTDP choisi de manière gloutonne la meilleure action dans la cadre discret, on peut se dire que dans notre cas la meilleure action est un critère relatif : si la confiance est élevée, alors on peut croire que l on connaît la meilleure action, mais si elle est faible, alors on ne devrait pas croire que l action considérée est effectivement la meilleure (particulièrement s il n y a pas eu beaucoup de données d apprentissage autour de cette action). Nous proposons un schéma exploration contre exploitation basé sur la confiance en quelle action est la meilleure pour guider l algorithme. 4.2 Bellman backup hybride Mettre à jour la valeur d un état hybride nécessite de calculer une intégrale sur des variables continues et discrètes. Comme le montre l algorithme 2, on calcule une approximation de cette intégrale hybride avec une simulation de Monte-Carlo où la valeur de la fonction intégrée est prédite à partir du régresseur des nœuds suivants dans le HPG (ligne 9). De nouveaux nœuds sont ajoutés quand les successeurs aléatoires discrets n ont pas été explorés (ligne 6). Si un successeur n a pas été exploré (que la confiance dans ses prédictions est trop faible), on utilise une valeur heuristique et demande à son régresseur de fonction de valeur de l apprendre (lignes 7 et 8). Finalement, le régresseur de fonction de valeur et le classifieur de politique apprennent la nouvelle valeur (lignes 14 and 15). La fonction random_next utilise la fonction de transition T du HMDP pour générer au hasard des successeurs. Aucune hypothèse n est prise sur la forme de la distribution de probabilité de T. De ce fait, notre algorithme marche avec n importe quelle distribution de probabilité qui peut être échantillonnée. À la connaissance des auteurs, aucun autre algorithme de résolution de HMDP n est capable de gérer n importe quel type de fonction de transition. 4.3 HRTDP En utilisant le mécanisme de mise-à-jour décrit ci-dessus, nous pouvons maintenant présenter l algorithme HRTDP (alg. 3). Premièrement, on met à jour la valeur pour l état s et apprend la politique et la valeur comme montré précédemment. On mémorise (dans la même boucle dans l implémentation courante) la meilleure action ainsi que l action qui conduit à la région la moins connue de l espace. Ensuite, en fonction d à quel point est mal connue cette région, on choisit d appliquer soit la meilleure action (comme dans RTDP), soit une action d exploration qui va faire explorer des régions mal connues, de façon à réduire le biais d apprentissage et augmenter la connaissance aussi vite que possible. Le paramètre α > permet de régler le compromis exploration contre exploitation, et pourrait être changé en ligne, par exemple pour effectuer un recuit-simulé. Dans l algorithme 3, tout comme dans les expérimentations décrites ci-dessous, nous choisissons au hasard la meilleure action avec la probabilité e α worstconf, ce qui signifie que moins la région est connue, plus l exploration est choisie. 4.4 Heuristique admissible indépendante du domaine À chaque fois que le nous considérons qu un état hybride s n a pas encore été exploré, une valeur heuristique admissible H(s) doit être calculée telle que H(s) V π (s). Une heuristique naïve pourrait avoir besoin de générer tous les nœuds du HPG, dont le nombre est exponentiel en fonction du nombre de variables discrètes. Nous avons implémenté une heuristique par relaxation inspirée du planificateur déterministe FF
9 HRTDP Algorithm 2: Mise-à-jour de l état hybride // s = (s c, s d ) est l état à mettre à jour // s d est le nœud du HPG contenant s // N est le nombre d échantillons utilisés pour calculer l approximation de l intégrale // CT est le seuil de confiance, au-dessus duquel le nœud est considéré inexploré best_qvalue ; for a A do qvalue ; for i 1 to N do ((s c, s d ), r) s.random_next(t ((s c, s d ), a, )); if s d HP G.nodes() then HP G.add_node(s d ); if confidence(s d.v c.predict(s c )) > CT then s d.v r.learn(s c, H(s c, s d )); qvalue qvalue + (γ s d.v r.predict(s c )) + r; qvalue qvalue/n; if best_qvalue < qvalue then best_qvalue qvalue; best_action a; s d.v r.learn(s c, best_qvalue); s d.π c.learn(s c, best_action); Algorithm 3: HRTDP 1 while true do // s est l état initial au début 2 while GOAL(s) do 3 hybrid_state_update(s); 4 lessknowna action menant à des prédictions avec la plus grande borne de confiance ; 5 worstconf confiance correspondante; 6 besta action menant à la plus grande valeur; 7 j a s picknextstate(s, a); besta with p = e α.worstconf lessknowna with p = 1 e α.worstconf (Hoffmann & Nebel (21)), afin de gérer le modèle HMDP 1. Cette heuristique assume que toutes les variables sont binaires, ce qui n est pas une limitation car une variable n-aire peut être traduite en log 2 (n) variables binaires. Cette heuristique construit de façon incrémentale deux listes des valeurs true et f alse prises par chaque variable discrète durant la recherche heuristique, sans jamais enlever de valeurs à cette liste. Bien que linéaire en espace nécessaire, cette heuristique perd les dépendances des variables par rapport aux états. La fonction de transition est relaxée de façon à utiliser directement ces listes, sans prendre en compte les composantes continues. La recherche stoppe quand l état but est inclus dans ces listes, et l opposé de la distance amortie est une valeur heuristique admissible pour les problèmes de plus court chemin stochastique. La complexité de la recherche heuristique est polynomiale en la longueur des listes, c est-à-dire polynomiale en le nombre de variables discrètes. Bien qu effectuant une recherche dans les états discrets uniquement, cette heuristique reste admissible dans notre cas car, intuitivement, plus d étapes seraient nécessaires pour atteindre le but en considérant les variables continues (il y aurait moins d actions applicables pendant l expansion). Du coup, la distance relaxée est plus faible que la distance qui serait calculée avec les états hybrides. Cette heuristique a été choisie car elle a donné de bons résultats dans la compétition de planification de 28, car elle est indépendante du 1. Cette heuristique est inspirée du planificateur FSP, plus précisément est une implémentation de l heuristique RDH décrite dans http ://ippc-28.loria.fr/wiki/images/c/c2/team1-fsp.pdf
10 JFPDA 29 domaine et car elle peut être utilisée dans des domaines avec des cycles. 5 Expérimentations Nous avons testé notre algorithme HRTDP sur des instances de plus court chemin stochastique des domaines présentés en section Nous avons utilisé le langage PPDDL décrit dans (Teichteil (28)). Nous avons utilisé LWPR (Vijayakumar et al. (25)) pour l implémentation des régresseurs et des classifieurs des nœuds du HPG. Pour chaque test, nous avons lancé HRTDP 1 fois et moyenné différents critères sur les 1 instances. Chaque critère est présenté en tant que moyenne en fonction du temps d optimisation (en secondes), observé après chaque trial. Dans les courbes présentées, la valeur moyenne est présentée en vert, et l enveloppe en rouge. 5.1 Domaine search-and-rescue Selon la description de ce domaine, il y a 2 3+2n (n + 1) états discrets (nombre maximal de nœuds dans le HPG) et 2 variables continues, avec n le nombre de zones. La figure 4 montre que HRTDP converge très vite en terme de valeur de l état initial (la valeur est l espérance des récompenses collectées en exécutant la politique), ce qui signifie que notre algorithme est capable de donner très vite de bonnes solutions pour l état initial (et pour les trajectoires les plus probables). Une vallée est visible pour le problème à 2 zones, il semble que les régresseurs sous-estiment les espérances de coûts à un certain moment. Comme on peut le voir sur la figure 5, le nombre de nœuds dans le graphe hybride continue d augmenter après que la valeur de l état initial se soit stabilisée, ce qui montre que notre algorithme continue d explorer des états moins atteignables (comportement anytime ), sans vraiment augmenter la récompense estimée, exactement comme l on s y attend avec des algorithmes à la RTDP (si les états soient moins atteignables, leur influence sur la valeur de l état initial est plus faible). On peut remarquer que le nombre de nœuds dans le HPG est très faible en regard du nombre maximal théorique, ceci est dû à la nature du domaine dans lequel de nombreuses actions ont des pré-conditions restrictives, et donc ne peuvent être appliquées quand dans quelques états, conduisant à un grand nombre d états à peu près inatteignables. Sur la figure 6(a), on peut voir le pourcentage de choix explicite d exploration. Ce pourcentage ne décroît pas pendant la résolution ; ceci est lié à la pire confiance pendant les backups, montrée sur la figure 6(b), qui semble atteindre une borne supérieure. En fait LWPR donne une borne sur la confiance qui se comporte à l opposé de l intuition de la confiance : plus cette valeur est grande, moins on peut avoir confiance en la prédiction. Dans ce cas, comme on explore de plus en plus d états, la borne sur la confiance devient de pire en pire. Nous pensons qu elle pourrait devenir meilleure après que l ensemble des états ait été exploré suffisamment, ce que nous voulons bien sûr éviter. Afin de monter l influence du choix explicite d exploration, nous avons conduit d autres expérimentations avec un très faible α, conduisant à très peu d explorations explicites, comme on peut le voir sur la figure 7(a). Dans ce cas, on peut voir que la pire valeur de confiance est la même, mais est atteinte moins vite (sur la figure 7(b)). Ceci semble confirmer l intuition de l explication du grand (et non-décroissant) pourcentage d explorations. Finalement, à la fois le choix explicite d exploration et le bruit induit par les régressions ont un impact sur la longueur des trials de HRTDP. Ces trials stoppent quand le but est atteint, ce qui nous donne une idée de la qualité de la solution obtenue. Sur les figures 8(a), on peut voir que la longueur (bruitée) des trials, et sur la figure 8(b), on peut voir que lorsque la valeur de l état initial devient minimale pour la première fois, HRTDP effectue de très courts trials (c est la solution optimale), et après ceci la longueur augmente graduellement car HRTDP explore de nouvelles régions, sans arriver à améliorer la valeur de l état initial. Nous avons également testé l influence du nombre d échantillons utilisés pour l approximation des intégrales, mais elle est évidente : avec moins de particules, le calcul est plus rapide mais on voit beaucoup de bruit, avec avec plus de particules, les calculs sont plus précis mais plus lents. 2. Nous n avons pas pu nous comparer à HALP ni à HAO sur les domaines qu ils peuvent résoudre car nous n avons pas pu obtenir leur codes, très durs à re-implementer, ni de version compilée. De plus, les domaines utilisés ne sont pas non plus disponibles.
11 HRTDP value function of the initial state value function of the initial state value function of the initial state (a) 5 zones (b) 1 zones (c) 2 zones FIGURE 4 valeur de l état initial pour le domaine search-and-rescue domain avec 5 zones number of nodes in the HPG number of nodes in the HPG number of nodes in the HPG (a) 5 zones (b) 1 zones (c) 2 zones FIGURE 5 Nombre de nœud développés par HRTDP pour le domaine search-and-rescue 18.1 percentage of exploration actions worst confidence during Bellaman backup (a) % choix d exploration (b) Pire borne de confiance x FIGURE 6 Expl. and conf. pour 2 zones pour le domaine S&R percentage of exploration actions worst confidence during Bellaman backup value function of the initial state (a) Pourcentage de choix d exploration (b) Pire borne de confiance (c) Valeur de l état initial FIGURE 7 S&R (1 zones) : réduction du pourcentage d exploration (α =.1) 5.2 Gestion d aéroport La Figure 9 montre les résultats obtenus sur une instance de la gestion du trafic sol d un aéroport avec (2N) p états discrets et p variables continues, et N le nombre de points de passages (N = 12 pour l aéroport testé), et p le nombre d avions (5 pour les résultats présentés ici). Bien que ce domaine soit encore plus dur que le précédent, on peut voir que HRTDP arrive à le résoudre. Malgré le plus grand nombre de régresseurs pour ce domaine, HRTDP converge rapidement vers une politique stable. On voit moins de points sur la figure, ceci car beaucoup plus de calculs sont nécessaires pour chaque Bellman backup.
12 JFPDA depth of HRTDP trajectories depth of HRTDP trajectories (a) α = 1 (b) α =.1 FIGURE 8 Longueur des trials (dans le domaine S&R pour 1 zones) value function of the initial state worst confidence during Bellaman backup number of nodes in the HPG (a) Valeur de l état initial.2 (b) Pire borne sur la confiance 16 (c) Nombre de nœuds FIGURE 9 Résultats pour la gestion d aéroport 5.3 Comparaison avec une stratégie heuristique Afin de montrer que HRTDP améliore la valeur heuristique et trouve de bonnes stratégies, nous avons comparé HRTDP avec une stratégie heuristique qui consiste à choisir simplement la meilleure action suivant l heuristique, sans apprentissage ni optimisation (la valeur heuristique d une action en un état donné est la somme de sa récompense immédiate et la moyenne des valeurs heuristiques des états successeurs par cette action). Bien que donnant des valeurs informatives pour les backups, l heuristique présentée (qui se base sur une relaxation de l espace d états), utilisée comme stratégie est complètement incapable d atteindre le but sur 1 tests de profondeur 2, et ce pour chacun des problèmes testés. D autre part, la valeur statistique de l état initial en utilisant cette stratégie est de 1 = 1/(1 γ) dans tous les cas (avec γ =.9), ce qui correspond à des trajectoires infinies qui n atteignent jamais le but. Au contraire, comme montré précédemment, HRTDP avec cette heuristique atteint une solution en quelques secondes, en bien moins de 2 étapes, et la valeur de l état initial n était jamais au-dessous de 5 ou 2 (suivant le problème). Comparé à une stratégie heuristique, ceci prouve que HRTDP optimise correctement la fonction de valeur, et ce malgré le bruit d apprentissage. 6 Conclusion et perspectives Nous avons montré qu il est possible de résoudre des HMDPs de manière asynchrone en utilisant une recherche heuristique en avant, et une représentation hybride des composants nécessaire aux Bellman backups. Nous avons proposé une formulation d un tel algorithme, en utilisant des techniques d apprentissage automatique pour la régression, ainsi qu un apprentissage incrémental pour les Bellman backups. Nous avons montré que cette approche marche, ce sur deux domaines complexes. Notre technique permet de traiter des fonctions de transition quelconques, ce qui n était possible avec aucune approche précédente. Nous pensons pour le futur utiliser d autres technique d apprentissage comme les processus gaussiens (Csató & Opper (22); Lawrence et al. (23)), de façon à montrer l influence des techniques de régression, ce qui sera nécessaire pour nous assurer de la qualité des politiques calculées, et si possible prouver une (ɛ-)optimalité. Nous pensons également étendre cette approche pour gérer des MDPs partiellement observables, en utilisant les mêmes techniques dans l espace des croyances (qui est complètement continu et non hybride).
13 HRTDP Références BARTO A. G., BRADTKE S. J., SINGH S. P., YEE T. T. R., GULLAPALLI V. & PINETTE B. (1995). Learning to act using real-time dynamic programming. Artif. Intel., 72. BELLMAN R. E. (1957). Dynamic Programming. Princeton University Press. CSATÓ L. & OPPER M. (22). Sparse on-line gaussian processes. Neural Computation, 14(3), HOFFMANN J. & NEBEL B. (21). The FF planning system : Fast plan generation through heuristic search. Journal of Artificial Intelligence Research, 14, KVETON B. & HAUSKRECHT M. (26). Learning basis functions in hybrid domains. In AAAI. KVETON B., HAUSKRECHT M. & GUESTRIN C. (26). Solving factored mdps with hybrid state and action variables. JAIR, 27, LAWRENCE N. D., SEEGER M. & HERBRICH R. (23). Fast sparse gaussian process methods : the informative vector machine. In NIPS. LI L. & LITTMAN M. (25). Lazy approximation for solving continuous finite-horizon MDPs. In AAAI. MARECKI J., KOENIG S. & TAMBE M. (27). A fast analytical algorithm for solving Markov decision processes with continuous ressources. In Proceedings of IJCAI. MEULEAU N., BENAZERA E., BRAFMAN R., MAUSAM & HANSEN E. A. (29). A heuristic search approach to planning with continuous resources in stochastic domains. Journal of Artificial Intelligence Research, 34, TEICHTEIL F. (28). Extending PPDDL1. to model hybrid markov decision processes. In ICAPS 8 workshop on A Reality Check for Plan. and Sched. Under Uncertainty. VIJAYAKUMAR S., D SOUZA A. & SCHAAL S. (25). Incremental online learning in high dimensions. Neural Computation, 17(12),
Apprentissage par renforcement (1a/3)
Apprentissage par renforcement (1a/3) Bruno Bouzy 23 septembre 2014 Ce document est le chapitre «Apprentissage par renforcement» du cours d apprentissage automatique donné aux étudiants de Master MI, parcours
Plus en détailCours de Master Recherche
Cours de Master Recherche Spécialité CODE : Résolution de problèmes combinatoires Christine Solnon LIRIS, UMR 5205 CNRS / Université Lyon 1 2007 Rappel du plan du cours 16 heures de cours 1 - Introduction
Plus en détailLA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»
LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers
Plus en détailProgrammation linéaire
1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit
Plus en détailCoup de Projecteur sur les Réseaux de Neurones
Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche
Plus en détailPrincipe de symétrisation pour la construction d un test adaptatif
Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université
Plus en détailRaisonnement probabiliste
Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte
Plus en détailI Stabilité, Commandabilité et Observabilité 11. 1 Introduction 13 1.1 Un exemple emprunté à la robotique... 13 1.2 Le plan... 18 1.3 Problème...
TABLE DES MATIÈRES 5 Table des matières I Stabilité, Commandabilité et Observabilité 11 1 Introduction 13 1.1 Un exemple emprunté à la robotique................... 13 1.2 Le plan...................................
Plus en détailBaccalauréat ES/L Amérique du Sud 21 novembre 2013
Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée
Plus en détailModèles à Événements Discrets. Réseaux de Petri Stochastiques
Modèles à Événements Discrets Réseaux de Petri Stochastiques Table des matières 1 Chaînes de Markov Définition formelle Idée générale Discrete Time Markov Chains Continuous Time Markov Chains Propriétés
Plus en détailReconstruction de bâtiments en 3D à partir de nuages de points LIDAR
Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Mickaël Bergem 25 juin 2014 Maillages et applications 1 Table des matières Introduction 3 1 La modélisation numérique de milieux urbains
Plus en détailQuantification Scalaire et Prédictive
Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction
Plus en détailTable des matières. I Mise à niveau 11. Préface
Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme
Plus en détailUne méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données
Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion marc.boulle@orange-ftgroup.com,
Plus en détailSujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.
Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de
Plus en détailContents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes
Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire
Plus en détailINF6304 Interfaces Intelligentes
INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie
Plus en détailAnnexe 6. Notions d ordonnancement.
Annexe 6. Notions d ordonnancement. APP3 Optimisation Combinatoire: problèmes sur-contraints et ordonnancement. Mines-Nantes, option GIPAD, 2011-2012. Sophie.Demassey@mines-nantes.fr Résumé Ce document
Plus en détailLeçon N 4 : Statistiques à deux variables
Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d
Plus en détailVision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007
Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................
Plus en détailMCMC et approximations en champ moyen pour les modèles de Markov
MCMC et approximations en champ moyen pour les modèles de Markov Gersende FORT LTCI CNRS - TELECOM ParisTech En collaboration avec Florence FORBES (Projet MISTIS, INRIA Rhône-Alpes). Basé sur l article:
Plus en détailFiltrage stochastique non linéaire par la théorie de représentation des martingales
Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de
Plus en détailEtude d un cas industriel : Optimisation de la modélisation de paramètre de production
Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui
Plus en détailPROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES
Leçon 11 PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Dans cette leçon, nous retrouvons le problème d ordonnancement déjà vu mais en ajoutant la prise en compte de contraintes portant sur les ressources.
Plus en détailRésumé des communications des Intervenants
Enseignements de la 1ere semaine (du 01 au 07 décembre 2014) I. Titre du cours : Introduction au calcul stochastique pour la finance Intervenante : Prof. M hamed EDDAHBI Dans le calcul différentiel dit
Plus en détailProjet SINF2275 «Data mining and decision making» Projet classification et credit scoring
Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems
Plus en détailRLBS: Une stratégie de retour arrière adaptative basée sur l apprentissage par renforcement pour l optimisation combinatoire
Actes JFPC 2015 RLBS: Une stratégie de retour arrière adaptative basée sur l apprentissage par renforcement pour l optimisation combinatoire Ilyess Bachiri 1,2 Jonathan Gaudreault 1,2 Brahim Chaib-draa
Plus en détailCorrection du baccalauréat ES/L Métropole 20 juin 2014
Correction du baccalauréat ES/L Métropole 0 juin 014 Exercice 1 1. c.. c. 3. c. 4. d. 5. a. P A (B)=1 P A (B)=1 0,3=0,7 D après la formule des probabilités totales : P(B)=P(A B)+P(A B)=0,6 0,3+(1 0,6)
Plus en détailLE PROBLEME DU PLUS COURT CHEMIN
LE PROBLEME DU PLUS COURT CHEMIN Dans cette leçon nous définissons le modèle de plus court chemin, présentons des exemples d'application et proposons un algorithme de résolution dans le cas où les longueurs
Plus en détailPourquoi l apprentissage?
Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage
Plus en détailApprentissage statistique dans les graphes et les réseaux sociaux
Apprentissage statistique dans les graphes et les réseaux sociaux Patrick Gallinari Collaboration : L. Denoyer, S. Peters Université Pierre et Marie Curie AAFD 2010 1 Plan Motivations et Problématique
Plus en détailPROBABILITES ET STATISTIQUE I&II
PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits
Plus en détailAgrégation des portefeuilles de contrats d assurance vie
Agrégation des portefeuilles de contrats d assurance vie Est-il optimal de regrouper les contrats en fonction de l âge, du genre, et de l ancienneté des assurés? Pierre-O. Goffard Université d été de l
Plus en détailK. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau
Apport des modèles de krigeage à la simulation numérique K Ammar, F Bachoc, JM Martinez CEA-Saclay, DEN, DM2S, F-91191 Gif-sur-Yvette, France Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau Apport des
Plus en détailNouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires
Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires Julien Jorge julien.jorge@univ-nantes.fr Laboratoire d Informatique de Nantes Atlantique,
Plus en détailLe ROI du marketing digital
Online Intelligence Solutions Le ROI du marketing digital et les Web Analytics Par Jacques Warren WHITE PAPER A propos de Jacques warren Jacques Warren évolue en marketing digital depuis 1996, se concentrant
Plus en détailchargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d
Laboratoire de Mécanique et Ingénieriesnieries EA 3867 - FR TIMS / CNRS 2856 ER MPS Modélisation stochastique d un d chargement d amplitude variable à partir de mesures Application à l approche fiabiliste
Plus en détailL apprentissage automatique
L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer
Plus en détailNON-LINEARITE ET RESEAUX NEURONAUX
NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail
Plus en détailTP N 57. Déploiement et renouvellement d une constellation de satellites
TP N 57 Déploiement et renouvellement d une constellation de satellites L objet de ce TP est d optimiser la stratégie de déploiement et de renouvellement d une constellation de satellites ainsi que les
Plus en détailProgrammation Par Contraintes
Programmation Par Contraintes Cours 2 - Arc-Consistance et autres amusettes David Savourey CNRS, École Polytechnique Séance 2 inspiré des cours de Philippe Baptiste, Ruslan Sadykov et de la thèse d Hadrien
Plus en détail4 Exemples de problèmes MapReduce incrémentaux
4 Exemples de problèmes MapReduce incrémentaux 1 / 32 Calcul des plus courtes distances à un noeud d un graphe Calcul des plus courts chemins entre toutes les paires de noeuds d un graphe Algorithme PageRank
Plus en détailRecherche locale pour un problème d optimisation de tournées de véhicules avec gestion des stocks
8 e Conférence Internationale de MOdélisation et SIMulation - MOSIM 10-10 au 12 mai 2010 - Hammamet - Tunisie «Évaluation et optimisation des systèmes innovants de production de biens et de services» Recherche
Plus en détailFORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)
87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation
Plus en détailDétection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique
Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique Denis Brazey & Bruno Portier 2 Société Prynɛl, RD974 290 Corpeau, France denis.brazey@insa-rouen.fr 2 Normandie Université,
Plus en détailChronogrammes et contraintes. à la modélisation de systèmes dynamiques à événements
Actes FAC 2007 Chronogrammes et contraintes pour la modélisation de systèmes dynamiques à événements discrets Gérard Verfaillie Cédric Pralet Michel Lemaître ONERA/DCSD Toulouse 2 av. Édouard Belin, BP
Plus en détailTSTI 2D CH X : Exemples de lois à densité 1
TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun
Plus en détailFonctions de plusieurs variables
Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme
Plus en détailLe modèle de Black et Scholes
Le modèle de Black et Scholes Alexandre Popier février 21 1 Introduction : exemple très simple de modèle financier On considère un marché avec une seule action cotée, sur une période donnée T. Dans un
Plus en détailModèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes
de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,zguessoum@usthb.dz
Plus en détaildonnées en connaissance et en actions?
1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)
Plus en détailTABLE DES MATIERES. C Exercices complémentaires 42
TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence
Plus en détailArithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot
Chapitre 5 Arithmétique binaire L es codes sont manipulés au quotidien sans qu on s en rende compte, et leur compréhension est quasi instinctive. Le seul fait de lire fait appel au codage alphabétique,
Plus en détailCalculer avec Sage. Revision : 417 du 1 er juillet 2010
Calculer avec Sage Alexandre Casamayou Guillaume Connan Thierry Dumont Laurent Fousse François Maltey Matthias Meulien Marc Mezzarobba Clément Pernet Nicolas Thiéry Paul Zimmermann Revision : 417 du 1
Plus en détailLe Data Mining au service du Scoring ou notation statistique des emprunteurs!
France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative
Plus en détailUne comparaison de méthodes de discrimination des masses de véhicules automobiles
p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans
Plus en détail$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU
$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le
Plus en détailAnnexe commune aux séries ES, L et S : boîtes et quantiles
Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans
Plus en détailNOTE SUR LA MODELISATION DU RISQUE D INFLATION
NOTE SUR LA MODELISATION DU RISQUE D INFLATION 1/ RESUME DE L ANALYSE Cette étude a pour objectif de modéliser l écart entre deux indices d inflation afin d appréhender le risque à très long terme qui
Plus en détailContrôle stochastique d allocation de ressources dans le «cloud computing»
Contrôle stochastique d allocation de ressources dans le «cloud computing» Jacques Malenfant 1 Olga Melekhova 1, Xavier Dutreilh 1,3, Sergey Kirghizov 1, Isis Truck 2, Nicolas Rivierre 3 Travaux partiellement
Plus en détailPoker. A rendre pour le 25 avril
Poker A rendre pour le 25 avril 0 Avant propos 0.1 Notation Les parties sans * sont obligatoires (ne rendez pas un projet qui ne contient pas toutes les fonctions sans *). Celles avec (*) sont moins faciles
Plus en détailSouad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/
Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation
Plus en détailIntroduction au Data-Mining
Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane
Plus en détailModélisation du comportement habituel de la personne en smarthome
Modélisation du comportement habituel de la personne en smarthome Arnaud Paris, Selma Arbaoui, Nathalie Cislo, Adnen El-Amraoui, Nacim Ramdani Université d Orléans, INSA-CVL, Laboratoire PRISME 26 mai
Plus en détailAnalyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés
Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent
Plus en détailLES INDICATEURS CLÉ DE PERFORMANCE : DÉFINIR ET AGIR
Online Intelligence Solutions LES INDICATEURS CLÉ DE PERFORMANCE : DÉFINIR ET AGIR Comment intégrer les KPI à sa stratégie d entreprise? Par Jacques Warren WHITE PAPER WHITE PAPER A PROPOS DE JACQUES WARREN
Plus en détailApprentissage Automatique
Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs
Plus en détailAlgorithmes d'apprentissage
Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt
Plus en détailChapitre 5 : Flot maximal dans un graphe
Graphes et RO TELECOM Nancy A Chapitre 5 : Flot maximal dans un graphe J.-F. Scheid 1 Plan du chapitre I. Définitions 1 Graphe Graphe valué 3 Représentation d un graphe (matrice d incidence, matrice d
Plus en détailCOURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume
COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION Jean-Loup Guillaume Le cours Enseignant : Jean-Loup Guillaume équipe Complex Network Page du cours : http://jlguillaume.free.fr/www/teaching-syrres.php Évaluation
Plus en détailVérification de programmes et de preuves Première partie. décrire des algorithmes
Vérification de programmes et de preuves Première partie. décrire des algorithmes Yves Bertot September 2012 1 Motivating introduction A partir des années 1940, il a été compris que l on pouvait utiliser
Plus en détail4.2 Unités d enseignement du M1
88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter
Plus en détailRappels sur les suites - Algorithme
DERNIÈRE IMPRESSION LE 14 septembre 2015 à 12:36 Rappels sur les suites - Algorithme Table des matières 1 Suite : généralités 2 1.1 Déition................................. 2 1.2 Exemples de suites............................
Plus en détail1 Recherche en table par balayage
1 Recherche en table par balayage 1.1 Problème de la recherche en table Une table désigne une liste ou un tableau d éléments. Le problème de la recherche en table est celui de la recherche d un élément
Plus en détailLa Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1
La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois
Plus en détailModélisation et Simulation
Cours de modélisation et simulation p. 1/64 Modélisation et Simulation G. Bontempi Département d Informatique Boulevard de Triomphe - CP 212 http://www.ulb.ac.be/di Cours de modélisation et simulation
Plus en détailLe théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche
Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche Bachir Bekka Février 2007 Le théorème de Perron-Frobenius a d importantes applications en probabilités (chaines
Plus en détailOptimisation Combinatoire (Méthodes approchées) II. Recherche Locale simple (Les bases)
Optimisation Combinatoire (Méthodes approchées) II. Recherche Locale simple (Les bases) Heuristique Constructive Itérativement, ajoute de nouvelles composantes à une solution partielle candidate Espace
Plus en détailTP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options
Université de Lorraine Modélisation Stochastique Master 2 IMOI 2014-2015 TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options 1 Les options Le but de ce
Plus en détailLa classification automatique de données quantitatives
La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations
Plus en détailÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE
ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE ANALYSIS OF THE EFFICIENCY OF GEOGRIDS TO PREVENT A LOCAL COLLAPSE OF A ROAD Céline BOURDEAU et Daniel BILLAUX Itasca
Plus en détailChristophe CANDILLIER Cours de DataMining mars 2004 Page 1
Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe
Plus en détailMéthodes de Simulation
Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents
Plus en détailBiostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke
www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3
Plus en détailEléments de spécification des systèmes temps réel Pierre-Yves Duval (cppm)
Eléments de spécification des systèmes temps réel Pierre-Yves Duval (cppm) Ecole d informatique temps réel - La Londes les Maures 7-11 Octobre 2002 - Evénements et architectures - Spécifications de performances
Plus en détailProjet de Traitement du Signal Segmentation d images SAR
Projet de Traitement du Signal Segmentation d images SAR Introduction En analyse d images, la segmentation est une étape essentielle, préliminaire à des traitements de haut niveau tels que la classification,
Plus en détailMoments des variables aléatoires réelles
Chapter 6 Moments des variables aléatoires réelles Sommaire 6.1 Espérance des variables aléatoires réelles................................ 46 6.1.1 Définition et calcul........................................
Plus en détailProbabilités III Introduction à l évaluation d options
Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un
Plus en détailUtilisation d informations visuelles dynamiques en asservissement visuel Armel Crétual IRISA, projet TEMIS puis VISTA L asservissement visuel géométrique Principe : Réalisation d une tâche robotique par
Plus en détailCours IV Mise en orbite
Introduction au vol spatial Cours IV Mise en orbite If you don t know where you re going, you ll probably end up somewhere else. Yogi Berra, NY Yankees catcher v1.2.8 by-sa Olivier Cleynen Introduction
Plus en détailA GRASPxELS approach for the Job Shop with generic time-lags and new statistical determination of the parameters
A GRASPxELS approach for the Job Shop with generic time-lags and new statistical determination of the parameters Présenté par : Equipe de travail : Laboratoire : Maxime CHASSAING Philippe LACOMME, Nikolay
Plus en détailOrdonnancement robuste et décision dans l'incertain
Ordonnancement robuste et décision dans l'incertain 4 ème Conférence Annuelle d Ingénierie Système «Efficacité des entreprises et satisfaction des clients» Centre de Congrès Pierre Baudis,TOULOUSE, 2-4
Plus en détailVers une approche Adaptative pour la Découverte et la Composition Dynamique des Services
69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard
Plus en détailÉvaluation de la régression bornée
Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement
Plus en détailCONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)
CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un
Plus en détailEchantillonnage Non uniforme
Echantillonnage Non uniforme Marie CHABERT IRIT/INP-ENSEEIHT/ ENSEEIHT/TéSASA Patrice MICHEL et Bernard LACAZE TéSA 1 Plan Introduction Echantillonnage uniforme Echantillonnage irrégulier Comparaison Cas
Plus en détailLa fonction exponentielle
DERNIÈRE IMPRESSION LE 2 novembre 204 à :07 La fonction exponentielle Table des matières La fonction exponentielle 2. Définition et théorèmes.......................... 2.2 Approche graphique de la fonction
Plus en détailLes algorithmes de base du graphisme
Les algorithmes de base du graphisme Table des matières 1 Traçage 2 1.1 Segments de droites......................... 2 1.1.1 Algorithmes simples.................... 3 1.1.2 Algorithmes de Bresenham (1965).............
Plus en détailRésolution d équations non linéaires
Analyse Numérique Résolution d équations non linéaires Said EL HAJJI et Touria GHEMIRES Université Mohammed V - Agdal. Faculté des Sciences Département de Mathématiques. Laboratoire de Mathématiques, Informatique
Plus en détail