MDP hybrides sans intégration analytique en utilisant régression, échantillonnage et mises-à-jour locales

Dimension: px
Commencer à balayer dès la page:

Download "MDP hybrides sans intégration analytique en utilisant régression, échantillonnage et mises-à-jour locales"

Transcription

1 MDP hybrides sans intégration analytique en utilisant régression, échantillonnage et mises-à-jour locales Florent Teichteil-Königsbuch and Guillaume Infantes ONERA-CERT 2, av. Edouard Belin BP Toulouse Cedex 4 {florent.teichteil,guillaume.infantes}@onera.fr ONERA-CERT 2, av Edouard Belin BP Toulouse Cedex 4, France florent.teichteil@onera.fr et guillaume.infantes@onera.fr Résumé : Dans la plupart des problèmes réels de décision dans l incertain, des variables continues (par exemple le niveau de carburant) doivent être prises en compte. Le cadre des Processus Décisionnels de Markov Hybrides (PDMH, HMDP) permet de modéliser directement à la fois les composantes discrètes et continues de l espace d états. Les principales difficultés avec les PDMH sont : comment représenter de façon compacte la fonction de valeur (l espérance des gains) et comment la mettre à jour efficacement (effectuer le Bellman backup ) sur l espace hybride? Dans le cas général, le calcul analytique de la mise-à-jour est impossible sans simplification du modèle, particulièrement lorsque l on veut mettre à jour sur l ensemble de l espace d états, et une représentation compacte de la fonction de valeur doit nécessairement passer par une approximation du résultat de ce calcul. Nous présentons HRTDP, un algorithme qui lève les restrictions sur la forme des fonctions de transition, tout en permettant une représentation compacte de la fonction de valeur. Ceci est rendu possible grâce aux mises-à-jour asynchrones sur seulement certaines parties de l espace hybride, approximé par des techniques d échantillonnage, et grâce à des techniques de régression modernes utilisées pour avoir des représentation compactes de la fonction de valeur, ceci sans perdre en précision. Il tire également avantage d avancées récentes dans le domaines de la planification heuristique en avant : construction de politique partielle reposant sur des heuristiques de relaxation indépendantes du domaine, et étend ce cadre aux domaines hybrides. Nous montrons l intérêt de notre approche sur différentes instances de deux problèmes hybrides avec des fonction de transition complexes : search-and-rescue et gestion du trafic sol d un aéroport. 1 Introduction Malgré des avancées récentes, la prise de décision autonome est toujours un défi pour des scénarios réalistes. Une cause est que de tels scénarios impliquent la prise en compte du l indéterminisme dans de grands espaces. Les Processus Décisionnels de Markov (MDPs) ont prouvé récemment leur capacité à traiter de larges espaces en modélisant l indéterminisme par des probabilités, particulièrement en utilisant des recherches en avant se basant sur des heuristiques de façon à élaguer l espace de recherche. Mais un autre problème fondamental pour la mise en œuvre réelle est la possibilité de gérer des caractéristiques continues de l espace des états. Typiquement, il est impossible de gérer de façon native les ressources d un agent dans les MDPs. En général, de telles composantes sont discrétisées, ce qui rend l espace de recherche exponentiellement plus grand, tout en dégradant la précision de la représentation de telles composantes. Les MDPs hybrides (où l espace des états est un produit cartésien entre les variables d état continues et discrètes) permettent une représentation compacte de grands MDPs avec des composantes continues, comme nous allons le montrer dans la section 2. En utilisant ce cadre, des problèmes réalistes peuvent être facilement modélisés, nous présentons deux exemples dans la section 2.3. Autant que nous sachions, il y a eu assez peu de travaux dans le domaine des HMDPs, comme nous montrons section 2.1. Les obstacles principaux pour résoudre les HMDPs sont : la représentation de l espérance des gains (la fonction de valeur) sur l espace hybride (à cause du support infini), et le calcul des mises-à-jour de cette fonction, les Bellman backups (à cause de l intégrale hybride sur des variables continues et discrètes corrélées). Afin de résoudre de tels problèmes, il faut disposer d un schéma d approximation pour la fonction de valeur, et d une façon

2 JFPDA 29 de calculer les mises-à-jour efficacement. Des travaux précédents proposent de restreindre les fonctions de transition possibles ainsi que les représentations de la fonction de valeur afin de résoudre ces deux problèmes. La contribution principale de cet article est de lever de telles restrictions en utilisant des mises-à-jour asynchrones de la fonction de valeur. Ceci est rendu possible en adaptant l échantillonnage heuristique en avant utilisé pour des MDPs (discrets), et en représentant de façon compacte la fonction de valeur en utilisant des techniques issues du domaine de l apprentissage automatique. Nous expliquons ce qui est nécessaire pour adapter ces techniques en section 3 et que des avancées récentes du domaines de l apprentissage automatique (en particulier en ce qui concerne la classification et la régression) peuvent être utilisées dans le cœur de l algorithme, et quelles approximations peuvent être utilisées pour les Bellman backups. Il est intéressant de souligner que même si nous utilisons des techniques d apprentissage pour représenter des fonctions dans notre algorithme, nous n apprenons pas la politique comme c est le cas dans l apprentissage par renforcement, nous préférons utiliser des recherches heuristiques en avant et des backups asynchrones. Après avoir expliqué notre algorithme en détails dans la section 4, nous montrons l efficacité de notre approche en section 5. 2 Résolution de Processus Décisionnels de Markov Hybrides Definition 1 Un processus décisionnel de Markov hybride est un quadruplet S, A, T, R avec : S = p i=1 Vc i q i=1 Vd i est le produit cartésien de p variables d état continues et de q variables discrètes. Un état s S est une instanciation de toutes les variables d état : s = ( ) v1, c, vp, c v1, d, vq d. A est l ensemble des actions ; on suppose que les actions sont énumérées et discrètes. Chaque action a A est applicable en un ensemble d états S a. T : S A S [, 1] est la fonction de transition qui modélise les effets des actions ; c est une densité de probabilité sur les variables continues dont l intégration donne les probabilités des variables discrètes. R : S A S R est la fonction de récompense ; R(s, a, s ) est la récompense gagnée en atteignant l état s depuis l état s en appliquant l action a. On suppose que les domaines des variables continues sont dans n importe quel intervalle de R, et que l espace des actions est dénombrable et fini. L optimisation d un HMDP consiste en le calcul de la politique π : S A qui maximise la moyenne sur les trajectoires possibles des récompenses accumulées amorties sur un horizon infini : π (s) = arg max E π A S 2.1 Travaux voisins [ + t= γt r t s, π ] avec γ ], 1[ le facteur d amortissement. Comme nous allons voir dans les exemples, la principale difficulté vient des bellman backups dans des domaines hybrides. Comme l espace des états est composé de variables continues et discrètes, l intégration analytique est impossible dans le cas général. Un autre problème est la représentation de la fonction de valeur elle-même, qui peut être quelconque, et donc doit être approchée. Les auteurs connaissent principalement deux algorithmes pour résoudre des HMDPs. Le premier est HALP (Kveton et al. (26)) ; et l autre est l adaptation de AO aux domaines hybrides, nommé HAO (Meuleau et al. (29)). Le cadre HALP a été le premier algorithme pour résoudre des HMDPs en utilisant la programmation linéaire approchée, projetant la fonction de valeur sur un ensemble fini de fonctions (une base de fonctions ), en discrétisant les variables continues et en utilisant des sommes de fonctions beta pour représenter les transitions. La formulation en programmation linéaire du MDP utilise un ensemble infini de contraintes linéaires pour chaque paire (s, a). Les critiques principales à l encontre de cette approche est que les auteurs utilisent une base de fonctions sur laquelle ils projettent la fonction de valeur, mais sans dire comment trouver une bonne base, et ils ont besoin de limiter sévèrement la forme des fonctions de transitions et de la base de fonction pour effectuer des intégrations analytiques ; ils tronquent également l ensemble des contraintes afin de résoudre le problème linéaire. Alors même que ces restrictions dégradent la qualité de la solution, elles nécessitent malgré tout des implémentations complexes. Un autre problème est la nécessité d utiliser des fonctions de densité qui modélisent la pondération de chaque état dans l optimisation, et ces fonctions sont dures à définir dans certains problèmes. La génération automatique de bonnes bases de fonctions a été présentée récemment dans (Kveton & Hauskrecht (26)), ainsi que la possibilité d utiliser des fonctions de

3 HRTDP transition plus générales (Kveton et al. (26)), montrant que les auteurs sont conscients de ces limitations ; mais ces problèmes ne sont toujours pas entièrement résolus. Dans HAO les auteurs étendent AO à des domaines hybrides. Il effectuent une intégration analytique sur l ensemble d état continu atteignable et représentent la fonction de valeur par une fonction linéaire par morceaux, organisée en arbre-kd (dans l implémentation actuelle), et explorent l espace des états par une recherche arborescente classique, en groupant les états ayant la même valeur. Dans ce cas, les intégrations exactes nécessitent d utiliser des techniques de programmation linéaire coûteuses afin de mettre à jour les vecteurs des fonctions linéaires par morceaux dans les backups. Nous voyons deux problèmes principaux avec cette approche : l intégration elle-même est très lourde, et est dépendante de la représentation utilisée pour la fonction de valeur. De plus, l implémentation actuelle de HAO ne peut pas gérer les cycles (comme dans nos domaines) du fait de la représentation de la fonction de valeur utilisée, et il repose sur une heuristique dépendant du domaine (et qui ne peut être généralisée pour des domaines sans cycles). Nous pouvons également citer (Li & Littman (25)), dans lequel les auteurs utilisent un schéma d approximation de moindre engagement pour la fonction de valeur, mais utilisent néanmoins une représentation en fonction linéaire par morceaux ; et (Marecki et al. (27)) dans lequel la fonction de valeur est représentée comme des distributions de phases. Même si ces représentations sont consistantes et relativement efficaces, elles ne résolvent pas le problème des backups analytiques. 2.2 La malédiction des backups analytiques : proposition d approche Il faut remarquer que le besoin de faire des intégrations exactes vient du fait que tous ces algorithmes effectuent leurs Bellman backups sur l ensemble de l espace d états (éventuellement uniquement atteignable) en même temps. Donc ils ont besoin d une intégration analytique, effectuée par une intégration exacte ; puis d une approximation de la solution. Nous proposons une approche différente, basée sur l utilisation d échantillonage intelligent (rendu facile par l utilisation du cadre de l algorithme RTDP : Barto et al. (1995)), et d apprentissage automatique moderne, particulièrement pour représenter la fonction de valeur (et la confiance en cette approximation), ceci à mémoire constante (ou limitée). Nos points de vue sont les suivants : la fonction de valeur doit être représentée localement (la fonction de valeur globale doit être décomposée en plusieurs fonctions de valeur définies uniquement sur des parties de l espace des états), et ceci lève la contrainte d avoir à utiliser des approximations complexes et des intégrations analytiques ; ensuite, grâce à des mises-à-jour asynchrones de la fonction de valeur (comme dans RTDP), il est consistant de mettre à jour uniquement des représentations locales pour un sous-ensemble d états S i (il n est pas besoin d évaluer la fonction de valeur sur l ensemble des états en même temps, comme font des approches utilisant la programmation linéaire) ; grâce à cette représentation locale de la fonction de valeur, des techniques d échantillonage peuvent être utilisées pour approcher l intégration de Bellman, permettant de prendre en compte uniquement les états atteignables depuis S i (on ne fait pas l intégration sur tout l espace d états, ni même sur l ensemble des états atteignables) ; de plus, des techniques d apprentissage automatique récentes permettent de représenter localement la fonction de valeur de façon efficace (régression). Cette approche a aussi des propriétés théoriques intéressantes : d abord, comme on ne prend en compte que des représentations locales de la fonction de valeur et une approximation de l intégration utilisant de l échantillonnage, il n est pas besoin de poser des limitations sur la représentation des fonctions de transition, contrairement aux autres approches. de plus, RTDP est un algorithme anytime, comme le sera notre algorithme, comme nous ne verrons dans la section 5 ; enfin, comme nous effectuons une exploration en avant (les trials de RTDP ), nous pouvons concentrer la recherche sur sur les états atteignables, mais aussi sur des zones de l espace où la confiance en la connaissance acquise est faible, permettant une convergence plus rapide. 2.3 Exemples de domaines Nous présentons deux exemples de domaines pour la planification stochastique avec des variables d état continues et discrètes, et des cycles dans le graphe de transition. Le premier a un grand nombre de variables

4 JFPDA 29 discrètes, ce qui rend ardue la recherche dans le graphe de planification à cause de phénomène de malédiction de la dimensionalité (Bellman (1957)). Le second comporte de nombreuses variables continues, ce qui rend difficile l approximation efficace des fonctions des variables continues Search-and-rescue Dans la mission de recherche et sauvetage représenté sur la figure 1, l hélicoptère autonome doit : trouver des zones d atterrissage potentielles près du survivant (en utilisant sa caméra, sa mémoire et des algorithmes d analyse d images) ; puis les explorer pour décider s il peut effectivement atterrir dedans. Après l atterrissage, le survivant essaie d embarquer, mais peut échouer avec une probabilité dépendant de sa distance à la zone. En cas de succès, l hélicoptère revient au centre de contrôle. Sinon, il essaie une zone différente et ainsi de suite jusqu à ce que son niveau de carburant descende en dessous d un seuil donné ou bien sûr que la mission réussisse. control center Z1 Z5 survivor Z2 Z4 Z3 FIGURE 1 search and rescue domain Soit Z = {z 1,, z n } l ensemble des zones d atterrissage potentielles et cc le centre de contrôle. Formellement, les variables discrètes sont : at {z 1,, z n } {cc} : zone au-dessus de laquelle l hélicoptère vole ; explored(z) {, 1}, z Z : un booléen qui indique si la zone a été explorée ; landable(z) {, 1}, z Z : booléen qui indique pour chaque zone si il est possible d atterrir dedans (après qu elle ait été explorée) ; com {, 1} : booléen qui indique si la communication avec le centre de contrôle est possible ; on_ground {, 1} : booléen indiquant si l hélicoptère est au sol ou en vol. Les variables d état continues sont : fuel [, F M] : carburant restant (F M : niveau initial) ; mem [, M M] : mémoire disponible (M M : mémoire maximum). Les actions du domaines de planification sont : goto(z), z Z {cc} : aller à la zone z ; take_picture (et l analyser) ; download afin de libérer de la mémoire ; explore (la zone survolée) ; land (dans la zone survolée) ; take_off ; end_mission (si le survivant a embarqué ou si le niveau de carburant restant est trop faible). Afin d illustrer la difficulté de l intégration de Bellman, on peut voir sur la figure 2 que les effets de l action sont définis par morceaux à la fois continus et discrets ; le succès de l atterrissage lui-même est probabiliste, et, suivant ce succès, soit le niveau de carburant décroît suivant une loi normale (fonction de l altitude), soit le survivant est secouru suivant une probabilité fonction de la distance. Clairement, ces effets ne peuvent pas être intégrés de façon analytique.

5 HRTDP (and (probabilistic (land-success) (and (on-ground) (when (not (at bs)) (forall (?z - zone) (when (at?z) (probabilistic (/ 1 (+ 1 (*.3 (distance?z hm)))) (human-rescued))))))) (probabilistic (gaussian (* (altitude) (land-consumption)) ;; mean (*.1 (* (altitude) (land-consumption))) ;; variance #rv ;; random variate ) (decrease (fuel-level) #rv) ) ) FIGURE 2 Effet conditionnel probabiliste de l action land Gestion du trafic sol d un aéroport Ce domaine consiste à déplacer des avions au sol dans un aéroport. Les voies de circulation sont modélisées par un graphe comme montré sur la figure 3. À chaque date de décision, les avions essaient d atteindre le prochain point de passage planifié, mais les distances parcourues sont stochastiques. En conséquence, les positions des avions à chaque date de décision sont des variables continues stochastiques définies sur les arêtes du graphe. Enfin, des pilotes pourraient ne pas essayer d atteindre les points de passages calculés par le planificateur (erreur, non-compréhension des consignes etc.). FIGURE 3 Gestion du trafic sol d un aéroport On note P = {p 1,, p n } l ensemble des avions, et W = {w 1,, w q } l ensemble des points de passage. La fonction C : W W {, 1} indique si 2 points de passage sont connectés dans le graphe. Les variables d état de ce domaine sont : at(p) C 1 ({1}), p P : variable discrète qui indiquent sur quelle arête est un avion. Une arête est représentée par une paire ordonnée de façon à modéliser le sens de parcours de l avion ; abs(p) [, 1], p P : variable continue représentant la position d un avion p sur son arête at(p). On suppose que tous les avions bougent en même temps, ainsi l action est factorisée sur les actions individuelles de chaque avion. Les actions de chaque avion p sont (on note (w 1, w 2 ) = at(p) l arête parcourue par p) : move(p) : essaye d atteindre la fin de l arête courante, et attend la prochaine action si c est le cas ; move_and_target(p, w), w {w W \ {w 1 } C(w 2, w ) = 1} : bouge jusqu à atteindre la fin du segment courant, puis si il est atteint, bouge en essayant d atteindre le point w ; stop(p) : stoppe à la position (continue) courante.

6 JFPDA 29 3 Utiliser RTDP sur des domaines hybrides 3.1 Real Time Dynamic Programming RTDP est un algorithme proposé dans (Barto et al. (1995)). Partant d un état donné (l état initial pour un problème de plus court chemin stochastique ou l état courant si utilisé en ligne), il simule une trajectoire de l agent en sélectionnant de manière gloutonne la meilleure action (suivant la connaissance courante) dans chaque état rencontré. Une trajectoire (un trial ) est stoppée quand le but est atteint (dans le cas d un plus court chemin stochastique où un but unique est donné, ou quand un horizon donné est atteint). Afin d évaluer les actions pour des états inexplorés, une fonction heuristique donne une valeur pour ces états. Une caractéristique importante de cet algorithme est qu il ne met à jour les valeurs que des états rencontrés, c est-à-dire ceux qui, grâce aux mécanisme de trials, seront les plus probablement rencontrés à l exécution. Le pseudo-code de RTDP est donné dans l algorithme 1. Le pendant que extérieur répète indéfiniment les RTDP trials. En pratique, cette boucle est stoppée quand la valeur de l état initial ne décroît plus (pas plus qu un ɛ donné), ou quand la mission est terminée (comme RTDP peut être utilisé en ligne). Il faut remarquer que ceci n est pas une condition suffisante d optimalité, par exemple dans le cas où la solution optimale n a pas encore été explorée du fait de la nature stochastique des trials Algorithm 1: RTDP // s est l état initial au début // tous les s.explored sont faut au début while true do while GOAL(s) do a greedyaction(s); s.v alue update(s); s picknextstate(s, a); s.explored true; Dans le cas de MDP (discret), mettre à jour la valeur d un état s prend la forme de l équation 1, avec H(s) la valeur d une heuristique admissible sur S, et a l action choisie de manière gloutonne. s.v alue = s S T (s, a, s )[R(s, a, s ) + γv (s )] (1) V (s) = { s.v alue if s.explored = true H(s) if s.explored = f alse (2) Choisir la meilleure action est fait en faisant le même calcul que la mise-à-jour de la valeur de l état courant (vu qu elle est calculée par l équation 3). De la même manière, si les valeurs sont stockées pour chaque état, la politique peut être calculée par l équation 3. π (s) = argmax a A X T (s, a, s )[R(s, a, s ) + γv (s )] A (3) 3.2 Intégration de Bellman avec des variables d état hybrides s S Afin de généraliser RTDP au cas hybride, nous devons définir plusieurs fonctions. La première est s.explored : on ne peut donner un indicateur exploré pour chaque état continu ; il faut à la place définir une fonction indicateur explored : S {true, false}, qui sera appelée pour savoir si l algorithme doit utiliser une valeur heuristique ou bien la valeur calculée. Un autre problème vient de s.value : dans la même veine, s.value ne peut stocker la valeur comme fait habituellement, vu que l espace d état est continu. Nous devons définir une fonction : value : S R, qui pour n importe quel état s de l espace continu va stocker la valeur associée. Avec cette représentation de la fonction de valeur, nous avons besoin d un façon consistante de stocker la politique, vu qu elle ne peut pas être représentée par un tableau comme fait classiquement.

7 HRTDP Mais la plus grosse difficulté vient de la mise-à-jour elle-même (équation 1) où l on somme sur l espace discret : ceci doit être généralisé par une intégrale, ou plus exactement par un mélange de sommations et d intégration dans un espace hybride, avec des bornes d intégration corrélées. Pour l instant nous avons juste besoin de définir une fonction de mise-à-jour : update : ((S R), S) (S R), capable de mettre à jour la fonction de valeur pour un état s S, et son voisinage. 4 Planifier dans des domaines hybrides en utilisant l apprentissage automatique Des méthodes récentes d apprentissage automatique en ligne comme LWPR (Vijayakumar et al. (25)) et les processus gaussiens en ligne (Csató & Opper (22)) peuvent être utilisées pour représenter efficacement des fonctions de variables continues dont les valeurs changent et doivent être réapprises (à l inverse de l apprentissage hors-ligne). De telles méthodes apprennent les valeurs de ces fonctions pour certains états, et permettent également de prédire les valeurs de ces fonctions pour les états voisins. Si les valeurs apprises sont dans un ensemble discret, l algorithme d apprentissage est un classifieur ; si les valeurs sont dans un état continu, on l appelle régresseur. De plus, la plupart des méthodes en ligne sont focalisées, c est-à-dire que la mémoire utilisée pour l apprentissage peut être borné par une constante. Quelque soit le cadre dans lequel on les applique, de telles méthodes d apprentissage automatique sont des outils permettant de représenter efficacement des fonctions de variables continues en termes de place mémoire et de temps de calcul. Ainsi, nous utilisons des régresseurs en ligne pour représenter la fonction de valeur de MDPs hybrides, et des classifieurs pour stocker la politique. Même si ces méthodes viennent de la communauté de l apprentissage automatique, notre algorithme n est pas lié à l apprentissage par renforcement, car nous connaissons (et utilisons) le modèle du domaine. Des méthodes d apprentissage en ligne sont utilisées dans des espaces continus, mais notre espace d états contient à la fois des variables continues et discrètes. Il serait possible de considérer que chaque variable discrète fait partie d un ensemble de valeurs spéciales d un ensemble continu, lequel serait utilisé par les algorithmes d apprentissage. Cependant, nous pensons que cette solution ne serait pas très efficace car elle ajouterait de nombreuses dimensions aux régresseurs et classifieurs, dont la complexité augmente grandement avec les dimensions des espaces considérés. Donc nous n utilisons des outils d apprentissage en ligne que sur les composantes continues de l espace des états, en utilisant la structure suivante, similaire au graphe hybride de HAO (Meuleau et al. (29)). La différence est que ce dernier utilise des kd-trees pour représenter des fonctions de variables continues. Definition 2 Un graphe de planification hybride (HPG) est un graphe orienté (S d, T d ) avec : S d q i=1 Vd i est la projection de l espace d états hybride sur les variables discrètes ; chaque sommet (v1, d, vq d ), appelé état discret, est une paire π c, V r avec : π c : p i=1 Vc i A est un classifieur multi-classes tel que : π c(v1, c, vp) c = π(v1, c, vp, c v1, d, vq d ) ; V r : p i=1 Vc i R est un régresseur tel que V r(v1, c, vp) c = V (v1, c, vp, c v1, d, vq d ). T d = {(s d 1, s d 2) (S d ) 2 (s c 1, s c 2, a) ( p i=1 Vc i )2 A, T ((s c 1, s d 1), a, (s c 2, s d 2)) > } est l ensemble des transitions possibles entre les états discrets du graphe. Dans cette définition, la fonction explored définie plus haut n est pas présente. Nous simulons cette fonctions avec les fonctions V r : comme les boites à outils de régression que nous utilisons donnent en plus de la prédiction elle-même la confiance en celle-ci (ou la borne sur la confiance), c est-à-dire le bruit d apprentissage, nous disons simplement que si la confiance est trop basse (ou la borne trop haute), alors le point de l espace des états considéré n a pas été assez exploré, et donc que explored = false. Donc on n a pas besoin d un classifieur binaire séparé pour savoir si un état a été exploré ou non. À l initialisation de HRTDP, le HPG contient un seul sommet, correspondant aux instanciations des variables discrètes de l état initial. De nouveaux nœuds sont ajoutés au graphe pendant la résolution à chaque bellman backup, comme expliqué plus bas. Lors des trials (trajectoires) HRTDP on va de nœud en nœud du HPG en mettant à jour la valeur de l état hybride courant en utilisant la régresseur de la fonction de valeur pour chaque nœud visité.

8 JFPDA Confiance en l information apprise Un des aspects fondamentaux lors de l utilisation de techniques de régression et de classification est la notion de confiance : les boites à outils récentes permettent d utiliser non seulement le résultat de la prédiction, mais donnent également la confiance en cette prédiction. Cette valeur peut être la probabilité que la prédiction soit correcte étant donné les informations connues. Certaines boites à outils, comme cette que nous avons utilisé donnent plutôt la borne sur la confiance, dont l intuition est l inverse : si la borne est élevée, la qualité de la connaissance est faible. De fait, il est très important de prendre cette confiance en compte lorsque l on utilise l apprentissage automatique ; sinon on considérerait implicitement que la phase d apprentissage est parfaite, et particulièrement que le régresseur donne une valeur correcte, ceci même avec petit un jeu d apprentissage, ce qui est impossible. De plus, comme nous allons le voir dans la section 5, la confiance permet de guider l exploration ellemême dans la cadre RTDP. Si l on a en tête que RTDP choisi de manière gloutonne la meilleure action dans la cadre discret, on peut se dire que dans notre cas la meilleure action est un critère relatif : si la confiance est élevée, alors on peut croire que l on connaît la meilleure action, mais si elle est faible, alors on ne devrait pas croire que l action considérée est effectivement la meilleure (particulièrement s il n y a pas eu beaucoup de données d apprentissage autour de cette action). Nous proposons un schéma exploration contre exploitation basé sur la confiance en quelle action est la meilleure pour guider l algorithme. 4.2 Bellman backup hybride Mettre à jour la valeur d un état hybride nécessite de calculer une intégrale sur des variables continues et discrètes. Comme le montre l algorithme 2, on calcule une approximation de cette intégrale hybride avec une simulation de Monte-Carlo où la valeur de la fonction intégrée est prédite à partir du régresseur des nœuds suivants dans le HPG (ligne 9). De nouveaux nœuds sont ajoutés quand les successeurs aléatoires discrets n ont pas été explorés (ligne 6). Si un successeur n a pas été exploré (que la confiance dans ses prédictions est trop faible), on utilise une valeur heuristique et demande à son régresseur de fonction de valeur de l apprendre (lignes 7 et 8). Finalement, le régresseur de fonction de valeur et le classifieur de politique apprennent la nouvelle valeur (lignes 14 and 15). La fonction random_next utilise la fonction de transition T du HMDP pour générer au hasard des successeurs. Aucune hypothèse n est prise sur la forme de la distribution de probabilité de T. De ce fait, notre algorithme marche avec n importe quelle distribution de probabilité qui peut être échantillonnée. À la connaissance des auteurs, aucun autre algorithme de résolution de HMDP n est capable de gérer n importe quel type de fonction de transition. 4.3 HRTDP En utilisant le mécanisme de mise-à-jour décrit ci-dessus, nous pouvons maintenant présenter l algorithme HRTDP (alg. 3). Premièrement, on met à jour la valeur pour l état s et apprend la politique et la valeur comme montré précédemment. On mémorise (dans la même boucle dans l implémentation courante) la meilleure action ainsi que l action qui conduit à la région la moins connue de l espace. Ensuite, en fonction d à quel point est mal connue cette région, on choisit d appliquer soit la meilleure action (comme dans RTDP), soit une action d exploration qui va faire explorer des régions mal connues, de façon à réduire le biais d apprentissage et augmenter la connaissance aussi vite que possible. Le paramètre α > permet de régler le compromis exploration contre exploitation, et pourrait être changé en ligne, par exemple pour effectuer un recuit-simulé. Dans l algorithme 3, tout comme dans les expérimentations décrites ci-dessous, nous choisissons au hasard la meilleure action avec la probabilité e α worstconf, ce qui signifie que moins la région est connue, plus l exploration est choisie. 4.4 Heuristique admissible indépendante du domaine À chaque fois que le nous considérons qu un état hybride s n a pas encore été exploré, une valeur heuristique admissible H(s) doit être calculée telle que H(s) V π (s). Une heuristique naïve pourrait avoir besoin de générer tous les nœuds du HPG, dont le nombre est exponentiel en fonction du nombre de variables discrètes. Nous avons implémenté une heuristique par relaxation inspirée du planificateur déterministe FF

9 HRTDP Algorithm 2: Mise-à-jour de l état hybride // s = (s c, s d ) est l état à mettre à jour // s d est le nœud du HPG contenant s // N est le nombre d échantillons utilisés pour calculer l approximation de l intégrale // CT est le seuil de confiance, au-dessus duquel le nœud est considéré inexploré best_qvalue ; for a A do qvalue ; for i 1 to N do ((s c, s d ), r) s.random_next(t ((s c, s d ), a, )); if s d HP G.nodes() then HP G.add_node(s d ); if confidence(s d.v c.predict(s c )) > CT then s d.v r.learn(s c, H(s c, s d )); qvalue qvalue + (γ s d.v r.predict(s c )) + r; qvalue qvalue/n; if best_qvalue < qvalue then best_qvalue qvalue; best_action a; s d.v r.learn(s c, best_qvalue); s d.π c.learn(s c, best_action); Algorithm 3: HRTDP 1 while true do // s est l état initial au début 2 while GOAL(s) do 3 hybrid_state_update(s); 4 lessknowna action menant à des prédictions avec la plus grande borne de confiance ; 5 worstconf confiance correspondante; 6 besta action menant à la plus grande valeur; 7 j a s picknextstate(s, a); besta with p = e α.worstconf lessknowna with p = 1 e α.worstconf (Hoffmann & Nebel (21)), afin de gérer le modèle HMDP 1. Cette heuristique assume que toutes les variables sont binaires, ce qui n est pas une limitation car une variable n-aire peut être traduite en log 2 (n) variables binaires. Cette heuristique construit de façon incrémentale deux listes des valeurs true et f alse prises par chaque variable discrète durant la recherche heuristique, sans jamais enlever de valeurs à cette liste. Bien que linéaire en espace nécessaire, cette heuristique perd les dépendances des variables par rapport aux états. La fonction de transition est relaxée de façon à utiliser directement ces listes, sans prendre en compte les composantes continues. La recherche stoppe quand l état but est inclus dans ces listes, et l opposé de la distance amortie est une valeur heuristique admissible pour les problèmes de plus court chemin stochastique. La complexité de la recherche heuristique est polynomiale en la longueur des listes, c est-à-dire polynomiale en le nombre de variables discrètes. Bien qu effectuant une recherche dans les états discrets uniquement, cette heuristique reste admissible dans notre cas car, intuitivement, plus d étapes seraient nécessaires pour atteindre le but en considérant les variables continues (il y aurait moins d actions applicables pendant l expansion). Du coup, la distance relaxée est plus faible que la distance qui serait calculée avec les états hybrides. Cette heuristique a été choisie car elle a donné de bons résultats dans la compétition de planification de 28, car elle est indépendante du 1. Cette heuristique est inspirée du planificateur FSP, plus précisément est une implémentation de l heuristique RDH décrite dans http ://ippc-28.loria.fr/wiki/images/c/c2/team1-fsp.pdf

10 JFPDA 29 domaine et car elle peut être utilisée dans des domaines avec des cycles. 5 Expérimentations Nous avons testé notre algorithme HRTDP sur des instances de plus court chemin stochastique des domaines présentés en section Nous avons utilisé le langage PPDDL décrit dans (Teichteil (28)). Nous avons utilisé LWPR (Vijayakumar et al. (25)) pour l implémentation des régresseurs et des classifieurs des nœuds du HPG. Pour chaque test, nous avons lancé HRTDP 1 fois et moyenné différents critères sur les 1 instances. Chaque critère est présenté en tant que moyenne en fonction du temps d optimisation (en secondes), observé après chaque trial. Dans les courbes présentées, la valeur moyenne est présentée en vert, et l enveloppe en rouge. 5.1 Domaine search-and-rescue Selon la description de ce domaine, il y a 2 3+2n (n + 1) états discrets (nombre maximal de nœuds dans le HPG) et 2 variables continues, avec n le nombre de zones. La figure 4 montre que HRTDP converge très vite en terme de valeur de l état initial (la valeur est l espérance des récompenses collectées en exécutant la politique), ce qui signifie que notre algorithme est capable de donner très vite de bonnes solutions pour l état initial (et pour les trajectoires les plus probables). Une vallée est visible pour le problème à 2 zones, il semble que les régresseurs sous-estiment les espérances de coûts à un certain moment. Comme on peut le voir sur la figure 5, le nombre de nœuds dans le graphe hybride continue d augmenter après que la valeur de l état initial se soit stabilisée, ce qui montre que notre algorithme continue d explorer des états moins atteignables (comportement anytime ), sans vraiment augmenter la récompense estimée, exactement comme l on s y attend avec des algorithmes à la RTDP (si les états soient moins atteignables, leur influence sur la valeur de l état initial est plus faible). On peut remarquer que le nombre de nœuds dans le HPG est très faible en regard du nombre maximal théorique, ceci est dû à la nature du domaine dans lequel de nombreuses actions ont des pré-conditions restrictives, et donc ne peuvent être appliquées quand dans quelques états, conduisant à un grand nombre d états à peu près inatteignables. Sur la figure 6(a), on peut voir le pourcentage de choix explicite d exploration. Ce pourcentage ne décroît pas pendant la résolution ; ceci est lié à la pire confiance pendant les backups, montrée sur la figure 6(b), qui semble atteindre une borne supérieure. En fait LWPR donne une borne sur la confiance qui se comporte à l opposé de l intuition de la confiance : plus cette valeur est grande, moins on peut avoir confiance en la prédiction. Dans ce cas, comme on explore de plus en plus d états, la borne sur la confiance devient de pire en pire. Nous pensons qu elle pourrait devenir meilleure après que l ensemble des états ait été exploré suffisamment, ce que nous voulons bien sûr éviter. Afin de monter l influence du choix explicite d exploration, nous avons conduit d autres expérimentations avec un très faible α, conduisant à très peu d explorations explicites, comme on peut le voir sur la figure 7(a). Dans ce cas, on peut voir que la pire valeur de confiance est la même, mais est atteinte moins vite (sur la figure 7(b)). Ceci semble confirmer l intuition de l explication du grand (et non-décroissant) pourcentage d explorations. Finalement, à la fois le choix explicite d exploration et le bruit induit par les régressions ont un impact sur la longueur des trials de HRTDP. Ces trials stoppent quand le but est atteint, ce qui nous donne une idée de la qualité de la solution obtenue. Sur les figures 8(a), on peut voir que la longueur (bruitée) des trials, et sur la figure 8(b), on peut voir que lorsque la valeur de l état initial devient minimale pour la première fois, HRTDP effectue de très courts trials (c est la solution optimale), et après ceci la longueur augmente graduellement car HRTDP explore de nouvelles régions, sans arriver à améliorer la valeur de l état initial. Nous avons également testé l influence du nombre d échantillons utilisés pour l approximation des intégrales, mais elle est évidente : avec moins de particules, le calcul est plus rapide mais on voit beaucoup de bruit, avec avec plus de particules, les calculs sont plus précis mais plus lents. 2. Nous n avons pas pu nous comparer à HALP ni à HAO sur les domaines qu ils peuvent résoudre car nous n avons pas pu obtenir leur codes, très durs à re-implementer, ni de version compilée. De plus, les domaines utilisés ne sont pas non plus disponibles.

11 HRTDP value function of the initial state value function of the initial state value function of the initial state (a) 5 zones (b) 1 zones (c) 2 zones FIGURE 4 valeur de l état initial pour le domaine search-and-rescue domain avec 5 zones number of nodes in the HPG number of nodes in the HPG number of nodes in the HPG (a) 5 zones (b) 1 zones (c) 2 zones FIGURE 5 Nombre de nœud développés par HRTDP pour le domaine search-and-rescue 18.1 percentage of exploration actions worst confidence during Bellaman backup (a) % choix d exploration (b) Pire borne de confiance x FIGURE 6 Expl. and conf. pour 2 zones pour le domaine S&R percentage of exploration actions worst confidence during Bellaman backup value function of the initial state (a) Pourcentage de choix d exploration (b) Pire borne de confiance (c) Valeur de l état initial FIGURE 7 S&R (1 zones) : réduction du pourcentage d exploration (α =.1) 5.2 Gestion d aéroport La Figure 9 montre les résultats obtenus sur une instance de la gestion du trafic sol d un aéroport avec (2N) p états discrets et p variables continues, et N le nombre de points de passages (N = 12 pour l aéroport testé), et p le nombre d avions (5 pour les résultats présentés ici). Bien que ce domaine soit encore plus dur que le précédent, on peut voir que HRTDP arrive à le résoudre. Malgré le plus grand nombre de régresseurs pour ce domaine, HRTDP converge rapidement vers une politique stable. On voit moins de points sur la figure, ceci car beaucoup plus de calculs sont nécessaires pour chaque Bellman backup.

12 JFPDA depth of HRTDP trajectories depth of HRTDP trajectories (a) α = 1 (b) α =.1 FIGURE 8 Longueur des trials (dans le domaine S&R pour 1 zones) value function of the initial state worst confidence during Bellaman backup number of nodes in the HPG (a) Valeur de l état initial.2 (b) Pire borne sur la confiance 16 (c) Nombre de nœuds FIGURE 9 Résultats pour la gestion d aéroport 5.3 Comparaison avec une stratégie heuristique Afin de montrer que HRTDP améliore la valeur heuristique et trouve de bonnes stratégies, nous avons comparé HRTDP avec une stratégie heuristique qui consiste à choisir simplement la meilleure action suivant l heuristique, sans apprentissage ni optimisation (la valeur heuristique d une action en un état donné est la somme de sa récompense immédiate et la moyenne des valeurs heuristiques des états successeurs par cette action). Bien que donnant des valeurs informatives pour les backups, l heuristique présentée (qui se base sur une relaxation de l espace d états), utilisée comme stratégie est complètement incapable d atteindre le but sur 1 tests de profondeur 2, et ce pour chacun des problèmes testés. D autre part, la valeur statistique de l état initial en utilisant cette stratégie est de 1 = 1/(1 γ) dans tous les cas (avec γ =.9), ce qui correspond à des trajectoires infinies qui n atteignent jamais le but. Au contraire, comme montré précédemment, HRTDP avec cette heuristique atteint une solution en quelques secondes, en bien moins de 2 étapes, et la valeur de l état initial n était jamais au-dessous de 5 ou 2 (suivant le problème). Comparé à une stratégie heuristique, ceci prouve que HRTDP optimise correctement la fonction de valeur, et ce malgré le bruit d apprentissage. 6 Conclusion et perspectives Nous avons montré qu il est possible de résoudre des HMDPs de manière asynchrone en utilisant une recherche heuristique en avant, et une représentation hybride des composants nécessaire aux Bellman backups. Nous avons proposé une formulation d un tel algorithme, en utilisant des techniques d apprentissage automatique pour la régression, ainsi qu un apprentissage incrémental pour les Bellman backups. Nous avons montré que cette approche marche, ce sur deux domaines complexes. Notre technique permet de traiter des fonctions de transition quelconques, ce qui n était possible avec aucune approche précédente. Nous pensons pour le futur utiliser d autres technique d apprentissage comme les processus gaussiens (Csató & Opper (22); Lawrence et al. (23)), de façon à montrer l influence des techniques de régression, ce qui sera nécessaire pour nous assurer de la qualité des politiques calculées, et si possible prouver une (ɛ-)optimalité. Nous pensons également étendre cette approche pour gérer des MDPs partiellement observables, en utilisant les mêmes techniques dans l espace des croyances (qui est complètement continu et non hybride).

13 HRTDP Références BARTO A. G., BRADTKE S. J., SINGH S. P., YEE T. T. R., GULLAPALLI V. & PINETTE B. (1995). Learning to act using real-time dynamic programming. Artif. Intel., 72. BELLMAN R. E. (1957). Dynamic Programming. Princeton University Press. CSATÓ L. & OPPER M. (22). Sparse on-line gaussian processes. Neural Computation, 14(3), HOFFMANN J. & NEBEL B. (21). The FF planning system : Fast plan generation through heuristic search. Journal of Artificial Intelligence Research, 14, KVETON B. & HAUSKRECHT M. (26). Learning basis functions in hybrid domains. In AAAI. KVETON B., HAUSKRECHT M. & GUESTRIN C. (26). Solving factored mdps with hybrid state and action variables. JAIR, 27, LAWRENCE N. D., SEEGER M. & HERBRICH R. (23). Fast sparse gaussian process methods : the informative vector machine. In NIPS. LI L. & LITTMAN M. (25). Lazy approximation for solving continuous finite-horizon MDPs. In AAAI. MARECKI J., KOENIG S. & TAMBE M. (27). A fast analytical algorithm for solving Markov decision processes with continuous ressources. In Proceedings of IJCAI. MEULEAU N., BENAZERA E., BRAFMAN R., MAUSAM & HANSEN E. A. (29). A heuristic search approach to planning with continuous resources in stochastic domains. Journal of Artificial Intelligence Research, 34, TEICHTEIL F. (28). Extending PPDDL1. to model hybrid markov decision processes. In ICAPS 8 workshop on A Reality Check for Plan. and Sched. Under Uncertainty. VIJAYAKUMAR S., D SOUZA A. & SCHAAL S. (25). Incremental online learning in high dimensions. Neural Computation, 17(12),

Apprentissage par renforcement (1a/3)

Apprentissage par renforcement (1a/3) Apprentissage par renforcement (1a/3) Bruno Bouzy 23 septembre 2014 Ce document est le chapitre «Apprentissage par renforcement» du cours d apprentissage automatique donné aux étudiants de Master MI, parcours

Plus en détail

Cours de Master Recherche

Cours de Master Recherche Cours de Master Recherche Spécialité CODE : Résolution de problèmes combinatoires Christine Solnon LIRIS, UMR 5205 CNRS / Université Lyon 1 2007 Rappel du plan du cours 16 heures de cours 1 - Introduction

Plus en détail

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING» Gilbert Saporta Professeur de Statistique Appliquée Conservatoire National des Arts et Métiers Dans leur quasi totalité, les banques et organismes financiers

Plus en détail

Programmation linéaire

Programmation linéaire 1 Programmation linéaire 1. Le problème, un exemple. 2. Le cas b = 0 3. Théorème de dualité 4. L algorithme du simplexe 5. Problèmes équivalents 6. Complexité de l Algorithme 2 Position du problème Soit

Plus en détail

Coup de Projecteur sur les Réseaux de Neurones

Coup de Projecteur sur les Réseaux de Neurones Coup de Projecteur sur les Réseaux de Neurones Les réseaux de neurones peuvent être utilisés pour des problèmes de prévision ou de classification. La représentation la plus populaire est le réseau multicouche

Plus en détail

Principe de symétrisation pour la construction d un test adaptatif

Principe de symétrisation pour la construction d un test adaptatif Principe de symétrisation pour la construction d un test adaptatif Cécile Durot 1 & Yves Rozenholc 2 1 UFR SEGMI, Université Paris Ouest Nanterre La Défense, France, cecile.durot@gmail.com 2 Université

Plus en détail

Raisonnement probabiliste

Raisonnement probabiliste Plan Raisonnement probabiliste IFT-17587 Concepts avancés pour systèmes intelligents Luc Lamontagne Réseaux bayésiens Inférence dans les réseaux bayésiens Inférence exacte Inférence approximative 1 2 Contexte

Plus en détail

I Stabilité, Commandabilité et Observabilité 11. 1 Introduction 13 1.1 Un exemple emprunté à la robotique... 13 1.2 Le plan... 18 1.3 Problème...

I Stabilité, Commandabilité et Observabilité 11. 1 Introduction 13 1.1 Un exemple emprunté à la robotique... 13 1.2 Le plan... 18 1.3 Problème... TABLE DES MATIÈRES 5 Table des matières I Stabilité, Commandabilité et Observabilité 11 1 Introduction 13 1.1 Un exemple emprunté à la robotique................... 13 1.2 Le plan...................................

Plus en détail

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Baccalauréat ES/L Amérique du Sud 21 novembre 2013 Baccalauréat ES/L Amérique du Sud 21 novembre 2013 A. P. M. E. P. EXERCICE 1 Commun à tous les candidats 5 points Une entreprise informatique produit et vend des clés USB. La vente de ces clés est réalisée

Plus en détail

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Modèles à Événements Discrets. Réseaux de Petri Stochastiques Modèles à Événements Discrets Réseaux de Petri Stochastiques Table des matières 1 Chaînes de Markov Définition formelle Idée générale Discrete Time Markov Chains Continuous Time Markov Chains Propriétés

Plus en détail

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR

Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Reconstruction de bâtiments en 3D à partir de nuages de points LIDAR Mickaël Bergem 25 juin 2014 Maillages et applications 1 Table des matières Introduction 3 1 La modélisation numérique de milieux urbains

Plus en détail

Quantification Scalaire et Prédictive

Quantification Scalaire et Prédictive Quantification Scalaire et Prédictive Marco Cagnazzo Département Traitement du Signal et des Images TELECOM ParisTech 7 Décembre 2012 M. Cagnazzo Quantification Scalaire et Prédictive 1/64 Plan Introduction

Plus en détail

Table des matières. I Mise à niveau 11. Préface

Table des matières. I Mise à niveau 11. Préface Table des matières Préface v I Mise à niveau 11 1 Bases du calcul commercial 13 1.1 Alphabet grec...................................... 13 1.2 Symboles mathématiques............................... 14 1.3

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Alain Rakotomamonjy - Gilles Gasso. INSA Rouen -Département ASI Laboratoire PSI Introduction au Data-Mining p. 1/25 Data-Mining : Kèkecé? Traduction : Fouille de données. Terme

Plus en détail

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données

Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Une méthode de classification supervisée sans paramètre pour l apprentissage sur les grandes bases de données Marc Boullé Orange Labs 2 avenue Pierre Marzin 22300 Lannion marc.boulle@orange-ftgroup.com,

Plus en détail

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes. Promotion X 004 COURS D ANALYSE DES STRUCTURES MÉCANIQUES PAR LA MÉTHODE DES ELEMENTS FINIS (MEC 568) contrôle non classant (7 mars 007, heures) Documents autorisés : polycopié ; documents et notes de

Plus en détail

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes

Contents. 1 Introduction Objectifs des systèmes bonus-malus Système bonus-malus à classes Système bonus-malus : Principes Université Claude Bernard Lyon 1 Institut de Science Financière et d Assurances Système Bonus-Malus Introduction & Applications SCILAB Julien Tomas Institut de Science Financière et d Assurances Laboratoire

Plus en détail

INF6304 Interfaces Intelligentes

INF6304 Interfaces Intelligentes INF6304 Interfaces Intelligentes filtres collaboratifs 1/42 INF6304 Interfaces Intelligentes Systèmes de recommandations, Approches filtres collaboratifs Michel C. Desmarais Génie informatique et génie

Plus en détail

Annexe 6. Notions d ordonnancement.

Annexe 6. Notions d ordonnancement. Annexe 6. Notions d ordonnancement. APP3 Optimisation Combinatoire: problèmes sur-contraints et ordonnancement. Mines-Nantes, option GIPAD, 2011-2012. Sophie.Demassey@mines-nantes.fr Résumé Ce document

Plus en détail

Leçon N 4 : Statistiques à deux variables

Leçon N 4 : Statistiques à deux variables Leçon N 4 : Statistiques à deux variables En premier lieu, il te faut relire les cours de première sur les statistiques à une variable, il y a tout un langage à se remémorer : étude d un échantillon d

Plus en détail

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007 Vision industrielle et télédétection - Détection d ellipses Guillaume Martinez 17 décembre 2007 1 Table des matières 1 Le projet 3 1.1 Objectif................................ 3 1.2 Les choix techniques.........................

Plus en détail

MCMC et approximations en champ moyen pour les modèles de Markov

MCMC et approximations en champ moyen pour les modèles de Markov MCMC et approximations en champ moyen pour les modèles de Markov Gersende FORT LTCI CNRS - TELECOM ParisTech En collaboration avec Florence FORBES (Projet MISTIS, INRIA Rhône-Alpes). Basé sur l article:

Plus en détail

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Filtrage stochastique non linéaire par la théorie de représentation des martingales Filtrage stochastique non linéaire par la théorie de représentation des martingales Adriana Climescu-Haulica Laboratoire de Modélisation et Calcul Institut d Informatique et Mathématiques Appliquées de

Plus en détail

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production

Etude d un cas industriel : Optimisation de la modélisation de paramètre de production Revue des Sciences et de la Technologie RST- Volume 4 N 1 /janvier 2013 Etude d un cas industriel : Optimisation de la modélisation de paramètre de production A.F. Bernate Lara 1, F. Entzmann 2, F. Yalaoui

Plus en détail

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES

PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Leçon 11 PROBLEMES D'ORDONNANCEMENT AVEC RESSOURCES Dans cette leçon, nous retrouvons le problème d ordonnancement déjà vu mais en ajoutant la prise en compte de contraintes portant sur les ressources.

Plus en détail

Résumé des communications des Intervenants

Résumé des communications des Intervenants Enseignements de la 1ere semaine (du 01 au 07 décembre 2014) I. Titre du cours : Introduction au calcul stochastique pour la finance Intervenante : Prof. M hamed EDDAHBI Dans le calcul différentiel dit

Plus en détail

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring Année académique 2006-2007 Professeurs : Marco Saerens Adresse : Université catholique de Louvain Information Systems

Plus en détail

RLBS: Une stratégie de retour arrière adaptative basée sur l apprentissage par renforcement pour l optimisation combinatoire

RLBS: Une stratégie de retour arrière adaptative basée sur l apprentissage par renforcement pour l optimisation combinatoire Actes JFPC 2015 RLBS: Une stratégie de retour arrière adaptative basée sur l apprentissage par renforcement pour l optimisation combinatoire Ilyess Bachiri 1,2 Jonathan Gaudreault 1,2 Brahim Chaib-draa

Plus en détail

Correction du baccalauréat ES/L Métropole 20 juin 2014

Correction du baccalauréat ES/L Métropole 20 juin 2014 Correction du baccalauréat ES/L Métropole 0 juin 014 Exercice 1 1. c.. c. 3. c. 4. d. 5. a. P A (B)=1 P A (B)=1 0,3=0,7 D après la formule des probabilités totales : P(B)=P(A B)+P(A B)=0,6 0,3+(1 0,6)

Plus en détail

LE PROBLEME DU PLUS COURT CHEMIN

LE PROBLEME DU PLUS COURT CHEMIN LE PROBLEME DU PLUS COURT CHEMIN Dans cette leçon nous définissons le modèle de plus court chemin, présentons des exemples d'application et proposons un algorithme de résolution dans le cas où les longueurs

Plus en détail

Pourquoi l apprentissage?

Pourquoi l apprentissage? Pourquoi l apprentissage? Les SE sont basés sur la possibilité d extraire la connaissance d un expert sous forme de règles. Dépend fortement de la capacité à extraire et formaliser ces connaissances. Apprentissage

Plus en détail

Apprentissage statistique dans les graphes et les réseaux sociaux

Apprentissage statistique dans les graphes et les réseaux sociaux Apprentissage statistique dans les graphes et les réseaux sociaux Patrick Gallinari Collaboration : L. Denoyer, S. Peters Université Pierre et Marie Curie AAFD 2010 1 Plan Motivations et Problématique

Plus en détail

PROBABILITES ET STATISTIQUE I&II

PROBABILITES ET STATISTIQUE I&II PROBABILITES ET STATISTIQUE I&II TABLE DES MATIERES CHAPITRE I - COMBINATOIRE ELEMENTAIRE I.1. Rappel des notations de la théorie des ensemble I.1.a. Ensembles et sous-ensembles I.1.b. Diagrammes (dits

Plus en détail

Agrégation des portefeuilles de contrats d assurance vie

Agrégation des portefeuilles de contrats d assurance vie Agrégation des portefeuilles de contrats d assurance vie Est-il optimal de regrouper les contrats en fonction de l âge, du genre, et de l ancienneté des assurés? Pierre-O. Goffard Université d été de l

Plus en détail

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau

K. Ammar, F. Bachoc, JM. Martinez. Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau Apport des modèles de krigeage à la simulation numérique K Ammar, F Bachoc, JM Martinez CEA-Saclay, DEN, DM2S, F-91191 Gif-sur-Yvette, France Séminaire ARISTOTE - 23 octobre 2014 - Palaiseau Apport des

Plus en détail

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires

Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires Nouvelles propositions pour la résolution exacte du sac à dos multi-objectif unidimensionnel en variables binaires Julien Jorge julien.jorge@univ-nantes.fr Laboratoire d Informatique de Nantes Atlantique,

Plus en détail

Le ROI du marketing digital

Le ROI du marketing digital Online Intelligence Solutions Le ROI du marketing digital et les Web Analytics Par Jacques Warren WHITE PAPER A propos de Jacques warren Jacques Warren évolue en marketing digital depuis 1996, se concentrant

Plus en détail

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d

chargement d amplitude variable à partir de mesures Application à l approche fiabiliste de la tolérance aux dommages Modélisation stochastique d un d Laboratoire de Mécanique et Ingénieriesnieries EA 3867 - FR TIMS / CNRS 2856 ER MPS Modélisation stochastique d un d chargement d amplitude variable à partir de mesures Application à l approche fiabiliste

Plus en détail

L apprentissage automatique

L apprentissage automatique L apprentissage automatique L apprentissage automatique L'apprentissage automatique fait référence au développement, à l analyse et à l implémentation de méthodes qui permettent à une machine d évoluer

Plus en détail

NON-LINEARITE ET RESEAUX NEURONAUX

NON-LINEARITE ET RESEAUX NEURONAUX NON-LINEARITE ET RESEAUX NEURONAUX Vêlayoudom MARIMOUTOU Laboratoire d Analyse et de Recherche Economiques Université de Bordeaux IV Avenue. Leon Duguit, 33608 PESSAC, France tel. 05 56 84 85 77 e-mail

Plus en détail

TP N 57. Déploiement et renouvellement d une constellation de satellites

TP N 57. Déploiement et renouvellement d une constellation de satellites TP N 57 Déploiement et renouvellement d une constellation de satellites L objet de ce TP est d optimiser la stratégie de déploiement et de renouvellement d une constellation de satellites ainsi que les

Plus en détail

Programmation Par Contraintes

Programmation Par Contraintes Programmation Par Contraintes Cours 2 - Arc-Consistance et autres amusettes David Savourey CNRS, École Polytechnique Séance 2 inspiré des cours de Philippe Baptiste, Ruslan Sadykov et de la thèse d Hadrien

Plus en détail

4 Exemples de problèmes MapReduce incrémentaux

4 Exemples de problèmes MapReduce incrémentaux 4 Exemples de problèmes MapReduce incrémentaux 1 / 32 Calcul des plus courtes distances à un noeud d un graphe Calcul des plus courts chemins entre toutes les paires de noeuds d un graphe Algorithme PageRank

Plus en détail

Recherche locale pour un problème d optimisation de tournées de véhicules avec gestion des stocks

Recherche locale pour un problème d optimisation de tournées de véhicules avec gestion des stocks 8 e Conférence Internationale de MOdélisation et SIMulation - MOSIM 10-10 au 12 mai 2010 - Hammamet - Tunisie «Évaluation et optimisation des systèmes innovants de production de biens et de services» Recherche

Plus en détail

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc)

FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) 87 FORMATION CONTINUE SUR L UTILISATION D EXCEL DANS L ENSEIGNEMENT Expérience de l E.N.S de Tétouan (Maroc) Dans le cadre de la réforme pédagogique et de l intérêt que porte le Ministère de l Éducation

Plus en détail

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique

Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique Détection de têtes dans un nuage de points 3D à l aide d un modèle de mélange sphérique Denis Brazey & Bruno Portier 2 Société Prynɛl, RD974 290 Corpeau, France denis.brazey@insa-rouen.fr 2 Normandie Université,

Plus en détail

Chronogrammes et contraintes. à la modélisation de systèmes dynamiques à événements

Chronogrammes et contraintes. à la modélisation de systèmes dynamiques à événements Actes FAC 2007 Chronogrammes et contraintes pour la modélisation de systèmes dynamiques à événements discrets Gérard Verfaillie Cédric Pralet Michel Lemaître ONERA/DCSD Toulouse 2 av. Édouard Belin, BP

Plus en détail

TSTI 2D CH X : Exemples de lois à densité 1

TSTI 2D CH X : Exemples de lois à densité 1 TSTI 2D CH X : Exemples de lois à densité I Loi uniforme sur ab ; ) Introduction Dans cette activité, on s intéresse à la modélisation du tirage au hasard d un nombre réel de l intervalle [0 ;], chacun

Plus en détail

Fonctions de plusieurs variables

Fonctions de plusieurs variables Module : Analyse 03 Chapitre 00 : Fonctions de plusieurs variables Généralités et Rappels des notions topologiques dans : Qu est- ce que?: Mathématiquement, n étant un entier non nul, on définit comme

Plus en détail

Le modèle de Black et Scholes

Le modèle de Black et Scholes Le modèle de Black et Scholes Alexandre Popier février 21 1 Introduction : exemple très simple de modèle financier On considère un marché avec une seule action cotée, sur une période donnée T. Dans un

Plus en détail

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes

Modèle de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes de troncature gauche : Comparaison par simulation sur données indépendantes et dépendantes Zohra Guessoum 1 & Farida Hamrani 2 1 Lab. MSTD, Faculté de mathématique, USTHB, BP n 32, El Alia, Alger, Algérie,zguessoum@usthb.dz

Plus en détail

données en connaissance et en actions?

données en connaissance et en actions? 1 Partie 2 : Présentation de la plateforme SPSS Modeler : Comment transformer vos données en connaissance et en actions? SPSS Modeler : l atelier de data mining Large gamme de techniques d analyse (algorithmes)

Plus en détail

TABLE DES MATIERES. C Exercices complémentaires 42

TABLE DES MATIERES. C Exercices complémentaires 42 TABLE DES MATIERES Chapitre I : Echantillonnage A - Rappels de cours 1. Lois de probabilités de base rencontrées en statistique 1 1.1 Définitions et caractérisations 1 1.2 Les propriétés de convergence

Plus en détail

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot

Arithmétique binaire. Chapitre. 5.1 Notions. 5.1.1 Bit. 5.1.2 Mot Chapitre 5 Arithmétique binaire L es codes sont manipulés au quotidien sans qu on s en rende compte, et leur compréhension est quasi instinctive. Le seul fait de lire fait appel au codage alphabétique,

Plus en détail

Calculer avec Sage. Revision : 417 du 1 er juillet 2010

Calculer avec Sage. Revision : 417 du 1 er juillet 2010 Calculer avec Sage Alexandre Casamayou Guillaume Connan Thierry Dumont Laurent Fousse François Maltey Matthias Meulien Marc Mezzarobba Clément Pernet Nicolas Thiéry Paul Zimmermann Revision : 417 du 1

Plus en détail

Le Data Mining au service du Scoring ou notation statistique des emprunteurs!

Le Data Mining au service du Scoring ou notation statistique des emprunteurs! France Le Data Mining au service du Scoring ou notation statistique des emprunteurs! Comme le rappelle la CNIL dans sa délibération n 88-083 du 5 Juillet 1988 portant adoption d une recommandation relative

Plus en détail

Une comparaison de méthodes de discrimination des masses de véhicules automobiles

Une comparaison de méthodes de discrimination des masses de véhicules automobiles p.1/34 Une comparaison de méthodes de discrimination des masses de véhicules automobiles A. Rakotomamonjy, R. Le Riche et D. Gualandris INSA de Rouen / CNRS 1884 et SMS / PSA Enquêtes en clientèle dans

Plus en détail

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU

$SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU $SSOLFDWLRQGXNULJHDJHSRXUOD FDOLEUDWLRQPRWHXU Fabien FIGUERES fabien.figueres@mpsa.com 0RWVFOpV : Krigeage, plans d expériences space-filling, points de validations, calibration moteur. 5pVXPp Dans le

Plus en détail

Annexe commune aux séries ES, L et S : boîtes et quantiles

Annexe commune aux séries ES, L et S : boîtes et quantiles Annexe commune aux séries ES, L et S : boîtes et quantiles Quantiles En statistique, pour toute série numérique de données à valeurs dans un intervalle I, on définit la fonction quantile Q, de [,1] dans

Plus en détail

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

NOTE SUR LA MODELISATION DU RISQUE D INFLATION NOTE SUR LA MODELISATION DU RISQUE D INFLATION 1/ RESUME DE L ANALYSE Cette étude a pour objectif de modéliser l écart entre deux indices d inflation afin d appréhender le risque à très long terme qui

Plus en détail

Contrôle stochastique d allocation de ressources dans le «cloud computing»

Contrôle stochastique d allocation de ressources dans le «cloud computing» Contrôle stochastique d allocation de ressources dans le «cloud computing» Jacques Malenfant 1 Olga Melekhova 1, Xavier Dutreilh 1,3, Sergey Kirghizov 1, Isis Truck 2, Nicolas Rivierre 3 Travaux partiellement

Plus en détail

Poker. A rendre pour le 25 avril

Poker. A rendre pour le 25 avril Poker A rendre pour le 25 avril 0 Avant propos 0.1 Notation Les parties sans * sont obligatoires (ne rendez pas un projet qui ne contient pas toutes les fonctions sans *). Celles avec (*) sont moins faciles

Plus en détail

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Recherche opérationnelle Les démonstrations et les exemples seront traités en cours Souad EL Bernoussi Groupe d Analyse Numérique et Optimisation Rabat http ://www.fsr.ac.ma/ano/ Table des matières 1 Programmation

Plus en détail

Introduction au Data-Mining

Introduction au Data-Mining Introduction au Data-Mining Gilles Gasso, Stéphane Canu INSA Rouen -Département ASI Laboratoire LITIS 8 septembre 205. Ce cours est librement inspiré du cours DM de Alain Rakotomamonjy Gilles Gasso, Stéphane

Plus en détail

Modélisation du comportement habituel de la personne en smarthome

Modélisation du comportement habituel de la personne en smarthome Modélisation du comportement habituel de la personne en smarthome Arnaud Paris, Selma Arbaoui, Nathalie Cislo, Adnen El-Amraoui, Nacim Ramdani Université d Orléans, INSA-CVL, Laboratoire PRISME 26 mai

Plus en détail

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés

Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Analyses de Variance à un ou plusieurs facteurs Régressions Analyse de Covariance Modèles Linéaires Généralisés Professeur Patrice Francour francour@unice.fr Une grande partie des illustrations viennent

Plus en détail

LES INDICATEURS CLÉ DE PERFORMANCE : DÉFINIR ET AGIR

LES INDICATEURS CLÉ DE PERFORMANCE : DÉFINIR ET AGIR Online Intelligence Solutions LES INDICATEURS CLÉ DE PERFORMANCE : DÉFINIR ET AGIR Comment intégrer les KPI à sa stratégie d entreprise? Par Jacques Warren WHITE PAPER WHITE PAPER A PROPOS DE JACQUES WARREN

Plus en détail

Apprentissage Automatique

Apprentissage Automatique Apprentissage Automatique Introduction-I jean-francois.bonastre@univ-avignon.fr www.lia.univ-avignon.fr Définition? (Wikipedia) L'apprentissage automatique (machine-learning en anglais) est un des champs

Plus en détail

Algorithmes d'apprentissage

Algorithmes d'apprentissage Algorithmes d'apprentissage 1 Agents qui apprennent à partir d'exemples La problématique : prise de décision automatisée à partir d'un ensemble d'exemples Diagnostic médical Réponse à une demande de prêt

Plus en détail

Chapitre 5 : Flot maximal dans un graphe

Chapitre 5 : Flot maximal dans un graphe Graphes et RO TELECOM Nancy A Chapitre 5 : Flot maximal dans un graphe J.-F. Scheid 1 Plan du chapitre I. Définitions 1 Graphe Graphe valué 3 Représentation d un graphe (matrice d incidence, matrice d

Plus en détail

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume

COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION. Jean-Loup Guillaume COURS SYRRES RÉSEAUX SOCIAUX INTRODUCTION Jean-Loup Guillaume Le cours Enseignant : Jean-Loup Guillaume équipe Complex Network Page du cours : http://jlguillaume.free.fr/www/teaching-syrres.php Évaluation

Plus en détail

Vérification de programmes et de preuves Première partie. décrire des algorithmes

Vérification de programmes et de preuves Première partie. décrire des algorithmes Vérification de programmes et de preuves Première partie. décrire des algorithmes Yves Bertot September 2012 1 Motivating introduction A partir des années 1940, il a été compris que l on pouvait utiliser

Plus en détail

4.2 Unités d enseignement du M1

4.2 Unités d enseignement du M1 88 CHAPITRE 4. DESCRIPTION DES UNITÉS D ENSEIGNEMENT 4.2 Unités d enseignement du M1 Tous les cours sont de 6 ECTS. Modélisation, optimisation et complexité des algorithmes (code RCP106) Objectif : Présenter

Plus en détail

Rappels sur les suites - Algorithme

Rappels sur les suites - Algorithme DERNIÈRE IMPRESSION LE 14 septembre 2015 à 12:36 Rappels sur les suites - Algorithme Table des matières 1 Suite : généralités 2 1.1 Déition................................. 2 1.2 Exemples de suites............................

Plus en détail

1 Recherche en table par balayage

1 Recherche en table par balayage 1 Recherche en table par balayage 1.1 Problème de la recherche en table Une table désigne une liste ou un tableau d éléments. Le problème de la recherche en table est celui de la recherche d un élément

Plus en détail

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1

La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La Licence Mathématiques et Economie-MASS Université de Sciences Sociales de Toulouse 1 La licence Mathématiques et Economie-MASS de l Université des Sciences Sociales de Toulouse propose sur les trois

Plus en détail

Modélisation et Simulation

Modélisation et Simulation Cours de modélisation et simulation p. 1/64 Modélisation et Simulation G. Bontempi Département d Informatique Boulevard de Triomphe - CP 212 http://www.ulb.ac.be/di Cours de modélisation et simulation

Plus en détail

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche Bachir Bekka Février 2007 Le théorème de Perron-Frobenius a d importantes applications en probabilités (chaines

Plus en détail

Optimisation Combinatoire (Méthodes approchées) II. Recherche Locale simple (Les bases)

Optimisation Combinatoire (Méthodes approchées) II. Recherche Locale simple (Les bases) Optimisation Combinatoire (Méthodes approchées) II. Recherche Locale simple (Les bases) Heuristique Constructive Itérativement, ajoute de nouvelles composantes à une solution partielle candidate Espace

Plus en détail

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options

TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options Université de Lorraine Modélisation Stochastique Master 2 IMOI 2014-2015 TP1 Méthodes de Monte Carlo et techniques de réduction de variance, application au pricing d options 1 Les options Le but de ce

Plus en détail

La classification automatique de données quantitatives

La classification automatique de données quantitatives La classification automatique de données quantitatives 1 Introduction Parmi les méthodes de statistique exploratoire multidimensionnelle, dont l objectif est d extraire d une masse de données des informations

Plus en détail

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE

ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE ÉTUDE DE L EFFICACITÉ DE GÉOGRILLES POUR PRÉVENIR L EFFONDREMENT LOCAL D UNE CHAUSSÉE ANALYSIS OF THE EFFICIENCY OF GEOGRIDS TO PREVENT A LOCAL COLLAPSE OF A ROAD Céline BOURDEAU et Daniel BILLAUX Itasca

Plus en détail

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1

Christophe CANDILLIER Cours de DataMining mars 2004 Page 1 Christophe CANDILLIER Cours de DataMining mars 2004 age 1 1. Introduction 2. rocessus du DataMining 3. Analyse des données en DataMining 4. Analyse en Ligne OLA 5. Logiciels 6. Bibliographie Christophe

Plus en détail

Méthodes de Simulation

Méthodes de Simulation Méthodes de Simulation JEAN-YVES TOURNERET Institut de recherche en informatique de Toulouse (IRIT) ENSEEIHT, Toulouse, France Peyresq06 p. 1/41 Remerciements Christian Robert : pour ses excellents transparents

Plus en détail

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke www.fundp.ac.be/biostats Module 140 140 ANOVA A UN CRITERE DE CLASSIFICATION FIXE...2 140.1 UTILITE...2 140.2 COMPARAISON DE VARIANCES...2 140.2.1 Calcul de la variance...2 140.2.2 Distributions de référence...3

Plus en détail

Eléments de spécification des systèmes temps réel Pierre-Yves Duval (cppm)

Eléments de spécification des systèmes temps réel Pierre-Yves Duval (cppm) Eléments de spécification des systèmes temps réel Pierre-Yves Duval (cppm) Ecole d informatique temps réel - La Londes les Maures 7-11 Octobre 2002 - Evénements et architectures - Spécifications de performances

Plus en détail

Projet de Traitement du Signal Segmentation d images SAR

Projet de Traitement du Signal Segmentation d images SAR Projet de Traitement du Signal Segmentation d images SAR Introduction En analyse d images, la segmentation est une étape essentielle, préliminaire à des traitements de haut niveau tels que la classification,

Plus en détail

Moments des variables aléatoires réelles

Moments des variables aléatoires réelles Chapter 6 Moments des variables aléatoires réelles Sommaire 6.1 Espérance des variables aléatoires réelles................................ 46 6.1.1 Définition et calcul........................................

Plus en détail

Probabilités III Introduction à l évaluation d options

Probabilités III Introduction à l évaluation d options Probabilités III Introduction à l évaluation d options Jacques Printems Promotion 2012 2013 1 Modèle à temps discret 2 Introduction aux modèles en temps continu Limite du modèle binomial lorsque N + Un

Plus en détail

Utilisation d informations visuelles dynamiques en asservissement visuel Armel Crétual IRISA, projet TEMIS puis VISTA L asservissement visuel géométrique Principe : Réalisation d une tâche robotique par

Plus en détail

Cours IV Mise en orbite

Cours IV Mise en orbite Introduction au vol spatial Cours IV Mise en orbite If you don t know where you re going, you ll probably end up somewhere else. Yogi Berra, NY Yankees catcher v1.2.8 by-sa Olivier Cleynen Introduction

Plus en détail

A GRASPxELS approach for the Job Shop with generic time-lags and new statistical determination of the parameters

A GRASPxELS approach for the Job Shop with generic time-lags and new statistical determination of the parameters A GRASPxELS approach for the Job Shop with generic time-lags and new statistical determination of the parameters Présenté par : Equipe de travail : Laboratoire : Maxime CHASSAING Philippe LACOMME, Nikolay

Plus en détail

Ordonnancement robuste et décision dans l'incertain

Ordonnancement robuste et décision dans l'incertain Ordonnancement robuste et décision dans l'incertain 4 ème Conférence Annuelle d Ingénierie Système «Efficacité des entreprises et satisfaction des clients» Centre de Congrès Pierre Baudis,TOULOUSE, 2-4

Plus en détail

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services

Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services 69 Vers une approche Adaptative pour la Découverte et la Composition Dynamique des Services M. Bakhouya, J. Gaber et A. Koukam Laboratoire Systèmes et Transports SeT Université de Technologie de Belfort-Montbéliard

Plus en détail

Évaluation de la régression bornée

Évaluation de la régression bornée Thierry Foucart UMR 6086, Université de Poitiers, S P 2 M I, bd 3 téléport 2 BP 179, 86960 Futuroscope, Cedex FRANCE Résumé. le modèle linéaire est très fréquemment utilisé en statistique et particulièrement

Plus en détail

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures) CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE Cinquième épreuve d admissibilité STATISTIQUE (durée : cinq heures) Une composition portant sur la statistique. SUJET Cette épreuve est composée d un

Plus en détail

Echantillonnage Non uniforme

Echantillonnage Non uniforme Echantillonnage Non uniforme Marie CHABERT IRIT/INP-ENSEEIHT/ ENSEEIHT/TéSASA Patrice MICHEL et Bernard LACAZE TéSA 1 Plan Introduction Echantillonnage uniforme Echantillonnage irrégulier Comparaison Cas

Plus en détail

La fonction exponentielle

La fonction exponentielle DERNIÈRE IMPRESSION LE 2 novembre 204 à :07 La fonction exponentielle Table des matières La fonction exponentielle 2. Définition et théorèmes.......................... 2.2 Approche graphique de la fonction

Plus en détail

Les algorithmes de base du graphisme

Les algorithmes de base du graphisme Les algorithmes de base du graphisme Table des matières 1 Traçage 2 1.1 Segments de droites......................... 2 1.1.1 Algorithmes simples.................... 3 1.1.2 Algorithmes de Bresenham (1965).............

Plus en détail

Résolution d équations non linéaires

Résolution d équations non linéaires Analyse Numérique Résolution d équations non linéaires Said EL HAJJI et Touria GHEMIRES Université Mohammed V - Agdal. Faculté des Sciences Département de Mathématiques. Laboratoire de Mathématiques, Informatique

Plus en détail