Processus Décisionnels Markoviens



Documents pareils
Décision Markovienne appliquée à un jeu de stop ou encore : Pickomino (Heckmeck Am Bratwurmeck)

Audition pour le poste de Maître de conférence INSA Lyon distributed Robotics avec aectation au CITI. Guillaume Lozenguez.

I Stabilité, Commandabilité et Observabilité Introduction Un exemple emprunté à la robotique Le plan Problème...

Modélisation aléatoire en fiabilité des logiciels

Echantillonnage Non uniforme

Les apports de l informatique. Aux autres disciplines

Baccalauréat ES/L Métropole La Réunion 13 septembre 2013 Corrigé

Contrôle stochastique d allocation de ressources dans le «cloud computing»

Outils logiciels pour la combinaison de vérification fonctionnelle et d évaluation de performances au sein de CADP

Cours de Master Recherche

Voie SIS (2A M1) Signal, Informatique 05/06/2014

Optimisation Discrète

MCMC et approximations en champ moyen pour les modèles de Markov

Chapitre 3. Algorithmes stochastiques. 3.1 Introduction

Raisonnement probabiliste

Pourquoi l apprentissage?

M2 IAD UE MODE Notes de cours (3)

APPORT DES RESEAUX BAYESIENS DANS LA PREVENTION DE LA DELINQUANCE

4.2 Unités d enseignement du M1

Baccalauréat ES Pondichéry 7 avril 2014 Corrigé

Intelligence Artificielle et Systèmes Multi-Agents. Badr Benmammar

Intelligence Artificielle Planification

Organisation du parcours M2 IR Les unités d enseignements (UE) affichées dans la partie tronc commun sont toutes obligatoires, ainsi que le stage et

Ordonnancement robuste et décision dans l'incertain

Mathématique et Automatique : de la boucle ouverte à la boucle fermée. Maïtine bergounioux Laboratoire MAPMO - UMR 6628 Université d'orléans

Intelligence artificielle et les défis en robotique mobile et autonome

Intégrales doubles et triples - M

OM 1 Outils mathématiques : fonction de plusieurs variables

Précision d un résultat et calculs d incertitudes

Programmation par contraintes. Laurent Beaudou

Fonctions de deux variables. Mai 2011

Filtrage stochastique non linéaire par la théorie de représentation des martingales

Spécialité IAD. Master de Sciences et technologie de l UPMC. Mention informatique. Partenaires : ENST, ENSTA. Responsables : T. Artières, C.

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Apprentissage Automatique

Cours Fonctions de deux variables

Jean-Philippe Préaux

LE PROBLEME DU PLUS COURT CHEMIN

Sur quelques applications des processus de branchement en biologie moléculaire

Calcul intégral élémentaire en plusieurs variables

Agrégation des portefeuilles de contrats d assurance vie

Résolution de systèmes linéaires par des méthodes directes

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

Apprentissage par renforcement Notes de cours

Relever les défis des véhicules autonomes

Amphi 3: Espaces complets - Applications linéaires continues

Représentation des Nombres

Anthropologue, ethnologue, géographe, historien de l'art, ingénieur, informaticiens, mathématicien, pédagogue, sociologue, Étudiants en tourisme

Modélisation multi-agents - Agents réactifs

APPROCHE SEMI-MARKOVIENNE POUR LA MODÉLISATION DE STRATÉGIES DE MAINTENANCE : APPLICATION À LA PRÉVENTION DE RUPTURE DU RAIL

A votre service, personnellement

Web Science. Master 1 IFI. Andrea G. B. Tettamanzi. Université de Nice Sophia Antipolis Département Informatique andrea.tettamanzi@unice.

Annexe 6. Notions d ordonnancement.

Géométrie Algorithmique Plan du cours

MATHS FINANCIERES. Projet OMEGA

Résumé du cours en graphiques En vue des prochains cours En vue de l examen final. Macroéconomie 1. Conclusion générale. Olivier Loisel.

Nouvelles propositions pour la résolution exacte du problème de sac à dos bi-objectif unidimensionnel en variables binaires

Lancement du projet TOP (Tracabilité et Optimisation des Process)

L utilisation d un réseau de neurones pour optimiser la gestion d un firewall

Plus courts chemins, programmation dynamique

Introduction à la théorie des files d'attente. Claude Chaudet

Eurateach labellisé par la région et le FAFIEC. Si vous remplissez les conditions suivantes : Votre entreprise compte moins de 250 salariés

Problématique / Problématiser / Problématisation / Problème

Continuité et dérivabilité d une fonction

Propriétés des options sur actions

Thèse. présentée en vu d obtenir le grade de Docteur, spécialité «Mathématiques Appliquées» par. ARRAR Nawel Khadidja

Modèle multi-agents de prise de décision éthique

PROBABILITES ET STATISTIQUE I&II

Modélisation et simulation

Incertitudes expérimentales

Economie de l Incertain et des Incitations

Principes d AdWords. Quelques mots de présentation. Une audience large : les réseaux de ciblage. Réseau de recherche

Temps Réel. Jérôme Pouiller Septembre 2011

PHY2723 Hiver Champs magnétiques statiques. Notes partielles accompagnant le cours.

Dimensionnement Introduction

Fonctions de plusieurs variables, intégrales multiples, et intégrales dépendant d un paramètre

Introduction à la théorie des graphes. Solutions des exercices

La programmation linéaire : une introduction. Qu est-ce qu un programme linéaire? Terminologie. Écriture mathématique

Cours de Mécanique du point matériel

Déroulement. Evaluation. Préambule. Définition. Définition. Algorithmes et structures de données 28/09/2009

La mesure de Lebesgue sur la droite réelle

JOURNEES SYSTEMES & LOGICIELS CRITIQUES le 14/11/2000. Mise en Œuvre des techniques synchrones pour des applications industrielles

CarrotAge, un logiciel pour la fouille de données agricoles

Chronogrammes et contraintes. à la modélisation de systèmes dynamiques à événements

Master of Science en mathématiques

Séminaire TEST. 1 Présentation du sujet. October 18th, 2013

Applications en imagerie cérébrale (MEG/EEG)

Maîtrise universitaire ès sciences en mathématiques

Master of Science en mathématiques

FICHE UE Licence/Master Sciences, Technologies, Santé Mention Informatique

Université d Aix-Marseille Master Réseaux & Télécoms Cryptographie

!-.!#- $'( 1&) &) (,' &*- %,!

Gestion de données incertaines et de leur provenance

Conception des systèmes répartis

PRÉCIS DE SIMULATION

Les algorithmes de base du graphisme

Introduction à l'apprentissage par renforcement

Intelligence Artificielle et Robotique

Une réponse concrète et adaptée pour valoriser votre engagement pour l environnement.

Représentation d un entier en base b

Transcription:

1 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens Processus Décisionnels Markoviens Représentation d une interaction synchrone entre un agent et le monde États Monde Agent Actions Planification des actions d un agent dans l incertain 2 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 1

1. PDM classiques Incertain probabiliste Récompenses additives Critère de décision EU Cours 4.2 - Processus décisionnels Markoviens Représentation dans un graphe d état 0.4 8 Etat État courant 9 0.1 0.2 2 7 initial 0.3 10 4 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 2

Formalisation d un PDM 5 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens Hypothèse de Markov 0.4 s a 9 0.1 0.2 0.3 6 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 3

Décisions et Stratégies Règles de décision : «si l état est s alors exécuter l action a» Représentation par une fonction de décision Hypothèse : observabilité totale (on connaît l état courant) 7 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens Décision dynamique n étapes de décision (n = horizon, fini ou infini) s 1 2 n-1 n Stratégie = 8 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 4

Critères à optimiser Horizon fini Horizon infini 9 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens Évaluation locale d une stratégie Le cas déterministe v u d(u) d(v) à horizon 1 à horizon 2 10 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 5

Évaluation Locale d une stratégie Le cas non-déterministe x d(x) v à horizon 1 u d(u) y d(v) à horizon 2 d(y) + γ 11 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens Evaluation Locale d une stratégie Dernière décision Décision à t étapes de la fin 12 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 6

Décisions optimales (horizon fini) Dernière décision Décision à t étapes de la fin γ = 1 13 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens Algorithme pour le cas d un horizon fini 14 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 7

Algorithme d itération de la valeur 15 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens Une autre approche 16 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 8

Application : planification en IA Robot 1 2 3 4 5 6 7 1 goals On souhaite atteindre l objectif dans une fenêtre de temps qui autorise au plus 3 mouvements 0.4 1 0.4 1 0.2 1 1 17 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens Graphe de décision associé 1 2 3 4 5 6 7 1 goals 3 1 0.6 4 0.6 2 4 0.8 5 1 7 6 0.8 4 2 5 7 6 0 0 1 18 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 9

Décisions optimales (horizon infini) 19 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens Calcul de la stratégie optimale Algorithme de l itération de la valeur (Bellman, 57) 20 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 10

Garantie de performance Borne de l erreur (Williams and Baird, 1993) 21 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens Exemple γ = 0.75 s1 s2 s3 s4 left s1 s2 s3 s4 s1 0,9 0,1 0 0 s2 0,9 0 0,1 0 s3 0 0,9 0 0,1 s4 0 0 0,9 0,1 s1 s2 s3 s4 ql 0 0 0 1 qr 0 1 0 0 V1 0 1 0 1 right s1 s2 s3 s4 s1 0.1 0,9 0 0 s2 0,1 0 0,9 0 s3 0 0,1 0 0,9 s4 0 0 0,1 0.9 22 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 11

Itération de la valeur s1 s2 s3 s4 left s1 s2 s3 s4 ql 0 0 0 1 s1 0.9 0.1 0 0 qr 0 1 0 0 s2 0.9 0 0.1 0 0 1 0 1 s3 0 0.9 0 0.1 s4 0 0 0.9 0.1 ql 0.08 0.00 0.75 1.08 qr 0.68 1.00 0.75 0.00 right s1 s2 s3 s4 0.675 1 0.75 1.075 s1 0.1 0.9 0 0 s2 0.1 0 0.9 0 ql 3 1 0.76 1.59 s3 0 0.1 0 0.9 qr 0.68 1.56 0.80 0.06 s4 0 0 0.1 0.9 0.675 1.557 0.801 1.587 22 ql 1.23 1.19 1.74 2.38 qr 1.56 2.32 1.78 0.13 1.562 2.316 1.777 2.377 23 ql 1.23 1.19 1.74 2.38 qr 1.56 2.32 1.78 0.13 1.563 2.317 1.778 2.378 24 ql 1.23 1.19 1.74 2.38 qr 1.56 2.32 1.78 0.13 1.564 2.317 1.779 2.379 s1 s2 s3 s4 23 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens Algorithme d itération de la valeur 24 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 12

Une autre approche 25 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens Observabilité partielle (POMDPs) L agent n est pas capable de connaître avec certitude l état courant Déplacement à droite (qui réussit à 0.9) s1 s2 s3 s4 Observation on ne voit pas le but Révision des croyances 0.33 0.33 0.33 0.1 0.45 0.45 26 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 13

Pour aller plus loin Tutorial sur le web http://www.cs.brown.edu/research/ai/pomdp/tutorial/index.html Articles http://www.cs.duke.edu/~mlittman/topics/pomdp-page.html 27 Patrice Perny RHAD Cours 4.2 - Processus décisionnels Markoviens 14