Algorithme approché d optimisation d un modèle de Processus Décisionnel de Markov sur Graphe



Documents pareils
Plan. Gestion des stocks. Les opérations de gestions des stocks. Les opérations de gestions des stocks

Remboursement d un emprunt par annuités constantes

Mesure avec une règle

Q x2 = 1 2. est dans l ensemble plus grand des rationnels Q. Continuons ainsi, l équation x 2 = 1 2

LE RÉGIME DE RETRAITE DU PERSONNEL CANADIEN DE LA CANADA-VIE (le «régime») INFORMATION IMPORTANTE CONCERNANT LE RECOURS COLLECTIF

hal , version 1-14 Aug 2009

Chapitre IV : Inductance propre, inductance mutuelle. Energie électromagnétique

Dirigeant de SAS : Laisser le choix du statut social

Stéganographie Adaptative par Oracle (ASO)

ÉLÉMENTS DE THÉORIE DE L INFORMATION POUR LES COMMUNICATIONS.

GENESIS - Generalized System for Imputation Simulations (Système généralisé pour simuler l imputation)

Evaluation de performances d'ethernet commuté pour des applications temps réel

MÉTHODES DE SONDAGES UTILISÉES DANS LES PROGRAMMES D ÉVALUATIONS DES ÉLÈVES

Montage émetteur commun

DES EFFETS PERVERS DU MORCELLEMENT DES STOCKS

Projet de fin d études

Les jeunes économistes

Amphi 3: Espaces complets - Applications linéaires continues

TD 1. Statistiques à une variable.

Chapitre 3 : Incertitudes CHAPITRE 3 INCERTITUDES. Lignes directrices 2006 du GIEC pour les inventaires nationaux de gaz à effet de serre 3.

Économétrie. Annexes : exercices et corrigés. 5 e édition. William Greene New York University

Corrigé du problème de Mathématiques générales Partie I

Assurance maladie et aléa de moralité ex-ante : L incidence de l hétérogénéité de la perte sanitaire

STATISTIQUE AVEC EXCEL

Fiche n 7 : Vérification du débit et de la vitesse par la méthode de traçage

EH SmartView. Identifiez vos risques et vos opportunités. Pilotez votre assurance-crédit. Services en ligne Euler Hermes

I. Présentation générale des méthodes d estimation des projets de type «unité industrielle»

En vue de l'obtention du. Présentée et soutenue par Meva DODO Le 06 novembre 2008

1 Introduction. 2 Définitions des sources de tension et de courant : Cours. Date : A2 Analyser le système Conversion statique de l énergie. 2 h.

GEA I Mathématiques nancières Poly. de révision. Lionel Darondeau

UNIVERSITÉ DU QUÉBEC À MONTRÉAL L ASSURANCE AUTOMOBILE AU QUÉBEC : UNE PRIME SELON LE COÛT SOCIAL MARGINAL MÉMOIRE PRÉSENTÉ COMME EXIGENCE PARTIELLE

Calcul de tableaux d amortissement

Prise en compte des politiques de transport dans le choix des fournisseurs

Contrats prévoyance des TNS : Clarifier les règles pour sécuriser les prestations

Prêt de groupe et sanction sociale Group lending and social fine

COMPARAISON DE MÉTHODES POUR LA CORRECTION

Exercices d Électrocinétique

IDEI Report # 18. Transport. December Elasticités de la demande de transport ferroviaire: définitions et mesures

REPUBLIQUE ALGERIENNE DEMOCRATIQUE ET POPULAIRE MINISTERE DE L ENSEIGNEMENT SUPERIEUR ET DE LA RECHERCHE SCIENTIFIQUE. MEMOIRE Présentée à

BTS GPN 2EME ANNEE-MATHEMATIQUES-MATHS FINANCIERES MATHEMATIQUES FINANCIERES

INTRODUCTION. Jean-Pierre MAGNAN Chef de la section des ouvrages en terre Département des sols et fondations Laboratoire central

La théorie classique de l information. 1 ère partie : le point de vue de Kolmogorov.

RAPPORT DE STAGE. Approcher la frontière d'une sous-partie de l'espace ainsi que la distance à cette frontière. Sujet : Master II : SIAD

Corrections adiabatiques et nonadiabatiques dans les systèmes diatomiques par calculs ab-initio

Analyse des Performances et Modélisation d un Serveur Web

Généralités sur les fonctions 1ES

Grandeur physique, chiffres significatifs

II - Notions de probabilité. 19/10/2007 PHYS-F-301 G. Wilquet 1

Integral T 3 Compact. raccordé aux installations Integral 5. Notice d utilisation

CREATION DE VALEUR EN ASSURANCE NON VIE : COMMENT FRANCHIR UNE NOUVELLE ETAPE?

Calculer le coût amorti d une obligation sur chaque exercice et présenter les écritures dans les comptes individuels de la société Plumeria.

Texte Agrégation limitée par diffusion interne

Qualité de service 7. Ordonnanceurs de paquets. Contexte. Intégration de services. Plan. Multiplexage. FIFO/DropTail. Priorités

Thermodynamique statistique Master Chimie Université d Aix-Marseille. Bogdan Kuchta

PREMIERS PAS en REGRESSION LINEAIRE avec SAS. Josiane Confais (UPMC-ISUP) - Monique Le Guen (CNRS-CES-MATISSE- UMR8174)

Contact SCD Nancy 1 : theses.sciences@scd.uhp-nancy.fr

CHAPITRE 14 : RAISONNEMENT DES SYSTÈMES DE COMMANDE

CHAPITRE DEUX : FORMALISME GEOMETRIQUE

ACTE DE PRÊT HYPOTHÉCAIRE

ESTIMATION DES TITRES VIRAUX : UNE PROGRAMMATION PRATIQUE ET FIABLE SUR CALCULATRICE DE POCHE, ET ACCESSIBLE PAR l INTERNET

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

Les déterminants de la détention et de l usage de la carte de débit : une analyse empirique sur données individuelles françaises

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

En vue de l'obtention du. Présentée et soutenue par Elayeb Bilel Le 26 juin 2009

1. Les enjeux de la prévision du risque de défaut de paiement

santé Les arrêts de travail des séniors en emploi

CATALOGUE EXCLUSIF TOUCH MEDIA CATALOGUE DE SITES FORMATS GLOSSAIRE. Notre sélection de supports en représentation exclusive au Maroc

MODÈLE D ISING À UNE ET DEUX DIMENSIONS.

Page 5 TABLE DES MATIÈRES

Terminal numérique TM 13 raccordé aux installations Integral 33

Ecole Polytechnique de Montréal C.P. 6079, succ. Centre-ville Montréal (QC), Canada H3C3A7

[1] L. D. Landau, Phys. Z. Sowejetunion 11, 26, (1937) ; reprinted in Collected

ErP : éco-conception et étiquetage énergétique. Les solutions Vaillant. Pour dépasser la performance. La satisfaction de faire le bon choix.

Mécanique des Milieux Continus

Semestre : 4 Module : Méthodes Quantitatives III Elément : Mathématiques Financières Enseignant : Mme BENOMAR

La Quantification du Risque Opérationnel des Institutions Bancaires

Tests non-paramétriques de non-effet et d adéquation pour des covariables fonctionnelles

CONSERVATOIRE NATIONAL DES ARTS ET METIERS

Une analyse économique et expérimentale de la fraude à l assurance et de l audit

Système solaire combiné Estimation des besoins énergétiques

Baccalauréat ES/L Amérique du Sud 21 novembre 2013

Le théorème de Perron-Frobenius, les chaines de Markov et un célèbre moteur de recherche

UNE ETUDE ECONOMÉTRIQUE DU NOMBRE D ACCIDENTS

Surveillance temps-réel des systèmes Homme-Machine. Application à l assistance à la conduite automobile

Interface OneNote 2013

P R I S E E N M A I N R A P I D E O L I V E 4 H D

1.0 Probabilité vs statistique Expérience aléatoire et espace échantillonnal Événement...2

MEMOIRE. Présenté au département des sciences de la matière Faculté des sciences

FIMA, 7 juillet 2005

GUIDE D ÉLABORATION D UN PLAN D INTERVENTION POUR LE RENOUVELLEMENT DES CONDUITES D EAU POTABLE, D ÉGOUTS ET DES CHAUSSÉES

Comparative performance for isolated points detection operators: application on surface defects extraction

L automatisme de portail sans fils

4. Martingales à temps discret

TABLE DES MATIERES CONTROLE D INTEGRITE AU SEIN DE LA RECHERCHE LOCALE DE LA POLICE LOCALE DE BRUXELLES-CAPITALE/IXELLES (DEUXIEME DISTRICT) 1

LE PRINCIPE DU RAISONNEMENT PAR RÉCURRENCE

Impôt sur la fortune et investissement dans les PME Professeur Didier MAILLARD

Paquets. Paquets nationaux 1. Paquets internationaux 11

Les méthodes numériques de la dynamique moléculaire

Baccalauréat ES Polynésie (spécialité) 10 septembre 2014 Corrigé

Transcription:

Algorthme approché d optmsaton d un modèle de Processus Décsonnel de Markov sur Graphe Nathale Peyrard Régs Sabbadn INRA-MIA Avgnon et Toulouse E-Mal: {peyrard,sabbadn}@toulouse.nra.fr Réseau MSTGA, Avgnon, 20-21 Octobre 2007

Processus Décsonnel de Markov Itératon de la Poltque exacte Processus Décsonnels de Markov (1) Défnton (Processus Décsonnel de Markov) Un PDM est défn par un quadruplet < X, A, p, r > : X = {x 1,..., x X }. Etats possbles du système A = {a 1,..., a A }. Actons applcables p(x x, a). Probablté de transton entre états r(x, a). Foncton de récompense mmédate. Poltque : δ : X A Trajectore : τ =< x 0,δ(x 0 ), x 1,δ(x 1 ),..., x t,δ(x t ),... >, t H {1... + } Valeur d une poltque : V δ (x 0 ) = E [ γ t r t (x t,δ(x t )) ], 0 γ 1. t H

Processus Décsonnel de Markov Itératon de la Poltque exacte Processus Décsonnels de Markov (2) Défnton (Soluton d un PDM) Une poltque δ est soluton d un PDM < X, A, p, r > ss V δ (x) V δ (x), δ, x Proposton (Exstence d une poltque optmale) Une poltque optmale δ exste et est soluton du système (non lnéare) : { V δ (x) = max r(x, a) + γ p(x x, a) V δ (x) }, x X a A δ (x) = arg max a A x X { r(x, a) + γ p(x x, a) V δ (x) }, x X x X

Résoluton d un PDM Processus Décsonnel de Markov Itératon de la Poltque exacte Trouver une poltque optmale δ, telle que V δ (x) V δ (x), x Algorthme (Itératon de la Poltque) Alterne évaluaton et améloraton d une poltque courante Évaluaton d une poltque δ : Système lnéare V δ (x) = r(x,δ(x)) + γ p(x x,δ(x)) V δ (x ), x x X Améloraton de la poltque : δ (x) = argmax a A (r(x, a) + γ p(x x, a) V δ (x )), x x X Proprété : V δ (x) V δ (x), x et V δ = V δ δ optmale.

Processus Décsonnel de Markov Itératon de la Poltque exacte Evaluaton de la poltque et mesure d occupaton Défnton (Mesure d occupaton) Sot une poltque δ : X A et x X un état ntal. La mesure d occupaton P x,δ,γ : X [0, 1] est défne par : + y X, P x,δ,γ (y) = (1 γ) γ t P(Xx,δ t = y) t=0 Proposton (Foncton de valeur et mesure d occupaton) x X, V δ (x) = 1 1 γ P x,δ,γ (y) r(y,δ(y)) y X

Lmtes de l Itératon de la Poltque Processus Décsonnel de Markov Itératon de la Poltque exacte Complexté trop élevée lorsque X est grand : Evaluaton. Calcul de P x,δ,γ (y) en tout x, y. Améloraton Calcul d un argmax sur A X. Approxmaton de P x,δ,γ (y) en champ moyen

Défntons Non-optmalté des poltques locales d un PDMG Processus Décsonnels de Markov sur Graphes Défnton (Processus Décsonnel de Markov sur Graphes) Un Processus Décsonnel de Markov sur Graphes est un PDM défn par un quntuplet < X, A, p, r, G > : X = X 1... X n : espace d états multdmensonnel A = A 1... A n : espace d actons multdmensonnel p et r : fonctons de transton et de récompense locales G = (V, B) : graphe orenté de sommets V = {1,...,n} et d arêtes B V 2 exprmant les dépendances entre varables On utlsera auss la noton de vosnage d un sommet : N() = {j {1,..., n},(j, ) B}

Localté d un PDMG Défntons Non-optmalté des poltques locales d un PDMG Défnton (Processus local) Le processus est dt local s p(x x, a) s écrt : n x, x X 2, a A, p(x x, a) = p (x x N(), a ) Défnton (Poltque locale) Une poltque δ : X A est dte locale ss δ = (δ 1,...,δ n ) où δ : X N() A et δ (x N() ) = a A, x N() X N(). Défnton (Récompense locale) Une foncton de récompense r : X A R est dte locale ss x, a X A, r(x, a) = V =1 r (x N(), a ).

Exemple PDM et Itératon de la Poltque Approchée Défntons Non-optmalté des poltques locales d un PDMG Un Processus Décsonnel Markoven sur Graphe

Exemple PDM et Itératon de la Poltque Approchée Défntons Non-optmalté des poltques locales d un PDMG Localté autour du noeud 4

Exemple PDM et Itératon de la Poltque Approchée Défntons Non-optmalté des poltques locales d un PDMG Probablté de transton locale

Exemple PDM et Itératon de la Poltque Approchée Défntons Non-optmalté des poltques locales d un PDMG Récompense locale

Exemple PDM et Itératon de la Poltque Approchée Défntons Non-optmalté des poltques locales d un PDMG Poltque locale

Non-optmalté des poltques locales Défntons Non-optmalté des poltques locales d un PDMG {0,1} {0,1} {0,1} {0,1} X 1 X 2 X 3 A 3 t t+1 t+1 t r 3 t+1 p 1 (x t+1 1 = 0) = p 1 (x t+1 1 = 1) = 1 2, p 2 (x t+1 2 = x1 t x 1 t) = p 3(x t+1 3 = z a t 3 = z) = 1 r 3 (x2 t, x 3 t) = 1 s x 2 t = x 3 t et 0 snon. Poltque locale : δ3 l : (x 2 t, x 3 t) at 3 V δ l (x) = 1 3 2(1 γ), x Poltque optmale : a t 3 = δ 3 (x 1 t) = x 1 t V δ 3 (x) = 1 (1 γ), x

Défntons Non-optmalté des poltques locales d un PDMG Recherche d une bonne poltque locale La melleure poltque locale d un PDMG peut être arbtrarement lon de la poltque optmale : S X = n, V δ l (x) = 1 3 n V δ3 (x), x, mas les poltques locales ne nécesstent qu un espace rasonnable pour être décrtes. La melleure poltque locale est emprquement bonne. L ensemble des poltques locales est de talle rasonnable. Questons : Algorthme de type champ moyen pour le calcul de bonnes poltques locales? Evaluaton de l erreur lée à l approxmaton?

Evaluaton de la poltque approchée Améloraton de la poltque approchée Décomposton de la foncton de valeur Proposton V δ (x) = 1 1 γ y X P x,δ,γ (y) ( n r (y N(),δ (y N() ) ) =1 V δ (x) = 1 1 γ y X Sot, V δ (x) = n =1 Vδ (x) où P x,δ,γ (y) r (y N(),δ (y N() )) Problème! Vδ dépend toujours de x en enter!

Evaluaton de la poltque approchée Améloraton de la poltque approchée Décomposton par approxmaton en champ moyen Rappel + P x,δ,γ (y) = (1 γ) γ t P(Xx,δ t = y) t=0 Défnton (Approxmaton en CM de la mesure d occupaton) P(X t x,δ = y) = P δ(x t = y X 0 = x) Ĉ,t δ (X t = y X 0 = x )

Evaluaton de la poltque approchée Améloraton de la poltque approchée Décomposton par approxmaton en champ moyen Défnton Ĉ N(),t δ (x N(), y N() ) = Ĉ j,t δ (X j t = y j Xj 0 = x j ) j N() En utlsant l approxmaton de la mesure d occupaton : Proposton (Foncton de valeur approchée dans un PDMG) V δ (x) V δ (x) n + =1 t=0 n ˆV δ (x N()) =1 ( ) γ t Ĉ N(),t δ (x N(), y N() ) r (y N(),δ (y N() )) y N()

Evaluaton de la poltque approchée Améloraton de la poltque approchée Approxmaton des fonctons de transton locales ˆQ,1 δ (y x ) : approxmaton de p δ (y x N() ) = p (y x N (),δ(x N() )) ˆQ,1 δ (y x ) = Sot, s on pose P 0 (x) = 1 X N() X N() p δ (y x N() ) n P 0, (x ) où P 0, unforme, =1 ˆQ,1 δ (y [ x ) = E P 0 p δ (y x, X N() ) ]

Evaluaton de la poltque approchée Améloraton de la poltque approchée Approxmaton des fonctons de transton locales Défnton (Approxmaton de type champ moyen) Une dstrbuton P(u 1,..., u n ) est approchée par une dstrbuton ndépendante n =1 Q (u ) mnmsant la dvergence de Kullback-Lebler : ( Q )] KL(Q P) = E Q [log. P Proposton (Mnmsaton de dvergence de Kullback-Lebler) ˆQ 1 δ arg mn Q 1 KL ( Q 1 (X 1 X 0 ).P 0 (X 0 ) p δ (X 1 X 0 ).P 0 (X 0 ) ) Remarque : mnmsaton sur la lo jonte de (X 0, X 1 )!

Evaluaton de la poltque approchée Améloraton de la poltque approchée Calcul tératf de Ĉ,t δ (X t = y X 0 = x ) P t, ˆQ,t+1 δ (x t+1 δ (x ) est la probablté approchée que X t = x x t ) est la probablté approchée de passer de x t à x t+1 (à l nstant t) Ĉ,t δ (x t x 0 ) est la probablté approchée de passer de x 0 à x t en t pas de temps Défnton (Calcul de,t ˆQ δ (x t t 1 x ), Ĉ,t δ (x t x 0 ), P t, δ (x )) ˆQ,t δ (x t t 1 x ) = E P t 1 Ĉ,t δ (x t x 0 ) = x t P t, δ (x t ) = [ p δ (x t ˆQ,t δ (x t t 1 x t 1 x, X t 1 N() 1 )] ) Ĉ,t 1 Ĉ,t δ (x t x 0 ) P 0, δ (x 0 ) δ (x t 1 x 0 )

Remarques PDM et Itératon de la Poltque Approchée Evaluaton de la poltque approchée Améloraton de la poltque approchée P x,δ,γ (y) remplacé par n ˆP =1 x,δ,γ (y ), va l approxmaton de p δ(x t,t ) par ˆQ δ (x t x t 1 N() x t 1 ). Un processus nterdépendant statonnare est approché par un ensemble de processus ndépendants non-statonnares Deux facteurs d approxmaton : ˆQ,t δ (x t t 1 x ) est obtenu va une presque-mnmsaton d une dvergence (approxmaton térée à chaque t) Approxmaton ntale (chox d une dstrbuton ntale P 0 ) Questons lées à ces approxmatons,t ˆQ δ (x t t 1 x Borner l erreur de ) borner l erreur de ˆV δ (x) Chox judceux de P 0 (x), entre lo unforme, Drac (s x 0 fxé) et approxmaton d une mesure d occupaton smulée

Evaluaton de la poltque approchée Améloraton de la poltque approchée Améloraton de la poltque approchée Améloraton de la poltque : δ (x) = arg max(r(x, a) + γ p(x x, a) ˆV δ (x )), x a A x X On peut montrer : δ (x) = arg max a 1...a n n =1 r (x N(), a )+γ x N() Sot δ (x) = arg max a 1...a n P(x N() x N(N()), a N() ) ˆV δ (x N() ) n f (x N(N()), a N() ) =1 Même s δ est locale, δ ne l est pas!

Evaluaton de la poltque approchée Améloraton de la poltque approchée Améloraton de la poltque approchée ˆδ (x) = arg max r (x N(), a )+γ P δ (x a N() x N(N()), a ) ˆV δ (x N() ) x N() où P δ (x N() x N(N()), a ) = p (x x N(), a ) j N() mas ˆδ (x) dépend de x N(N()). On pose donc : et ˆδ ˆP δ (x N() x N(), a ) = E P 0 p j (x j x N(j),δ(x N(j) )), [ ] P δ (x N() x N(), X N(N()) N(), a ) (x) = arg max r (x N(), a )+γ ˆP δ (x a N() x N(), a ) ˆV δ (x N() ) x N()

Remarques PDM et Itératon de la Poltque Approchée Evaluaton de la poltque approchée Améloraton de la poltque approchée Encore deux approxmatons : On amélore tous les ˆδ ndépendament en consdérant les δ j fxés Améloraton séquentelle? Encore une approxmaton en espérance de P δ (x N() x N(N()), a ) par ˆP δ (x N() x N(), a ) P 0 non unforme?

Evaluaton de la poltque approchée Améloraton de la poltque approchée L algorthme d tératon de la poltque approchée alterne : phase d évaluaton approchée et phase d améloraton approchée (basée également sur le Champ Moyen) Jusqu à trouver deux poltques locales successves δ et δ telles que ˆV δ = ˆV δ.

Concluson provsore Evaluaton de la poltque approchée Améloraton de la poltque approchée Un formalsme (PDMG) et une méthode de résoluton approchée basée sur le Champ Moyen pour résoudre des problèmes de PDM factorsés. Une méthode approchée de complexté lnéare en le nombre de varables Ben que sans garante, la méthode converge vers des poltques globales apparement de bonne qualté Autres méthodes de type Programmaton Lnéare Approchée (Forsell et Sabbadn, 2006)

Processus de contact contrôlé Evaluaton de la poltque approchée Améloraton de la poltque approchée Défnton (Processus de contact contrôlé) X = {S, I, R} : san, nfecté, retré A = {, } : soler, ne ren fare p (x t+1 = R x t = R) = 1 ; p (x t+1 p (x t+1 p (x t+1 p (x t+1 = S x t = S, a t = ) = 1 = R x t = I) = α ; p (x t+1 = I x t = I) = 1 α = S xn() t, at = ) = j N(),xj t=i(1 β j) = 1 x t N(), at = ) = 1 j N(),x t j =I(1 β j) r (x t, at ) = c I(x t) + c (a t ) : coûts d nfecton et d solaton Conjecture (Optmalté des poltques locales) Il exste une poltque locale globalement optmale

Processus de contact contrôlé Evaluaton de la poltque approchée Améloraton de la poltque approchée Remarques : Résoudre un processus de contact contrôlé est plus facle que résoudre un PDMG Un processus de contact contrôlé (PCC) admet (peut-être) une poltque optmale locale On peut montrer qu on ne peut pas résoudre exactement un PCC en temps polynomal Questons : est-l plus smple de trouver des bornes de qualté pour l algorthme de champ moyen applqué à un PCC? L algorthme de champ moyen se smplfe-t-l dans le cas d un PCC?