Décision Markovienne appliquée à un jeu de stop ou encore : Pickomino (Heckmeck Am Bratwurmeck) Stéphane Cardon Nathalie Chetcuti-Sperandio Fabien Delorme Sylvain agrue CRI - Université d Artois {cardon,chetcuti,delorme,lagrue}@cril.univ-artois.fr FA - 5 nov. 2009 - Annecy
es jeux en IA es différents types de jeux jeux déterministes / indéterministes jeux à information complète / incomplète Quelques exemples échecs, dames anglaises, go les jeux de cartes (belote, bridge, poker) les jeux de dés (yams, pickomino)
es jeux en IA es différents types de jeux jeux déterministes / indéterministes jeux à information complète / incomplète Quelques exemples échecs, dames anglaises, go les jeux de cartes (belote, bridge, poker) les jeux de dés (yams, pickomino) Pourquoi Pickomino? jeu indéterministe à information complète règles très simples mécanisme de prise de risque de type «stop ou encore» décision dans l incertain
Plan 1 Introduction 2 Règles du jeu 3 Processus Décisionnel de Markov Description des états Description des actions Description des probabilités Description des récompenses 4 Expérimentations 5 Conclusion et travaux en cours
Plan 1 Introduction 2 Règles du jeu 3 Processus Décisionnel de Markov Description des états Description des actions Description des probabilités Description des récompenses 4 Expérimentations 5 Conclusion et travaux en cours
Pickomino Pickomino en bref Jeu allemand (Heckmeck am Bratwurmeck) - 2005 Reiner Knizia (Zoch - Gigamic) de 2 à 8 joueurs à partir de 8 ans mécanismes du jeu : lancers de dés et stop ou encore
e matériel (1) 8 dés, numérotés de 1 à 5 + 1 face «ver» les vers valent 5
e matériel (2) 16 dominos (les pickominos) numérotés de 21 à 36 de 1 à 4 vers
Exemple d un tour de jeu Premier jet, le joueur obtient : e joueur décide de garder les dés de valeur.
Exemple d un tour de jeu Premier jet, le joueur obtient : e joueur décide de garder les dés de valeur. Deuxième jet, le joueur lance les 5 dés restants et obtient : (dés gardés : ) e joueur ne peut pas choisir les dés de valeur les 2 dés de valeur., il décide de garder
Exemple d un tour de jeu Premier jet, le joueur obtient : e joueur décide de garder les dés de valeur. Deuxième jet, le joueur lance les 5 dés restants et obtient : (dés gardés : ) e joueur ne peut pas choisir les dés de valeur les 2 dés de valeur. Troisième jet :, il décide de garder (dés gardés : ) e joueur est obligé de prendre le.
Exemple d un tour de jeu Premier jet, le joueur obtient : e joueur décide de garder les dés de valeur. Deuxième jet, le joueur lance les 5 dés restants et obtient : (dés gardés : ) e joueur ne peut pas choisir les dés de valeur les 2 dés de valeur. Troisième jet :, il décide de garder (dés gardés : ) e joueur est obligé de prendre le. Score : 4+4+4+3+3+5 = 23 STOP ou ENCORE?
STOP : Picorer un pickomino Peut picorer : a somme des valeurs des dés conservés doit être supérieure ou égale à la valeur du pickomino Au moins un dé avec la valeur «ver» a été conservé e pickomino picoré est placé en sommet de la pile du joueur Picorer le pickomino en sommet de pile d un adversaire : a somme doit obligatoirement être égale à la valeur du pickomino
ENCORE : Perdre son tour toutes les valeurs des dés lancés ont déjà été prises ou plus de dé à lancer et aucun ver gardé ou score insuffisant le pickomino en sommet de pile du joueur est remis dans la brochette le plus gros pickomino de la brochette est retourné on passe au joueur suivant sans prendre de pickomino
Remporter la victoire e joueur dont la pile contient le plus de vers est déclaré vainqueur En cas d égalité, les joueurs sont départagés par le pickomino de plus grande valeur possédé
Plan 1 Introduction 2 Règles du jeu 3 Processus Décisionnel de Markov Description des états Description des actions Description des probabilités Description des récompenses 4 Expérimentations 5 Conclusion et travaux en cours
Pourquoi? Modéliser la prise de décisions dans un tour de jeu : Faut-il continuer? Si oui, quelle valeur conserver? Faut-il s arrêter et picorer? Si oui, quel pickomino? es valeurs conservées jusqu à présent n influent pas sur le résultat du lancer des dés restants
Description des états Espace de recherche Un état est représenté par le résultat d un lancer de dés Conserver une valeur réduit au minimum d un le nombre de dés lancés Nombre d états : 8 i=1 i j=1 6j soit 2 418 636 Temps de décision inacceptable
Description des états Structure l espace de recherche Intuitivement, deux successions de choix peuvent amener au même résultat : 21 21 21 21
Description des états Définition d un état σ : somme des dés conservés N : nombre de dés conservés V C : ensemble des valeurs conservées Un éventuel pickomino picoré Taille de l espace de recherche engendré : environ 1 636 états
Description des actions Définition des actions STOP : a p : picorer le pickomino p ENCORE : a v : sélectionner la valeur v a : perdre son tour Nombre de transitions engendrées : environ 7 332
Description des actions Pré-ordre sur le graphe Structurer le graphe selon le cardinal de l ensemble des valeurs conservées
Introduction Règles du jeu Processus Décisionnel de Markov Expérimentations Conclusion et travaux en cours Description des actions Perdre son tour et cas particulier S. Cardon, N. Chetcuti-Sperandio, F. Delorme et S. agrue FA - 5 nov. 2009 - Annecy
Description des probabilités Calcul des probabilités Picorer est une action déterministe qui amène à un état final Probabilité de perdre ou conserver n valeurs v identiques : Dépend de l ordre dans lequel les résultats des dés sont considérés : le premier résultat est v, les suivants doivent avoir n 1 fois v le premier n est pas v, les suivants doivent avoir n fois v Une partie des valeurs sont conservées : y = V C Binôme de Newton sur dés lancés 6 = (y + (6 y)) = i=0 C i y i (6 y) i
Description des probabilités Partition induite e binôme de Newton induit une partition sur le nombre de valeurs obtenues n appartenant pas à V C Probabilité d obtenir X valeurs / V C dans un lancer de dés : M X = CX y X (6 y) X 6
Description des probabilités Conserver n fois la valeur v / V C parmi dés Nouvelle application du binôme de Newton n 0 valeur / V C 1 valeur / V C 2 valeurs / V C... valeurs / V C 0 1 C 0 1 y 1 y
Description des probabilités Conserver n fois la valeur v / V C parmi dés Nouvelle application du binôme de Newton n 0 valeur / V C 1 valeur / V C 2 valeurs / V C... valeurs / V C 0 1 C1 0 y 1 C 0 (y 1) 2 y 2... C 0 (y 1) y 2 y
Description des probabilités Conserver n fois la valeur v / V C parmi dés Nouvelle application du binôme de Newton n 0 valeur / V C 1 valeur / V C 2 valeurs / V C... valeurs / V C 0 1 C 0 1 y 1 y C 0 2 1 0 C 1 1 1 y C 1 2 (y 1) 2... C 0 (y 1) y 2 y y 1... C 1 (y 1) 1 y 2 y
Description des probabilités Conserver n fois la valeur v / V C parmi dés Nouvelle application du binôme de Newton n 0 valeur / V C 1 valeur / V C 2 valeurs / V C... valeurs / V C 0 1 C1 0 y 1 C 0 (y 1) 2 y 2... C 0 (y 1) y 2 y 1 0 C1 1 1 C 1 y 1 y 2... C 1 (y 1) 1 y 2 y 2 0 0 C2 2 1... C 2 (y 1) 2 y 2 y... 0......... 0 0 C 1 y
Description des probabilités Conserver n fois la valeur v / V C parmi dés Nouvelle application du binôme de Newton n 0 valeur / V C 1 valeur / V C 2 valeurs / V C... valeurs / V C 0 1 C1 0 y 1 C 0 (y 1) 2 y 2... C 0 (y 1) y 2 y 1 0 C1 1 1 C 1 y 1 y 2... C 1 (y 1) 1 y 2 y 2 0 0 C2 2 1... C 2 (y 1) 2 y 2 y... 0......... 0 0 C 1 y = 1 = 1 = 1... = 1
Description des probabilités Conserver n fois la valeur v parmi dés : P n,v, Soit v V C avec une probabilité de y 6, soit v / V C : 6 y 6 Fusion des probabilités d être dans une partie de l espace partitionné avec les probabilités d obtenir n valeurs identiques sachant que v V C ou v / V C : P n,v, = y 6 { MX X=0 C X n X 0 X < n (y 1) X n y X
Description des probabilités Conserver n fois la valeur v parmi dés : P n,v, Soit v V C avec une probabilité de y 6, soit v / V C : 6 y 6 Fusion des probabilités d être dans une partie de l espace partitionné avec les probabilités d obtenir n valeurs identiques sachant que v V C ou v / V C : P n,v, = y 6 + 6 y 6 { MX X=0 MX X=0 C X n X { 0 X < n (y 1) X n y X C X n X P n,v, = 1 n=0 0 X < n (5 y) X n (6 y) X
Description des probabilités Intuition de la preuve P n,v, = n=0 { y MX n=0 6 X=0 C X n X 0 X < n (y 1) X n +... y X
Description des probabilités Intuition de la preuve P n,v, = n=0 = y 6 { y MX n=0 6 X=0 X=0 X MX n=0 C X n X C X n X 0 X < n (y 1) X n +... y X (y 1) X n +... y X } {{ } =1
Description des probabilités Intuition de la preuve P n,v, = n=0 = y 6 = y 6 { y MX n=0 6 X=0 X=0 X MX n=0 MX X=0 } {{ } =1 C X n X C X n X 0 X < n (y 1) X n +... y X (y 1) X n +... y X } {{ } =1 +...
Description des probabilités Intuition de la preuve P n,v, = n=0 = y 6 = y 6 { y MX n=0 6 X=0 X=0 X MX n=0 MX X=0 } {{ } =1 = y 6 + n=0 = y 6 + 6 y 6 C X n X C X n X 0 X < n (y 1) X n +... y X (y 1) X n +... y X } {{ } =1 +... 6 y 6 = 1 { MX X=0 C X n X 0 X < n (5 y) X n (6 y) X
Description des probabilités Probabilité de perdre son tour Probabilité d obtenir aucune valeur identique / V C Pr(a ) = M 0 = y 6
Description des récompenses Deux fonctions récompense Binaire (BinaryMarkov) : a récompense pour picorer un pickomino est de 1 a récompense en cas de perte est de 0 En fonction des vers (NbWormsMarkov) : Picorer un pickomino de nombre de vers x chez un adversaire rapporte 2x Picorer un pickomino de nombre de vers x dans la brochette rapporte x Perdre son tour alors que sa pile n est pas vide coûte x où x désigne le nombre de vers du pickomino en sommet de pile Perdre son tour sans conséquence ne rapporte rien
Plan 1 Introduction 2 Règles du jeu 3 Processus Décisionnel de Markov Description des états Description des actions Description des probabilités Description des récompenses 4 Expérimentations 5 Conclusion et travaux en cours
Expérimentations Utilisation de l algorithme d itération de valeurs avec somme et une variante en ne considérant que l état ayant la meilleure valeur Comparaison avec les techniques décrites dans [1] N. Chetcuti-Sperandio, F. Delorme, S. agrue, and D. Stackowiack. Determination and evaluation of efficient strategies for a stop or roll dice game : Heckmeck am bratwurmeck (pickomino). In IEEE Symposium on Computational Intelligence and Games (CIG 2008), pages 175 182, 2008.
Plan 1 Introduction 2 Règles du jeu 3 Processus Décisionnel de Markov Description des états Description des actions Description des probabilités Description des récompenses 4 Expérimentations 5 Conclusion et travaux en cours
Conclusion et travaux en cours Conclusion Après plus de 7 millions de matchs, NbWormsMarkov s est avéré être un adversaire redoutable... Adapter une décision Markovienne sur plusieurs coups Utiliser le graphe du PDM pour calculer la probabilité de picorer un pickomino et adapter un algorithme Min-Max pondéré...
Bientôt en ligne... Pickomania http://www.cril.univ-artois.fr/~lagrue/pickomino/
Fête de la science le jeudi 19 novembre 2009 à partir de 14h00 faculté des sciences Jean Perrin - ens http://www.cril.univ-artois.fr/~lagrue/pickomino/