Introduction à la théorie des jeux A 1

Documents pareils

Modèles et simulations informatiques des problèmes de coopération entre agents

Introduction à la Théorie des Jeux p.1/77

Simulation centrée individus

Théorie des Jeux Et ses Applications

Economie de l Incertain et des Incitations

Jeux sous forme extensive (Jeux dynamiques)

CHAPITRE 5. Stratégies Mixtes

QUI VEUT JOUER AVEC MOI?

COURS 8 : INTRODUCTION A LA THEORIE DES JEUX

FONDEMENTS ÉPISTÉMIQUES DE CONCEPTS D ÉQUILIBRE EN THÉORIE DES JEUX

L'intelligence d'affaires: la statistique dans nos vies de consommateurs

Attitude des ménages face au risque. M1 - Arnold Chassagnon, Université de Tours, PSE - Automne 2014

Joueur B Pierre Feuille Ciseaux Pierre (0,0) (-1,1) (1,-1) Feuille (1,-1) (0,0) (-1,1) Ciseaux (-1,1) (1,-1) (0.0)

Nathalie Bulle (1998), Compte-rendu de Rainer Hegselmann, Ulrich Mueller, Klaus G. Troitzsch (eds.).- Modelling and simulation in the social sciences

Décision Markovienne appliquée à un jeu de stop ou encore : Pickomino (Heckmeck Am Bratwurmeck)

Coopération dans les réseaux ad hoc : Application de la théorie des jeux et de l évolution dans le cadre d observabilité imparfaite

Intelligence Artificielle et Robotique

Deuxième partie es jeux non-coopératifs avec information complète 3. É quilibre de Nash (1951) 4. D ynamique et rétroduction 5.

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

Marchés, réseaux et politique de la concurrence. Claude Crampes

La demande Du consommateur. Contrainte budgétaire Préférences Choix optimal

COORDINATION NON COOPÉRATIVE: MÉTHODES D ENCHÈRES

Les cinq premiers pas pour devenir vraiment agile à XP Day Suisse 2009 par Pascal Van Cauwenberghe et Portia Tung: La Rétrospective

Pi, poker et informatique ; une «épuisante» alliance pour des projets en mathématiques

Application Form/ Formulaire de demande

Probabilités sur un univers fini

Instructions Mozilla Thunderbird Page 1

FÉDÉRATION INTERNATIONALE DE NATATION Diving

Cette Leçon va remplir ces attentes spécifiques du curriculum :

DOCUMENTATION MODULE BLOCKCATEGORIESCUSTOM Module crée par Prestacrea - Version : 2.0

FONCTION DE DEMANDE : REVENU ET PRIX

APPENDIX 6 BONUS RING FORMAT

La coopération dans un contexte de recherches doctorales Cooperation amongst PhD researchers. Josée Charbonneau Anne- Marie Merrien 28 mai 2014

Principe de symétrisation pour la construction d un test adaptatif

Feuille 1 : représentation d interactions stratégiques, connaissance commune

APPENDIX 2. Provisions to be included in the contract between the Provider and the. Holder

LE PROBLEME DU PLUS COURT CHEMIN

Compléter le formulaire «Demande de participation» et l envoyer aux bureaux de SGC* à l adresse suivante :

Apprentissage par renforcement (1a/3)

Instructions pour mettre à jour un HFFv2 v1.x.yy v2.0.00

Archived Content. Contenu archivé

calls.paris-neuroscience.fr Tutoriel pour Candidatures en ligne *** Online Applications Tutorial

Canevas théoriques du projet sur le poker Partie A

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

BNP Paribas Personal Finance

L approche de régression par discontinuité. Thomas Lemieux, UBC Atelier de formation du Congrès de l ASDEQ Le 18 mai 2011

Once the installation is complete, you can delete the temporary Zip files..

L oligopole ESCP

French Continuers. Centre Number. Student Number. Total marks 80. Section I Pages 2 7

Projet SINF2275 «Data mining and decision making» Projet classification et credit scoring

Probabilités sur un univers fini

Feuille d exercices 2 : Espaces probabilisés

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

Résolution de systèmes linéaires par des méthodes directes

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Projet d informatique M1BI : Compression et décompression de texte. 1 Généralités sur la compression/décompression de texte

Algorithmes de recommandation, Cours Master 2, février 2011

DOCUMENTATION - FRANCAIS... 2

L apprentissage automatique

The new consumables catalogue from Medisoft is now updated. Please discover this full overview of all our consumables available to you.

Exclusion Mutuelle. Arnaud Labourel Courriel : arnaud.labourel@lif.univ-mrs.fr. Université de Provence. 9 février 2011

Contents Windows

Le passé composé. C'est le passé! Tout ça c'est du passé! That's the past! All that's in the past!

Raisonnement probabiliste

Collection «Poker Expert» Sous la direction de François Montmirel. Parution le 3 avril Poker Cash 2

LE GUIDE COMPLET PRETS A PARIER

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #4-5

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

GAME CONTENTS CONTENU DU JEU OBJECT OF THE GAME BUT DU JEU

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Module Title: French 4

I. Programmation I. 1 Ecrire un programme en Scilab traduisant l organigramme montré ci-après (on pourra utiliser les annexes):

Sujet proposé par Yves M. LEROY. Cet examen se compose d un exercice et de deux problèmes. Ces trois parties sont indépendantes.

En cas de partage avec des «side pots», chaque pot est traité séparément en commençant par les extérieurs.

Chess Arbiter Pro (version Dames) Notice d utilisation

Introduction au datamining

MODERN LANGUAGES DEPARTMENT

Item 169 : Évaluation thérapeutique et niveau de preuve

IDENTITÉ DE L ÉTUDIANT / APPLICANT INFORMATION

POLICY: FREE MILK PROGRAM CODE: CS-4

DOCUMENTATION - FRANCAIS... 2

ONTARIO Court File Number. Form 17E: Trial Management Conference Brief. Date of trial management conference. Name of party filing this brief

If you understand the roles nouns (and their accompanying baggage) play in a sentence...

IPSAS 32 «Service concession arrangements» (SCA) Marie-Pierre Cordier Baudouin Griton, IPSAS Board

Folio Case User s Guide

PARIS ROISSY CHARLES DE GAULLE

COUNCIL OF THE EUROPEAN UNION. Brussels, 18 September 2008 (19.09) (OR. fr) 13156/08 LIMITE PI 53

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

Lamia Oukid, Ounas Asfari, Fadila Bentayeb, Nadjia Benblidia, Omar Boussaid. 14 Juin 2013

Optimisation non linéaire Irène Charon, Olivier Hudry École nationale supérieure des télécommunications

Mon boss ne délègue pas

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Factorisation d entiers (première partie)

L Assurance. L Assurance

physicien diplômé EPFZ originaire de France présentée acceptée sur proposition Thèse no. 7178

Marie Curie Individual Fellowships. Jean Provost Marie Curie Postdoctoral Fellow, Institut Langevin, ESCPI, INSERM, France

AOC Insurance Broker Compare vos Assurances Santé Internationale Economisez jusqu à 40 % sur votre prime

Theme Sensorial marketing, from stores to Internet : retailers and sensorial marketing integration in multichannel distribution management.

Transcription:

Intelligence artificielle & intelligence collective Théorie des jeux Laboratoire d Informatique Fondamentale de Lille Année 2003-2004 Bruno Beaufils (beaufils@lifl.fr) Partie A Introduction à la théorie des jeux LIFL Historique Borel (1921), Von Neumann (1928) «Theory of Games and Economic Behaviour», Von Neumann et Morgenstern (1942) Exemples de jeux : Jeux de société (échecs, dames, go, etc), Jeux de cartes (bridge, poker, etc) Enchères Partages de ressource (marchandage) Fixation du prix d un bien dans un marché compétitif Est-ce que j écoute de la musique ce soir?... Introduction à la théorie des jeux A 1

Introduction Jeu : situation où des individus sont conduits à faire des choix parmi un certain nombre d actions possibles, et dans un cadre défini à l avance. Situation de conflit. Objectif : étude des comportements rationnels des individus en situation de conflit. Ses résultats peuvent avoir des implications dans des domaines importants : économie, biologie, science sociale, science politique, etc. Trois approches en théorie des jeux : Théorie des jeux classique. Théorie des jeux évolutionnaire. Théorie des jeux computationnelle. Introduction à la théorie des jeux A 2 Définition La théorie des jeux s intéresse aux problèmes posés par l interaction stratégique d agents rationnels poursuivant des buts qui leur sont propres. Étude d interactions Manipulation d agents rationnels (maximisant une fonction) 2 approches : 1 Descriptive 2 Normative Introduction à la théorie des jeux A 3 Approche descriptive Eric Rasmussen : «C est là exactement le paradigme de la théorie des jeux : celui qui construit le modèle attribue des fonctions de gain et des stratégies aux joueurs, puis observe ce qui se passe lorsqu ils choisissent des stratégies pour obtenir le gain maximum». Ken Binmore : «La théorie des jeux, telle qu elle est développée actuellement, est surtout la description de ce qui se passe lorsque des personnes interagissent rationnellement». David Kreps : «l objet de la théorie des jeux est d aider les économistes à comprendre et à prédire ce qui se produit dans différentes situations économiques». Introduction à la théorie des jeux A 4

Eric Van Damme : Approche normative «Game Theory is a normative theory : it aims to prescribe what each player in a game should do in order to promote his interests optimally». Robert Sugden : «My approach, like that of classical game theory, will be normative : I shall try to show why and how it might be rational for players to make use of the information provided by labels». Luce et Raiffa : «Il est essentiel, pour nous, que le chercheur en sciences humaines sache que la théorie des jeux n est pas descriptive, mais plutôt (conditionnellement) normative. Elle n établit ni comment les gens se comportent, ni comment ils devraient le faire pour atteindre certains buts. Elle prescrit, avec des hypothèses données, des types d action qui conduisent à des issues ayant un certain nombre de propriétés qui relèvent de l optimalité». Introduction à la théorie des jeux A 5 Définition à retenir Encyclopedia Britannica : «A solution to a game prescribes the decision the players should make and describes the game s appropriate outcome. Game theory serves as a guide for players and as a tool for predicting the outcome of a game». Bernard Guerien : «Selon l acceptation courante, un jeu est une situation où des individus (les joueurs) sont conduits à faire des choix parmi un certain nombre d actions possibles, et dans un cadre défini à l avance (les règles du jeu), le résultat de ces choix constituant une issue du jeu, à laquelle est associé un gain, positif ou négatif, pour chacun des participants.» Introduction à la théorie des jeux A 6 Utilité (1) Une hypothèse de base de la théorie des jeux est de considérer que les agents sont rationnels, c est-à-dire qu ils tentent d arriver à la situation la meilleure pour eux. On appelle utilité la mesure de chaque situation aux yeux de l agent. L utilité n est pas une mesure du gain matériel, monétaire, etc. mais une mesure subjective du contentement de l agent. La fonction d utilité lie un ordre de préférences à des valeurs numériques. Les valeurs utilisées par la fonction n ont pas d importance, seul l ordre des préférences en a. Introduction à la théorie des jeux A 7

Ciseaux Utilité (2) Supposons qu un agent x préfère une situation a à une situation b et une situation b à une situation c. Une fonction d utilité valide peut être : a 3 b 2 c 1 Une autre fonction équivalente au sens de la théorie des jeux : a 10 354 b 0 c 10 On ne mesure pas une quantité mais un ordre. Introduction à la théorie des jeux A 8 Représentation d un jeu Il existe 2 formes de jeu : 1 Forme extensive Utilisation d un arbre 2 Forme stratégique (forme normale) Utilisation d une matrice A chaque jeu sous forme extensive correspond un jeu sous forme stratégique dans lequel les joueurs choisissent simultanément les stratégies qu ils mettront en oeuvre. En revanche, un jeu sous forme stratégique peut correspondre à plusieurs jeux sous forme extensive différents. Introduction à la théorie des jeux A 9 Forme extensive (1) J 1 Pierre Ciseaux Papier J 2 J 2 J 2 Pierre Papier Pierre Ciseaux Papier Pierre Ciseaux Papier (0,0) (1,-1) (-1,1) (-1,1) (0,0) (1,-1) (1,-1) (-1,1) (0,0) Introduction à la théorie des jeux A 10

Ciseaux Forme extensive (1) J 1 Pierre Ciseaux Papier J 2 J 2 J 2 Pierre Papier Pierre Ciseaux Papier Pierre Ciseaux Papier (0,0) (1,-1) (-1,1) (-1,1) (0,0) (1,-1) (1,-1) (-1,1) (0,0) Introduction à la théorie des jeux A 11 Forme stratégique (1) J 2 Pierre Ciseaux Papier Pierre (0,0) (1,-1) (-1,1) J 1 Ciseaux (-1,1) (0,0) (1,-1) Papier (1,-1) (-1,1) (0,0) Introduction à la théorie des jeux A 12 Forme extensive (2) Introduction à la théorie des jeux A 13

Forme stratégique (2) M cède ne cède pas N V entre (4, 4) ( 3, 2) n entre pas (0, 10) (0, 10) Introduction à la théorie des jeux A 14 Stratégie Dans une forme extensive, une stratégie est la spécification complète du comportement d un joueur dans n importe quelle situation Dans une forme stratégique, une stratégie correspond au choix d une ligne ou d une colonne Une stratégie correspond à un comportement Introduction à la théorie des jeux A 15 Récurrence à rebours Introduction à la théorie des jeux A 16

Élimination des stratégies dominées Joueur 2 Joueur 1 u v x 4,2 3,1 y 2,5 9,0 Introduction à la théorie des jeux A 17 Élimination des stratégies dominées Joueur 2 Joueur 1 u v x 4,2 3,1 y 2,5 9,0 Introduction à la théorie des jeux A 18 Élimination des stratégies dominées Joueur 2 Joueur 1 u v x 4,2 3,1 y 2,5 9,0 Introduction à la théorie des jeux A 19

Équilibre de Nash Joueur j G A Joueur i G (3,3) (0,5) A (5,0) (1,1) Introduction à la théorie des jeux A 20 Équilibre de Nash Joueur j G A Joueur i G (3,3) (0,5) A (5,0) (1,1) Introduction à la théorie des jeux A 21 Équilibre de Nash Joueur j G A Joueur i G (3,3) (0,5) A (5,0) (1,1) Introduction à la théorie des jeux A 22

Équilibre de Nash Joueur j G A Joueur i G (3,3) (0,5) A (5,0) (1,1) Introduction à la théorie des jeux A 23 Équilibre de Nash Joueur j G A Joueur i G (3,3) (0,5) A (5,0) (1,1) Introduction à la théorie des jeux A 24 Équilibre de Nash Joueur j G A Joueur i G (3,3) (0,5) A (5,0) (1,1) L équilibre de Nash est (A, A). Introduction à la théorie des jeux A 25

Stratégies pures/stratégies mixtes Les stratégies que nous avons définies et utilisées pour le moment sont des stratégies pures, c est-à-dire les options qui se présentent aux joueurs. Une stratégie mixte σ i est une distribution de probabilité sur l ensemble des stratégies pures. L ensemble des stratégies pures utilisées (i.e. dont la probabilité n est pas nulle) par une stratégie mixte σ i est appelé le support de la stratégie mixte. Théorème de Nash : Tout jeu sous forme stratégique a un équilibre de Nash en stratégies mixtes. Introduction à la théorie des jeux A 26 Une petite taxonomie Jeux à somme nulle (strictement compétitifs) / Jeux à somme non-nulle Jeux à information complète / Jeux à information incomplète Jeux à information parfaite / Jeux à information imparfaite Jeux coopératifs / Jeux non-coopératifs Jeux à 2 joueurs / Jeux à n joueurs Introduction à la théorie des jeux A 27 Pol. main droite main gauche Pri. main droite (1, 1) ( 1, 1) main gauche ( 1, 1) (1, 1) Introduction à la théorie des jeux A 28

Partie B Le dilemme itéré du prisonnier LIFL Historique Modèle de la théorie des jeux introduit à la RAND Corp par Flood et Dresher (1952) L objectif est de prendre en défaut la théorie des jeux Énoncé sous l histoire des prisonniers par Tucker Popularisé au début des années 80 par Axelrod Très souvent utilisé (200 publications entre 1988 et 1994) notamment en économie, psychologie et en biologie théorique Étudié surtout dans des espaces continus et non déterministes Le modèle simple, souvent considéré comme trop théorique, a souvent été délaissé pour des modèles plus proches de la réalité. Le dilemme itéré du prisonnier B 1 L histoire Deux personnes arrêtées ensemble en possession d armes à feu sont soupçonnés d un délit fait en commun. Les policiers les séparent et disent à chacun : Si un des deux avoue et que l autre n avoue rien, le premier est libéré, et le second emprisonné (5 ans) ; Si les deux avouent, les deux iront en prison (3 ans) ; Si aucun des deux n avoue, les deux seront seront libérés assez vite (1 an). Vous êtes un des deux prisonniers, que faites-vous? Le dilemme itéré du prisonnier B 2

Un autre cas Vous n avez pas vraiment les mêmes goûts que votre voisin en matière de musique. Il lui arrive souvent d écouter de la techno à fond. De même il vous arrive (en représailles) de mettre votre musique à un volume plus que raisonnable. Ce qui a pour conséquences que le lendemain il recommence à nouveau. En dehors de ces périodes agitées, vous appréciez les périodes où aucun de vous ne gêne l autre. Supposons que l on pondère votre satisfaction : Vous avez une satisfaction de 5 à écouter votre musique à un volume important. La satisfaction est de 0 lorsque votre voisin met sa musique à fond. Une soirée calme, sans musique vous apporte une satisfaction de 3. Le fait d écouter simultanément votre musique mêlée à celle du voisin, donne une satisfaction de 1. Vous savez ce que votre voisin à eu comme comportement les jours précédents, que faites-vous aujourd hui? Le dilemme itéré du prisonnier B 3 Dilemme du prisonnier... Au sens de la théorie des jeux c est un jeu : simultané symétrique à deux joueurs à somme non nulle non coopératif chaque joueur doit choisir une parmi deux cartes : la Coopération (C) la Trahison (D) Il y a dilemme car l intérêt individuel ( la rationalité au sens économique) (D,D) rapporte moins que l intérêt collectif (C,C) L équilibre de Nash c est (D,D) Le dilemme itéré du prisonnier B 4 Matrice de gain La matrice est symétrique, on ne montre donc que le score du joueur ligne. Cooperate Defect Cooperate R = 3 Reward récompense pour coopération mutuelle T = 5 T emptation Tentation à trahir S < P < R < T Defect S = 0 Sucker s payoff salaire de la dupe P = 1 Punishment punition pour la trahison mutuelle Le dilemme itéré du prisonnier B 5

...itéré les joueurs se recontrent un certain nombre de fois les joueurs ne connaissent pas le terme du jeu le gain d un joueur est le cumul de ses gains dans chaque rencontre Pour favoriser la coopération on rajoute la contrainte : S + T < 2R (1) Le dilemme itéré du prisonnier B 6 Quelques situations modélisées Deux pays doivent-ils lever des taxes douanières sur les produits importés de l autre pays. Deux entreprises concurrentes doivent-elles essayer de s entendre pour se partagé un marché ou se faire concurrence? Deux espèces vivant sur un même territoire doivent-elles cohabiter ou se disputer la nourriture disponible? Le dilemme itéré du prisonnier B 7 Stratégies À chaque étape un joueur sait ce que son adversaire a joué dans les coups précédents Il est alors possible de définir un comportement prédéfini pour le jeu : une stratégie Quelques exemples de stratégies : all c all d per ccd soft majo tit for tat spiteful ipd random gradual Identification d un agent (un joueur) à sa stratégie (son comportement) Le dilemme itéré du prisonnier B 8

Stratégies (exemple) 1 2 3 4 5 6 7 8 9 10 3 3 0 3 3 0 3 3 0 3 = 21 all c C C C C C C C C C C per ccd C C D C C D C C D C 3 3 5 3 3 5 3 3 5 3 = 36 0 1 1 1 1 1 1 1 1 1 = 9 tit for tat C D D D D D D D D D all d D D D D D D D D D D 5 1 1 1 1 1 1 1 1 1 = 14 Le dilemme itéré du prisonnier B 9 Quelle est la meilleure stratégie? Celle qui bat toutes les autres? all d Celle qui fasse le meilleur score possible face à toutes les autres? aucune, car faire le score maximal contre all d et contre spiteful est impossible Problème de la définition d un critère d évaluation de stratégies Sur des confrontations de 100 parties, le gain maximal est de 500 points et le gain minimal est de 0 point C est ce qu obtiennent all d et all c l une contre l autre. 2 gentilles entre elles obtiennent chacune 300 points Mais... 2 méchantes entre elles obtiennent chacune 100 points Chaque stratégie est bonne (au sens du meilleur score) face à certaines et mauvaises face à d autres car elle ne sait pas à qui elle a affaire. Le dilemme itéré du prisonnier B 10 Évaluations de stratégies Il existe deux grands types de méthodes d évaluation : 1. Le tournoi Des stratégies se rencontrent deux à deux comme dans un championnat de football Le score d une stratégie est la somme des scores de tous ses matchs matchs de même longueur inconnue des joueurs chaque stratégie est classée en fonction de son score : V (i j) 2. Les évolutions écologiques Population polymorphe d individus : chaque stratégie est représenté par N individus dans une population A tournoi (round-robin) entre tous les individus est fait Les stratégies faibles sont désavantagées alors que les bonnes sont favorisées par une redistribution proportionnelle des stratégies sur les individus Le facteur d adaptation d un individu est la somme des scores obtenus face à tous les autres individus Ce cycle est répété jusqu à une stabilisation de la population Pas de mutation, ça n est pas un algorithme génétique Le dilemme itéré du prisonnier B 11

Exemples (tournoi) all c all d per ccd tit for tat all c 30 0 21 30 81 all d 50 10 38 14 112 per ccd 36 3 24 27 90 tit for tat 30 9 27 30 96 1 all d 2 tit for tat Classement 3 per ccd 4 all c Le dilemme itéré du prisonnier B 12 Exemples (évolution) 1 2 3 4... all c 100 85 71 58... all d 100 118 137 155... per ccd 100 94 187 79... tit for tat 100 101 103 106... 400 350 Ecological evolution tit_for_tat all_c per_ccd all_d 300 Population size 250 200 150 100 50 0 0 5 10 15 20 25 30 35 Generations Le dilemme itéré du prisonnier B 13 Résultats classiques Résultats mis en avant par Axelrod Possibilité d apparition d un ordre sans autorité extérieure Critères de qualité pour une stratégie (en évolution) : bienveillance réactivité indulgence simplicité (clarté du comportement) Le dilemme itéré du prisonnier B 14

tit for tat Au premier coup je coopère (C), ensuite si mon adversaire a coopéré (C) au coup précédent, je coopère (C), s il a trahi (D), je trahis (D). tit for tat ne gagne jamais contre personne! Au mieux elle fait le même score. Mais, au pire elle ne perd que 5 points quel que soit l adversaire et la longueur de la partie! Le dilemme itéré du prisonnier B 15 gradual First opponent s defection : D D C C Second opponent s defection : D D D C C Third opponent s defection : D D D D C C. gradual cooperates on the first move, then after the first opponent s defection defects once, and cooperates twice, after the second opponent s defection defects twice and cooperates twice,..., after the n th opponent s defection defects n times and cooperates twice. Le dilemme itéré du prisonnier B 16 bad bet Cooperates until an opponent s defection. As soon as its opponent has betrayed plays as follow : 1. During 4 moves it plays as tit for tat 2. then it plays as all c during 4 moves 3. then it plays as spiteful during 4 moves 4. finally it plays as per ccd during 4 moves 5. it then compares relative payoff limited to training period for each of those 4 strategies and chooses to play the most interesting one (the one which has given the highest payoff) during next 4 moves. 6. it updates choosen strategy s relative payoff 7. it then goes back to 5 Le dilemme itéré du prisonnier B 17

Deux gros problèmes : Quelques apports de l approche computationnelle Comment automatiser la recherche d une stratégie Comment évaluer le plus objectivement possible une stratégie Les solutions Simulations automatisables et reproductibles Comportement codable de manière infini Pour l évaluation d une stratégie absolue : le rang dans une simulation avec une large population de stratégie relative : comparaison des rangs de 2 stratégies dans une simulation avec une large population de stratégies Le dilemme itéré du prisonnier B 18 Définir une classe de stratégies Pour automatiser la recherche il faut déterminer une méthode descriptive de définir un ensemble de stratégies Pour définir un ensemble de stratégies on peut par exemple : définir une structure capable d être décodée en un comportement à adopter face à un adversaire utiliser toutes les manières possibles de remplir cette structure comme autant de stratégies approche génétique de définir des individus Méthodes exhaustives risquent : de ne pas être objective jamais complètes inutilisable en retour (incompréhension des traits de la stratégie) Le dilemme itéré du prisonnier B 19 Considérons, par exemple, toutes les stratégies qui ne peuvent voir que leur dernier coup et le dernier coup de leur adversaire. Une de ces stratégies peut être définie par : au premier coup je joue C puis si j ai joué C et qu il a joué C alors je joue C si j ai joué C et qu il a joué D alors je joue D si j ai joué D et qu il a joué C alors je joue D si j ai joué D et qu il a joué D alors je joue D Le génotype de cette stratégie peut être noté comme C C D D D Avec ce génotype 2 5 = 32 stratégies (incluant les classiques) sont définies. Le dilemme itéré du prisonnier B 20

Les classes Memory les classes memory : Chaque stratégie voit seulement M coups de son passé, et O coups du passé de son adversaire Une stratégie commence par jouer max(m, O) coups prédéfinis La réponse à utiliser contre l adversaire dépend uniquement de l historique visible du jeu 2 max(m,o)+2(m+o) stratégies décrites les classes binary memory : Mêmes idées que pour les classes memory avec ajout d un indicateur de telle manière que la réponse à l adversaire dépende : 1. du nombre de trahisons de l adversaire 2. de l historique visible du jeu 2 max(m,o)+2(m+o+1) stratégies décrites Le dilemme itéré du prisonnier B 21 Un exemple d évolution de classes complète Number of individuals 2500 2000 1500 1000 str11_c_cddd str11_c_cdcd str11_c_cddc str11_c_cdcc str11_c_ddcd str11_c_dddd str11_d_ccdd str11_d_cddd str11_d_dcdd str11_d_ddcd str11_d_dddd str11_d_cdcd str11_d_dddc str11_c_dddc str11_d_cddc str11_c_ddcc str11_d_cdcc str11_d_ddcc str11_d_dcdc str11_c_dcdd 500 0 0 5 10 15 20 Generations Le dilemme itéré du prisonnier B 22 Quelques résultats Nous avons évalués quelques stratégies en les ajoutant dans les évolutions de classes complètes. L évaluation de la stratégie étant son rang à la fin de l évolution. Voici quelques résultats : memory M O taille de évaluation classe bad bet gradual tit for tat spiteful 0 1 8 1 1 1 1 0 2 64 1 5 2 21 1 1 32 1 2 3 1 1 2 1024 1 6 13 37 Chaque évaluation nécessite de remplir une matrice class size class size Ces expériences nous ont permis de découvrir de nouvelles bonnes stratégies, comme la gagnante de la classe memory (M = 1, O = 2). Le dilemme itéré du prisonnier B 23

Partie C Présentation du Projet LIFL