Corrigé détaillé du dossier 4 Exercice 1. Dilemme du prisonnier Le dilemme du prisonnier est une représentation, sous forme de jeu non coopératif, de l histoire suivante : deux individus, soupçonnés d être les auteurs d un crime, sont interrogés séparément. Au cours de leurs interrogatoires, leurs sont présentées les stratégies offertes à chacun et les peines associées à chaque issue possible. Ces peines sont telles que chacun a toujours intérêt à dénoncer l autre. Ainsi, à l issue des interrogatoires, les deux prisonniers se dénoncent mutuellement alors qu il serait évidemment préférable pour eux qu ils se taisent. 1) Décrire la structure du jeu : nombre de joueurs, nombre de stratégies, nombre d issues, information dont disposent les joueurs. nombre de joueurs : 2 (Appelons-les joueur 1 et joueur 2) nombre de stratégies : 2 - dénoncer (D) ou se taire (T) nombre d issues possibles : 4 En effet, les deux joueurs choisissent simultanément une stratégie. Il y a autant d issues qu il y a de couples de stratégies possibles des deux joueurs: - les deux joueurs se dénoncent mutuellement (D,D) - le joueur 1 dénonce le joueur 2 mais le joueur 2 se tait (D, T) - le joueur 2 dénonce le joueur 1 mais le joueur 1 se tait (T,D) - les deux joueurs se taisent (T,T) information dont disposent les joueurs : chaque joueur connaît la structure du jeu elle-même (c est-à-dire : le nombre de joueurs, les stratégies possibles de chaque joueur, ainsi que les gains de chacun de joueurs dans chacune des issues), mais il n observe pas ce que décide l autre joueur avant de jouer, puisqu ils décident simultanément de la stratégie à adopter. Pour analyser ce jeu, on fait aussi une hypothèse sur le comportement des joueurs : on suppose qu ils sont rationnels, au sens où ils choisissent toujours la stratégie qui leur permet de maximiser leur gain 1. 1 Dans les autres exercices où l on étudie des situations où il n existe pas d équilibre en stratégies dominantes, on aura besoin de supposer 1) que chaque joueur connaît le jeu, mais aussi 2) que chaque joueur sait que chaque joueur connaît le jeu, 3) que chaque joueur sait 1
2) Définir une stratégie strictement dominante, une stratégie strictement dominée. Quelles incitations, dans l histoire des prisonniers, permettent d obtenir la dénonciation comme stratégie strictement dominante? Appelons u 1 (D, D) le gain que fait le joueur 1 s il dénonce et que le joueur 2 dénonce, u 1 (D, T ) le gain que fait le joueur 1 s il dénonce et que le joueur 2 se tait. Appelons en outre u 1 (T, T ) le gain pour le joueur 1 si tout le monde se tait, u 1 (T, D) le gain si le joueur 1 se tait et l autre dénonce. Pour que dénoncer soit une stratégie strictement dominante pour le joueur 1, il faut que le joueur 1 ait toujours intérêt à dénoncer. Il faut que le joueur 1 ait intérêt à dénoncer lorsque le joueur 2 dénonce, et ait intérêt à dénoncer lorsque le joueur 2 se tait. Autrement dit, D est une stratégie dominante si u 1 (D, D) > u 1 (T, D) et u 1 (D, T ) > u 1 (T, T ) Pour donner un exemple justifiant cette hiérarchie de gains, on peut supposer que le juge offre une très forte remise de peine si l un des joueurs dénonce l autre, mais que l autre se tait. Ainsi, pour le joueur 1, u 1 (D, T ) > u 1 (T, T ), car il vaut mieux dénoncer et obtenir la remise de peine si l autre se tait. On peut supposer aussi qu il est pire d être dénoncé par l autre alors qu on se tait - car dans ce cas tout accuse le joueur qui se tait - que de se dénoncer mutuellement. De ce fait, u 1 (D, D) > u 1 (T, D). Comme le jeu est parfaitement symétrique, on peut tirer des conclusions analogues pour le joueur 2. Enfin, si dénoncer est une stratégie strictement dominante, alors se taire est forcément une stratégie strictement dominée (par cette stratégie dominante). Cela signifie que se taire n est jamais dans l intérêt d un joueur, parce qu on gagne moins à se taire qu à dénoncer à la fois lorsque l autre joueur dénonce et lorsqu il se tait. 3) Représenter une matrice des gains qui illustre le dilemme du prisonnier Pour représenter ce type d interactions par une matrice, on figure chaque stratégie du joueur 1 par une ligne, et chaque stratégie du joueur 2 par une colonne. Le joueur 1 choisissant une certaine ligne, et le joueur 2 choisissant une certaine colonne, l issue correspondant à ce double choix est représentée par la case à l intersection de cette ligne et de cette colonne. Dans cette case, on écrit le gain de chaque joueur associé à cette issue. Par convention, on écrit dans chaque case à gauche le gain du joueur 1 (qui choisit les lignes), et à droite le gain du joueur 2. On obtient alors ceci : D T D u 1 (D, D), u 2 (D, D) u 1 (D, T ), u 2 (D, T ) T u 1 (T, D), u 2 (T, D) u 1 (T, T ), u 2 (T, T ) que chaque joueur sait que chaque joueur connaît le jeu, et ainsi de suite à l infini. De plus, on suppose que 1) chaque joueur est rationnel, mais aussi 2) que chaque joueur sait que chaque joueur est rationnel, et ainsi de suite à l infini. On résume ces deux ensembles d hypothèses en disant que la structure du jeu et la rationalité des joueurs est connaissance commune (common knowledge en anglais). 2
La lecture est la suivante : si le joueur 1 (choisissant les lignes) choisit D, et le joueur 2 (choisissant les colonnes) choisit T, alors le joueur 1 obtient u 1 (D, T ) et le joueur 2 u 2 (D, T ). Pour représenter la structure du dilemme d un dilemme du prisonnier comme on l a décrite précédemment, on doit avoir les inégalités suivantes : u 1 (D, T ) > u 1 (T, T ) et u 1 (D, D) > u 1 (T, D), qui reflètent le fait que D est une stratégie strictement dominante pour le joueur 1. Pour le joueur 2, on doit avoir u 2 (D, D) > u 2 (D, T ) et u 2 (T, D) > u 2 (T, T ), pour que D soit une stratégie dominante par le joueur 2. On doit aussi avoir u 1 (T, T ) > u 1 (D, D) et u 2 (T, T ) > u 2 (D, D) d après l énoncé, puisque cet énoncé nous dit qu il est préférable pour tout le monde de se taire plutôt que de se dénoncer mutuellement. En combinant ces inégalités, on obtient finalement les classements suivants des issues en termes de gain, pour chaque joueur: u 1 (D, T ) > u 1 (T, T ) > u 1 (D, D) > u 1 (T, D) u 2 (T, D) > u 2 (T, T ) > u 2 (D, D) > u 2 (D, T ) Pour figurer cette structure de gains de manière plus lisible, il suffit de choisir des nombres quelconques (pour remplacer les u(.,.) abstraits) qui respectent ces inégalités. Par exemple : D T D ( 5, 5) ( 10, 1) T ( 1, 10) ( 2, 2) On peut alors réécrire l histoire de l énoncé avec ces nombres en disant que le juge donnera une année de prison seulement (-1) au prisonnier qui sera seul à dénoncer l autre, qu il donne cinq ans de prison (-5) à chacun s ils se dénoncent mutuellement, etc. Tant que ces nombres respectent les inégalités ci-dessus, la morale de l histoire restera la même. Chaque joueur, étant rationnel, maximise son gain dans tous les cas en choisissant sa stratégie dominante qui est de dénoncer, et l issue (D,D) est donc un équilibre en stratégie dominante. Si les hypothèses qu on a faites précédemment sont vérifiées, alors cette issue se réalisera nécessairement. On peut noter que cette matrice de gain représente de manière abstraite la situation décrite. Du fait de cette abstraction, cette structure peut être utilisée pour rendre compte de nombreuses situations, économiques ou politiques, n impliquant pas forcément des prisonniers. Si les issues possibles de la situation qui nous intéressent donnent aux individus des gains qui vérifient les inégalités décrites plus haut (et bien sûr, si les hypothèses sur l information et le comportement des joueurs posées au départ sont respectées) alors on peut dire que cette situation possède une structure de dilemme du prisonnier, et on peut en prédire l issue finale. 3
4) Pourquoi qualifie-t-on la solution de ce jeu de paradoxe de la rationalité? Quelle rationalité est ici en jeu? Si les joueurs se faisaient confiance, choisiraientils de ne pas se dénoncer? D un côté, en ce qui concerne les issues, les deux joueurs préfèrent l issue où ils se taisent tous deux à l issue où ils se dénoncent mutuellement, ce qui revient à dire que cette dernière issue est sous-optimale, ou dominée au sens de Pareto. D un autre côté, en ce qui concerne les stratégies, aucun joueur ne choisira de se taire parce que cela va toujours contre son intérêt. pour chaque joueur, choisir de se taire serait aller contre son intérêt. Dans le cas où l autre joueur se tait, il est préférable de dénoncer. Dans le cas où l autre joueur dénonce, il est également préférable de dénoncer. D où le paradoxe: si on laisse les joueurs décider librement de leurs stratégies, ils en arrivent à une issue qu ils jugent pourtant, de leur propre point de vue (et à l unanimité), moins bonne - elle est sous optimale. Une autre manière d exprimer ce paradoxe est de dire que les prisonniers préfereraient que le juge ne leur donne pas du tout de choix et les condamne d emblée à un an de prison chacun, sans les entendre, parce que si le juge leur laissait le choix, ils finiraient avec deux ans de prison chacun. Ainsi, ce qui est rationnel dans le choix individuel des actions ne correspond pas à ce qui est optimal dans le choix collectif des issues : tel est le paradoxe de la rationalité. Imaginons que les prisonniers se soient mutuellement promis de se taire avant de finir en cellule. Est-il dans l intérêt de chaque joueur de respecter sa promesse, s il a confiance dans l autre joueur et qu il est sûr qu il va se taire? Non, car si l autre joueur se tait, il faut dénoncer pour maximiser son gain. 5) Supposons que les individus soient innocents du crime dont ils sont soupçonnés. La structure et la solution du jeu sont-ils modifiés? Le résultat du jeu est déterminé par sa seule structure et les hypothèses sur la connaissance et le comportement des agents (ils choisissent la stratégie qui maximise leur gain). Culpabilité et innocence ne changent rien à l affaire s ils ne modifient pas la structure du jeu. Exercice 2. Une variante du dilemme du prisonnier T D T (0, 2) ( 10, 1) D ( 1, 10) ( 5, 5) 1) Classez les issues selon le critère de Pareto et indiquez les optima de Pareto Une issue a est supérieure à (ou domine) une issue b au sens de Pareto si tout le monde préférerait que l issue a se réalise plutôt que l issue b, ou plus précisément, si au moins une personne préfère strictement a à b, tandis que les autres sont indifférents entre les deux. 4
Une issue a est un optimum de Pareto s il n existe pas d issue b superieure à a au sens de Pareto. D après ce critère, (T,T) est supérieure (D,D) et à (D,T) au sens de Pareto. Ce sont les seules comparaisons de ce type qu on peut faire. On en conclut que (D,D) et (D,T) ne sont pas des optima de Pareto. Il reste (T,T) et (T,D), qui ne sont pas dominés au sens de Pareto, donc qui sont des optima. Dénoncer est-il ici une stratégie dominante pour chaque agent? Quelle différence identifiez-vous entre les gains ici représentés et ceux du dilemme du prisonnier? Rien n a changé pour le joueur 2. Par contre, pour le joueur 1, u 1 (T, T ) = 0 > u 1 (D, T ) = 1 donc D n est plus une stratégie dominante pour le joueur 1. Dans le cas où le joueur 2 se tait, il vaut mieux pour le joueur 1 se taire, et dans le cas où le joueur 2 dénonce, le joueur 1 gagne toujours à dénoncer. Alors que dans le dilemme du prisonnier, tel qu on l a vu dans l exercice précédent, chaque joueur peut choisir la stratégie D sans même se demander ce que l autre joue (puisque c est la meilleure dans tous les cas de figure), ce n est plus le cas ici pour le joueur 1. 3) Laquelle des deux histoires ci-dessous pourrait correspondre à cette nouvelle matrice de gains? a) Le joueur A a tiré un plus grand avantage du crime que le joueur B. Ce qu il faut expliquer, c est pourquoi le joueur 1 aurait intérêt à se taire quand le joueur 2 se tait, alors que le joueur 2 aurait intérêt à dénoncer quand le joueur 1 se tait. Si le crime avantage le joueur 1, il lui donne cet avantage quel que soit le choix de dénoncer ou de se taire de la part de chaque joueur. Donc cela n explique pas cette différence entre le joueur 1 et le joueur 2. b) Le procureur, qui décide des primes à la dénonciation, est le frère de A et a fait en sorte que, dans le cas où aucun joueur ne dénonce l autre, A soit libre. Si le joueur 1 sort libre (0 années de prison) s il se tait lorsque le joueur 2 se tait, alors il est clairement dans l intérêt du joueur 1 de se taire, mais seulement dans ce cas de figure. C est exactement l explication qu on cherche : b) est la bonne réponse. c) Le joueur A ne choisit pas rationnellement. Un joueur est rationnel s il choisit la stratégie qui maximise son gain, les gains possibles étant donnés. Ici, c est une différence dans le gain lui-même qu on observe, non dans la façon qu on a de l atteindre. 4) Pourquoi peut-on dire qu en dépit de cette différence, les joueurs choisiront de se dénoncer? Nous supposons que chaque joueur choisit la stratégie qui maximise son gain et que chacun des joueurs connaît les gains de l autre. Nous supposons aussi ici que chacun des joueurs sait que l autre cherche à maximiser son gain (voir la note 1 en bas de la première page). 5
Le joueur 2 a une stratégie dominante, dénoncer (D), qui maximise son gain dans tous les cas. Le joueur 1 le sait et sait que le joueur 2 est rationnel. On peut donc en déduire que le joueur 1 sait que le joueur 2 va le dénoncer. Si le joueur 1 tient compte de ce savoir, tout se passe pour lui comme si le joueur 2 n avait qu une seule stratégie possible, dénoncer (D), puisque l autre est strictement dominée (et il serait irrationel de l utiliser). Le joueur 1 peut faire comme si les issues dans la colonne T de la matrice de gain n existaient pas, car le joueur 2 ne choisira jamais T et le joueur 1 le sait. On obtient alors le sous-jeu suivant : D T ( 10, 1) D ( 5, 5) Il en résulte que D est la stratégie qui maximise le gain du joueur 1, car il y a plus à gagner à dénoncer si le joueur 2 dénonce. On peut grâce à ce raisonnement continuer à prédire que c est l issue (D,D) qui va se réaliser, alors même qu il n y a plus aucun équilibre en stratégies dominantes dans ce jeu, comme c était le cas dans le dilemme du prisonnier. Mais le prix à payer pour pouvoir faire cette prédiction précise est qu on a dû poser l hypothèse que chaque joueur connaît les gains de l autre, et sait que l autre cherche à maximiser son gain, alors que ceci n est pas nécessaire lorsqu on est en présence d un équilibre en stratégies dominantes. Lorsqu il existe un tel équilibre, il suffit pour chaque joueur de choisir la stratégie qui maximise son gain sans se préoccuper de ce que fait l autre joueur. Exercice 3. Equilibre par élimination itérative des stratégies dominées Soit le jeu non coopératif à deux joueurs, A et B, représenté par la matrice suivante : b 1 b 2 b 3 a 1 (2, 0) (5, 3) (2, 1) a 2 (3, 1) (4, 4) (0, 3) a 3 (1, 2) (12, 0) (1, 2) Avant de commencer, voici un point de méthode pour déterminer dans un jeu les stratégies strictement dominantes et dominées, ainsi que les équilibre de Nash. On part de la notion de meilleure réponse : une stratégie a du joueur A est une meilleure réponse (stricte) à une stratégie b du joueur B si elle donne le gain qui est (strictement) le plus élevé lorsque le joueur B joue b (en d autres termes, si a est telle que u A (a, b) > u A (a, b) (dans le cas strict), pour toute stratégie a de A différente de a). Par exemple, dans la matrice ci-dessus, la meilleure réponse à b 1, pour A, est de jouer a 2, qui donne un gain de 3, alors que les autres statégies a 1 et a 2 ne donnent que 2 et 1. Pour noter que a 2 est la meilleure réponse à b 1, on peut entourer ou souligner le 3 dans la case correspondant à l issue (a 2, b 1 ). 6
Une stratégie strictement dominante peut se définir comme une stratégie qui est la meilleure réponse stricte à toute les stratégies de l autre joueur. si une stratégie est strictement dominée, alors elle n est la meilleure réponse stricte à aucune stratégie de l autre joueur. Un équilibre de Nash peut se définir comme une issue (a, b) telle que a est la meilleure réponse à b, et b est la meilleure réponse à a. On peut alors appliquer l algorithme suivant à la matrice de gain : 1. on commence par se placer du point de vue du joueur A, qui choisit les lignes, et on examine les issues de la première colonne. On identifie le gain le plus élevé pour le joueur A (à savoir, 3) et on l entoure. On procède de même pour la deuxième colonne, puis pour la troisième. 2. Si les gains entourés du joueur A figurent tous dans la même ligne, alors cette ligne correspond à une stratégie strictement dominante. 3. On se place maintenant du point de vue du joueur B qui choisit les colonnes, et on examine la première ligne. On identifie le gain le plus élevé pour le joueur B (à savoir 1), et on l entoure. On procède de même pour la deuxième ligne, puis la troisième. 4. Si les gains entourés du joueur B figurent tous dans la même colonne, alors cette colonne correspond à une stratégie strictement dominante. 5. Maintenant qu on a déterminé les meilleures réponses de chaque joueur aux stratégies des autres, on peut chercher les équilibres de Nash (s il y en a). On est en présence d un équilibre de Nash si, dans une case, le gain de A et le gain de B est entouré. Si on applique cette méthode à la matrice précédente, on obtient ceci : b 1 b 2 b 3 a 1 (2, 0) (5, 3) (2, 1) a 2 (3, 1) (4, 4) (0, 3) a 3 (1, 2) (12, 0) (1, 2) On conclut alors immédiatement qu il n y a de stratégie strictement dominante pour aucun joueur, et que que (a 1, b 3 ) est un équilibre de Nash. On peut vouloir aussi identifer les stratégie strictement dominées. Comment faire? Comme les stratégies strictement dominées ne sont une meilleure réponse à aucune stratégie de l autre joueur, on commence par regarder s il existe une ligne (respectivement, une colonne), où les gains du joueur A (respectivement, du joueur B) ne sont jamais entourés. C est bien le cas de la colonne b 1. Ensuite, on regarde s il existe une stratégie qui donne toujours un meilleur gain que b 1. C est clairement le cas de b 3. On conclut que b 1 est une stratégie dominée (par 7
b 3 ). 1) Les joueurs ont-ils des stratégies dominantes ou dominées? Il n existe pas de stratégie dominante car aucune stratégie d un joueur n est la meilleure réponse stricte à toutes les stratégies de l autre joueur. b 1 est une stratégie strictement dominée car b 3 donne toujours un gain strictement supérieur à b 1, pour toutes les stratégies de l autre joueur. 2) Quelle solution du jeu déduit-on de l hypothèse de connaissance commune de la rationalité? L hypothèse de connaissance commune de la rationalité (voir note 1 en bas de la page 1) nous autorise à admettre que le joueur A sait que le joueur B ne choisira jamais b 1, et même que le joueur B sait que le joueur A le sait. Pour déterminer l issue du jeu, on peut alors se ramener au sous-jeu suivant en supprimant la colonne b 1 : b 2 b 3 a 1 (5, 3) (2, 1) a 2 (4, 4) (0, 3) a 3 (12, 0) (1, 2) On voit alors que, pour cette matrice, a 2 est strictement dominée (par a 1 et a 3 ), mais cela ne suffit pas encore pour prédire l issue finale. Heureusement, l hypothèse de connaissance commune de la rationalité nous autorise à admettre que le joueur B sait que le joueur A ne choisira jamais a 2 (car le joueur B sait que le joueur A sait que b 1 est strictement dominée, et le joueur B sait que le joueur A est rationnel). On se ramène ainsi au sous-jeu suivant en supprimant la ligne a 2 : b 2 b 3 a 1 (5, 3) (2, 1) a 3 (12, 0) (1, 2) On observe alors que b 3 est, pour cette matrice, une stratégie dominante pour le joueur B. En utilisant une fois encore l hypothèse de connaissance commune de la rationalité, on en arrive finalement à cet ultime sous-jeu ne conservant que la colonne b 3 : b 3 a 1 (2, 1) a 3 (1, 2) Dans ce cas, A choisit la meilleure réponse à b 3, qui est a 1. On prédit donc que (a 1, b 3 ) est l issue finale du jeu. On peut noter que la procédure d élimination itérative des stratégies strictement dominées qu on a utilisée pour parvenir à prédire l issue du jeu nous a fait converger vers l unique équilibre de Nash du jeu. Ce n est pas un 8
hasard. S il existe un équilibre de Nash, l algorithme d élimination itérative des stratégies strictement dominées nous conduira toujours à le sélectionner, si cette procédure peut aller jusqu à son terme (qui est de sélectionner une issue unique). 3) Ce jeu illustre-t-il le paradoxe de la rationalité? On se trouve dans le cas d un paradoxe de la rationalité lorsque une issue correspond à un équilibre résultant de l hypothèse de rationalité des joueurs, mais qu elle est dominée au sens de Pareto (sous-optimale). C est bien le cas ici, puisque l issue qui correspond à l équilibre de Nash, et qui donne les gains (2, 1), est dominée notamment par l issue (a 2, b 2 ), qui donne les gains (4, 4). Exercice 4. Equilibre de Nash Soit le jeu non coopératif en information complète, à deux joueurs (A et B) et représenté par la matrice suivante : b 1 b 2 b 3 a 1 (3, 6) (3, 3) (1, 8) a 2 (7, 3) (2, 6) (1, 5) a 3 ( 4, 1) (1, 1) (2, 2) Avant de commencer, appliquons la méthode précédente. Voici la matrice obtenue : b 1 b 2 b 3 a 1 (3, 6) (3, 3) (1, 8) a 2 (7, 3) (2, 6) (1, 5) a 3 ( 4, 1) (1, 1) (2, 2) On voit immédiatement que (a 3, b 3 ) est l unique équilibre de Nash et qu il n existe pas de stratégie strictement dominante. Il n existe pas non plus de stratégies strictement dominées, puisque chaque stratégie de chacun des joueurs est dans au moins un cas une meilleure réponse à la stratégie de l autre joueur. 1) On suppose que les deux joueurs sont rationnels et que la rationalité est connaissance commune. Peut-on en déduire une solution comme dans les exercices précédents? Il n y a ni stratégie strictement dominante, ni stratégie strictement dominée pour aucun joueur. On ne peut donc pas utiliser la procédure d élimination itérative des stratégies strictement dominées pour arriver à une solution unique. 2) Rappelez la définition d un équilibre de Nash et déterminez l équilibre de Nash de ce jeu. Est-il optimal au sens de Pareto? 9
L issue (a 3, b 3 ) est bien un équilibre de Nash puisque a 3 est la meilleure réponse à b 3, et b 3 est la meilleure réponse à a 3. Ce n est pas un optimum de Pareto puisque l issue (a 2, b 1 ) donne un gain supérieur à chacun des deux joueurs. 10