Une introduction à la théorie des jeux. 2 Jeu matriciel, stratégie et espérance de gain

Une introduction à la théorie des jeux 1 Introduction Cet article a pour but de présenter le théorème fondateur de la théorie des jeux, dû à Von Neumann en 1928. Ce théorème, qui est à la base du développement de cette théorie, concerne les jeux matriciels à deux joueurs, qui vont être présentés ici. Le cadre de cette théorie peut sembler relativement restrictif, mais en fait, via quelques transformations, beaucoup de situations dans lesquelles il faut décider d'une stratégie peuvent s'y ramener. Pour une bonne compréhension, le lecteur est invité à faire diverses gures et petits calculs volontairement non détaillés dans la suite... 2 Jeu matriciel, stratégie et espérance de gain 2.1 Dénition d'un jeu Un jeu matriciel à deux joueurs se présente de la sorte : on considère deux joueurs numérotés 1 et 2, et une matrice M = (m i,j ) M n,p (IR). Lors d'une partie, le joueur 1 choisit un coup, que nous noterons i, entre 1 et n, et le joueur 2, sans connaître le coup joué par le joueur 1, choisit un coup, j, entre 1 et p. Alors, le joueur 1 gagne m i,j points, alors que le joueur 2 perd m i,j points (ou encore gagne m i,j points). (m i,j peut être négatif, donc ce peut être un "véritable" gain pour le joueur 2, de même qu'il peut s'agir d'une perte pour le joueur 1). Ainsi, M est en fait la matrice des gains du joueur 1. On dit que le jeu est à somme nulle dans la mesure où la somme des gains des deux joueurs est m i,j m i,j = 0. Le cadre intéressant d'un tel jeu apparaît lorsque les deux joueurs eectuent un grand nombre de parties successives. La question est de savoir, pour chaque joueur, quelle est la meilleure stratégie pour imiser son gain. 2.2 Stratégie Mais qu'est ce qu'une stratégie? Pour dénir une stratégie, on a recours aux probabilités : une stratégie pour le joueur 1 est le choix d'un vecteur = (x 1,..., x n ) vériant : i, x i IR +,et x 1 +... + x n = 1 Chaque x i représente la probabilité que le joueur 1 joue le coup i. Ainsi, si est la stratégie du joueur 1, pour un i donné, si les deux joueurs jouent un grand nombre q de parties, le joueur 1 aura joué "environ" qx i fois le coup i, avec une répartition relativement homogène parmi ses autres coups. On dénit de même une stratégie pour le joueur 2, en convenant de noter = (y 1,..., y p ) une telle stratégie. Une stratégie est dite pure lorsque le joueur joue toujours le même coup, ie lorsque le vecteur de stratégie est du type (0,..., 0, 1, 0,..., 0). Nous noterons pour la suite ε i = (0,..., 0, 1, 0,..., 0), le 1 étant en position i, et la taille de ε i variant selon le contexte (stratégie pour le joueur 1 ou 2). 1

2.3 Espérance de gain Les deux joueurs ayant choisi deux stratégies et, après un grand nombre de parties, quels est le gain "moyen" de chaque joueur (on parle d'espérance de gain)? La théorie élémentaire des probabilités dit que, pour le joueur 1, cette espérance de gain est E(, ) = n p x i y j m i,j (que nous noterons en abrégé x i y j m i,j ). i=1 j=1 i,j L'explication est la suivante : du fait que les choix des deux joueurs sont indépendants, la probabilité que le joueur 1 choisisse un coup i donné, et que le joueur 2 choisisse un coup j donné simultanément est x i y j, et pour un tel couple de coups, le gain du joueur 1 est m i,j. Pour le joueur 2, E(, ) représente l'espérance de perte, ou encore, l'espérance de gain est E(, ). On peut noter que E(, ) est linéaire vis-à-vis de, et vis-à-vis de. 2.4 Le but de chaque joueur Le but de chaque joueur est de imiser son gain, et donc de choisir une stratégie qui est "la meilleure" face à toute stratégie du joueur opposé, dans la mesure où il ne connaît pas la stratégie de ce dernier. Ainsi le joueur 1 cherche une stratégie 0 qui imise en un certain sens son gain face à toute stratégie de, ie qui réalise le imum : (min E(, )) (min E(, ), qui est une quantité qui ne dépend que de, est la pire espérance de gain du joueur 1 s'il joue la stratégie ) c'est-à-dire une stratégie 0 telle que min E( 0, ) = (min E(, )) Il est entendu, partout, que les et apparaissant dans les /min décrivent l'ensemble des stratégies des deux joueurs. Les extrema apparaissant sont bien atteints et sont donc des ima et minima pour des raisons topologiques : Notons S n = {(x 1,..., x n ) i, x i IR + et x 1 +... + x n = 1}. S n est une partie fermée bornée de IR n donc un compact. à xé, E(, ) est continue, donc est bornée sur S n et atteint ses bornes : ce qu'on a noté pour alléger min E(, ) est min S p E(, ) et existe bien. Ensuite on montre que min S p E(, ) est continue ce qui entraîne puisque S n est compact que (min E(, )) existe. S n S p De même le joueur 2 cherche à imiser son gain, ie à minimiser le gain du joueur 1, et cherche donc une stratégie 0 telle que E(, 0) = min 3 Le théorème de Von Neumann ( E(, )) Le théorème de Von Neumann arme qu'en fait (min E(, )) = min ( E(, )). Cette valeur commune est appelée valeur du jeu, que l'on écrit communément v. Pour aborder la preuve du théorème, établissons d'abord l'équivalence entre trois formes du théorème : 2

(1) (min E(, )) = min ( E(, )) (2) Il existe des stratégies 0 et 0 telles que,, E(, 0 ) E( 0, 0 ) E( 0, ). (3) Il existe deux stratégies 0 et 0, et un réel v tels que, E( 0, ) v, E(, 0 ) v v est unique. C'est la valeur du jeu. Démonstration des équivalences : (3) = (2): Donnons nous 0, 0, et v satisfaisant aux conditions de la proposition (3). En prenant = 0 dans le premier point de (3) et = 0 dans le second, on voit que E( 0, 0 ) = v. Il en résulte que pour tous,, E(, 0 ) E( 0, 0 ) E( 0, ), donc (2) est vrai. (2) = (1): Donnons nous 0 et 0 vériant les conditions du (2). Pour tout,, E(, 0 ) E( 0, ). En passant au imum sur, la quantité de droite ne dépendant pas de, on obtient E(, 0) E( 0, ) En passant ensuite au minimum sur, on obtient Or min ( E(, )) E(, 0) et min E(, 0) min E( 0, ) E( 0, ) min ( E(, )) (min E(, )) (min E(, )), donc on obtient Pour obtenir l'égalité du (1), il reste à voir l'inégalité inverse, qui elle ne dépend pas de (2) : A, xés, E(, ) E(, ). En prenant le minimum sur, il en résulte min E(, ) min E(, ). La quantité à droite ne dépend pas de, donc en passant au imum sur, on obtient (min Les variables sont muettes et ceci se réécrit (min inégalité voulue. (1) = (3): Supposons (min E(, )) = min (min On se donne 0 tel que On a donc min E( 0, ) = E(, )) = min E(, 0) = v. Pour tout, E( 0, ) min 0, 0, v vérient les conditions du (3). E(, )) min ( E(, )) E(, )) min ( E(, )), ce qui est la seconde ( E(, )). Notons v cette valeur. E( 0, ), et 0 tel que min E( 0, ) = v, et pour tout, E(, 0 ) ( E(, )) = E(, 0). E(, 0 ) = v, donc 3

4 Utilisation des stratégies pures On peut noter que, pour xé, min E(, ), qui est rappelons le min ie que le minimimum min E(, ) est toujours atteint pour une stratégie pure. S p Démonstration: S p E(, ), est en fait min E(, ), {ε 1,...,ε p} Tout d'abord {ε 1,..., ε p } S p, donc min E(, ) min E(, ). S p {ε 1,...,ε p} D'autre part : notons m = min E(, ). {ε 1,...,ε p} Si = (y 1,..., y p ) est une stratégie, = y 1 ε 1 +... + y p ε p et E(, ) = y 1 E(, ε 1 ) +... + y p E(, ε p ). Les y i étant positifs, et puisque E(, ε i ) m, on a E(, ) m(y 1 +... + y p ) = m. Ainsi min E(, ) m ie min E(, ) min E(, ) et nalement on a égalité. S p {ε 1,...,ε p} De même, pour tout, E(, ) est atteint pour une stratégie pure. Similairement, dans la propriété (3), dire que, E( 0, ) v revient simplement à i, E( 0, ε i ) v et dire que, E(, 0 ) v revient simplement à i, E(ε i, 0 ) v. 5 Etude de deux exemples Avant de s'intéresser à la preuve du théorème de Von Neumann, étudions élémentairement deux exemples pour lesquels nous allons calculer la valeur du jeu. 5.1 Exemple 1 ( ) 1 1 Considérons le jeu de matrice. 1 1 Du fait de la symétrie de la matrice on peut se douter que 0 = (1/2, 1/2), 0 = (1/2, 1/2), et v = 0 conviennent dans (3) ou (2), et donc que la valeur du jeu est nulle. Ceci peut se vérier en montrant que la valeur du jeu, (min E(, )), qui est en fait du fait de la min E(, ), est nulle. remarque précédente {ε 1,ε 2 } est de la forme (x, 1 x) avec x [0, 1] donc v = x [0,1] (min{2x 1, 2x + 1}). Un petit dessin (à faire...) du graphe de x min{2x 1, 2x + 1} montre que v = 0, le imum étant atteint pour x = 1/2. 5.2 Exemple 2 1 1 2 Prenons ici pour matrice du jeu M = 1 1 1. 2 1 0 Tout d'abord on peut voir qu'une stratégie optimale du joueur 1 sera de la forme (0, x, 1 x), autrement dit qu'on peut "oublier" la première ligne de la matrice. Ceci vient du fait que la dernière ligne "domine" la première au sens où j, m 3,j m 1,j. Il en résulte que pour toute stratégies et = (x 1, x 2, x 3 ), E(, ) E((0, x 2, x 1 + x 3 ), ), et = (0, x 2, x 1 + x 3 ) est toujours une stratégie. 4

Ainsi on cherche une solution optimale de la forme = (0, x, 1 x), x [0, 1]. On cherche donc, (min{ 3x + 2, 2x 1, x}). x [0,1] Un tracé de x min{ 3x + 2, 2x 1, x} permet de voir que ce imum vaut 1/5 et est atteint pour x = 3/5 ie 0 = (0, 3/5, 2/5). Un 0 correspondant est 0 = (2/5, 3/5, 0). 6 La preuve du théorème On va se contenter d'établir le théorème dans le cas d'un jeu 2 2, mais d'une façon qui se généralise facilement au cas général. 6.1 La notion de convexité Au centre de la démonstration, et de la théorie des jeux en général est la notion de convexité. Si V 1,..., V q sont dans IR n, on appelle barycentre positif de V 1,..., V q tout vecteur de la forme λ 1 V 1 +... + λ q V q où les λ i sont positifs et de somme 1. Une partie P de IR n est dite convexe si et seulement si elle est stable par barycentration à coecients positifs ie si et seulement si q 2, V 1,..., V q P, tout vecteur de la forme λ 1 V 1 +... + λ q V q où les λ i sont positifs et de somme 1 est dans P. En fait de part l'associativité des barycentres, P est convexe revient simplement à U, V P, x [0, 1], xu + (1 x)v P. Notons que {xu + (1 x)v x [0, 1]} est le segment joignant U et V. Une propriété cruciale des parties convexes est la suivante : si P et Q sont deux parties convexes de IR n dont les seuls points éventuels d'intersection sont sur les bords de P et Q, alors il existe un hyperplan ane H (qui sépare donc IR n en deux) de sorte que P soit d'un côté de H (H inclus), et Q de l'autre. Concernant les jeux, notons au passage qu'il y a unicité de la valeur du jeu, mais pas des stratégies optimales pour les deux joueurs. Il y a en fait pour chaque joueur un nombre ni de stratégies optimales dites extrémales, les autres stratégies optimales étant les barycentres positifs de celles-ci. 6.2 La preuve dans le cas 2 2 Nous allons utiliser la forme (3) du théorème de Von Neumann. On considère ici un jeu de matrice ( a1,1 a 1,2 ). a 2,1 a 2,2 On veut montrer qu'il existe v IR, et 0 = (x 1, x 2 ), 0 = (y 1, y 2 ) deux stratégies vériant la propriété (3). Comme nous l'avons précédemment dit, cela revient simplement en utilisant les stratégies pures à : E( 0, ε 1 ) v, E( 0, ε 2 ) v, E(ε 1, 0 ) v, et E(ε 2, 0 ) v, soit : (i) x 1 a 1,1 + x 2 a 2,1 v (ii) x 1 a 1,2 + x 2 a 2,2 v (iii) y 1 a 1,1 + a 1,2 y 2 v (iv) y 1 a 2,1 + y 2 a 2,2 v 5

Notons (t 1, t 2 ) les éléments de IR 2. Si e IR, soit S e = {(t 1, t 2 ) IR 2 t 1 e et t 2 e} (voir les gures). Notons p = (a 1,1, a 2,1 ) et q = (a 1,2, a 2,2 ). Comme on le conçoit sur les gures, il existe un v (unique) tel que S v et le segment [p, q] s'intersectent uniquement sur le bord de S v. On se xe v ainsi. Soit A un point d'intersection entre [p, q] et S v (dans les gures, dans la première conguration, A = (v, v), 6

et dans la seconde A = q). A est un barycentre positif de p et q, donc de la forme A = y 1 p + y 2 q avec y 1, y 2 IR + et y 1 + y 2 = 1. On se donne de tels y 1 et y 2, et on pose 0 = (y 1, y 2 ). A = (y 1 a 1,1 + y 2 a 1,2, y 1 a 2,1 + y 2 a 2,2 ) S v, donc les inégalités (iii) et (iv) sont vériées. Il reste à dénir 0. [p, q] et S v sont deux parties convexes de IR 2 ne s'intersectant que sur leurs bords, donc on peut se donner un hyperplan ane, donc ici une droite (D), qui les sépare. Une telle droite contient forcément (v, v), le "coin" de S v. Il est géométriquement évident que l'on peut se donner un vecteur normal (non nul) (α, β) à (D) tel que α 0 et β 0. Posons x 1 = α α + β et x 2 = β α + β, et 0 = (x 1, x 2 ). 0 est bien une stratégie, et est un vecteur normal à (D). (D) a une équation du type x 1 t 1 + x 2 t 2 = c. Comme (v, v) (D), c = x 1 v + x 2 v = (x 1 + x 2 )v = v. p et q sont dans le demi-plan délimité par (D) d'équation x 1 t 1 + x 2 t 2 v (car "du côté pointé par 0 "), donc les inégalités (i) et (ii) sont vériées. Dans le cas général, la droite (D) devient un hyperplan ane, le segment [p, q] devient un p-èdre, etc... 7 Algorithmique Il existe divers algorithmes de calcul de la valeur d'un jeu et de stratégies optimales, que nous ne donnerons pas ici. Le lecteur en trouvera un dans l'ouvrage suivant, dont est largement inspirée cette présentation de la théorie des jeux: Lectures on Theory of Games, Harold W. Khun, Annals of Mathematics studies, Princeton University Press. 7