Modèles et simulations informatiques des problèmes de coopération entre agents



Documents pareils
Introduction à la Théorie des Jeux p.1/77

Théorie des Jeux Et ses Applications

Simulation centrée individus

Coopération dans les réseaux ad hoc : Application de la théorie des jeux et de l évolution dans le cadre d observabilité imparfaite

Analyse stochastique de la CRM à ordre partiel dans le cadre des essais cliniques de phase I

Economie de l Incertain et des Incitations

Probabilités sur un univers fini

CHAPITRE 5. Stratégies Mixtes

FONCTION DE DEMANDE : REVENU ET PRIX

Deuxième partie es jeux non-coopératifs avec information complète 3. É quilibre de Nash (1951) 4. D ynamique et rétroduction 5.

Nombres, mesures et incertitudes en sciences physiques et chimiques. Groupe des Sciences physiques et chimiques de l IGEN

I Stabilité, Commandabilité et Observabilité Introduction Un exemple emprunté à la robotique Le plan Problème...

Apprentissage par renforcement (1a/3)

Probabilités conditionnelles Loi binomiale

Pi, poker et informatique ; une «épuisante» alliance pour des projets en mathématiques

UFR de Sciences Economiques Année TESTS PARAMÉTRIQUES

P R E S E N T A T I O N E T E V A L U A T I O N P R O G R A M M E D E P R E V E N T I O N «P A R L E R»

La survie nette actuelle à long terme Qualités de sept méthodes d estimation

Nathalie Bulle (1998), Compte-rendu de Rainer Hegselmann, Ulrich Mueller, Klaus G. Troitzsch (eds.).- Modelling and simulation in the social sciences

COURS 8 : INTRODUCTION A LA THEORIE DES JEUX

COORDINATION NON COOPÉRATIVE: MÉTHODES D ENCHÈRES

Capacité d un canal Second Théorème de Shannon. Théorie de l information 1/34

LES DONNÉES CLIENTS APPLIQUÉES À LA MOBILITÉ : ENJEUX, ÉVOLUTIONS ET ACTIONS

23. Interprétation clinique des mesures de l effet traitement

Couples de variables aléatoires discrètes

Feuille d exercices 2 : Espaces probabilisés

Modélisation multi-agents - Agents réactifs

Théorie et codage de l information

Les apports de l informatique. Aux autres disciplines

Algorithme des fourmis appliqué à la détection et au suivi de contours dans une image

ANNEXE J POTEAUX TESTÉS SELON UN CHARGEMENT STATIQUE ET TESTÉS SELON UN CHARGEMENT CYCLIQUE ET STATIQUE

Les cinq premiers pas pour devenir vraiment agile à XP Day Suisse 2009 par Pascal Van Cauwenberghe et Portia Tung: La Rétrospective

POSTURE PROFESSIONNELLE ENSEIGNANTE EN QUESTION?

Biostatistiques Biologie- Vétérinaire FUNDP Eric Depiereux, Benoît DeHertogh, Grégoire Vincke

Objectifs. Clustering. Principe. Applications. Applications. Cartes de crédits. Remarques. Biologie, Génomique

Examen Médian - 1 heure 30

Les simulations dans l enseignement des sondages Avec le logiciel GENESIS sous SAS et la bibliothèque Sondages sous R

Vision industrielle et télédétection - Détection d ellipses. Guillaume Martinez 17 décembre 2007

Probabilités sur un univers fini

Décision Markovienne appliquée à un jeu de stop ou encore : Pickomino (Heckmeck Am Bratwurmeck)

ACTUARIAT 1, ACT 2121, AUTOMNE 2013 #4-5

Master en Gouvernance et management des marchés publics en appui au développement durable

Théorie et Codage de l Information (IF01) exercices Paul Honeine Université de technologie de Troyes France

Le WACC est-il le coût du capital?

Transmission d informations sur le réseau électrique

SOCLE COMMUN - La Compétence 3 Les principaux éléments de mathématiques et la culture scientifique et technologique

Compte rendu de LA37 B, TP numéro 1. Evolution de la température et du degrée d'hydratation

Définition 0,752 = 0,7 + 0,05 + 0,002 SYSTÈMES DE NUMÉRATION POSITIONNELS =

Modèles à Événements Discrets. Réseaux de Petri Stochastiques

My Poker Manager Guide Utilisateur. Guide Utilisateur

LA NOTATION STATISTIQUE DES EMPRUNTEURS OU «SCORING»

GL Le Génie Logiciel

BACCALAUREAT GENERAL MATHÉMATIQUES

Jeux sous forme extensive (Jeux dynamiques)

Analyse trimestrielle du marché des jeux en ligne en France

Joueur B Pierre Feuille Ciseaux Pierre (0,0) (-1,1) (1,-1) Feuille (1,-1) (0,0) (-1,1) Ciseaux (-1,1) (1,-1) (0.0)

Classe de première L

La demande Du consommateur. Contrainte budgétaire Préférences Choix optimal

Statistique : Résumé de cours et méthodes

Représentation d un entier en base b

Présentation des algorithmes génétiques et de leurs applications en économie

Les débats sur l évolution des

Probabilités. Une urne contient 3 billes vertes et 5 billes rouges toutes indiscernables au toucher.

Théorie Financière 8 P. rod i u t its dé dérivés

Consolidation du budget l Etat répercussions sur le secteur communal. Prise de position du SYVICOL

UN MBA POUR QUI, POURQUOI?

La classification automatique de données quantitatives

Les Français et le chauffage. Résultats de l étude menée

Guide d utilisation - Intranet de l ASG Pour utilisateurs d Albatros Version 8.7

Fluctuation d une fréquence selon les échantillons - Probabilités

LE ROLE DES INCITATIONS MONETAIRES DANS LA DEMANDE DE SOINS : UNE EVALUATION EMPIRIQUE.

1 Systèmes triphasés symétriques

UEO11 COURS/TD 1. nombres entiers et réels codés en mémoire centrale. Caractères alphabétiques et caractères spéciaux.

Les Cartes et leur Valeur

Assurance maladie publique et «Opting out» - Réflexions théoriques

HALLE DES SPORTS LE CREUSOT

CONCOURS D ENTREE A L ECOLE DE 2007 CONCOURS EXTERNE. Cinquième épreuve d admissibilité STATISTIQUE. (durée : cinq heures)

TESTS PORTMANTEAU D ADÉQUATION DE MODÈLES ARMA FAIBLES : UNE APPROCHE BASÉE SUR L AUTO-NORMALISATION

YANN ROUDAUT - Professeur de l Ecole Française de Poker - roudaut@ecolefrancaisedepoker.fr

Lois de probabilité. Anita Burgun

CANUDC - REGLES DU JEU DE LA PARTICIPATION AU CANUDC 1

LA GESTION DE LA FORCE DE VENTE ABORDEE SOUS L ANGLE DE LA REMUNERATION

La persistance des nombres

LES GENERATEURS DE NOMBRES ALEATOIRES

CHAPITRE 3 LA SYNTHESE DES PROTEINES

Qu est-ce qu une probabilité?

La problématique des tests. Cours V. 7 mars Comment quantifier la performance d un test? Hypothèses simples et composites

Précision d un résultat et calculs d incertitudes

VI. Tests non paramétriques sur un échantillon

Ordonnancement en temps réel d un jobshop par métaheuristique hybride : étude comparative

Economie de l incertain et de l information Partie 1 : Décision en incertain probabilisé Chapitre 1 : Introduction à l incertitude et théorie de

RÉFORME DES MOINS DE 12 ANS

Consensus Scientifique sur. les. Champs statiques

NOTE SUR LA MODELISATION DU RISQUE D INFLATION

Texte Agrégation limitée par diffusion interne

Souad EL Bernoussi. Groupe d Analyse Numérique et Optimisation Rabat http ://

Projet ANR. Bruno Capra - OXAND. 04/06/2015 CEOS.fr - Journée de restitution (Paris) B. CAPRA

Image d un intervalle par une fonction continue

Analyse de la variance Comparaison de plusieurs moyennes

Transcription:

Modèles et simulations informatiques des problèmes de coopération entre agents Bruno Beaufils LIFL Axe CIM Équipe SMAC Laboratoire d'informatique

Plan 1. Motivations 2. Dilemme itéré du prisonnier 3. Simulations 4. Conclusions Laboratoire d'informatique Modèles et simulations informatiques des problèmes de coopération entre agents 1

Motivations L équipe SMAC a, entre autre, pour centre d intérêts : les systèmes multi agents, incluant des agents informatiques ou humains les comportements d agents favorisant la coopération dans le groupe l évolution de la coopération dans des populations d agents L objectif de la thèse a donc été : d étudier en profondeur un modèle formel de coopération entre agents : par la mise en place de simulations par la collecte d informations sur ce modèle d essayer de déterminer des critères de qualité pour les comportements de façon à favoriser la coopération Laboratoire d'informatique Modèles et simulations informatiques des problèmes de coopération entre agents 2

Le modèle Le modèle choisi est le modèle du «Dilemme itéré du prisonnier»: Modèle de la théorie des jeux introduit à la RAND Corp. (1952) Popularisé au début des années 80 par Axelrod Très souvent utilisé (200 publications entre 1988 et 1994) notamment en économie, psychologie et en biologie théorique Étudié surtout dans des espaces continus et non déterministes Le modèle simple, souvent considéré comme trop théorique, a souvent été délaissé pour des modèles plus proches de la réalité. Nous avons : étudié le modèle simple trop rapidement mis de côté à notre avis adapté celui ci au cas discret de façon à pouvoir faire des simulations informatiques Laboratoire d'informatique Modèles et simulations informatiques des problèmes de coopération entre agents 3

Dilemme (itéré) du prisonnier Au sens de la théorie des jeux : un jeu simultané, symétrique, à deux joueurs, à somme non nulle, non coopératif où chaque joueur doit choisir une parmi deux cartes: la Coopération (C) et la Trahison (D) Il y a dilemme car l intérêt individuel ( la rationalité au sens économique) (D,D) rapporte moins que l intérêt collectif (C,C) Version itérée: les joueurs se recontrent un certain nombre de fois les joueurs ne connaissent pas le terme du jeu le score des joueurs est la somme des scores de chaque rencontre Dilemme... S < P < R < T...itéré S + T < 2R C D C R = 3, R = 3 S = 0, T = 5 D T = 5, S = 0 P = 1, P = 1 T = Tentation P = Punition R = Récompense S = Salaire de la duperie Laboratoire d'informatique Modèles et simulations informatiques des problèmes de coopération entre agents 4

Stratégies À chaque étape un joueur sait ce que son adversaire a joué dans les coups précédents Il est alors possible de définir un comportement prédéfini pour le jeu : une stratégie 2 types de stratégies au sens de la théorie des jeux : pures en n utilisant que des choix déterministes (en fonction de l histoire du jeu) mixtes en utilisant des choix non déterministes (distribution de probabilités sur les stratégies pures) Quelques exemples de stratégies: all_c all_d per_ccd soft_majo tit_for_tat spiteful Identification d un agent (un joueur) à sa stratégie Laboratoire d'informatique Modèles et simulations informatiques des problèmes de coopération entre agents 5

Exemples (stratégies) 1 2 3 4 5 6 7 8 9 10 3 3 0 3 3 0 3 3 0 3 = 21 all_c C C C C C C C C C C per_ccd C C D C C D C C D C 3 3 5 3 3 5 3 3 5 3 = 36 0 1 1 1 1 1 1 1 1 1 = 9 tit_for_tat C D D D D D D D D D all_d D D D D D D D D D D 5 1 1 1 1 1 1 1 1 1 = 14 Laboratoire d'informatique Modèles et simulations informatiques des problèmes de coopération entre agents 6

Évaluation des stratégies Il existe deux types de méthodes d évaluation : 1. Le tournoi rencontre 2 à 2 de toutes les stratégies d un panel matchs de même longueur inconnue des joueurs chaque stratégie est classée en fonction de son score : V (i j) 2. Les évolutions écologiques population polymorphe d individus : plusieurs représentants d une stratégie d un panel donné facteur d adaptation d un individu = somme des scores obtenus face à tous les autres individus reproduction proportionnelle des sous populations de stratégies jusqu à stabilisation Laboratoire d'informatique Modèles et simulations informatiques des problèmes de coopération entre agents 7

Exemples (tournoi) all_c all_d per_ccd tit_for_tat all_c 30 0 21 30 81 all_d 50 10 38 14 112 per_ccd 36 3 24 27 90 tit_for_tat 30 9 27 30 96 Classement 1 all_d 2 tit_for_tat 3 per_ccd 4 all_c Laboratoire d'informatique Modèles et simulations informatiques des problèmes de coopération entre agents 8

Exemples (évolution) 1 2 3 4... all_c 100 85 71 58... all_d 100 118 137 155... per_ccd 100 94 187 79... tit_for_tat 100 101 103 106... 400 350 Ecological evolution tit_for_tat all_c per_ccd all_d 300 Population size 250 200 150 100 50 0 0 5 10 15 20 25 30 35 Generations Laboratoire d'informatique Modèles et simulations informatiques des problèmes de coopération entre agents 9

Résultats classiques Résultats mis en avant notamment par Axelrod en 1984 à propos de tit_for_tat Possibilité d apparition d un ordre sans autorité extérieure Critères de qualité pour une stratégie (en évolution) : bienveillance réactivité indulgence simplicité (clarté du comportement) Les bonnes stratégies au dilemme classique le sont aussi dans les variantes Nous remettons en cause la simplicité mise en avant par Axelrod Laboratoire d'informatique Modèles et simulations informatiques des problèmes de coopération entre agents 10

Principaux résultats de la thèse Nous avons donc utilisé des simulations informatiques pour : vérifier la robustesse de notre adaptation étudier les dynamiques de populations évaluer de nouvelles stratégies essayer de créer automatiquement de bonnes stratégies Nous avons montré formellement : 1. que certains panels de stratégies sont améliorables à l infini 2. que dans le cas général les panels de stratégies ne sont pas améliorables à l infini Nous avons établi et étudié un modèle basé sur une légère modification du dilemme du prisonnier : le dilemme de l ascenceur De nouveaux arguments en faveur de la complexité dans le comportement Laboratoire d'informatique Modèles et simulations informatiques des problèmes de coopération entre agents 11

Robustesse Mesure de robustesse du jeu : N stratégies classées dans un tournoi P < N stratégies classées dans un sous tournoi, chaque stratégie i est alors: attendue à une position théorique C t i classée à un position réelle C r i Combien de positions le changement de panel a fait évoluer : j=p j=1 C t i,j C r i,j Sur M sous tournois choisis aléatoirement la moyenne est alors notre mesure de robustesse : R (P/N),M,L = i=m i=1 R ne prend jamais de valeur supérieure à 3. j=p j=1 M C t i,j C r i,j Laboratoire d'informatique Modèles et simulations informatiques des problèmes de coopération entre agents 12

Dynamiques oscillatoires Nous avons recherchés systématiquement dans un grande nombre d évolutions impliquant 3 stratégies des dynamiques non classiques. Nous avons pu faire une classification des évolutions en 5 catégories : 1. convergence monotone (99 % de nos expérimentations) 2. oscillations atténuées 3. mouvements périodiques 4. oscillations croissantes 5. oscillations désordonnées Ces dynamiques rares sont très sensibles aux modifications des conditions initiales d expérimentation Laboratoire d'informatique Modèles et simulations informatiques des problèmes de coopération entre agents 13

Oscillations désordonnées 1400 1200 soft_majo per_ccccd prober 1000 Number of individuals 800 600 400 200 0 0 50 100 150 200 250 300 Generations Laboratoire d'informatique Modèles et simulations informatiques 14

Mouvements périodiques 350 per_ccd per_ddc soft_majo 300 Number of individuals 250 200 150 100 50 0 200 400 600 800 1000 Generations Les stratégies impliquées forment souvent un cycle en tournoi : A est meilleure que B, qui est meilleure que C qui est meilleure que A Laboratoire d'informatique Modèles et simulations informatiques 15

Oscillations atténuées 1100 1000 per_ccd per_ddc soft_majo 900 800 Number of individuals 700 600 500 400 300 200 100 0 50 100 150 200 250 300 350 400 450 Generations Laboratoire d'informatique Modèles et simulations informatiques 16

Oscillations croissantes 900 800 per_ddc per_cd soft_majo 700 Number of individuals 600 500 400 300 200 100 0 0 50 100 150 200 250 300 350 400 450 Generations Laboratoire d'informatique Modèles et simulations informatiques 17

Sensibilité à la population initiale 350 per_ccd per_ddc soft_majo 300 per_ccd per_ddc soft_majo 300 250 250 Number of individuals 200 150 Number of individuals 200 150 100 100 50 0 200 400 600 800 1000 Generations 50 0 2 4 6 8 10 12 14 16 Generations Tous les paramètres sont identiques sauf la taille de la population initiale des per_ddc qui est de 244 à gauche et de 245 à droite Laboratoire d'informatique Modèles et simulations informatiques des problèmes de coopération entre agents 18

gradual Première trahison de l adversaire : D Seconde trahison de l adversaire : D Troisième trahison de l adversaire : D D C C D D C C D D D C C. gradual coopère au premier coup, puis après la première trahison de l adversaire trahit une fois et coopère deux fois, après la seconde trahison de l adversaire trahit deux fois et coopère deux fois,..., après la n e trahison de l adversaire trahit n fois et coopère deux fois. Laboratoire d'informatique Modèles et simulations informatiques des problèmes de coopération entre agents 19

bad_bet Coopèrer jusqu à ce que l adversaire ne trahisse, Ensuite jouer successivement et pendant 4 coups chacun les stratégies : 1. tit_for_tat 2. all_c 3. spiteful 4. per_ccd Puis jouer pendant les 4 coups suivants la stratégie qui a rapporté le plus gros score pendant les 4 coups où elle a été utilisée. Recommencer ce choix tous les 4 coups. Laboratoire d'informatique Modèles et simulations informatiques des problèmes de coopération entre agents 20

Nouveaux critères Les évaluations de gradual et bad_bet montrent qu elles sont très supérieures à tit_for_tat. On obtient un classement : tit_for_tat <gradual <bad_bet Deux critères nouveaux semblent donc avoir été trouvé : au cours d une partie une stratégie doit savoir : faire évoluer sa réaction aux trahisons de l adversaire adapter cette réaction en fonction du comportement de l adversaire Ces deux critères accroissent la complexité des stratégies Laboratoire d'informatique Modèles et simulations informatiques des problèmes de coopération entre agents 21

Classes complètes (1) La définition objective d un grand nombre de stratégies nécessite une méthode descriptive de construction d un ensemble de stratégies Pour définir un ensemble de stratégies on peut par exemple : définir une structure capable d être décodée en un comportement à adopter face à un adversaire utiliser toutes les manières possibles de remplir cette structure comme autant de stratégies = approche génétique de la définition des individus Laboratoire d'informatique Modèles et simulations informatiques des problèmes de coopération entre agents 22

Classes complètes (2) Considérons les stratégies qui ne se souviennent que de leur dernier coup et du dernier coup de leur adversaire. On peut définir une de celles ci par : le premier coup je joue C puis si au coup d avant j ai joué C et que lui a joué C alors je joue si au coup d avant j ai joué C et que lui a joué D alors je joue si au coup d avant j ai joué D et que lui a joué C alors je joue si au coup d avant j ai joué D et que lui a joué D alors je joue C D C D On peut alors définir le génotype de cette stratégie comme : C C D C D 2 5 stratégies différentes Laboratoire d'informatique Modèles et simulations informatiques des problèmes de coopération entre agents 23

Classes complètes (3) Plusieurs classes créées et utilisées : memory memory_with_dynamic_start memory_with_limited_dynamic_start binary binary_with_dynamic_start moore mealy classe complète = évolution impliquant toutes les stratégies d une classe Les classes complètes permettent : d évaluer des stratégies dans un environnement large de rechercher des bons comportements Laboratoire d'informatique Modèles et simulations informatiques des problèmes de coopération entre agents 24

Population size 35000 30000 25000 20000 15000 10000 Classes complètes (4) mem_1_2+bad_bet+tit_for_tat+gradual bad_bet mem_1_2_cccdcddcdd mem_1_2_cccdcddccd mem_1_2_cccdcdcccd mem_1_2_cccdcdddcd mem_1_2_cccdcdcdcd mem_1_2_cccccddddd mem_1_2_cccccddcdd mem_1_2_cccdcddddd mem_1_2_cccddddcdd mem_1_2_cccdcdccdd mem_1_2_ccccdddcdd gradual mem_1_2_cccdddcccd tit_for_tat mem_1_2_cccddddccd mem_1_2_cccdddcdcd mem_1_2_cccdcdcddd mem_1_2_cccccdcddd mem_1_2_cccccdccdd 5000 0 0 20 40 60 80 100 120 140 Generations Laboratoire d'informatique Modèles et simulations informatiques des problèmes de coopération entre agents 25

Classes complètes (5) Classe Taille Meilleure Générations gradual bad_bet mem_0_1 8 mem_0_1_ccd 33 1 1 mem_0_2 64 mem_0_2_cccdcd 250 5 1 mem_1_1 32 mem_1_1_ccddd 20 2 1 mem_1_2 1 024 mem_1_2_cccdcddcdd 175 10 1 mem_2_1 1 024 mem_2_1_dccdcdcddd 8 647 memd_0_2 128 memd_0_2_ccccdcd 422 1 memd_1_2 2 048 memd_1_2_ccccdcddcdd 75 15 1 memd_2_1 2 048 memd_2_1_dcccdcdcddd 10 000 memld_0_3 4 096 memld_0_3_dddccccccdcd 15 000 1 bin_0_1 32 bin_0_1_cddcc 57 1 1 bin_0_2 1 024 bin_0_2_dcddcdcccd 10 842 1 bin_1_1 512 bin_1_1_ccdddcdcc 70 1 11 bind_0_2 2 048 bind_0_2_cccccddccdd 15 000 1 moore_0_1_2 128 moore_0_1_cd_00111 30 3 1 moore_1_1_2 2 048 moore_1_1_cd_001111101 31 1 mealy_0_1_2 1 024 mealy_0_1_c0c0c1c1d1 156 1 1 Laboratoire d'informatique Modèles et simulations informatiques des problèmes de coopération entre agents 26

Conclusions Vérification des résultats du cas continu dans le cas discret De nouveaux arguments en défaveur de la simplicité des comportements : dynamiques non monotones critère de qualité à complexité croissante : évolution des réactions adaptations des réactions mauvais comportement de tit_for_tat dans des évolutions de grande ampleur Tous les travaux sont reproductibles aisément (simulateur logiciel disponible librement) Laboratoire d'informatique Modèles et simulations informatiques des problèmes de coopération entre agents 27

Perspectives Essayer de faire des simulations encore plus grandes (classes complètes) Poursuivre l étude du dilemme itéré de l ascenceur Diffusion des résultats, via entre autre le web, pour essayer de trouver des vérifications plus pratiques de nos résultats Étude de modèles moins simples, et plus abstraits de coopération Laboratoire d'informatique Modèles et simulations informatiques des problèmes de coopération entre agents 28