Beruflich Dokumente
Kultur Dokumente
Sebastien Konieczny
konieczny@cril.univ-artois.fr
Un peu dhistoire...
Cournot (1838), Borel (1921) Zermelo (1913) Von Neumann (1928)
Theory of Games and Economic Behaviour, Von Neumann et Morgenstern (1944)
Bibliographie
` la theorie M. Yildizoglu. Introduction a des jeux. Dunod. 2003. D. Kreps. Theorie des jeux et modelisation economique . Dunod. 1990.
D. Luce, H. Raiffa. Games and Decision. Wiley. 1957. P. K. Dutta. Strategies and Games. MIT Press. 1999. D. Fudenberg, J. Tirole. Game Theory. MIT Press. 1991. J. Von Neumann, O. Morgenstern. Theory of Game and Economic Behavior. Princeton University Press. 1944.
Plan du cours
Introduction - Formalisation dun jeu - Jeu sous forme normale - Jeu sous forme extensive - Stratgie Concepts de solution - Stratgies dominantes Equilibre de Nash - Critre de Pareto - Niveau de scurit - Stratgies mixtes Rsolution par chainage arrire - Menaces crdibles - Equilibres parfaits en sous-jeux Jeux somme nulle Jeux rpts - Dilemme itr du prisonnier Jeux information incomplte Jeux coopratifs - Marchandage
Joueur 1
x y
Utilit
Une hypothse de base de la thorie des jeux est de considrer que les agents sont rationnels, cest--dire quils tentent darriver la situation la meilleure pour eux.
la mesure de chaque situation aux yeux de lagent. On appelle Utilite nest ni une mesure du gain matriel, montaire, etc. mais une L Utilite mesure subjective du contentement de lagent.
Utilit
Une hypothse de base de la thorie des jeux est de considrer que les agents sont rationnels, cest--dire quils tentent darriver la situation la meilleure pour eux.
la mesure de chaque situation aux yeux de lagent. On appelle Utilite nest ni une mesure du gain matriel, montaire, etc. mais une L Utilite mesure subjective du contentement de lagent.
Utiliser une fonction dutilit pour dnir les prfrences de lagent ne suppose pas que lagent utilise cette fonction, mais quil raisonne conformment un ensemble de conditions de rationalit. Von Neuman et Morgenstern (1944), Savage (1954).
y u (2,5)
2
v (9,0)
y u (2,5)
C v
Joueur 2
(9,0)
x s B (4,2) t (3,1)
y u (2,5)
C v
(9,0)
x u B (4,2) v (3,1)
y u (2,5)
C v
(9,0)
x u B (4,2) v (3,1)
y u (2,5)
C v
(9,0)
Stratgie
Une strategie pure du joueur i est un plan daction qui prescrit une action de ce joueur pour chaque fois quil est susceptible de jouer. On note par Si lensemble des stratgies pures du joueur i et par si une stratgie pure de ce joueur.
y u (2,5)
C v
(9,0)
s4 3,1 9,0
C v
(9,0)
s1: u si x, u si y s3: v si x, u si y
s2: u si x, v si y s4: v si x, v si y
` la Theorie Introduction a des Jeux p.19/77
Joueur 1
x y
Joueur 1
x y
Joueur 1
x y
Joueur 1
x y
Une stratgie si est (strictement) domine pour le joueur i si il existe une stratgie si telle que pour tous les prols si
i (si , si ) > i (si , si )
Joueur 1
x y
Une stratgie si est faiblement domine pour le joueur i si il existe une stratgie si telle que pour tous les prols si
i (si , si ) i (si , si )
Joueur 1
x y z
Joueur 1
x y z
Joueur 1
x y z
Joueur 1
x y z
Joueur 1
x y z
Equilibre de Nash
Joueur 2 u 3,0 2,0 0,3 v 0,2 1,1 0,2 w 0,3 2,0 3,0
Joueur 1
x y z
Equilibre de Nash
Joueur 2 u 3,0 2,0 0,3 v 0,2 1,1 0,2 w 0,3 2,0 3,0
Joueur 1
x y z
Equilibre de Nash
Joueur 2 u 3,0 2,0 0,3 v 0,2 1,1 0,2 w 0,3 2,0 3,0
Joueur 1
x y z
Equilibre de Nash
Joueur 2 u 3,0 2,0 0,3 v 0,2 1,1 0,2 w 0,3 2,0 3,0
Joueur 1
x y z
Equilibre de Nash
Joueur 2 u 3,0 2,0 0,3 v 0,2 1,1 0,2 w 0,3 2,0 3,0
Joueur 1
x y z
Equilibre de Nash
Joueur 2 u 3,0 2,0 0,3 v 0,2 1,1 0,2 w 0,3 2,0 3,0
Joueur 1
x y z
Equilibre de Nash
Joueur 2 u 3,0 2,0 0,3 v 0,2 1,1 0,2 w 0,3 2,0 3,0
Joueur 1
x y z
Equilibre de Nash
Joueur 2 u 3,0 2,0 0,3 v 0,2 1,1 0,2 w 0,3 2,0 3,0
Joueur 1
x y z
de Nash est une situation telle quaucun joueur La notion dequilibre na intrt dvier (seul) de la situation obtenue.
de Nash est un prol de stratgies s = {s Un equilibre 1 , . . . , sn } tel que pour tout joueur i, pour toute stratgie s Si : i (s 1 , si ) i (s , si )
Un quilibre de Nash est un prol s tel que la stratgie du joueur i est une meilleure rponse:
s i Bi (si ) pour tout i N
Deux quilibres de Nash s et s sont quivalents si ils donnent la mme utilit tous les joueurs, i.e. pour tout i N i (s ) = i (s ).
Critre de Pareto
Joueur 2 u 4,4 2,3 v 3,1 7,5
Joueur 1
x y
Critre de Pareto
Joueur 2 u 4,4 2,3 v 3,1 7,5
Joueur 1
x y
Un prol s domine un prol s au sens de Pareto si il est au moins aussi bon pour tous les joueurs et si s est strictement meilleur pour au moins lun dentre eux, i.e. pour tout si s et si s on a si si et il existe sj s et sj s tel que sj > sj .
Critre de Pareto
Joueur 2 u 4,4 2,3 v 3,1 7,5
Joueur 1
x y
Un prol s domine un prol s au sens de Pareto si il est au moins aussi bon pour tous les joueurs et si s est strictement meilleur pour au moins lun dentre eux, i.e. pour tout si s et si s on a si si et il existe sj s et sj s tel que sj > sj . Un prol s domine strictement un prol s au sens de Pareto si s est strictement meilleur pour tous les joueurs, i.e. pour tout s i s et si s on a si > si .
` la Theorie Introduction a des Jeux p.26/77
Joueur 1
x y
Joueur 1
x y
dune strategie On dnit le niveau de securit e si pour le joueur i comme le gain minimum que peut apporter cette stratgie quel que soit le choix des autres joueurs, soit
min i (si , si )
si
dun joueur i comme le niveau de scuOn dnit le niveau de securit e rit maximal des stratgies de i.
Points focaux
Le problme pos par la multiplicit dquilibres de Nash est un problme de coordination. Pour certains jeux, certains quilibres semblent plus vidents que dautres aux joueurs. Cela est du certaines conventions sociales. Ces quilibres de Nash obtenus partir de ces conventions sont appels points focaux.
Joueur 1
f c
Joueur 1
f c
Joueur 1
f c
Sur cet exemple le niveau de scurit des deux joueurs est 0. Supposons que le joueur 1 joue alatoirement f et c avec une probabilit de 1/2
1 (< (f, 1/2), (c, 1/2) >, f ) = 1/2 2 + 1/2 0 = 1 1 (< (f, 1/2), (c, 1/2) >, c) = 1/2 0 + 1/2 1 = 1/2
Joueur 1
f c
Sur cet exemple le niveau de scurit des deux joueurs est 0. Supposons que le joueur 1 joue alatoirement f et c avec une probabilit de 1/2
1 (< (f, 1/2), (c, 1/2) >, f ) = 1/2 2 + 1/2 0 = 1 1 (< (f, 1/2), (c, 1/2) >, c) = 1/2 0 + 1/2 1 = 1/2
Lensemble des stratgies mixtes dun joueur i se note i . Lensemble des stratgies pures utilises (i.e. dont la probabilit nest pas nulle) par une stratgie mixte i est appel le support de la stratgie mixte. Notons pi (sk ) la probabilit associe sk par i , lutilit dun prol de stratgies mixtes est dnie par :
n X Y i ( ) = ( pj (sj ))i (s) sS j =1
Stratgie
Une strategie pure du joueur i est un plan daction qui prescrit une action de ce joueur pour chaque fois quil est susceptible de jouer. On note par Si lensemble des stratgies pures du joueur i et par si une stratgie pure de ce joueur.
Stratgie
Une strategie pure du joueur i est un plan daction qui prescrit une action de ce joueur pour chaque fois quil est susceptible de jouer. On note par Si lensemble des stratgies pures du joueur i et par si une stratgie pure de ce joueur. Une strategie mixte du joueur i est une distribution de probabilits p i dnie sur lensemble des stratgies pures du joueur i. On note i lensemble des stratgies mixtes du joueur i et par i une stratgie mixte de ce joueur.
Stratgie
Une strategie pure du joueur i est un plan daction qui prescrit une action de ce joueur pour chaque fois quil est susceptible de jouer. On note par Si lensemble des stratgies pures du joueur i et par si une stratgie pure de ce joueur. Une strategie mixte du joueur i est une distribution de probabilits p i dnie sur lensemble des stratgies pures du joueur i. On note i lensemble des stratgies mixtes du joueur i et par i une stratgie mixte de ce joueur. Une strategie locale du joueur i en un ensemble dinformation A est une distribution de probabilits sur lensemble des actions disponibles en cet ensemble dinformation. On note iA lensemble des stratgies locales du joueur i pour lensemble dinformation A et iA une stratgie locale de ce joueur en A. Une strategie comportementale du joueur i est un vecteur de stratgies locales de ce joueur, contenant une stratgie locale par ensemble dinformation de ce joueur. On note i lensemble des stratgies comportementales du joueur i, et i une stratgie comportementale de ce joueur.
` la Theorie Introduction a des Jeux p.31/77
Joueur 1
f c
x 1x
Soit x la probabilit avec laquelle le joueur 1 joue f, pour quel x maximise-t-il son niveau de scurit ?
Joueur 1
f c
x 1x
Soit x la probabilit avec laquelle le joueur 1 joue f, pour quel x maximise-t-il son niveau de scurit ?
1 (< (f, x), (c, 1 x) >, f ) 1 (< (f, x), (c, 1 x) >, c) = = x 2 + (1 x) 0 x 0 + (1 x) 1 = = 2x 1x
Joueur 1
f c
x 1x
Soit x la probabilit avec laquelle le joueur 1 joue f, pour quel x maximise-t-il son niveau de scurit ?
1 (< (f, x), (c, 1 x) >, f ) 1 (< (f, x), (c, 1 x) >, c) = = x 2 + (1 x) 0 x 0 + (1 x) 1 = = 2x 1x
Joueur 1
f c
x 1x
Soit x la probabilit avec laquelle le joueur 1 joue f, pour quel x maximise-t-il son niveau de scurit ?
1 (< (f, x), (c, 1 x) >, f ) 1 (< (f, x), (c, 1 x) >, c) = = x 2 + (1 x) 0 x 0 + (1 x) 1 = = 2x 1x
Joueur 1
f c
x 1x
Soit x la probabilit avec laquelle le joueur 1 joue f, pour quel x maximise-t-il son niveau de scurit ?
1 (< (f, x), (c, 1 x) >, f ) 1 (< (f, x), (c, 1 x) >, c) = = x 2 + (1 x) 0 x 0 + (1 x) 1 = = 2x 1x
Le niveau de scurit du joueur 1 est donc de 2/3. Que se passe-t-il si le joueur 2 est averti que le joueur 1 va jouer cette stratgie ?
` la Theorie Introduction a des Jeux p.33/77
2x
0 1/3 2/3 1
x
` la Theorie Introduction a des Jeux p.34/77
0 1/3 2/3 1
x 1x
` la Theorie Introduction a des Jeux p.34/77
2x
0 1/3 2/3 1
x 1x
` la Theorie Introduction a des Jeux p.34/77
Si 2y > 1 y (y > 1/3), la meilleure rponse du joueur 1 est de jouer f Si 2y < 1 y (y < 1/3), la meilleure rponse du joueur 1 est de jouer c Si 2y = 1 y (y = 1/3), le joueur 1 est indiffrent entre f et c, il peut donc jouer lune ou lautre, ou nimporte quelle combinaison des deux.
Si x < 2(1 x) (x < 2/3), la meilleure rponse du joueur 2 est de jouer c Si x = 2(1 x) (x = 2/3), le joueur 2 est indiffrent entre f et c, il peut donc jouer lune ou lautre, ou nimporte quelle combinaison des deux.
` la Theorie Introduction a des Jeux p.36/77
Le prol = (< (f, 2/3), (c, 1/3) >, < (f, 1/3), (c, 2/3) >) est donc un quilibre de Nash en stratgie mixte.
Le prol = (< (f, 2/3), (c, 1/3) >, < (f, 1/3), (c, 2/3) >) est donc un quilibre de Nash en stratgie mixte. Les gains des deux joueurs avec sont : 1 ( ) = 3.2/3.1/3 2/3 1/3 + 1 = 2/3 2 ( ) = 3.2/3.1/3 2.2/3 2.1/3 + 2 = 2/3
` la Theorie Introduction a des Jeux p.37/77
2/3
1/3
joueur1
1/3
2/3
joueur2
2/3
1/3
joueur1
1/3
2/3
joueur2
2/3
1/3
joueur1
r
0 1/3 2/3 1
x
` la Theorie Introduction a des Jeux p.38/77
Joueur 1
f c
Joueur 1
f c
Que se passe-t-il si les 2 joueurs peuvent communiquer avant de jouer ? 1 = 2 = 1/2 2 + 1/2 1 = 3/2
Joueur 1
f c
Que se passe-t-il si les 2 joueurs peuvent communiquer avant de jouer ? 1 = 2 = 1/2 2 + 1/2 1 = 3/2 Lorsque tous les joueurs peuvent observer un mme vnement alatoire, ils peuvent alors saccorder sur des quilibres corrls Une stratgie corrle est une distribution de probabilits sur les prols possibles.
Joueur 1
f c
Que se passe-t-il si les 2 joueurs peuvent communiquer avant de jouer ? 1 = 2 = 1/2 2 + 1/2 1 = 3/2 Lorsque tous les joueurs peuvent observer un mme vnement alatoire, ils peuvent alors saccorder sur des quilibres corrls Une stratgie corrle est une distribution de probabilits sur les prols possibles. Que se passe-t-il si la partie est joue plusieurs fois ?
` la Theorie Introduction a des Jeux p.39/77
Joueur 1
C D
[DIP] Le dilemme . . .
Introduction par F LOOD et D RESHER la RAND Corp. en 1952 Jeu somme non-nulle 2 joueurs jouent simultanment 2 choix de jeux : COOP ERER , i.e. tre gentil, on notera C TRAHIR , i.e. tre mchant, on notera D Les gains des joueurs, nots S , P , R et T , sont fonction de leur choix de jeu avec : (0) S<P <R<T
S + T < 2R
Dilemme. . . . . . itr
Cooperate
Defect
S=0 Suckers payoff salaire de la dupe P =1 Punishment punition pour la trahison mutuelle
Defect
2 0 C
D 5
3 0 C
D 5
4 0 C
D 5
5 0 C
D 5
6 0 C
D 5
7 0 C
D 5
8 0 C
D 5
9 0 C
D 5
10 0 C
D 5
50
3 C
C 3
3 C
C 3
5 D
C 0
0 C
D 5
0 C
D 5
1 D
D 1
0 C
D 5
0 C
D 5
1 D
D 1
0 C
D 5
13
33
30 0 21 30 81
50 10 38 14 112
36 3 24 13 76
mchante rancunire gentille per_CCD
30 9 33 30 102
Score
[DIP] Un tournoi
Tournois entre 10 stratgies parmi 12 :
gentille mchante lunatique donnant_donnant rancunire per_DDC per_CCD majoritaire_gentille majoritaire_mchante mante sondeur donnant_donnant_dur
[DIP] Un tournoi
gentille mchante lunatique donnant_donnant rancunire per_DDC per_CCD majoritaire_gentille donnant_donnant majoritaire_gentille rancunire sondeur lunatique mchante majoritaire_mchante mante sondeur donnant_donnant_dur
Scores :
: : : : : :
42 19 4 1 0 0
350
300
250
200
150
100
50
10
12
14
16
18
20
Jeux rpts
Soit un jeu G = {S, {i }i=1,...,n }, o S est lensemble (ni) des prols de stratgies et i est la fonction dutilit du joueur i. On note (G, T ) le jeu rpt obtenu en jouant T fois le jeu de base G. Lorsque le jeu est rpt un nombre inni de fois, on note (G, ) le jeu correspondant.
Jeux rpts
Soit un jeu G = {S, {i }i=1,...,n }, o S est lensemble (ni) des prols de stratgies et i est la fonction dutilit du joueur i. On note (G, T ) le jeu rpt obtenu en jouant T fois le jeu de base G. Lorsque le jeu est rpt un nombre inni de fois, on note (G, ) le jeu correspondant. On peut galement distinguer les jeux rpts un nombre ni, mais indni de fois: chaque tour, il y a une probabilit 1 q que le jeu sarrte.
Jeux rpts
Soit un jeu G = {S, {i }i=1,...,n }, o S est lensemble (ni) des prols de stratgies et i est la fonction dutilit du joueur i. On note (G, T ) le jeu rpt obtenu en jouant T fois le jeu de base G. Lorsque le jeu est rpt un nombre inni de fois, on note (G, ) le jeu correspondant. On peut galement distinguer les jeux rpts un nombre ni, mais indni de fois: chaque tour, il y a une probabilit 1 q que le jeu sarrte. Facteur dactualisation : Lorsquun jeu est rpt, il se peut que les gains obtenus litration courante t soient plus/moins importants aux yeux de lagent que les gains litration suivante t+1 . Pour modliser cela on peut utiliser un facteur dactualisation .
t = t+1
Le facteur dactualisation = t /t+1 reprsente donc lattrait du joueur pour les gains actuels. ` la Theorie Introduction a des Jeux p.59/77
Pour pouvoir comparer le gain dans le cas du jeu rpt celui du jeu de base, on utilise la moyenne des gains du joueur: i (G, T )/T
Pour pouvoir comparer le gain dans le cas du jeu rpt celui du jeu de base, on utilise la moyenne des gains du joueur: i (G, T )/T Si ti (t) = , alors i (G, ) =
1 1
Pour pouvoir comparer le gain dans le cas du jeu rpt celui du jeu de base, on utilise la moyenne des gains du joueur: i (G, T )/T Si ti (t) = , alors i (G, ) =
1 1
Thorme Folk: Soit un jeu rpt (G, ) avec un facteur dactualisation sufsamment proche de 1 et = (1 , . . . , 2 ) un vecteur de gains ralisable de ce jeu, alors il existe un quilibre de Nash du jeu rpt qui donne comme vecteur de gains.
Pour pouvoir comparer le gain dans le cas du jeu rpt celui du jeu de base, on utilise la moyenne des gains du joueur: i (G, T )/T Si ti (t) = , alors i (G, ) =
1 1
Thorme Folk: Soit un jeu rpt (G, ) avec un facteur dactualisation sufsamment proche de 1 et = (1 , . . . , 2 ) un vecteur de gains ralisable de ce jeu, alors il existe un quilibre de Nash du jeu rpt qui donne comme vecteur de gains. Lquilibre de Nash en question est un quilibre de Nash parfait en sous-jeux (voir plus loin). Notion de menace crdible.
Pour pouvoir comparer le gain dans le cas du jeu rpt celui du jeu de base, on utilise la moyenne des gains du joueur: i (G, T )/T Si ti (t) = , alors i (G, ) =
1 1
Thorme Folk: Soit un jeu rpt (G, ) avec un facteur dactualisation sufsamment proche de 1 et = (1 , . . . , 2 ) un vecteur de gains ralisable de ce jeu, alors il existe un quilibre de Nash du jeu rpt qui donne comme vecteur de gains. Lquilibre de Nash en question est un quilibre de Nash parfait en sous-jeux (voir plus loin). Notion de menace crdible. Ce rsultat signie que lensemble des quilibres de Nash dun jeu rpt est immense: quasiment toute squence (nie) de jeu correspond un quilibre de Nash.
Joueur 1
x1 x2 x3 x4
Joueur 1
x1 x2 x3 x4
Joueur 1
x1 x2 x3 x4
Le joueur 1 tente de maximiser son niveau de scurit vx = maxi (minj (xi , yj )) Le joueur 2 tente de minimiser le niveau de scurit du joueur 1 vy = minj (maxi (xi , yj ))
Joueur 1
x1 x2 x3 x4
Le joueur 1 tente de maximiser son niveau de scurit vx = maxi (minj (xi , yj )) Le joueur 2 tente de minimiser le niveau de scurit du joueur 1 vy = minj (maxi (xi , yj )) Si vx = vy = v , alors tout couple de stratgies (xi , yi ), xi garantissant v au joueur 1 et yi garantissant v au joueur 2 forment un quilibre de Nash et sont des stratgies respectivement maximin et minimax pour les joueurs 1 et 2. ` la Theorie Introduction a des Jeux p.62/77
x (3,0,0) w (4,2,4)
1 y
2
x (3,0,0) w (4,2,4)
1 y
2
Rcurrence rebours (backward induction) On commence par chercher les choix optimaux la dernire priode (noeuds terminaux). On remonte larbre de noeud en noeud, en cherchant chaque noeud le choix optimal, une fois quon a pris en compte les choix optimaux pour chaque noeud ls.
` la Theorie Introduction a des Jeux p.63/77
y 2 v r z (-2,2) 1 2 s
w (-2,2)
z (2,-2)
Un sous-jeu dun jeu sous forme extensive est un jeu compos dun noeud (qui est un ensemble dinformation singleton), de tous les noeuds successeurs de ce noeud, de tous les arcs reliant ces noeuds, et des utilits associes tous les noeuds terminaux successeurs.
Joueur 2
Joueur 2
lquilibre de Nash xv nest pas crdible car il repose sur la menace non-crdible du joueur 2 de jouer v .
Pour les jeux informations parfaites, la notion dquilibre parfait en sous-jeux concide avec la notion de rcurrence rebours.
(2,-1)
(1,1)
(0,0)
(2,-1)
(1,1)
(0,0)
Rputation
1 D (1,1)
2 d (0,3)
1 D (2,2) R
1 ... D (98,98)
2 d (97,100)
1 D (99,99)
2 d
(100,100)
(98,101)
Ecrire ce jeu sous forme extensive en ne considrant que les partages (5,5) et (8.5,1.5) pour 1 et le partage (0.5,0.5) pour 2.
ralisables appartenant lespace de marchandage efcientes telles quaucune autre issue ne donne plus un joueur et autant lautre (non pareto-domine) individuellement rationnelles chaque joueur gagne au moins autant que le gain quil est sur dobtenir si il ny a pas daccord.
Conclusion
Jeux coopratifs Jeux information incomplte Rationalit limite