Sie sind auf Seite 1von 8

Théorie des jeux, ches de cours, 4BIM, Emmanuel Risler

Introduction, préliminaires
• Références :
 Von Neumann - Morgenstern, Theory of games and economic behavior, 1944
 J. Maynad-Smith, Evolution and the theory of games, 1982
 J. Hofbauer et K. Sigmund, Evolutionary Games and Population Dynamics, 1998
 J. Hofbauer et K. Sigmund, The Theory of Evolution and Dynamical Systems : Mathematical
Aspects of Selection, 2000
• Dénition : on appelle jeu à n joueurs la donnée de :
 pour chaque joueur numéroté i ∈ {1, . . . , n}, un ensemble Si (l'ensemble de ses stratégies
possibles)
 pour chaque joueur, une fonction de paiement πi : S1 × . . . × Sn → R.
L'objectif de chaque joueur est de maximiser son paiement, c'est-à-dire la valeur de πi (x1 , . . . , xn ),
où x 1 ∈ S1 , . . . , x n ∈ Sn sont les stratégies adoptées par les joueurs. Pour cela, chaque joueur
est libre de choisir sa stratégie, mais évidemment pas celle des autres joueurs.

L'objectif de la théorie des jeux est de tenter de formaliser quel doit être le comportement
rationnel de chaque joueur.

Remarques : les individus peuvent être identiques (ensembles Si identiques, fonctions πi symé-
triques) ou diérents ; les ensembles Si peuvent être des ensembles discrets ou continus.

• La dénition précédente est en réalité insusamment précise, et de nombreuses variantes


sont possibles :
 Les joueurs peuvent jouer simultanément ou à tour de rôle.
 Le jeu peut être répété ou non.
 Les joueurs peuvent être plus ou moins bien renseignés (on parle d' information complète ou
incomplète) : sur les stratégies possibles des autres joueurs et sur leurs fonctions de paiement
πi , dans le cas d'un jeu répété ils peuvent avoir une mémoire plus ou moins bonne des
occurrences antérieures du jeu, etc
 A partir d'un jeu donné, on peut en construire un autre dans lequel les joueurs jouent non
plus une stratégie, mais une distribution de probabilités sur leur ensemble de stratégie, et
reçoivent en retour l'espérance de leur paiement (ceci permet de modéliser, par exemple, une
moyenne dans le temps ou sur une population de joueurs).
 On peut imaginer une version dynamique du jeu, dans lequel chaque joueur est libre de
faire évoluer, mais de façon continue, sa stratégie au cours du temps (par exemple pour des
modèles d'évolution d'espèces vivantes).
• On appelle optimum de Pareto un n-uplet (x1, . . . , xn) ∈ S1 ×. . .×Sn pour laquelle l'assertion
suivante est FAUSSE :

Il existe (y1 , . . . , yn ) ∈ S1 × . . . × Sn tel que :

1. ∀i ∈ {1, . . . , n}, πi (x1 , . . . , xn ) ≤ πi (y1 , . . . , yn ),


2. ∃i ∈ {1, . . . , n} tel que πi (x1 , . . . , xn ) < πi (y1 , . . . , yn ).

1
Autrement dit, un optimum de Pareto est une situation dans laquelle il n'est pas possible
d'améliorer le sort d'un individu sans détériorer le sort des autres.

Sous des conditions très générales (ensembles Si compacts, fonctions de paiement continues)
on peut montrer qu'il existe au moins un optimum de Pareto.

• On appelle équilibre de Nash un n-uplet (x1 , . . . , xn ) ∈ S1 × . . . × Sn vériant : pour tout


i ∈ {1, . . . , n}, et pour tout yi ∈ Si , on a :
πi (x1 , . . . , xi−1 , yi , xi+1 , . . . , xn ) ≤ πi (x1 , . . . , xi−1 , xi , xi+1 , . . . , xn ) .

Ainsi, un équilibre de Nash est une situation dans laquelle aucun des joueurs n'a intérêt à
modier sa propre stratégie si dans le même temps les stratégies des autres joueurs restent
identiques.

• Pour parler de jeu il faut qu'il y ait au moins deux joueurs. Un jeu à deux joueurs (notés 1,
2) est dit :
 symétrique si S1 = S2 et, pour tout (x1, x2) ∈ S12, π1(x1, x2) = π2(x2, x1).
 à somme nulle si, pour tout (x1, x2) ∈ S12, π1(x1, x2) + π2(x1, x2) = 0 (tout gain d'un des
joueurs se traduit par une perte pour l'autre).

Exemples
Le type le plus simple de jeu est celui où il y a seulement deux joueurs, chaque joueur ayant
deux stratégies possibles, S1 = S2 = {1, 2}. Dans ce cas, le jeu peut être représenté par une
matrice des paiements P , matrice 2 × 2 dont chaque entrée contient les paiements des joueurs :
Pij = (π1 (i, j), π2 (i, j)).
Par convention, la matrice des paiements du joueur1 est la matrice A dénie par : Aij = π1 (i, j)
et la matrice des paiements du joueur 2 est la matrice B dénie par : Bij = π2 (j, i). Ainsi, le
jeu est symétrique si et seulement si A = B (et dans ce cas la matrice A = B des paiements
d'un seul joueur sut à caractériser le jeu).

Pour rechercher les équilibres de Nash, on peut par exemple représenter par des èches (voir
ci-dessous) quelle est la meilleure stratégie, pour chacun des deux joueurs, en réponse à l'une
ou l'autre des deux stratégies possibles de l'autre joueur.

• Dilemne du prisonnier (stratégies : vertueux/tricheur) :

V T →
V (1, 1) (−2, 2) ↓ ↓
T (2, −2) (−1, −1) →
(trois optima de Pareto, et un équilibre de Nash qui n'est pas Pareto optimal).

• Jeu du croisement (stratégies : agressif/prudent) :

C NC →
C (0, 0) (−1, 1) ↓ ↑
NC (1, −1) (−10, −10) ←

2
(bistabilité, deux équilibres de Nash, trois optima de Pareto).

• Jeu faucon-colombe (partage d'une ressource R, avec un coût D en cas d'arontement) :

C F → →
C (R/2, R/2) (0, R) si D > R :↓ ↑, si D < R :↓ ↓
F (R, 0) ( R−D
2
, R−D
2
) ← →

Le jeu faucon colombe est donc, du point de vue des meilleurs stratégies de réponses et des équi-
libres de Nash, analogue au dilemne du prisonnier si D < R, et analogue au jeu du croisement
si D > R.
• Les trois jeux précédents étaient symétriques. Voici un exemple de jeu asymétrique, le jeu
de celui qui cherche à se diérencier, et de celui qui cherche à imiter :

α β →
α (2, 0) (0, 1) ↑ ↓
β (−1, 2) (1, −1) ←

(pas d'équilibre de Nash, le nombre d'optima de Pareto peut varier entre 2 et 4 suivant les
valeurs des paiements, ici il y en a trois).

• Pour les matrices de paiement (du joueur 1 si le jeu est symétrique, des joueurs 1 et 2 sinon),
on a donc, pour ces diérents jeux :
1 −2
 
 dilemne du prisonnier : A= ,
2 −1
0 −1
 
 jeu du croisement : A = ,
1 −10
R/2 0
 
 jeu faucon-colombe : A = ,
R R−D2 
2 0 0 2
 
 jeu diérent/semblable : A = , B= .
−1 1 1 −1
• Du point de vue des meilleures stratégies de réponses, on montre facilement que tout jeu à
deux joueurs, chaque joueur ayant deux stratégies, est (à un changement de variables près) de
l'un des types rencontrés ci-dessus :


 monostable : ↓ ↓,


 bistable : ↓ ↑,


 cyclique : ↑ ↓.

• Bataille des sexes : conit entre mâles et femelles à propos de leur investissement respectif
dans leur descendance.

Les femelles sont a priori désavantagées pour deux raisons :

3
1. elles peuvent être abandonnées avant même de mettre au monde les petits

2. elles produisent des gamètes de grande taille en petit nombre, contrairement aux mâles

Les mâles sont donc tentés de proter de cet état de fait pour déserter les femelles fécondées
an d'aller en féconder d'autres. La stratégie des femelles en réponse est d'exiger d'être long-
temps courtisées avant de consentir à s'accoupler. Ce comportement a un coût pour les deux
partenaires, mais du point de vue des femelles il présente l'intérêt de dissuader les mâles de se
montrer indèles.

On peut modéliser ce phénomène à l'aide du jeu suivant :


 stratégies des mâles : inconstant I, constant C
 stratégies des femelles : diciles D, faciles F
Les données sont, pour une descendance : gain G, coût −C , réparti équitablement ou bien
seulement supporté par la femelle selon que le mâle est dèle ou non, enn coût de la période
de cour (d'engagement) si celle-ci est exigée par la femelle : −E . Ce qui donne la matrice des
paiements :

D F ←
I (0, 0) (G, G − C) ↓ ↑
C (G − C/2 − E, G − C/2 − E) (G − C/2, G − C/2) →

(on suppose que 0 < E < G < C < 2(G−E), la dernière inégalité signiant : G−C/2−E > 0).
Les matrices des paiements des deux joueurs sont donc :

0 G 0 G − C/2 − E
   
A= , B= .
G − C/2 − E G − C/2 G−C G − C/2

Encore quelques dénitions


On considère à nouveau le cas général d'un jeu à n joueurs, et on reprend les notations de
l'introduction.

• Une stratégie si ∈ Si est dite dominante (pour le joueur i) si :


∀(s01 , . . . , s0n ) ∈ S1 × . . . × Sn , πi (s01 , . . . , s0i−1 , si , s0i+1 , . . . , s0n ) ≥ πi (s01 , . . . , s0i−1 , s0i , s0i+1 , . . . , s0n ).

Exemple : dans le dilemne du prisonnier, la stratégie non coopérative est dominante.

• Une stratégie si ∈ Si est dite dominée (pour le joueur i) s'il existe s0i ∈ Si tel que :
∀(s1 , . . . , si−1 , si+1 , . . . , sn ) ∈ S1 × . . . × Si−1 × Si+1 × . . . × Sn ,

πi (s1 , . . . , si−1 , si , si+1 , . . . , sn ) ≤ πi (s1 , . . . , si−1 , s0i , si+1 , . . . , sn ).

• On appelle paiement minimum garanti du joueur i la quantité :


 
max min πi (s1 , . . . , sn ) .
si ∈Si (s1 ,...,si−1 ,si+1 ,...,sn )∈S1 ×...×Si−1 ×Si+1 ×...×Sn

4
On appelle stratégie prudente pour le joueur i tout si ∈ Si qui réalise ce maxmin.
Par exemple, dans le jeu du croisement, la stratégie qui consiste à ne pas forcer le passage est
une stratégie prudente.

• Dans un jeu à deux joueurs, on peut toujours regarder la version séquentielle du jeu, c'est-à-
dire dans laquelle un des deux joueurs (celui qui joue en second) est informé de la stratégie que
l'autre a jouée, et joue donc en fonction. Dans ce jeu, si les deux joueurs ont un comportement
rationnel, le paiement des deux joueurs est connu à l'avance dans la plupart des cas.

On dit qu'il y a lutte pour le premier coup si, pour chacun des deux joueurs, le paiement qu'il
reçoit dans le jeu séquentiel où il joue en premier est supérieur au paiement qu'il reçoit dans le
jeu séquentiel où il joue en second.

On dit qu'il y a lutte pour le premier coup si, pour chacun des deux joueurs, le paiement qu'il
reçoit dans le jeu séquentiel où il joue en second est supérieur au paiement qu'il reçoit dans le
jeu séquentiel où il joue en premier.

Par exemple, dans le jeu du croisement, il y a lutte pour le premier coup, et dans le jeu cyclique
il y a lutte pour le second coup.

Stratégies mixtes
• Considérons un jeu à deux joueurs, avec n stratégies possibles {1, . . . , n} pour chaque joueur
(il pourrait y en avoir un nombre diérent, mais pas dans les exemples considérés ici), notons
A et B les matrices de paiement des joueurs.

Dénitions : Une stratégie pure est un élément de {1, . . . , n}. Une stratégie mixte est une dis-
n
{1, . . . , n}, 0 ≤ pi ≤ 1,
P
tribution de probabilité (p1 , . . . , pn ) sur i=1 pi = 1.
Par convention, le jeu est dit en stratégie mixte lorsque chacun des joueurs adopte une stratégie
mixte, et que le gain de chaque joueur est calculé en moyenne (en espérance).

Notons P = (p1 , . . . , pn )T la stratégie (mixte) du joueur 1, et Q = (q1 , . . . , qn )T celle du joueur


2.
 Paiement du joueur 1
s'il joue une stratégie pure i : (AQ)i , i = 1, . . . , n.
 Paiement moyen du joueur 1 : P T AQ.
T
 Paiement moyen du joueur 2 : Q AP .

• Deux stratégies mixtes (P, Q) constituent un équilibre de Nash (pour le jeu en stratégies
mixtes) si et seulement si :

1. ∀(i, j) ∈ {1, . . . , n}2 , pi > 0 ⇒ (AQ)i ≥ (AQ)j ,


2. ∀(i, j) ∈ {1, . . . , n}2 , qi > 0 ⇒ (BP )i ≥ (BP )j .
• Dans le cas d'un jeu à deux joueurs où chacun des joueurs a deux stratégies possibles, on
T T
peut noter : P = (p, 1 − p) et Q = (q, 1 − q) .
 Cas du jeu faucon-colombe lorsque D<R : le seul équilibre de Nash est (p, q) = (0, 0) (et
de même dès qu'on est dans le cas monostable).

5
∗ ∗
 Cas du jeu faucon-colombe lorsque D > R : trois équilibres de Nash : (0, 1), (1, 0), et (p , p )

où p = 1 − R/D (et de même dès qu'on est dans le cas bistable, même si le jeu n'est pas
symétrique).
 Cas du jeu cyclique : Un seul équilibre de Nash (p, q)
0 < p < 1 et 0 < q < 1.
avec
On sent bien que dans le cas bistable, l'équilibre de Nash (p, q) pour lequel 0 < p < 1 et
0 < q < 1 a tendance à être instable, alors que les équilibres de Nash (0, 1) et (1, 0) ont plutôt
tendance à être stables. Pour préciser ces intuitions, on va introduire une dynamique sur l'espace
des stratégies mixtes.

Modèles de population et dynamique sur l'espace des stratégies mixtes


• Considérons tout d'abord une population d'individus dont chacun est caractérisé par une
stratégie (ou prol, ou phénotype) parmi n possibles dans {1, . . . , n}. Notons (x1 , . . . , xn ) les
eectifs de ces individus, et notons Wi = Wi (x1 , . . . , xn ) le gain associé à la stratégie i et aux
eectifs (x1 , . . . , xn ) des individus ayant adopté ces diérentes stragtégies. Si on suppose que
les stratégies se transmettent aux descendants, et si on suppose que le gain se traduit en termes
d'évolution des eectifs, on peut modéliser cette évolution par le système diérentiel :

ẋi = Wi xi .
Si on note pi = Pxixj (les proportions), on obtient :
j

ṗi X
= Wi − pj Wj
pi j

• On souhaite modéliser l'évolution de deux populations en interaction l'une avec l'autre


(comme par exemple pour la bataille des sexes). Pour cela on considère un jeu à deux joueurs,
chaque joueur ayant n stratégies possibles. Si on note A, B les matrices n × n de paiement des
deux joueurs, et (p1 , . . . , pn ), (q1 , . . . , qn ) les proportions des diérentes stragégies au sein des
deux populations, on voit que Wi = (AQ)i pour la première population et Wi = (BP )i pour la
seconde, ce qui donne :
ṗi
= (AQ)i − P T AQ
pi
q̇i
= (BP )i − QT BP
qi
• Si on souhaite modéliser l'évolution d'une seule population (comme par exemple pour le jeu
faucon-colombe), alors il sut de considérer le système diérentiel précédent avec p i = qi et
A=B :
ṗi
= (AP )i − P T AP
pi
• Dans le cas de la modélisation d'une seule population, si le jeu est à somme nulle, alors
AT = −A, ce qui entraîne P T AP = 0, et on obtient donc :
ṗi
= (AP )i
pi

6
Exemple : le jeu roc-ciseau-papier :

R C P
R 0 1 −1
C −1 0 1
P 1 −1 0

Dans ce cas, si on note P = (p, q, r)T (avec p + q + r = 1), le système diérentiel devient :

ṗ = p(q − r), q̇ = q(r − p), ṙ = r(p − q),

la quantitépqr est conservée, et on voit que les trajectoires sont toutes fermées (sur le simplexe
p + q + r = 1).
• Considérons maintenant le cas de deux population, modélisé par un jeu à deux joueurs,
T T
chaque joueur ayant deux stratégies possibles. Si on note P = (p, 1 − p) et Q = (q, 1 − q) ,
alors le système s'écrit :

ṗ q̇
= (AQ)1 − (AQ)2 , = (BP )1 − (BP )2
p(1 − p) q(1 − q)

= q(a11 − a21 ) + (1 − q)(a12 − a22 ),
p(1 − p)
et formule symétrique pour q.
On voit qu'on peut translater chacune des colonnes de
A d'une constante, et de même pour
0 a 0 c
  
B, autrement dit on peut supposer que : A = et B = , alors les formules
b 0 d 0
donnent :

ṗ a b q̇ c d
= − = f (q), = − = g(p).
p(1 − p)q(1 − q) q 1−q p(1 − p)q(1 − q) p 1−p

Si a>0 et b < 0, alors (↑, ↑), donc ṗ > 0, donc p → 1, et alors forcément q tend vers 0 ou 1
De même, si a<0 et b > 0, alors (↓, ↓), donc ṗ < 0, etc...

Donc le seul cas où la dynamique est non triviale


 est celui
 où ab > 0 et cd > 0. Dans ce cas on
c a
a un unique équilibre à l'intérieur du carré : ,
c+d a+b
.

Mais surtout, si on note F et G des primitives de f et g, alors le système précédent s'écrit, à


une renormalisation en temps près,

ṗ = F 0 (q), q̇ = G0 (p),

et on voit que la quantité H(p, q) = G(p) − F (q) est une quantité conservée (le système est
Hamiltonien).

Le point d'équilibre précédent est un point critique de H. Le sens de la concavité de F (resp.


G) est donné par le signe de a ou b (resp. de c ou d), donc on voit que :

7
 si ac > 0 alors même sens de concavité pour F et G, donc le point d'équilibre est un point
selle de H , donc col, et chaque solution converge vers un des coins (suivant la position par
rapport aux droites horizontale et verticale passant par l'équilibre) ; c'est toujours ce cas-là
qui se produit dans le cas d'un jeu symétrique. Plus précisément :
 si a > 0 alors on trouve (à gauche la dynamique dans la matrice de paiement, à droite
dans le plan (p, q)) :
→ ←
↓ ↑ ↑ ↓
← →
autrement dit la direction attractive du point selle pointe dans le premire quadrant (les
équilibres stables sont (0, 1) et (1, 0))
 si a<0 alors on trouve :
← →
↑ ↓ ↓ ↑
→ ←
autrement dit la direction répulsive du point selle pointe dans le premire quadrant (les
équilibres stables sont (0, 0) et (1, 1))
 si ac < 0 alors sens de concavité opposés pour F et G, donc le point est un extremum de H,
donc un centre, et toutes les trajectoires sont périodiques dans le carré [0; 1] × [0; 1] ; c'est ce
cas-là qui se produit dans le cas de la bataille des sexes. Plus précisément :
 si a>0 alors
← ←
↓ ↑ ↓ ↑
→ →
les trajectoires tournent dans le sens trigonométrique
 si a<0 alors
→ →
↑ ↓ ↑ ↓
← ←
les trajectoires tournent dans le sens des aiguilles d'une montre.
• Dans le cas du jeu colombe-faucon, la matrice vaut

R/2 0
 
A=B=
R (R − D)/2
et donc (une seule population)

ṗ −R + D(1 − p)
= ,
p(1 − p) 2
ce qui montre que p converge vers p = 1 − R/D si D > R, vers 0 sinon.

• Dans le cas de la bataille des sexes, points d'équilibre : si on note (p, 1 − p) les probas pour
les mâles et (q, 1 − q) les probas pour les femelles, alors on trouve l'équilibre

E C
p= , q= .
C +E−G 2(G − E)

Das könnte Ihnen auch gefallen