Beruflich Dokumente
Kultur Dokumente
Introduction, préliminaires
• Références :
Von Neumann - Morgenstern, Theory of games and economic behavior, 1944
J. Maynad-Smith, Evolution and the theory of games, 1982
J. Hofbauer et K. Sigmund, Evolutionary Games and Population Dynamics, 1998
J. Hofbauer et K. Sigmund, The Theory of Evolution and Dynamical Systems : Mathematical
Aspects of Selection, 2000
• Dénition : on appelle jeu à n joueurs la donnée de :
pour chaque joueur numéroté i ∈ {1, . . . , n}, un ensemble Si (l'ensemble de ses stratégies
possibles)
pour chaque joueur, une fonction de paiement πi : S1 × . . . × Sn → R.
L'objectif de chaque joueur est de maximiser son paiement, c'est-à-dire la valeur de πi (x1 , . . . , xn ),
où x 1 ∈ S1 , . . . , x n ∈ Sn sont les stratégies adoptées par les joueurs. Pour cela, chaque joueur
est libre de choisir sa stratégie, mais évidemment pas celle des autres joueurs.
L'objectif de la théorie des jeux est de tenter de formaliser quel doit être le comportement
rationnel de chaque joueur.
Remarques : les individus peuvent être identiques (ensembles Si identiques, fonctions πi symé-
triques) ou diérents ; les ensembles Si peuvent être des ensembles discrets ou continus.
1
Autrement dit, un optimum de Pareto est une situation dans laquelle il n'est pas possible
d'améliorer le sort d'un individu sans détériorer le sort des autres.
Sous des conditions très générales (ensembles Si compacts, fonctions de paiement continues)
on peut montrer qu'il existe au moins un optimum de Pareto.
Ainsi, un équilibre de Nash est une situation dans laquelle aucun des joueurs n'a intérêt à
modier sa propre stratégie si dans le même temps les stratégies des autres joueurs restent
identiques.
• Pour parler de jeu il faut qu'il y ait au moins deux joueurs. Un jeu à deux joueurs (notés 1,
2) est dit :
symétrique si S1 = S2 et, pour tout (x1, x2) ∈ S12, π1(x1, x2) = π2(x2, x1).
à somme nulle si, pour tout (x1, x2) ∈ S12, π1(x1, x2) + π2(x1, x2) = 0 (tout gain d'un des
joueurs se traduit par une perte pour l'autre).
Exemples
Le type le plus simple de jeu est celui où il y a seulement deux joueurs, chaque joueur ayant
deux stratégies possibles, S1 = S2 = {1, 2}. Dans ce cas, le jeu peut être représenté par une
matrice des paiements P , matrice 2 × 2 dont chaque entrée contient les paiements des joueurs :
Pij = (π1 (i, j), π2 (i, j)).
Par convention, la matrice des paiements du joueur1 est la matrice A dénie par : Aij = π1 (i, j)
et la matrice des paiements du joueur 2 est la matrice B dénie par : Bij = π2 (j, i). Ainsi, le
jeu est symétrique si et seulement si A = B (et dans ce cas la matrice A = B des paiements
d'un seul joueur sut à caractériser le jeu).
Pour rechercher les équilibres de Nash, on peut par exemple représenter par des èches (voir
ci-dessous) quelle est la meilleure stratégie, pour chacun des deux joueurs, en réponse à l'une
ou l'autre des deux stratégies possibles de l'autre joueur.
V T →
V (1, 1) (−2, 2) ↓ ↓
T (2, −2) (−1, −1) →
(trois optima de Pareto, et un équilibre de Nash qui n'est pas Pareto optimal).
C NC →
C (0, 0) (−1, 1) ↓ ↑
NC (1, −1) (−10, −10) ←
2
(bistabilité, deux équilibres de Nash, trois optima de Pareto).
C F → →
C (R/2, R/2) (0, R) si D > R :↓ ↑, si D < R :↓ ↓
F (R, 0) ( R−D
2
, R−D
2
) ← →
Le jeu faucon colombe est donc, du point de vue des meilleurs stratégies de réponses et des équi-
libres de Nash, analogue au dilemne du prisonnier si D < R, et analogue au jeu du croisement
si D > R.
• Les trois jeux précédents étaient symétriques. Voici un exemple de jeu asymétrique, le jeu
de celui qui cherche à se diérencier, et de celui qui cherche à imiter :
α β →
α (2, 0) (0, 1) ↑ ↓
β (−1, 2) (1, −1) ←
(pas d'équilibre de Nash, le nombre d'optima de Pareto peut varier entre 2 et 4 suivant les
valeurs des paiements, ici il y en a trois).
• Pour les matrices de paiement (du joueur 1 si le jeu est symétrique, des joueurs 1 et 2 sinon),
on a donc, pour ces diérents jeux :
1 −2
dilemne du prisonnier : A= ,
2 −1
0 −1
jeu du croisement : A = ,
1 −10
R/2 0
jeu faucon-colombe : A = ,
R R−D2
2 0 0 2
jeu diérent/semblable : A = , B= .
−1 1 1 −1
• Du point de vue des meilleures stratégies de réponses, on montre facilement que tout jeu à
deux joueurs, chaque joueur ayant deux stratégies, est (à un changement de variables près) de
l'un des types rencontrés ci-dessus :
→
monostable : ↓ ↓,
→
→
bistable : ↓ ↑,
←
→
cyclique : ↑ ↓.
←
• Bataille des sexes : conit entre mâles et femelles à propos de leur investissement respectif
dans leur descendance.
3
1. elles peuvent être abandonnées avant même de mettre au monde les petits
2. elles produisent des gamètes de grande taille en petit nombre, contrairement aux mâles
Les mâles sont donc tentés de proter de cet état de fait pour déserter les femelles fécondées
an d'aller en féconder d'autres. La stratégie des femelles en réponse est d'exiger d'être long-
temps courtisées avant de consentir à s'accoupler. Ce comportement a un coût pour les deux
partenaires, mais du point de vue des femelles il présente l'intérêt de dissuader les mâles de se
montrer indèles.
D F ←
I (0, 0) (G, G − C) ↓ ↑
C (G − C/2 − E, G − C/2 − E) (G − C/2, G − C/2) →
(on suppose que 0 < E < G < C < 2(G−E), la dernière inégalité signiant : G−C/2−E > 0).
Les matrices des paiements des deux joueurs sont donc :
0 G 0 G − C/2 − E
A= , B= .
G − C/2 − E G − C/2 G−C G − C/2
• Une stratégie si ∈ Si est dite dominée (pour le joueur i) s'il existe s0i ∈ Si tel que :
∀(s1 , . . . , si−1 , si+1 , . . . , sn ) ∈ S1 × . . . × Si−1 × Si+1 × . . . × Sn ,
4
On appelle stratégie prudente pour le joueur i tout si ∈ Si qui réalise ce maxmin.
Par exemple, dans le jeu du croisement, la stratégie qui consiste à ne pas forcer le passage est
une stratégie prudente.
• Dans un jeu à deux joueurs, on peut toujours regarder la version séquentielle du jeu, c'est-à-
dire dans laquelle un des deux joueurs (celui qui joue en second) est informé de la stratégie que
l'autre a jouée, et joue donc en fonction. Dans ce jeu, si les deux joueurs ont un comportement
rationnel, le paiement des deux joueurs est connu à l'avance dans la plupart des cas.
On dit qu'il y a lutte pour le premier coup si, pour chacun des deux joueurs, le paiement qu'il
reçoit dans le jeu séquentiel où il joue en premier est supérieur au paiement qu'il reçoit dans le
jeu séquentiel où il joue en second.
On dit qu'il y a lutte pour le premier coup si, pour chacun des deux joueurs, le paiement qu'il
reçoit dans le jeu séquentiel où il joue en second est supérieur au paiement qu'il reçoit dans le
jeu séquentiel où il joue en premier.
Par exemple, dans le jeu du croisement, il y a lutte pour le premier coup, et dans le jeu cyclique
il y a lutte pour le second coup.
Stratégies mixtes
• Considérons un jeu à deux joueurs, avec n stratégies possibles {1, . . . , n} pour chaque joueur
(il pourrait y en avoir un nombre diérent, mais pas dans les exemples considérés ici), notons
A et B les matrices de paiement des joueurs.
Dénitions : Une stratégie pure est un élément de {1, . . . , n}. Une stratégie mixte est une dis-
n
{1, . . . , n}, 0 ≤ pi ≤ 1,
P
tribution de probabilité (p1 , . . . , pn ) sur i=1 pi = 1.
Par convention, le jeu est dit en stratégie mixte lorsque chacun des joueurs adopte une stratégie
mixte, et que le gain de chaque joueur est calculé en moyenne (en espérance).
• Deux stratégies mixtes (P, Q) constituent un équilibre de Nash (pour le jeu en stratégies
mixtes) si et seulement si :
5
∗ ∗
Cas du jeu faucon-colombe lorsque D > R : trois équilibres de Nash : (0, 1), (1, 0), et (p , p )
∗
où p = 1 − R/D (et de même dès qu'on est dans le cas bistable, même si le jeu n'est pas
symétrique).
Cas du jeu cyclique : Un seul équilibre de Nash (p, q)
0 < p < 1 et 0 < q < 1.
avec
On sent bien que dans le cas bistable, l'équilibre de Nash (p, q) pour lequel 0 < p < 1 et
0 < q < 1 a tendance à être instable, alors que les équilibres de Nash (0, 1) et (1, 0) ont plutôt
tendance à être stables. Pour préciser ces intuitions, on va introduire une dynamique sur l'espace
des stratégies mixtes.
ẋi = Wi xi .
Si on note pi = Pxixj (les proportions), on obtient :
j
ṗi X
= Wi − pj Wj
pi j
6
Exemple : le jeu roc-ciseau-papier :
R C P
R 0 1 −1
C −1 0 1
P 1 −1 0
Dans ce cas, si on note P = (p, q, r)T (avec p + q + r = 1), le système diérentiel devient :
la quantitépqr est conservée, et on voit que les trajectoires sont toutes fermées (sur le simplexe
p + q + r = 1).
• Considérons maintenant le cas de deux population, modélisé par un jeu à deux joueurs,
T T
chaque joueur ayant deux stratégies possibles. Si on note P = (p, 1 − p) et Q = (q, 1 − q) ,
alors le système s'écrit :
ṗ q̇
= (AQ)1 − (AQ)2 , = (BP )1 − (BP )2
p(1 − p) q(1 − q)
ṗ
= q(a11 − a21 ) + (1 − q)(a12 − a22 ),
p(1 − p)
et formule symétrique pour q.
On voit qu'on peut translater chacune des colonnes de
A d'une constante, et de même pour
0 a 0 c
B, autrement dit on peut supposer que : A = et B = , alors les formules
b 0 d 0
donnent :
ṗ a b q̇ c d
= − = f (q), = − = g(p).
p(1 − p)q(1 − q) q 1−q p(1 − p)q(1 − q) p 1−p
Si a>0 et b < 0, alors (↑, ↑), donc ṗ > 0, donc p → 1, et alors forcément q tend vers 0 ou 1
De même, si a<0 et b > 0, alors (↓, ↓), donc ṗ < 0, etc...
ṗ = F 0 (q), q̇ = G0 (p),
et on voit que la quantité H(p, q) = G(p) − F (q) est une quantité conservée (le système est
Hamiltonien).
7
si ac > 0 alors même sens de concavité pour F et G, donc le point d'équilibre est un point
selle de H , donc col, et chaque solution converge vers un des coins (suivant la position par
rapport aux droites horizontale et verticale passant par l'équilibre) ; c'est toujours ce cas-là
qui se produit dans le cas d'un jeu symétrique. Plus précisément :
si a > 0 alors on trouve (à gauche la dynamique dans la matrice de paiement, à droite
dans le plan (p, q)) :
→ ←
↓ ↑ ↑ ↓
← →
autrement dit la direction attractive du point selle pointe dans le premire quadrant (les
équilibres stables sont (0, 1) et (1, 0))
si a<0 alors on trouve :
← →
↑ ↓ ↓ ↑
→ ←
autrement dit la direction répulsive du point selle pointe dans le premire quadrant (les
équilibres stables sont (0, 0) et (1, 1))
si ac < 0 alors sens de concavité opposés pour F et G, donc le point est un extremum de H,
donc un centre, et toutes les trajectoires sont périodiques dans le carré [0; 1] × [0; 1] ; c'est ce
cas-là qui se produit dans le cas de la bataille des sexes. Plus précisément :
si a>0 alors
← ←
↓ ↑ ↓ ↑
→ →
les trajectoires tournent dans le sens trigonométrique
si a<0 alors
→ →
↑ ↓ ↑ ↓
← ←
les trajectoires tournent dans le sens des aiguilles d'une montre.
• Dans le cas du jeu colombe-faucon, la matrice vaut
R/2 0
A=B=
R (R − D)/2
et donc (une seule population)
ṗ −R + D(1 − p)
= ,
p(1 − p) 2
ce qui montre que p converge vers p = 1 − R/D si D > R, vers 0 sinon.
• Dans le cas de la bataille des sexes, points d'équilibre : si on note (p, 1 − p) les probas pour
les mâles et (q, 1 − q) les probas pour les femelles, alors on trouve l'équilibre
E C
p= , q= .
C +E−G 2(G − E)