Beruflich Dokumente
Kultur Dokumente
Raphaël Giraud 1 2
24 avril 2006
I Fondements 9
2 Préférence et utilité 21
2.1 Déduction de l’utilité ordinale . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.1 Problématisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.2 L’utilité ordinale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21
2.1.3 Le problème de l’existence d’une fonction d’utilité . . . . . . . . . . 22
2.2 Compléments . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.1 Préordre partiel . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.2.2 Ordre d’intervalle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.2.3 Exercices . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1 La théorie classique 33
1.1 La théorie classique de la décision dans le risque . . . . . . . . . . . . . . . . 34
1.1.1 Le cadre structurel . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
1.1.2 Caractérisation axiomatique de l’espérance d’utilité dans le risque . . 35
1.2 Espérance d’utilité dans l’incertain: le modèle de Savage . . . . . . . . . . . 39
1.2.1 Le théorème de Savage . . . . . . . . . . . . . . . . . . . . . . . . . . 40
4 TABLE DES MATIÈRES
Introduction
0.2 Objectifs de la TD
Cette activité de modélisation est traditionnellement comprise comme ayant deux types
de finalité:
– une finalité normative (ou encore prescriptive)
– une finalité positive (ou encore descriptive,explicative ou prédictive)
0.2.3 Discussion
Les deux finalités classiques de la théorie de la décision entretiennent des rapports
complexes, car elles sont à la fois antagonistes dans la pratique et pourtant perméables
l’une à l’autre. L’idéal pour un théoricien de la décision serait de fournir une théorie
qui serait à la fois descriptivement correcte et normativement satisfaisante. D’ailleurs la
plupart des premières théories se pensaient naïvement conformes à cet idéal. Mais un
axiome que l’on pensait descriptivement valide peut être requalifié en axiome normatif en
cas de remise en question trop violente. Le normatif serait ainsi le refuge du descriptif
invalidé. Il semble d’ailleurs que pratiquement aucun axiome, aucune théorie ne puisse
prétendre expliquer tous les comportements, de sorte que la plupart des «bonnes» théories
résultent d’un compromis entre les deux finalités.
Ceci dit, il ne faut pas pour autant penser que la dimension normative des modèles n’est
que la marque de l’échec du modèle à représenter fidèlement la réalité. Tout d’abord, la
recherche de normes rationnelles est intéressante en soi. De plus, si l’on a de bonnes raisons
de penser que la définition proposée de la rationalité est correcte, on est en droit d’affirmer
que les modèles et les comportements qui s’en écartent relèvent de l’irrationnel. L’expérience
peut néanmoins apporter des correctifs à cette définition comme nous le verrons. Pour
que ceci soit possible, cependant, il faut que les violations observées des principes de la
rationalité ne puissent être expliqués par des «erreurs» ou qu’elles soient explicables par un
comportement purement aléatoire et fantaisiste. Il faut au contraire observer des régularités
dans les comportements. C’est l’observation de telles régularités qui a conduit à la mise au
point de modèles descriptifs intéressants dont le statut normatif peut être repensé.
Ainsi, le fait de définir une notion de rationalité et de la confronter aux faits permet
d’approfondir notre compréhension de celle-ci et d’apercevoir des aspects de la rationalité
que nous n’avions pas perçus. Le fait de constater des régularités dans le comportement
des agents invite à soupçonner que ce comportement est fondé sur des raisons. L’idée de
définir la rationalité par la possibilité de donner les raisons du choix semble l’approche
privilégiée par les psychologues. Néanmoins, lorsque l’on définit la rationalité de cette
façon, le problème demeure de définir ce qui compte comme une raison acceptable. Ceci
est un problème philosophique non négligeable.
2. Notamment Aristote, au livre VI de l’Éthique à Nicomaque.
0.3. MÉTHODE DE LA TD 7
0.3 Méthode de la TD
D’un point de vue opératoire, la TD a pour objectif de montrer comment l’agent intègre
(dans l’approche descriptive) ou devrait intégrer (dans l’approche normative) les différentes
informations dont il dispose au moment de prendre sa décision.
La méthode principale de la théorie de la décision est ce qu’on appellera la méthode
axiomatique. Il s’agit, une fois définis les objets primitifs de la théorie, d’énoncer formelle-
ment les propriétés que ces objets vérifient, et de voir ce qu’impliquent ces propriétés. Elle
se donne pour tâche d’exhiber les postulats (les axiomes) sur le comportement de choix ou
de décision d’un être humain qui caractérisent tel ou tel critère de décision.
Le statut de l’axiome en théorie de la décision est ambigu 3 . Dans son usage concret,
l’axiome est considéré comme énonçant une propriété essentielle de l’objet considéré, ainsi
que le font les axiomes de la théorie des groupes ou ceux de la topologie. La méthode axio-
matique est ainsi l’héritière du style mathématique introduit par la révolution formaliste en
mathématiques, notamment sous sa forme bourbakiste. D’un autre côté, on requiert sou-
vent des axiomes qu’ils soient intuitifs, au sens où ils énonceraient une propriété naturelle
ou évidente des objets sur lesquels ils portent.
On peut évoquer plusieurs raisons à la prédominance de cette méthode en TD. Tout
d’abord, c’est sans doute celle qui présente la plus grande rigueur mathématique, du point
de vue formaliste déjà évoqué. Ensuite, elle est adéquate simultanément aux deux finalités
de la TD: elle permet de définir de façon précise et décomposée la notion de rationalité
employée et elle permet l’existence de propositions testables concernant le comportement
des individus.
Le point de vue épistémologique le plus répandu en théorie de la décision (et en mi-
croéconomie plus généralement) est un comportementalisme absolu: les seules données aux-
quelles on a le droit de faire référence sont les observations portant sur le comportement de
l’agent. Les justifications d’un tel point de vue reposent essentiellement sur la fascination
pour le modèle scientifique des sciences de la nature et sur l’obsession de la testabilité
(c’est-à-dire la conformité à l’idéal scientifique popperien). Ce point de vue est cependant
contestable à plusieurs égards 4 . Tout d’abord, il ne permet pas de fonder proprement la
théorie, comme nous le verrons. Ensuite, il exclut de l’analyse certains phénomènes ou
aspects qui peuvent avoir un intérêt. Enfin, il est sans doute philosophiquement dépassé.
En général, les ingrédients primitifs d’une théorie axiomatique de la décision sont:
– Une représentation mathématique du monde en tant qu’il est offert à la décision
de l’agent, sous la forme d’un ensemble non-vide X, qui est l’ensemble des objets de
choix. Malgré son apparence bénigne, ce choix de modélisation est philosophiquement
chargé. Il suppose en effet qu’il y a bien isomorphisme entre le monde tel qu’il s’offre
au décideur et la représentation que celui-ci s’en fait. Or, on peut imaginer que plu-
sieurs représentations du monde soient possibles, et qu’à ces diverses représentations
ne corresponde pas nécessairement la même décision.
– Une représentation mathématique de l’agent: le plus souvent, une relation binaire
représentant ses préférences, parfois une représentation de ses croyances, et parfois
une représentation de son comportement de choix par une fonction de choix (nous
reviendrons sur ces termes).
Concrètement, et en abusant un peu des notations, si on suppose que l’on dispose d’une
description D de la situation de décision et si on représente l’agent par un certain objet
R, la démarche classique en TD est de considérer certains postulats P1 ,...,Pn sur R et de
3. Voir sur cette question Mongin (2003).
4. Voir Sen (1993)
8 TABLE DES MATIÈRES
démontrer un théorème du style: R vérifie P1 ,...,Pn si et seulement s’il existe une certaine
fonction f telle que R = f (D). La fonction f montre comment l’agent utilise l’information
contenue dans D pour prendre sa décision.
9
Première partie
Fondements
11
Chapitre 1
Dans ce chapitre nous nous intéresserons aux liens unissant le concept de préférence au
comportement de choix. Nous commencerons par rappeler ce qu’est une relation binaire,
avant d’introduire la notion de fonction de choix.
Définition 1.1 (Relation d’équivalence). Une relation binaire R est une relation d’équi-
valence ssi R est réflexive, symétrique et transitive. On note [x] = {y ∈ X | xRy} la classe
d’équivalence de x et X/R l’ensemble des classes d’équivalence ou ensemble quotient.
Exemple 1.1.
– La relation d’égalité = est une relation d’équivalence,
– Si X = Z, la relation x = y + 2k,k ∈ Z est une relation d’équivalence sur X.
14 CHAPITRE 1. PRÉFÉRENCE ET CHOIX RATIONNEL
Définition 1.2 (Partition). Une famille (Xi )i∈I de parties de X est une partition ssi :
(i) ∪i∈I Xi = X
(ii) ∀i,j ∈ I, i = j ou Xi ∩ Xj = ∅.
Proposition 1.1
Soit R une relation binaire. Si R est une relation d’équivalence, alors ([x])x∈X est une parti-
tion de X. Réciproquement, si (Xi )i∈I est une partition, il existe une relation d’équivalence
telle que pour tout i ∈ I, il existe x ∈ X, Xi = [x].
Démonstration.
À faire en exercice.
Définition 1.3 (Relations de préordre, d’ordre, d’ordre strict). Une relation binaire R est
une relation de préordre (partiel) ssi R est réflexive et transitive. Un ordre est un préordre
antisymétrique. Un ordre strict est une relation asymétrique et transitive.
Exemple 1.2.
– La relation ≥ sur R est un ordre.
– La relation (x,y)R(x0 ,y 0 ) ⇔ xy ≥ x0 y 0 est un préordre sur R2 (le vérifier.).
Proposition 1.2
Soit % un préordre total sur un ensemble X. Soit la relation définie par
x y ⇔ (x % y et ¬(y % x))
Alors:
1. %= ∪ ∼;
2. Seuls les trois cas suivants sont possibles: x y, y x, x ∼ y;
3. x % y = ¬(y x);
4. est asymétrique, transitive et négativement transitive;
5. ∼ est une relation d’équivalence.
Démonstration.
1.1.2 Exercices
1. Soit R une relation réflexive sur X. Soit T (R) la relation définie par
Définition 1.6. Soit C une fonction de choix. On appelle relation de préférence révélée
par C la relation RC définie par:
Une fonction de choix est dite normale si C(S) = C(S,RC ) pour tout S ∈ Σ.
Proposition 1.3
Soit C une fonction de choix sur Σ. On suppose que Σ contient les singletons et est fermée
par réunion finie. Alors C est rationalisable si et seulement si C est normale et R = RC .
16 CHAPITRE 1. PRÉFÉRENCE ET CHOIX RATIONNEL
Démonstration.
On se pose les questions suivantes: A quelles conditions une fonction de choix est-elle
normale? A quelles conditions R est-elle un préordre? un préordre total?
Proposition 1.4
Toute fonction de choix normale sur Σ vérifie α.
Démonstration.
Commentaire sur cet axiome. Paraphrase avec les champions pakistanais. De nombreux
auteurs, et Sen lui-même 1 , ont mis en cause la pertinence tant normative que descriptive de
cet axiome 2 . D’après Sen (Sen (1993)), le contexte dans lequel on est amené à prendre une
décision n’est pas toujours neutre du point de vue informationnel. La présence de certaines
alternatives dans le menu des alternatives peut être porteuse d’informations; c’est cette
idée que recouvre la notion de valeur épistémique du menu. Afin de l’illustrer nous allons
tout d’abord évoquer l’exemple proposé par Sen:
Exemple 1.3. Supposons qu’une personne que vous connaissez assez peu vous propose:
– de venir chez elle boire le thé (alternative y),
– de venir chez elle prendre de la cocaïne (alternative z).
Appelons x l’alternative consistant à refuser de venir chez la personne en question. Consi-
dérons les deux menus d’alternatives suivants: Y := {x,y} et Z := {x,y,z}. On peut penser
qu’une personne tentée de choisir y dans le menu Y sera plutôt tentée par x dans le menu
Z. Il est en tout cas assez clair que la présence de l’alternative z dans le menu apporte de
l’information sur les m“urs de l’individu qui fait la proposition, ce qui peut influencer la
décision.
Autre exemple: la politesse. Développer.
Propriété γ de Sen Soit (Si )i∈I une famille de situations. Alors, pour tout x ∈ X,
Démonstration.
(i) implique (ii): Supposons que C soit normale. Alors, elle vérifie α d’après la proposition
1.4. Soit (Si )i∈I une famille de situations telle que x ∈ ∩i∈I C(Si ). Alors, xRC y pour tout
y ∈ ∪i∈I Si , donc x ∈ C(∪i∈I Si ).
(ii) implique (i): Il est clair que C(S) ⊆ C(S,RC ). Montrons la réciproque. Soit x ∈
C(S,RC ). Alors, pour tout y ∈ S, il existe Sy ∈ Σ tel que x ∈ C(Sy ). Par l’axiome γ,
x ∈ C(∪y∈S Sy ), et par α, comme S ⊆ ∪y∈S Sy , x ∈ C(S).
Démonstration.
18 CHAPITRE 1. PRÉFÉRENCE ET CHOIX RATIONNEL
(i)⇒ (iii)
RC est réflexive: x ∈ C({x}).
RC est totale: {x,y} ∈ Σ, donc, soit C({x,y}) = {x}, soit C({x,y}) = {y}, soit
C({x,y}) = {x,y}.
RC est transitive: Soit x,y,z tels que xRC yRC z. Comme {x,y,z} ∈ Σ, il suffit de
montrer que x ∈ C({x,y,z}), car alors on aura xRC z. Supposons que ce ne soit pas le cas.
Si y ∈ C({x,y,z}), alors par l’AFPR, comme xRC y, x ∈ C({x,y,z}). Si z ∈ C({x,y,z}),
alors, comme yRC z, y ∈ C({x,y,z}).
Montrons que pour tout S ∈ Σ,C(S) = C(S,RC ). Soit x ∈ C(S). Alors, pour tout y ∈ S,
xRC y. Donc C(S) ⊆ C(S,RC ). Soit x ∈ C(S,RC ). Alors, pour tout y ∈ S,∃Sy ,x ∈ C(Sy ).
Mais C(S) 6= ∅, donc, soit x ∈ C(S), soit il existe y ∈ C(S),x 6= y. Mais par l’AFPR,
x ∈ C(S). Donc C(S,RC ) ⊆ C(S). Conclusion: C(S) = C(S,RC ).
(iii) ⇒ (ii)
β: supposons x,y ∈ S ∩ S 0 ,S ⊆ S 0 et x,y ∈ C(S) et y ∈ C(S 0 ). Alors, pour tout
z ∈ S 0 ,yRC z et xRC y car y ∈ S, donc xRC z, donc x ∈ C(S 0 ).
α: voir proposition 1.4.
(ii) ⇒ (i)
Supposons que x,y ∈ S ∩ S 0 , x ∈ C(S) et y ∈ C(S 0 ). Alors, nécessairement, par α,
x ∈ C({x,y}) et y ∈ C({x,y}). D’où, comme y ∈ C(S 0 ), par β, x ∈ C(S 0 ).
Proposition 1.5
Si C est rationalisable, elle est faiblement rationalisable.
Démonstration.
Il suffit de remarquer que pour tout x,y ∈ X, xRy implique non yP x.
Proposition 1.6
Supposons Σ = 2X \ ∅. Alors les propositions suivantes sont équivalentes (i) C est faible-
ment rationalisable.
(ii) C vérifie α et γ.
Démonstration.
(i) implique (ii): Supposons que C soit normale. α: Soit S ∈ Σ et x ∈ C(S) et supposons
qu’il existe S 0 ⊆ S telle que x ∈ / C(S 0 ). Alors, il existe y ∈ S 0 tel que yP x. Donc, comme y ∈
S, x 6∈ C(S): contradiction. Soit (Si )i∈I une famille de situations telle que x ∈ ∩i∈I C(Si ).
Alors, non yP x pour tout y ∈ si , donc pour tout y ∈ ∪i∈I Si , donc x ∈ C(∪i∈I Si ).
(ii) implique (i): Si C vérifie α et γ, elle est rationalisable, donc faiblement rationalisable.
1.2. FONCTIONS DE CHOIX 19
Démonstration.
et soit
I (C) = {(x,y) ∈ P(C) | ∃S ∈ Σ,x,y ∈ S,|C(S) ∪ {x,y}| = 1}.
Soit R la relation définie par xRy ⇔ x ∈ C({x,y}) et (x,y) 6∈ I (C). Il est clair que
xP y ⇔ (x ∈ C({x,y}) et x 6= y).
Montrons que C(S) = M (S,R). Soit x ∈ C(S). Supposons qu’il existe y ∈ S tel que
yP x. Alors, y ∈ C({x,y}), ce qui est impossible par l’axiome α. Donc C(S) ⊆ M (S,R)
Soit maintenant x ∈ M (S,R). Supposons que x 6∈ C(S). Alors, par l’axiome RNI, il existe
z ∈ C(S), tel que pour tout T ∈ Σ tel que z ∈ T,x 6∈ C(T ). En particulier, {z} = C({x,z}).
Donc, zP x, donc x 6∈ C(S). Donc M (S,R) ⊆ C(S).
R est évidemment réflexive. Montrons qu’elle est transitive. Donnons tout d’abord un
lemme:
Lemme 1.1. Soit C une fonction de choix vérifiant α et RNI. Alors s’il existe S ∈ Σ,x ∈ S
tels que {x} = C(S), alors, pour tout T ∈ Σ telle que x ∈ T ⊆ S, {x} = C(T ).
Démonstration.
Sous les conditions du lemme, il est clair par α que x ∈ C(T ). Soit y ∈ T,y 6= x. Alors,
comme y 6∈ C(S), par RNI, pour tout T 0 ∈ σ tel que y ∈ T 0 , y 6∈ C(T 0 ). D’où en particulier
y 6∈ C(T ).
– cas 4: xIyIz. Comme (x,y) 6∈ I (C) et (y,z) 6∈ I (C), C({x,y,z}) = {x,y,z}. Donc,
par α,x ∈ C({x,z}). Il faut montrer que (x,z) 6∈ I (C). Soit S ∈ Σ telle que x,z ∈ S et
supposons x ∈ C(S). Alors, comme yIx, on a x ∈ M (S ∪ {y},R) = C(S ∪ {y}), donc,
comme (x,y) 6∈ I (C), y ∈ C(S ∪ {y}). Mais, (y,z) 6∈ I (C), donc z ∈ C(S ∪ {y}),
donc, par α, z ∈ C(S). Donc |C(S) ∩ {x,z}| ∈ {0,2}.
1.2.5 Exercices
1. Soit X un ensemble fini et R une relation binaire. Montrer que C(.,R) est une fonction
de choix (i.e. C(S,R) 6= ∅ pour tout S) si et seulement si R est acyclique.
2. Soit X un ensemble et C : 2X → X \ ∅ une fonction de choix à valeur dans X (c’est-
à-dire ne sélectionnant qu’un seul élément). Montrer que C = C(.,R) si et seulement
si C vérifie α.
21
Chapitre 2
Préférence et utilité
précise de u(x) n’a aucune sens par elle-même mais seulement relativement à la valeur de
u(y), qui fait que l’on parle d’utilité ordinale.
Comme on le vérifiera aisément, l’existence d’une fonction d’utilité représentant %
implique que cette relation soit transitive et totale, c’est-à-dire que ce soit un préordre
total. Ces deux hypothèses, qui sont très souvent faites en théorie de la décision, sont aussi
de plus en plus souvent discutées et critiquées, notamment par les psychologues 1 .
Arguments en faveur de la transitivité. Le premier est un argument de principe: la
transitivité représente la cohérence de l’individu avec lui-même. Le deuxième argument
montre qu’un individu non transitif est susceptible de se faire extorquer tout son argent par
un agent mal intentionné. En effet, s’il existe un cycle intransitif x1 x2 . . . xn x1
dans ses préférences, supposons qu’il possède x1 . On peut alors échanger x1 contre xn pour
un montant ε, puis xn contre xn−1 à nouveau contre ε, et ainsi de suite jusqu’à ce qu’il ait
à nouveau x1 et qu’il ait perdu nε. On peut alors recommencer jusqu’à ce que l’agent soit
totalement ruiné. C’est l’argument de la pompe à monnaie
On va montrer qu’il n’est pas représentable par une fonction d’utilité. Supposons que ce
soit le cas. Soit x ∈ R. Alors (x,2) (x,1), donc u(x,2) > u(x,1) et, d’après la densité de
Q dans R, il existe r ∈ Q tel que u(x,2) ≥ r ≥ u(x,1). D’après l’axiome du choix, on peut
définir ainsi une fonction r : R → Q. Si x > x0 , alors r(x) > r(x0 ); r est donc injective et
on a donc construit une injection de R dans Q, ce qui est impossible.
Le reste de cette section est consacré à l’élucidation de cette question. Soit donc X un
ensemble quelconque. Posons tout d’abord les définitions suivantes:
Définition 2.2. Un ensemble Z ⊆ X est dit %-dense dans X si pour tout x,y ∈ X tels
que x y, il existe z ∈ Z tel que x % z % y.
Définition 2.3. Un ensemble X muni d’un préordre % est dit %-séparable s’il existe une
partie dénombrable de X %-dense.
Définition 2.4. Soit un ensemble X muni d’un préordre %. Soient x,y ∈ X. Si x y et
si
(x,y) = {z ∈ X | x z y} = ∅,
on dit que (x,y) est un trou et que x et y sont ses extrémités.
Proposition 2.1
Soit (X, %) un ensemble totalement ordonné. Soit G l’ensemble des extrémités de trous de
(X, %). Si (X, %) est %-séparable, alors G est au plus dénombrable.
Démonstration.
Montrons que G est au plus dénombrable. En effet, soit (x,y) un trou. Soit A un ensemble
dénombrable %-dense. Alors, par densité de A, il existe ak ∈ A tel que x = ak ou y = ak .
En outre, comme % est total, à tout an ∈ A, on peut associer au plus deux trous. En effet,
1. Voir Mongin (1983).
2.1. DÉDUCTION DE L’UTILITÉ ORDINALE 23
si (x,y),(y,z) sont des trous tels que ak = y et s’il existe un trou (a,b) tel que ak = a ou
ak = b, comme le préordre est total on a nécessairement a b x y ou y z a b,
d’où ak ak dans les deux cas, ce qui est impossible. Donc G est dénombrable.
Démonstration.
(i) implique (ii): il est clair que % est un préordre total. Si X est dénombrable, il est
clair que (X, %) est %-séparable. Supposons donc que X n’est pas dénombrable. Alors,
pour tout couple (r,r0 ) de rationnels tels que r < r0 , on pose:
Si Ar,r0 6= ∅, on choisit un élément ar,r0 ∈ Ar,r0 (sachant qu’il y a forcément un Ar,r0 qui
est non vide). L’ensemble A = {ar,r0 | (r,r0 ) ∈ Q2 ,r < r0 ,Ar,r0 6= ∅} est dénombrable. Soit
G l’ensemble des extrémités de trous de (X, %). Alors, si (x,y) est un trou, l’intervalle
[u(y),u(x)] contient un rationnel rxy , et si (x0 ,y 0 ) est un autre trou tel que rxy = rx0 y0 ,
alors nécessairement, [u(y),u(x)] = [u(y 0 ),u(x0 )], car autrement (x,y) ou (x0 ,y 0 ) n’est pas
un trou. Donc, on a une injection de G dans Q et Z = A ∪ G est dénombrable. Montrons
qu’il est %-dense. Soient x,y ∈ X tels que x y. Si (x,y) est un trou, x,y ∈ G ⊂ Z, donc
il existe z ∈ Z tel que x ∼ z y. Si (x,y) n’est pas un trou, alors il existe z ∈ X tel que
x z y, donc tel que u(x) > u(z) > u(y). Donc on peut trouver deux rationnels r,r0 tels
que u(x) > r0 > u(z) > r > u(y). Par conséquent, Ar,r0 6= ∅. Il existe donc a ∈ A ⊂ Z tel
que u(x) > r0 > u(a) > r > u(y), c’est-à-dire x a y.
(ii) implique (i): On procède en deux temps.
1. Cas où % est un ordre.
Soit A %-dense dans X. On énumère A = {a0 ,a1 ,a2 ,...}. Notons G l’ensemble des
extrémités de trous de (X, %) et posons maintenant Z = A ∪ G. Cet ensemble est
dénombrable, et on l’énumère: Z = {z0 ,z1 ,z2 ,...}. Posons
N (x) = {n ∈ N | zn ≺ x}.
2. Cas général
Pour passer du cas de l’ordre à celui du préordre, soit (X, %) un espace préordonné %-
séparable. Considérons alors l’ensemble quotient X/ ∼ muni de la relation définie
par [x]∼ [y]∼ ⇔ x % y. Cette relation est bien définie, et il est évident que (X/ ∼
, ) est -séparable (considérer A/ ∼, où A est %-dense dans X). Soit alors u une
fonction d’utilité représentant . Il suffit de poser pour tout x ∈ X,U (x) = u([x]∼ )
pour avoir une fonction d’utilité pour %.
2.2 Compléments
On a vu précédemment que les deux postulats de totalité et de transitivité pouvaient
poser des problèmes conceptuels. Nous proposons donc en complément quelques théorèmes
de représentation pour des relations de préférence ne vérifiant pas l’une ou l’autre de ces
propriétés.
Démonstration.
Nous montrons le résultat pour un ordre, le cas du préordre s’en déduit en quotientant. Soit
A un ensemble dénombrable dense dans X et soit G l’ensemble des extrémités de trous.
Alors Z := A ∪ G est dénombrable et on peut l’énumérer: {z1 ,z2 ,...}. Pour x ∈ X, posons
N (x) = {n ∈ N∗ | x % zn } et X
u(x) = 2−n .
n∈N (x)
Si x y, N (y) ⊆ N (x). Deux cas peuvent se présenter. Si (x,y) n’est pas un trou, il existe
zn ∈ A tel que x zn y. Donc n ∈ N (x) \ N (y), et u(x) > u(y). Si (x,y) est un trou,
alors il existe zn ∈ G tel que zn = x. Donc n ∈ N (x) \ N (y), et u(x) > u(y).
2.2. COMPLÉMENTS 25
Théorème 2.3
Soit un préordre % séparable et à trous dénombrables sur un ensemble X. Alors il existe
un ensemble V de fonctions de X dans R tel que:
x % y ⇔ ∀v ∈ V ,v(x) ≥ v(y).
Démonstration.
On se place dans le cas d’un ordre, le cas d’un préordre s’en déduisant facilement. On veut
montrer que l’ensemble V = {v ∈ RX | x,y ∈ X,x y ⇒ v(x) > v(y)} convient. Il faut
montrer la contraposée, à savoir que si x et y sont incomparables, il existe vxy et vyx dans
V telles que vxy (x) > vxy (y) et vyx (y) > vyx (x). Soient donc x,y ∈ X tels que x k y. On va
définir deux extensions de %, %xy et %yx de la façon suivante (nous donnons la définition
de %xy , celle de %yx est analogue): on pose
z xy z 0 ⇔ z z 0 ou (z % x et y % z 0 ),
La séparabilité est donc une condition suffisante. Elle n’est pas a priori une condition
nécessaire (contre-exemple à trouver!). En fait, il y a de bonnes raisons de penser que tout
préordre est représentable de cette façon, mais c’est encore à creuser.
la perception humaine des sons, des couleurs, des masses n’était pas transitive, en ce sens
qu’elle fonctionne par seuil: on peut avoir le sentiment qu’une suite de poids ne différant
que d’un gramme sont identiques, et pourtant trouver le premier de la série strictement
plus léger que le dernier. L’adaptation de cette idée à la théorie des préférences a été faite
par Luce dans un article célèbre Luce (1956). Il donne notamment l’exemple d’une tasse
de café sucré. Que l’on préfère une tasse contenant un moreceau de sucre à une tasse en
contenant cinq est assez évident. Mais si on passe de l’une à l’autre en rajoutant 1/100
de morceau de sucre à chaque fois, il y a fort à parier que l’on ne se rendra pas compte
de la différence avant qu’un certain seuil ait été franchi. Afin d’étudier ce phénomène et
ses conséquences, Luce a introduit la notion de semi-ordre. Nous allons étudier ici une
généralisation de ce concept, la notion d’ordre d’intervalle.
Définition 2.6. Soit une relation binaire asymétrique sur X. est un ordre d’intervalle
si elle vérifie la condition suivante:
∀x,y,x0 ,y 0 ∈ X,x y et x0 y 0 ⇒ x y 0 ou x0 y.
Proposition 2.2
Soit un ordre d’intervalle. Alors:
(i) est transitive;
(ii) % est pseudo-transitive: ∀x,y,x0 ,y 0 ,x % y x0 % y 0 ⇒ x % y 0 .
Démonstration.
On note, d’après cette proposition, que % (et donc ∼) n’est pas nécessairement transi-
tive. On s’en convaincra en considérant la relation sur R définie par x y si seulement
si x > y + 1. De ce fait, la notion d’ordre d’intervalle est adaptée à la modélisation du
phénomène évoqué. Par ailleurs, comme on le voit également sur cet exemple, n’est pas
total (1 et 0,5 ne sont pas comparables par ); en revanche, % l’est par construction. De
plus, il est possible la notion d’ordre d’intervalle (ou plutôt de préordre d’intervalle) en
partant d’une relation réflexive % que l’on suppose totale, pseudo-transitive et telle que
soit transitive.
2.2. COMPLÉMENTS 27
Quelle est la bonne notion de représentation pour des ordres d’intervalle? Le théorème
suivant donne la réponse à cette question.
Théorème 2.4
Soit X un ensemble dénombrable et une relation binaire asymétrique sur X. Alors les
propositions suivantes sont équivalentes:
(i) est un ordre d’intervalle;
(ii) il existe deux applications u,v : X → R telles que v ≥ u et pour tout x,y ∈ X:
x y ⇔ u(x) > v(y) (2.3)
(iii) il existe deux applications u : X → R et ρ : X → R∗+ telles que pour tout x,y ∈ X:
x y ⇔ u(x) > u(y) + ρ(y). (2.4)
Démonstration.
On montre facilement que (iii) implique (ii) implique (i). Reste à montrer (i) implique (iii).
X étant dénombrable, il peut être énuméré. Soit {x1 ,x2 ,...} une énumération de X. Pour
tout x = xk ∈ X, on pose:
S(x) = {n ∈ N∗ | x xn },
T (x) = {n ∈ N∗ | ∃m ∈ N∗ ,x % xm xn }.
On définit alors: X
u(x) = 2−n si S(x) 6= ∅
n∈S(x)
= 0 sinon
X
v(x) = 2−n si T (x) 6= ∅
n∈T (x)
= 0 sinon
ρ(x) = 2−k−1 + v(x) − u(x).
Comme S(x) ⊆ T (x),v(x) ≥ u(x) et donc ρ(x) > 0. Soit y = xj ∈ X. Si x y, alors
T (y) ⊆ S(x): si n ∈ T (y), alors il existe m ∈ N∗ tel que y % xm xn . Comme x y, ceci
implique x xn ou xm ym d’après la définition de l’ordre d’intervalle, mais xm ym
est impossible, donc x xn : n ∈ S(x). Comme j ∈ S(x) \ T (y), on a
u(x) ≥ v(y) + 2−j > u(y) + ρ(y).
D’autre part, si y % x, alors S(x) ⊆ T (y), donc
u(y) + ρ(y) ≥ v(y) ≥ u(x).
Le cas non dénombrable peut également être traité, mais avec des conditions plus
complexes. On peut montrer, bien que ce ne soit pas fait dans cet article, que le cas étudié
par Luce (1956) correspond au cas où ρ est constante. On a alors ce qu’on a appelle une
représentation à seuil, ce qui est bien ce que l’on recherche.
2.2.3 Exercices
1. Montrer que si X est dénombrable, % est représentable par une fonction d’utilité si
et seulement si % est un préordre total.
28 CHAPITRE 2. PRÉFÉRENCE ET UTILITÉ
29
Deuxième partie
Nous avons jusqu’à maintenant étudié la théorie abstraite de la décision, dans laquelle
la nature des objets de choix n’est pas spécifiée. Les chapitres qui suivent auront pour but
d’introduire une application essentielle de cette théorie, dans laquelle les objets de choix
dont on parle, sont des décisions dont les conséquences sont contingentes à la réalisation
d’un certain événement, c’est-à-dire au fait que le monde soit dans tel ou tel état. Nous
parlerons de décision dans l’incertain. La plupart des décisions de la vie courante sont en
fait des décisions de ce type. Peut-être même peut-on dire que toute décision est en fait
incertaine, dans la mesure où, parce que toute décision est prise dans une certaine durée,
des événements peuvent intervenir qui peuvent modifier les conséquences de nos décisions.
Cependant, ces événements sont dans une large mesure imprévisibles. Ils constituent à
proprement parler une surprise par rapport à la décision qui est prise. On introduit dans
ce chapitre une première restriction qui est de considérer des décisions pour lesquelles la
liste des états du monde dont les conséquences dépendent est parfaitement connue 2 .
On formalise en général une décision contingente de la façon suivante. On a besoin de
savoir deux choses: la liste des contingences et la liste des conséquences associées à ces
contingences conditionnellement à la décision prise. Soit S l’ensemble des états de la na-
ture, c’est-à-dire la liste des contingences auxquelles les décisions sont soumises [discussion
philosophique sur cette notion? Construire par exemple à partir des fonctions de vérité
et discuter la notion d’état du monde pertinent: omelette de Savage]. Soit E un ensemble
de parties de S stable par complémentation et réunion dénombrable. On dit que E est la
tribu des événements et (S,E ) est un espace mesurable 3 . On note de plus (C,C ) l’espace
mesurable des conséquences de la décision (qu’on suppose également connues, ce qui est
aussi une hypothèse relativement forte).
Définition 0.7 (Décision). On appelle décision ou acte une application f mesurable 4 de
S dans C. On note A l’ensemble des décisions.
Le but de la théorie de la décision dans l’incertain est de proposer un critère permettant
de classer les décisions afin d’en sélectionner une. Dans la mesure où une décision fait inter-
venir, d’une part, des événements et, d’autre part, des conséquences, l’idée est de proposer
un critère qui soit construit à partir d’une évaluation, d’une part, de la vraisemblance des
événements et, d’autre part, de l’utilité des conséquences.
A ce stade, on peut déjà introduire une première distinction essentielle, due à Frank
Knight Knight (1921). Le décideur peut disposer d’une certaine information quant à la
vraisemblance des événements. Deux cas polaires peuvent se présenter: dans le premier
cas, le décideur ne possède aucune information sur la vraisemblance des événements; dans
le second cas polaire, il connaît exactement la probabilité d’occurrence des événements. Le
premier cas est appelé incertain total ; le second est appelé risque. Les modèles traitant de
la décision dans l’incertain ne sont pas les mêmes selon la nature de l’incertitude. Nous
étudierons ces différents modèles en partant de la théorie classique puis nous donnerons
quelques exemples de violation expérimentale du modèle classique afin d’introduire les
nouveaux modèles de décision dans l’incertain, probabilisé ou non.
2. La théorie des décisions dans lesquelles cette liste est imparfaitement connue, ou théorie des contin-
gences non anticipées, est un des sujets de recherche actuels en théorie de la décision
3. Le lecteur ignorant en théorie de la mesure pourra considérer que S est un ensemble fini et que E est
l’ensemble des parties de S. Pour plus de précisions, consulter???.
4. C’est-à-dire telle que pour tout B ∈ C ,f −1 (B) ∈ E .
32
33
Chapitre 1
La théorie classique
Introduction
On peut faire remonter la théorie classique de la décision au pari de Pascal. C’est
lui [à vérifier dans Pradier] qui introduit pour la première fois l’espérance de gain comme
critère de décision permettant de décider en présence d’incertitude. Ce critère est le suivant:
supposons que l’on propose un jeu dans lequel on gagne une somme x avec probabilité p et
où l’on perd y avec probabilité 1 − p (on suppose pour l’instant une connaissance intuitive
de la notion de probabilité.). Alors l’espérance de gain de ce jeu est px − (1 − p)y. Plus
généralement, l’espérance de gain est associée à un jeu g dans lequel on gagne un gain
xi ∈ R avec une probabilité pi , i ∈ {1,...,n} est
n
X
EG(g) = pi xi .
i=1
On doit remarquer à propos de ce critère qu’il suppose que l’on puisse mener à bien cette
opération, c’est-à-dire que les gains sont réels (par exemples, des gains monétaires). Il ne
peut en général s’appliquer à des gains abstraits.
Le critère de l’espérance de gain a été mis en cause au XVIIIème siècle par le paradoxe
de Saint Petersbourg, qui a suscité de nombreuses discussions entre les plus grands mathé-
maticiens du temps, en particulier les frères Bernouilli et D’Alembert. Le paradoxe et le
suivant. Considérons un jeu gSP dans lequel on tire successivement une pièce de monnaie.
Si face sort au nème coup, on gagne 2n euros, et rien sinon. L’espérance de gain de ce jeu
est
+∞
X 1 n
EG(gSP ) = 2 = +∞.
2n
n=1
Par conséquent, n’importe qui devrait être prêt à parier toute sa fortune pour jouer à ce
jeu. Or, personne ne prendrait ce risque. Par conséquent, pour évaluer ce jeu, Daniel [à
vérifier] Bernouilli proposa d’introduire la valeur subjective de la monnaie, qui vérifierait
la propriété, dont la pertinence intuitive semblait évidente, que plus on est riche, moins la
valeur d’un euro supplémentaire est importante (cette propriété est appelée en économie le
principe de l’utilité marginale décroissante). La fonction ln vérifie cette propriété puisqu’elle
est concave. On aboutit alors à l’espérance d’utilité de gSP :
+∞
X 1
EU (gSP ) = ln 2n < +∞.
2n
n=1
34 CHAPITRE 1. LA THÉORIE CLASSIQUE
Ainsi, la valeur du jeu pour un individu est finie, ce qui résout le paradoxe.
Nous entendons par théorie classique de la décision dans l’incertain l’étude axiomatique
du critère de l’espérance d’utilité.
Pf = Pg ⇒ f ∼ g.
qui appartient à ∆(C). L’interprétation de cette fonction est cependant assez délicate. En
effet, elle est en général interprétée comme une loterie composée, c’est-à-dire une loterie
donnant p avec probabilité α et q avec probabilité 1 − α. Pour que cette interprétation
soit valable, cependant, il faut supposer l’axiome de réduction des loteries composées, qui
stipule que cette loterie composée, qui appartient à ∆(∆(C)) est bien équivalente, pour le
décideur, à l’élément de ∆(C) que nous avons construit (en supposant que le décideur a
des préférences sur ∆(∆(C))). Or, cet axiome est loin d’être trivialement vérifié (voir Segal
(1990) pour une discussion.)
1. c’est-à-dire d’une application P : E → R telle que:
(i) P(S) = 1;
(ii) pour toute suite d’événements {An }n∈N deux à deux disjoints,
X
P(∪n∈N An ) = P(An ).
n∈N
La deuxième propriété est appelée σ-additivité. Dans la suite, nous serons amenés à considérer des proba-
bilités qui sont seulement additives, c’est-à-dire telles P(A ∪ B) = P(A) + P(B) pour tous A,B ∈ E disjoints.
On parle parfois de charge de probabilité.
2. Pour être sûr qu’à toute mesure de probabilité correspond une décision dans A , il suffit que P soit
non-atomique.
1.1. LA THÉORIE CLASSIQUE DE LA DÉCISION DANS LE RISQUE 35
αp + (1 − α)r q βp + (1 − β)r;
αp + (1 − α)r ∼ q.
Interprétation: pas de goût pour le jeu, et il existe toujours une petite probabilité de
mourir que l’on est prêt à accepter pour mener à bien une action risquée.
Remarque 1.1. Lorsque les axiomes de Préordre et d’Indépendance sont vérifiés, les ver-
sions faible et forte de l’axiome de continuité sont équivalentes. On les distingue dans le but
de proposer l’axiomatisation minimale de l’espérance d’utilité, mais en réalité, d’un point
de vue interprétatif, la version forte est plus parlante.
Axiome 1.3 (Indépendance) Pour toutes p,q,r ∈ ∆(C), pour tout α ∈ [0,1],
p % q ⇔ αp + (1 − α)r % αq + (1 − α)r.
Théorème 1.1
Les assertions suivantes sont équivalentes:
(i) % vérifie les axiomes de Préordre, Continuité et Indépendance,
(ii) il existe une fonction u : C → R telle que:
p % q ⇔ EU (p) ≥ EU (q).
Remarque 1.2. Compte tenu de la remarque précédente, on n’a pas distingué dans l’énoncé
du théorème la version forte et la version faible. On montrera au cours de la démonstration
l’équivalence annoncée entre ces deux versions.
36 CHAPITRE 1. LA THÉORIE CLASSIQUE
Démonstration.
Démonstration.
r = (1 − ab )r + ab r (1 − ab )q + ab r
= (1 − ab )q + ab (bp + (1 − b)q)
= ap + (1 − a)q.
Soit α > α∗ . Alors, par construction de α∗ comme l’inf, il existe α0 ∈ [α∗ ,α[ tel que
α0 p + (1 − α0 )r % q. Alors, par le lemme précédent, α > α0 implique αp + (1 − α)r
α0 p + (1 − α0 )r % q. Donc, pour tout α > α∗ , on a:
αp + (1 − α)r q.
αp + (1 − α)r ≺ q.
c∗ % p % c∗ .
Démonstration.
1.1. LA THÉORIE CLASSIQUE DE LA DÉCISION DANS LE RISQUE 37
{c ∈ C | p(c) 6= 0}.
p ∼ q et p0 ∼ q 0 ⇒ αp + (1 − α)p0 ∼ αq + (1 − α)q 0 .
Démonstration.
p ∼ V (p)c∗ + (1 − V (p))c∗ .
et
q ∼ V (q)c∗ + (1 − V (q))c∗ .
Par application du lemme précédent, ceci implique:
Pour n = 2, c’est déjà fait. Supposons que c’est vrai au rang n − 1. Alors,
n n
X X αi
αi pi = α1 p1 + (1 − α1 ) pi .
1 − α1
i=1 i=1
Soit % une relation binaire définie sur M . Considérons les axiomes suivants, analogues
dans le cadre des espaces mixables des axiomes déjà examinés:
Axiome 1.4 (Préordre) % est un préordre total.
Axiome 1.5 (Continuité) Pour tous x,y,z ∈ M telles que x y z,
a) version faible: il existe α,β ∈]0,1[ tels que
m(x,z,α) y m(x,z,β);
1.2. ESPÉRANCE D’UTILITÉ DANS L’INCERTAIN: LE MODÈLE DE SAVAGE 39
m(x,z,α) ∼ y.
x % y ⇔ m(x,z,α) % m(y,z,α).
Théorème 1.2
Les assertions suivantes sont équivalentes:
(i) % vérifie les axiomes de Préordre, Continuité et Indépendance,
(ii) il existe une fonction affine u : M → R qui représente %.
Démonstration.
À faire.
Une fois que l’on dispose de ce théorème il est aisé de généraliser le théorème concernant
l’espérance d’utilité au cas où C est infini et où on se restreint à ∆0 (C). En revanche, les
généralisations ultérieures requièrent un axiome de dominance, mais ceci sort du cadre
simple adopté ici.
Axiome 1.8 (P2: principe de la chose sûre) Pour tous f,f 0 ,g,h ∈ A , A ∈ E ,
f Ag % f 0 Ag ⇔ f Ah % f 0 Ah.
Cet axiome est l’axiome le plus célèbre et le plus discuté de la théorie. On le considère
en général comme normativement acceptable mais descriptivement faux.
Cet axiome permet de définir la préférence de f à g conditionnelle à A, notée f %A g:
f %A g ⇔ ∃h ∈ A ,f Ah % gAh.
∀f,g ∈ A ,f ∼A g.
Ceci signifie que les contingences contenues dans A ne sont pas pertinentes pour la déci-
sion, puisqu’elles ne permettent pas de prendre une décision. On note E ∗ l’ensemble des
événements non-nuls.
Étant donnée c ∈ C, on peut considérer l’acte constant fc prenant la valeur c. La re-
lation de préférence % induit alors une relation sur C définie par c % c0 si et seulement si
fc % fc0 . Cette relation ne définit véritablement une préférence intrinsèque sur les consé-
quences (c’est-à-dire indépendante du contexte d’incertitude qui prévaut) que si l’on pose
l’indépendance de cette relation par rapport aux contingences susceptibles de se produire,
c’est-à-dire par rapport à l’information du décideur sur les contingences. Ceci conduit donc
à poser l’axiome suivant:
Axiome 1.9 (P3: indépendance par rapport à l’état de la nature) Pour toutes c,c0 ∈ C,
pour tout A ∈ E ∗ ,
fc %A fc0 ⇔ c % c0 .
C’est cet axiome qui va permettre d’obtenir une fonction d’utilité indépendante de
l’état de la nature. Cet axiome est parfois discuté (parler de la mort de la femme.)
Comme nous l’avons dit, l’approche de Savage pour déduire des préférences de l’agent
sa mesure de probabilité subjective est de s’intéresser aux paris que l’agent est prêt à faire.
Formellement, un pari sur l’événement A ∈ E est un acte de la forme fc Afc0 , avec c c0 ,
c’est-à-dire un acte tel que l’on «gagne» si l’événement A se réalise et l’on «perd» dans le
cas contraire. On notera cAc0 un tel pari. D’après Savage, un individu estime plus probable
un événement A qu’un événement B s’il préfère parier sur A que parier sur B. Le problème
de cette définition est que la notion de pari comporte un élément d’arbitraire dans le choix
1.2. ESPÉRANCE D’UTILITÉ DANS L’INCERTAIN: LE MODÈLE DE SAVAGE 41
des conséquences c et c0 . Pour que cette relation «est plus probable que» soit bien définie,
il faut donc qu’elle ne dépende pas de ce choix. Ceci nécessite un axiome:
Axiome 1.10 (P4:cohérence de la vraisemblance) Pour tous c,c0 ,c1 ,c01 ∈ C, tels que c c0
et c1 c01 , pour tous A,B ∈ E ,
On peut ainsi définir une relation binaire «est plus probable que», notée D, sur E par:
Pour que cette relation soit utilisable, il faut que l’on puisse comparer des événements,
donc qu’il existe c,c0 ∈ C telles que c c0 . C’est l’objet de l’axiome suivant:
Axiome 1.11 (P5: non-trivialité) Il existe c,c0 ∈ C telles que c c0 .
L’axiome suivant est technique, et nous ne nous étendrons pas dessus:
Axiome 1.12 (P6) Pour tout f,g ∈ A tels que f g, pour tout c ∈ C, il existe une
partition de S telle que remplacer f (s) (ou g(s)) par c pour tout s dans une cellule de la
partition ne change pas l’ordre de la préférence.
Le dernier axiome est un axiome de dominance, du même ordre que celui que nous
n’avons pas énoncé pour le risque:
Axiome 1.13 (P7:dominance) Pour tout A ∈ E , pour tous f,g ∈ A ,
Pour qu’il soit légitime de prétendre qu’elle représente des jugements de probabilité, il faut
ajouter des axiomes sur cette relation.
Définition 1.3 (Probabilité qualitative). Soit D une relation binaire sur une algèbre E .
D est une relation de probabilité qualitative (p.q.) si elle vérifie les axiomes suivants:
(QP1) D est un préordre total;
(QP2) Pour tout A ∈ E , A D ∅;
(QP3) S . ∅;
(QP4) Pour tout A,B,C ∈ E tels que A ∩ C = B ∩ C = ∅:
A D B ⇔ A ∪ C D B ∪ C.
Exemple fondamental. Soit P une charge de probabilité sur (S,E ). Soit la relation DP
définie sur E par:
A DP B ⇔ P (A) ≥ P (B).
La relation DP est une p.q.
La question qui se pose est évidemment celle de la réciproque: étant une p.q. D, existe-
t-il une charge de probabilité P telle que D=DP . La réponse, comme dans le cas de la
représentation d’une relation de préférence par une fonction d’utilité, n’est pas triviale.
On peut montrer que les axiomes ne sont pas suffisants (Kraft, Pratt, and A. (1959)). Il
existe un certain nombre de théorèmes, mais nous nous contenterons de ce que que Savage
a démontré, qui est le suivant:
Théorème 1.4
Soit D une p.q. qui vérifie l’axiome suivant:
(QP5) Si A . B, il existe une partition finie (Ci )i∈I de S telle que, pour tout i ∈ I,
A . B ∪ Ci .
Alors, il existe une probabilité sans atome P telle que D=DP .
Cette relation est bien définie en vertu de (P4) et elle définit bien une p.q. en vertu de
(P1) et (P2) et (P5). En outre, Savage montre que l’axiome (P6) implique que (QP5) est
vérifié. Donc il existe une probabilité P sans atome qui représente D.
L’utilité
Soit A0 l’ensemble des actes prenant un nombre fini de valeurs. On peut associer à
chaque f ∈ A0 sa probabilité induite Pf (c) = P (f −1 ({c})). Savage montre deux choses:
– Si Pf = Pg , alors f ∼ g.
– Pour toute loterie p sur C , il existe f ∈ A ,Pf = p.
On peut alors travailler sur l’ensemble ∆0 (C) muni de la relation de préférence
p % q ⇔ f % g,
f % g ⇔ V (Pf ) ≥ VPg ,
1.2. ESPÉRANCE D’UTILITÉ DANS L’INCERTAIN: LE MODÈLE DE SAVAGE 43
Savage montre alors que l’on peut étendre ce résultat à tous les actes, et ceci achève la
preuve.
44 CHAPITRE 1. LA THÉORIE CLASSIQUE
45
Chapitre 2
1. Lorsqu’il y a plusieurs agents, l’existence d’une probabilité objective les forcent à adopter la même
croyance sur les événements, alors que si les probabilités sont subjectives, elles peuvent a priori différer
46 CHAPITRE 2. LIMITES DE LA THÉORIE CLASSIQUE
Définition 2.1. Soient X et Y deux variables aléatoires de même espérance. On dit que
Y est un étalement à moyenne constante de X (en anglais «mean-preserving spread»), et
on note Y %M P S X, s’il existe θ ∈ V0 telle que:
(i) E(θ | X) = 0 P − p.p.;
(ii) Y = X + θ
Cette définition 2 est intuitive: elle montre que Y est un EMC de X si l’on passe de X
à Y en ajoutant un "bruit", donc en complexifiant la décision, puisqu’il faut alors prendre
en compte l’effet de ce bruit. C’est la notion classique d’accroissement du risque utilisée
en économie, et elle a été introduite en économie par Rotschild and Stiglitz (1970, 1971).
Elle n’est cependant pas exemptes de critiques, car dans la mesure où aucune conditions
sur θ n’est imposée, θ peut constituer une couverture contre les mauvais résultats de X,
de sorte que Y soit en un sens moins risquée que X. Nous introduirons dans des chapitres
ultérieurs des modifications de cette notion prenant en compte cette critique.
Cette notion permet de définir une notion d’aversion pour le risque.
Définition 2.2. Soit un décideur caractérisé par une relation de préférence % sur V0 . On
dit que le décideur a de l’aversion forte pour le risque si, pour toutes X,Y ∈ V0 de même
espérance, on a:
Y %M P S X ⇒ X % Y.
Ainsi, un décideur a de l’aversion pour le risque s’il préfère toujours la loterie la moins
risquée.
Une notion plus faible et plus intuitive d’aversion pour le risque peut être définie. Il est
clair qu’une loterie certaine est moins risquée qu’une loterie incertaine de même espérance.
C’est même le cas le plus simple d’accroissement de risque. En outre, cette notion est
cohérente avec celle que l’on a donnée précédemment, puisque étant donné X ∈ V0 , on a
X %M P S E(X) (il suffit de prendre θ = X − E(X)). On définit l’aversion faible pour le
risque à partir de cette notion.
Définition 2.3. Soit un décideur caractérisé par une relation de préférence % sur V0 . On
dit que le décideur a de l’aversion faible pour le risque si, pour toute X ∈ V0 , on a:
E(X) % X.
2. Il existe en fait une définition plus générale dans le cas où X et Y n’ont pas la même espérance. Voir
(Cohen and Tallon, 2000, p.638).
2.1. LIMITES NORMATIVES DE L’ESPÉRANCE D’UTILITÉ 47
Proposition 2.1
Soit un décideur caractérisé par une relation de préférence % sur V0 . Si le décideur a de
l’aversion forte pour le risque, il a aussi de l’aversion faible.
Dans le cas où les préférences de l’agent peuvent être représentées par une espérance
d’utilité, on a la réciproque et une caractérisation de l’aversion pour le risque.
Théorème 2.1
Soit un décideur caractérisé par une relation de préférence % sur V0 re présentable par une
espérance d’utilité et soit u sa fonction d’utilité vNM. Alors le propositions suivantes sont
équivalentes:
(i) Le décideur a de l’aversion forte pour le risque;
(ii) Le décideur a de l’aversion faible pour le risque;
(iii) u est concave.
Démonstration.
L’équivalence entre (ii) et (iii) provient de l’inégalité de Jensen (cf. par exemple (Williams,
1991, p.61)) et de la définition de la concavité. (i) ⇒ (ii) est évident et (ii) ⇒ (i) est
prouvée dans Rotschild and Stiglitz (1970).
confiance si celui qui jette la pièce est le possesseur de la pièce, alors qu’elle n’est pas
créditée de la même confiance si c’est la pièce appartient à quelqu’un d’autre, toutes choses
égales par ailleurs. On dispose de plus d’information concernant la pièce dans le premier
cas que dans le second. Comme suggéré par Schmeidler (1989), on pourrait dans le second
cas attribuer la même probabilité à chaque face, mais pas forcément 1/2. Le complément à
1 mesure ainsi la confiance de l’agent dans son estimation. Le modèle d’espérance d’utilité,
dans la mesure où il est fondé sur des probabilités additives, rend impossible cette mani-
pulation (ceci est vrai, plus généralement, de tout modèle dans lequel les croyances sont
exprimées par des probabilités).
Ainsi, comme dans le cas de la modélisation de l’attitude face au risque, le modèle de
l’espérance d’utilité apparaît très rigide et relativement peu expressif. Il ne peut faire droit
à des différences de comportement qui ne sont pas, pourtant la marque d’une quelconque
irrationalité. On peut même dire qu’avoir le même comportement dans deux situations
différant par leur information est irrationnel, puisque cela conduit à ignorer la différence
d’information. Ainsi, de ce point de vue le modèle de l’espérance d’utilité est irrationnel.
Pour une discussion plus générale sur la notion de confiance dans les probabilités, on
pourra consulter (Moureau and Rivaud-Danset, 2004, chapitre 1).
5M 1M 0
L1 0 1 0
L2 0,10 0,89 0,01
L0 1 0 0,11 0,89
L0 2 0,10 0 0,90
Si vous essayez de donner vos préférences entre les loteries L1 et L2 d’abord, entre les
loteries L0 1 et L0 2 ensuite, il y a de fortes chances que vos réponse soient les suivantes:
L1 L2
et
L0 2 L0 1.
C’est en tout cas ce que la plupart des gens, notamment Savage lui-même, répondent. Or,
ces préférences remettent en cause l’espérance d’utilité. En effet, soit P la loterie donnant
donnant 5M avec probabilité 10/11 et 0 avec la probabilité 1/11. On a alors:
L1 = 0,11L1 + 0,89L1
L2 = 0,11P + 0,89L1
L0 1 = 0,11L1 + 0,89δ0
L0 2 = 0,11P + 0,89δ0 .
Pour n’importe quelle application affine V (au sens du théorème sur les espaces mixables)
représentant les préférences, on aura donc
L1 L2 ⇔ L1 P
et
L0 2 L0 1 ⇔ P L1.
Il y a là une contradiction manifeste; les préférences ne peuvent donc pas être représentables
par une application affine.
Comme l’a noté Mongin (1988), il n’est pas possible, à partir de cet exemple, de savoir
lequel des trois axiomes — préordre total, continuité et indépendance — est effectivement
violé par les sujets effectuant de tels choix. Kahneman and Tversky (1979) ont construit
un exemple dans lequel il est plus clair que c’est l’axiome d’indépendance qui est violé. Les
loteries sont présentées dans le tableau 3.2
4000 3000 0
A 0 1 0
B 0,8 0 0,2
C 0 0,25 0,75
D 0,2 0 0,8
Essayez encore une fois d’exprimer vos préférences successivement entre A et B puis
entre C et D.
La majorité des sujets choisissent A B et D C. Or, il est facile de voir que:
C = 0,25A + 0,75δ0
et
D = 0,25B + 0,75δ0 .
Les choix observés sont donc en contradiction manifeste avec l’axiome d’indépendance.
Une des raisons souvent avancées pour expliquer ces choix est ce que l’on appelle l’effet
de certitude. Dans les deux expériences rapportées ci-dessus, une des loteries était une
50 CHAPITRE 2. LIMITES DE LA THÉORIE CLASSIQUE
loterie certaine. Or, la certitude semble être très attirante pour les individus, ce qui les
détermine à choisir la loterie certaine contre une loterie incertaine ayant pourtant une
espérance de gain supérieure 3 .
E D F ⇔ fE % fF .
exemple le cas dans la seconde expérience, pour laquelle l’ensemble des distributions de
probabilité compatible avec l’information disponible est l’ensemble
1 2 2
{P | P (R) = ,P (N ) = λ,P (J) = − λ,0 ≤ λ ≤ }.
3 3 3
Dans une telle situation, il n’y a pas nécessairement de raisons de privilégier l’un des
éléments de cet ensemble. Ellsberg introduit explicitement la notion de degré de confiance
dans une estimation. Supposons, dit-il, que l’on parvienne à agréger l’information en une
distribution unique de probabilité, ou que, d’une manière ou d’une autre une distribution
soit particulièrement saillante (dans le cas précédent, ce serait la distribution uniforme). On
sait qu’on peut néanmoins se tromper en faisant entièrement confiance à cette distribution.
Si l’on est prudent, on voudra également minimiser ses pertes. Pour ce faire, il faudrait
choisir la décision qui entraîne en moyenne les pertes les moins importantes dans le pire des
scénarios. Supposons donc que l’information disponible permette d’aboutir à un ensemble
de distributions P et à une distribution particulière P ∗ . Si on note γ ∈ [0,1] le paramètre
mesurant la confiance du décideur dans son estimation P ∗ , le critère proposé par Ellsberg
est le suivant:
f % g ⇔ U∗ (f ) ≥ U∗ (g)
avec
U∗ (f ) = γEP ∗ (u ◦ f ) + (1 − γ) min EP (u ◦ f ).
P ∈P
Le choix de la loi uniforme pour P∗
et de γ = 1/4 permet de retrouver le résultat observé.
Ce critère a été axiomatisé notamment par Gajdos, Tallon, and Vergnaud (2004).
P D ∼ CD CP ∼ P,
P CD CP D.
L’analyse expérimentale ne permet pas véritablement de trancher entre les deux possibilités:
d’un côté les études de Loomes, Starmer et Sugden Loomes, Starmer, and Sugden (1989,
1991) penchent du côté de l’hypothèse d’intransitivité, alors que celle de Tversky, Slovic et
Kahneman Tversky et al. (1990), mise au point expressément pour tester ce point, tend à
souligner massivement le rôle de l’absence d’invariance procédurale 6 .
X telle que %Y soit, pour tout Y , la restriction de % à Y , alors il n’y a pas de dépendance
par rapport au contexte, et %X =%. Par conséquent, la dépendance par rapport au contexte
est incompatible avec l’existence d’une relation de préférence globale qui détermine les
choix locaux. On sait (voir premier chapitre) que l’existence d’un telle relation implique
en particulier que le comportement de choix de l’individu vérifie la condition suivante, où
C : 2X \ ∅ → 2X \ ∅ est la fonction de choix de l’individu:
Propriété α de Sen ∀Y,Y 0 ∈ Y ,
Cet axiome est en effet nécessaire pour qu’il existe un préordre total R sur X qui
rationalise C, c’est-à-dire tel que pour toute partie Y ∈ Y ,
C(Y ) = {x ∈ Y | ∀y ∈ Y,xRy}.
Or, de nombreux auteurs, et Sen lui-même 7 , ont mis en cause la pertinence tant normative
que descriptive de cet axiome 8 . Nous rapportons ici quelques expériences, tant réelles que
de pensée, qui tendent à confirmer ce scepticisme. Nous les classons par la source présumée
du comportement décrit.
options, alors que dans le deuxième groupe, 57% des sujets choisissaient la Minolta 3000i,
c’est-à-dire l’option médiane, alors que les deux autres options se partageaient équitablement
le reste du marché. Donc l’introduction d’une troisième option plus élevée a entraîné une
réduction de la part de marché de l’option basse, mais le maintien de la part de marché de
l’option moyenne. On a donc ici un effet d’aversion pour les extrêmes.
On trouvera d’autres exemples de ce type de phénomène dans Shafir, Simonson et
Tversky Tversky, Simonson, and Shafir (2000).
9. Ce mécanisme de choix a été étudié par Baigent et Gaertner Baigent and Gaertner (1996).
56 CHAPITRE 2. LIMITES DE LA THÉORIE CLASSIQUE
Si le programme D est adopté, personne ne mourra avec probabilité 1/3 et 600 per-
sonnes mourront avec probabilité 2/3.
On propose d’abord aux sujets de choisir entre A et B: 72% choisissent A. Puis on leur
demande de choisir entre C et D: 78% choisissent D. Pourtant, les traitements A et C
d’une part, B et D d’autre part ne différent que par la description de leurs conséquences.
On se serait donc attendu au choix de C. Ainsi, les préférences semblent dépendre de
la description des objets. Plus précisément, on remarque (avec un abus de notation) que
A = E(B) et C = E(D), où E désigne l’espérance mathématique. Donc A B révèle de
l’aversion pour le risque, alors que D C révèle du goût pour le risque. Les préférences
sont donc modifiées en profondeur.
Il ne s’agit là que d’un exemple, le plus célèbre, parmi une multitude d’autres (voir
Kühberger KŸhberger (1998) et Levin, Schneider et Gaeth Levin, Schneider, and Gaeth
(1998) pour une revue de littérature très détaillée). Levin, Schneider et Gaeth Levin et al.
(1998) proposent en particulier de distinguer trois types d’effets de cadrage: le cadrage d’un
choix risqué (du type “maladie asiatique”), le cadrage d’attribut (lorsqu’un attribut d’un
objet est présenté de façons différentes) et le cadrage de but (lorsque le but d’une action
est présenté de façons différentes). Ainsi, Levin et Gaeth Levin and Gaeth (1988) ont mené
à bien une expérience sur le cadrage d’attribut, dans laquelle un morceau de viande était
identifié comme à 75% maigre ou comme contenant 25% de matières grasses. Les sujets ont
eu tendance à évaluer plus favorablement au goût le morceau de viande présenté comme
maigre que celui présenté comme gras. Ce type d’expérience peut être reformulé dans le
cadre de la théorie de la décision en disant que l’évaluation est équivalente à l’expression
d’une préférence entre l’objet à évaluer et un statu quo implicite. Il peut donc être inclus
dans notre étude des renversements de préférence.
10. ou tout au moins une version faible de celui-ci, l’indépendance par rapport au mixage avec la consé-
quence neutre.
58 CHAPITRE 2. LIMITES DE LA THÉORIE CLASSIQUE
59
Chapitre 3
Introduction
Les paradoxes mis en évidence semblent montrer qu’il y a certains aspects du processus
de décision suivi par les individus que la théorie classique ne saisit pas. Trois questions se
posent concernant ces points aveugles de la théorie:
1. Quels sont-ils?
2. Comment peut-on les caractériser? Autrement dit, comment peut-on les intégrer dans
une théorie?
3. Quel est leur statut? Autrement dit, comment faut-il les juger du point de vue norma-
tif? Traduisent-ils une irrationalité foncière des individus ou bien sont-ils compatibles
avec une autre définition de la rationalité?
Ces trois questions vont nous servir de guide dans la présentation des théories alterna-
tives à l’espérance d’utilité que nous allons présenter. Nous allons procéder en regardant
successivement les réponses apportées à ces trois questions chacun des paradoxes qui ont
été évoqués plus haut.
d’Ellsberg, il faut et il suffit que dans ce modèle les croyances soient représentées par une
mesure non-additive. Une des directions vers lesquelles vont porter les efforts des théoriciens
va donc être de construire une telle théorie de la décision.
Exemple 3.2. Soit P une mesure de probabilité sur (S,E ) et f : [0,1] → [0,1] croissante
telle que f (0) = 0 et f (1) = 1. Alors la fonction
ν :E → [0,1]
A 7→ f (P (A))
est une capacité appelée probabilité déformée. f s’appelle alors une déformation de proba-
bilité.
La notion de capacité conserve une propriété minimale des probabilités, à savoir leur
monotonie.
On va donc s’intéresser ici à un modèle de décision dans lequel les croyances sont
représentables par une capacité. Dans le cas où la capacité est additive, on sait agréger
l’attitude du décideur par rapport aux conséquences, représentée par la fonction d’utilité,
et sa confiance dans les événements, parce qu’on dispose d’une fonction d’agrégation, une
intégrale. Ainsi, si on considère une fonction ϕ : S → R telle qu’il existe une partition
(Ai )i=1,...,n de S fini et mesurable (c’est-à-dire telle que Ai ∈ E pour tout i) et une famille
(xi )i=1,...,n de nombre réels tels que ϕ(Ai ) = {xi } et x1 < x2 < ... < xn , l’intégrale de ϕ
par rapport à une mesure de probabilité P est :
Z n
X
ϕ dP = xi P (Ai ).
S i=1
du rang qu’occupe une valeur de la fonction relativement aux autres valeurs. Ceci apparaît
plus nettement dans une expression équivalente de la formule:
Z Xn
ϕ dν = x1 + (xi − xi−1 )ν(∪nj=i Aj ).
S i=2
Cette expression montre la démarche pour calculer l’intégrale. On commence par la
valeur la plus faible, le minimum garanti en quelque sorte, et on ajoute petit à petit les
incréments potentiels, en les pondérant par leur vraisemblance. Le fait que l’expression
dépend du rang apparaît nettement dans le calcul de l’intégrale de fonctions ne prenant
que deux valeurs: si ϕ(s) vaut x si s ∈ A et y si s ∈
/ A, avec x 6= y, alors
Z
ϕ dν = ν(A)x + (1 − ν(A))y
S
si x > y et Z
ϕ dν = (1 − ν(Ac ))x + ν(Ac )y
S
si y > x, et ces deux quantités sont différentes car on n’a pas, en général ν(Ac ) = 1 − ν(A).
(ii) Il existe une unique capacité ν telle que, pour tout ϕ ∈ B(S,E ),
Z
I(ϕ) = ϕ dν
S
De plus, la capacité ν trouvée ci-dessus est telle que, pour tout A ∈ E , ν(A) = I(1A ).
Ce théorème montre que la notion d’intégrale de Choquet est bien une bonne géné-
ralisation de l’intégrale usuelle, qui est une forme linéaire monotone sur B(S,E ). Notons,
comme dernière remarque générale sur l’intégrale de Choquet, qu’en général on a:
Z Z
ϕ dν 6= − −ϕ dν.
S S
Axiomatisation
Un préalable: le modèle d’ Anscombe and Aumann (1963) La plupart des nou-
veaux modèles ont été axiomatisés dans un cadre plus simple mathématiquement que le
cadre de Savage: le cadre d’Anscombe and Aumann (1963). Ce cadre, bien qu’il soit d’un
usage plus simple d’un point de vue mathématique, pose des problèmes conceptuels, comme
nous allons le voir. Décrivons tout d’abord ce modèle. D’un point de vue mathématique,
ce modèle peut-être vu comme un cas particulier du cadre de Savage, puisqu’il consiste
à prendre un ensemble C ayant une structure particulière. Nous résumons ce choix dans
l’hypothèse suivante:
+
Hypothèse 3.1 (AA) Il Pexiste un ensemble Y tel que C = ∆0 (Y ) = {p : Y → R |
|{y ∈ Y | p(y) > 0}| < ∞, y∈Y p(y) = 1}.
Autrement dit, C est l’ensemble des loteries sur un ensemble de conséquences Y .
Conceptuellement, on peut considérer que l’on a affaire au contraire à un modèle plus
général que le modèle de Savage, puisque la notion de conséquence est étendue à la notion
de conséquence aléatoire. Ceci ne va pas sans poser des problèmes du point de vue de
la pureté du modèle. En effet, si le modèle se donne pour but de fonder l’existence de
probabilités subjectives, il suppose cependant l’existence de probabilités objectives, dont
l’origine n’est pas spécifiée. De plus, l’interprétation des axiomes écrits dans le contexte
formel de ce modèle n’est pas aussi intuititve qu’il y paraît au premier abord, et il faudra
64 CHAPITRE 3. LES THÉORIES ALTERNATIVES AUX THÉORIES CLASSIQUES
se méfier des analogies souvent trompeuses avec les axiomes tels qu’ils s’écrivent dans le
cadre de Savage.
Etant donnée l’hypothèse (AA), l’ensemble des conséquences C a maintenant une struc-
ture d’espace mixable. On considère comme ensemble de base l’ensemble A0 des actes
f : S → C ayant un nombre fini de valeurs 1 . On peut munir l’ensemble A0 des actes
d’une structure d’espace mixable: soient f,g ∈ A0 , λ ∈ [0,1]. On pose (λf + (1 − λ)g)(s) =
λf (s) + (1 − λ)g(s) pour tout s ∈ S.
On suppose de plus donnée une relation de préférence sur A0 .
Une fois que l’on a posé ce cadre formel, le modèle d’Anscombe et Aumann (auquel
on se référera dorénavant comme au modèle AA) consiste à imposer un système d’axiomes
sur la relation de préférence qui conduise à une représentation des préférences en termes
d’espérance d’utilité subjective. Les axiomes du modèle sont les suivants:
Axiome 3.1 (AA1, préordre total) La relation de préférence % est un préordre total sur
A0 .
Axiome 3.2 (AA2, continuité) Pour tous f ,g,h de A0 , avec f g h,il existe α,
β ∈]0, 1[ tels que
αf + (1 − α)h g βf + (1 − β)h.
Axiome 3.3 (AA3, indépendance) Pour tous f ,g,h de A0 , pour tout α ∈ ]0,1]
f % g ⇐⇒ αf + (1 − α)h % αg + (1 − α)h.
Axiome 3.4 (AA4, monotonie) Pour tous f,g de A0 , [f (s) % g(s),pour tout s ∈ S] ⇒
f %g
Axiome 3.5 (AA5, non trivialité) Il existe au moins une paire d’actes f,g telle que f g
De plus, P est unique et U est définie à une transformation affine strictement croissante
près.
Remarque 3.1. Rappelons que U affine signifie que U (λc + (1 − λ)c0 ) = λU (c) + (1 −
λ)U (c0 ). De ce fait, pris comme théorème portant sur les actes à valeurs dans C, ce théorème
est moins général que celui de Savage, puisque la fonction d’utilité possède une forme assez
contraignante. En revanche, si on considère que les véritables conséquences sur lesquelles
1. On rappelle que les actes sont des fonctions mesurables. Donc si f ∈ A0 , il existe une partition
i=1 de E et une suite (ci )i=1 , ci ∈ C telle que f (Ai ) = {ci }.
mesurable finie (Ai )n n
3.1. LES RÉPONSES AU PARADOXE D’ELLSBERG 65
porte ce théorème sont les éléments de Y , on peut réécrire la forme fonctionnelle obtenue
de la façon suivante (en supposant S fini):
Z XX
U ◦ f dP = P (f −1 (s))f (s)(y)u(y),
S s∈S y∈Y
avec u(y) = U (δy ). On voit alors qu’il s’agit dans cas d’un théorème plus général que celui
de Savage, puisque qu’on obtient le cas de Savage pour les f telles que pour tout s ∈ S,
f (s) = δys pour un certain ys ∈ Y .
Remarque 3.2. Dans tout ce qui précède, à l’exception de la remarque précédente, on
aurait pu remplacer ∆0 (Y ) par n’importe quel espace mixable, et le théorème resterait vrai.
f % g ⇐⇒ αf + (1 − α)h % αg + (1 − α)h.
gR (≈ fR ) (0, 60 30
90 ; 100, 90 )
gN (≈ fN ) (0, 90−k k
90 ; 100, 90 )
k
gR∪J (≈ fR∪J ) (0, 90 ; 100, 90−k
90 )
gN ∪J (≈ fN ∪J ) (0, 30 60
90 ; 100, 90 )
δ0 (0, 90
90 )
1
2 gR + 12 h = 21 gR∪J + 12 δ0 (0, 90+k 90−k
180 ; 100, 180 )
1
2 gN + 12 h = 21 gN ∪J + 12 δ0 120
(0, 180 60
; 100, 180 )
Les 4 premières lignes du tableau indiquent ce que deviennent les actes fR , fN , fR∪J ,
gN ∪J dans ce nouveau cadre.
On peut noter que, dans ce cadre, les actes gR ,gN ∪J , δ0 sont des actes constants, donc
l’unique conséquence est une loterie.
L’axiome AA3 et les égalités de mixages d’actes des deux dernières lignes du tableau
impliquent que :
gR gN ⇐⇒ 12 gR + 21 h 12 gN + 12 h
⇐⇒ 12 gR∪J + 12 δ0 12 gN ∪J + 21 δ0 ⇐⇒ gR∪J gN ∪J
Les choix fR et fN ∪J dans l’expérience constituent donc une violation de AA3. Il est
donc légitime d’affaiblir cet axiome comme le fait Schmeidler (1989).
Comme on peut s’y attendre, cet affaiblissement de l’axiome d’indépendance conduit
à une représentation des préférences compatible avec le paradoxe d’Ellsberg, c’est-à-dire
conduisant à des probabilité non-additives. On a en effet le théorème suivant:
3.1. LES RÉPONSES AU PARADOXE D’ELLSBERG 67
De plus, ν est unique et U est définie à une transformation affine strictement croissante
près.
La perception de l’ambiguïté
Le modèle de Ghirardato et al. (2004) reprend les axiomes AA1, AA2, AA4 et AA5 et
modifie uniquement l’axiome d’indépendance, de la façon suivante:
Axiome 3.7 (CI, indépendance par rapport à la certitude ou c-indépendance) Pour tous
f ,g de A0 , pour tout x ∈ C, pour tout α ∈ ]0,1]
f % g ⇐⇒ αf + (1 − α)x % αg + (1 − α)x.
68 CHAPITRE 3. LES THÉORIES ALTERNATIVES AUX THÉORIES CLASSIQUES
On peut dire que cet axiome constitue un axiome d’indépendance très faible. Cependant,
ses conséquences sont encore assez fortes.
Le premier résultat que l’on peut en tirer est une séparation de l’attitude par rapport
aux conséquences et des croyances. Afin de l’introduire, donnons quelques définitions. Si
K est un intervalle de R, soit B0 (E ,K) l’ensemble des fonctions ϕ : S → K mesurables
et prenant un nombre fini de valeurs. Une fonctionnelle I : B0 (E ,K) est dite c-linéaire si
pour tout x ∈ K, pour tout λ ≥ 0 et tout ϕ ∈ B0 (E ),
I(λϕ + x) = λI(ϕ) + x.
Proposition 3.1
Les propositions suivantes sont équivalentes:
(i) % vérifie AA1, AA2, CI, AA4 et AA5;
(ii) Il existe une fonction affine U : C → R et fonctionnelle c-linéaire et monotone 2
I : B0 (E ,U (C)) → R telle que, pour tout f,g ∈ A0 :
f % g ⇔ I(u ◦ f ) ≥ I(u ◦ g).
Tout le problème est maintenant d’étudier I. On va montrer en fait que la forme
fonctionnelle de I fait intervenir un ensemble de probabilités qui peut être interprété comme
l’ambiguïté perçue par le décideur. Afin de bien le comprendre, on va introduire une relation
qui permet de mesurer l’étendue de l’ambiguïté perçue par le décideur.
Soit %∗ la relation définie sur A0 par:
f %∗ g ⇔ ∀h ∈ A0 , ∀λ ∈]0,1], λf + (1 − λ)h % λg + (1 − λ)h.
Lorsque f %∗ g on dira que f est préféré sans ambiguïté à g. Cette terminologie se
justifie par le fait que, si f %∗ g, alors quelque soit la façon dont on tente de couvrir
l’ambiguïté inhérente à f et g, l’ordre est maintenu, ce qui signifie que l’ambiguïté ne joue
aucun rôle dans la préférence de f à g.
Cette relation possède les propriétés suivantes:
Proposition 3.3
Soient %1 et %2 les relations de préférence de deux décideurs, et soient %∗1 et %∗2 leurs
relations de préférence sans ambiguïté, P1 ,P2 les ensembles de probabilités associés. Alors,
on a l’équivalence suivante:
(i) f %∗1 g ⇒ f %∗2 g
(ii) P2 ⊆ P1
Les éléments de P peuvent s’interpréter comme les scénarios alternatifs possibles envi-
sagés par le décideur. C’est cette interprétation qu’il faut garder en tête pour comprendre
le sens de ce qui va suivre.
représente %.
De plus, a est uniquement déterminée sur l’ensemble
Z Z
∗
A0 := {f ∈ A0 | ∃P,Q ∈ P, u ◦ f dP 6= u ◦ f dQ}
Quelques mots d’interprétation sur ce théorème. Tout d’abord, il montre que les axiomes
donnent aux préférences une forme qui ressemble à celle d’un critère classique en théorie de
la décision, souvent appelée le critère pessimisme-optimisme d’Arrow-Hurwicz (Arrow and
Hurwicz (1972)). Ce critère, qui a été inventé pour définir un critère de décision dans le
70 CHAPITRE 3. LES THÉORIES ALTERNATIVES AUX THÉORIES CLASSIQUES
cas où le décideur n’a aucune information sur les événements, fait intervenir une moyenne
pondérée, pondérée par un coefficient α, de la pire et et de la meilleure des situations, le
coefficient de pondération étant souvent appelé le coefficient de pessimisme. La raison de
ce nom est que, plus α est grand, plus la pire situation est prise en considération, donc plus
l’évaluation est pessimiste en ce sens qu’elle présente un biais en faveur d’une vision noire
des choses. Ici, comme nous l’avons dit il sera interprété comme un coefficient d’aversion
à l’ambiguïté, mais c’est fondamentalement la même idée. Ce coefficient est constant chez
Arrow et Hurwicz, alors qu’ici il dépend de l’acte qui est évalué 4 Le théorème affirme
cependant que a n’est pas complètement arbitraire. Il donne en effet des conditions pour
que le coefficient de pessimisme soit le même pour deux actes f et g. Ceci est le cas si
les scénarios défavorables du point de vue de f sont défavorables également du point de
vue de g et s’il en est de même pour les scénarios favorables. Il y a là une idée voisine
de la comonotonie. Donnons un exemple de cette situation. Commençons par un exemple
abstrait: supposons que l’urne d’Ellsberg contienne des boules de 4 couleurs: rouge, noires,
bleues, jaunes. On dispose des informations suivantes: l’urne contient 120 boules, 30 boules
sont rouges et le nombre de boules bleues est toujours égal au nombre de boules jaunes.
L’ensemble P compatibles avec ces information est :
1 k 3 k
P = {P | P (A) = ,P (B) = P (J) = ,P (N ) = − ,k ∈ {0,...,45}}
4 120 4 60
et il est clair que les actes fB et fJ ordonnent les scénarios de la même façon, ce qui
n’est pas le cas de fR et fN . On aurait donc ici a(fB ) = a(fJ ). Donnons un exemple
plus concret. Considérons un investisseur qui se pose la question d’investir dans des pays
émergents. Il ignore la probabilité d’une crise financière dans ces pays, mais il est clair que
deux investissements dans des pays semblables ordonnent les scénarios de la même façon:
si j’investis à Singapour (acte S) ou en Thaïlande (acte T ), les scénarios dans lesquels
la probabilité d’une crise financière à Singapour est forte sont les mêmes que ceux pour
lesquels la probabilité d’une crise financière en Thaïlande est forte. Donc les scénarios pour
lesquels S est une bonne décision sont les mêmes que les scénarios pour lesquels T est une
bonne décision. On aura donc a(S) = a(T ).
Revenons maintenant à l’interprétation de a comme coefficient d’aversion à l’ambiguïté.
Afin de fonder cette interprétation, nous allons donner une définition comportementale
(c’est-à-dire en termes de la relation %) du fait qu’un agent présente plus d’aversion à
l’ambiguïté qu’un autre (voir Ghirardato and Marinacci (2002)). Une définition naturelle
de l’aversion comparée à l’ambiguïté serait la suivante: un agent 1 a plus daversion à
l’ambiguïté qu’un agent 2 si, toutes les fois que 1 préfère un acte ambigu à un acte non
ambigu, 2 préfère également cet acte ambigu à cet acte non-ambigu. Le problème d’une telle
définition est qu’il n’y a pas de définition de l’ambiguïté d’un acte qui fasse l’unanimité.
L’ambiguïté d’un acte dépend en fait de l’ambiguïté perçue dans l’environnement. Ce dont
on peut être sûr, en revanche, c’est que les actes constants ne sont jamais ambigus. Une
façon de définir l’ambiguïté est donc de restreindre le principe mentionné ci-dessus à des
actes constants, ce qui donne la définition ci-dessus:
Définition 3.3. Soient %1 et %2 les relations de préférence de deux agents. Alors l’agent 1
présente plus d’aversion à l’ambiguïté que l’agent 2 si, pour tout f ∈ A0 , pour tout x ∈ C:
f %1 x ⇒ f %2 x.
4. Il est possible de renforcer les axiomes pour obtenir que la fonction a soit constante (voir Ghirardato
et al. (2004)).
3.1. LES RÉPONSES AU PARADOXE D’ELLSBERG 71
Proposition 3.4
Soient %1 et %2 vérifiant les axiomes du théorème telles que P1 = P2 et telles qu’il existe
a > 0 et b tels que u1 = au2 + b. Alors 1 présente plus d’aversion à l’ambiguïté que 2 si et
seulement si, pour tout f ∈ A0∗ , a1 (f ) ≥ a2 (f ).
Proposition 3.5
Un agent se comportant selon le modèle MEU présente de l’aversion pour l’ambiguïté.
Démonstration.
Soit P l’ensemble des croyances de l’agent MEU et u sa fonction d’utilité. Soit P ∈ P et
%P un agent SEU dont les croyances sont représentées par P et l’utilité estR u. Montrons
que % a Rplus d’aversion à l’ambiguïté que %P . Si x P f , on a u(x) > u ◦ f dP >
minP ∈P u ◦ f dP , donc x f .
Nous n’avons pas pour l’instant donné les axiomes qui caractérisent le modèle MEU.
Ce modèle étant un cas particulier du modèle de Ghirardato et al. (2004), on s’attend à
ce que l’axiomatique de ce modèle contienne tous les axiomes de ce modèle plus d’autres
axiomes. En fait, il n’y a qu’un seul axiome supplémentaire:
Axiome 3.8 (Aversion à l’ambiguïté (AvAmb)) Pour tout f,g ∈ A , pour tout α ∈ [0,1],
f ∼ g ⇒ αf + (1 − α)g % f ∼ g.
72 CHAPITRE 3. LES THÉORIES ALTERNATIVES AUX THÉORIES CLASSIQUES
Si f,g sont indifférents, le mixage de ces deux actes ne peut pas être plus ambigü que
f et g car, au pire, f et g sont comonotones et ça ne change rien, et au mieux ils ne le
sont pas et alors on peut avoir une certaine couverture de l’incertitude. Donc, s’il y a de
l’aversion pour l’ambiguïté, l’agent va préférer le mixage moins ambigu à l’acte initial.
Cet axiome permet d’aboutir au théorème suivant:
Théorème 3.5
% vérifie AA1, AA2, CI, AA4, AA5 et AvAmb si et seulement s’il existe un ensemble P ∗
convexe compact de mesures de probabilité simplement additives tel que:
Z Z
f % g ⇔ min u ◦ f dP ≥ min u ◦ g dP.
P ∈P P ∈P
Ceci constitue une réponse partielle à la question. Il serait alors intéressant de caracté-
riser plus précisément les capacités qui pour lesquelles l’inégalité est une égalité, et de
caractériser comportementalement les préférences qui correspondent à une telle capacité.
Introduisons tout d’abord la notion suivante:
Définition 3.5. Soit ν une capacité sur un ensemble mesurable (S,E ). Alors, ν est convexe
(ou encore supermodulaire) si:
Cette façon d’écrire la propriété fait comprendre pourquoi on parle de convexité: une des
caractérisations de la convexité d’une fonction f : R → R est que le taux d’accroissement
f (x) − f (a)
x−a
est fonction croissante de x (sur l’intervalle de définition de f privé de a). On aurait ici
quelque chose d’analogue avec la fonction ν(E) − ν(E ∩ A) fonction croissante (au sens de
l’inclusion) de E (mais analogie à prendre avec des pincettes).
Prenons les choses de façon plus intuitive en faisant un bref détour par la théorie des
jeux coopératifs. Soit I = {1, . . . ,n} un ensemble de joueurs. Un sous-ensemble J de I est
3.2. LES RÉPONSES AU PARADOXE D’ALLAIS 73
appelé une coalition. On suppose qu’à toute coalition on peut associer la valeur du jeu
pour cette coalition (c’est-à-dire ce que les joueurs assemblés dans cette coalition peuvent
obtenir ensemble). Soit ν la fonction qui définit cette valeur. Si ν est convexe, alors pour
tout i ∈ I, pour tout J ⊆ I, i ∈/ J, on a:
ν(J ∪ {i}) − ν(J) ≥ ν(i).
Autrement dit, la valeur supplémentaire créée par i en s’associant à la coalition J est
supérieure à celle qu’il crée en restant isolé. Il a donc tout intérêt à rejoindre cette coalition.
Revenons aux capacités convexes en théorie de la décision. On définit le noyau ou le
coeur (core en anglais) d’une capacité ν en général comment l’ensemble des probabilités
additives qui sont supérieures à ν pour tout événement:
core(ν) = {P additive | P (A) ≥ ν(A),∀A ∈ E }.
On a alors le résultat suivant:
Proposition 3.6
Soit ν une capacité convexe. Alors core(ν) 6= ∅, ν(A) = minP ∈core(ν) P (A) et
Z Z
u ◦ f dν = min u ◦ f dP.
P ∈core(ν)
La réciproque n’est pas vraie en général: toute probabilité inférieure n’est pas une
capacité convexe et tout capacité dont l’intégrale de Choquet est le minimum des intégrales
usuelles par rapport au cœur n’est pas nécessairement convexe 5 .
L’axiome qui caractérise la convexité de la capacité est une autre version de l’aversion
à l’incertain et de la convexité des préférences, due à Schmeidler (1989):
Axiome 3.9 (Aversion forte pour l’incertain ) Pour tous f,g ∈ A0 , pour tout α ∈ [0,1],
f % g ⇒ αf + (1 − α)g % f .
? a introduit un autre axiome caractérisant la convexité des préférences plus intuitif
que l’axiome précédent, l’axiome d’indépendance pessimiste:
Axiome 3.10 (Indépendance pessimiste) Pour tous f,g,h ∈ A0 tels que g et h soient
comonotones, pour tout α ∈ [0,1], on a:
f % g ⇔ αf + (1 − α)h % αg + (1 − α)h.
Il faut bien voir que cet axiome est plus fort que l’axiome d’indépendance comonotone.
Son interprétation est la suivante: si g et h sont comonotones, elle ne peuvent être utilisées
à des fins de couverture l’une par rapport à l’autre. En revanche f et h n’étant pas a priori
comonotones, elles peuvent l’être. Donc le mixage de g et h n’est pas plus ambigü que g et
le mixage de f et h ne peut être que mmoins ambigü que f , donc le second est préféré au
premier.
4000 3000 0
A 0 1 0
B 0,8 0 0,2
C 0 0,25 0,75
D 0,2 0 0,8
C = 0,25A + 0,75δ0
et
D = 0,25B + 0,75δ0 .
Les choix observés sont donc en contradiction manifeste avec l’axiome d’indépendance.
Plus précisément, on a les espérances d’utilité suivantes:
EU (A) = u(3000),
et
w(0,2)
D C ⇔ u(3000) < u(4000).
w(0,25)
w(0,2)
Or, il n’est pas difficile de trouver une fonction telle que w(0,25) > w(0,8). Il suffit de
considérer w telle que w(0,2) = 0,3, w(0,25) = 0,4 et w(0,8) = 0,7. On remarque qu’une
telle fonction surestime les petites probabilités et sous-estime les grandes. Une telle pro-
priété est un trait caractéristique du comportement observé expérimentalement, mais nous
y reviendrons.
3.2. LES RÉPONSES AU PARADOXE D’ALLAIS 75
Proposition 3.7
Soit un décideur dont les préférences % sur A0 sont de type CEU avec une capacité ν et
une fonction d’utilité u non constante. Alors les propositions suivantes sont équivalentes:
(i) % vérifie l’axiome 3.11;
(ii) Il existe une fonction w : [0,1] → [0,1] croissante et continue telle que w(0) = 0,
w(1) = 1 et ν = w ◦ P .
Un décideur agit conformément au modèle RDEU (?) s’il existe une fonction u : C → R
et une fonction w : [0,1] → [0,1] strictement croissante et telle que w(0) = 0 et w(1) = 1
telles que Z Z
f %g⇔ u ◦ f dw ◦ P ≥ u ◦ g dw ◦ P.
L’intégrale dont il s’agit est l’intégrale de Choquet par rapport à la capacité w ◦ P. Ainsi,
il apparaît que le modèle RDEU est un cas particulier du modèle CEU dans le cas où il
76 CHAPITRE 3. LES THÉORIES ALTERNATIVES AUX THÉORIES CLASSIQUES
existe une probabilité objective. Un décideur donc les préférences sont du type RDEU dans
le risque est un décideur qui n’est pas capable de bien discriminer les écarts de probabilité
mais qui, dans la mesure où ses facultés cognitives le lui permettent, utilise rationnellement
l’information dont il dispose.
La fonction w est appelée fonction de transformation des probabilités. Comme on va
le voir, cette fonction ne déforme pas les probabilités élémentaires mais les probabilités
cumulées. En effet, on peut bien entendu exprimer la fonctionnelle RDEU directement sur
les loteries. On se place directement sur l’ensemble des loteries à support fini sur C, ∆0 (C),
induit par P et l’ensemble des actes 6 , et on associe à la relation de préférence % sur A
une relation de préférence % sur ∆0 (C) comme nous l’avons fait dans le chapitre sur la
décision dans le risque. Le modèle RDEU s’exprime alors ainsi: si p = (p1 ,x1 ,...,pn ,xn ) est
une loterie telle que x1 - x2 - . . . - xn , on a:
n
X Xn
RDEU (p) = u(x1 ) + (u(xi ) − u(xi−1 ))w( pj ) (3.1)
i=2 j=i
Comme dans le cas de l’intégrale de Choquet (ce qui est normal puisque c’en est une),
on considère d’abord le gain minimum assuré, et on ajoute ensuite l’incrément de gain,
multiplié par la croyance que l’on a qu’au moins cet incrément se réalise, et on fait la somme.
La fonction w s’applique donc aux probabilités cumulées, c’est-à-dire à la probabilité d’avoir
au moins un certain résultat. Ceci est différent de ce que nous avons présenté dans l’analyse
du paradoxe d’Allais version KT, où nous avons appliqué la transformation des probabilités
directement sur la probabilité élémentaire. La raison pour laquelle on ne procède pas de
cette manière dans le modèle RDEU est la même que celle qui a conduit à la définition
de l’intégrale de Choquet par simple imitation de l’intégrale de Lebesgue: la volonté de
respecter une propriété de dominance. La propriété de dominance que l’on utilise est ici
la propriété de dominance stochastique au premier ordre, définie sur les actes de la façon
suivante:
Définition 3.6. Soient f,g deux actes. f domine g au premier ordre étant donné la pro-
babilité P , noté f %P −F SD si, pour tout x ∈ C,
P (f x) ≥ P (g x).
La fonctionnelle RDEU vérifie l’axiome suivant:
Axiome 3.12 Pour tout f,g ∈ A0 , f %P −F SD g ⇒ f % g.
Cet axiome est plus fort que l’axiome 3.11, car il l’implique.
obtenues à partir de p et q en remplaçant xk par x0k sans que l’ordre ne change. Alors p % q
si et seulement si p0 % q 0 .
Le modèle RDEU implique que cet axiome soit vérifié. Revenons à la version d’origine du
paradoxe d’Allais. Les loteries du paradoxe d’Allais sont celles présentées dans le tableau
3.3. On peut les reformuler d’une façon qui fait apparaître leur rapport avec l’axiome
précédent (tableau 3.4).
5M 1M 0
L1 0 1 0
L2 0,10 0,89 0,01
L0 1 0 0,11 0,89
L0 2 0,10 0 0,90
Proposition 3.8
Dans le modèle RDEU, aversion forte équivalente à f convexe et u concave.
Proposition 3.9
Dans le modèle RDEU, il est possible d’avoir de l’aversion faible sans aversion forte. Plus
généralement, l’aversion faible pour le risque n’implique pas la concavité de u si f est
suffisamment convexe.
Ainsi, dans le modèle RDEU, on parvient à séparer l’attitude par rapport à la richesse
et l’attitude par rapport au risque, la première relevant de u et la seconde de v.
Bibliographie
Raphael Giraud. Une théorie de la décision pour les préférences imparfaites. PhD thesis,
Université Paris I, 2004.
David M. Grether and Charles R. Plott. Economic theory of choice and the preference
reversal phenomenon. The American Economic Review, 69(4):623–638, 1979.
David M. Grether and Charles R. Plott. Economic theory of choice and the preference
reversal phenomenon: A reply. The American Economic Review, 72(4):575, 1982.
Israel Nathan Herstein and John Milnor. An axiomatic approach to measurable utility.
Econometrica, 21, 1953.
David Hume. A Treatise of Human Nature. Clarendon Press, Oxford, 1978.
Jean-Yves Jaffray. Choice under risk and the security factor: An axiomatic model. Theory
and Decision, 24:169–200, 1988.
D. Kahneman and A. Tversky. Prospect theory: an analysis of decision under risk. Econo-
metrica, 47:263–291, 1979.
Daniel Kahneman and Amos Tversky. Choices, Values and Frames. Cambridge University
Press, Cambridge, 2000.
Daniel Kahneman, P. Slovic, and Amos Tversky. Judgment under Uncertainty: heuristic
and biases. Cambridge University Press, Cambridge, 1982.
Edi Karni and Zvi Safra. ’preference reversal’ and the observability of preferences by
experimental methods. Econometrica, 55:675–685, 1987.
A. KŸhberger. The influence of framing on risky decisions: A meta-analysis. Organizational
Behavior and Human Decision Processes, 75(1):23–55, 1998.
Frank H. Knight. Risk, Uncertainty and Profit. Houghton Mifflin Company, Boston, New
York, 1921.
C.H. Kraft, J.W. Pratt, and Seidenberg A. Intuitive probability on finite sets. Annals of
Mathematical Statistics, 30:408–419, 1959.
D. Kreps. Notes on the Theory of Choice. Westview Press,?, 1988.
I.P. Levin and G.J. Gaeth. Framing of attribute information before and after consuming
the product. Journal of Consumer Research, 15:374–378, 1988.
I.P. Levin, S.L. Schneider, and G.J. Gaeth. All frames are not created equal: A typology
and critical analysis of framing effects. Organizational Behavior and Human Decision
Processes, 76(1):149–188, 1998.
Sarah Lichtenstein and Paul Slovic. Reversals of preference between bids and choices in
gambling decisions. Journal of Experimental Psychology, 89:46–55, 1971.
Sarah Lichtenstein and Paul Slovic. Response-induced reversals of preference in gambling:
An extended replication in las vegas decisions. Journal of Experimental Psychology, 101:
16–20, 1973.
Graham Loomes, Chris Starmer, and Robert Sugden. Preference reversal: Information-
processing effect or rational non-transitive choice? Economic Journal, 99:140–151, 1989.
Graham Loomes, Chris Starmer, and Robert Sugden. Preference reversal: Information-
processing effect or rational non-transitive choice? Econometrica, 59(2):425–439, 1991.
D. Luce. Semi-order and a theory of utility discrimination. Econometrica, 24:178–191,
1956.
Philippe Mongin. A note on mixture sets in decision theory. Decision in Economics and
Finance, 24:59–69, 2001.
Philippe Mongin. L’axiomatisation et les théories économiques. Revue Economique, 54:1:
99–138, 2003.
BIBLIOGRAPHIE 81
John Von Neumann and Oscar Morgenstern. Theory of Games and Economic Behaviour.
Princeton University Press, Princeton, 1947.
David Williams. Probability with Martingales. Cambridge University Press, Cambridge,
1991.