Qualitatif Chapitre1

MASTER ECONOMETRIE ET
STATISTIQUE APPLIQUEE (ESA)

Universit dOrlans

Economtrie des Variables Qualitatives

Chapitre 1

Modles Dichotomiques Univaris

Modles Probit, Logit et Semi-Paramtriques

Christophe Hurlin

Polycopi de Cours

Master Economtrie et Statistique Applique (ESA)
Universit dOrlans
Facult de Droit, dEconomie et de Gestion
Bureau A 224
Rue de Blois BP 6739
45067 Orlans Cedex 2
www.univ-orleans.fr/deg/masters/ESA/
January 21, 2003
Contents
1 Modles Dichotomiques Univaris . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
1.1 Spcication linaire des variables endognes dichotomiques . . . . . . . . . . . . 8
1.2 Modles Logit et Probit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
1.3 Comparaison des modles probit et logit . . . . . . . . . . . . . . . . . . . . . . . 11
1.4 Prsentation des modles dichotomiques en termes de variable latente . . . . . . 21
2 Estimation des Paramtres par la Mthode du Maximum de Vraisemblance . . . . . . 26
2.1 Estimation par maximum de vraisemblance . . . . . . . . . . . . . . . . . . . . . 26
2.1.1 Matrices Hessiennes et Matrices dinformation de Fischer . . . . . . . . . 28
2.1.2 Unicit du maximum global de la fonction de log-vraisemblance . . . . . . 30
2.2 Algorithmes de maximisation de la vraisemblance . . . . . . . . . . . . . . . . . . 32
3 Proprits Asymptotiques des Estimateurs du Maximum de Vraisemblance . . . . . . . 35
3.1 Convergence du Critres de MV . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
3.1.1 Convergence destimateurs dans les modles non linaires . . . . . . . . . 36
3.1.2 Application aux modles Logit et Probit . . . . . . . . . . . . . . . . . . . 38
3.2 Lois et variance asymptotiques de lestimateur de MV . . . . . . . . . . . . . . . 39
4 Mthodes dEstimation non Paramtriques . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.1 La mthode du score maximum . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
4.2 Estimation semi-paramtrique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
4.3 Comparaison des estimateurs paramtriques, non paramtriques et semi paramtriques 47
5 Tests de Spcication et Infrence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.1 Tests dhypothse sur les paramtres . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.1.1 Test de Wald . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
5.1.2 Tests du rapport des maxima de vraisemblance . . . . . . . . . . . . . . . 49
5.1.3 Test du score ou du multiplicateur de Lagrange . . . . . . . . . . . . . . . 50
5.2 Tests de spcication des modles dichotomiques . . . . . . . . . . . . . . . . . . 50
6 Application . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
A Annexes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
A.1 Rappels sur les notions de convergence . . . . . . . . . . . . . . . . . . . . . . . . 54
A.1.1 Convergence en probabilit . . . . . . . . . . . . . . . . . . . . . . . . . . 54
A.1.2 Convergence en moyenne quadratique . . . . . . . . . . . . . . . . . . . . 55
A.1.3 Convergence en loi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
Economtrie des Variables Qualitatives. Cours C. Hurlin 4
Introduction
Un des dveloppements majeurs de lconomtrie dans les annes 60 et 70, fut sans con-
teste li lutilisation croissante des donnes microconomiques relatives des caractristiques
conomiques dagents individuels (rmes, consommateurs, centres de prots...). A cette poque,
les bases de donnes microconomiques ont en eet pu tre constitues, puis exploites prin-
cipalement du fait de lextension des capacits informatiques et de la rduction de leur cot.
Bien souvent, les donnes statistiques disponibles dans ces bases sont relatives des caractres
qualitatifs comme par exemple la catgorie socio-professionnelle, le type dtudes suivies, le
fait de travailler ou au contraire dtre au chmage, dacheter ou de ne pas acheter un cer-
tain produit etc.. Or, comme nous allons le voir dans ce chapitre, les mthodes dinfrence
traditionnelles ne permettent pas de modliser et dtudier des caractres quantitatifs : des
mthodes spciques doivent tre utilises tenant compte par exemple de labsence de continu-
it des variables traites ou de labsence dordre naturel entre les modalits que peut prendre
le caractre qualitatif. Ce sont ces mthodes spciques les plus usuelles qui seront lobjet de
ce cours dconomtrie des variables qualitatives.
Historiquement ltude des modles dcrivant les modalits prises par une ou plusieurs vari-
ables qualitatives date des annes 1940-1950. Les travaux les plus marquants de cette poque
sont sans conteste ceux de Berkson (1944, 1951) consacrs notamment aux modles di-
chotomiques simples (modles logit et probit). Les premires applications ont alors
essentiellement t menes dans le domaine de la biologie, de la sociologie et de la psycholo-
gie. Ainsi, ce nest nalement que rcemment, que ces modles ont t utiliss pour dcrire
des donnes conomiques avec notamment les travaux
1
de Daniel L. MacFadden (1974)
et de James J. Heckman (1976). Or, lapplication des techniques conomtriques propres
aux variables qualitatives des problmatiques conomiques a dune part largement contribu
amliorer linterprtation des modles simples (comme par exemple le modle logit avec les
travaux de MacFadden), et dautre part identier des problmes conomiques dont la struc-
ture, si elle nest pas qualitative au sens propre du terme, en mathmatiquement trs proche
(cest par exemple le cas de la consommation de bien durable avec le modle de Tobin de 1958).
Ces dveloppements ont ainsi conduit introduire un modle intermdiaire entre les modles
qualitatifs et le modle linaire habituel : le modle tobit.
Dans la suite du cours, nous supposerons lexistence dun caractre qualitatif qui peut pren-
dre K modalits disjointes. Si K = 2, on dit que la variable est dichotomique. Exemple :
tre au chmage ou ne pas tre au chmage. Dans le cas gnral K N
, on dit que la vari-

able est polytomique. A ce niveau de lexpos, la question qui se pose est de savoir comment
reprsenter un caractre qualitatif dans le cadre dun modle conomtrique ? Si lon considre
1
Il convient ici de rappeler que ces deux conomtres ont obtenu conjointement le prix nobel dconomie en
2000, cf. document en annexe.
par exemple le type dtudes suivies par un tudiant (universit, cole dingnieur etc..), la
catgorie socio-professionnelle (ouvrier, employ, cadre..), ou le fait dtre au chmage, com-
ment doit on reprsenter ces dirents caractres qualitatifs ? La rponse naturelle ces
questions consiste associer une variable quantitative (ou codage) au caractre
qualitatif.
Considrons lexemple de la variable qualitative y = niveau dtude pouvant prendre 3
modalits : licence, master, doctorat. Plusieurs choix sont possible pour coder cette
variable qualitative. La premire consiste tout simplement associer y une variable quanti-
tative x pouvant prendre trois valeurs relles distinctes (a, b, c) R
3
suivant les modalits de
y. La connaissance de la valeur prise par la variable x permet alors de connatre la modalit
de la variable y et inversement. Le choix du triplet de valeurs (a, b, c) est alors priori non
contraint : on peut par exemple prendre (1, 2, 3) ou (3, 5, 8) en rfrence au nombre dannes
dtude suivies. Ainsi, on dnit par exemple la variable x de la faon suivante :
x =
_
_
_
3
5
8
si y = licence
si y = master
si y = doctorat
Mais dautres formes de codage auraient pu tre envisages dans ce cas. On peut par exemple
reprsenter la variable qualitative par le vecteur z = (z
1
, z
2
, z
3
) o les variables z
i
, i = 1, 2, 3
sont de type dichotomique avec :
z
1
=
_
1
0
si y = licence
sinon
z
2
=
_
1
0
si y = master
sinon
z
3
=
_
1
0
si y = doctorat
sinon
Les variables z
i
sont appeles variables dummy ou variables muettes. Il sagit ici dune
autre reprsentation quantitative de y valeur cette fois dans (0, 1)
3
. Ainsi, de faon gnrale
toutes les reprsentations quantitatives de y scrivent sous la forme dune application injective
de {licence,master,doctorat} dans un espace R
p
, p N
.
Lintrt principal du codage (ou de la reprsentation quantitative des variables qualitatives)
est de pouvoir se ramener des lois discrtes sur R
p
. Ainsi, si lon considre lexemple prcdent
la loi de z est une loi multinomiale M(1; p
1
, ., p
i
, .., p
K
) o p
i
dsigne la probabilit que la i
` eme
modalit de la variable y se ralise. De la mme faon, la variable z
1
suit une loi de Bernouilli
B(1, p
1
) . Il faut toutefois utiliser avec prudence la loi dune telle reprsentation : elle est en
eet, par nature, conditionnelle au codage choisi. Les seules caractristiques vritablement
lies la variable qualitative sont celles qui ne dpendent pas de la reprsentation choisie, et ne
sont autres que les probabilits p
1
,..., p
K
. Ainsi, les moments (moyenne, variance etc..) de la
variable code ont en gnral peu de sens. Dans lexemple prcdent, lesprance de la variable
code x na pas de signication particulire. En revanche, lesprance des variables dummies z
i
permet de retrouver les probabilits p
i
. De plus, le calcul dun coecient de corrlation entre
deux variables codes x et z dpend naturellement des codages retenus, et ne peut donc tre
interprt conomiquement. En revanche, la notion dindpendance entre deux variables code
reste indpendante du codage retenu.
Dans le cadre de ce premier chapitre, nous allons nous intresser au modle le plus simple,
savoir le modle dichotomique, dans lequel la variable explique du modle ne peut prendre
que deux modalits. Le plan de ce chapitre est le suivant. Nous commencerons par prsenter les
principaux modles dichotomiques, et en particulier les modles logit et probit. Puis, dans une
seconde section, nous intresserons au problme de lestimation des paramtres de ces modles,
notamment par la mthode du maximum de vraisemblance. Dans une troisime partie, nous
tudierons la convergence des estimateurs du maximum de vraisemblance. Enn, dans une
dernire section nous aborderons les tests de spcication de ces modles ainsi que les dirents
problmes dinfrence.
1. Modles Dichotomiques Univaris
Par modle dichotomique, on entend un modle statistique dans lequel la variable explique ne
peut prendre que deux modalits (variable dichotomique). Il sagit alors gnralement dexpli-
quer la survenue ou la non survenue dun vnement.
Hypothse On considre un chantillon de N individus indics i = 1, .., N. Pour chaque
individu, on observe si un certain venment sest ralis et lon note y
i
la variable code
associe venement. On pose, i [1, N] :
y
i
=
_
1
0
si lvnement sest ralis pour lindividu i
si lvnement ne sest pas ralis pour lindividu i
(1.1)
On remarque ici le choix du codage (0, 1) qui est traditionnellement retenu pour les modles
dichotomique. En eet, celui-ci permet dnir la probabilit de survenue de lvnement comme
lesprance de la variable code y
i
, puisque :
E(y
i
) = Prob (y
i
= 1) 1 +Prob (y
i
= 0) 0 = Prob (y
i
= 1) = p
i
Lobjectif des modles dichotomiques consiste alors expliquer la survenue de lvnement
considr en fonction dun certain nombre de caractristiques observes pour les individus de
lchantillon. Comme nous le verrons par la suite, on cherche dans ces modles, spcier la
probabilit dapparition de cet vnement.
Quels sont alors les principaux champs dapplication des modle dichotomiques ? Nous
pouvons ici voquer quelques pistes, sur lesquelles nous reviendrons par la suite. Un des do-
maines dapplication traditionnel consiste en ltude des choix dducation. Ainsi, parmi
les premiers travaux utilisant les modles rponses qualitatives, plusieurs sintressaient aux
comportements des tudiants que ce soit en terme de choix de lires, ou en termes de choix
dtablissements. Il sagissait alors de modliser ces comportements en fonction dun certain
nombres de caractristiques propres aux universits (prsence de campus, dbouchs profession-
nels etc..) ou aux tudiants (CSP des parents, tudes antrieures etc..). Typiquement, il sagit
par exemple, de modliser le choix des tudiants entre une universit en ville ou un campus, ce
choix tant reprsent par une variable dichotomique que lon va cherche modliser en fonction
de plusieurs facteurs comme le revenu, le sexe de ltudiant, la distance domicile-universit etc..
Du fait de lorganisation prive des tudes aux Etats-Unis, de telles modlisations ont connu un
grand intrt, que ce soit dans une perspective purement acadmique ou dans une perspective
applique. On peut citer ici par exemple ltude de Radner et Miller (1970).
Un autre domaine dapplication consiste en la modlisation des risques de dfaillance dans
une relation de prt, ou dans tout autre forme de contrat dengagement (contrat dabonnement
tlphonique, contrat dassistance etc...). On considre par exemple une variable dichotomique
prenant deux modalits : rupture du contrat et poursuite du contrat, et lon cherche
expliquer variables par dirents facteurs socio-conomiques. Il sagit ici des techniques de
bases des mthodes de scoring largement utilises dans le secteur bancaire et dans le secteur
des tlcommunications.
Cette liste dapplication nest bien entendu pas exhaustive. Nous allons prsent montrer
que la modlisation des variables dichotomiques ne peut se faire laide dune spcication
linaire standard.
1.1. Spcication linaire des variables endognes dichotomiques
En eet, la question que lon peut naturellement se poser ce stade de lexpos, est de savoir
en quoi les modles dichotomiques, et plus gnralement les modles variables endognes
qualitatives, se distinguent du modle linaire classique tudi en cours de licence. En eet,
il sagit de comprendre pourquoi lutilisation de mthodes destimation particulires savre
indispensable pour ce type de modles. Pour ce faire, appliquons navement une modlisation
linaire simple au cas dune variable endogne dichotomique.
Supposons que lon dispose de N observations y
i
, i = 1, .., N dune variable endogne
dichotomique code y
i
= 1 ou y
i
= 0 par convention, lorsque paralllement les observations de
K variables exognes sont x
i
=
_
x
1
i
..x
K
i
_
, i = 1, .., N. Dans ce cas, le modle linaire simple
scrit :
y
i
(1,1)
= x
i
(1,K)

(K,1)
+
i
(1,1)
i = 1, .., N (1.2)
o = (
1
...
K
)
R
K
dsigne un vecteur de K paramtres inconnus et o les perturbations
i
sont supposes tre indpendamment distribues. On peut alors mettre en vidence plusieurs
problmes lis lutilisation de cette spcication linaire simple pour modliser notre variable
dichotomique.
Premirement, les termes de gauche et de droite de lquation (1.1) sont de nature direntes.
La variable y
i
est de type qualitative tandis que la somme x
i
+
i
est une variable quantitative.
On peut rpondre ceci que le membre de gauche correspond en fait au codage (ici 0 ou 1)
associ la variable qualitative; ds lors, il ny aurait plus de problme. Mais il est vident que
ce codage est lui mme par nature arbitraire, et que les valeurs de obtenues pour ce codage
sont ncessairement direntes de celles obtenues pour tout autre codage. Elles seraient par
exemple de si le codage tait de type (0, ). Ainsi, le premier problme de lapplication
du modle linaire simple une variable dichotomique, est que le paramtre du
modle (1.1) nest pas interprtable.
Deuximement, une tude graphique montre que lapproximation linaire est peu adapte
au problme pos. Considrons pour cela le modle linaire avec une seule variable explicative
(K = 1), note x
1
i
, et une constante. On pose = (
0

1
)
et lon considre le modle linaire

suivant :
y
i
=
0
+x
i
1
+
i
i = 1, .., N (1.3)
Pour constater linadquation de ce modle reproduire correctement la variable endogne
dichotomique y
i
, il sut de se placer dans un repre
_
x
1
, y
_
et de reproduire les N dirents
couples
_
x
1
i
, y
i
_
, i = 1, .., N. Naturellement, du fait du statut dichotomique de la variable
endogne, le nuage de points ainsi obtenu se situe soit sur la droite y = 0, soit sur la par-
allle y = 1. Ainsi, comme on lobserve sur la gure (??), il est impossible dajuster de
Figure 1.1: Ajustement Linaire dune Variable Endogne Dichotomique

y
x
y =
y =
0
droite dajustement linaire
faon satisfaisante, par une seule droite, le nuage de points, associ une variable
dichotomique qui, par nature, est rparti sur deux droites parallles.
Troisimement, la spcication linaire standard ne convient pas aux variables dichotomiques,
et plus gnralement aux variables qualitatives, car elle pose un certain nombre de problmes
mathmatiques.
1. Sachant que dans la cas dune variable endogne y
i
dichotomique, celle-ci ne peut prendre
que les valeurs 0 ou 1, la spcication linaire (1.1) implique que la perturbation
i
ne
peut prendre, elle aussi, que 2 valeurs, conditionnellement au vecteur x
i
:
i
= 1 x
i
avec une probabilit de p
i
= Prob (y
i
= 1)
i
= x
i
avec une probabilit de 1 p
i
Ainsi, la perturbation
i
du modle (1.1) admet ncessairement une loi discrte,
ce qui exclut en particulier lhypothse de normalit des rsidus.
2. Lorsque lon suppose que les rsidus
i
sont de moyenne nulle, la probabilit p
i
associe
lvnement y
i
= 1 est alors dtermine de faon unique. En eet, crivons lesprance
des rsidus :
E(
i
) = p
i
(1 x
i
) (1 p
i
) x
i
= p
i
x
i
= 0
On en dduit immdiatement que :
p
i
= x
i
= Prob (y
i
= 1) (1.4)
Ainsi la quantit x
i
correspond une probabilit et doit par consquent satis-
faire un certain nombre de proprits et en particulier appartenir lintervalle
ferm [0, 1] .
0 x
i
1 i = 1, .., N (1.5)
Or rien nassure que de telles conditions soient satisfaites par lestimateur des Moindres
Carrs utilis dans le modle linaire (1.1). Si de tels contraintes ne sont pas assures, le
modle
y
i
=
0
+x
i
1
+
i
E(
i
) = 0 i = 1, .., N
na pas de sens.
3. Enn, mme si lon parvenait assurer le fait que les contraintes (1.5) soient satisfaites par
lestimateur des Moindres Carrs des paramtres du modle linaire, il nen demeurerait
pas moins une dicult lie la prsence dhtroscedasticit. En eet, on constate
immdiatement que, dans le modle (1.1), la matrice de variance covariance des rsidus
varie entre les individus en fonction de leur caractristiques associes aux exognes x
i
puisque :
V (
i
) = x
i
(1 x
i
) i = 1, .., N (1.6)
Pour dmontrer ce rsultat il sut de considrer la loi discrte des rsidus et de calculer
la variance :
V (
i
) = E
_
2
i
_
= (1 x
i
)
2
Prob (y
i
= 1) + (x
i
)
2
Prob (y
i
= 0)
= (1 x
i
)
2
p
i
+ (x
i
)
2
(1 p
i
)
Sachant que daprs la relation (1.4) on a p
i
= x
i
, on en dduit que :
V (
i
) = (1 x
i
)
2
x
i
+ (x
i
)
2
(1 x
i
)
= (1 x
i
) x
i
[(1 x
i
) +x
i
]
= (1 x
i
) x
i
Or, de plus ce problme dhtroscdascticit ne peut pas tre rsolu par une mthode
destimation des Moindres Carrs Gnraliss tenant compte de la contrainte dingalit
(1.5), puisque la matrice de variance covariance des perturbations (1.6) dpend du vecteur
des paramtres estimer dans la spcication linaire, qui est par nature suppos
inconnu.
Pour toutes ces direntes raisons, la spcication linaire des variables endognes quali-
tatives, et plus spcialement dichotomiques, nest jamais utilise et lon recourt des modles
logit ou probit, que nous allons prsent tudier, pour reprsenter ces variables.
1.2. Modles Logit et Probit
Les modles dichotomiques probit et logit admettent pour variable explique, non pas un codage
quantitatif associ la ralisation dun venement (comme dans le cas de la spcication
linaire), mais la probabilit dapparition de cet venement, conditionnellement aux variables
exognes. Ainsi, on considre le modle suivant :
p
i
= Prob ( y
i
= 1| x
i
) = F (x
i
) (1.7)
o la fonction F(.) dsigne une fonction de rpartition. La choix de la fonction de rpartition
F (.) est a priori non contraint. Toutefois, on utilise gnralement deux types de fonction :
la fonction de rpartition de la loi logistique et la fonction de rpartition de la loi normale
centre rduite. A chacune de ces fonctions correspond un nom attribu au modle ainsi obtenu
: modle logit et modle probit
2
.
Denition 1.1. On considre le modle dichotomique suivant :
p
i
= Prob ( y
i
= 1| x
i
) = F (x
i
) i = 1, .., N (1.8)
2
Qui selon toute logique aurait du tre nomm modle nomit et non modle probit.
Dans le cas du modle logit, la fonction de rpartition F (.) correspond la fonction
logistique w R :
F (w) =
e
w
1 +e
w
=
1
1 +e
w
= (w) (1.9)
Dans le cas du modle probit, la fonction de rpartition F (.) correspond la
fonction de rpartition de la loi normale centre rduite w R :
F (w) =
_
w
2
e
z
2
2
dz = (w) (1.10)
Ainsi, pour une valeur donne du vecteur des exognes et du vecteur des paramtres , on
peut dnir les deux modles dune faon quivalente :
Denition 1.2. Le modle logit dnit la probabilit
3
associ lvnement y
i
= 1,
comme la valeur de la fonction de rpartition de la loi logistique considre au
point x
i
:
Modle logit : p
i
= (x
i
) =
1
1 +e
x
i
i = 1, .., N (1.11)
Dans le cas du modle probit, cette probabilit est dnie comme la valeur de la
fonction de rpartition de la loi normale centre rduite N (0, 1) considre au point
x
i
:
Modle probit : p
i
= (x
i
) =
_
x
i
2
e
z
2
2
dz i = 1, .., N (1.12)
A ce stade de lexpos, la question que lon se pose immdiatement est de savoir quelles
sont les dirences fondamentales entre les modles probit et logit ? Quand doit on utiliser
lun plutt que lautre ? Quelles sont les proprits particulires de ces deux modles ? Bien
entendu, ces deux modles ne dirent que par la forme de la fonction de rpartition F (.) . Ainsi,
il faut donc se rappeler quelles sont les proprits respectives des lois logistiques et normales,
pour comprendre quelles peuvent tre les dirences et les similitudes entre les modle logit et
probit.
1.3. Comparaison des modles probit et logit
Historiquement, les modles logit ont t introduits comme des approximations de modles
probit permettant des calculs plus simples. Ds lors, il nexiste que peu de dirences entre ces
deux modles dichotomiques. Ceci sexplique par la proximit des familles de lois logistiques et
normales. Les deux fonctions de rpartition (w) et (w) sont en eet sensiblement proches,
comme on peut le constater partir du tableau (1.1) o sont reportes les valeurs de ces
fonctions pour direntes valeurs de w. Mais cette similitude est encore grande si lon considre
une loi logistique transforme de sorte ce que la variance soit identique celle de la loi normale
rduite. En eet, nous avons vu que la loi logistique usuelle admet pour fonction de rpartition
(w) =
1
1 +e
w
3
La variable y
i
tant dichotomique, la probabilit dapparition de lvnement complmentaire y
i
= 0 est
dnie par 1 p
i
avec :
1 p
i
=
e
x
i
1 +e
x
i

Cette loi a une esprance nulle et une variance gale
2
/3. Cest pourquoi, il convient de
normaliser la loi logistique de sorte obtenir une distribution de variance unitaire, comparable
celle de la loi normale rduite. On dnit pour cela une loi logistique transforme.
Denition 1.3. La loi logistique transforme de paramtre admet pour fonction
de rpartition
4
, note
(w) , w R
(w) =
e
w
1 +e
w
=
1
1 +e
w
(1.13)
A cette fonction de rpartition correspond une variance de
2
/
_
3
2
_
. Ainsi, il convient de
comparer la loi normale centre rduite la loi logistique transforme, de paramtre = /
3,
dont la fonction de rpartition est dnie comme suit :
(w) =
/
3
(w) =
1
1 +e
3
(1.14)
Cette loi admet par construction une variance unitaire. On observe ainsi partir du tableau
(1.1), que les ralisations de cette fonction
/
3
(.) sont trs proches de celles de la fonction
(.) associe la loi normale rduite et ce notamment pour des valeurs de w proche de 0, cest
dire des valeurs dites centrales, car proches de la moyenne de la distribution.
Certains auteurs proposent dutiliser dautres paramtres an de mieux reproduire encore
la fonction de rpartition de la loi normale pour des valeurs centrales. En particulier Amemiya
(1981) propose dutiliser un paramtre
5
= 1.6 et donc de retenir la loi logistique transforme
1.6
(.) . Comme on peut lobserver sur le tableau (1.1), la fonction de paramtre 1.6 est encore
plus proche de (.) que la fonction de paramtre /
3. pour les valeurs centrales proches de

0 (w < 1 en loccurrence dans le tableau).
Tableau 1.1: Comparaison des Fonctions de Rpartition
(w) et (w)
w 0 0.1 0.2 0.3 0.4 0.5 1 2 3
(w) 0.5 0.5398 0.5793 0.6179 0.6554 0.6915 0.8413 0.9772 0.9987
(w) 0.5 0.5250 0.5498 0.5744 0.5987 0.6225 0.7311 0.8808 0.9526
3
(w) 0.5 0.5452 0.5897 0.6328 0.6738 0.7124 0.8598 0.9741 0.9957
1.6
(w) 0.5 0.5399 0.5793 0.6177 0.6548 0.6900 0.8320 0.9608 0.9918
S o u r c e s : A n e m i ya ( 1 9 8 1 ) , t a b l e 1 , p a g e 1 4 8 7 e t c a l c u l s d e l a u t e u r .
Quoiquil en soit, il apparat ainsi que les fonctions de rpartition des lois normales cen-
tres rduites et des lois logistiques simples ou transformes sont extrmement proches. Par
consquent, les modles probit et logit donnent gnralement des rsultats relativement simi-
laires. De nombreuses tudes ont dailleurs t consacres ce sujet comme par exemple celle
de Morimune (1979)
6
ou de Davidson et MacKinnon (1984). Ainsi a priori, la question du choix
entre les deux modle ne prsente que peu dimportance. Toutefois, il convient dtre prudent
quand la comparaison directe des deux modles.
4
Par convention, la fonction de rpartition de la loi logistique simple correspondant au cas = 1 sera not
(.) an dallger les notations.
5
Cette valeur 1.6 est drive du rapport des fonctions de densit (w) /(w) valu au point w = 0.
6
Morimune K. (1979), Comparisons of Normal and Logistic Models in the Bivariate Dichitomous Analysis,
Econometrica 47, 957-975.
En eet, les valeurs estimes des paramtres dans les modles probit et logit ne sont pas
directement comparables puisque les variances des lois logistiques et normale rduite ne sont
pas identiques. Cette dirence de variance implique que la normalisation des coecients
nest pas identique et que par consquent les estimateurs de ces paramtres obtenus dans les
deux modles ne fournissent pas des ralisations identiques.
Proposition 1.4. Supposons que lon note respectivement

P
et

L
les estimateurs
des paramtres obtenus dans les modles probit et logit. Amemiya (1981) propose
en premire approximation dutiliser la relation suivante entres les estimations
probit et logit
7
:
L
1.6
P
(1.15)
Toutefois, si ces approximations sont relativement prcises sur certains chantillons com-
portant peu de valeurs extrmes (cest dire lorsque la moyenne des valeurs x
i
est proche
de zro), elles seront moins prcises en prsence de nombreuses valeurs x
i
loignes de zro.
Une faon quivalente
8
de vrier ladquation de cette approximation consiste observer si la
valeur moyenne des probabilits p
i
est proche de 0.5 (Davidson et MacKinnon 1984). Si tel est
le cas, les estimateurs des coecients du modle logit seront environ 1.6 fois suprieurs ceux
du modle probit.
Considrons lexemple des donnes de larticle de Spector et Mazzeo (1980), paru dans
Journal of Economic Education, et intitul Probit Analysis and Economic Education. Il sagit
ici dvaluer la probabilit pour un tudiant dobtenir le passage en post-graduate (variable
dichotomique graduate), lquivalent du master. Cette probabilit est modlise comme une
fonction dune constante (cons), du score obtenu au tuce (test of understanding of college
economics) et de la moyenne obtenue au niveau du graduate (grad). Sur la gure (1.2) sont
reports les rsultats destimation du modle logit tandis que sur la gure (1.3) sont reports
les rsultats destimation du mme modle probit. Considrons par exemple le coecient de la
variable tuce. Le modle logit nous donne une estimation de 0.0855 pour ce paramtre alors que
le modle probit donne une estimation de 0.05266. On vrie alors que, pour cet chantillon,
les approximations (1.15) sont satisfaisantes puisque selon cette formule, on devrait obtenir une
estimation logit de paramtre de lordre de 0.05266 1.6 = 0.0843 ou 0.0955 si lon considre
lapproximation 0.05266 /
3. Ces approximations sont en eet trs proches de la vraie

estimation du paramtre dans le modle logit.
De la mme faon, Amemiya (1981) propose direntes approximations permettant dap-
procher les estimations des modles logit et probit partir des estimations obtenues dans le
modle linaire simple, prsent prcdemment.
Proposition 1.5. On note

P
lestimateur obtenu dans le modle probit,

L
les-
timateur obtenu dans le modle logit et

LP
lestimateur obtenu dans le modle
linaire. Amemiya (1981) propose les approximations suivantes pour les modles
7
En utilisant la normalisation de la variance, on peut aussi retenir comme approximation un facteur /
3
1.81, en posant

P
/
3.
8
Sachant que (0) = (0) = 0.5, il quivalent de vrier si la moyenne des valeurs x
i
est proche de 0 ou si
la moyenne des probabilits p
i
= F (x
i
) est proche de 0.5, avec F (x) = (x) dans le cas du modle logit et
F (x) = (x) dans le cas du probit.
Figure 1.2: Estimation dun Modle Logit
probit et linaire :
LP
0.4
P
pour tous les paramtres lexception de la constante (1.16)
LP
0.4
P
+ 0.5 pour la constante (1.17)
et les approximations suivantes pour les modles logit et linaire :
LP
0.25
L
pour tous les paramtres lexception de la constante (1.18)
LP
0.25
L
+ 0.5 pour la constante (1.19)
Ainsi si lon considre lexemple des donnes de larticle de Spector et Mazzeo (1980), les
estimations de la constante et des paramtres des variables tuce et grad obtenues dans le
modle linaires sont respectivement gales 1.4493, 0.0160 et 0.4619. Or, si lon compare
ces rsultats ceux obtenus partir des modles logit et probit (gures 1.2 et 1.3), on obtient
les rsultats relativement proches. Ainsi, dans le cas du modle logit pour la variable tuce
lapproximation donnerait 0.25 0.08555 = 0.0214 et 0.25 2.53828 = 0.6346 pour la variable
grad. Pour la constante lapproximation donne une valeur approche gale 0.25 10.656 +
0.5 = 2.164. Cers approximations seront dautant plus proches des valeurs estimes quil y a
aura un grand nombre dobservations x
i
proches de 0, car en eet les fonctions de rpartition
des lois logistiques et normales ne se dmarquent pas dune droite dans cette zone.
Figure 1.3: Estimation dun Modle Probit
En conclusion, il apparat que les rsultats des modles probit et logit sont gnralement
similaires que ce soit en termes de probabilit ou en termes destimation des coecients si
lon tient compte des problmes de normalisation. Cest le sens de cette conclusion dAmemiya.
Because of the close similarity of the two distributions, it is dicult to distin-
guish between them statistically unless one has an extremely large number of observa-
tions. Thus, in the univariate dichotomous model, it does not matter much whether
one uses a probit model or a logit model, except in cases where data are heavily
concentrated in the tails due to the characteristics of the problem being studied.,
Amemiya T. (1981), page 1487.
Toutefois, comme le note Amemiya (1981), il convient dtre prudent dans lutilisation des
approximations pour comparer les modles probit et logit. Il est toujours prfrable de raisonner
en termes de probabilits p
i
= F (x
i
) et non en termes destimation des paramtres pour
comparer ces rsultats.
The reader should keep in mind that this equality [equation (1.15)] constitutes
only a rough approximation and that a dierent set of formulae may work better
over a dierent domain. When one wants to compare models with dierent prob-
ability functions, it is generally better to compare probabilities directly rather than
comparing the estimates of the coecients even after an appropriate conversion,
Amemiya T. (1981), page 1488.
Si les deux modle sont sensiblement identiques, il existe cependant certaines dirences
entre les modles probit et logit, comme le souligne dailleurs Amemiya. Nous voquerons ici
deux principales dirences :
1. La loi logistique tend attribuer aux vnements extrmes une probabilit
plus forte que la distribution normale.
2. Le modle logit facilite linterprtation des paramtres associes au variables
explicatives x
i
Nous allons prsent tudier successivement ces deux proprits. Premirement, la fonction
de densit associe la loi logistique possde en eet des queues de distribution plus paisses
que celles de la fonction de densit de la loi normale (distribution queues plates). La loi
logistique prsente donc un excs de Kurtosis
9
: il sagit dune distribution leptokurtique. En
dautres termes, nous avons vu que les lois logistique et normale appartiennent la mme famille
des lois exponentielles et sont par nature trs proches, notamment pour les valeurs proches de la
moyenne de la distribution. Toutefois, le prol de ces deux distributions dire aux extrmits
du support : pour la loi normale, les valeurs extrmes sont moins pondres, la fonction de
rpartition tendant plus vite vers 0 gauche du support et vers 1 droite.
Economiquement, cela implique que le choix dune fonction logistique (modle
logit) suppose une plus grande probabilit
10
attribue aux venements extrmes,
comparativement au choix dune loi normale (modle probit), que ce soit droite ou
gauche de la moyenne de la distribution, les lois normales et logistiques tant symtriques.
Pour visualiser ce phnomne, il convient de comparer la fonction de rpartition associe la
loi normale centre rduite avec la fonction de rpartition associe la loi logistique possdant
les deux premiers moments identiques la loi N (0, 1) .
Sur le graphique (1.4) est reporte la dirence

(w) (w) en fonction de w :
On constate qu droite du support, pour des valeurs leves de w (w > 1.5 environ), on
a (w) >

(w) . La fonction de rpartition de la loi normale est au dessus de celle de la loi
logistique. Etant donne la dnition de la fonction de rpartition, F (w) =Prob(W w) ,
cela signie que la probabilit que la ralisation de la variable W soit infrieure au seuil w est
plus grande dans le cas de la loi normale que dans le cas de la loi logistique. Inversement,
pour un seuil w donne, la probabilit dobtenir des valeurs suprieures ce seuil (des valeurs
extrmes) est plus grande dans le cas de la loi logistique que dans le cas de la loi normale. On
vrie ainsi la proprit de la loi logistique qui sur-pondre les valeurs extrmes en comparaison
de la loi normale. Naturellement, puisque les distributions sont symtriques, on obtient le mme
rsultat gauche du support pour des valeurs trs faibles de w (w < 1.5 environ).
9
Lexcs de Kurtosis est dni en rfrence au moment dordre dune loi normale centre rduite. Si X suit
une loi normale N
_
,
2
_
, la Kurtosis est gale
4
= 3
4
. Par convention, le degr dexcs de Kurtosis, dni
par
4
/
4
3, est nul.
10
Bien entendu, la dirence entre les rsultats des modles probit et logit ne pourra tre observe que si lon
dispose de susament dobservations des exognes se situant dans ces zones extrmes.
Figure 1.4: Dirence des Fonctions de Rpartition

(w) (w)
-5 -4 -3 -2 -1 0 1 2 3 4 5
-0.025
-0.02
-0.015
-0.01
-0.005
0
0.005
0.01
0.015
0.02
0.025
-
Deuximement, il existe une proprit particulirement intressante propre au modle logit,
qui facilite en particulier linterprtation des paramtres associes au variables explicatives x
i
.
Attention, comme nous le verrons par la suite, les valeurs numrique des estimations nont pas
dinterprtation conomique directe, en raison du problme de la normalisation de la variance
rsiduelle. Ainsi, il faut retenir que la seule information directe rellement utilisable est le
signe des paramtres, indiquant si la variable associe inuence la hausse ou la baisse la
probabilit de lvnement considr. Toutefois, on peut en outre calculer les eets marginaux :
les eets marginaux mesurent la sensibilit de la probabilit de lvnement y
i
= 1 par rapport
des variations dans les variables explicatives x
i
. Et cest prcisment dans ce contexte, que
lutilisation dun modle logit peut faciliter lanalyse de ces eets marginaux.
Au del, de ces dirences entre les lois logistiques et normales, il existe en eet certaines
proprits du modle logit qui sont particulirement utiles pour simplier les calculs ainsi que
linterprtation conomique des rsultats destimation des paramtres associes au variables
explicatives. Tout dabord, si lon note p
i
= Prob(y
i
= 1) = (x
i
) , tant donne la dnition
de la loi logistique on remarque que plusieurs galits, permettant de simplier les calculs,
peuvent tre tablies comme suit :
e
x
i
= p
i
_
1 +e
x
i
_
log
_
p
i
1 p
i
_
= x
i
1 p
i
=
1
1 +e
x
i
En plus de ces direntes relations, il existe une galit qui est en outre particulirement
intressante en ce qui concerne lanalyse conomique des rsultats destimation. Il sagit de la
relation suivante :
e
xi
=
p
i
1 p
i
En eet, on sait que la probabilit p
i
dsigne la probabilit associe lvnement y
i
= 1,
et que la quantit 1 p
i
dsigne par consquent la probabilit associe lvnement comlp-
mentaire p
i
= 0.
Proposition 1.6. De faon gnrale, la quantit c
i
= p
i
/ (1 p
i
) reprsente le rapport
de la probabilit associe lvnement y
i
= 1 la probabilit de non survenue de
cet vnment : il sagit de la cote (odds). Dans un modle logit, cette cote
correspond simplement la quantit e
x
i
:
c
i
=
p
i
1 p
i
= e
x
i
modle logit (1.20)

Si ce rapport est gal c
i
pour lindividu i, cela signie quil y a c
i
fois plus de chance que
lvnement associ au code y
i
= 1 se ralise, quil ne se ralise pas ( c
i
contre 1 dans le
langage usuel ).
Exemple : Considrons les 32 observations tires de lchantillon de Spector et Mazzeo
(1980). Les donnes correspondant aux variables exognes tuce et grad, ainsi que la variable
endogne dichotomique graduate sont reports sur les trois premiers quadrants de la gure
(1.5). A partir des estimations obtenues dans le modle logit (cf. gure 1.2), on a calcul
la cote associe lvnement tre en post graduate. Sans surprise on constante que par
exemple lindividu 10, qui a obtenu la meilleure note de lchantillon au tuce (29) et qui a
obtenu une moyenne de 3.92/4 aux examens de graduate a une cote de 5.9. Cest dire quil
a 6 plus de chances dobtenir le passage en post graduate que de ne pas lobtenir alors que la
moyenne des cotes pour lchantillon est de 0.97. De la mme faon, lindividu 5 qui obtenu la
note maximale (4) aux examens de graduate une cote de 3.64. Ces deux individus gurent
parmi les tudiants qui ont eectivement obtenu le passage en post graduate (graduate = 1).
Au del du simple calcul de la cote, on peut en outre chercher mesure les eets marginaux
sur la cote. Il sagit alors de mesurer limpact, pour le i
` eme
individu dune variation de la j
` eme
variable explicative, note x
[j]
i
, sur la cote. Supposons que lon considre une variation dune
unit de cette variable, et calculons alors la variation induite de la cote. En eet, tant donn
la proprit (??) du modle logit, on peut alors facilement mesurer limpact dune variation
dune unit dune des variables explicatives sur cette cote. En eet, si lon note c la cote de
lvnement y
i
= 1, x
i
=
_
x
[1]
i
...x
[K]
i
_
le vecteur des variables explicatives et = (
1
...
K
)
le
vecteur des paramtres associs, on a :
c
i
=
p
i
1 p
i
= exp
_
K
k=1
x
[k]
i

k
_
=
K
k=1
exp
_
x
[k]
i

k
_
On peut alors isoler la part de la cote imputable une variable x
[j]
i
quelconque de la faon
suivante. Supposons que la variable x
[j]
i
augmente de une unit, nouvelle cote note c
i
est gale
:
c
i
= exp
__
x
[j]
i
+ 1
_
j
_
K
k=1
k=j
exp
_
x
[k]
i

k
_
= exp
_
j
_
K
k=1
exp
_
x
[k]
i

k
_
Proposition 1.7. Dans un modle logit, un accroissement dune unit de la variable
exogne x
[j]
i
,toutes choses gales par ailleurs, multiplie la valeur de la cote par
Figure 1.5: Donnes et Calcul de la Cote partir du Modle Logit : Spector et Mazzeo (1980)
0 10 20 30 40
10
15
20
25
30
Rsultats au tuce
0 10 20 30 40
2
2.5
3
3.5
4
Moyenne des examens au graduate
0 10 20 30 40
0
0.2
0.4
0.6
0.8
1
Reussite passage en post graduate
0 10 20 30 40
0
1
2
3
4
5
6
Cote de la russite en Post-Graduate
exp
_
j
_
. Si lon note c
i
la cote initiale et c
i
la cote obtenue aprs variation de la
j
` eme
variable explicative, on a :
c
i
= exp
_
j
_
c
i
(1.21)
Exemple : Considrons lchantillon de Spector et Mazzeo.. Nous avons vu que le 10
` eme
individu de lchantillon avait obtenu une note de 29 au tuce. Calculons la variation de sa
cote sil avait obtenu 30 au lieu de 29. Les estimations obtenues dans le modle logit (cf.
gure 1.2) nous donne une estimation du paramtre associ tuce gale 0.0855. Ds lors, le
coecient multiplicatif appliquer la cote est de exp(0.0855) = 1.0893. La cote initiale du
10
` eme
individu tait de 5.9. Donc aprs modication de la note au tuce sa cote doit passer
5.9 1.0893 = 6.4269. On vrie en estimant nouveau (non reproduit) le modle logit avec
la valeur modie (30) de lexogne tuce pour le 10
` eme
individu que le cote estime est gale
6.43.
Toutefois, de faon plus gnrale, on calcule les eets marginaux non pas partir de la cote
mais directement partir des probabilit associ lvnement de rfrence. On cherche ainsi
tablir quelle est la variation de la probabilit de lvnement y
i
= 1 en cas de variation dune
des variables exogne. On considrera ici uniquement le cas de variables explicatives continues.
Dans ce cas, pour de petites variations de la j
` eme
variable explicative, on peut approximer la
variation de probabilit p
i
par la drive de celle-ci par rapport la variable x
[j]
i
:
p
i
x
[j]
i
=
F (x
i
)
x
[j]
i
=
F (x
i
)
(x
i
)
(x
i
)
x
[j]
i
=
F (x
i
)
(x
i
)

j
puisque x
i
=
K
k=1
x
[k]
i

k
.
Proposition 1.8. Ds lors, si lon note f (.) la fonction de densit des rsidus du
modle dichotomique, leet marginal associ la j
` eme
variable explicative x
[j]
i
est
dni par :
p
i
x
[j]
i
= f (x
i
) .
j
(1.22)
Suivant que lon considre un modle probit ou un modle logit, cette drive
scrit comme suit :
p
i
x
[j]
i
=
e
x
i
(1 +e
x
i
)
2
j
modle logit (1.23)
p
i
x
[j]
i
=
1
2
exp
_
1
2
(x
i
)
2
_
.
j
modle probit (1.24)
Puisque par dnition f (.) > 0, le signe de cette drive est donc identique celui de
j
. Ds lors, laugmentation dune variable associe un coecient positif induit une hausse
de la probabilit de ralisation de lvnement y
i
= 1. Inversement, la hausse dune variable
associ un coecient ngatif induit une baisse de la probabilit de ralisation de lvnement
y
i
= 1. Par exemple, si lon considre les donnes de Spector et Mazzeo (190) et les rsultats
destimation des probit et logit (gures 1.2 et 1.3), les deux variables tuce et grad sont aectes
dun coecient dont lestimateur a une ralisation positive. Ainsi, une augmentation de la
note au tuce ou une augmentation de la moyenne aux examens du graduate conduit une
amlioration de la probabilit de passage en postgraduate.
Enn, plutt que dexprimer leet marginal sous la forme de la drive p
i
/x
[j]
i
, on prfre
gnralement calculer une lasticit, cette dernire ayant lavantage dtre indpendante des
units de mesure.
Denition 1.9. Ainsi, on dnit llasticit
p
i
/x
[j]
i
comme la variation en pourcent-
age de la probabilit de survenue p
i
de lvnement cod y
i
= 1, suite une variation
de 1% de la j
` eme
variable explicative x
[j]
i
:
pi/x
[j]
i
=
p
i
x
[j]
i
x
[j]
i
p
i
= f (x
i
)
x
[j]
i

j
F (x
i
)
(1.25)
Cette expression peut se simplier dans le cas du modle logit sachant que F (x) = e
x
/ (1 +e
x
)
et que f (x) = e
x
/ (1 +e
x
)
2
. Pour un logit, llasticit prend la valeur suivante :
i [1, N]
p
i
/x
[j]
i
=
x
[j]
i

j
1 + exp(x
i
)
modle logit (1.26)
Plusieurs remarques doivent tre faites ce niveau. Tout dabord, pour les deux modles,
llasticit est une fonction non linaire des autres composantes du vecteur x
i
. On peut ainsi
calculer linuence des variables explicatives annexes sur la sensibilit du modle lvolution
dune variable j particulire. On peut par exemple calculer :
pi/x
[j]
i
_
x
[k]
i
k = j, i [1, N] (1.27)
Deuxime remarque, les fonctions de densit f (.) des modles logit et probit tant symtriques
et unimodales,elles atteignent donc leur maximum en zro. Ainsi, limpact dune variable ex-
plicative est dautant plus important pour les individus donc le scalaire x
i
est proche de zro.
En dautres termes, pour les individus pour lesquels on est pratiquement sr de la survenue
dun venement ( p
i
= F (x
i
) proche de 1 ou x
i
, positif et trs lev), llasticit sera faible
: seule une variation trs importante des variables explicatives pourra modier sensiblement la
probabilit. De la mme faon, les individus pour lesquels on est pratiquement sr de la non
survenue dun venement (p
i
= F (x
i
) proche de 0 ou x
i
, ngatif et trs lev en valeur
absolue), llasticit sera faible.
Enn, troisime et dernire remarque les formules ci-dessus fournissent des mesures indi-
viduelles des eets marginaux, et gnralement il est utile de calculer llasticit au point moyen
de lchantillon an de rpondre la question : quel est limpact moyen (dans lchantillon) de
la variation de 1% de la j
` eme
variable explicatives ? Deux possibilit peuvent tre retenues :
soit on calcule llasticit en remplaant les valeurs individuelles x
i
par les moyennes empiriques
de ces composantes sur lchantillon, j [1, K] :
p/x
j =
f (x)
F (x)
x
[j]
j
(1.28)
o le vecteur x est dni par x = (1/N) x
i
et le scalaire x
[j]
vaut x
[j]
= (1/N) x
[j]
. La deuxime
solution consiste calculer la moyenne des lasticits individuelles sur lensemble de lchantil-
lon, j [1, K] :
p/x
j =
1
N
N
i=1
p
i
/x
[j]
i
(1.29)
1.4. Prsentation des modles dichotomiques en termes de variable latente
Gnralement, bien que cela ne soit pas ncessaire on prsente les modles dichotomiques en
termes de variables latentes ou inobserve y
i
, la variable observe y
i
tant alors un indicateur
des valeurs prises par y
i
. Cette rfrence une variable latente permet de mieux comprendre
lmergence des modles dichotomiques partir de certains problmes ou de biologie.
Lexemple le plus clbre (repris dans Amemiya 1981) est tir de la bio-conomtrie (nou-
blions que cest dans ce domaine que furent proposes les premires applications) celui de
linsecticide : on diuse dans un espace clos un insecticide et lon cherche d terminer la dose
minimale permettant de tuer les insectes. Pour cela, on observe au terme dune priode x
les insectes i morts pour lesquels on adopte le code y
i
= 0 et ceux encore vivants cods y
i
= 1.
On suppose alors que chaque insecte dispose dune capacit de rsistance propre qui se traduit
par un seuil inobservable de produit, not y
i
, telle que si la dose de produit est suprieure ce
seuil linsecte est mort (y
i
= 0 ), et quil reste vivant (mais malade peut tre) pour une dose
infrieure (y
i
= 1). Il sagit alors de modliser la probabilit de survie de linsecte i en fonction
de la dose dinsecticide et des observations faites sur y
i
. On suppose pour cela quun certain
dosage est dius sur lensemble des insectes. On voit immdiatement que ce problme peut
scrire de la faon suivante :
y
i
=
_
1
0
si y
i
>
sinon
(1.30)
o la variable latente y
i
peut scrire comme la somme dune combinaison linaire de carac-
tristiques propres chaque insecte et dune terme alatoire.
y
i
= x
i
+
i
(1.31)
Si le terme alatoire
i
est distribu selon une loi normale, on retrouve un modle probit, si
ce terme est distribu selon une loi logistique on retrouve le modle logit.
Un autre exemple, toujours tir dune tude biologique de Ashford et Sowden (1970), con-
cerne la probabilit pour un mineur de contracter une maladie des poumons (vnement cod
y
i
= 1) lorsque sa tolrance inobservable, note y
i
, aux conditions de travail et en particulier
aux poussires de charbon est infrieure certain seuil inconnue. On suppose que la tolrance
est lie lge du mineur not x
i
. De la mme faon, ce modle peut scrire sous la forme :
y
i
=
_
1
0
si y
i
=
1
+
2
x
i
+
i
<
sinon
(1.32)
o
i
a une distribution normale ou logistique suivant les modles. Ici lvnement y
i
= 1 (mal-
adie) apparat quand la variable latente y
i
est infrieure un seuil . Mais il aurait parfaitement
t possible de considrer une variable latente gale y
i
et un seuil pour retomber sur une
relation semblable celle de lexemple prcdent o y
i
> . Une autre manire aurait consister
coder lvnement maladie en 0. Par la suite, nous considrerons un modle o lon a y
i
= 1
lorsque y
i
> , ce qui permet dcrire que p
i
= F (x
i
). En eet, on a bien
11
:
p
i
= Prob (y
i
= 1) = Prob (y
i
> )
p
i
= Prob (
i
> x
i
) = 1 Prob (
i
< x
i
)
p
i
= F (x
i
) (1.33)
Dans le cas o = 0, on retrouve lcriture des modles dichotomiques propose jusqu
prsent : p
i
= F (x
i
) .
Proposition 1.10. Tout modle dichotomique univari peut scrire sous la forme
dune quation de mesure de la forme :
y
i
=
_
1
0
si y
i
>
sinon
(1.34)
o R et o la variable latente y
i
inobservable est dnie en fonction de carac-
tristiques observables x
i
et dune perturbation
i
i.i.d.
_
0,
2
_
:
y
i
= x
i
+
i
(1.35)
11
On suppose que la loi des perturbations est symtrique f (x) = f (x) , ds lors on a F (x) = 1 F (x) .
Ce modle peut galement sexprimer sous la forme :
p
i
= Prob (y
i
= 1) = F (x
i
) (1.36)
o la fonction F (.) dsigne la fonction de rpartition associe la loi des perturba-
tions
i
.
Ainsi, si F (.) = (.) on retrouve le modle probit et si F (.) = (.) on retrouve le cas
du modle logit. De faon gnrale, lquation (1.33) correspond en eet aux dnitions des
modles logit et probit poses dans la section prcdente.
A ce stade deux aspects doivent tre discuts (Colletaz 2001). Le premier aspect concerne la
normalisation du seuil qui videment ne peut tre identi que si la combinaison linaire
x
i
ne comporte pas de terme constant. Si la combinaison linaire inclut un terme constant
et scrit sous la forme x
i
=
1
+
K
j=2
x
i,j
j
, alors il est seulement possible destimer la
constante c telle que :
p
i
= F (x
i
) = F
_
_
1
+
K
j=2
x
i,j
_
_
= F
_
_
1
+
K
j=2
x
i,j
j
_
_
Il y a alors indetermination du couple (
1
, ) puisquil existe une innit de couples tels que
1
=
1
. Deux choses lune : ou lon possde une information a priori sur le seuil qui
permet alors de lever lindtermination et didentier
1
, soit lon impose a priori une contrainte
sur lune ou lautre des paramtres pour identier lautre. Dans ce dernier cas, gnralement on
suppose = 0 ce qui permet dobtenir lgalit
1
=
1
. Sans perte de gnralit, on considre
donc une criture de la forme :
p
i
= F (x
i
) (1.37)
Le second aspect du modle variable latente concerne la normalisation de la vari-
ance des perturbations
i
. Partant de la relation (1.37) pour = 0, on a p
i
= F (x
i
) =
Prob (
i
< x
i
) et donc R
+
, on obtient :
p
i
= Prob
_
<
x
i
_
= Prob
_
i
< x
i
_
> 0 (1.38)
avec

= / et
i
=
i
/, i (1, N) . En dautres termes, la dtermination de la probabilit
p
i
nest pas unique par rapport au terme alatoire
i
et au vecteur de paramtres : carac-
tristiques (y
i
, x
i
) donnes, une innit de couples
_
i
,
_
conduit une mme probabilit p
i
de
survenue de lvnement cod y
i
= 1. Cette innit de couples est dnie par la proportionnalit
:
_
i
,
_
=
1
{
i
, } R
+
(1.39)
Le choix dune solution unique seectue encore une fois en imposant une contrainte soit
sur le vecteur des paramtres

, soit sur la loi des perturbations
i
, et plus prcisment sur leur
variance, la loi tant xe par le choix du modle logit ou probit. Cest cette dernire solution
qui est gnralement privilgie. On sait en eet que la variance des rsidus
i
est gale
2
/3
dans le cadre du modle logit et que cette variance est gale lunit dans le modle probit. Les
variances des perturbations tant xe par le choix de la loi F (.), cest donc sur le vecteur de
paramtres que porte lincertitude puisque les composantes de ce vecteur sont dnis un
facteur positif prs. Naturellement, cette incertitude est sans consquence pratique puisque
toute composante non nulle dans le vrai vecteur a une image dans le contraint et que par
ailleurs les deux valeurs tant de mme signe cela naecte pas la mesure des eets marginaux.
Proposition 1.11. Dans les modles logit et probit, la variance de lerreur du mod-
le nest pas identiable : elle est normalise lunit dans le cas du probit et
est gale
2
/3 dans le cas du logit. Par consquent, la valeur numrique des
paramtres estims na pas dintrt en soi dans la mesure o il ne correspondent
aux paramtres de lquation de la variable latente qu une constante multi-
plicative prs. De plus, le seuil nest pas identiable car il se confond au terme
constant du vecteur des explicatives x
i
.
Ainsi, la seule information rellement utilisable est le signe des paramtres, indiquant si
la variable associe inuence la hausse ou la baisse la probabilit de lvnement considr.
Le signe des coecients et le calcul des eets marginaux restent les deux seules informations
directement exploitables en ce qui concerne les variables explicatives.
Exemple : an de mieux comprendre reprenons lexemple du modle de Ashford et Sowden
(1970), o lon considre la probabilit pour un mineur de contracter une maladie des poumons
(vnement cod y
i
= 1) lorsque sa tolrance inobservable, note y
i
, aux conditions de travail
et en particulier aux poussires de charbon est infrieure certain seuil inconnue. On suppose
que la tolrance est lie lge du mineur not x
i
par une relation ane.
y
i
=
_
1
0
si y
i
=
1
+x
i
2
+
i
>
sinon
On suppose que la variance des perturbations i.i.d.
i
est gale
2
i
=
2
, i (1, N) . Ds
lors, pour un individu i la probabilit de dcs scrit sous la forme :
p
i
= Prob (y
i
= 1)
= Prob (
i
>
1
x
i
2
)
= F (
1
+x
i
2
) (1.40)
Si lon considre un modle probit, les perturbations du modle doivent suivre une loi
normale centre rduite. La contrainte sur la variance gale lunit, impose dcrire le modle
sous la forme suivante :
p
i
= Prob
_
>

1
x
i
_
(1.41)
=
_
+
x
i
_
(1.42)
=
_
1
+x
i
2
_
(1.43)
avec

1
= (
1
) / et

2
=
2
/. Seuls deux paramtres

1
et

2
seront estims, alors quil
y a 4 paramtres structurels (
1
,
2
, , ) . Ladoption dune normalisation du type = 0 et
= 1 permet alors didentier les paramtres
1
et
2
.
Si lon considre un modle logit, on sait que la variance rsiduelle doit tre gale
2
/3
ds lors que lon impose le choix dune loi logistique simple pour les perturbations du modle.
Ainsi, la contrainte sur la variance rsiduelle gale
2
/3, impose dcrire le modle sous la
forme suivante :
p
i
= Prob
_

>

3

1
x
i
_
=
_

3
x
i
_
=
_
1
+x
i
2
_
(1.44)
avec
1
= (
1
) /
3 et
2
=
2
/
3. En eet, dans ce cas les perturbations normalises
i
=
i
/
3 vrient la contrainte sur la variance puisque :

E
_
2
i
_
=

2
3
2
E(
i
) =

2
3
Encore une fois, seuls les paramtres

1
et

2
seront estims, alors quil y a 4 paramtres
structurels (
1
,
2
, , ) dans le modle initial. Ladoption dune normalisation du type = 0
et = 1 permet dans ce cas didentier les paramtres
1
et
2
.
2. Estimation des Paramtres par la Mthode du Maximumde Vraisem-
blance
Considrons le modle suivant :
Hypothse On considre un chantillon de N individus indics i = 1, .., N. Pour chaque
individu, on observe si un certain venment sest ralis et lon note y
i
la variable code
associe venement. On pose i [1, N] :
y
i
=
_
1
0
p
i
= F (x
i
)
1 p
i
= 1 F (x
i
)
(2.1)
o x
i
=
_
x
1
i
..x
K
i
_
, i = 1, .., N dsigne un vecteur de caractristiques observables et o
= (
1
...
K
)
R
K
est un vecteur de paramtres inconnus.
On cherche naturellement estimer les composantes du vecteur . Dans le cas des mod-
les dichotomiques univaris, plusieurs mthodes destimation sont envisageables (GMM par
exemple). Toutefois la mthode la plus usite lorsque la loi des perturbations est connue con-
siste en la mthode du maximum de vraisemblance. Nous ne considrerons pas ici le cas des
observations rptes
12
.
2.1. Estimation par maximum de vraisemblance
Dans le cas du modle dichotomique univari, la construction de la vraisemblance est extrme-
ment simple. En eet, lvnement y
i
= 1 est associe la probabilit p
i
= F (x
i
) et
lvnement y
i
= 0 correspond la probabilit 1 p
i
= 1 F (x
i
) . Ceci permet de considrer
les valeurs observes y
i
comme les ralisations dun processus binomial avec une probabilit
de F (x
i
) . La vraisemblance des chantillons associs aux modles dichotomiques scrit donc
comme la vraisemblance dchantillons associs des modles binomiaux. La seule particularit
tant que les probabilits p
i
varient avec lindividu puisquelles dpendent des caractristiques
x
i
. Ainsi la vraisemblance associe lobservation y
i
scrit sous la forme :
L(y
i
, ) = p
yi
i
(1 p
i
)
1y
i
Ds lors, la vraisemblance associe lchantillon de taille N, not y = (y
1
, .., y
N
) scrit de
la faon suivante.
Denition 2.1. Pour un modle dichotomique univari simple, la vraisemblance
associe lchantillon de taille N, not y = (y
1
, .., y
N
) , scrit sous la forme :
L(y, ) =
N
i=1
p
y
i
i
(1 p
i
)
1yi
=
N
i=1
[F (x
i
)]
yi
[1 F (x
i
)]
1yi
(2.2)
Il ne reste plus alors qu spcier la fonction de distribution F (.) pour obtenir la forme
fonctionnelle de la vraisemblance. Ainsi, x
i
R dans le cas du modle logit, on a:
12
Cas o chaque valeur des caractristiques exognes correspondent plusieurs observations du caractre
qualitatif. Ceci traduit la possibilit de rpter plusieurs fois lexprience sous les mmes conditions. Comme le
note Anemiya (1980) ce cas est plus frquent en biologie quen conomie.
F (x
i
) =
e
xi
1 +e
x
i
= (x
i
)
alors que pour le probit, on a :
F (x
i
) =
_
xi
2
e
z
2
2
dz = (x
i
)
De cette dnition, on dduit alors la log-vraisemblance comme suit :
log L(y, ) =
N
i=1
y
i
log [F (x
i
)] + (1 y
i
) log [1 F (x
i
)] (2.3)
En distinguant les observations y
i
= 1 et celles pour lesquelles on a y
i
= 0, la log-
vraisemblance peut scrire sous la forme :
log L(y, ) =

i : y
i
=1
log F (x
i
) +

i : y
i
=0
log [1 F (x
i
)] (2.4)
Lestimateur du maximum de vraisemblance des paramtres est obtenu en maximisant
soit la fonction de vraisemblance L(y, ) soit la fonction de log-vraisemblance log L(y, ) .
En drivant la log vraisemblance (quation 2.3) par rapport aux lments du vecteur , de
dimension (K, 1), on obtient un vecteur de drives, not G() , appel vecteur du gradient.
G() =
log L(y, )
=
N
i=1
y
i
f (x
i
)
F (x
i
)
x
i
+ (y
i
1)
f (x
i
)
1 F (x
i
)
x
i
o f (.) est la fonction de densit associe F (.) et o x
i
dsigne la transpose du vecteur x
i
de dimension (1, K) . En simpliant, lexpression du gradient, on obtient alors :
G() =
N
i=1
[y
i
F (x
i
)] f (x
i
)
F (x
i
) [1 F (x
i
)]
x
i
(2.5)
On peut en outre exprimer le gradient en distinguant les observations y
i
= 1 et celles pour
lesquelles on a y
i
= 0 :
G() =

i : yi=1
f (x
i
)
F (x
i
)
x

i : yi=0
f (x
i
)
[1 F (x
i
)]
x
i
(2.6)
Denition 2.2. Lestimateur
du maximum de vraisemblance du vecteur de paramtre

R
K
dans un modle dichotomique est dni par la rsolution du systme de K
quations non linaires en :
=arg max
{}
[log L(y, )] (2.7)
log L
_
y,
=
N
i=1
_
y
i
F
_
x
i
__
f
_
x
i
_
F
_
x
i
__
1 F
_
x
i
__ x
i
= G
_
_
= 0 (2.8)
o G() dsigne le gradient associ la log-vraisemblance log L(y, ), valu au
point

.Dans le cas du modle logit, ce systme se ramne :
G
L
_
_
=
N
i=1
_
y
i
_
x
i
__
x
i
= 0 (2.9)
Dans le cas du modle probit, on a :
G
P
_
_
=
N
i=1
_
y
i
_
x
i
__

_
x
i
_
x
i
__
1
_
x
i
__ x
i
= 0 (2.10)
En eet, lcriture du gradient dans le cas du modle logit se simplie en tenant compte
de la proprit de la loi logistique selon laquelle, si lon note (x) la densit associe (x) ,
on a la relation suivante : x, (x) = (x) [1 (x)] . Ds lors, lexpression (2.5) se simplie
puisque :
G
L
() =
N
i=1
[y
i
(x
i
)] (x
i
)
(x
i
) [1 (x
i
)]
x
i
=
N
i=1
[y
i
(x
i
)] x
i
Premire remarque : comme de faon gnrale avec la mthode destimation du maxi-
mum de vraisemblance, lquation de dnition (2.8) peut sinterprter comme une condition
dorthogonalit impose sur les variables explicatives et les rsidus gnraliss. Cette galit est
en eet lquivalent empirique dune condition de la forme E[(x
i
w
i
)
i
] o
i
est le rsidu dans
le modle non linaire y
i
= F (x
i
) +
i
et o w
i
est une variable de pondration. En eet, si
lon pose :
w
i
=
f (x
i
)
F (x
i
) [1 F (x
i
)]

i
= y
i
F (x
i
)
alors lquation (2.8) se rcrit sous la forme :
G() =
N
i=1
(x
i
w
i
) [y
i
F (x
i
)] = 0
1
N
N
i=1
(x
i
w
i
)
i
= 0 (2.11)
Cette proprit est particulirement facile visualiser dans le cas du modle logit. De
faon gnrale, les estimateurs du maximum de vraisemblance constituent un cas particulier des
estimateurs des moments.
Deuxime remarque : le systme dni par lquation (2.8) est non linaire. Lestimateur
ne peut tre obtenu directement. Un algorithme doptimisation numrique de la vraisemblance

est donc ncessaire. Comme nous le verrons dans la section suivante, ces algorithmes se fondent
la fois sur le gradient mais aussi sur la matrice hessienne des drives secondes. Cest pourquoi,
nous allons donn lexpression des gradients et des matrice hessiennes, notes H () , dans le
cas particulier des modles logit et probit.
2.1.1. Matrices Hessiennes et Matrices dinformation de Fischer
Commenons par dnir les matrices hessiennes associe la log vraisemblance des modles
dichotomiques univaris.
Denition 2.3. Pour un modle dichotomique univari, la matrice hessienne asso-
cie la log vraisemblance dun chantillon de taille N, not y = (y
1
, .., y
N
) , scrit
sous la forme :
H ()
(K,K)
=

2
log L(y, )
=
N
i=1
_
y
i
F (x
i
)
2
+
1 y
i
[1 F (x
i
)]
2
_
f (x
i
)
2
x
i
x
i
+
N
i=1
_
y
i
F (x
i
)
F (x
i
) [1 F (x
i
)]
_
f
(x
i
) x
i
x
i
(2.12)
o f
(.) dsigne la drive de la fonction de densit f (.) associe F (.) .

En eet, en omettant les arguments des fonctions et les indices il vient :
H () =

_
log L(y, )
G()
_
N
i=1
(y
i
F) f
F (1 F)
_
x
i
=

F (1 F)
F
2
(1 F)
2
[(y F) f]
(y F) f
F
2
(1 F)
2
[F (1 F)]
x
En simpliant, il vient :
H () =

f
2
+ (y F) f
F (1 F)
x
(y F) f
F
2
(1 F)
2
[f (1 F) Ff] x
x
=
f
2
F (1 F)
x
x +
(y F) f
F (1 F)
x
f
2
(y F)
F
2
(1 F)
x
x +
f
2
(y F)
F (1 F)
2
x
x
En regroupant les termes en f
2
et en f
on obtient alors :
H () =

f
2
x
x
F
2
(1 F)
2
[F (1 F) + (y F) F (y F) (1 F)] +
(y F) f
F (1 F)
x
x
=

f
2
x
x
F
2
(1 F)
2
_
2 yF F
2
y
(y F) f
F (1 F)
x
x
=
f
2
F
2
(1 F)
2
_
y (1 F)
2
+ (1 y) F
2
_
x
x +
(y F) f
F (1 F)
x
x
=
y f
2
F
2
x
(1 y) f
2
(1 F)
2
x
x +
(y F) f
F (1 F)
x
x
En intgrant les indices et les arguments des fonctions F (.) , f (.) et f
(.) on retrouve alors

lexpression de la matrice hessienne H () donne dans lquation (2.12). Attention, il nexiste
pas dexpression simplie dans le cas des modles logit et probit de la matrice hessienne. En
revanche, lesprance de la matrice hessienne, qui intervient dans le calcul de la matrice de
variance covariance asymptotique de lestimateur de maximum de vraisemblance, a une criture
plus simple.
En eet, en partant de lexpression (2.12) de la matrice hessienne de la fonction de log
vraisemblance et en considrant que dans le modle dichotomique on a :
E(y
i
) = F (x
i
) (2.13)
on peut alors tablir que :
E[H ()] = E
_
2
log L(y, )
_
=
N
i=1
_
E(y
i
)
F (x
i
)
2
+
E(1 y
i
)
[1 F (x
i
)]
2
_
f (x
i
)
2
x
i
x
i
=
N
i=1
_
1
F (x
i
)
+
1
1 F (x
i
)
_
f (x
i
)
2
x
i
x
i
En eet, le second terme de lexpression (2.12) sannule lorsque lon applique loprateur
esprance. Cette expression peut alors se simplier comme suit :
E[H ()] =
N
i=1
f (x
i
)
2
F (x
i
) [1 F (x
i
)]
x
i
x
i
On reconnat ici bien sr, lexpression de loppos de la matrice dinformation de Fischer.
Denition 2.4. Pour un modle dichotomique univari, la matrice dinformation
de Fischer I () scrit sous la forme :
I () = E
_
2
log L(y, )
_
=
N
i=1
f
2
(x
i
)
F (x
i
) [1 F (x
i
)]
x
i
x
i
(2.14)
Dans le cas du modle logit, cette matrice est dnie par :
I () =
N
i=1
(x
i
) x
i
x
i
=
N
i=1
exp(x
i
)
[1 + exp(x
i
)]
2
x
i
x
i
(2.15)
Dans le cas du modle probit, cette matrice est dnie par :
I () =
N
i=1
2
(x
i
)
(x
i
) [1 (x
i
)]
x
i
x
i
(2.16)
En eet, dans le cas du modle logit on a (x) [1 (x)] = (x) , ds lors lexpression de
la matrice dinformation de Fischer se simplie comme suit :
I () =
N
i=1
2
(x
i
)
(x
i
) [1 (x
i
)]
x
i
x
i
=
N
i=1
(x
i
) x
i
x
i
(2.17)
Il nous reste prsent montrer que si la fonction de log vraisemblance admet un maximum
global, ce dernier est unique.
2.1.2. Unicit du maximum global de la fonction de log-vraisemblance
Si lon admet que le maximum global de log L(y, ) existe, la condition susante pour que ce
maximum soit unique consiste montrer que la fonction log L(y, ) est concave. Etant donne
lcriture (2.4) de la log-vraisemblance, il sut alors de montrer que les fonctions log [F (x)] et
log [1 F (x)] sont concaves.
Dans le cas du modle logit, les drives premire et seconde de la fonction log [F (x)] =
log [(x)] sont les suivantes :
log [(x)]
x
=
1
(x)
(x)
x
=
(1 +e
x
)
e
x
e
x
(1 +e
x
)
2
=
1
1 +e
x
2
log [(x)]
x
2
=

x
_
1
1 +e
x
_
=
e
x
(1 +e
x
)
2
< 0
Les drives premire et seconde de la fonction log [1 (x)] sont les suivantes :
log [1 (x)]
x
=
1
1 (x)
(x)
x
=
(1 +e
x
)
1
e
x
(1 +e
x
)
2
=
e
x
1 +e
x
= (x)
2
log [1 (x)]
x
2
=
(x)
x
=
e
x
(1 +e
x
)
2
< 0
Dans le cas du logit, les fonctions log [F (x)] et log [1 F (x)] sont donc strictement concaves,
donc la log-vraisemblance log L(y, ) est elle mme strictement concave. Sil existe un maximum
cette fonction en , ce maximum est global. Le mme rsultat peut tre mis en vidence dans
le cas du modle probit.
Proposition 2.5. Dans un modle dichotomique univari, la fonction de log-vraisemblance
log L(y, ) est strictement concave, ce qui garantit lunicit du maximum de cette
fonction. Dans la pratique, ce rsultat garantit la convergence des estimateurs du
maximum de vraisemblance vers la vraie valeur
0
des paramtres, quel que soit le
choix des conditions initiales et de lalgorithme doptimisation utilis.
Comme le note Colletaz (2001), il peut toutefois arriver que lon observe des dicults
dans la progression de lalgorithme vers la solution. Gnralement ces dicults conduisent
lachage de valeurs anormalement grandes, en valeur absolue, pour un ou plusieurs des
paramtres du modle. Ceci correspond au cas de la classication parfaite dans lequel une
ou plusieurs combinaisons de variables explicatives permet de prvoir parfaitement la survenue
ou la non survenue de lvnement considr. Par exemple, considrons le cas o K > 1, et si
pour une variable explicative note z
i
= 1 lorsque y
i
= 1, alors que y
i
= 1 ou y
i
= 0 lorsque
z
i
= 0. Dans ce cas, Prob (y
i
= 1/z
i
= 1) = 1 quelles que soit les valeurs prises par les autres
variables explicatives x
i
. Cela contraint lalgorithme donner une valeur extrmement forte
la combinaison linaire

z
i
+ x
i
, cest dire donner une valeur thoriquement innie au
vecteur

, de sorte que lon rencontre alors des problmes numriques. Le plus souvent, on
observera une valeur estime de

particulirement lve en valeur absolue avec un cart type
associ tendant vers la nullit. Pour rsoudre ce problme, il sut la ou les variables concernes
ainsi que la totalit des observations parfaitement classes, soit celles associes aux observations
telles que z
i
= 1 et plus gnralement aux variables ou aux combinaisons de variables autorisant
cette classication parfaite.
2.2. Algorithmes de maximisation de la vraisemblance
Comme nous lavons vu lobtention de lestimateur de maximum de vraisemblance

du vecteur
de paramtres R
K
implique de rsoudre un systme de K quations non linaires de la
forme :
G
_
_
=
log L
_
y,
=
N
i=1
_
y
i
F
_
x
i
__
f
_
x
i
_
F
_
x
i
__
1 F
_
x
i
__ x
i
= 0 (2.18)
avec F (.) = (.) dans le cas du logit et F (.) = (.) dans le cas du probit. Un tel problme
nadmet pas de solution analytique. La rsolution dun tel systme ne peut se faire quen
utilisant une procdure doptimisation numrique. Les algorithmes utilises dans les principaux
logiciels dconomtrie sont gnralement
13
construit selon lune ou lautre de ces deux mthodes
: la mthode de Newton Raphson et la mthode du score. Nous nvoquerons ici que la mthode
de Newton Raphson.
Les mthodes doptimisation numrique sont utilises pour maximiser une fonction f ()
lorsque la condition du premier ordre f () / = 0 nadmet pas de solution analytique ; le
optimal doit tre dduit par tatnnement ou par un algorithme itratif. Ds lors, un algorithme
itratif utilise trois principaux lments :
1. Des valeurs initiales
0
pour amorcer le processus itratif
2. Une rgle de passage dun vecteur au suivant
3. Une rgle darrt si il y a convergence
*****************************************************
**** INSERER GRAPHIQUE SUR LA PROCEDURE ****
*****************************************************
En ce qui concerne le choix des conditions initiales, ce choix est dautant plus important
que le critre maximiser f () est complexe. Dans le cas des modles dichotomiques, on sait
que la fonction f () maximiser (la vraisemblance ou la log vraisemblance suivant les cas) est
globalement concave : ds lors, on est assur que lalgorithme converge vers la vraie valeur des
paramtre, cest dire vers la solution
14
unique qui maximise f () , et cela quelles que soient
les conditions initiales. Mais mme dans ce cas particulirement favorable, la convergence peut
tre extrmement longue si les valeurs de dpart sont trop loignes de loptimum. Pour les
modles logit et probit, les logiciels usuels considrent des valeurs initiales pour lalgorithme
de maximisation de la vraisemblance gales aux ralisations des estimateurs obtenus dans le
modle linaire :
y
i
= x
i
LP
+
i

0
=

LP
(2.19)
La rgle darrt est gnralement du type : arrter le processus itratif si la variation de
ou du critre f () entre litration actuelle et la prcdente est infrieure une valeur seuil
(souvent appele tolrance).
13
Sous Eviews et LimDep, la mthode utilise est celle de Newton-Raphson.
14
Si cette dernire existe. On admettra lexistence dun maximum.
Reste dnir la rgle de passage dun vecteur au suivant. Une rgle de passage consiste
partir des valeurs initiales
0
, trouver le prochain vecteur des paramtres
1
tel que :
f (
1
) f (
0
)
et ainsi de suite la i
` eme
tape :
f (
i
) f (
i1
) (2.20)
Ainsi, on obtient une rgle du type :
i
=
i1
+
i1
D
i1
(2.21)
o
i1
dsigne le pas litration i 1 et D
i1
est la direction. D
i1
indique la direction que
doivent prendre les composantes du nouveau vecteur
i
et
1
indique lamplitude du saut dans
cette orientation. Dans une mthode du gradient, la direction est dtermine par le gradient
de la fonction f () . dans le cas K = 1, si le gradient est positif cela signie que lon se situe
gauche de loptimum : donc on se dplace en augmentant
i
>
i1
. En ce qui concerne le pas,
on cherche alors
i
tel que f (
i
+
i
D
i
) /
i
0.
La mthode doptimisation de Newton Raphson est une mthode du gradient
15
qui est no-
tamment recommande lorsque le critre maximiser est globalement concave, ce qui est le cas
de la fonction de log vraisemblance dans un modle dichotomique univari. Dans cette mthode,
la direction est dtermine par le gradient de la fonction f () , not G() , tandis que le pas
est dtermin par le hessien, not H () . En eet, cette mthode considre un dveloppement
limit de la condition du premier ordre du programme de maximisation de la fonction f ().
Soit un point solution
i
, satisfaisant la condition du premier ordre.
i
f (
i
)
= G(
i
) = 0
On peut alors donner lexpression dun dveloppement limit autour de ce point
i
. Ainsi,
pour tout point
i+1
, on obtient la relation suivante au voisinage de
i
:
G(
i+1
) = G(
i
) +
G(
i
)
(
i+1
i
) = 0
ou encore :
G(
i+1
) = G(
i
) +H (
i
) (
i+1
i
) = 0
On en dduit la relation suivante :
i,
i+1
=
i
H (
i
)
1
G(
i
) (2.22)
La mthode de doptimisation de Newton Raphson ainsi fond sur cette rgle de passage,
ncessite le calcul chaque tape du hessien H (
i
) .
Proposition 2.6. Appliqu au problme de maximisation de la vraisemblance dun
modle dichotomique, la rgle de passage de lalgorithme doptimisation de New-
ton Raphson, entre le vecteur destimation

i1
de la i 1
` eme
itration et vecteur
destimation

i
de la i
` eme
itration est alors dnie par la relation :
i
=

i1
2
log L(y, )
i1
_
1
_
log L(y, )
i1
_
(2.23)
15
Pour un expos des mthodes du gradient en gnral voir Alban 2000, pages 49 et suivantes.
ou encore
i
=

i1
H
_
i1
_
1
G
_
i1
_
(2.24)
Litration est alors arrt si la variation

i1
ou la variation du critre log L
_
y,
i
_
log L
_
y,
i1
_
est infrieure un certain seuil x dans le programme. Le dernier estimateur
obtenu
i
=

correspond alors lestimateur optimal du maximum de vraisemblance. Pour tre
plus prcis, il convient de montrer que la suite des

i
converge vers lestimateur du maximum
de vraisemblance.
On vrie immdiatement que si la suite

i
converge vers une limite

, cette limite est
forcement solution des quations de vraisemblance. En eet, si lon pose

= lim
i

i
, et en
considrant la limite des membres de lgalit (2.24) on a :
=

H
_
_
1
G
_
_
H
_
_
1
G
_
_
= 0
La matrice hessienne tant dnie positive strictement, on a bien G
_
_
= log L
_
y,
_
/ =
0. Par consquent, si la suite

i
des estimateurs obtenus par lalgorithme de Newton Raphson,
convergent vers une quantit

, cette quantit est solution des quations du premier ordre du
programme de maximisation de la vraisemblance. Autrement dit, si la suite

i
converge, elle
converge alors ncessairement vers lestimateur du maximum de vraisemblance

dni par la
condition :
log L
_
y,
= G
_
_
= 0 (2.25)
Reste maintenant dmontrer que lestimateur du maximum de vraisemblance

, quel
que soit lalgorithme doptimisation utilis, converge vers la vraie valeur des paramtres
des modles logit et probit. Etudions pour cela les proprits asymptotiques du maximum de
vraisemblance.
3. Proprits Asymptotiques des Estimateurs du Maximumde Vraisem-
blance
Lorsque lon cherche tablir les proprits asymptotiques des estimateurs du maximum de
vraisemblance dans le cadre de modles dichotomiques, et plus gnralement dans le cadre
de modle variables qualitatives, toute la dicult rside dans le fait que lon dispose pas
dexpression analytique pour ces estimateurs. En eet, nous avons vu que les quations de
vraisemblance associes au probit et au logit sont non linaires dans les paramtres. Ds lors,
il nest pas possible alors dexprimer les estimateurs, solutions de ces quations, comme des
fonctions simples des observations. Nous avons vu quil tait alors ncessaire de recourir des
algorithmes doptimisation numriques. Mais devant limpossibilit dcrire les estimateurs du
maximum de vraisemblance comme des fonctions simples des observations, il est alors dicile
dtudier la convergence de ces estimateurs comme nous avions pu le faire dans le cas des
modles linaires standard. Il convient ainsi dadopter une dmarche particulire o lon va
chercher tudier la convergence du critre de maximum de vraisemblance, an de dmontrer
la convergence des estimateurs du MV, solutions du programme de maximisation de ce critre.
Un certain nombre de rappels sur les direntes notions de convergence sont proposs dans
lannexe (A.1). Toutefois, la lecture de ces rappels doit ncessairement saccompagner dune
tude plus systmatique des fondements probabilistes de ces notions
16
.
3.1. Convergence du Critres de MV
On considre un modle dichotomique univari simple :
y
i
=
_
1
0
si y
i
0
sinon
(3.1)
y
i
= x
i
0
+
i
(3.2)
avec Prob (y
i
= 1) = F (x
i
) o F (.) dsigne la fonction de rpartition de
i
, o x
i
=
_
x
1
i
..x
K
i
_
,
i = 1, .., n dsigne un vecteur de caractristiques observables et o
0
R
K
est un vecteur
de paramtres inconnus. On suppose que lon dispose dun chantillon de n individus indics
i = 1, .., n.
Nous avons vu prcdemment que lestimateur

du maximum de vraisemblance du vecteur
de paramtre
0
dans ce modle dichotomique est dni par la rsolution du systme de K
quations non linaires en . En eet, si lon pose :
=arg max
{}
[log L(y, )] (3.3)
o la fonction log L(y, ) est dnie par lquation (2.3) :
log L(y, ) =
n
i=1
y
i
log [F (x
i
)] + (1 y
i
) log [1 F (x
i
)] (3.4)
16
Voir par exemple, Mthodes Statistiques, Philippe Tassi, Economica 1989
on vrie que la condition ncessaire de ce programme scrit :
log L
_
y,
=
n
i=1
_
y
i
F
_
x
i
__
f
_
x
i
_
F
_
x
i
__
1 F
_
x
i
__ x
i
= G
_
_
= 0 (3.5)
o G() dsigne le gradient associ la log-vraisemblance log L(y, ), valu au point

. On
trouve alors un systme de K quations non linaires.
Ainsi, nous ne pouvons pas obtenir dexpression analytique de lestimateur

du maximum de
vraisemblance. Ds lors, la question qui se pose est de savoir comment montrer que lestimateur
est convergent. Autrement dit, il sagit de savoir comment tablir le rsultat suivant ?
n

0
(3.6)
o
0
dsigne la varie valeur des paramtres . En eet, tout le problme consiste tablir
une proprit de convergence de lestimateur sans disposer dune expression analytique de celui-
ci. Tout ce que lon sait pour linstant, cest que si la fonction de log-vraisemblance dans les
modles logit et probit admet un maximum, ce maximum est unique, puisque nous avons montr
que la fonction log L(y, ) est dans ces deux cas concave.
3.1.1. Convergence destimateurs dans les modles non linaires
Pour rsoudre ce problme, nous allons tout dabord exposer une mthode gnrale permettant
dtablir la convergence destimateur dans des modles non linaires. Considrons le problme
suivant. On cherche minimiser en un critre C
n
(y, ) :
min
{}
C
n
(y, ) (3.7)
sous (3.8)
Ce critre C
n
(y, ) peut tre soit celui somme des carrs des rsidus (critre des MCO), soit
celui de la somme des carrs pondrs (critre des MCG), etc.. De faon gnrale, ce critre
correspond la classe des M-estimateurs. Soit
0
le vrai vecteur de paramtres permettant
de minimiser le critre et soit y un vecteur de variables endognes observables. On considre
un M-estimateur quelconque not

n
dni par :
n
=arg min
{}
[C
n
(y, )] (3.9)
On cherche alors tablir que cet estimateur est convergent et cela sans spcier le critre
C
n
(y, ). La convergence de

n
se traduit par la relation :
n
p.s.
n

0
(3.10)
Pour tablir ce rsultat on a besoin de faire trois hypothses :
Hypothse 1 , R
K
compact.
Hypothse 2 Le critre C
n
(y, ) converge presque srement et uniformment par rapport
vers une fonction C
(,
0
)
C
n
(y, )
p.s.
n
C
(,
0
) (3.11)
Hypothse 3 La fonction C
(,
0
) admet un minimum unique en =
0
:
, C
(
0
,
0
) C
(,
0
)
Lide de la dmonstration du rsultat (3.10) est alors la suivante. On considre la suite
des estimateurs
_
n
_
dnie sur un ensemble compact. On sait que toute suite dnie sur un
ensemble compact admet au moins une valeur limite. Soit
L
une des valeurs dadhrence de
la suite
_
n
_
. Il sut alors de montrer que cette valeur dadhrence est unique et correspond
la vraie valeur
0
des paramtres du modle.
Soit
L
une des valeurs dadhrence particulire de la suite
_
n
_
. Il existe alors une sous
suite
_
L
n
_
qui converge vers
L
.
L
n
p.s.
n

L
Sachant que le M-estimateur
n
minimise le critre C
n
(y, ) , on a par construction C
n
_
y,
n
_
C
n
(y, ) , . Ce rsultat vaut aussi pour la sous suite

L
n
. Par consquent :
C
n
_
y,
L
n
_
C
n
(y, )
Cette ingalit est en particulier valable pour la valeur
0
:
C
n
_
y,
L
n
_
C
n
(y,
0
) (3.12)
Considrons prsent la limite en probabilit des termes de droite et de gauche de cette
ingalit. Pour cela, on utilise le rsultat de convergence suivant :
f
n
(.)
p.s.
n
f (.)
x
p.s.
n
x
0
=f
n
(x
n
)
p.s.
n
f (x
0
)
Sachant que
_
L
n
_
converge vers
L
, et que sous lhypothse 2 le critre C
n
(y, ) converge
vers C
(,
0
), on montre que la limite en probabilit du terme de gauche de lingalit (3.12)
peut scrire sous la forme suivante :
C
n
_
y,
L
n
_
p.s.
n
C
L
,
0
_
(3.13)
De la mme faon, on montre que le terme de droite de lingalit (3.12) converge en prob-
abilit vers la quantit suivante :
C
n
(y,
0
)
p.s.
n
C
(
0
,
0
) (3.14)
Ds lors on obtient lingalit suivante dnie sur les limites des critres :
C
L
,
0
_
C
(
0
,
0
) (3.15)
Sachant que sous lhypothse 3,
0
est la seule valeur qui assure le minimum global de la
fonction C
(,
0
), cest dire que on a C
(
0
,
0
) C
(,
0
), on en conclut que
L
correspond ncessairement
0
:
L
=
0
(3.16)
En dautres termes, la sous suite
_
L
n
_
converge vers la vraie valeur
0
des paramtres.
Donc par consquent, la suite
_
n
_
converge elle aussi vers la vraie valeur
0
des paramtres.
n
p.s.
n

0
(3.17)
On ainsi russi dmontrer la convergence de notre M-estimateur

n
vers la vraie valeur des
paramtres
0
. Appliquons prsent cette mthode dans le cas de lestimateur du maximum
de vraisemblance dans le cadre des modles dichotomiques univaris.
3.1.2. Application aux modles Logit et Probit
Dans le cas dun modle dichotomique simple (logit ou probit), lestimateur

n
(not aussi

)
du maximum de vraisemblance du vecteur de paramtre est dni par la maximisation dun
critre C
n
(y,
0
) qui correspond, bien videmment la log vraisemblance du modle (quation
2.3) :
n
=arg max
{}
C
n
(y, ) (3.18)
o lon pose
17
C
n
(y, ) =
1
n
log L(y, ) =
1
n
n
i=1
y
i
log [F (x
i
)] + (1 y
i
) log [1 F (x
i
)] (3.19)
o F (.) dsigne une fonction de rpartition. On note
0
la vraie valeur des paramtres. On
suppose que lhypothse 1 est vrie, cest dire que , R
K
compact. Reste tablir
que les hypothses 2 et 3 sont valides.
Montrons que tout dabord que le critre C
N
(y, ) converge presque srement et uniform-
ment par rapport vers une fonction C
(,
0
) , cest dire que :
C
n
(y, )
p.s.
n
C
(,
0
)
Dans notre cas, on sait que
C
n
(y, ) =
1
n
n
i=1
y
i
log F (x
i
) + (1 y
i
) log [1 F (x
i
)]
=
1
n
n
i=1
y
i
log F (x
i
) +
1
n
n
i=1
(1 y
i
) log [1 F (x
i
)] (3.20)
Etudions la convergence des dirents lments de cette somme. On suppose que les variables
x
i
sont alatoires. Sous certaines hypothse de rgularits, on sait que :
1
n
n
i=1
y
i
log F (x
i
)
p
n
E{y
i
log F (x
i
)}
17
An de simplier les calculs, on pose que Cn (y, ) = (1/N) log L(y, ) . On aurait pu assimiler le critre
directement la log vraisemblance. Quoiquil en soit ces deux dnitions du critre laissent inchange la
dnition de lestimateur du maximum de vraisemblance

.
1
n
n
i=1
(1 y
i
) log [1 F (x
i
)]
p
n
E{(1 y
i
) log [1 F (x
i
)]}
Or si lon note E
x
lesprance conditionnelle x
i
, on a :
E[y
i
log F (x
i
)] = E
x
{E[y
i
log F (x
i
)] / x
i
}
= E
x
[E(y
i
/x
i
) . log F (x
i
)]
en appliquant la loi de Bayes, on sait que :
h(y, ) = f (y/) g () = g (/y) f (y) (3.21)
o h(.) dsigne la densit jointe de y et de , et o f (.) et g (.) dsignent suivant les cas les
densits marginales et conditionnelles des v.a.r. y et . On en dduit le thorme de Bayes :
g (/y) =
f (y/) g ()
f (y)
(3.22)
*******************************
**** Finir Demonstration *********
*******************************
Donc nalement, on a :
1
n
log L(y, )
p.s.
n
n
i=1
F (x
i
0
) log [F (x
i
0
)] +[1 F (x
i
0
)] log [1 F (x
i
0
)] = L
(y, )
3.2. Lois et variance asymptotiques de lestimateur de MV
Nous avons vu prcdemment que la fonction de vraisemblance des chantillons associs aux
modles logit et probit tait concave. Par consquent, si la solution des quations de vraisem-
balance existe, cette solution est unique et correspond bien au maximum de la focntion de log
vraisemblance. Nous avons vu en outre, dans la section prcdente, que sous certaines condi-
tions, lestimateur du maximum de vraisemblance ainsi obtenu est convergent. Ds lors, nous
allons prsent nous intresser la loi asymptotique de ce estimateur ainsi qu sa variance
asymptotique.
Pour garantir la fois la convergence et la normalit asymptotique des estimateurs du
maximum de vraisemblance dans les modles logit et probit, un certain nombre de conditions
doivent tre valides (cf. Amemiya 1985, Greene 1997). Deux approches sont retenues suivant
que lon suppose que les variables explicatives sont des variables alatoires continues ou des
variables dterministes. Dans le cas de variables explicatives alatoires continues, les conditions
se ramnent imposer lindpendance des x
i
, la mme distribution pour tous les x
i
i = 1, ..N,
en admettant lexistence de moments dordre susant (Amameyia 1976). Dans le cas de vari-
ables explicatives dterministes, les conditions imposent alors aux valeurs x
i
dtre bornes :
m > 0 et M < , tels que m <

x
k
i
< M, k R, i = 1, .., N, et cela de sorte as-

surer que la matrice de variance covariance asymptotique existe (Gourieroux et Monfort 1981).
Nous supposerons ici que nous avons des variables explicatives alatoires et que les conditions
correspondantes sont satisfaites.
Proposition 3.1. Sous certaines conditions, lestimateur du maximum de vraisem-
blance

est convergent et suit asymptotiquement une loi normale de moyenne
gale la vraie valeur
0
des paramtres et de matrice de variance covariance gale
linverse de la matrice dinformation de Fischer I (
0
) value au point
0
:
N
_

0
_
L
N
N
_
0, I (
0
)
1
_
(3.23)
avec
I (
0
) = E
_
2
log L(y, )
_
=
0
=
N
i=1
f
2
(x
i
0
)
F (x
i
0
) [1 F (x
i
0
)]
x
i
x
i
(3.24)
Nous avons vu prcdemment que la matrice dinformation de Fischer peut se simplier
notamment dans le cas du modle logit. En eet, dans le cas o F (.) = (.) , on a :
I () =
N
i=1
(x
i
) x
i
x
i
=
N
i=1
exp(x
i
)
[1 + exp(x
i
)]
2
x
i
x
i
Dans le cas du modle probit, il ny a pas de simplication particulire.
I () =
N
i=1
2
(x
i
)
(x
i
) [1 (x
i
)]
x
i
x
i
Lide de la dmonstration
18
de cette propososition est la suivante. Si lon note G() =
log L(.) / le vecteur de gradient et H () =
2
log L(.) /
la matrice hessienne, on
sait que lestimateur du maximum de vraisemblance satisfait la condition du premier ordre
G
_
_
= 0. Considrons un developpement limit lordre 1 autour de cette condition autour
de la vraie valeur des paramtres
0
. En ometant les termes de degr suprieurs 2, il vient :
G
_
_
= G(
0
) +H (
0
)
_

0
_
= 0
En prmultipliant cette galit par H (
0
)
1
, on obtient
_

0
_
= H (
0
)
1
G(
0
) , ce
qui peut se recrire sous la forme :
N
_

0
_
=
_
1
N
H (
0
)
_
1 _
Ng (
0
)
_
o le vecteur g (
0
) de dimension (K, 1) est dni par :
g (
0
)
(K,1)
=
1
N
_
_
_
_
N
i=1
log L(y
i
, ) /
1
..
N
i=1
log L(y
i
, ) /
K1
N
i=1
log L(y
i
, ) /
K
_
_
_
_
(3.25)
En supposant que chaque composante (1/N)
N
i=1
log L(y
i
, ) /
1
est i.i.d, on alors appli-
quer le thorme central limite g (
0
) . Paralllement, si lon applique une loi des grands
nombres H (
0
) /N, on montre nalement que la quantit

N
_

0
_
a une distribution
normale de moyenne 0 et de matrice de variance covariance E[H (
0
)] .
18
Pour une dsitribution rigorueuse voir le cours de A. Holly (1999).
Une remarque doit tre faite ici concernant la matrice de variance covariance asympotique de
, note V
as
_
_
= I (
0
)
1
. Naturellement, cette matrice de variance covariance dpend de la
vraie valeur du paramtre
0
qui est par dnition inconnue. Ds lors, on retient gnralement
comme estimateur de la matrice de variance covariance asympotique la matrices I
_
_
1
dans
laquelle la vraie valeur des paramtres
0
a t remplace par son estimateur

.
V
as
_
_
= I
_
_
1
=
_
E
_
2
log L(y, )
_
=
_
1
(3.26)
4. Mthodes dEstimation non Paramtriques
Un des problmes qui peut se poser lors de la phase destimation des paramtres des modles
dichotomiques
19
par maximum de vraisemblance provient de lhypothse que lon fait sur la
distribution des rsidus du modle. Considrons le modle dichotomique suivant :
y
i
=
_
1
0
si y
i
= x
i
0
+
i
0
sinon
o
i
est une perturbation i.i.d.
_
0,
2
_
. Lorsque lon cherche estimer les paramtres
0
par maximum de vraisemblance, on postule une certaine distribution pour les termes
i
. On
considre par exemple une distribution logistique dans le cas dun modle logit et une distrib-
ution normale dans le cas dun probit. Or, rien ne garantit a priori que cette distribution que
lon utilise pour construire la vraisemblance de lchantillon corresponde rellement la vraie
distribution des perturbations
i.
Naturellement, une erreur sur la distribution des termes
i
conduit alors ncessairement une estimation du maximum de vraisemblance non ecace des
paramtres
0
.
Une des solutions pour se prmunir contre ce risque de mauvaise spcication de la loi des
perturbations du modle, consiste tout safranchir de toute de hypothse sur la distribution
paramtrique des rsidus dans la phase destimation des paramtres
0
. On parle alors de
mthodes destimation non paramtriques. Nous ne prsenterons ici que les mthodes du
score maximum et une mthode semi-paramtrique (Alban 2000).
4.1. La mthode du score maximum
Commenons par dnir lestimateur du score maximum.
Dnition Lestimateur du score maximum est obtenu par la maximisation, par
rapport au vecteur R
K
, dun critre constitu du nombre de fois o x
i
> 0
lorsque y
i
= 1 et du nombre de fois o x
i
< 0 lorsque y
i
= 0 :
s
=arg max
{}
1
N
N
i=1
I
y
i
=1
I
x
i
>0
+I
y
i
=0
I
x
i
<0
(4.1)
o I
x
dsigne la fonction indicatrice.
Lide gnrale de cette mthode est la suivante. On sait que la probabilit associe
lvnment y
i
= 1 est dnie par p
i
= Prob (
i
< x
i
) = F (x
i
) . En dautres termes, on a
y
i
= 1 quand lingalit
i
< x
i
est vrie. Si lon considre prsent des valeurs de
i
susament faibles relativement x
i
, cette relation peut tre approxime de la faon suivante
x
i

i
x
i
> 0. Ainsi, on doit observer y
i
= 1 quand x
i
est positif, si tant ait que lon
dispose de la vraie valeur
0
du vecteur . Parralment, on doit observer y
i
= 0 quand x
i
est
ngatif. En termes de probabilits on obtient les approximations suivantes :
Prob (y
i
= 1) Prob (x
i
> 0)
19
Problme qui nest pas spcique aux modles variable explicative dichotomique.
Prob (y
i
= 0) Prob (x
i
0)
Le critre du score maximum consiste alors maximiser en la frquence empirique (le
score) des vements (y
i
= 1) et (x
i
> 0) .
Une autre interprtation de la mthode du score est quelle compare le signe de la prdiction,
cest dire le signe de x
i
, avec celui de la variable transforme
i
= 2y
i
1 qui prend la valeur
-1 quand y
i
= 0 et la valeur 1 quand y
i
= 1. On compare donc une valeur observe
i
qui est
positive quand lvnement y
i
= 1 se ralise avec la quantit x
i
, qui pour la vraie valeur
0
du vecteur , doit elle aussi tre positive quand lvnement y
i
= 1 se ralise. Ainsi, le critre
du score maximum peut scrire sous la forme :
s
=arg max
{}
1
N
N
i=1
i
sgn(x
i
) (4.2)
o la fonction sgn(z) est dnie de la faon suivante :
sgn(z) =
_
_
_
1
0
1
si z > 0
si z = 0
si z < 0
Le principal avantage de cette mthode du score maximum est quelle ne ncessite aucune
hypothse sur la distribution des rsidus
i
. Mais cet avantage constitue en outre sa principale
limite. En eet, puisque lon ne construit aucune vraisemblance pour obtenir lestimateur

s
et puisque le critre maximiser nest pas continument direntiable, le calcul des principales
statistiques de tests sur cet estimateur ne peut pas se faire avec les techniques usuelles. Par
exemple, les carts types associs au vecteur
s
ne peuvent pas tre calculs partir des formules
usuelles, fondes par exemple sur la drive seconde dune fonction critre continue (fonction
de log-vraisemblance dans le cas de lestimateur du MV). Une possibilit consiste calculer les
estimateurs des variances des estimateurs

s
par des mthodes de bootstrap (Greene 1997).
Ainsi, linformation fournie par la mthode du score minimum est limite, et de plus lesti-
mateur

s
est gnralement inecace par rapport lestimateur du maximum de vraisemblance.
De plus, son exploitation est elle aussi trs limite : il nest par exemple pas possible de calculer
les eets marginaux associes aux variables explicatives sans postuler une hypothse sur la dis-
tribution F (.) . De plus, le fait de ne pas imposer de dsitribution a priori nassure aucunement
que lestimation sera plus prcise ou que les prvisions seront plus satisfaisantes. Cest pour
ces raisons que se sont dveloppes des mthodes intermdiaires : les mthodes destimation
semi-paramtrique.
4.2. Estimation semi-paramtrique
Lide des mthodes semi-paramtrique dans ce contexte (Klein et Spady 1993) consiste tout
simplement sparer le modle en deux : une partie paramtrique correspondant au scalaire
x
i
et une partie non paramtrique correspondant la fonction de rpartition F (.) .
Dans un modle dichotomique simple, nous avons vu que lon lgalit p
i
= E(y
i
) ds lors
que le modle scrit sous la forme p
i
= Prob (y
i
= 1) . De faon plus prcise, on obtient donc
lgalit suivante :
p
i
= E(y
i
| x
i
) = F (x
i
) (4.3)
Ainsi, dcrire lesprance conditionnelle de y
i
sachant x
i
revient en fait dcrire la fonction
de rpartition F (.), que lon cherche maximiser en . On dnit r (x
i
) , appele fonction de
lien, cette esprance conditionnelle :
r (x
i
) = E( y
i
| x
i
) =
_

y
i
f (x
i
, x
i
)
f (x
i
)
dy
i
(4.4)
La dmarche est alors la suivante : on cherche dans un premier temps estimer la fonction
de lien r (z) , qui nest autre que la fonction de rpartition F (z) . Une fois que lon dispose
dun estimateur de F (z), not

F (z), en tout point z, il sut dcrire la log-vraisemblance de
lchantillon en fonction de la loi estime

F (x
i
) , et de maximiser cette quantit par rapport
pour obtenir un estimateur

sp
.
Comment estimer cette fonction de lien, qui correspond en fait la fonction de rpartition
F (z) ? On utilise ici une mthode non paramtrique fondateur sur un estimateur noyau.
Sans le dmontrer, on admettra le rsultat suivant :
Proposition 4.1. La probabilit associe lobservation y
i
en tout point x
0
i
peut
tre estime par la moyenne pondre :
r
_
x
0
i
_
=
_
N
i=1
w
i
_
x
0
i
_
y
i
_
_
N
i=1
w
i
(x
0
i
)
_ (4.5)
o la pondration w
i
_
x
0
i
_
est dnie par la relation :
w
i
_
x
0
i
_
= K
_
x
i
x
0
i
h
_
(4.6)
o K(.) dsigne un oprateur noyau et h une fentre.
Ainsi, cette proposition nous permet de reconstruire toute la fonction de rpartition F (x
i
)
en appliquant la formule (4.5) pour chaque observations x
i
, i = 1, .., N. On dispose alors dune
suite de N ralisations dun estimateur

F (x
i
) pour une valeur donne du vecteur .
Loprateur noyau K(.) , ou kernel, fournit une mesure de la distance entre le point considr
x
i0
et nimporte quel autre point x
i
de lchantillon. Plus la distance est importante, plus lon
attribue une faible valeur la pondration, donc plus la valeur du kernel est faible. Cest une
fonction continue, symtrique autour de zro, intgrant 1, et nulle pour de grandes valeurs de
son argument. Les fonctions kernel les plus souvent utilises sont les suivants :
Sur la gure (4.1) ont t reportes les valeurs de ces direntes fonctions, ce qui permet de
visualer la dcroissance du poids accord aux observations loignes du point central x
0
i
.
Le paramtre h de la pondration (4.6) est appel fentre (ou bandwidth parameter) sert
calibrer la distance entre x
i
et x
i0
, en pnalisant plus ou moins les poids loigns de x
i0
.
Plus h est petit, plus loprateur w
i
(x
i0
) privilgie les points proches de x
i0
. Un exemple de
valeur de la fentre correspond h = 0.15 (x
v
x
u
) o x
v
x
u
dsigne lcart maximal entre
les observations (upper moins lower). Naturellement, il convient dvaluer limpact de ce choix
sur lestimateur de en faisant varier h.
Tableau 4.1: Dnition des Principales Fonctions Kernel
Noyau Dnition
Gaussien K (x) =
1
2
exp
_
x
2
/2
_
Epanechnikov K (x) =
3
4
_
1 x
2
_
.I
|x|1
Triangulaire K(x) = (1 |x|) .I
|x|1
Uniforme K(x) =
1
2
.I
|x|1
Figure 4.1: Fonctions Kernel K(x) Usuelles
-1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
Epanechnikov
Triangulaire
Uniforme
Gaussienne
Remarque Dans le cas des estimateurs semi-paramtriques, le choix de la fentre
h permet darbitrer entre le biais de lestimateur non paramtrique et sa vari-
ance. Une fentre petite fournira un biais plus faible mais un estimateur moins
ecace (de plus grande variance), alors quune fentre plus large sapprochera
de lestimation par les moindres carrs linaires dans lesquels tous les points
sont pris en compte avec la mme pondration.
En rsum, lapproche semi-paramtrique consiste construire un estimateur noyau de
la vraisemblance valu pour une valeur quelconque de , et maximiser cette fonction pour
obtenir lestimateur semi-paramtrique not

s
. La construction de lestimateur noyau de
fonction de log-vraisemblance se ralise de la faon suivante. Pour une valeur quelconque
R
K
, les tapes de la construction sont les suivantes :
1. Premire tape : On estime pour le premier individu (i = 1), la fonction de lien au
voisinage du point z
0
1
= x
1
pour la valeur retenue de .
r
_
z
0
1
_
=
_
N
i=1
w
i
_
z
0
1
_
y
i
_
_
N
i=1
w
i
(z
0
1
)
_ avec w
i
_
z
0
1
_
= K
_
z
i
z
0
1
h
_
Dans le cas dune fonction kernel gaussienne, on a par exemple i = 1, .., N :
K
_
z
i
z
0
1
h
_
=
1
2
exp
_
1
2
_
z
i
z
0
1
h
_
2
_
=
1
2
exp
_
1
2
_
x
i
x
1
h
_
2
_
On obtient ainsi une estimation de la fonction de rpartition

F
_
z
0
1
_
= r
_
z
0
1
_
au point
z
0
1
= x
1
. On rpte alors lopration pour les N individus, j = 1, .., N, et ce faisant on
obtient N ralisations dun estimateur noyau

F (x
j
) de la fonction de rpartition F (.)
value aux N points z
0
j
= x
j
conditionnellement la valeur .
j = 1, .., N r
_
z
0
j
_
=
_
N
i=1
w
i
_
z
0
j
_
y
i
_
_
N
i=1
w
i
_
z
0
j
_
_ avec w
i
_
z
0
j
_
= K
_
z
i
z
0
j
h
_
2. Deuxime tape : A partir des N ralisations de lestimateur noyau

F (x
j
) on con-
struit un estimateur de la fonction de log vraisemblance du modle associe lchantillon
y = (y
1
, y
2
, ..., y
N
) :
log

L(y, ) =
N
i=j
y
j
log
_
F
_
x
j
0
_
_
+ (1 y
j
) log
_
1

F
_
x
j
0
_
_
(4.7)
On peut ainsi nallement obtenir une valeur estime de la log-vraisemblance log

L(y, )
pour toute valeur du vecteur R
K
.
Il ne reste plus alors qu maximiser la fonction log

L(y, ) en . Pour cela on utilisera une
procdure numrique doptimisation (par exemple une mthode du gradient Newton Raphson)
qui partir dune condition initiale sur permettra dobtenir lestimateur semi-paramtrique
s
:
s
=arg max
{}
_
log

L(y, )
_
(4.8)
Gnralement, la condition initiale choisie dans les algorithmes doptimisation, note
0
,
correspond un estimateur simple comme par exemple lestimateur du score maximum ou un
estimateur des MCO :
0
=

s
=arg max
{}
1
N
N
i=1
I
y
i
=1
I
x
i
>0
+I
y
i
=0
I
x
i
<0
4.3. Comparaison des estimateurs paramtriques, non paramtriques et semi paramtriques
**************************************************
**** INSERER Programme Matlab et Rsultats *********
**************************************************
5. Tests de Spcication et Infrence
Comment tester le modle dichotomique ? Comment tester les paramtres de ce modle ?
Autant de questions auxquelles nous allons prsent tacher de rpondre. Nous commencerons
par voquer les tests dhypothse sur les coecients, puis dans une seconde sous section nous
envisagerons les principaux tests de spcication sur les modles dichotomiques.
5.1. Tests dhypothse sur les paramtres
Les direntes mthodes destimation prsentes prcdemment conduisent des estimateurs
asymptotiquement normaux lorsque le nombre dobservations tend vers linni. Il est donc
facile dutiliser ces divers estimateurs pour construire des procdures de tests dont certaines
seront asymptotiquement quivalentes. Nous prsentarons ici les principales procdures de test
partir de la mthode destimation du maximum de vraismeblance qui est la plus souvent
utilise. On retouve alors la trilogie :
1. Test de Wald
2. Test du score ou multiplicateur de Lagrange : LM (Lagrange Mulitplier)
3. Test du rapport des maxima de vraisemblance : LRT (Likelihood Ratio Test)
On rappelle que ces trois tests sont asymptotiquement quivalents, ce qui implique quils
peuvent notamment se contredire sur poetits chantillons. De plus, leur distribution ntant
valide quasympotitquement, il convient dtre prudent dans leur utilisation sur de petits chan-
tillons. On sait en outre que le test LRT est localement le plus puissant et que donc il devrait
tre a priori prfr. Nous nenvisagerons ici que le cas dun test bidirectionnel
20
sur un coe-
cient ou sur un ensemble de coecients.
5.1.1. Test de Wald
On considre le test H
0
:
j
= a contre H
1
:
j
= a o
j
dsigne la j
` eme
composante du
vecteur de paramtres = (
1
, ..,
K
)
R
K
dun modle dichotomique. Lide du test de
Wald est daccepter lhypothse nulle si lestimateur non contraint

j
de
j
est proche de a.
La stratistique de test est une mesure bien choisie de la proximit de
j
a zro.
On sait que dans la formulation gnrale dun test de contraintes de type H
0
: g () = r, o
r est un vecteur de dimension (c, 1) , on a le rsultat suivant :
_
g
_
_
r
_
_
G
V
_
_
G
_ _
g
_
_
r
_
L
N
(c)
20
Le passage un test unidirectionnel tel que H
0
: = a contre H
1
: > a peut se faire simplment en
considrant les statistiques des test bidirectionnels et en adaptant la valeur critique.Pour un test de Wald sur
un seul coecient, lintervalle dacceptation 5% est [1.96, 1.96] pour un test H
1
: = a alors quil devient
], 1.96] pour le test H
1
: > a .
o

dsigne lestimateur du maximum de vraisemblance non contraint, avec G = g (.) /
,
et

V
_
_
lestimateur de la matriuce de variance covariance des coecients. Dans le cas qui
nous intresse, on a g () =
j
et r = a. Le vecteur G, de dimension (K, 1) , comporte K 1
zros et 1 la j
` eme
position. Ainbis, on obtient le rsultat suivant :
Denition 5.1. La statistique du test de Wald associe au test unidirectionnel H
0
:
j
= a contre H
1
:
j
= a admet la loi suivante sous H
0
:
_
j
a
_
( v
jj
)
1
_
j
a
_
=
_
j
a
_
2
v
jj
L
N

2
(1) (5.1)
o v
jj
dsigne lestimateur de la variance de lestimateur du j
j
` eme
coecient
j
.
Ainsi, si lon note
2
95%
(1) le quantile 95% de la loi
2
(1) , le test de Wald au seuil de 5%
de lhypothse H
0
consiste accepter H
0
si
_
j
a
_
2
/ v
jj
est infrieur
2
95%
(1) , et refuser
H
0
si cette quantit est suprieure
2
95%
(1) .
La plupart des logiciels (sauf SAS) ne propose pas cette statistique de Wald, mais une
statistique z
j
dnie comme la racine carr de la prcdente. Compte tenu du lien entre la loi
normale centre rduite et la loi du Chi2 un degr de libert, on a immdiatement sous H
0
:
z
j
=

j
a
_
v
jj
L
N
N (0, 1) (5.2)
et en particulier pour un test de nullit H
0
:
j
= 0, on retrouve :
z
j
=

j
_
v
jj
L
N
N (0, 1) (5.3)
5.1.2. Tests du rapport des maxima de vraisemblance
Dans le cas des modles dichotomiques, on peut appliquer sans dicult particulire la logique
du test du rapport des maxima de vraisemblance. Ainsi, on estime le modle non contraint
et dautre part le modle contraint : soient

j
et

c
j
les deux estimations ainsi obtenues. La
statistique LRT correspond alors tout simplemnt lcart des log-vraisemblance:
Denition 5.2. La statistique LRT
j
du test du rapport des maxima de vraisemblance
associe au test unidirectionnel H
0
:
j
= a contre H
1
:
j
= a admet la loi suivante
sous H
0
:
LRT
j
= 2
_
log L
_
y,
j
_
log L
_
y,
c
j
__
L
N

2
(1) (5.4)
o

j
et

c
j
dsignent respectivement les estimateurs non contraint et contraint de
j
.
Naturellement si lon note
2
95%
(1) le quantile 95% de la loi
2
(1) , le test du rapport
des maxima de vraisemblance au seuil de 5% de lhypothse H
0
consiste accepter H
0
si
LRT
j
<
2
95%
(1) , et refuser H
0
si LRT
j
>
2
95%
(1) . Cette porcdure est asymptotique-
ment quivalente celle dun test de Wald.
Dans le cas dun test portant sur plus dun paramtre, on utilise la statistique suivante
LRT = 2
_
log L
_
y,
_
log L
_
y,
c
__
L
N

2
(r) (5.5)
o r dsigne le nombre de restrictions imposes sur les paramtres, et o

et

c
dsigne les
estimateurs respectivement non contraint et contraint du vecteur complet .
5.1.3. Test du score ou du multiplicateur de Lagrange
Le principe de ce test est le suivant. On sait que si lhypothse nulle est satisfaite, les deux
estimateurs non contraint

j
et contraint

c
j
doivent relativement proches lun de lautre, et que
donc la mme proprit doit tre vrie pour le vecteur des des conditions du premier ordre
de la maximisation de la log varisemblance.
Denition 5.3. La statistique LM
j
du test du multiplicateur de Lagrange associe
au test unidirectionnel H
0
:
j
= a contre H
1
:
j
= a admet la loi suivante sous H
0
:
LM
j
=
_
log L(y, )
c
_

I
1
_
log L(y, )
c
_
L
N

2
(1) (5.6)
o

j
et

c
j
dsignent respectivement les estimateurs non contraint et contraint de
j
.
Lestimateur

I de la matrice diinformation de Fischer peut tre obtenu par :
I =
N
i=1
_
log L(y
i
, )
c
__
log L(y
i
, )
c
_
et o
log L(y, )
c
=
N
i=1
log L(y
i
, )
c
5.2. Tests de spcication des modles dichotomiques
Reste prsent tudier les tests de spcications qui permettent dvaluer la qualit de
lajustement par les modles dichotomiques. Plusieurs solutions peuvent tre adoptes ce
niveau pour comparer les dirents modles : comparaison tant au niveau du choix de la
fonction F (.) quau niveau du choix des variables explicatuves x
k
i
. Par la suite, on notera
F (x
i
) la quantit F
_
x
i
_
. Les dirents critres prsents ici sont comme des fonctions de
perte et il ne faut pas croire trouver un critre optimal pour chaque situation.
Nombre de prdictions fausses : le critre scrit sous la forme
Nombre de fausses prdictions
N
i=1
(y
i
y
i
)
2
(5.7)
o y
i
= 1 si

F (x
i
) 1/2 et y
i
= 0 si

F (x
i
) < 1/2. Cette quantit donne le nombre de
fausses prdictions puisque (y
i
y
i
)
2
si seullement y
i
= y
i
: cest dire dans le cas o y
i
= 1
alors que y
i
= 0, ou dans le cas o y
i
= 0 alors que y
i
= 1. Ce critre est souvent utilis en
analyse discriminante. Le problme avec ce critre est que lon considre de la mme faon
un individu ayant une probabilit p
i
=

F (x
i
) = 0.49 et un individu ayant une probabilit
p
i
=

F (x
i
) = 0 : on pnalise ces deux individus de la mme faon dans le cas dun chec
du modle (cest dire lorsque our les deux individus on a y
i
= 1) et on les valorise de la
mme faon en cas de russite. En, particulier, lorsque lon considre des vnements avec une
forte probabilit (par exemple de sortir du chmage) ou au contraire une trs faible probabilit
(par exemple de tomber malade), la plupart des modles obtiendront de bons rsultats selon ce
critre.
Somme des Carrs des Rsidus (SCR) : ce critre traditionnel scrit sous la forme
Somme des carrs des rsidus
N
i=1
_
y
i

F (x
i
)
_
2
(5.8)
Rappelons que dans les modles dichotomiques, on modlise la probabilit p
i
= E(y
i
) =
F (x
i
) . Ce critre ne soure pas de la critique prcdente concernant le critre du nombre
de fausses prdictions. Cest un crtre naturel puisquuil correspond la somme des carrs des
rsidus dans un modle de rgression linaire standard partir de laquell le R
2
est construit.
Toutefois, lutilisation de ce critre ne peut pas tre dfendue de la mme faon dans le modle
linaire simple et dans les modles dichotomiques. En eet, nous avons vu que les modles
dichotomiques taient des modles htroscdastiques. Cest pourquoi Efron (1978) propose
une mesure analogue au R
2
:
R
2
de Efron (1978) = 1
N
i=1
_
y
i

F (x
i
)
_
2
N
i=1
(y
i
y)
2
(5.9)
o y = N
1
N
i=1
y
i
. Cette mesure alternative peut tre dfendue par une approche axiomatique
(cf. Efron 1978)L.
SCR pondre par les probabilits estimes : ce critre scrit sous la forme
SCR pondre
N
i=1
_
y
i

F (x
i
)
_
2
F (x
i
)
_
1

F (x
i
)
_ (5.10)
La principale raison de prfrer ce critre la somme non pondre est la suivante. Il parat
raisonnable dattacher une plus grande perte aux erreurs faites en prvoyant des variables de
faible variance, tant donn quil est plus facile de prvoir des variables de faible variance que
des variables de plus forte variance. Ds lors, il parat raisonnable de pondrer la somme des
carrs des rsidus par un poids qui est inversement proprtionnel la variance.
Coecient de Corrlation des Carrs : ce critre scrit sous la forme
Coecient de corrlation des carrs
_
N
i=1
(y
i
y)

F (x
i
)
_
2
_
N
i=1
(y
i
y)
2
_
_
N
i=1
_
F (x
i
) F
_
2
_ (5.11)
Cette mesure est lie la SCR non pondre. Dans un modle de rgression standard,
cette mesure serait identique au R
2
de Eron. Bien que cette galit ne soit pas vraie dans
les modles dichotomiques, les mmes critiques sappliquent au coecient de corrlation des
carrsqu la SCR.
Log - Vraisemblance : ce critre scrit sous la forme
Log-Vraisemblance log L
_
y,
_
=
N
i=1
y
i
log
_
F
_
x
i
__
+ (1 y
i
) log
_
1 F
_
x
i
__
(5.12)
Ce critre est particulirement bien adapt pour comparre des modles qui ne possdent pas
les mmes dimensions. En eet, on sait que si lon dsire tester r contraintes linaires sur les
paramtres la 2
_
log L
_
y,
j
_
log L
_
y,
c
j
__
suit asympotiquement un
2
(r) . Une normli-
sation de la quantit log L
_
y,
_
a t propose par McFadden pour se ramener une quantit
similaire un R
2
:
R
2
de McFadden (1974) = 1
log L
_
y,
_
log L(y, 0)
(5.13)
o log L(y, 0) dsigne le maximum de la fonction de log vraisemblance obtenu lorsque tous les
coecients de la regrssion sont nuls lexception du terme constant.
6. Application
Proposer une application avec :
1. Problme conomique et spcication en variable latente
2. Estimation Logit Probit
3. Comparaison avec estimation non paramtrique (score maximum et semi paramtrique)
4. Calcul des cotes et des probabilits individuelles
5. Calcul des eets marginaux : calcul des elasticits moyennes selon les deux formules et
des elasticits individuelles
6. Vrication des calculs de lestimateur de la matrice de variance covariance asymptotique
7. Calcul des principaux critres dvaluation (R
2
de McFadden etc..)
8. Tests dhypothse sur les paramtres : Wald, LRT et LM
****************
*** A FINIR ****
****************
A. Annexes
A.1. Rappels sur les notions de convergence
Les rappels proposs dans le cadre de cette section portent sur les direntes notions de con-
vergence. Toutefois, la lecture de ces rappels doit ncessairement saccompagner dune tude
plus systmatique des fondements probabilistes de ces notions
21
.
Considrons une squence de T v.a.r. {X
1
, X
2
, ..., X
i
, ..., X
T
}, indices par i. Supposons que
lon souhaite tudier le comportement de la moyenne empirique de ces v.a.r. lorsque T aug-
mente. On cherche ainsi dterminer le comportement asymptotique de la v.a.r. transforme,
X
T
, telle que :
X
T
=
1
T
T
i=1
X
i
(A.1)
Pour cela, il convient dutiliser la notion de convergences.
A.1.1. Convergence en probabilit
La notion de convergence en probabilit est dnie de la faon suivante :
Denition A.1. (Convergence en Probabilit) Soit {X
T
}
T=1
une squence de variables
alatoires scalaires. Cette squence converge en probabilit vers c, c C, si pour
toute valeurs arbitraires > 0 et > 0, il existe une valeur N, telle que T N :
P [|X
T
c| > ] < (A.2)
Alors, on note :
X
T
p
c plimX
T
= c (A.3)
Exprime autrement, cette dnition signie que pour un chantillon de taille innie, la
probabilit que la ralisation de la variable X
T
dire de la valeur c de plus ou moins (
tant aussi petit que lon veut) est infrieure toute valeur aussi petite soit-elle. En dautres
termes, les ralisations de la variable X
T
sont concentres au voisinage de la valeur c.
Proprit Une suite de matrices de v.a.r. {X
T
}
T=1
, de dimension (m, n) ,converge en prob-
abilit vers une matrice C, de dimension (m, n), si chaque lment de X
t
converge en
probabilit vers llment correspondant de C. De faon plus gnrale, si lon considre
deux squences de v.a.r. {X
T
}
T=1
et {Y
T
}
T=1
, de dimension (m, n) , alors :
X
T
p
Y
T
(A.4)
si et seulement si, la dirence entre les deux suites converge en probabilit vers zero :
X
T
Y
T
p
0 (A.5)
Enn, il convient de rappeler deux proprits qui nous serons utiles dans la caractrisation
des distributions asymptotiques des estimateurs usuels.
21
Voir par exemple, Mthodes Statistiques, Philippe Tassi, Economica 1989
Theorem A.2. (Thorme de Slutsky) Soit {X
T
}
T=1
une suite de (n, 1) vecteurs admet-
tant une limite en probabilit dnie par c, et soit g (.) une fonction continue en c,
satisfaisant g : R
n
R
n
, et ne dpendant pas de T, alors :
g (X
T
)
p
T
g (c) (A.6)
Lide est la suivante. Si la fonction g (.) est continue, la quantit g (X
T
) se situera au
voisinage de g (c) , ds lors que X
T
se situe au voisinage de c. En choisissant une valeur de
T susamment grande, la probabilit que la ralisation de X
T
se situe au voisinage de c
peut tre dnie aussi proche de lunit que lon le dsire. Un exemple simple est le suivant.
Considrons deux squences de v.a.r. telles que plim X
1,T
= c
1
et plim X
2,T
= c
2
, alors
plim(X
1,T
+X
2,T
) = c
1
+c
2
. La dmonstration de ce rsultat est immdiate ds lors que lon
montre que la fonction g (X
1,T
, X
1,T
) = X
1,T
+X
2,T
est une fonction continue en (c
1
, c
2
) .
Proprit 1 Une condition susante pour quune suite de v.a.r. {X
T
}
T=1
converge en prob-
abilit vers une constante relle c est :
lim
T
E(X
T
) = c (A.7)
lim
T
V (X
T
) = 0 (A.8)
Lintuition de cette proprit est simple. Si pour un ordre T susamment grand, la variable
X
T
admet c pour esprance et a une variance qui tend vers 0, alors la fonction de distribution
de X
T
sera inniment concentre autour de la valeur c.
A.1.2. Convergence en moyenne quadratique
Une forme de convergence plus restrictive que la convergence en probabilit est la convergence
en moyenne quadratique (m.s. pour mean square convergence).
Denition A.3. Une suite de suite de v.a.r. {X
T
}
T=1
converge en moyenne quadra-
tique vers c, si pour tout > 0, il existe une valeur N, telle T N :
E(X
T
c)
2
< (A.9)
Alors, on note :
X
T
m.s.
c (A.10)
Naturellement, tant donn cette dnition, la convergence en moyenne quadratique implique
la convergence en probabilit, mais la rciproque nest pas vraie :
X
T
m.s.
c =X
T
p
c
La notion de convergence en m.q. nous permet alors dintroduire lingalit de Chebyshev.
Proposition A.4. (Ingalit de Chebyshev) Soit X une v.a.r. telle que la quantit
E(|X|
r
) existe et soit nie pour r > 0. Pour tout > 0, et toute valeur de c, on
montre que :
P {|X c| > }
E(|X c|
r
)
r
(A.11)
Le rsultat selon lequel la convergence en moyenne quadratique implique la convergence
en probabilit peut tre dmontr partir de lingalit de Chebyshev. Pour cela, il sut de
remarquer que si X
T
m.s.
c, alors il existe un couple de valeurs positives (, ) et une valeur N,
tel que E(X
T
c)
2
<
2
, pour tout T N. Il sensuit que :
E(X c)
2
2
=
E
_
|X c|
2
_
2
< T N
Lingalit de Chebyshev implique alors que :
P {|X c| > } < T N
Donc, on montre ainsi que X
T
p.
c.
A.1.3. Convergence en loi
Le troisime type de convergence que nous utiliserons cette anne est la convergence en loi ou
convergence en distribution.
Theorem A.5. (Thorme de Paul Levy) Soit {X
T
}
T=1
une suite de v.a.r. et soit F
X
T
(x)
la fonction de distribution cumulative de X
T
. Si X
T
converge en loi vers une v.a.r.
X admettant F
X
(x) pour fonction caractristique, alors :
lim
T
F
X
T
(x) = F
X
(x) x R (A.12)
On note alors :
X
T
loi
T
X ou X
T
L
T
X (A.13)
Un certain nombre de proprits nous serons particulirement utiles par la suite :
Proprit 1 La convergence en probabilit implique la convergence en loi :
X
T
X
p
T
0 =X
T
L
T
X (A.14)
Proprit 2 La convergence en loi vers une constante relle implique la convergence en prob-
abilit :
c R X
T
L
T
c =X
T
p
T
c (A.15)
Proprits 3 Soient deux suites de v.a.r. {X
T
}
T=1
et {Y
T
}
T=1
telle que X
T
L
X et Y
T
p
c, alors :
(i) X
T
+Y
T
L
X +c
(ii) X
T
Y
T
L
c X
(iii)
XT
Y
T
L
X
c
avec c = 0
Proprit 4 Soient X
T
et X des vecteurs alatoires de R
p
, tels que X
T
L
T
X ,et soit g (.)
une fonction continue dnie de R
p
and R
n
, alors :
g (X
T
)
L
T
g (X) (A.16)
Bibliographie
Amemiya T. (1976), The ML, the Minimum Chi-*Square and the Non Linear Weighted Least
Squares Estimator in the General Qualtitative Response Model, Journal of the Ameraican
Statistical Association, 71, 347-351
Amemiya T. (1981), Qualitative Response Models : A Survey, Journal of Economic Littera-
ture, 19(4), 481-536
Amemiya T. (1985), Advanced Econometrics, Cambridge, Harvard University Press.
Alban T. (2000), Economtrie des Variables Qualitatives, Dunod.
Berkson J. (1944), Application of the Logistique Function to Bio-Assay, JASA, 39, 357-365.
Berkson J. (1951), Why I prefer Logit to Probit, Biometrics, 7, 327-339.
Colletaz G. (2001), Modles Variables Expliques Qualitatives, Mimo Universit Orlans
Davidson R. et MacKinnon J.G. (1984), Convenient Tests for Logit and Probit Models,
Journal of Econometrics, 25, 241-262.
Gourieroux C. (1989), Economtrie des Variables Qualitatives, Economica.
Gourieroux C. et Montfort A. (1981), Asymptotic Properties of the Maximum Likelihood
Estimator in Dichotomous Logit Models, Journal of Econometrics, 17, 83-97.
Greene W.H. (1997), Econometric Analysis, Londres, Prentice Hall.
Judge G.G., Miller D.J. et Mittelhammer R.C. (2000), Econometric Foundations, Cambridge
University Press.
Klein R.W. et Spady R.H. (1993), An Ecient Semi Parametric Estimator for Binary Response
Models, Econometrica, 61, 387-421
Maddala. G.S. (1983), Limited-dependent and Qualitative Variables in Econometrics, Econo-
metric Society Monographs, 3, Cambrige University Press.
Morimune K. (1979), Comparisons of Normal and Logistic Models in the Bivariate Dichitomous
Analysis, Econometrica, 47, 957-975.
Radner R. et Miller L. (1970), Demand and Supply in U.S. Higher Education : A Progress
Report, American Economic Review, 60.
Spector L.C. et Mazzeo M. (1980), Probit Analysis and Economic Education, Journal of
Economic Education, 11(2), 37-44
Tobin J. (1958), Estimation of Relationships for Limited Dependent Variables, Econometrica,
26, 24-36.
Figure A.1: Lconomie a travers les prix nobel, Problmes Economiques 2001

Qualitatif Chapitre1

Hochgeladen von

Dokumentinformationen

Originaltitel

Copyright

Verfügbare Formate

Dieses Dokument teilen

Dokument teilen oder einbetten

Freigabeoptionen

Stufen Sie dieses Dokument als nützlich ein?

Sind diese Inhalte unangemessen?

Copyright:

Verfügbare Formate

Qualitatif Chapitre1

Hochgeladen von

Copyright:

Verfügbare Formate

MASTER ECONOMETRIE ET

STATISTIQUE APPLIQUEE (ESA)

, on dit que la vari-

et lon considre le modle linaire

Economtrie des Variables Qualitatives. Cours C. Hurlin 12

3. pour les valeurs centrales proches de

3. Ces approximations sont en eet trs proches de la vraie

modle logit (1.20)

3. En eet, dans ce cas les perturbations normalises

3 vrient la contrainte sur la variance puisque :

du maximum de vraisemblance du vecteur de paramtre

ne peut tre obtenu directement. Un algorithme doptimisation numrique de la vraisemblance

(.) dsigne la drive de la fonction de densit f (.) associe F (.) .

(.) on retrouve alors

< M, k R, i = 1, .., N, et cela de sorte as-

Das könnte Ihnen auch gefallen