Beruflich Dokumente
Kultur Dokumente
Universit de Fribourg
Sminaire d'Economtrie
Boulevard de Prolles 90
CH-1700 Fribourg, Suisse
Philippe Deschamps, 2006
Vecteurs alatoires
1.1. Distribution jointe.
1.2. Densit jointe
1.3. Densit marginale
1.4. Densit conditionnelle
1.5. Indpendance
1.6. Covariance
1.7. Esprances conditionnelles et partielles
1.8. Application conomique des esprances partielles (gestion de stock).
II.
III.
Estimation ponctuelle
3.1. Echantillon alatoire, estimateur, estimation.
3.2. Fonction de vraisemblance.
3.3. Maximum de vraisemblance.
IV.
V.
Tests dhypothses
5.1. Mthode des intervalles de confiance.
5.2. Mthode gnrale de construction des tests.
5.3. Le critre du rapport des vraisemblances (LR).
5.4. Le critre de Wald (W).
5.5. Le critre des multiplicateurs de Lagrange (LM).
5.6. Comparaison des trois critres LR, W, et LM.
ii
Seconde partie: Modles conomtriques une quation
I.
1.2.
1.3.
1.4.
1.9.
III:
IV.
2.2.
2.3.
2.4.
Prvision
2.5.
Exemple numrique
Formes quadratiques
3.2.
3.3.
3.4.
4.2.
5.2.
5.3.
5.4.
Le thorme de Gauss-Markov
5.5.
5.6.
5.7.
iii
VI.
5.8.
5.9.
Exemple numrique
VII.
7.7.
Intervalles de prvision
IX.
Introduction
8.2.
Exemples
8.3.
8.4.
Lautocorrlation et lhtroscdasticit
9.1.
9.2.
9.3.
9.4.
9.5.
La statistique de Durbin-Watson
9.6.
9.7.
Le problme de lhtroscdasticit
R2
iv
9.8.2. Le test de Breusch-Godfrey (autocorrlation)
9.8.3. Le test de Koenker (htroscdasticit)
9.8.4. Le test de Bera-Jarque (normalit)
9.9.
Exemple numrique
Introduction
10.2.
Convergence en probabilit
Convergence en distribution
10.6.
10.7.
10.8.
10.9.
Lingalit de Rao-Cramer
10.10.
La matrice dinformation
10.11.
Convergence en probabilit
11.2.
Normalit asymptotique
XII.
XIII.
Rgresseurs stochastiques
13.1. Introduction: types de rgresseurs stochastiques
13.2.
13.3.
XIV.
Retards chelonns
v
14.3. Mthode dAlmon
14.4.
Loprateur de retard
14.5.
XV.
I.
Introduction
1.1.
1.2.
1.3.
1.4.
1.5.
1.6.
II.
1.7.
1.8.
Le problme de lidentification
2.1.
2.2.
Systmes rcursifs
2.3.
La condition de rang
vi
III.
2.4.
La condition dordre
2.5.
Exemple
Introduction
Moindres carrs indirects
3.2.1. Prsentation de la mthode
3.2.2. Limitations
3.3.
3.4.
IV.
Lestimateur de classe k
4.2.
4.3.
4.4.
4.5.
5.2.
Tests dhypothses jointes sur les coefficients par le rapport des vraisemblances
5.3 .
information
vii
6.2.
6.3.
6.4.
Consquences
AVANT-PROPOS
Ce cours deconometrie de second cycle est enseigne depuis 1981 aux etudiants de troisi`eme et de quatri`eme annee de licence en Sciences Economiques `a lUniversite de Fribourg
(Suisse), et, depuis 1996, aux etudiants du dipl
ome de Mathematiques appliquees `a la
Finance de lUniversite de Neuchatel (dans le cadre des accords BENEFRI).
Les notes de ce cours peuvent etre imprimees et peuvent etre utilisees, en tout ou en
partie, comme support dun cours de niveau equivalent, a` condition:
(1) den avertir lauteur a` ladresse suivante:
philippe.deschamps@unifr.ch;
(2) den mentionner clairement lorigine.
Elles ne peuvent pas etre publiees sur un site dierent de leur site dorigine:
http://mypage.bluewin.ch/Philippe Deschamps.
Ces notes ont ete composees `a laide des logiciels AMS TEX, PICTEX, et TABLE. Lauteur remercie Madame Edith Beck-Walser, qui a mene `a bien, avec beaucoup de devouement, la saisie informatique dune version preliminaire du texte. Il remercie egalement
Monsieur Roberto Cerratti pour ses commentaires constructifs, Mademoiselle
Reanne Meyer pour la composition des formules des chapitres XV et XVI de la seconde
partie, et Mademoiselle Brigitte Sermier pour son assistance ecace lors de la correction
des epreuves.
Typeset by AMS-TEX
1
CONNAISSANCES PREREQUISES
`
PREMIERE
PARTIE, CHAPITRE I
`
PREMIERE
PARTIE
VECTEURS ALEATOIRES
D
enition
On peut associer `a tout resultat possible dune experience aleatoire un vecteur X ()
Rk . Si pour tout x = (x1 , . . . , xk ) Rk , lensemble:
{ | Xi () xi ,
i = 1, . . . , k}
est un evenement dont on peut calculer la probabilite, la fonction X () est dite mesurable
et X porte le nom de vecteur aleatoire. Il est discret si X () prend ses valeurs dans un
ensemble denombrable, continu sinon.
1.1 Distribution jointe
Dans le cas discret et continu, elle peut senoncer comme:
FX1 ,...,Xk (x1 , . . . , xk ) = P [(X1 x1 ) (X2 x2 ) . . . (Xk xk )]
1.2 Densit
e jointe
Cas discret:
fX1 ,...,Xk (x1 , . . . , xk ) = P [(X1 = x1 ) (X2 = x2 ) . . . (Xk = xk )]
Cas continu: la fonction de densite est la fonction dont lintegrale donne la fonction
de distribution. Formellement, fX = fX1 ,...,Xk est la densite jointe du vecteur X =
(X1 , . . . , Xk ) si:
FX (x1 , . . . , xk ) =
xk
...
x1
Note
Dans tout ce qui suit, nous supposerons pour alleger la notation que k = 2. La generalisation `a k > 2 est facile et les denitions pertinentes se trouvent dans la litterature. On
etudiera donc un vecteur (X, Y ).
Exemples
Cas discret: Le tableau suivant donne les valeurs de deux variables X et Y et les
probabilites que le couple (X, Y ) prenne la valeur (x, y):
X
On obtient:
fX,Y (0, 0) = 0, 2
FX,Y (1, 0) = 0, 4
;
;
0,20
0,20
0,10
0,5
0,40
0,05
0,05
0,5
0,60
0,25
0,15
fX,Y (0, 1) = 0, 4 ;
FX,Y (1, 1) = 0, 85 ;
etc.
etc.
Cas continu:
fX,Y
1
x2
y2
(x, y) =
exp 2 2
21 2
21
22
`
PREMIERE
PARTIE, CHAPITRE I
1.3 Densit
e marginale
Cas discret:
fX (xi )
fX,Y (xi , yj )
fY (yj )
fX,Y (xi , yj )
Cas continu:
fX (x)
fY (y)
fX,Y (x, y) dy
fX,Y (x, y) dx
Exemple
Pour les densites jointes donnees precedemment `a la section 1.2:
(a) fX (0) = 0, 6 ;
fY (0) = 0, 5 ;
fX (1) = 0, 25
fY (1) = 0, 5
fX (2) = 0, 15
(b)
fX (x)
fY (y)
x2
y2
1
exp 2 2 dy
21 2
21
22
+
2
1
x2
y
exp
dy
exp 2
21
222
2
2 2
=1
x2
1
exp 2
21
1 2
y2
exp 2
22
2
1.4 Densit
e conditionnelle
Cas discret: les densites conditionnelles sobtiennent a` partir de la denition dune
P (AB)
probabilite conditionnelle P (A|B) = P (B)
Donc:
fX|Y (xi | yj ) =
fX,Y (xi , yj )
fY (yj )
fX,Y (x, y)
fY (y)
si fY (y) = 0
Note: cette fonction depend dune realisation particuli`ere de Y . Cette fonction est donc
aleatoire car Y est aleatoire (on peut dire aussi quelle depend dun param`etre aleatoire).
Exemple pour les densites jointes donnees precedemment (section 1.2):
(a) Cas discret:
fX|Y (0 | 0) = 0, 4
fX|Y (1 | 0) = 0, 4
fX|Y (2 | 0) = 0, 2
Les valeurs de fX|Y (x | 1) sont celles dune autre densite.
(b) Dans le cas continu, on avait fX,Y (x, y) = fX (x)fY (y). Donc fX|Y (x | y) =
fX (x)
1.5 Ind
ependance
Cas discret: X et Y sont independantes si pour tout i et pour tout j, on a:
fX,Y (xi , yj ) = fX (xi )fY (yj )
Dans lexemple precedent (section 1.2, cas discret), X et Y ne sont pas independantes,
car:
fX,Y (0, 0) = 0, 2 = fX (0)fY (0) = 0, 6 0, 5
`
PREMIERE
PARTIE, CHAPITRE I
Propri
et
e tr`
es importante
Si X et Y sont independantes, alors: E(XY ) = E(X)E(Y ). La reciproque nest pas
vraie en general!
Exercice. Demontrez la propriete precedente dans le cas continu.
1.6 Covariance
D
enition
Cov(X, Y ) = E [{X E(X)} {Y E(Y )}]
Exercice
Montrez que Cov(X, Y ) = E(XY ) E(X)E(Y ) .
Propri
et
e importante (consequence de lexercice)
Si X et Y sont independantes, alors Cov(X, Y ) = 0. La reciproque nest pas vraie en
general!
Contre exemple montrant que la reciproque nest pas vraie.
X
1
Y
0
+1
+1
1
16
3
16
1
16
3
16
3
16
1
16
3
16
1
16
5
16
6
16
5
16
5
16
6
16
5
16
6 6
16 16
E(XY )
E(X)
E(Y )
Cov(X, Y )
1
3
1
3
+0
1
+0
+00
16
16
16
16
1
3
1
3
1
+0
+1
=0
+0
16
16
16
16
5
5
=0
+0+
16
16
5
5
+0+
=0
16
16
E(XY ) E(X)E(Y ) = 0 .
1
1.7 Esp
erances conditionnelles et partielles
Lesperance conditionnelle sevalue `a partir de la densite conditionnelle.
i xi fX|Y (xi | yj )
+
Cas continu: E (X | Y = y) = xfX|Y (x | y) dx
Cas discret: E (X | Y = yj ) =
E (X | Y = 0)
0, 4 0 + 0, 4 1 + 0, 2 2 = 0, 8
E (X | Y = 1)
0, 8 0 + 0, 1 1 + 0, 1 2 = 0, 3
Propri
et
e tr`
es importante
E(X) = EY [E (X | Y )]
Cette propriete porte le nom de loi des esperances iterees (Law of Iterated Expectations). Elle est analogue au theor`eme de la probabilite totale: une esperance inconditionnelle, tout comme une probabilite inconditionnelle, peut etre evaluee `a laide dun arbre.
`
PREMIERE
PARTIE, CHAPITRE I
E (X | Y = yj ) P (Y = yj )
fY (y)
xfX|Y (x | y) dx
dy
E(X|Y )
E (X | Y = 0) P (Y = 0) + E (X | Y = 1) P (Y = 1)
0, 8 0, 5 + 0, 3 0, 5 = 0, 55
Il est facile de verier a` laide de la densite marginale que 0, 55 est bien egale `a E(X):
E(X)
xi P [X = xi ]
0 0, 6 + 1 0, 25 + 2 0, 15 = 0, 55 .
E (Y | Y a)
yj P (Y = yj | Y a)
(cas discret)
o`
u f (y | Y a)
yf (y | Y a) dy
d
P (Y y | Y a)
dy
(cas continu)
.
10
Propri
et
e
Dans le cas discret:
E (Y | Y a) =
yj
{j:yj a}
P (Y = yj )
P (Y a)
fY (y)
dy
FY (a)
P (Y y | Y a)
P (Y y Y a)
P (Y a)
FY (y) si y a
FY (a)
1
si y > a
Donc:
f (y | Y a)
et
yf (y | Y a) dy =
d
P (Y y | Y a)
dy
fY (y) si y a
FY (a)
0
si y > a
fY (y)
dy.
FY (a)
`
PREMIERE
PARTIE, CHAPITRE I
11
1.8 Application
economique des esp
erances partielles (gestion de stock)
Cet exercice a pour but dillustrer linteret de la loi des esperances iterees, appliquee
aux esperances partielles.
Enonc
e
Un commercant a une demande journali`ere aleatoire Y pour une denree vendue par
kilos. Y , mesuree en centaines de kilos, a la densite suivante:
fY (y)
=
=
3y 2 si 0 y 1
0 sinon .
(k, Y )
1000Y 600k
400k
si Y k
si Y > k
Le prot est aleatoire. Mais son esperance ne depend que de la variable de decision k.
Il sagit donc de calculer cette esperance et de la maximiser par rapport a` k.
La loi des esperances iterees donne:
E ()
E ( | Y k) P (Y k) + E ( | Y > k) P (Y > k)
=
0
=
fY (y)
dy
FY (k)
y 3y 2
dy
k3
3 y4
4 k3
k
=
0
3
k
4
12
Alors:
E ( | Y k)
=
=
1000E (Y | Y k) 600k
3
k 600k = 150k
1000
4
3 k
k
3y
2
3y dy =
= k3
3
0
0
P (Y k)
P (Y > k)
1 k3
E ( | Y > k)
En combinant:
E ()
(150k) k 3 + (400k) 1 k 3
250k 4 + 400k
En maximisant:
dE ()
dk
=
=
d2 E ()
dk 2
1000k 3 + 400 = 0
k 3 = 0, 4 = k = (0, 4)1/3 0, 7368 .
3000k 2 < 0
`
PREMIERE
PARTIE, CHAPITRE II
13
CHAPITRE II
Enonc
e du probl`
eme
On connat une densite fY (y). Quelle est la densite dune fonction strictement monotone
(i.e. strictement croissante ou strictement decroissante) de Y ? Si U = h(Y ), alors, si h est
croissante:
P [U u]
P [h(Y ) u]
P [Y h1 (u)]
P [Y h1 (u)].
Mais quelle est la densite qui donne bien cette probabilite lorsquon lint`egre? La reponse
est donnee par le theor`eme du changement de variables, dont on va voir la version univariee
et multivariee.
Th
eor`
eme.
Supposons que la variable aleatoire continue Y ait pour densite fY (y) et soit:
Y = {y | fY (y) > 0}
(Y sappelle le support de fY )
fY
dy
h (u)
du
sinon .
pour u U
14
Exemple
Soit
fY (y)
2y si 0 y 1
0 sinon .
=
=
3u 1
fY
4
4
3u 1
si
2
4
4
0 sinon .
fU (u)
=
=
fU (u)
1u3
pour y > 0
sinon.
u1
u2
=h
y1
y2
Si:
(1) les derivees partielles de h sont continues sur Y,
(2) le jacobien:
J = det
est non nul pour (u1, u2 ) U,
y1 /u1
y1 /u2
y2 /u1
y2 /u2
`
PREMIERE
PARTIE, CHAPITRE II
15
alors:
fU1 ,U2 (u1, u2 )
pour u U
sinon .
Exemple
Densite de la somme et de la dierence de variables uniformes.
Soit fY1 ,Y2 (y1 , y2 )
=
=
si 0 y1 1
sinon .
1
0
et 0 y2 1
U1
Y1 + Y2
Y2 Y1
U2
On peut ecrire:
u1
u2
y1
y2
J=
= 1
2
=
=
y2
1
1 1
+ = =| J |
4 4
2
y1
u1
u2
.
1
pour u U
2
0 sinon .
Mais quelle est la forme de U? Pour determiner la forme de U, il faut traduire les
conditions sur y1 , y2 en un syst`eme de conditions sur u1 , u2 .
16
On a y1 =
1
2
(u1 u2 ) et y2 =
1
2
(u1 + u2 ). Donc:
y1 0
u2 u1
y1 1
u2 2 + u1
y2 0
y2 1
=
=
u2 u1
u2 2 u1
...
....
....
....
....
....
.
....
.
.
..
....
....
....
....
.....
2
1
....
.....
.
.
....
.
...
....
....
....
.
.
.
....
...
....
....
....
.....
....
....
.
....
.
.
..
....
....
....
....
....
.....
....
..
.... .......
......
.....
...
....
....
...........................
.
.
.
.
.
.
..
..............................
.....
......................................
.....
...............................................
....
................................................................................................
.
.
.
.
.
.
....
................................................
.....
..............................................................................
....
......................................................................................
....
..................................................................................................................................................................
.
.
.
.
.
.
..........................................................................
....
....................................................................................................................
....
.............................................................................................................................
....
..................................................................................................................................................................................................................................
....
.
.
.
.
.
.
.....................................................................................................................................................
....
....
...............................................................................................................................................................
................................................................................................................ ....
.........................................................................................................................................................................................................................................................................................................
.................................................................................................................................................................... ....
..........................................................................................................................................................
....
...................................................................................................................................................
....
.........................................................................................................................................
....
.........................................................................................
....
..........................................................................................................................
....
.................................................................................................................
....
........................................................................................................
....
...................................................................
....
....
........................................................................................
.................................................................................
....
....
.......................................................................
.............................................
....
....
.......................................................
....
................................................
....
......................................
....
.............................
....
................
.
....
..............
....
........
.
....
.
.
.
.. .....
...
.
.
.
....
..
.
.
.
.
....
..
.
.
.
....
..
.
.
.
.
....
.
....
.....
....
....
....
.....
....
.
.
.
.
....
..
.
.
....
.
..
.
....
.
.
.
.
....
.
.
..
....
.
.
.
....
..
.
.
.
....
..
.
.
2
1
....
.
.
.
.
....
.
.
.
.
....
.
.
.
.
....
....
u =u
u2 = 2 + u1
u1
u2 = 2 u1
u = u
u1
1
1
du2 =
u2
= u1 pour 0 u1 1
2
u1 2
u1
2u1
2u1
1
1
du2 =
u2
2
2+u1 2
2+u1
2 u1 2 + u1
= 2 u1 pour 1 u1 2 .
2
2
fU1 (u1)
fU1 (u1)
=
=
u1
`
PREMIERE
PARTIE, CHAPITRE II
17
u1
1
0
1
2
3
1
2.3 La fonction g
en
eratrice des moments
D
enition
Soit X une variable aleatoire. Si E etX existe pour t dans un voisinage ouvert de zero,
la fonction generatrice des moments de X est denie comme:
mX (t) = E etX
Utilit
e
mX (t) permet de calculer facilement les moments de X; la fonction generatrice des
moments permet en outre, dans certains cas, de calculer facilement la distribution dune
somme de variables aleatoires independantes.
Propri
et
es
(1)
dr
mX (0) = E(X r )
dtr
En eet:
d
d tX
tX
tX
E e
e
=E
= E Xe
= E (X)
dt
dt
De meme:
2
2
d2
d tX
tX
2 tX
=
E
=
E
X
=
E
X
E
e
e
e
dt2
dt2
si t = 0 .
si t = 0
etc.
18
tX
mX (t) = E e
=e E e
t
=e
2
1
1
et(x) e 22 (x) dx
2
1
1
2
2
exp 2 (x ) 2 t (x ) dx .
2
2
t(X)
=e
Noter que
2
(x ) 2 2 t (x ) = (x ) 2 2 t (x ) + 4 t2 4 t2
2
= x 2 t 4 t2 .
Donc:
mX (t)
t 2 t2 /2
e e
2 2
1
1
e 22 (x t) dx
2
= 1 car int
egrale dune densit
e N (+2t,2 )
mX (t)
et+
2 2
t /2
Exemple dapplication: calcul des deux premiers moments E(X) et V (X) dune variable
normale.
Si X N (, 2 ), on a vu que mX (t) = et+
d
mX (t)
dt
d2
mX (t)
dt2
=
=
V (X)
2 t2
2
. Alors:
2 t2
+ 2 t et+ 2
2 et+
2 t2
2
2
2 t2
+ + 2 t et+ 2
E(X 2 ) E 2 (X)
2 + 2 2 = 2
`
PREMIERE
PARTIE, CHAPITRE II
19
Note: il existe des tables des fonctions generatrices des moments des variables les plus courantes; voir lappendice B de Mood, Graybill, Boes, Introduction to the Theory of Statistics,
1974.
Exercice: Soit X une variable aleatoire ayant la distribution normale reduite N (0, 1).
Montrez que E(X 3 ) = 0 et que E(X 4 ) = 3.
Autre exemple dapplication: calcul de la distribution dune somme de variables normales independantes.
Soit X N x , x2 et Y N y , y2 et supposons X et Y independantes.
mX+Y (t)
mX (t) mY (t)
etx + x t
et(x +y )+(x + y )t
2 2
(Propriete 3)
2 2
t /2
/2 ty + y
e
2
/2
donc
la fonction generatrice des moments dune variable distribuee selon
mX+Y (t) est
2
2
N x + y , x + y . En vertu de la propriete 2, la distribution de Z = X + Y est donc
une normale de param`etres x + y et x2 + y2 .
Il est beaucoup plus facile de prouver le resultat de cette mani`ere que par lutilisation
du theor`eme de changement de variables.
2.4 Fonctions de variables normales
(1) Toute combinaison lineaire de variables normales independantes est normale:
Xj N j , j2
aj
independantes (j = 1, . . . , n)
constantes en probabilite (j = 1, . . . , n)
n
aj Xj N
j=1
n
aj j
j=1
n
a2j j2
j=1
independantes (j = 1, . . . , k)
Y =
k
j=1
Xj2 2k
20
Y 2k
et Y
independantes
X
tk
Z=
Y /k
=
(4) Variable F de Fisher-Snedecor
X 2k
Y 2r
=
Z=
et
X/k
Fk,r
Y /r
independantes
`
PREMIERE
PARTIE, CHAPITRE III
21
CHAPITRE III
ESTIMATION PONCTUELLE
3.1 Echantillon
al
eatoire, estimateur, estimation
Echantillon
al
eatoire
Suite de variables aleatoires independantes ayant la meme distribution (i.i.d.)
Exemple
Tailles de 100 etudiants de premi`ere annee, distribuees N (, 2 ) et independantes:
(Xi , i = 1, . . . , 100).
Estimateur
Fonction de variables aleatoires observables, ne dependant pas de param`etres inconnus.
Exemple
100
i=1 Xi
100
100
2
)
i=1 (Xi
100
Estimation
Valeur prise par une telle fonction pour des realisations particuli`eres des variables
aleatoires, soit x1 , x2 , . . .
Exemple
175,
25
22
ou plus simplement L (1 , . . . , k )
Note
Les observations xi sont ici des param`etres de la vraisemblance; en dautres termes, la
vraisemblance nest denie quapr`es lobservation des realisations des variables! La vraisemblance est donc une notion statistique, tandis que la densite jointe est une notion
probabiliste.
3.3 Maximum de vraisemblance
Principe
On choisit comme estimations des i les valeurs de ces param`etres qui maximisent
L (1 , . . . , k ).
Interpr
etation dans le cas discret
On choisit comme estimations les valeurs des i qui donnent la plus grande probabilite
davoir obtenu le resultat experimental (x1 , . . . , xn ).
Exemple 1
Une bote contient 3 boules, qui peuvent etre soit rouges, soit blanches. Le nombre de
boules rouges est inconnu. On tire deux boules sans remise. On obtient 2 boules rouges. On
demande destimer le nombre n de boules rouges que contient la bote `a laide du principe
du maximum de vraisemblance.
Solution
La vraisemblance est donnee dans ce cas par la probabilite dobtenir le resultat experimental observe (tirage de 2 boules rouges), consideree comme fonction des quatre valeurs
possibles du param`etre inconnu (n = 0, 1, 2, 3).
`
PREMIERE
PARTIE, CHAPITRE III
L(0)
P (R1 R2 | n = 0) = 0
L(1)
P (R1 R2 | n = 1) = 0
L(2)
P (R1 R2 | n = 2)
P
1
2
P
=
L(3)
23
(R2 | R1 , n = 2) P (R1 | n = 2)
2
1
=
3
3
(R1 R2 | n = 3) = 1 .
n
p
P (Y = r)
nr
= Cnr pr (1 p)
Solution
On peut ecrire:
Y
n
Xi
o`
u
Xi
Xi
0 sinon .
i=1
f (x1 , . . . , xn | p) = pr (1 p)
i=1 xi
pr (1 p)
nr
24
d log L
dp
r log p + (n r) log (1 p)
r nr
=0
p 1p
nr
r
=
=
p
1p
n
1
1= 1
p
r
=
=
1p
nr
=
p
r
r
= p =
.
n
r
nr
<0
2
p
(1 p)2
Exemple 3
On demande destimer par maximum de vraisemblance les param`etres et 2 dune
loi normale a` partir dun echantillon aleatoire (Xi , i = 1, . . . , n).
On a, par denition de la densite normale:
fXi (xi )
2 1/2
1
2
exp 2 (xi )
2
.
En vertu de lindependance:
n
1
n/2
2
fX x1 , . . . , xn | , 2 = 2 2
exp 2
(xi )
2
i=1
L ,
2
= 2
log L =
2 n/2
n
1
2
exp 2
(xi )
2 i=1
n
n
1
n
2
(xi )
log (2) log 2 2
2
2
2 i=1
`
PREMIERE
PARTIE, CHAPITRE III
25
2 2
i=1
n
log L
n
1
2
(2)
=
+ 4
(xi ) = 0
2
2
2
2
i=1
(1)
n
n
xi = n,
donc
=
i=1
(2)
i=1 xi
= x
n
1
2
(xi ) = 0
= n + 2
i=1
n
2
2
i=1 (xi )
= =
n
n
2
)
2
i=1 (xi x
en remplacant
=
=
n
par
26
CHAPITRE IV
ES
DES ESTIMATEURS
PROPRIET
=X
et
i=1 Xi
n
n
1
2
s =
Xi X
n1
2
i=1
Xi
n
=
1 1
1
E
Xi =
E (Xi ) = n =
n
n
n
=E
=E
Xi nX
Xi
E
Xi X
n
et que:
E
E Xi2 =
Xi2 =
2 + 2 = n 2 + 2
car 2 = E Xi2 2 , et donc E Xi2 = 2 + 2 .
`
PREMIERE
PARTIE, CHAPITRE IV
27
Dautre part:
E
n
2
Xi
n
i=1
Xi2
+2
i=1
n
n1
n
Xi Xj
i=1 j=i+1
Xi2
+2
i=1
n1
n
E (Xi Xj )
i=1 j=i+1
n(n1)/2
termes
Mais E Xi2 = 2 + 2 , et, par lindependance:
E (Xi Xj )
E (Xi ) E (Xj ) = 2
Donc:
E
n
2
Xi
i=1
2n(n 1)
n 2 + 2 +
2
n 2 + n2 + n2 2 n2 = n 2 + n2
E( Xi )2
= 2 + n2 , et:
Donc
n
E
n
Xi X
2
n
Xi2
E( Xi )2
n + 2 2 n2 = (n 1) 2
i=1
i=1
2
Donc:
E s2
=
Xi X
n1
2
=
1
(n 1) 2
n1
lim P | n |> = 0
on ecrit
plim n =
28
Interpr
etation
Si n poss`ede une densite f(n ), la probabilite P [| n |> ] est la zone hachuree de
la gure suivante:
.....
.... ....
.... ......
...
...
.
.
...
.
...
...
...
...
.
.
...
..
.
...
.
.
..
..
.
...
.
.
...
....
..
..
...
...
...
...
..
2 n2
...
...
...
....
.
.
.
...
...
...
...
...
..
..
....
...
..
..
...
..
..
..
..
..
...
.
...
.....
...
...
...
...
...
.
...
.....
...
..
...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...
.
.
.
.
.
.
.
.
.
.
.
.
.
...
.
.
........
...
.
.
.
.
.
.
.
.
.
...
.
......
..
.
.
.
.
.
.
.
...... ....
.. ........
.
.
..... ...
.. ........
..... ...
.
.
.
.
.......
......
....
.....
.......
.......
.
.
... ....
.. ...
.
.
.. ....
. ..
.
.
... ....
.
.. ..
.
.
... ....
.. ...
.
....
.
...
.
.
.
.
....
.
.
.
...
.....
.
.
.
.
...........
.
...
.
. ...
.
.
.
.... ...
.
.
...
........
.
.
.
.
.
. . . .. ...
.. ...............
.
.
.
... ............
........... ..
.
.
... ... . . .....
.... . . . ... ...
... ................
............. ..
... .................
......................... .....
.
.
... .. . . . . . ......
.. . . . . . ... ..
.
.
.
........................
... . . . . . . . .
1 n1
...........................
..............................
.
.
.
.
.... . . . . . . . .......
........................
.
.
.
...............................
.
... . . . . . . . .........
.
.
.
.
.
.
.
.
.
... . . . . . . . . . ..
. . . . . . . . . . ..
..................................................
...... . . . . . . . . . ..........
....... . . . . . . . . . ...........
................................................
............................................
..................... . . . . . . . . . . ..........
...................................................................
.
.
.
............... . . . . . . . . . . . ......
.
.
.
.
.
....... . . . . . . . . . . . ............
...................................................................................................................
............ . . . . . . . . . . . . ...............................
................................................. . . . . . . . . . . . . .........................
..........................................................................................................................
........................................ . . . . . . . . . . ...............
............................... . . . . . . . . ....................................
.. ................
.................................
f ( )
f ( )
+
Cette probabilite doit tendre vers 0 lorsque n tend vers linni; ceci sera le cas si les
densites deviennent de plus en plus concentrees autour de .
Conditions susantes
Si limn E(n ) = et si limn V (n ) = 0, alors plim n = . Ceci sera demontre
au chapitre X de la deuxi`eme partie.
Exemple
Si (Xi , i = 1, . . . , n) est un echantillon aleatoire avec E (Xi ) = , V (Xi ) = 2 , alors
= , car:
plim X
E X
V X
1
n2
n
i=1
2
n 2
0 .
=
n2
n
`
PREMIERE
PARTIE, CHAPITRE IV
29
Note
Contrairement `a labsence de biais qui est une propriete de petit echantillon (valable
pour tout n), la convergence est une propriete asymptotique (valable si n ).
4.3 Estimateur ecace
Un estimateur ecace est un estimateur sans biais, et de variance minimale parmi tous
les estimateurs sans biais.
D
enition
est ecace:
E() =
.
V ()
si E()
=
V ()
Interpr
etation
La variance dun estimateur est une mesure de limprecision de notre estimation de la
vraie valeur du param`etre. Un estimateur sans biais, mais de variance enorme, est inutile:
on ne se trompe pas en moyenne, mais on peut se tromper enormement dans des cas
individuels, c.a.d. pour certains echantillons. Il est donc important que la variance soit la
plus petite possible.
Exemple
Nous prouverons au chapitre X de la seconde partie que si les Xi sont normales i.i.d.,
est ecace.
alors X
4.4 Minimisation de lerreur quadratique moyenne
Que faire si lon doit choisir entre un estimateur sans biais mais de grande variance,
ou un estimateur un peu biaise mais de petite variance?
Reponse: on peut minimiser lerreur quadratique moyenne:
= E( )2
EQM()
= V ()
30
En eet:
EQM()
Mais E
E( )2
2
E E() + E()
2
2
E() E()
E() E E()
E()
E E()
E()
Dautre part:
2
E E()
E E()
V ()
E()
Biais2 ().
4.5 Interpr
etation des propri
et
es
Il est utile dillustrer ces proprietes `a laide dechantillons ctifs, qui peuvent etre
obtenus par simulation.
Supposons donc que lon ait m echantillons de taille n, permettant de calculer m
estimations i (n):
echantillons
x12
x1m
x11
..
..
..
.
.
...
.
xn2
xnm
xn1
1 (n)
2 (n)
m (n)
1
i (n) =
lim
m m
i=1
pour tout n .
`
PREMIERE
PARTIE, CHAPITRE IV
31
i (n) (n)
lim
m m
i=1
lim
i (n)
m m
m
i=1
32
CHAPITRE V
`
TESTS DHYPOTHESES
5.1 M
ethode des intervalles de conance
Cette methode est facile `a appliquer lorsque lon poss`ede un estimateur sans biais dun
param`etre inconnu (soit cet estimateur), et que la densite de est symetrique autour
de (par exemple normale). On cherche alors un intervalle entre les bornes duquel la vraie
valeur du param`etre inconnu a une certaine probabilite 1 de se situer.
Exemple: construction dun intervalle de conance sur lesperance dune population
normale.
Si la variance 2 est connue, on a:
- echantillon (X1 , . . . , Xn ) ; Xi N (, 2 )
- Valeurs observees x1 , . . . , xn
n
xi
2
- x
= i=1
est une realisation dune variable distribuee N (, n )
n
= n
est donc une realisation dune variable distribuee N (0, 1).
/ n
P x
Z/2 x
+ Z/2
=1 .
n
n
n
= !
"
"
)2
(xi x
#
(n 1) 2
`
PREMIERE
PARTIE, CHAPITRE V
33
)2
(xi x
est distribuee 2n1
2
et est independante de n
Alors n
tn1 , et lintervalle de conance secrit:
s
s
s
P x
tn1; 2 x
+ tn1; 2
= 1
n
n
On ne rejette pas une hypoth`ese impliquant que soit interieure aux deux bornes, on
rejette une hypoth`ese impliquant que soit exterieure aux deux bornes.
5.2 M
ethode g
en
erale de construction des tests
On a ici un vecteur de param`etres inconnus = (1 , . . . , k ). On veut tester: H0 : = 0
contre H1 : = 0 (0 est un vecteur de nombres)
Note: rien nempeche detre une fonction dun autre vecteur de param`etres plus
fondamentaux; exemple: k = 1 et 1 = 1 2 , H0 : 1 = 0 contre H1 : 1 = 0 .
Proc
edure de test
Elle doit conduire, soit au rejet de H0 en faveur de H1 , soit a` labsence de rejet, en
tenant compte des deux types derreurs possibles:
Rejeter H0
Ne pas rejeter H0
H0 vraie
H0 fausse
P (rejeter
H0 | H0
fausse)
34
tient compte de cet etat des choses: on va, d`es le depart, choisir une valeur faible
de (typiquement 0.01 ou 0.05), et, pour cette valeur de , choisir un test puissant
parmi les tests de taille .
Proc
edure de construction
Etape
1: on se donne une probabilite de commettre une erreur de type I (rejeter H0 si
H0 est vraie).
0 ), a` laide dun crit`ere tel que ceux que nous
Etape
2: on choisit une statistique s(,
exposerons aux sections 5.3, 5.4, et 5.5. Ces crit`eres conduisent a` des tests puissants.
0 ) sous lhypoth`ese H0 , cest
Etape
3: on determine la distribution conditionnelle de s(,
`a-dire si = 0 .
Etape
4: la probabilite permet de determiner une region dacceptation RA () et une
region critique RC ():
RA ()
RC ()
{s | P (s RA () | H0 ) = 1 }
A () .
R
Ces regions peuvent etre calculees `a laide des resultats de letape 3, qui nous donne la
0 ) sous H0 !
distribution de s = s(,
0 ) RC ().
Etape
5: on decide de rejeter H0 si s(,
Notes
(1) Par construction, est alors bien la probabilite de commettre une erreur de
type I (rejeter H0 si H0 est vraie) car on a suppose que H0 etait vraie en
0 ) a` letape 3.
calculant la distribution conditionnelle de s(,
(2) La puissance 1 depend de la vraie valeur (inconnue) de , puisquelle se
calcule conditionnellement a` H1 , cest-`a-dire lorsque la valeur de nest pas
donnee `a priori.
(3) Le fait de ne pas rejeter H0 ne signie pas demontrer H0 : cela veut seulement
dire que les donnees ne fournissent pas susamment dinformations pour
inrmer H0 ! Il est donc plus correct de dire on ne rejette pas H0 que on
accepte H0 .
`
PREMIERE
PARTIE, CHAPITRE V
35
(4) Pour letape 2, il existe un assez grand nombre de crit`eres. Les trois crit`eres
que nous allons exposer sont tr`es employes, sont dune applicabilite generale,
et ont des proprietes doptimalite sur le plan de la puissance. Dans certains
cas les trois crit`eres conduisent a` la meme statistique. Dans la plupart des
cas les trois crit`eres sont asymptotiquement equivalents.
5.3 Le crit`
ere du rapport des vraisemblances (LR)
D
enition
Le rapport des vraisemblances est deni comme:
=
maxH0 L()
max L()
o`
u est le vecteur de param`etres inconnus de vraisemblance L(). H0 designe ici lensemble des valeurs de compatibles avec lhypoth`ese nulle, et designe lensemble de
toutes les valeurs admissibles de .
Exemple
0
|x>0 R
; H0 :
x
2
y
| x > 0 R2 .
x
Interpr
etation
Comme la vraisemblance est une fonction positive, 0,
Comme un maximum contraint est inferieur a` un maximum libre, 1
Donc 0 1 ;
et:
si 0 ,
si 1 ,
36
max L()
max L()
H0
=
Notons que
1
2
(xi 0 )
2
exp 2
2
1
2 n/2
2
2
exp 2
)
(xi x
2
n/2
2 2
exp 21 2 (xi 0 )2
n/2
(2 2 )
exp 21 2 (xi x
)2
1
2
2
(xi 0 )
(xi x
)
exp 2
2
2 n/2
)2 + n(
x 0 )2 .
(xi 0 )2 = (xi x
En eet:
(xi x
+x
0 )2 =
(xi x
)2 +n(
x 0 )2 +2
(xi x
)(
x 0 )
(xi 0 )2 =
=0
Donc:
=
=
1
2
2
2
(xi x
exp 2
) + n (
x 0 )
(xi x
)
2
n
2
x 0 ) .
exp 2 (
2
(LR = 2 log
(
x 0 )2
= LR
2 log =
2 /n def
sappelle la statistique du rapport des vraisemblances)
`
PREMIERE
PARTIE, CHAPITRE V
37
Conclusion
On a: 2 log =
(
x 0 )2
2 /n
On denit: Zobs =
(
x 0 )
/ n
Si on decide de rejeter H0 : = 0 lorsque Zobs > Z/2 ou Zobs < Z/2 , sera
bien la probabilite dune erreur de type I puisque Zobs N (0, 1) sous H0 .
u est deni implicitement par
De facon equivalente, on rejetteH0 si < o`
2
2
).
(soit = exp 12 Z/2
2 log = Z/2
Exercice. Calculez, en fonction de , la puissance du test precedent lorsque , 0 , 2 , et
n sont donnes. Comment cette fonction de puissance se comporte-t-elle lorsque la taille n
de lechantillon tend vers linni?
Second exemple dapplication: test sur lesp
erance
dune population normale, variance inconnue
On a toujours Xi N (, 2 ) independantes pour i = 1, . . . , n; mais 2 est inconnue.
Le test est toujours H0 : = 0 contre H0 : = 0
Ici, =
2
n
2
Sous H0 : la maximisation de L implique
0 = 0 et
02 = i=1 (xi 0 ) /n.
n
2
Sous : la maximisation de L implique
=x
et
2 = i=1 (xi x) /n comme on
la vu.
Le rapport des vraisemblances senonce comme:
n/2
2
02
2
exp 21 2
(xi 0 )
0
=
n/2
2
2
(xi x
(2
)
exp 21 2
)
2 n/2
0
, puisque:
=
2
2
2
02 ;
(xi x
) = n
2 .
(xi 0 ) = n
On a vu que:
(xi 0 ) =
(xi x
) + n (
x 0 )
38
n/2
2
n (
x 0 )
, donc :
=
1+
2
)
(xi x
2
2
(
x 0 )
)
(xi x
2/n
2
avec
s
(n 1)
1 =
=
s2 /n
n1
(
x 0 )
s/ n
On a (n 1) 2/n 1 = t2obs , soit aussi: = 1 +
On denit tobs =
t2obs
n1
n/2
Si on decide de rejeter H0 lorsque tobs > tn1, 2 , ou tobs < tn1, 2 , sera bien la
probabilite de commettre une erreur de type I puisque tobs tn1 sous H0 .
u:
De facon equivalente, on rejette H0 si < , o`
$
= 1 +
t2n1,
%n/2
n1
5.4. Le crit`
ere de Wald
Nous nenoncerons ici ce crit`ere que pour le test dune seule hypoth`ese, car la generalisation aux tests joints sera vue plus tard.
D
enition
Soit L() = L(1 , , k ) la vraisemblance et soit = (1 , . . . , k ) lestimation de qui
maximise L(). On sinteresse au test:
H0 : i = 0 contre H1 : i = 0
(i est un element de , 0 est un nombre)
La statistique de Wald est denie comme:
W=
(i 0 )2
V (i )
`
PREMIERE
PARTIE, CHAPITRE V
39
o`
u V (i ) est lestimation de la variance de i obtenue par maximisation de la vraisemblance.
Note: la vraisemblance est maximisee sans contraintes!
Interpr
etation
Il sagit du carre dune distance entre lestimation de i sous H0 (`
a savoir 0 ) et lesti
a savoir i ). On divise par la variance estimee pour tenir compte de
mation de i sous H1 (`
la precision de lestimation.
Exemple
Soit L(, 2 ) la vraisemblance precedente (population normale, variance inconnue).
Pour tester H0 : = 0 contre H1 : = 0 , on forme:
2
W=
o`
u
2 =
1
n
i=1
(
0 )
V (
)
(
x 0 )
2 /n
(xi x
) est lestimation de 2 par maximum de vraisemblance.
(
x 0 )
n
W=
2 = n1
n1s
n n
t2obs
et le crit`ere de Wald conduit donc, dans ce cas-ci, au meme test que le crit`ere du rapport
des vraisemblances (le test t).
5.5. Le crit`
ere des multiplicateurs de Lagrange
De nouveau, nous enoncerons ce crit`ere pour le test dune seule hypoth`ese; la generalisation aux tests joints sera vue plus tard.
Soit L() = L(1 , . . . , k ) la vraisemblance logarithmique L = loge L. On sinteresse au
test:
H0 : i = 0 contre H1 : i = 0
40
0
V0 ()
L ,
n
n
1
n
2
2
(xi )
= log 2 log 2
2
2
2
i=1
On a vu que:
n
n (
x )
1
(x
)
=
i
2
2
i=1
Donc:
L
n (
x 0 )
=
=0 ,2 =2
02
0
o`
u
02
1
2
=
(xi 0 )
n
i=1
`
PREMIERE
PARTIE, CHAPITRE V
41
Par ailleurs:
1
V () = 4 V
n
xi
i=1
n
n 2
= 2
4
n
donc V0 () = 2
n2 (
x 0 )
2
n (
x 0 )
04
Donc LM =
=
n
02
2
02
=
=
1
2
(xi 0 )
n
i=1
n
1
2
2
(xi x
) + n (
x 0 )
n
i=1
x 0 )
+ (
2
Donc:
1
LM
=
=
=
02
n (
x 0 )
2 + (
x 0 )
n (
x 0 )
n1 2
2
1
1
n s
+
+
=
2
2
n n (
n n (
x 0 )
x 0 )
n1 1
1
t2obs + n 1
+
=
.
n
n t2obs
nt2obs
Soit aussi:
LM =
nt2obs
t2obs + n 1
42
on a etabli que:
n 2
t
n 1 obs
1
n1 1
1
= +
LM
n
n t2obs
n
2
t2obs
n (
x 0 )
LR = n log 1 +
.
2 = log 1 + n 1
(xi x
)
W=
On a donc une relation bijective entre t2obs et chacune des trois statistiques, ce qui
veut dire que chacun des trois crit`eres conduit au meme test (le test t).
Il nen est pas toujours ainsi: dans des situations plus compliquees, les trois statistiques W, LM, et LR ne seront pas des fonctions bijectives les unes des autres, et
leurs regions critiques seront dierentes en petit echantillon.
En revanche, si n , les distributions des trois statistiques sous H0 tendront en
general vers la meme distribution 2 . Ceci peut se verier
facilement
npour le test que
n1
t2obs
1
1, et 1 +
exp t2obs .
nous venons de voir, puisque 0,
n
n
n1
Mais la validite de cette proposition est beaucoup plus generale!
Quel est alors linteret de letude de ces trois statistiques? Il reside dans leur commodite demploi. Celle-ci depend du contexte:
(a) W sera plus facile a` employer chaque fois que le mod`ele est plus facile a`
estimer sans contraintes;
(b) LM sera plus facile a` employer chaque fois que le mod`ele est plus facile a`
estimer sous H0 ;
(c) LR necessite lestimation du mod`ele avec et sans contraintes; en revanche,
son calcul ne necessite que la connaissance des valeurs de la vraisemblance
maximisee. Aucun calcul analytique de derivees ni de variance nest necessaire.
SECONDE PARTIE
` UNE EQUATION
MODELES
ECONOM
ETRIQUES
A
CHAPITRE I.
LA REGRESSION
SIMPLE: ESTIMATION PONCTUELLE
44
C = a + bY + u
X = a bPX + u
CT = a + bQ + u.
1.2 Le mod`
ele et ses hypoth`
eses
1.2.1 L
equation de r
egression.
Nous avons donc une equation lineaire de la forme :
yt = a + bxt + ut
t = 1, . . . , n
Lindice t correspond a` une observation particuli`ere, par exemple lannee 1960 dans un
echantillon de 20 observations annuelles.
La variable yt sappelle indieremment variable endog`ene, ou variable dependante, ou
variable expliquee. La variable xt sappelle indieremment variable exog`ene, ou variable
independante, ou variable explicative. On parle aussi de regresseur. Le terme ut est un
terme derreur aleatoire inobservable.
a et b sont des param`etres `a estimer. Leurs estimateurs seront notes a et b.
45
pour tout t .
Si cette hypoth`ese netait pas satisfaite, le terme derreur aleatoire ut aurait une composante systematique, qui aurait d
u etre incluse dans la partie non aleatoire de lequation de
regression. Le mod`ele serait alors mal specie.
H2 . V (ut ) = E(u2t ) = 2
pour tout t .
Cette hypoth`ese implique que chaque erreur ut ait la meme variance; si les ut ont une
distribution normale, chaque ut aura la meme distribution.
Comme exemple de mod`ele o`
u cette hypoth`ese nest pas veriee, on peut citer un
mod`ele de regression dont les observations sont des moyennes calculees `a partir de nombres
dobservations dierents: si le mod`ele vrai est:
yis = a + bxis + uis
pour i = 1, . . . , ns et s = 1, . . . , T
o`
u les uis sont de variance 2 et sont independantes, et si le mod`ele estime est:
xs + u
s
ys = a + b
ns
avec:
ys =
i=1 yis
ns
pour s = 1, . . . , T
ns
,
x
s =
i=1 xis
ns
ns
,
u
s =
i=1 uis
ns
t = h .
Cette hypoth`ese sera satisfaite si le fait que ut prenne une certaine valeur est independant de la valeur prise par uh . Elle pourrait etre violee, par exemple, si yt etait la production dun bien agricole dans une region geographique donnee t . Une autre observation,
faite dans une region voisine, pourrait etre inuencee par des conditions meteorologiques
communes.
Un autre exemple de viol de cette hypoth`ese est le cas o`
u les ut sont engendrees par
u les t sont desperance nulle, de variance
lequation de recurrence ut = ut1 + t , o`
constante, et ne sont pas correlees entre elles. On verie aisement que la covariance entre
ut et ut1 depend de .
46
min
(2)
min
(3)
min
a
,
b
a
,
b
a
,
b
max
t
t
t
|
ut |
|
ut |
u
2t
Pour des raisons de commodite, nous allons employer le troisi`eme crit`ere : cest la methode des moindres carres.
La dierence:
47
u
t = yt a
bxt
yt = a
+ bxt
.
......
.....
.....
......
.
.
.
.
.....
......
.....
......
.
.
.
.
.
.
.
...... ..
..... ...
.....
...
......
.
.
.
t
..
.
..
...
......
.
.
.
.
.
..
...
.
.
.
.
.
.
....
......
......
......
.
.
.
.
.
.
......
.....
.....
......
.
.
.
.
......
.....
......
......
.
.
.
.
....
......
.....
t t
......
.
.
.
.
.
....
.....
......
.
.
.
.
.
.
......
.....
......
......
.
.
.
.
...
......
.....
......
0.5
u
= yt yt
.....
(x , y )
xt
1.0
1.5
2.0
u
2t
yt a
bxt
2
48
(1)
(2)
yt n
a b
xt yt a
xt = 0
xt b
x2t = 0 .
xt
n
,
y =
yt
.
n
(yt [
y b
x] bxt )xt = 0
(yt y b(xt x
))xt = 0
b =
=
=
=
(y y)xt
t
(xt x)xt
)
(yt y)(xt x
2
(xt x
)
x y n
xy
t 2t
x2
x n
t
(x x)yt
t
=
wt yt
)2
(xt x
o`
u:
)
(xt x
.
wt =
)2
(xt x
Il est facile de verier, de meme, que a
= zt yt , avec:
zt =
1
x
wt
n
(2)
wt2 =
1
(xt x)2
(3)
wt xt = 1
(4)
(5)
zt2
49
zt = 1
2
1
x2
xt
= +
=
2
n
)
n (xt x
)2
(xt x
(6)
(7)
zt xt = 0
.
wt zt =
)2
(xt x
yt
2
4
5
7
10
On a
xt = 15 ,
yt = 28 ,
x2t = 55 ,
xt yt = 103 ,
103 (15)(28)/5
55 (15)2 /5
28
(1.9)
5
15
5
yt2 = 194 .
1.9
0.1 .
50
a =
et
b =
et
zt yt
E(
a)
wt yt
E(b)
zt (a + bxt + ut )
a+0+
E(a) +
zt + b
zt xt +
zt ut
zt E(ut ) = a
wt (a + bxt + ut )
0+b+
E(b) +
wt + b
wt xt +
wt u t
wt E(ut ) = b.
1.4.2 Variances.
La variance de b se calcule comme :
V (b)
Mais b b =
zt ut
2
E b E(b)
E(b b)2 .
wt u t
V (b)
=
=
wt u t
2
n
n1
n
E
wt2 u2t + 2
wi wj u i u j
t=1
51
n
i=1 j=i+1
wt2 E
u2t
t=1
n
wt2
t=1
2
)2
(xt x
V (
a)
=
=
=
=
2
= E
zt ut
E (
a a)
zt2 par le meme argument que precedemment
2
2
1
x
2
+
2
n
(xt x
)
2
xt
2
.
n (xt x
)2
1.4.3 Covariance.
Cov(
a, b)
=
=
=
E(b b)(
a a)
zt ut
E
wt u t
n
n
E
wt zt u2t +
wi zj ui uj
t=1
2
i=1 j=i
wt zt
(xt x
)
wt
x
wt2
n
52
V b = n
2
0
)2 n
t=1 (xt x
V (
a) 0,
n
2
xt /n
car: V (
a) =
0
)2
(xt x
2
x2t
n
existe.
1.6 Interpr
etation matricielle
En reunissant toutes les observations sur lequation de regression yt = a + bxt + ut , il
vient:
y1
y2
.
..
x1
1
u1
x2
1
u2
a+ b+
.
.
.
..
..
..
1
yn
xn
x1
xn
.
..
un
u1
u
x2 a
2
+
.
..
b
..
.
un
ou: y = X + u.
Les equations normales peuvent secrire:
yt
n
a + b
xt =
a
xt + b
x2t =
xt yt
53
ce qui implique:
a
yt
=
2
xt
xt yt
b
n
xt
xt
(X X) = X y
La matrice (X X)
n
xt
= = (X X)
Xy
peut secrire:
xt
x2t
=
n (xt x
)2
=
)2
(xt x
x2t /n
x2t
xt
xt
V (
a)
Cov a, b
Cov a
, b
V b
Ceci peut etre generalise! En ajoutant des variables explicatives supplementaires (des
colonnes a` la matrice X) on obtient le mod`ele de regression multiple.
(xt x)2 = 0,
On note limportance de lhypoth`ese H5 : si xt = pour tout t,
det X X = 0 et les equations normales nont pas de solution unique.
1.7 Th
eor`
eme de Gauss-Markov
Nous ne verrons ici quun cas particulier de ce theor`eme (une version plus generale sera
vue en regression multiple).
Nous avons vu que les estimateurs de moindres carres sont sans biais et convergents.
Sont-ils de variance minimale? La reponse est: oui, dans la classe des estimateurs sans biais
et lineaires. Nous allons verier cette propriete dans le cas de b.
Un estimateur lineaire arbitraire de b peut secrire comme:
54
ct (a + bxt + ut )
ct yt =
a
ct + b
ct xt +
ct ut ,
=
=
une condition necessaire et susante pour que E b = b pour tout (a, b) est
ct = 0,
ct xt = 1. Alors:
V b
2
2
ct ut
E bb = E
c2t .
2
=
=
On va minimiser cette variance sous la contrainte E b = b et montrer que la solution
est ct = wt .
Comme la minimisation de V (b) est equivalente a` celle de V (b)/ 2 , le Lagrangien secrit:
c2t
+ 1
ct + 2
ct xt 1
= 2ct + 1 + 2 xt = 0
ct
(t = 1, . . . , n)
ct
t=1
n
xt
c
t
t=1
n
t=1
n
ct + n1 + 2
t=1
ct = 0,
n1 + 2
2 + 1
n
ct xt + 1
n
xt
xt
x2t
xt = 0
t=1
xt + 2
t=1
n
x2t = 0 .
t=1
ct xt = 1:
n
xt = 0
xt + 2
1
2
x2t = 0
0
2
55
Linverse de la matrice des coecients a dej`a ete calculee ((X X)1 ). On peut donc
calculer la solution du syst`eme comme:
xt
)2
(xt x
2
2/ (xt x
)
(xt x
)2
x2t
xt
2
x/
=0:
ct
xt
+ 2
2
)
)2
(xt x
(xt x
2ct
2
ct
)
(x x
t
= wt
)2
(xt x
Cette valeur de ct minimise donc bien la variance sous la contrainte que lestimateur
soit sans biais.
1.8 Estimation de la variance des erreurs
Les variances et la covariance calculees dans les sections 1.4.2 et 1.4.3 dependent du
param`
2 . Une procedure naturelle serait de calculer la variance dechantillon
etre inconnu
1
2
(
ut u
) , et de corriger un biais eventuel, pour arriver a` un estimateur de 2 .
n
En fait,
2 = u
2t
ut u
u
t
car
yt a
bxt
=
a b
yt n
xt
en vertu de la premi`ere equation normale (Section 1.3). Nous allons prouver que
E
et que donc s2 =
1
n2
u
2t
=
(n 2) 2
56
Nous avons:
u
t
Alors
u2t
=
=
yt a
bxt
=
=
a + bxt + ut (
y b
x) bxt
a + bxt + ut a b
x u + b
x bxt
ut u
+ (b b)(xt x
) .
2
2
2
(ut u) + (b b) (xt x
) + 2(b b)(xt x)(ut u
)
(xt x
)2 + (b b)2
)2 + 2(b b)
(xt x
)(ut u
) .
(ut u
Mais
)
(xt x)(ut u
=
=
puisque
Donc
u2t
wt (ut u
) =
=
=
wt (ut u
(xt x
)
)
(b b)
(xt x)2
2
wt ut = b b.
(ut u
)2 + (b b)2
(ut u
)2 (b b)2
(xt x
)2 2(b b)2
)2
(xt x
(xt x
)2
(ut u
)
(xt x
E (b b)2
)2
2 .
u2t
1 2
n
(
ut ) = n 2 2 = (n 1) 2
n
n
2
u
t = (n 2) 2 , Q.E.D.
Et donc E
On peut interpreter la division par n 2 de la mani`ere suivante. Precedemment (`a la
section 4.1 de la premi`ere partie), nous avions vu que pour obtenir un estimateur sans biais
de la variance, on devait diviser par n 1 la somme des carres des deviations par rapport a`
la moyenne. Cette division par n 1 etait en fait due `a la presence dune condition liant les
57
deviations par rapport a` la moyenne: la somme de ces deviations est identiquement nulle.
Dans le cas qui nous occupe, nous avons deux conditions liant les residus u
t , a` savoir:
n
ut = 0
t=1
n
ut xt = 0
t=1
Si nous connaissons n2 des residus, nous pouvons determiner les valeurs des deux derniers
`a laide de ces conditions.
1.9 D
ecomposition de la variance: le coecient de d
etermination
(yt y)2
, peut etre decomposee
n
en une somme de deux variances, celle des y (partie expliquee par la regression) et celle
des u (partie residuelle). Ceci nous permettra de denir le coecient de determination, qui
permet de mesurer la qualite de lajustement lineaire.
Nous allons voir que la variance totale des y, soit
SCT
2
yt y
SCE
u
2t
SCR .
= yt a bxt
(yt y) b(xt x
) .
yt yt
=
=
Donc
Mais
u
2t =
2
(yt y) 2b
(xt x) (yt y) = b
(xt x
) (yt y) + b2
2
(xt x
)
donc
)
(xt x
u
2t .
58
u
2t =
(yt y) b2
(xt x
)
Q.E.D.
Pour prouver que SCT = SCE + SCR, il sut alors de montrer que :
b2
)2 =
(xt x
(
yt y)2
(
yt y)2 =
(
a + bxt a
b
x)2
SCE
SCT
SCR
SCT
59
5.6
(xt x
)2
(yt y)2
u
2t
10
37.20
s2
s2b
s2a
sab
R2
1.10
1.10
= 0.37
3
0.37
= 0.037
10
1
9
= 0.403
0.37
+
5 10
(0.37)3
= 0.11
10
1.10
1
= 0.97 .
37.20
yt = 0.1
(0.635)
1.9 xt
(R2 = 0.97)
(0.192)
o`
u les nombres entre parenth`eses sont les estimations des ecarts-types des coecients
estimes. On peut aussi les presenter comme:
yt = 0.1
(0.157)
+ 1.9
xt
(R2 = 0.97)
(9.88)
o`
u les nombres entre parenth`eses sont les rapports entre les coecients estimes et les
estimations de leurs ecarts-types. On appelle ces rapports les rapports t (t-ratios); ils nous
serviront dans le cadre des tests dhypoth`eses.
60
CHAPITRE II.
LA REGRESSION
SIMPLE: INTERVALLES
`
DE CONFIANCE ET TESTS DHYPOTHESES
H6
ut N (0, 2 )
a
= a + zt ut et b = b + wt ut seront normales, puisque ce sont alors des combinaisons
lineaires de variables normales independantes.
, b et b?
Quelles seront alors les formes de a, a
Si 2 etait connue, nous aurions :
b b
N (0, 1)
b
avec
b2
2
(xt x)2
et
aa
N (0, 1)
a
a2
1
n
x2
)2
(xt x
.
61
b b
z/2
b
z/2
1
o`
u z/2 est la valeur de la variable normale reduite ayant une probabilite
depassee.
detre
P b z/2 b b b + z/2 b
b z/2 b
et b
b + z/2 b
En pratique, 2 est inconnue. Que se passe-t-il lorsquon la remplace par son estimation
sans biais
u
2t
n2
b b
u
2t
1
n 2 (xt x)2
b b
1
)2
(xt x
u
2t
2 (n 2)
2
=
def
N
D
N est une variable normale reduite. Nous prouverons rigoureusement plus loin que
u
2t
62
b b
tn2
sb
aa
tn2
sa
1,
1
Pour tester :
H0 : b = b0
contre
H1 : b = b0
contre
H1 : b > b0
contre
H1 : b < b0
Pour tester :
H0 : b = b0
on rejette H0 si b0 > b + tn2; sb .
Des procedures analogues sont evidemment valables pour le param`etre a.
2.2 Test sur les deux param`
etres a et b
Il sagit ici du test :
H0 : a = a0
et
b = b0
contre
H1 : a = a0
ou
b = b0
ou les deux.
63
Ce test nest pas equivalent a` une juxtaposition des deux tests t sur chaque coecient
de regression. Une methode bivariee simpose, et nos intervalles de conance deviennent
des ellipses. En pratique, on passe par la variable F de Fisher-Snedecor.
La statistique `a employer est:
Fobs
Q/2
s2
avec Q = n(
a a0 ) + 2n
x(
a a0 )(b b0 ) +
2
x2t
(b b0 )2
.
Q est toujours positive ou nulle; elle sera dautant plus grande que a
et b di`erent de
a0 et b0 . Or, ce sont bien les valeurs elevees dune statistique F qui conduisent a` rejeter
lhypoth`ese nulle. Par ailleurs, une valeur elevee de s2 re`ete une mauvaise qualite de
lajustement statistique; il est donc logique quelle nous fasse hesiter `a rejeter lhypoth`ese
H0 .
En regression multiple, nous demontrerons que si H0 est vraie, Fobs a la distribution
F2,n2 . On rejettera donc H0 si
Fobs
>
F2;n2; .
Nous montrerons aussi que Fobs est egale `a (n 2)/2n fois la statistique de Wald pour
tester lhypoth`ese H0 : (a, b) = (a0 , b0 ) contre H1 : (a, b) = (a0 , b0 ). Ceci fournit une
premi`ere justication rigoureuse de lemploi de cette statistique.
2.3 Test sur une combinaison lin
eaire des coecients
Un estimateur sans biais dune combinaison lineaire = a + b des coecients a et b
est bien s
ur:
=
a + b.
An de construire un intervalle de conance pour , nous devons estimer la variance de
:
V (
a + b)
=
=
2 V (
a) + 2 V (b) + 2 Cov(
a, b)
x
2
2
x
1
2
2
+
+
2
n
)2
)2
(xt x)2
(xt x
(xt x
(
x)2
2
+
n
(xt x)2
.
64
a b
(
+
(xt x)2
n
x)2
tn2
a + b tn2; 2 s
(
x)2
2
+
n
)2
(xt x
2.4 Pr
evision
Que se passerait-il si nous voulions trouver un intervalle de conance sur une valeur
future y de y? On parlerait alors dintervalle de prevision. Supposons par exemple que
y = a+bx+u soit une fonction de consommation, que nous possedions des donnees annuelles
entre 1960 et 1981 sur la consommation et le revenu national, et que nous voulions predire
la consommation pour lannee 1982, conditionnellement `a une projection x du revenu
national pour 1982.
Sous lhypoth`ese que le mod`ele reste inchange, nous aurons:
a + bx + u et
a
+ bx sera sans biais .
i = 1, 2, . . . , n:
Le premier terme de la somme est egal a` 2 . Le second terme peut etre calcule `a laide
des resultats de la section 2.3, en posant = 1 et = x . Nous avons donc:
E(y y )
1
(x x
)2
1+ +
n
)2
(xt x
2
65
1+
)2
1
(x x
+
n
)2
(xt x
2.51]
H0 : a = 0.15 et b = 2.5
contre
H1 : a = 0.15 ou b = 2.5
on construit la statistique
Fobs
1
5(0.10 + 0.15)2 + 2 5 3(0.10 + 0.15)(1.9 2.5)
2(0.37)
2
+ 55(1.9 2.5)
18.9125/2
= 25.79 .
0.37
On a F2;3;0.05 = 9.55
et
F2;3;0.01 = 30.82
66
[5.636
(3.182)(0.61)
1 (3.5 3)2
+
5
10
si = 0.05.
7.464].
[6.175 ,
16.426].
1 (6 3)2
+
5
10
67
CHAPITRE III
`
COMPLEMENT
DALGEBRE
MATRICIELLE
68
3.1.3 Propri
et
es des matrices d
enies positives.
(1) Si A est denie positive, alors:
A est reguli`ere.
aii > 0 pour tout i.
Si B est n m et de rang m, B AB est denie positive (corollaire: B B est
denie positive).
(2) A est denie positive si et seulement si:
Il existe une matrice B reguli`ere telle que A = B B, ou:
Toutes ses valeurs propres sont strictement positives, ou:
Tous ses mineurs principaux sont strictement positifs, ou:
Tous les mineurs principaux de A alternent en signe, en commencant par
moins, ou:
Il existe une matrice D reguli`ere telle que DAD = I.
3.2 Matrices sym
etriques idempotentes
Soit A une matrice n n avec A = A et AA = A. Nous avons les resultats suivants:
3.2.1 A est r
eguli`
ere si et seulement si A = I.
D
emonstration
Si A est reguli`ere, premultiplions les deux membres de AA = A par A1 . Cela donne:
A1 AA = A1 A,
soit aussi IA = I. La reciproque est immediate.
3.2.2 Les valeurs propres de A sont 0 ou 1.
D
emonstration
Si est une valeur propre de A, Ax = x pour un vecteur x = 0. En premultipliant les
deux membres par A:
AAx = Ax,
donc aussi Ax = 2 x, en utilisant AA = A et Ax = x; nous avons alors x = 2 x, ce qui
demontre la propriete.
69
3.2.3 Le d
eterminant de A est 0 ou 1.
D
emonstration
Evidente, car le determinant dune matrice est egal au produit de ses valeurs propres.
3.2.4 Le rang de A est
egal `
a sa trace.
D
emonstration
Comme A est symetrique, il existe une matrice orthogonale C telle que C AC =
diag(1 , 2 , . . . , n ).
On a alors:
tr A = tr CC A
tr C AC
tr diag(1 , 2 , . . . , n )
rang de A
E
G
F
H
A1 =
E 1 (I + F D1 GE 1 ) E 1 F D1
D
GE
=
x
......
x1
xn
.
70
De meme, si x est n 1:
/x1
..
=
.
x
/xn
v1
x1
...
vn
x1
v1
xm
...
vn
xm
= ...
x
..
.
a11
(Ax)
=
...
x
a1m
a21
...
an1
..
= A
.
..
.
a2m
...
anm
De meme:
(x A)
=A .
x
Pour une forme quadratique, si A est n n et symetrique, on a:
Par exemple, si A =
2 1
1 3
(x Ax)
= 2Ax
x
(x Ax)
x
4x1
+ 2x2
2x1
+ 6x2
2Ax .
71
CHAPITRE IV
COMPLEMENT
DANALYSE STATISTIQUE MULTIVARIEE
X1
.
X = .. .
Xn
Cette generalisation est la suivante:
fX (x) = (2)
n/2
12
(det )
"
1
1
exp (x ) (x ) ,
2
o`
u:
E (X1 )
..
=
= E (X)
.
E (Xn )
est le vecteur des esperances mathematiques des composantes de X, et est une matrice
denie positive, dite matrice de covariance, avec
[]ii
V (Xi )
[]ij
Cov(Xi , Xj )
E(Xi i )2
=
et
E(Xi i )(Xj j ) .
72
On a donc:
11
"
!
= E (X )(X ) = .12
..
12
22
1n
1n
..
.
...
..
.
...
nn
on ecrira X N (, ).
BE [(X ) (X ) ] B = BB
X =
X1
X2
n1
n n1
73
n1
n n1
11
12
21
22
n1
n1
n n1
n n1
alors X1 N (1 , 11 ) et X2 N (2 , 22 ).
D
emonstration
Soit B une matrice n1 n denie comme:
B
( In 1
On1 (nn1) ) .
BB
=
=
( In 1
On1 (nn1) )
11
12
21
22
In 1
O(nn1 )n1
11 .
C MC
Ik
Ok(nk)
O(nk)k
O(nk)(nk)
Soit Y = C X. Nous avons Y N (0, C IC), cest-`a-dire Y N (0, I). Par consequent:
74
X MX
X (CC )M(CC )X
X C(C MC)C X
k
Ik O
Yi2 2k
Y =
Y
i=1
O O
4.2.4 Ind
ependance des fonctions lin
eaires et des formes quadratiques.
Soit X
B
M
On a
( F1
F2 )
Ik
O
BCC MC = BMC = O,
75
D
emonstration
Soit C la matrice orthogonale precedente et Y = C X.
Considerons alors la matrice symetrique:
G1
G2
On a:
G1
G2
G2
G3
Ik
O
G2
C M C
o`
u G1
est k k .
G3
O
C M CC MC
C M MC = O
O O
Y
X M X = X CC M CC X = Y GY = Y
O G3
ne depend que des n k derniers elements de Y , qui sont independants des k premiers;
k
comme X MX = i=1 Yi2 , la proposition est demontree.
4.3 Application: calcul de la distribution sous H0 de la statistique t
Test: H0 : = 0 contre H1 : = 0
Echantillon: yi N (, 2 ) independantes.
On a vu au chapitre V de la premi`ere partie que la statistique a` employer est:
tobs =
y 0
s/ n
avec s2 =
1
2
(yi y)
n1
Quelle est la distribution de tobs si H0 est vraie? On va montrer que tobs tn1 .
Solution: on peut ecrire:
tobs
y 0
N
/ n
=
=
2
D
(yi y)
(n 1) 2
N = Bx
(yi y)2
= x Mx
2
76
o`
u:
y 0 i
1
B = i
n
x=
1
ii
n
i etant un vecteur n 1 dont tous les elements sont unitaires.
M =I
77
CHAPITRE V
LE MODELE
DE REGRESSION
MULTIPLE
5.1 Le mod`
ele et ses hypoth`
eses
Les notions presentees dans les deux chapitres precedents vont nous permettre de generaliser les resultats des chapitres I et II `a un mod`ele econometrique possedant un nombre
arbitraire k de variables explicatives, soit:
yt = 1 + 2 xt2 + 3 xt3 + . . . + k xtk + ut
pour t = 1, 2, . . . , n
Pour prendre un exemple, il est raisonnable de supposer quune loi de demande comprenne comme variable explicative non seulement le prix PY du bien demande, mais aussi
le prix PX dun substitut et le revenu R du consommateur. Nous aurions alors:
yt = 1 + 2 (PY )t + 3 (PX )t + 4 Rt + ut
Une formulation matricielle du mod`ele simpose. Il peut secrire sous la forme suivante:
y1
y2
.
.
.
yn
1
1
.
..
x12
x22
..
.
...
...
..
.
1
x1k
x2k 2
.
..
.
.
.
xn2
...
xnk
u1
u2
.
..
un
soit y = X + u, o`
u y est un vecteur n 1 dobservations sur la variable dependante, X
est une matrice n k dobservations sur les variables explicatives, est un vecteur k 1
de param`etres inconnus et u est un vecteur n 1 derreurs aleatoires inobservables.
Nous faisons les hypoth`eses suivantes:
H1 : E(u) = 0
H2 : E(uu ) = 2 I
H3 : X est non aleatoire
H4 : rang(X) = k < n
78
Lhypoth`ese H2 implique que les erreurs sont de meme variance, et non correlees. Si
lhypoth`ese H4 netait pas satisfaite, il existerait une relation lineaire exacte entre certaines
des colonnes de X: En substituant cette relation dans lequation de regression, on pourrait
alors supprimer un regresseur. Ceci revient `a dire que le vecteur ne pourrait pas etre
estime de mani`ere unique.
Notons que nous ne faisons pas encore dhypoth`eses sur la forme fonctionnelle de la
distribution de u.
5.2 Les estimateurs de moindres carr
es
Lestimateur de moindres carres sera obtenu, comme precedemment, en minimisant
Cette somme de
la somme des carres des residus. Le vecteur des residus est u
= y X .
carres peut donc secrire:
u
u
(y X )
(y X )
y y X y y X + X X
y y 2 X y + X X .
u
u
2X y + 2X X = 0
Comme X est de rang k, X X est denie positive, donc reguli`ere (voir 3.1.3. (1)), et
nous pouvons ecrire:
(X X)1 X y
Par ailleurs, les conditions de second ordre pour un minimum sont satisfaites, puisque
u
= 2X X
79
5.3.1 Esp
erance de .
est un estimateur sans biais de puisque:
E()
E (X X)1 X (X + u)
E + (X X)1 X u
+ (X X)1 X E(u) =
V ()
E ( )( )
E (X X)
X uu X(X X)
2 (X X)1
5.4 Le th
eor`
eme de Gauss-Markov
Nous allons montrer que est le plus ecace des estimateurs lineaires de . Plus
=
precisement, si est un autre estimateur lineaire sans biais de , cest-`a-dire si E()
et = Ay, les variances de ses composantes ne peuvent etre inferieures `a celles des
composantes de :
V (i ) V (i )
pour i = 1, 2, . . . , k
80
D
emonstration
Soit donc = Ay un autre estimateur lineaire de . Nous pouvons supposer sans perte
de generalite que:
A = (X X)1 X + C.
Alors:
= (X X)1 X + C (X + u)
= + (X X)1 X u + CX + Cu = [I + CX] + Au
est un estimateur sans biais de si et seulement si CX = O. Nous imposons donc cette
condition, qui implique que = + Au.
La matrice de covariance de est alors:
E ( )( )
E Auu A
2 AA
2 (X X)1 X + C X(X X)1 + C
2 (X X)1 + (X X)1 X C + CX(X X)1 + CC
2 (X X)1 + CC
+ 2 CC
V ()
puisque CX = O
Mais les elements de la diagonale de CC sont des sommes de carres, donc non negatives.
Les variances des composantes de sont donc superieures ou egales aux variances des
composantes de .
81
X + u X X(X X)1 X u
=
I X(X X)1 X
u
def
Mu .
Alors u
u
= u M Mu = u Mu .
)
E(
uu
puisque u Mu
est un scalaire
Mais trM
nk.
) = (n k) 2 et s2 =
Alors E(
uu
u
u
nk
82
5.6 D
ecomposition de la variance: les coecients de d
etermination R2 et R2
Nous commencons, comme `a la section 1.9, par demontrer une formule de calcul de u
u
.
Lemme
u
u
= y y X y
D
emonstration
u
u
(y X )
(y X )
y y 2 X y + (X X)
y y X y
puisque (X X) = X y .
SCT
(yt y)
2 2
yt y +
u
t ,
SCE
et
SCR .
(yt y)2 = y y
soit:
(
yt y)
2
(X )
(i X )
(X )
n
(i y)2
(X X)
n
i X + i u
(i y)2
X y
n
(puisque i y
et i u
= 0)
(i y)2
n
83
Par le lemme, nous avons y y = u
u
+ X y,
donc
cest-`a-dire
SCT
(i y)2
y y
n
SCE
2
(i
y)
= X y
+u
u ,
n
SCR ,
Q.E.D.
Il faut bien noter que cette identite nest valable que dans un mod`ele o`
u la somme des
residus est nulle (i u
= 0). Tel sera bien le cas lorsque le mod`ele de regression comporte un
terme constant, puisque i est la premi`ere ligne de X et puisque les equations normales
= 0.
impliquent X u
A partir de cette identite, nous pouvons denir, dans un mod`
ele avec terme constant, le coecient de determination comme:
(i y)
X y n
SCR
SCE
2
=1
=
R =
2
SCT
SCT
y y (i ny)
u
u
2 = 1 SCR/n k = n 1 R2 k 1
R
SCT/n 1
nk
nk
qui est, lui, base sur des estimateurs sans biais des variances. Si lon ajoute un regresseur,
2 .
R2 crotra toujours (non strictement); ceci nest pas le cas pour R
Dans un mod`
ele sans terme constant, la somme des residus nest pas necessairement nulle et la decomposition precedente (SCT = SCR +SCE) nest donc plus valable.
Le R2 precedent nest donc pas necessairement compris entre 0 et 1. Neanmoins, on a
toujours, en vertu du lemme:
u
= y y + u
u
y y = X y + u
avec y = X .
On peut alors denir:
R2
u u
y y
= =1
yy
yy
qui est, lui, toujours compris entre 0 et 1. Ce coecient R2 peut etre utilise dans tous
les cas, tant dans un mod`ele sans constante que dans un mod`ele avec constante. Mais son
interpretation est dierente de celle du R2 .
Comme precedemment, nous pouvons ajuster ce dernier coecient de determination
aux nombres de degres de liberte, comme suit:
n1 2 k1
u/(n k)
2 = 1 u
R
=
R
.
y y/(n 1)
nk nk
84
Interpr
etation des coecients de d
etermination:
Nous verrons plus loin que R2 est une fonction monotone de la statistique F `a employer
pour tester la nullite de tous les coecients de regression sauf la constante.
Nous verrons aussi que R2 est une fonction monotone de la statistique F `a employer
pour tester la nullite de tous les coecients, constante comprise.
On peut montrer que R2 est le carre du coecient de correlation entre les valeurs
observees yt et les valeurs yt calculees `a laide de lequation de regression estimee.
5.7 Probl`
emes particuliers: multicolin
earit
e,
biais de sp
ecication, variables muettes
5.7.1 Multicolin
earit
e.
(1) Comme nous lavons dej`a mentionne, lexistence dune relation lineaire exacte entre
les colonnes de X nous empeche de determiner lestimateur de mani`ere unique. Ce
cas est un cas extreme de multicolinearite. Mais il arrive souvent que certaines des
colonnes de X presentent une dependance lineaire approximative. Les consequences
de ce phenom`ene sont les suivantes:
un manque de precision dans les estimations des i , se traduisant par de fortes
variances;
les estimations des i presenteront souvent des distortions importantes, dues a`
des raisons numeriques. Le nombre de chires signicatifs des emplacementsmemoire dun ordinateur est en eet limite, ce qui se traduit par un manque
de stabilite des programmes dinversion matricielle, pour des matrices qui
sont presque singuli`eres.
Pour illustrer le premier point, reprenons le mod`ele de regression simple
yt = a + bxt + ut . Nous avons vu que
2
V (b) =
)2
(xt x
85
ce qui a donc pour eet de supprimer un regresseur. Ceci peut resoudre le probl`eme. Essentiellement, linformation a priori + = 1 supplee au defaut dinformation present dans lechantillon (tentative destimer trop de param`etres avec trop
peu de donnees).
Cette information a priori peut egalement prendre une forme stochastique, non
deterministe. Nous etudierons ce point lorsque nous verrons les methodes bayesiennes.
5.7.2 Biais de sp
ecication.
Examinons maintenant le probl`eme du choix dune forme fonctionnelle, cest-`
a-dire du
choix de la liste des regresseurs. Comme nous allons le montrer, lomission dune variable
avec 2 = 0
et E(u) = 0
et que lon omette les colonnes de X2 de la liste des regresseurs. On estimerait alors par
moindres carres le mod`ele
y = X1 1 + u
avec
u = X2 2 + u
sera biaise.
86
si t T1
Dt = 0
si t T1
o`
u T1 {1, 2, . . . , n}.
Une telle variable, incluse dans la liste des regresseurs, pourrait par exemple indiquer
la presence ou labsence de guerre, ou classier des donnees selon un crit`ere saisonnier.
Pour des donnees mensuelles, sil ny pas de variations saisonni`eres `a linterieur dun meme
trimestre, on pourrait poser:
D1t
D2t
D3t
D4t
=1
=1
=1
=1
si
si
si
si
t
t
t
t
est
est
est
est
un
un
un
un
mois
mois
mois
mois
du
du
du
du
Les quatre colonnes des regresseurs D1 , D2 , D3 , D4 pour les 12 mois dune annee
auraient alors la forme suivante:
1
Nous ne pourrions pas inclure de constante dans ce mod`ele, puisque la somme de ces
quatre vecteurs est un vecteur de uns. On aurait alors colinearite parfaite. Les coecients
des variables Di sont en fait des constantes speciques `a chaque saison.
87
Une autre possibilite serait dinclure une constante, et de supprimer lune des variables
Di , par exemple D1 . Les coecients de D2 , D3 et D4 mesureraient alors leet relatif des
facteurs saisonniers: les constantes speciques seraient 1 , 1 + 2 , 1 + 3 , 1 + 4
plut
ot que 1 , 2 , 3 , 4 .
Notons aussi que les variables muettes permettent la specication de pentes variables.
Si Dt = 1 pour une periode de guerre, = 0 sinon, et que lon a des raisons de penser que
la propension marginale a` consommer dans le mod`ele:
Ct = + Yt + ut
est dierente en temps de paix et en temps de guerre, on pourra estimer les param`etres
du mod`ele:
Ct = + bDt Yt + c(1 Dt )Yt + ut
et b sera lestimateur de la propension marginale a` consommer en temps de guerre, c
lestimateur de cette propension en temps de paix.
5.8 Estimateurs par maximum de vraisemblance
Nous faisons ici lhypoth`ese que le vecteur u a une distribution normale:
H5
u N (0, 2 I) .
2 n/2
loge L
n
1
=
+
(y X) (y X) = 0
2
2 2
2 4
u
u
comme estimateur de
88
1
2 (2X y + 2X X)
2
n
1
2 + 4 (y X) (y X)
2
2
1
(X X)
(X
y
+
X
X)
2
4
H =
n
1
1
(y X + X X)
6 (y X) (y X)
4
2 4
O1k
, on obtient:
(X X)
1
n (y X ) (y X )
Ok1
n
4
2
89
(logY )2
logY
logY logX1
logX2 logY
logY
n
logX2
11.8
7.1
logX2 logX1
10
4.1
4.1
On a:
(X X)
10
Xy
11.8
7 1
1 7
7.1
4.1
2 2
et
yy
logX2
logX1 logX2
(logX2 )2
logX1
logY logX2
(logX1 )2
logX1
logY logX1
19.34
90
(X X)
1
=
432
48
12
12 12
12
66
66
1
= (X X) X y = 0.7
0.2
X y
17.59
u
u
19.34 17.59
s2
0.25
R2
2
R
9
(0.677)
7
1.75
1.75
19.34
(11.8)2
10
2
7
0.677
0.585 .
Les resultats peuvent etre resumes de la facon suivante (les estimations des ecarts-types
se trouvent entre parenth`eses):
log Y = 1
(0.167)
0.7
(0.195)
log X1
+ 0.2
logX2
(0.195).
2 = 0.585)
(R
91
CHAPITRE VI
MOINDRES CARRES
o`
u R est une matrice J k de rang J , r est un vecteur J 1, et c est le vecteur des
estimateurs de sous contraintes.
Dans notre exemple precedent, nous pourrions vouloir imposer la contrainte que les
rendements dechelle sont constants, cest-`a-dire estimer les param`etres 1 , 2 , et 3 de:
logY = 1 + 2 logX1 + 3 logX2 + u ,
sous la contrainte 2c + 3c = 1, o`
u 2c et 3c sont les estimations contraintes de 2 et
3 . On aurait alors:
R
(0
1 1)
et r = 1 .
Notons que ce probl`eme pourrait aussi etre resolu par substitution; cest ce que nous
avons fait a` la section 5.7.1 (3). Mais une presentation matricielle nous sera tr`es utile
lorsque nous verrons, au chapitre 7, le test de R = r.
Nous minimisons la somme des carres des residus sous les contraintes du syst`eme
Rc = r. A cette n, nous ecrivons ce syst`eme comme 2(Rc r) = 0, et nous formons le
Lagrangien:
(y X c ) (y X c ) 2 (Rc r)
o`
u est un vecteur ligne de J multiplicateurs de Lagrange. Le syst`eme de conditions
de premier ordre peut secrire:
92
(1)
(2)
2(Rc r)
0 .
En vertu de (1), on a:
(3)
+ (X X)1 R
o`
u
(X X)1 X y
En premultipliant par R:
Rc
R + R(X X)1 R
1
[r R].
Ceci implique = R(X X)1 R
En substituant dans (3), il vient:
(4)
1
1
[r R]
c = + (X X) R R(X X)1 R
93
(4), il vient:
1
r R R(X X)1 X u
X u + (X X)1 R R(X X)1 R
+ (X X)
1 1
R (X X) X u
+ I (X X)1 R R(X X)1 R
sous lhypoth`ese R = r
def
+ A(X X)1 X u .
E c c
2 A(X X)1 A
alors:
On verie aisement que si V = 2 (X X)1 = V (),
V R (RV R )1 RV
V (c ) = V ()
Comme la seconde matrice de la dierence est denie non negative, les elements de sa
diagonale sont non negatifs et V (ic ) V (i ), Q.E.D.
Exemple
Reprenons le mod`ele et les donnees de la section 5.9. Nous voulons imposer la contrainte
que les rendements dechelle sont constants. On a:
r = 1,
R = [0 1
1]
1
432
(66 6 + 66 6) =
10
36
94
et donc:
0.7
+
36
10
12
1
432
(0.1)
12
0.2
48
0.02
0.98
0.05
66
6
66
0.75
=
0.05
+
0.7
0.2
0
6 1
12 12
0.25
6.3 D
ecomposition de la somme des r
esidus contraints
Nous allons voir dans cette section que la somme des carres des residus contraints est
toujours superieure ou egale `a la somme des carres des residus non contraints. Ceci a une
consequence sur le R2 .
Soit u
c = y X c le vecteur des residus contraints. On a:
c = (y X c ) (y X c )
u
c u
= (y X + X X c ) (y X + X X c )
= (
u + X[ c ]) (
u + X[ c ])
+ 2( c ) X u
+ ( c ) X X( c )
=u
u
=u
u
+ ( c ) X X( c ).
Mais le second terme de cette somme est positif ou nul, car X X est denie positive.
On a donc :
c u
u
uc u
et comme:
=1
u
cuc
(yt y)2
R2 = 1
u
u
(yt y)2
R2c
95
CHAPITRE VII.
INFERENCE
STATISTIQUE EN REGRESSION
CLASSIQUE
2 n/2
L(, ) = (2 )
!
"
1
exp 2 (y X) (y X)
2
maxH0 L(, 2 )
;
max L(, 2 )
96
Lestimation du mod`ele sous H0 et sous a dej`a ete traitee. On avait obtenu sous H0 :
1
c = + (X X)1 R R(X X)1 R
r R
c2 =
1
1
(y X c ) (y X c ) = u
u
c ,
n
n c
et sous :
= (X X)1 X y
2 =
1
(y X )
= 1u
(y X )
u.
n
n
c2 )
L(c ,
L(,
2 )
n
c2
(2)
exp 2
2
c
=
n
2
n/2
2
n/2
(2)
(
)
exp 2
2
2 n/2
c
=
2
n/2
c
u
c u
=
u u
n/2
+u
c u
c u u
u
u
=
u
u
n/2
Q
= 1+
u
u
n/2
o`
u:
(
c2 )n/2
c u
u
.
Q=u
c u
Q = u Lu,
avec:
97
nk
.
J
L = L
(2)
LL = L
(3)
rang(L) = trace(L) = J
(4)
si M = I X(X X)1 X ,
alors LM = O.
.
Le fait que u Mu = u
u
et les resultats de la section 4.2 impliquent alors, puisque
u
N
(0,
I):
u u
Q
2J sous H0
=
L
2
u
u
u u
=
M
2nk
2
Q
Q/J
Q/[ 2 J ]
=
=
J s2
u
u
/(n k)
u
u
/[ 2 (n k)]
est un rapport de deux 2 independantes divisees par leurs nombres de degres respectifs
et a la distribution FJ,nk sous H0 .
En utilisant:
=
Q
1+
u
u
n/2
98
nk
.
J
Q=u
c u
c u
u
c2
1
nk
.
J
Donc pour calculer Fobs, il sut destimer les mod`eles contraints et non contraints et
de comparer les variances estimees.
7.4 D
erivation de la statistique F `
a laide du crit`
ere de Wald
A la section 5.4 de la premi`ere partie, nous avions enonce la statistique de Wald pour
le test dune hypoth`ese portant sur un seul param`etre inconnu i , et nous avions vu que
cette statistique:
(i 0 )2
W=
V (i )
pouvait etre interpretee comme le carre dune distance entre les estimations sous les hypoth`eses nulle et alternative.
Ici, nous avons un test joint de J hypoth`eses: celui de H0 : R = r contre H1 : R = r.
En posant R = , on peut considerer ce test comme celui dune hypoth`ese nulle sur .
Lexpression precedente va devenir une forme quadratique, qui peut etre interpretee comme
le carre dune distance dans un espace a` J dimensions. Lexpression precedente peut etre
generalisee comme suit:
1 (R r)
W = (R r) [V (R)]
est lestimation
o`
u est lestimation de par maximum de vraisemblance et o`
u V (R)
On a:
par maximum de vraisemblance de la matrice de covariance de R.
= (X X)1 X y
= R[ 2 (X X)1 ]R
V (R)
= 2 R(X X)1 R
=
V (R)
2 R(X X)1 R
99
avec
2 = u u
/n. En substituant et en utilisant Fobs = Q/(J s2 ), on obtient:
W=
2
Q
J
J
=
nk 2
s
n
=
Jn
Fobs.
nk
Donc:
nk
W
Jn
est bien une fonction monotone de la statistique de Wald.
Fobs =
7.5 D
erivation de F `
a partir du crit`
ere des multiplicateurs de Lagrange
A la section 5.5 de la premi`ere partie, nous avions formule la statistique LM pour le
test dune hypoth`ese H0 : i = 0 comme:
LM =
0
V0 ()
0 . Dautre part,
Comme ce vecteur ne depend pas de param`etres inconnus, il est ici egal a`
comme il est proportionnel au vecteur des multiplicateurs de Lagrange pour la maximisation contrainte de la vraisemblance, on peut lutiliser pour deriver la statistique LM (le
facteur de proportionnalite se simplie). Sa matrice de covariance est la suivante:
= 2 [R(X X)1 R ]1 .
100
Donc:
V0 () =
02 [R(X X)1 R ]1
(2)
o`
u
02 = u
c u
c /n.
02
Q
= 2.
0
=
2 + Q/n
1
2
= 0 =
= +
LM
Q
Q
n
Q
nk 2
s
1
n
= +
Q
n
J
J
J Fobs + n k
=
nJ Fobs
et donc:
LM =
nJ Fobs
.
J Fobs + n k
H0 : i = i0
contre H1 : i = i0
la matrice R prendra la forme
(0 0
...
0 ...
101
0)
o`
u lunite apparait en i`eme position. r est le scalaire i0 .
On obtient alors:
Fobs
(i i0 )2
F1;nk = t2nk
s2 [(X X)1 ]ii
et la statistique
tobs
(i i0 )
#
s [(X X)1 ]ii
(X X)/k
Fk;nk
s2
sous H0 .
Il est interessant detablir un lien entre cette statistique et le R2 , car ceci nous permettra
denoncer des valeurs critiques pour ce dernier. La statistique peut secrire:
nk
y y
Fobs =
u
u
k
y y/y y
nk
=
u
u
/y y
k
nk
R2
.
=
1 R2
k
Donc Fobs est bien une fonction monotone du R2 . Sa reciproque est donnee par:
R2 =
kFobs
n k + kFobs
102
kFk,nk,
.
n k + kFk,nk,
Ceci indique que le seuil critique de R2 tend vers zero lorsque le nombre dobservations n
tend vers linni. Par exemple, un R2 de 0, 10 sera signicatif au seuil = 0, 05 si n = 122
et k = 2; mais il ne le sera pas pour k = 2 et n = 22.
7.6.3 Test de nullit
e de tous les coecients sauf la constante; lien avec R2 .
Le vecteur des k 1 derniers coecients de regression peut secrire:
2
..
= . .
k
Nous voulons tester:
H0 : = 0
contre = 0.
Ik1 ) ,
r = 0.
La matrice R est donc de genre k 1 k et le vecteur r est de taille k 1; nous avons
un cas particulier du test F avec J = k 1.
Nous allons montrer que la statistique peut secrire:
R2
nk
Fobs =
1 R2
k1
et le R2 sera donc signicatif (de mani`ere equivalente, on rejettera H0 ) si:
R2 >
(k 1)Fk1,nk,
.
n k + (k 1)Fk1,nk,
y1 y
.
u
c = ..
yn y
Par consequent:
Q=u
c u
c u u
=
103
(yt y)2 u
u
Q
= 1 (1 R2 ) = R2
(yt y)2
et donc:
Fobs =
u
u
= 1 R2
(yt y)2
u
c u
c u u
u
u
nk
R2 n k
=
k1
1 R2 k 1
.
7.6.4 Test sur une combinaison lin
eaire des coecients.
Nous avons ici le test:
H0 : c = r
contre H1 : c = r
o`
u c est un vecteur k 1 de constantes et r est un scalaire. La statistique `a employer
prend alors la forme suivante:
Fobs
(c r)2
F1;nk = t2nk
s2 (c (X X)1 c)
et la statistique:
tobs
c r
#
=
s c (X X)1 c
y1
y2
=
X1
O
O
X2
1
2
+
u1
u2
104
o`
u y1 et u1 sont n1 1, y2 et u2 sont n2 1, X1 est n1 k, X2 est n2 k, et 1 et 2 sont
k 1. Sous lhypoth`ese alternative, 1 = 2 . On a ici 2k regresseurs. On veut tester:
H0 : 1 = 2
contre H1 : 1 = 2 .
k
Le mod`ele contraint correspond aux hypoth`eses classiques avec:
X1
X=
.
X2
Donc, en utilisant le lemme de la section 5.6:
u
u
c = y y X y = y [I X(X X)1 X ]y = y My.
c
1
2
.
Par consequent la somme des carres des residus dans le mod`ele non contraint est de:
u
u = y y X y = y [I X (X X )1 X ]y = y M y.
et u
c u
c par les valeurs trouvees, on obtient:
En remplacant, dans lexpression de Fobs , u u
n 2k
y My y1 M1 y1 y2 M2 y2
Fobs =
y1 M1 y1 + y2 M2 y2
k
et on rejette lhypoth`ese de stabilite structurelle si:
Fobs > Fk,n2k,.
105
7.7 Intervalles de pr
evision
Supposons que nous observions k valeurs futures des k regresseurs `a une periode
suivant la derni`ere periode de lechantillon. Ces valeurs forment un vecteur de dimension
1 k, soit x .
Nous desirons, comme precedemment (section 2.4), calculer un intervalle de prevision
centre sur la prevision y de la variable dependante.
Si le mod`ele reste inchange `a la periode , on a:
y = x + u
avec:
E(u u1 ) = = E(u un ) = 0
et:
y = x .
Sous lhypoth`ese u N (0, 2 ), trouvons la distribution de lerreur de prevision:
y y = u x ( ) .
Cest une variable normale de param`etres:
E(y y )
V (y y )
2 + E x ( )( ) x
2 + 2 x (X X)1 x
y y
1 + x (X X)1 x
et W
u u
2
(n k)
106
V est une variable N (0, 1). u2u est une variable 2 avec n k degres de liberte, puisque
N (0, 1), u
u
= u Mu et rang M = n k (section 4.2).
Les deux sont independantes puisque V ne depend que de u et de:
( ) = (X X)1 X u
et que:
(X X)1 X I X(X X)1 X = O.
tobs
y y
#
tnk
s 1 + x (X X)1 x
nk;
2
$
s 1 + x (X X)1 x
tobs
0.2
#
0.5 66/432
1.023 .
Comme t7;0.025 = 2.365 > 1.023, nous ne rejetons pas H0 au seuil de signication
= 0.05.
107
H0 : 1 = 1,
contre
H1 : 1 = 1
2 = 1,
3 = 0
ou 2 = 1
ou 3 = 0
Ceci donne:
Fobs
(0
3(0.25)
10 2
0.3 0.2 ) 2
1 0.3
0.2
H0 : 1 = 0.5
et 2 = 0.5
H1 : 1 = 0.5
ou 2 = 0.5 .
Fobs
=
On rejette donc H0 .
432
( 0.5 0.2 )
2(0.25)
5.949 > 4.74 = F2;7;0.05
48
12
12
66
0.5
0.2
108
7.8.4 Si nous voulons tester lhypoth`ese que la production de vin ne depend pas des facteurs
X1 et X2 , nous avons:
H0 : 2 = 0
et 3 = 0
H1 : 2 = 0
ou 3 = 0
Ceci donne:
Fobs
R2 /2
(1 R2 )/7
F2;7;0.05
H0 : 2 + 3 = 1
H1 : 2 + 3 = 1 .
Nous avons c = ( 0
1 1 ) et
r=1.
On a
c (X X)1 c
(0
432
120
432
48
12
1 1)
12
12
66
6
Ceci donne
tobs
1 0.7 0.2
#
(0.5) 120/432
0.1
(0.5)(0.527)
6
1
66
1
12
109
7.8.6 Supposons quun onzi`eme vigneron vaudois engage 2 unites de main-doeuvre (X1 )
et emploie 3 unites dengrais (X2 ). Entre quelles bornes sa production de vin aura-t-elle
95 chances sur 100 de se situer? On a:
loge 2
0.69315
loge 3
1.09861
loge y11
1 + (0.7)(0.69315) + (0.2)(1.09861)
1.70493
1
432
(1
48
0.69315 1.09861 ) 12
12
12
12
66
6 0.69315 = 0.2482.
66
1.09861
(2.365)(0.5)
1.2482 soit
[0.384 ;
3.026]
20.616]
0.384 + 3.026
2
= 5.5) .
110
CHAPITRE VIII
GEN
ERALIS
MOINDRES CARRES
ES:
LA METHODE
DE AITKEN
8.1 Introduction
Dans beaucoup de mod`eles econometriques, lhypoth`ese que les erreurs sont de variance
constante et ne sont pas correlees entre elles ne peut pas etre faite. Cest ainsi que dans
notre exemple numerique precedent, la production de vin par hectare de deux agriculteurs
voisins pourrait fort bien etre inuencee par des conditions exog`enes (meteorologiques ou
autres) communes, ce qui se traduirait par une correlation des erreurs.
Que se passerait-il si lon appliquait la methode des moindres carres ordinaires a` un tel
mod`ele? Nous verrons plus loin que les estimateurs i obtenus seraient toujours sans biais,
mais quils seraient inecaces; de plus, les estimateurs de leurs variances seraient biaises.
La methode de Aitken permet heureusement de remedier dans une large mesure `a cet
etat de choses.
8.2 Exemples
8.2.1 Agr
egation des donn
ees.
On veut estimer les param`etres du mod`ele y = X + u avec E(u) = 0 et E(uu ) = 2 I,
avec y = Gy, X
= GX. Pour prendre
mais lon ne dispose que de donnees agregees y et X
un exemple, supposons que les donnees que lon poss`ede soient les moyennes des deux
premi`eres observations, des trois suivantes et des quatre derni`eres. La matrice G a alors la
forme suivante:
1/2
1/2
1/3
1/3 1/3
0
1/4 1/4
1/4 1/4
111
+ u.
y = X
1/2
0
0
2
= 0
1/3 0
1/4
pour i = 1, . . . , N
y1
.
..
yN
X1
O
O
X2
...
...
..
.
O
O
..
.
.
..
...
.
..
u1
uN
XN
o`
u les yi sont des vecteurs T 1, les Xi sont des matrices T ki , les i sont des vecteurs
ki 1, et les ui sont des vecteurs T 1. On fait lhypoth`ese E(ui uj ) = ij I. Nous avons
donc labsence de correlation dans le temps, mais pas entre les equations (les erreurs de
112
deux equations dierentes sont correlees `a la meme periode). Si lon ecrit lequation de
regression precedente comme y = X + u, la matrice de covariance du vecteur u secrit:
u1 u1
E(uu ) = E ...
uN u1
...
..
.
...
u1 uN
11 IT
.. = ..
.
.
1N IT
uN uN
...
..
.
1N IT
..
...
N N IT
1/2
= diag
1
1
,...,
1
n
.
1
soit 1 = T 1 (T )1
= T T
113
(X T T X)1 X T T y
mcg
(X 1 X)1 X 1 y
(X V 1 X)1 X V 1 y
soit aussi:
et lon a:
= E( )( ) = 2 (X T T X)1 = 2 (X 1 X)1
V ()
1
nk
u
u
1
nk
(y X mcg ) (y X mcg )
1
nk
(y X mcg ) T T (y X mcg )
1
nk
(y X mcg ) 1 (y X mcg ) .
E(mco )(mco )
E (X X)1 X uu X(X X)1
=
2 (X X)1
114
8.4 La pr
evision dans le mod`
ele de Aitken
Nous avons donc le mod`ele y = X + u, avec E(u) = 0 et E(uu ) = 2 = V . Nous
voulons predire une valeur future y de la variable dependante, conditionnellement a` un
vecteur futur dobservations sur les k variables explicatives. Si le mod`ele reste inchange et
si u est lerreur future, nous pouvons ecrire:
y
x + u
avec E(u )
0,
E(u2 ) = 2
et E(u u) = w
E(y p)2
E(c u u )(c u u )
c V c + 2 2c w.
puisque p
est un scalaire
puisque x c X = 0
115
V
X
X
V 1 I X(X V 1 X)1 X V 1
(X V
X)
XV
V 1 X(X V 1 X)1
(X V
X)
V 1 I X(X V 1 X)1 X V 1 w + V 1 X(X V 1 X)1 x
et
c y
mcg
x mcg + w V 1 u
avec
u
mcg = y X mcg
On sapercoit donc que le meilleur previseur lineaire sans biais sobtient en ajoutant a` la
mcg , qui depend notamment du vecteur
valeur calculee x mcg un terme correcteur w V 1 u
w des covariances entre les erreurs passees et lerreur future, et du vecteur de residus umcg .
116
P = X V 1
Q = X V 1 X
M = (V 1 P Q1 P ).
Q1 P V M
M V M
Alors:
c V c
w M V Mw + w M V P Q1 x + x Q1 P V Mw + x Q1 P V P Q1 x
w Mw + x Q1 x
De meme:
c w = w Mw + x Q1 P w
2 2
c w + c V c
2 2x Q1 P w + x Q1 P V P Q1 x
2 2x Q1 P w + x Q1 x
p2 + w Mw
117
Nous allons montrer que la matrice M est denie non negative . Comme V 1 est denie
positive, il existe une matrice B reguli`ere telle que V 1 = B B (voir 3.1.3). Nous pouvons
alors ecrire:
V 1 P Q1 P
V 1 V 1 X(X V 1 X)1 X V 1
B I BX(X B BX)1 X B B
B NB
def
On verie par simple multiplication que N est symetrique et idempotente. Elle est alors
denie non negative, puisque ses valeurs propres sont 0 ou 1. Alors M = B NB est denie
non negative . Par consequent, w Mw 0, et p2 p2.
118
CHAPITRE IX
EROSC
LAUTOCORRELATION
ET LHET
EDASTICIT
E
Cette hypoth`ese a ete introduite pour remedier au probl`eme suivant. Il arrive frequemment, dans les series chronologiques, que les residus presentent une allure cyclique: soit
un residu positif tend a` etre suivi par un residu positif, et un residu negatif par un residu
negatif; soit les signes des residus successifs alternent. Le premier cas correspond `a une
autocorrelation positive des erreurs; le second cas, `a une autocorrelation negative.
Dans un mod`ele de consommation par exemple, la presence dune autocorrelation positive des erreurs pourrait traduire une certaine inertie du comportement des agents: une
consommation superieure `a la normale aurait tendance a` se poursuivre durant plusieurs periodes successives. La presence dune autocorrelation negative pourrait traduire un phenom`ene oscillatoire, lindividu compensant par une consommation moindre a` la periode t un
exc`es de consommation `a la periode t 1.
Dans un cas comme dans lautre, lhypoth`ese de non correlation des erreurs est violee.
Il faut alors appliquer la methode de Aitken. Mais il est necessaire pour cela de decrire
formellement cette dependance des erreurs, cest-`a-dire de postuler une forme explicite de
la matrice de covariance des erreurs. On fait donc les hypoth`eses suivantes:
ut
ut1 + t ,
avec:
||
<
E(t )
E(t s )
2
(t = s)
(t = s) .
pour tout t,
Lerreur ut poss`ede donc une composante systematique ut1 et une composante purement aleatoire t .
119
(ut2 + t1 ) + t
2 ut2 + t1 + t
ut =
i ti
i=0
ce qui implique:
E(ut )
i E(ti )
i=0
E(u2t )
2 (1 + 2 + 4 + . . . )
2
1 2
De meme:
E(ut ut1 )
E(ut1 (ut1 + t ))
E(u2t1 ) =
2
= u2
1 2
120
E(ut ut2 )
E(ut uts )
2 E(u2t2 ) = 2 u2
s u2
...
...
..
.
..
.
..
.
n2
...
2
2
E(uu ) = u = u
...
n1
n1
n2
..
.
1 + 2
=
..
1 2
...
.
0
0
...
...
1 + 2
...
..
.
..
..
.
...
1 + 2
...
..
.
Comme nous lavons vu plus haut, il est avantageux de calculer mcg de la facon suivante:
On trouve dabord une matrice T telle que 1 = T T ; on applique ensuite les moindres
carres ordinaires a` lequation T y = T X + T u. On verie egalement par multiplication
que T est donnee par:
T =#
1 2
1 2
...
...
...
0
..
.
..
.
..
.
..
..
.
...
...
121
..
#
( 1 2 )z1
z2 z1
z = z3 z2
..
zn zn1
et appliquer les moindres carres ordinaires aux donnees transformees.
9.4 Estimation du coecient dautor
egression
9.4.1 M
ethode de Cochrane-Orcutt.
Cette methode est la plus employee. On commence par appliquer les moindres carres
ordinaires pour obtenir un vecteur u
de residus, soit u
= [I X(X X)1 X ]y. On obtient
t1 . Ceci donne:
ensuite en regressant u
t sur u
n
u
t u
t1
= t=2
n
2t1
t=2 u
On applique alors la formule des moindres carres generalises en remplacant par dans
lexpression de la matrice . Soit donc:
122
...
n2
...
n3
..
.
..
..
.
n3
...
n2
...
= ...
n2
n1
n1
n2
..
.
1 X)1 X
1 y. Ceci fournit un nouveau vecteur de residus u
=
On calcule = (X
Cette derni`ere peut servir `a calculer une troisi`eme estimation de , et ainsi de suite. On
peut poursuivre cette procedure jusqu`a la convergence des estimations de .
9.4.2 M
ethode de Durbin.
Reecrivons lequation de regression sous la forme suivante:
yt =
k
j Xjt + ut
j=1
k
(j )Xjt1 + ut1
j=1
k
j=1
k
j Xjt
(j )Xjt1 + t
j=1
qui est une equation de regression comportant 2k + 1 regresseurs. Comme les t verient
les hypoth`eses du mod`ele de regression classique, on applique la methode des moindres carres ordinaires pour estimer . (Son estimateur est celui du coecient de yt1 ). Comme yt1
est un regresseur stochastique (il depend de t1 ), nous verrons plus loin que lestimateur
ainsi obtenu nest pas sans biais.
On remplace alors, comme precedemment, par dans lexpression de , et applique
la formule des moindres carres generalises.
Notons que lestimateur = (X 1 X)1 X 1 y sappelle parfois lestimateur Aitken
1 X)1 X
1 y sappelle alors lestimateur Aitken-realisable.
pur ; = (X
123
(
ut u
t1 )2
t=2
n
2t
t=1 u
dobs =
o`
u les ut sont les residus des moindres carres ordinaires.
Nous allons etudier ses proprietes lorsque n tend vers linni.
Plus precisement, nous montrerons que si n est susamment grand dobs est approximativement egale `a 2 lorsque = 0; a` 0 lorsque = 1; et a` 4 lorsque = 1. En eet,
n
dobs
2t +
t=2 u
puisque:
n
2 2
t=2 u
nt1 2
t
t=1 u
n
t ut1
t=2 u
n
2t 2 t=2 u
t u
t1
t=2 u
n
,
2
t
t=2 u
n
n
t=2
n
t=1
u
2t
u
2t
n
t=2
n
u
2t1
u2t
t=2
n
1
2t tend vers
Il est raisonnable de supposer que lorsque n tend vers linni, n1
t=2 u
n
1
t u
t1 tend vers Cov(ut , ut1 ) = u2 . On a alors, en divisant numerateur
u2 et n1
t=2 u
et denominateur par n 1:
dobs
2u2 2u2
= 2(1 )
u2
124
Les r`egles de decision sont resumees dans le tableau suivant (lhypoth`ese nulle est toujours H0 : = 0):
H1
dL d < dU
d < dL
> 0 Rejeter H0
<0
dU d < 4 dU
Incertain
4 dU d < 4 dL 4 dL d
Ne pas rejeter H0
Ne pas rejeter H0
= 0 Rejeter H0
Incertain
Ne pas rejeter H0
Incertain
Rejeter H0
Incertain
Rejeter H0
Note importante: Le test de Durbin-Watson ne peut pas etre employe lorsque les
regresseurs incluent des variables endog`enes retardees.
9.6 La pr
evision dans le mod`
ele `
a erreurs autor
egressives
Nous avons vu a` la Section 8.4 que le meilleur previseur lineaire sans biais dune valeur
, avec w = E(u u), V =
future y de la variable dependante etait p = x mcg + w V 1 u
E(uu ) et u
= y X mcg . Nous allons illustrer cette r`egle de prevision dans le mod`ele `a
erreurs autoregressives dordre un, en supposant = n + 1. Le vecteur w prend la forme:
E(u1 un+1)
n1
.
.
..
..
E(u2 un+1)
2
2
= u = u
w=
..
2
.
E(un un+1)
Mais u2 [n1 . . . 1] est la
2 n1
u [
. . . 1] V 1 = [0 . . . 0 1]
=
un . La
consequent, w V 1 u
Linterpretation de cette formule est immediate. On ajoute a` la valeur calculee xn+1 mcg
un terme correcteur qui aura le signe du dernier residu de lechantillon si le coecient de
correlation entre deux erreurs successives est positif, le signe contraire sinon.
125
9.7 Le probl`
eme de lh
et
erosc
edasticit
e
Nous avons dej`a rencontre ce probl`eme `a la section 8.2.1. Lorsquil se rencontre sous
cette forme, il est tr`es facile `a traiter: la matrice E(uu ) est en eet connue, egale `a
2 diag(k1 , . . . , kn ) o`
u les ki sont des constantes positives connues.
La matrice de transformation a` utiliser est alors bien entendu diag ( 1k , . . . , 1k ): Il
1
n
sut de multiplier les k + 1 donnees correspondant `a la t-i`eme observation par 1k pour
t
retrouver une matrice de covariance scalaire.
Il existe bien s
ur dautres formes dheteroscedasticite. Il peut etre raisonnable de supposer que la variance des erreurs augmente avec la valeur absolue de lun des regresseurs, soit,
par exemple, que E(u2t ) = 2 Xt2 . Il sut alors de multiplier les donnees correspondant `a
la t-i`eme observation par 1 2 .
Xt
Plus generalement, nous allons voir quune heteroscedasticite des erreurs peut etre induite par des variations aleatoires des coecients de regression, en illustrant cette situation
`a laide dun exemple simple. Soit donc le mod`ele:
yt = a + bxt + ut
et supposons que b = b + t , o`
u b est constant en probabilite et o`
u t est une erreur
2
aleatoire avec E(t ) = 0, V (t ) = , E(t s ) = 0 pour t = s, et E(ut t ) = 0. On peut
alors ecrire:
yt = a + (b + t )xt + ut
= a + b xt + (ut + t xt )
= a + b xt + vt
avec vt = ut + t xt . On a E(vt ) = 0, E(vt vs ) = 0 pour t = s, mais:
E(vt2 ) = E(u2t ) + x2t E(2t )
= u2 + x2t 2
depend de lindice t.
Une solution possible, en grand echantillon, est de poser:
vt2 = + x2t + t
o`
u vt est un residu de la regression de yt sur xt par moindres carres ordinaires. On estime
2 . On utilise ensuite les moindres
+ x
et par MCO et on estime t2 = E(vt2 ) par
t
carres ponderes pour estimer a et b .
126
et donc:
Cov(ut , uts )
= s .
rs = #
V (ut )V (uts )
Le coecient dautocorrelation theorique decrot donc geometriquement avec s. Un tel
comportement de la fonction dautocorrelation empirique Rs est donc indicatif derreurs
autoregressives.
Pour un processus a` moyenne mobile dordre un:
ut = t + t1
o`
u les t sont des erreurs fondamentales avec E(t ) = 0 pour tout t, E(2t ) = 2 pour tout
t, et E(t ts ) = 0 pour s > 0, on a:
E(ut ut1 ) = E(t + t1 )(t1 + t2 )
= E(t t1 ) + E(t t2 ) + E(2t1 ) + 2 E(t1 t2 )
= 2
127
pour s > 1.
Par consequent:
Cov(ut , uts )
=
si s = 1;
rs = #
1 + 2
V (ut )V (uts )
= 0 si s > 1.
Ces observations peuvent etre generalisees `a des processus dordre superieur au premier.
Plus generalement, un comportement du type:
Rs = 0
pour 1 s
Rs 0
pour s >
sera indicatif derreurs a` moyenne mobile; tandis que la convergence vers zero sera graduelle
pour un processus autoregressif.
9.8.2 Le test de Breusch-Godfrey (autocorr
elation).
Ce test permet, lorsque les erreurs sont autoregressives dordre p:
ut = 1 ut1 + 2 ut2 + + p utp + t
de tester lhypoth`ese:
H0 : 1 = 2 = = p = 0
contre:
H1 : (1 , 2 , . . . , p ) = (0, 0, . . . , 0).
Contrairement au test de Durbin-Watson, le test de Breusch-Godfrey peut etre employe
lorsque lequation de regression contient des variables endog`enes retardees (yt1 , yt2 , . . . )
comme variables explicatives.
La statistique est obtenue en appliquant le principe des multiplicateurs de Lagrange
(crit`ere LM) dans le contexte du maximum de vraisemblance pour un mod`ele `a erreurs
autoregressives.
On a montre, `a laide detudes de simulation, que ce test est egalement capable de
deceler des erreurs `a moyenne mobile. Il peut donc etre considere comme un test general
de misspecication dynamique, ce qui le rend tr`es utile.
Nous ne verrons la derivation formelle de la statistique que dans un cas simple, au
chapitre XIV. Cette statistique est facile `a interpreter intuitivement: on peut montrer que
128
cette statistique est identique `a la statistique LM utilisee pour tester la nullite jointe des
i dans lequation de regression auxiliaire:
yt = 1 + 2 xt2 + + k xtk + 1 u
t1 + + pu
tp + t
o`
u les u
ts sont les residus de la regression de yt sur (1, xt2 , . . . , xtk ) par MCO. Cette
statistique a ete vue `a la section 7.5.
Si H0 est vraie, on peut montrer que la distribution limite (lorsque n ) de cette
statistique est une 2p . Cette distribution limite a neanmoins tendance a` sous-estimer les
valeurs critiques de petit echantillon (ceci a ete montre `a laide detudes de simulation).
Pour cette raison, on utilise souvent une version F de la statistique (test F de H0 : 1 =
= p = 0 dans lequation auxiliaire). Les etudes de simulation ont montre que ceci est
preferable lorsque la taille de lechantillon est faible.
9.8.3 Le test de Koenker (h
et
erosc
edasticit
e).
Rappelons qu`
a la section 9.7, nous avions vu que des variations aleatoires dun coecient de regression pouvaient se traduire par une heteroscedasticite du type:
V (ut ) = + x2t
o`
u xt est une variable explicative du mod`ele estime.
Si de telles variations aleatoires portent sur plusieurs coecients dun mod`ele de regression multiple, ceci conduit naturellement a` lhypoth`ese:
V (ut ) = + 1 x2t1 + + p x2tp
ou meme, plus generalement:
V (ut ) = + (1 xt1 + + p xtp )2 .
En pratique, un test acceptable est obtenu en remplacant (1 xt1 + + p xtp )2 par
u yt est la valeur calculee en appliquant les MCO `a lequation pour laquelle on veut
yt2 , o`
tester lheteroscedasticite des erreurs. On peut donc utiliser un test F de H0 : = 0 dans
lequation de regression auxiliaire:
u
2t = + yt2 + t .
Cette statistique est basee sur des crit`eres heuristiques, et nest pas necessairement la
meilleure.
129
E(Y 4 ) = 3.
m2 =
1
(xt x)2 .
n t=1
1
(xt x)3 ,
m3 =
n t=1
et E(X E(X))4 peut etre estime par:
n
1
(xt x)4 .
m4 =
n t=1
Une deviation de la normalite sera donc indiquee par:
m3
= 0 et
(m2 )3/2
m4
= 3.
(m2 )2
130
Nous voulons trouver les meilleures estimations lineaires sans biais de a et de b dans le
mod`ele:
yt = a + bxt + ut
E(t ) = 0,
V (t ) = 2 ,
E(t s ) = 0
(t = s)
xt
3
6
10
12
14
15
1 6
1
10
1 12
1 14
1 15
Nous transformons le vecteur y et les deux colonnes de cette matrice selon la r`egle
enoncee `a la section 9.3. Ceci donne, puisque = 0.6:
0.8
0.4
0.4
X =
0.4
0.4
0.4
On verie que:
2.4
4.2
6.4
6.0
6.8
(X ) X =
7.2
6.8
et y =
6.6
6.0
6.6
6.4
131
9.0
1.44
13.92
13.92 190.16
19.36
(X ) y =
228.92
1
et mcg = ( (X ) X ) (X ) y =
6.1817
0.7513
Calculons maintenant le previseur de y7 si x7 = [1 20]. On a:
x7 mcg = 6.1817 + (20)(0.7513) = 21.208 .
Comme u6 = 18 6.1817 (15)(0.7513) = 0.5485, ceci donne:
p = 21.208 + (0.6)(0.5485) = 21.537.
9.10 Introduction aux m
ethodes semi-param
etriques
Nous avons vu que si E(uu ) = V = 2 I, la matrice de covariance de lestimateur de
par moindres carres ordinaires est egale `a:
V (mco ) = (X X)1 (X V X)(X X)1 .
Il est possible dutiliser cette information pour estimer les variances exactes des elements
de mco lorsque V = 2 I. Ceci donne:
(1) dans le cas de lheteroscedasticite seule: lestimateur de White ( White heteroscetasticity consistent covariance matrix estimator)
(2) dans le cas general o`
u lon peut avoir heteroscedasticite et autocorrelation: lestimateur de Newey-West (Newey-West heteroscedasticity and autocorrelation consistent covariance matrix estimator)
132
0
V =
..
.
0
0
u22
..
.
...
...
..
.
0
0
..
.
...
u
2n
Dans le second cas, on estime directement X V X (et non pas V ) par une methode spectrale. Pour une introduction, voir Hamilton, Time-Series Analysis, chapitre 10. La methode
necessite le choix dune fonction de ponderation (kernel function) et dun param`etre de
troncation (window width).
En pratique ces methodes ne donnent de bons resultats que lorsque la taille de lechantillon est assez grande. Par ailleurs lestimateur mco reste inecace.
133
CHAPITRE X.
EMENTS
EL
DE THEORIE
STATISTIQUE ASYMPTOTIQUE
10.1 Introduction
Les proprietes des estimateurs que nous avons rencontres lors de letude des moindres
carres ordinaires et lors de celle des moindres carres generalises si E(uu ) est une matrice
connue etaient toutes valables quelle que soit la taille n de lechantillon. Sous lhypoth`ese
de normalite des erreurs, nous avons pu determiner leur distribution de facon exacte,
en fonction de n. Mais ces distributions exactes prennent vite une forme tr`es complexe
lorsque la methode destimation devient plus elaboree, comme cest le cas pour la methode
Aitken-realisable. Leur etude necessite des outils theoriques que nous ne pouvons passer en
revue ici; lapplication empirique de ces resultats dits de petit echantillon fait appel a` des
techniques numeriques co
uteuses et complexes; de plus, les moments de ces distributions
de petit echantillon nexistent pas toujours!
Fort heureusement, la situation devient souvent beaucoup plus simple a` la limite, lorsque
la taille de lechantillon tend vers linni. Cest ainsi que nous pourrons montrer que lorsque
la taille de lechantillon tend vers linni, la distribution de lestimateur Aitken-realisable
tend vers une loi normale. Nous pourrons alors nous baser sur cette loi pour eectuer des
tests approximatifs, dits tests asymptotiques.
La theorie que nous allons exposer dans ce chapitre sera aussi utilisee pour etudier
certains estimateurs proposes lorsque les regresseurs sont stochastiques, notamment dans
le cadre des mod`eles dynamiques et dans celui des syst`emes dequations simultanees.
Elle peut aussi etre employee pour faire des tests dhypoth`eses dans un mod`ele de
regression lineaire dont les erreurs ne sont pas distribuees normalement, et pour lequel les
hypoth`eses du chapitre VII de cette seconde partie ne sont par consequent pas veriees.
10.2 Convergence en probabilit
e
Soit (Xn ) une suite de variables aleatoires. Cette suite converge en probabilite vers un
nombre a si et seulement si:
lim P [| Xn a |> ] = 0
pour tout
> 0,
134
On ecrira alors:
plim Xn = a,
Xn a
ou
.
Lorsque cette propriete est veriee, les densites des Xn tendent vers une densite dont
toute la masse est concentree au point a (distribution degeneree).
Lorsque a est un param`etre inconnu et Xn un estimateur de a, lestimateur est dit
convergent si plimn Xn = a .
Si Xn est non aleatoire, la limite en probabilite se reduit a` une limite habituelle.
10.3 In
egalit
e de Chebychev
Enonc
e.
Soit X une variable aleatoire continue avec E(X) = et V (X) = 2 < . Pour tout
nombre reel > 0 , X verie linegalite suivante, dite inegalite de Chebychev:
P [|X | > ]
2
.
2
D
emonstration
Si X est une variable continue de densite fX (x), on a par denition de sa variance:
%
2
%R
(x )2 fX (x)dx
(x ) fX (x)dx +
2
=
{x:|x|>}
{x:|x|>}
{x:|x|}
(x )2 fX (x)dx
(x )2 fX (x)dx
2
{x:|x|>}
V (Yn )
.
2
135
V (Yn )
= 0.
2
Comme une probabilite ne peut pas etre strictement negative, la limite de la probabilite
est nulle, ce qui implique le resultat.
Corollaire (g
en
eralisation). Soit (Xn ) une suite de variables aleatoires. Si:
lim E(Xn ) = et
lim V (Xn ) = 0,
alors plim Xn = .
Il sut en eet de poser Yn = Xn E(Xn ) et dappliquer le resultat precedent.
Application: Supposons que X1 , X2 , . . . , Xn soient independamment et identiquement
2
distribu
n ees avec E(Xi ) = , V (Xi ) = et considerons la moyenne dechantillon Xn =
1
ou
Xn X .
d
Ce type de convergence est plus faible que le precedent. Sa principale application est le
theor`eme central limite, que nous verrons plus loin.
n de n observations Xi independantes, despeComme exemple, prenons la moyenne X
n =
rances nulleset de variances unitaires. La loi faible des grands nombres implique plim X
n ne converge pas en probabilite, mais bien en distribution; on verra par
0. La suite nX
la suite que la distribution limite est normale.
Les moments de la distribution limite FX sappellent moments asymptotiques de Xn .
On parle en particulier de lesperance asymptotique dun estimateur, ou de sa variance
asymptotique; on peut parler de meme dun estimateur asymptotiquement sans biais, ou
asymptotiquement ecace. Il est tr`es important de noter que ces moments asymptotiques
136
ne sont pas denis comme les limites des moments des distributions FXn , mais bien comme
les moments de la distribution limite FX ! Ceci pour deux raisons: les moments des FXn
peuvent ne pas exister; et les FXn peuvent ne pas etre enti`erement caracterisees par leurs
moments. Nous pouvons illustrer la premi`ere raison en mentionnant que la variance dune
variable Student a` un degre de liberte nexiste pas; la seconde en mentionnant que la
distribution lognormale (distribution de Y = eX avec X N (, 2 )) nest pas enti`erement
caracterisee par ses moments.
Exercice: Soit n = 10000 et m = 1000. Supposons que lon ait engendre par simulation nm
observations independantes xij de distribution uniforme sur lintervalle [1, 1],
pour i =
n
1, . . . , n et j = 1, . . . , m. On calcule, pour j = 1, . . . , m, les moyennes x
j = n1 i=1 xij .
xj ?
A quoi ressemblera lhistogramme des xj ? A quoi ressemblera lhistogramme des n
10.6 Propri
et
es des modes de convergence
10.6.1 Relation entre limite en probabilit
e et limite en distribution.
Enonc
e. Soit (Xn , Yn ) une suite de paires de variables aleatoires. Si plim(Xn Yn) = 0
et dlim Yn = Y , alors dlim Xn = Y .
Cette propriete poss`ede une reciproque partielle. Si dlim Xn = a et dlim Yn = a, avec a
constante, alors plim(Xn Yn ) = 0. Cette reciproque est intuitivement evidente puisquune
constante a une distribution degeneree.
Mentionnons quune meme distribution limite de Xn et de Yn nimplique pas que
plim(Xn Yn ) = 0, lorsque cette distribution limite nest pas degeneree. En eet, si
les Xn et les Yn poss`edent une distribution commune normale reduite, et que Xn est independante de Yn pour tout n, on a FXn Yn = N (0, 2) pour tout n. Par consequent,
dlim(Xn Yn ) N (0, 2). Mais ceci nimplique nullement que plim(Xn Yn ) = 0, puisque
pour tout > 0, et pour tout n, P [| Xn Yn | > ] = 0.
10.6.2 Th
eor`
eme de Slutsky.
Ce theor`eme etablit la preservation des limites en probabilite par les fonctions continues:
Enonc
e. Si plim Xn = a et g(Xn ) est continue en a, alors plim[g(Xn )] = g[plim(Xn )] =
g(a).
Il est important de noter que la fonction g ne peut dependre de n. Ce theor`eme poss`ede
les generalisations suivantes (on denit la limite en probabilite dune matrice comme la
matrice contenant les limites en probabilite des elements):
(1) Si (An ) et (Bn ) sont deux suites de matrices conformes pour laddition, alors
plim(An + Bn ) = plim(An ) + plim(Bn ) si plim(An ), plim(Bn ) existent.
137
(2) Si (An ), (Bn ) sont deux suites de matrices conformes pour la multiplication et si
plim(An ), plim(Bn ) existent, on a: plim(An Bn ) = plim(An ) plim(Bn ) .
(3) Si (An ) est une suite de matrices reguli`eres et si plim(An ) existe et est reguli`ere,
1
.
alors: plim(A1
n ) = (plim An )
10.6.3 Convergence en distribution de fonctions de variables al
eatoires.
Enonc
e.
(1) Si g est continue et si dlim Xn = X, alors dlim g(Xn ) = g(X)
(2) Supposons que dlim Yn = Y et que plim Xn = a, avec a constante. Alors:
dlim(Xn + Yn ) = a + Y
dlim(Xn Yn ) = aY
dlim(
Yn
Y
)=
Xn
a
si a = 0.
Dans le cas de convergence en distribution vers une normale, on peut enoncer une generalisation multivariee de ce resultat. Nous admettrons quune suite de vecteurs aleatoires
(n)
(n)
X (n) = (X1 , . . . , Xm ) converge en distribution vers un vecteur normal multivarie X =
m
(n)
(X1 , . . . , Xm ) si toute combinaison lineaire
converge en distribution vers
i=1 i Xi
m
X
.
Supposons
alors
que
lon
ait
une
suite
de
matrices
A(n) convergeant en proi=1 i i
babilite vers A et que la suite des vecteurs X (n) converge en distribution vers un vecteur
X N (0, I). La suite A(n)X (n) converge en distribution vers un vecteur ayant la distribution N (0, AA ).
10.7 Fonction caract
eristique et convergence en distribution
Nous aurons, lorsque nous verrons le theor`eme central limite, `a determiner la distribution
limite dune somme de variables aleatoires. Calculer la distribution dune somme X + Y ,
connaissant la distribution jointe de X et Y , est en r`egle generale un probl`eme tr`es dicile.
Le passage par les fonctions caracteristiques permet souvent de simplier les choses.
Si lon denote par i lunite imaginaire (i2 = 1), la fonction caracteristique dune
variable aleatoire X est denie comme:
X (t) = E eitX
=
E [cos(tX)] + iE [sin(tX)] ,
nombre complexe
eitX .
138
valeur de tX; lesperance mathematique dune fonction bornee existe toujours. Nous
ne pourrions en dire autant pour E(etX ) par exemple.
(2) La fonction caracteristique de X caracterise enti`erement la distribution de X.
(3) Si X et Y sont deux variables aleatoires independantes, alors: X+Y (t) =
X (t)Y (t) .
En eet, X+Y (t) = E eit(X+Y )
= E eitX eitY
= E eitX E eitY
par lhypoth`ese dindependance.
Cette propriete facilite le calcul de la distribution de X + Y . Si le produit des
fonctions caracteristiques est la fonction caracteristique dune distribution connue,
cette distribution est celle de X + Y .
(4) Soit (Xn ) une suite de variables aleatoires, et soit (Xn ) la suite de leurs fonctions
caracteristiques. Supposons que:
(i) limn Xn (t) = (t)
(ii) (t) soit continue pour t = 0.
Alors (t) est une fonction caracteristique, celle de dlim Xn . Plus precisement:
a) dlim Xn = X , et
b) E eitX = (t).
Cette derni`ere propriete nous permettra de demontrer le theor`eme central limite. Mais `a
titre dexemple, nous allons tout dabord calculer la fonction caracteristique dune variable
normale.
Soit donc X N (, 2 ). On a E eitX = eit E eit(X) . Pour calculer E eit(X) ,
faisons le changement de variable y = x . On a dy = dx, et donc:
it(X)
E e
=
y2
eity e 22 dy
2 2 2
1
ei t /2
2
2 2
1
et /2
2
e 22 (y
%
22 ity)
e 22 (y
dy
22 ity+i2 t2 4 )
e 22 (yit
2 2
dy
dy
139
t2 2 /2
. On a dv = dy, et donc:
+
v2
e 22 dv
t2 2 /2
eit et
eitt
2 /2
2 /2
10.8 Versions du th
eor`
eme central limite
10.8.1 Variables ind
ependantes, identiquement distribu
ees.
Lenonce qui va suivre porte le nom de theor`eme de Lindeberg-Levy. Il sapplique a` des
variables aleatoires independantes et identiquement distribuees. Il permet notamment de
traiter le probl`eme de lapproximation dune binomiale par une normale.
Th
eor`
eme. Soit (Zi ) une suite de variables independantes et identiquement distribuees
avec E(Zi ) = et V (Zi ) = 2 . Soit:
Zi
n
1
n(Z )
Xi =
Sn =
n i=1
Xi =
On a dlim Sn N (0, 1)
D
emonstration
Puisque, en general:
eX = 1 + X +
on a, en appliquant cette formule a` Yj =
X2
X3
+
+ ...,
2
3!
X
j :
n
(it)2
E(Yj2 ) + . . . .
Yj (t) = E eitYj = 1 + itE(Yj ) +
2
Mais, puisque E(Yj ) = 0 et E(Yj2 ) =
1
,
n
ceci implique:
Yj (t) = 1 + 0 +
(it)2
+....
2n
140
t2
2n
t2 n
)
2n
pour n
grand .
Pour pouvoir appliquer la quatri`eme propriete des fonctions caracteristiques, nous calculons maintenant:
t2 n
) .
lim (1
n
2n
Comme:
(t2 /2) n
t2 n
(1
) = (1 +
)
2n
n
et comme:
X
lim (1 + )n = eX
n
n
on a:
2
lim Sn (t) = et /2
n
Le theor`eme central limite est applicable, et dlim Sn N (0, 1). Si n est susamment
grand, on peut alors approcher une binomiale de param`etres n et p par une normale
desperance np et de variance np(1 p).
141
1
n
n
t=1 Zt ,
on a dlim Sn N (0, ).
u les vecteurs Zt
en distribution de suites de vecteurs aleatoires de la forme n t=1 Zt , o`
sont dependants entre eux. Nous devrons alors utiliser une generalisation des theor`emes
precedents. Une telle generalisation existe dans le cas o`
u la dependance prend une forme
particuli`ere, celle des dierences de martingales.
D
enition:
eatoires, ou de vecteurs aleatoires, est une dierence de
Une suite (Zt )
t=1 de variables al
martingale si:
E(Zt ) = 0 pour tout t;
E(Zt | Zt1 , Zt2 , . . . , Z1 ) = 0
pour tout t.
142
Exemple:
Dans le cadre des mod`eles `a variables endog`enes retardees, nous rencontrerons des suites
u les ut sont independantes, desperance nulle, et identique(Zt ) de la forme Zt = ut ut1 , o`
ment distribuees. Il est facile de verier que les Zt forment une dierence de martingale:
E(Zt ) = E(ut ut1 ) = E(ut )E(ut1 ) = 0
E(Zt | Zt1 , . . . , Z1 ) = E(Zt | Zt1 )
= E(ut ut1 | ut1 ut2 )
= Eut1 E(ut ut1 | ut1 ut2 , ut1 )
= Eut1 E(ut ut1 | ut1 , ut2 )
= Eut1 ut1 E(ut | ut1 , ut2 ) = 0
La troisi`eme egalite resulte de la loi des esperances iterees, et la quatri`eme vient du fait
que la connaissance de ut1 ut2 et de ut1 est equivalente a` celle de ut1 et de ut2 , sauf
si ut1 = 0; mais si ut1 = 0, lesperance est nulle et legalite est donc veriee.
Le theor`eme suivant est enonce dans Hamilton, Time-Series Analysis, 1994, p. 194. Il
suppose lexistence des quatre (et non plus trois) premiers moments.
Th
eor`
eme.
Soit (Zt ) une dierence de martingale. Si:
(1)
(2)
1
V (Zt ) = ,
lim
n n
t=1
(3)
(4)
1
Zt Zt
p
n t=1
n
alors:
1
dlim
Zt N (0, )
n t=1
143
10.9 LIn
egalit
e de Rao-Cramer
Commencons par fournir le l directeur de cette section et de la suivante. Linegalite
de Rao-Cramer, que nous demontrerons, fournit une borne inferieure de la variance dun
estimateur sans biais. Une generalisation vectorielle de cette inegalite m`ene `a la matrice
dinformation, dont linverse est la matrice de covariance asymptotique du vecteur des
estimateurs par maximum de vraisemblance. Cette matrice permet alors deectuer des
tests asymptotiques meme lorsque lon ne connat pas la distribution de petit echantillon
des estimateurs de maximum de vraisemblance, comme cest le cas dans beaucoup de
mod`eles non lineaires. La matrice dinformation poss`ede donc un interet double, a` la fois
theorique (ecacite asymptotique) et pratique (calcul de covariances asymptotiques).
Les demonstrations de cette section utiliseront lhypoth`ese que les observations sont
independantes et identiquement distribuees; mais des resultats analogues peuvent etre
prouves sous des hypoth`eses plus generales.
Lemme.
Supposons que soit scalaire et soit (X1 , X2 , . . . , Xn ) un echantillon aleatoire de fonction
de vraisemblance:
n
&
L(x, ) =
f(xi |).
i=1
L(x, )dx.
L(x, )dx =
Rn
Rn
Alors:
V
log L(x, )
=E
log L(x, )
2
= E
2 log L(x, )
2
.
D
emonstration
'Puisque L(x, ) peut etre consideree comme la densite jointe de lechantillon, on a
erivant par rapport a` , ceci donne:
Rn L(x, )dx = 1. En d
Mais
log L
L.
%
Rn
%
L(x, )dx = 0 =
Rn
L(x, )dx.
On a donc aussi:
%
Rn
log L(x, )
L(x, )dx = E
log L(x, )
= 0.
144
log L L
2 log L
L +
dx = 0,
2
Rn
2
%
%
log L
2 log L
Ldx +
Ldx = 0
ou encore:
2
Rn
Rn
log L
=0:
Soit aussi, puisque E
V
log L
=E
log L
2
= E
2 log L
2
.
In
egalit
e de Rao-Cramer. Soit = (x)
un estimateur sans biais de . On a linegalite:
1
V ()
2 log L
E
2
D
emonstration
Comme est sans biais, on a:
%
=
= E()
Rn
L(x,
)dx
=
=
L
dx =
Rn
log L
cov ,
log L
Ldx
Rn
log L
puisque E
0 .
Dautre part, en vertu de linegalite generale (cov(X, Y ))2 V (X)V (Y ) , nous avons:
log
L
log
L
V
1 = cov ,
V ()
2 log L
2
. Linegalite cherchee sensuit.
Pour illustrer ce resultat, reprenons le probl`eme de lestimation par maximum de vraisemblance de lesperance mathematique dune variable normale, discute `a la section 3.3
de la premi`ere partie. Nous avions trouve:
145
log L
1
(xi )
= 2
et donc
n
2 log L
= 2
2
.
2
.
.
=
.
k
Soit un estimateur sans biais de .
Nous admettons sans demonstration les generalisations suivantes des resultats precedents:
log L
E
log L
V
=
=
=
def
(un vecteur k 1)
2
log L
E
(une matrice k k)
R() .
0
log
L
=I
E
et par consequent:
(une matrice k k)
146
V
log L
V ()
R()
Cette derni`ere matrice est denie non negative, etant une matrice de covariance. An
darriver a` une generalisation vectorielle de linegalite de Rao-Cramer, considerons un
vecteur colonne arbitraire a. Comme la matrice est denie non negative, on a:
(a
a R1 () )
V ()
I
R()
a
1
()a
a V () R () a 0 .
(X X)
2
H =
1
4u X
1
4X u
n
1
6u u
2 4
Par consequent:
(X X)
2
R() = E(H) =
O1k
Ok1
n
2 4
puisque E(u u) = n 2
Donc R1 () est diagonale par blocs, et pour tout estimateur sans biais de , la
2 (X X)1 est denie non negative en vertu du resultat precedent, lorsque
matrice V ()
est precisement
les erreurs sont distribuees normalement. Mais si = (X X)1 X y, V ()
egale `a 2 (X X)1 .
La borne inferieure est atteinte par cette matrice: nous concluons que sous lhypoth`ese
de normalite, = (X X)1 X y nest pas seulement le meilleur estimateur lineaire sans
biais. Cest aussi le meilleur estimateur sans biais parmi tous les estimateurs, quils soient
lineaires ou non.
147
10.11 Propri
et
es asymptotiques des
estimateurs par maximum de la vraisemblance
10.11.1 Cas scalaire.
Nous avons ici le cas de lestimation dun seul param`etre . La vraisemblance secrit
(n
L(x, ) = i=1 f(xi |) comme precedemment, et lestimateur est une solution de lequa log L(x,)
tion
= 0.
On demontre que sous des hypoth`eses assez generales, et qui nimpliquent pas la normalite, lestimateur est convergent, asymptotiquement normal, asymptotiquement sans
biais, et asymptotiquement ecace. En eet, sous ces hypoth`eses:
plim =
dlim n( ) N 0, plim
n
2
log L(x,)
2
o`
u:
2 log L(x, )
R() = E
148
maxH0 L(x, )
.
max L(x, )
On a les inegalites 0 1.
u 0 est un nombre strictement compris entre 0 et 1 et choisi
On rejette H0 si < 0 , o`
en fonction dun niveau de signication .
Dans les cas que nous avons traites jusquici, cette methode nous a permis de trouver
une r`egle de decision valable pour de petits echantillons, et faisant appel a` une statistique
possedant une distribution connue (Student, par exemple). Mais, il existe de nombreux
mod`eles non lineaires o`
u ceci nest pas le cas. On doit alors se contenter de tests asymptotiques. Il est donc interessant de connatre la distribution asymptotique dune fonction de
.
10.12.2 Cas scalaire.
Lorsque le vecteur na quune seule composante, nous allons montrer que sous H0 ,
dlim(2 loge ) 2(1) . Notre demonstration utilise lhypoth`ese que les observations sont
independantes et identiquement distribuees, mais le resultat peut etre generalise.
Soit lestimateur de par maximum de vraisemblance. Nous commencons par faire
un developpement de log L(x, 0 ) autour de (theor`eme de Taylor). Ceci donne:
)
log L(x, ) ))
=
)
2
)
1
2 log L(x, ) )
+ (0 )
)
2
2
=
o`
u est un point de lintervalle ouvert reliant 0 et .
)
log L )
nous pouvons reecrire cette equation comme:
Comme )
= 0 par denition de ,
)
2
)
1
L(x, 0 )
2 log L )
= (0 )
log
) ,
2
L(x, )
=
soit aussi:
2 log
2 1 2 log L ))
n( 0 )
n
2 )=
2
n( 0 )
+
)
n
1 2 log f(xi |) ))
)
n
2
=
i=1
def
2
n( 0 ) k 2
149
+
)
n
2
)
1
log
f(x
|)
i
)
plim k 2 = plim
)
n
2
=0
i=1
+
)
2
log f(xi |) ))
= E
)
2
=0
)
2
)
sont de variance nie (ils sont en eet
sous lhypoth`ese que les termes logf2(xi |) )
=0
identiquement distribues). Ceci est une consequence des resultats de la section 10.4. De
plus, comme nous lavons vu:
dlim
n( 0 ) N
0, plim
n1 E
)
2 log L )
)
2
=0
sous lhypoth`ese H0 .
Comme:
*
+
)
2
)
1
2 log f(xi |) ))
log L ))
plim E
= E
= plim k 2 ,
)
)
2
n
2
=0
=0
ceci implique:
dlim n( 0 ) N 0,
1
plim k 2
.
dlim(2 log )
=
=
2
n( 0 ) plim k 2
2
2
X plim k o`
u X N 0,
dlim
1
plim k 2
.
150
Dans le mod`ele de regression classique, nous avons vu, sous lhypoth`ese de normalite des
erreurs, que mco est normal quelle que soit la taille de lechantillon. De plus, le rapport
des vraisemblances permet de deriver un test F dune hypoth`ese lineaire; ce test est, lui
aussi, valable pour tout n. La distribution de Student permet de calculer des intervalles
de conance.
Dans le mod`ele des moindres carres generalises o`
u E(uu ) = 2 , nous avons les memes
resultats lorsque est connue. Par contre, si est inconnue, nous navons plus de resultats
valables en petit echantillon. Mais si u est un vecteur normal, on peut deriver lestimateur
de par maximum de la vraisemblance. Cet estimateur nest pas normal car cest une fonction non lineaire des erreurs. Neanmoins, on peut en trouver la distribution asymptotique
`a laide des resultats precedents.
Pour le mod`ele `a erreurs autoregressives:
y = X + u,
avec ut = ut1 + t
o`
u les t sont independantes de distribution N (0, 2 ) et o`
u X est non aleatoire, lestimateur
par maximum de vraisemblance a ete etudie par Beach et MacKinnon, A maximum
likelihood procedure for regression with autocorrelated errors, Econometrica 46 (1978),
5158. Nous allons bri`evement discuter les resultats de ces auteurs.
Rappelons que E(uu ) = V = u2 , o`
u est la matrice de la section 9.2, et que
2 = (1 2 )u2 . En utilisant la denition de la densite normale multivariee, on peut
ecrire:
log L(, 2 , ) = K +
1
1
log det V 1 (y X) V 1 (y X)
2
2
151
Le but de cette section etant dillustrer les resultats du present chapitre, nous allons
enoncer la matrice dinformation et son utilite dans le contexte de ce mod`ele. Appelons
= (, 2 , ). Beach et MacKinnon montrent que, si X est non stochastique:
1
(X V X) Ok1 Ok1
R() = O1k
A
C
O1k
o`
u A, B, et C sont des scalaires. Alors:
1 1
(X V X)
R1 () =
O2k
Ok2
A
C
C
B
1
152
CHAPITRE XI.
ES
ASYMPTOTIQUES DES ESTIMATEURS
PROPRIET
ORDINAIRES
DE MOINDRES CARRES
(H1)
E(u) = 0
(H2)
E(uu ) = 2 I
(H3)
1
X X = XX ,
n n
(H4)
lim
E(X u)
V (X u)i
et V
X2
1
(X u)i
n
=
=
X E(u) = 0
n
n
2
2
V
Xti ut =
Xti
t=1
t=1
=
2
Xti
n2
ti
Mais n converge par lhypoth`ese (H4) vers un nombre ni. Nous concluons que
V n1 (X u)i tend vers zero quand n tend vers linni. Donc les composantes de n1 X u
verient E
plim( n1 X u)
1
n (X u)i
= 0, et limn V
1
n (X u)i
153
= 0 . Ceci montre (section 10.4) que
plim
=
=
=
=
=
plim + (X X) X u
+ plim (X X)1 X u
1
1
1
+ plim
X X
Xu
n
n
1
1
1
+ plim
(X X)
Xu
plim
n
n
+ 1
XX .Ok1 =
11.2 Normalit
e asymptotique
Tous les tests dhypoth`eses exposes au chapitre VII lont ete en supposant la normalite
des erreurs. Quen est-il si lon ne fait pas dhypoth`eses speciques sur la distribution du
vecteur u? Nous allons voir quun theor`eme central limite nous permet detablir la normalite
asymptotique de = (X X)1 X y. Si la taille de lechantillon est susamment grande,
on peut alors se baser sur la distribution normale pour faire des tests asymptotiques sur
le vecteur . On raisonne en pratique comme si la variance des erreurs etait connue: on
utilisera donc la loi normale au lieu de la loi de Student, la loi 2 au lieu de la loi F .
Th
eor`
eme.
Supposons que les hypoth`eses (H1) a` (H4) soient veriees, et soit t la t-i`eme colonne de
n
la matrice X . Denissons les vecteurs Zt = ut t et supposons que 1n t=1 Zt verie
un theor`eme central limite. Alors, pour = (X X)1 X y:
n
n
1
2
2
X X = 2 XX ,
lim
V (Zt ) = lim
t t = lim
n n
n n
n n
t=1
t=1
154
qui est nie et denie positive par lhypoth`ese (H4). En vertu du theor`eme central
limite, on a:
n
1
1
Zt N (0, 2 XX ).
dlim X u = dlim
n
n t=1
Notons ensuite que n( ) = ( n1 X X)1 1n X u et appliquons les resultats
de la section 10.6. Ceci donne:
dlim n( )
1
XX
n
1
dlim
1
Xu
n
plim
2
1
N 0, 1
XX XX XX
N 0, 2 1
XX
1
u
u
= u u
n
n
*
plim
u
u
n
1
Xu
n
= plim
1
XX
n
1
1
Xu ,
n
et:
1
2
u u O1k .1
XX .Ok1 =
n
155
CHAPITRE XII.
ES
ASYMPTOTIQUES DES ESTIMATEURS DAITKEN
PROPRIET
Le theor`eme que nous allons demontrer dans ce chapitre est un cas particulier dapplication au mod`ele `a erreurs autoregressives dun theor`eme plus general, sappliquant a`
tout estimateur Aitken-realisable. Il montre que si lon remplace par un estimateur
convergent de cette matrice dans la formule de mcg , on obtient un estimateur de qui a
la meme distribution limite que mcg .
Th
eor`
eme.
Soit le mod`ele y = X + u avec E(u) = 0,
2
2
E(uu ) = = ..
.
n1
1
..
n1
..
.
et X non stochastique.
(X 1 X)1 X 1 y
1 X)1 X
1 y
(X
o`
u
.
..
n1
et
n1
1
.
..
.
..
156
D
emonstration
Notons tout dabord que
1
1
(y X )
(y X ).
nk
n( ) = ( n1 X 1 X)1 1n X 1 u et que:
X 1 u = X T T u =
n
Zt .
t=1
n
On a E(Zt ) = 0; dautre part, comme E(T u)2t = 2 et comme t=1 [X T ]t [X T ]t =
X 1 X,
n
1
2
lim
E(Zt Zt ) = lim (X 1 X) = 2 Q.
n t=1
n
Par consequent, en vertu du theor`eme central limite, dlim 1n
n
t=1 Zt
N (0, 2 Q).
Donc:
1
1 1
1
1
X X
dlim X u
dlim n = plim
n
n
N 0, Q1 ( 2 Q)Q1 = N 0, 2 Q1
Pour montrer que lestimateur Aitken-realisable a la meme distribution que lestimateur Aitken-pur, nous pouvons appliquer le resultat de la section 10.6.1. En eet:
1 1 1 1 1
n( ) = ( X
X) X u,
n
n
157
1 1
dlim( X
u) N (0, 2 Q)
n
et donc:
dlim n( ) N (0, 2 Q1 ).
Pour demontrer la seconde partie du theor`eme, notons que la limite en probabilite de:
1
1 (y X )),
(y X )
nk
est egale `a 2 . La demonstration est exactement la meme que celle de la section 11.2:
158
CHAPITRE XIII.
REGRESSEURS
STOCHASTIQUES
159
Dans la premi`ere partie de cette section, nous nutiliserons que les hypoth`eses suivantes,
qui sont compatibles avec lindependance de X et de u, mais nimpliquent pas cette independance:
(H1 ) E(u|X) = 0
(H3 ) plim( n1 u u) = 2
XX
Rappelons tout dabord la loi des esperances iterees (section 1.7) de la premi`ere partie:
Lemme 13.1.
E(X) = EY E(X|Y ) .
Ce resultat peut aussi etre applique aux vecteurs et matrices aleatoires. Nous demontrons maintenant une propriete fondamentale pour la suite.
1
Xti ut ) = 0 et
n
V(
1
Xti ut ) 0.
n
Mais:
E(Xti ut ) = EXti E(Xti ut |Xti ) = EXti Xti E(ut |Xti ) = 0
par lhypoth`ese (H1 ) et le lemme 13.1. Par ailleurs:
2 2
2 2
2
2
ut ) = EXti E(Xti
ut |Xti ) = EXti Xti
E(u2t |Xti ) = 2 E(Xti
)
V (Xti ut ) = E(Xti
2
) < ; donc V (Xti ut ) <
en vertu de lhypoth`ese (H2 ). Lhypoth`ese (H4 ) garantit que E(Xti
1
1
Xti ut ) 0 . Lestimateur = (X X) X y verie alors les proprietes
, et V ( n
suivantes:
160
Th
eor`
eme 13.3. est un estimateur sans biais de .
D
emonstration:
E()
=
=
=
+ E (X X)1 X u
+ EX {E (X X)1 X u|X }
+ EX (X X)1 X E(u|X) =
Th
eor`
eme 13.4. est un estimateur convergent de .
La demonstration est identique `a celle donnee `a la section 11.1, en vertu du lemme 13.2.
Th
eor`
eme 13.5. Soit t la t-i`eme colonne de la matrice X (un vecteur k 1) et
supposons que les vecteurs Ct = ut t verient un theor`eme central limite. Alors:
1
1
1
Ct N (0, 2 XX )
dlim X u = dlim
n
n t=1
1
1
dlim n( ) = plim( X X)1 dlim( X u) N (0, 2 1
XX ).
n
n
La demonstration du point (2) est identique a` celle donnee precedemment.
Si nous faisons maintenant lhypoth`ese dindependance f(X, u) = f1 (X)f2 (u), les distributions conditionnelles `
a X des statistiques tobs et Fobs vues au chapitre VII ne
dependront que des nombres de degres de liberte et seront donc les memes que les distributions inconditionnelles. Les valeurs critiques des lois t et F leur seront donc applicables
quelle que soit la taille de lechantillon, lorsque les erreurs sont normales.
161
13.3 R
egresseurs stochastiques d
ependants des erreurs contemporaines
Si plim( n1 X u) = 0, on verie aisement que plim mco = . Il est important de signaler
que la presence dune seule composante non nulle dans le vecteur plim( n1 X u) peut rendre
toutes les composantes de mco non convergentes. Supposons en eet que:
plim
1
Xu
n
c
0
=
...
avec
c = 0 .
0
On a alors:
plim mco
s1
.
= + c ..
sk
eneral,
o`
u les si sont les composantes de la premi`ere colonne de 1
XX . Comme, en g
aucun des si nest nul, aucune composante de mco ne convergera vers la composante
correspondante de .
Exercice. Dans le mod`ele yt = byt1 + ut avec ut = t + t1 , supposons que les t soient
desperance nulle, de variance constante, et non correles entre eux. Montrez que la covariance entre yt1 et ut nest pas nulle. Quelles sont les consequences de cette constatation?
13.3.1 La m
ethode des variables instrumentales.
Cette methode est un cas particulier de la methode des moments generalises (GMM);
voir Hamilton, Time Series Analysis, 1994, chapitre 14.
(H1 ) E(u|Z)
162
(H5 )
(H6 )
1
plim( u u) = 2
n
1
plim( X X) et
n
1
plim( X u) existent.
n
Pour simplier les demonstrations, nous supposerons dans le reste de cette section que
r = k. Mais les resultats qui vont suivre ne dependent pas de cette hypoth`ese.
13.3.2 Convergence en probabilit
e.
1
(1) dlim n(V I ) N (0, 2 plim n(X PZ X)1 ) = N (0, 2 1
ZX ZZ (ZX ) )
u
) = 2 , avec u
= y X V I .
(2) plim( n1 u
163
D
emonstration:
n
Nous avons une fois de plus E(Ct ) = 0 et lim n1 t=1 E(Ct Ct ) = 2 ZZ (voir la demonsn
tration du theor`eme 13.5). Donc, comme 1n Z u = 1n t=1 Ct , on a:
1
dlim Z u N (0, 2 ZZ )
n
et par consequent:
1
1
1
dlim n(V I ) = plim( Z X)1 dlim( Z u) N (0, 2 1
ZX ZZ (ZX ) ).
n
n
Pour demontrer la seconde partie du theor`eme, notons que:
u
= y X(Z X)1 Z y = I X(Z X)1 Z u,
puisque y = X + u. Alors:
u u
= u u u Z(X Z)1 X u u X(Z X)1 Z u + u Z(X Z)1 (X X)(Z X)1 Z u.
) =
Les hypoth`eses H3 , H5 et H6 ainsi que le Lemme 13.6 impliquent alors plim( n1 u u
1
2
plim( n u u) = . Ce theor`eme permet donc, une fois de plus, de baser des tests asymptotiques sur la distribution normale ou 2 . La matrice de covariance asymptotique du vecteur
V I est estimee par unu (Z X)1 (Z Z)(X Z)1 .
Notons que si r > k, linverse de ZX nexiste pas car cette matrice nest pas carree;
mais lautre expression de la matrice de covariance asymptotique, a` savoir:
2 plim n(X PZ X)1
reste valable, puisque X PZ X est dordre k et de rang min(k, r) = k. Par ailleurs, les deux
expressions sont bien equivalentes lorsque r = k, puisque:
plim n(X PZ X)
1
1
1 1 1
= plim ( X Z)( Z Z) ( Z X)
.
n
n
n
Notons enn que la validite de la methode des variables instrumentales peut etre etablie
sous des hypoth`eses plus generales que celles de cette section.
164
165
CHAPITRE XIV.
`
INTRODUCTION AUX MODELES
DYNAMIQUES
14.1 Retards
echelonn
es
On a ici un mod`ele de la forme suivante:
yt = a + b0 xt + b1 xt1 + . . . + bk xtk + ut
La variable dependante est donc une combinaison lineaire des valeurs presentes et passees de la variable explicative. Nous fournirons deux interpretations economiques de ce
mod`ele:
(a) Dans le cadre dune fonction de consommation, il correspondrait a` lhypoth`ese que
la consommation presente depend du revenu espere. Ce dernier est une combinaison
lineaire des revenus observes, presents et passes. Il existe donc une sorte dinertie
dans le comportement du consommateur.
(b) Dans le cadre dun mod`ele dinvestissement, faisons les hypoth`eses suivantes:
(i) La valeur desiree des stocks, yt , est proportionnelle a` la valeur prevue des
ventes, xt , a` un terme derreur vt pr`es. Donc:
(1)
yt = xt + vt
(ii) Linvestissement (variation de stock entre les periodes t et t 1) est regi par
le mecanisme suivant (ajustement partiel):
(2)
(3)
166
xt1 + (1 )xt1
et lon obtient, apr`es une innite de substitutions, la r`egle de prevision suivante, dite
de lissage exponentiel:
xt =
(4)
(1 )i1 xti
i=1
(5)
1
[yt (1 )yt1 ]
(6)
yt
(1 )i1 xti + vt
j=1
(7)
yt = (1 )yt1 +
(1 )i1 xti + ut
i=1
Cette derni`ere equation est lineaire dans les variables explicatives, et ne comporte
plus que des variables observables. Elle comporte neanmoins une innite de regresseurs! On peut evidemment supprimer les xti pour i grand. Mais ceci ne resout que
partiellement le probl`eme, car il y a peu de degres de liberte: le nombre de param`etres
`a estimer reste grand, et lon perd une observation par variable retardee. De plus, les
xti risquent detre fortement colineaires.
Les methodes de Koyck et dAlmon on ete proposees pour resoudre ce probl`eme.
167
14.2 La m
ethode de Koyck
Soit donc le mod`ele general:
yt = a + b0 xt + b1 xt1 + . . . + bk xtk + ut
et
yt
yt1
yt1
Si k est susamment grand, k+1 0, et nous pouvons alors retenir comme mod`ele:
yt = a + yt1 + b0 xt + ut
Nous navons donc plus que deux regresseurs et une constante. Il faut noter:
(a) que cette transformation peut aussi sappliquer `a un nombre inni de retards;
(b) que lon peut retrouver lequation de depart a` partir destimations de et de b0
obtenues grace au mod`ele transforme;
(c) que E(yt1 ut ) = 0. Nous sommes donc dans le cas traite `a la section 13.3: les estimateurs par moindres carres ordinaires ne sont pas convergents. Ce probl`eme sera
examine plus bas, lorsque nous traiterons des variables endog`enes retardees.
Appliquons la methode de Koyck a` notre probl`eme dinvestissement. Nous avions:
yt = (1 )yt1 +
(1 )i1 xti + ut
i=1
Donc:
yt1 = (1 )yt2 +
i=1
et:
168
yt (1 )yt1
soit aussi:
yt = (2 )yt1 + xt1 (1 )(1 )yt2 + ut
2 , a
3 les estimations des coecients de cette equation. Pour estimer les
Appelons a
1 , a
param`etres du mod`ele de depart, il faudrait resoudre le syst`eme:
a1
a2
a3
) = + 1
(1 )(1
a
2
. Il est dit identiable.
1a
1 a
3
Mais et ne le sont pas. On ne peut determiner que leur somme et leur produit.
14.3 La m
ethode dAlmon
Lhypoth`ese faite par Koyck que les poids b0 . . . bk sont geometriquement decroissants
est tr`es restrictive. Lidee dAlmon est dutiliser une approximation polynomiale de la
ome de
fonction decrivant le comportement reel des bi . On choisit, en pratique, un polyn
degre superieur dau moins une unite au nombre de points stationnaires de cette fonction.
Si, par exemple, lon pense que cette fonction a la forme dun U ou dun U renverse, on
choisira une approximation quadratique:
bi = 0 + 1 i + 2 i2
que lon substitue dans le mod`ele precedent:
yt = a + b0 xt + b1 xt1 + . . . + bk xtk + ut
pour obtenir:
yt
a + 0 xt + (0 + 1 + 2 )xt1 + (0 + 21 + 42 )xt2
+ . . . + (0 + k1 + k 2 2 )xtk + ut
*
=
a + 0
k
+
xti
+ 1
* k
i=0
+
ixti
+ 2
169
* k
i=1
+
i2 xti
+ ut
i=1
Les param`etres de cette equation peuvent alors etre estimes par moindres carres ordinaires, et les estimations des bi peuvent etre calculees `a laide de lapproximation polynomiale. Notons aussi que cette technique se prete particuli`erement bien `a lintroduction de
contraintes additionnelles sur les bi . Supposons que lon veuille imposer b1 = 1. On a donc
1 = 0 + 1 + 2 . En substituant, il vient:
yt = a + (1 1 2 )Z1t + 1 Z2t + 2 Z3t + ut
ou:
yt Z1t = a + 1 (Z2t Z1t ) + 2 (Z3t Z1t ) + ut
Soit:
yt = a + 1 Z1t
+ 2 Z2t
+ ut
14.4 Lop
erateur de retard
Loperateur de retard est deni par:
Lxt = xt1
Cet operateur peut etre traite comme une variable algebrique ordinaire. En eet:
Lj xt
L . . . Lxt = xtj
Lj Lk xt
Lj+k xt = xtjk
a1 Lj x1t + a2 Lj x2t
j xtj =
j Lj xt = (L)xt
o`
u:
(L) = 0 + 1 L + 2 L2 + 3 L3 + . . .
def
170
si (L)yt = xt
yt
j xtj + ut = a + b0
j Lj xt + ut
a + b0
a + b0 1 + L + L + L + . . . xt + ut
a+
b0
xt + ut
1 L
soit aussi:
(1 L)yt = (1 L)a + b0 xt + (1 L)ut
171
et
yt = yt1 + a + b0 xt + (ut ut1 ) .
14.5 R
esolution d
equations lin
eaires de r
ecurrence stochastiques
Presentons maintenant une methode generale de resolution dune equation du type
u ut est une erreur aleatoire. Il sagit de calculer les coecients du
(L)yt = (L)ut , o`
(L)
. Nous commencerons par un exemple.
polyn
ome
(L)
Soit (L) = 2 + 3L + 4L2 et (L) = 1 0.75L + 0.125L2 . Comme les racines de (L)
sont 2 et 4, on a:
L
1
(L) =
2
A 1 L4 + B 1
1
1
=
=
(L)
1 L4 1 L2
1 L4 1 L2
L
1
4
L
2
o`
u A et B sont determines par la condition A 1 L4 + B 1 L2 = 1 pour tout L.
Ceci implique A = 2 et B = 1, comme on le voit facilement en posant L = 0 et L = 1.
Par consequent:
1
(L)
=
=
=
2
1
1
1 L4
2
2
1
1
1
1
L +
L +... 1 +
L +
L + ...
2 1+
2
2
4
4
L
2
7
15
3
1 + L + L2 + L3 . . .
4
16
64
et donc:
(L)
= (2 + 3L + 4L2 )(1 + .75L + .4375L2 + . . .) = 2 + 4.5L + 7.125L2 + . . .
(L)
172
o`
u A et B sont choisis tels que A(1 L) + B(1 L) = 1 pour tout L. Ceci implique:
A=
B=
et donc:
A
B
1
=
+
(L)
1 L 1 L
= A(1 + L + 2 L2 + . . . ) + B(1 + L + 2 L2 + . . . )
= (A + B) + (A + B)L + ( 2 A + 2 B)L2 + . . .
1 i
( i )Li1 .
i=1
(i + 1)i Li
i=0
Dans le cas de deux racines complexes conjuguees, on peut employer le premier developpement en utilisant les proprietes des nombre complexes.
On peut aussi utiliser un developpement de Taylor autour de L = 0; la derivation
precedente a lavantage detre constructive, et de mettre en evidence le lien entre 1/(L)
et les racines de (L) = 0.
14.6 Distribution rationnelle des retards
Nous sommes maintenant prets `a denir la distribution rationnelle des retards. On lecrit
sous la forme:
yt = a + (L)xt + ut
avec:
(L) =
0 + 1 L + . . . + k Lk
(L)
=
w(L)
w 0 + w 1 L + . . . + w L
173
On normalise en posant w0 = 1.
Cette formulation est tr`es generale, car toute structure des coecients peut etre approchee par ce rapport de deux polyn
omes. Nous pouvons en eet rendre lapproximation
plus ne en augmentant k, , ou k et .
On constate facilement que la structure des retards postulee par Almon correspond a`
w(L) = 1 (donc = 0), et i = a0 + a1 i + a2 i2 + . . . + as is . Celle de Koyck correspond a`
(L) = b0 , et w(L) = 1 L (donc k = 0, = 1).
14.7 Variables endog`
enes retard
ees
Lors de lapplication de la transformation de Koyck, nous avons fait apparatre des
variables endog`enes retardees dans le membre de droite de lequation de regression. Il est
important de mettre en evidence les consequences de leur presence parmi les variables
explicatives dun mod`ele.
Cette section netant quune introduction au probl`eme, nous nous contenterons ici detudier un mod`ele tr`es simple, qui est le suivant:
yt = byt1 + ut
avec 1 < b < 1 et diverses hypoth`eses sur lerreur ut .
Un mod`ele beaucoup plus general sera etudie au chapitre XV. Les conclusions obtenues dans ce mod`ele plus general, qui comprendra plusieurs regresseurs dont certains sont
des variables endog`enes retardees, sont tr`es semblables et les methodes danalyse sont les
memes.
On obtient aisement, par substitutions successives, la forme suivante:
yt = ut + but1 + b2 ut2 + =
bj utj
j=0
2
Supposons que E(u)
= 0 et E(uu ) = I. On a alors E(yt1 ut ) = 0, et si V (yt1 ut )
1
existe, on a plim( n
yt1 ut ) = 0. Lestimateur de b par moindres carres ordinaires est
n+1
alors convergent. Mais il nest pas sans biais puisque b = b + t=2 wt ut avec
yt1
wt = n+1
2
j=2 yj1
174
n(bmco b) N (0, 2 1
XX ) = N (0,
d
plim n1
2
n+1
t=2
2
yt1
pour autant que les hypoth`eses de la section 10.8.3 soient veriees. En particulier, la
suite (Zt ) = (yt1 ut ) doit etre une dierence de martingale. Tel est bien le cas ici sous
lhypoth`ese dindependance des erreurs. En eet:
E(yt1 ut ) = Eyt1 yt1 E(ut | yt1 ) = 0
E(yt1 ut | yt2 ut1 , yt3 ut2 , . . . ) =
Eut1 ,ut2 ,... E(yt1 ut | yt2 ut1 , yt3 ut2 , . . . ; ut1 , ut2 , . . . ) =
Eut1 ,ut2 ,... yt1 E(ut | yt2 ut1 , yt3 ut2 , . . . ; ut1 , ut2 , . . . ) = 0
Il est facile de demontrer (voir Hamilton, Time Series Analysis, 1994, p. 122) que lestimateur de b par maximum de vraisemblance est le meme que lestimateur de b par moindres
carres ordinaires lorsque les erreurs sont normales.
14.7.2 Erreurs `
a moyenne mobile.
Il sagit derreurs de la forme:
ut = t + t1
avec E() = 0,
E( ) = 2 I
Comme nous lavons vu, ces erreurs resultent dune transformation de Koyck appliquee `a un mod`ele `a retards echelonnes. On verie immediatement que sous les hypoth`eses
habituelles,
1
yt1 ut = E (yt1 ut ) = E [(ut1 + but2 + . . .) ut ]
plim
n
= E (ut ut1 ) = E [(t + t1 ) (t1 + t2 )] = 2 = 0
Donc lestimateur b =
y y
t 2t1
yt1
yt yt1
2
yt1
+
yt1 t +
yt1 t1 .
175
Par consequent:
b
yt1 t1 /n
yt1 t /n
+ 2
b+ 2
yt1 /n
yt1 /n
Par ailleurs, yt = j=0 bj (tj + tj1 ), ce qui implique, sous les hypoth`eses habi
tuelles, plim( n1
yt1 t ) = E(yt1 t ) = 0, et plim( n1
yt1 t1 ) = E(yt1 t1 ) = 2 .
De meme:
plim
1 2
yt1
n
2
2
) = E yt2 = E
b2j (tj + tj1 )
= E(yt1
j=0
bj bk (tj + tj1 ) (tk + tk1 )
+ 2E
j=0 k=j+1
= 1+
2j
+ 2
j=0
Alors
bj bj+1 =
j=0
plim b
(1 + 2 ) 2
2b 2
2
+
=
1 + 2 + 2b .
2
2
2
1b
1b
1b
plim( n1
plim( n1
yt1 t )
yt1 t1 )
+
b+
2
2
yt1
yt1
plim( n1
)
plim( n1
)
b+
(1 b2 )
1 + 2 + 2b
=
=
1
yt1 yt2
plim
est nie et non-nulle;
n
1
yt2 ut = 0 .
plim
n
Tout dabord:
plim
1
yt1 yt2
n
2
= E (yt1 yt2 ) = E (ut1 ut2 ) + bE yt2
=
2 +
b 2
2
2
+
2b
=
( + b)(1 + b)
1
+
1 b2
1 b2
176
1
n
yt2 ut =
Cette estimation par variables instrumentales ne resout pas le probl`eme dautocorrelation des erreurs, qui se pose puisque E(ut ut1 ) = 2 . Ce probl`eme peut etre traite en
utilisant une methode robuste destimation de la variance de bV I , analogue a` celle que nous
avons introduite a` la section 9.10; voir Hamilton, Time Series Analysis, 1994, chapitre 14.
Nous netudierons pas lestimation de ce mod`ele par maximum de vraisemblance, car
ceci rel`eve dun cours de mati`eres speciales. Il sagit dun cas particulier de mod`ele ARMA
(Auto-Regressive Moving Average); ces mod`eles peuvent etre estimes `a laide de logiciels
specialises.
14.7.3 Erreurs autor
egressives.
Nous supposons cette fois que ut = ut1 + t avec || < 1, = 1b , et E() = 0,
E( ) = 2 I.
1
plim
u
y
t1
t
n
2 .
plim b = b +
plim n1
yt1
On a de nouveau:
u2
.
1 b
On a aussi:
E
2
yt1
= E yt2
2j
b E
u2tj
+2
j=0
=
=
bj bk E (utj utk )
j=0 k=j+1
u2
b2
+ 2u2
kj bj bk
j=0 k=j+1
j=0
k=j
u2
kj
2
2j
+
2
(b)
b
(b)
u
2
1b
u2
1 b2
(1
2bu2
b2 )(1
b)
u2 (1 + b)
(1 b2 )(1 b)
Par consequent:
plim b
=
=
u2 / (1 b)
u2 (1 + b) / (1 b2 ) (1 b)
1 b2
b+
.
1 + b
b+
177
yt = (b + )yt1 byt2 + t
pour t = 3, . . . , n + 2
Ce mod`ele est non lineaire dans les param`etres. Si nous supposons que, conditionnellement `a yt1 et yt2 , les t sont normales de distribution commune N (0, 2 ), nous avons
pour lobservation t:
2 1/2
1
exp 2 [yt (b + )yt1 + byt2 ]2
2
= constante +
n+2
Lt (b, , 2 )
t=3
o`
u:
1
1
Lt (b, , 2 ) = log 2 2 [yt (b + )yt1 + byt2 ]2 .
2
2
178
1
Lt
= 2 (yt1 byt2 )t
1
1
Lt
= 2 + 4 2t
2
2
2
o`
u:
Comme log L = k +
t = yt (b + )yt1 + byt2 .
Lt , ceci implique:
n+2
log L
1
(yt1 yt2 )t
= 2
b
t=3
n+2
1
log L
(yt1 byt2 )t
= 2
t=3
n+2
n
1 2
log L
=
+
.
2
2 2
2 4 t=3 t
Pour annuler les deux premi`eres derivees de log L, il sut dappliquer, de mani`ere
alternee, les moindres carres ordinaires aux deux parametrisations lineaires pouvant etre
tirees de lequation (1), `a savoir:
(yt yt1 ) = b(yt1 yt2 ) + t
(yt byt1 ) = (yt1 byt2 ) + t
jusqu`
a la convergence de la somme des carres des residus t . On peut alors estimer 2 par:
n+2
1
(yt (b + )yt1 + b
yt2 )2 .
=
n t=3
2
An de formuler les variances des estimateurs ainsi obtenus et denoncer un test dautocorrelation des erreurs, nous allons tout dabord calculer lesperance et la matrice de covariance du vecteur:
Lt
b
Lt
Lt
=
Lt
2
179
)
)
) yt1 , yt2 = 0
)
)
)
Lt Lt ))
Lt ))
yt1 , yt2
yt1 , yt2 = E
)
)
(yt1 yt2 )2
(yt1 yt2 )(yt1 byt2 )
1
(yt1 byt2 )2
(yt1 yt2 )(yt1 byt2 )
= 2
0
0
1
2 2
Lt
(yt1 yt2 )2
1
(yt1 yt2 )(yt1 byt2 )
= 2E
0 .
1
2 2
introduite au chapitre X. Si une loi faible des grands nombres est applicable, on aura, par
exemple:
1
1
E(yt1 yt2 )2 = plim
(yt1 yt2 )2
n
n
Vn =
1
n
2
(yt1 yt2 )2
(yt1 y
t2 )(yt1 byt2 )
t2 )(yt1 byt2 )
(yt1 y
(yt1 byt2 )2
0
n
2
2
180
log L
0 ) V0
1
0
1
0
0
L
o`
u
est la valeur de log
evaluee aux estimations contraintes des param`etres et o`
u
0
L
est lestimation contrainte de la matrice de covariance de log L/. Comme
V0 log
u
t = yt bmco yt1 .
On verie aisement que:
0 =
V0
1
ut1 ut
02
2
yt1
yt1 u
t1
1
log L
t1
yt1 u
= 2
u2t1
0
n
2
02
0
t1 )2
yt1 u
t1 ( yt1 u
Nous allons maintenant montrer que cette statistique est identique a` la statistique de
Breusch-Godfrey denie a` la section 9.8.2. Dans le present contexte, la statistique de
Breusch-Godfrey est la statistique LM utilisee pour tester H0 : = 0 dans lequation
de regression auxiliaire:
181
yt = byt1 +
ut1 + t
o`
uu
t1 = yt1 bmco yt2 .
Pour montrer ce resultat, notons que lestimateur des coecients de regression dans
lequation auxiliaire peut secrire:
2
1
b
yt1 ut1
yt1
y
y
t
t1
2
=
=
= (X X)1 X y
t1
yt u
t1
yt1 u
u
t1
=
1
2
yt u
t1 ) + (
yt yt1 )(
yt1 u
t1 )
(
yt1 )(
=
2
yt1
t1 + bmco
t1
yt1 u
=
yt u
=
(yt bmco yt1 )
ut1
=
u
t u
t1 .
Par ailleurs, comme nous lavons montre `a la section 7.5:
1
V01 () = 2 [R(X X)1 R ]
0
2
yt1
1
.
= 2 2 2
0
t1 )2
yt1 u
t1 ( yt1 u
On voit alors facilement que la statistique du test de = 0 dans lequation de regression
auxiliaire, a` savoir:
V 1 ()
0
LM =
0 0
182
CHAPITRE XV
`
ERAL
LE MODELE
DYNAMIQUE GEN
15.1 Pr
esentation et hypoth`
eses
Dans ce chapitre, nous allons generaliser le mod`ele autoregressif de la section 14.7. Une
generalisation dynamique naturelle du mod`ele de regression multiple consiste a` remplacer
les variables yt et x1t , . . . , xkt de ce mod`ele par des combinaisons lineaires de leurs retards,
`a savoir (L)yt et 1 (L)x1t , . . . , k (L)xkt . On obtient alors:
(L)yt = a + 1 (L)x1t + + k (L)xkt + t
o`
u (L) est un polyn
ome normalise de degre p et i (L) est un polyn
ome de degre qi :
(L) = 1 1 L p Lp
i (L) = 0i + 1i L + + qi i Lqi .
Nous supposons que, conditionnellement aux variables explicatives de ce mod`ele, les
erreurs t sont normales et identiquement distribuees. Comme les variables explicatives
forment le vecteur zt = (yt1 , x1t , . . . , xkt ) et les retards de ce vecteur, nous avons:
E(t | zt , zt1 , . . . ) = 0
E(2t | zt , zt1 , . . . ) = 2 .
Comme `a la section 14.7, o`
u nous avions suppose que 1 < b < 1, nous faisons aussi
lhypoth`ese que (L) est inversible (ses racines doivent etre toutes strictement superieures
`a lunite en valeur absolue).
On designe ce mod`ele par AD(p, q1 , . . . , qk ).
Exemple:
Si p = 1, k = 1, et q1 = 1, le mod`ele secrit:
yt =
1 yt1 + a
. /0 1
partie autor
egressive
+ 01 x1t + 11 x1,t1 + t .
.
/0
1
partie retards
echelonn
es
183
Notes:
(1) Il ne faut pas confondre ce mod`ele avec le mod`ele ARMA(p, q), qui senonce comme:
(L)yt = (L)t
o`
u (L) est de degre p, (L) est de degre q, et les t sont spheriques et inobservables.
Les erreurs ut = (L)t du mod`ele ARMA suivent un processus `a moyenne mobile,
alors que celles du mod`ele AD sont spheriques.
(2) Contrairement au mod`ele ARMA, le mod`ele AD peut etre estime par MCO. Les
tests habituels sont asymptotiquement valides (F pour lordre des retards, LM
pour la sphericite des erreurs). Le mod`ele AD presente donc une plus grande facilite
demploi. Pour cette raison, beaucoup dauteurs preconisent son utilisation.
(3) Insistons sur la generalite du mod`ele AD, qui inclut comme cas particuliers:
le mod`ele statique si p = q1 = = qk = 0 ;
le mod`ele autoregressif pur (L)yt = a + t si i (L) = 0 pour tout i ;
le mod`ele statique `a erreurs autoregressives:
yt = a +
k
j xjt + ut ,
(L)ut = t
j=1
sous des restrictions dites de facteurs communs, comme nous le verrons plus bas.
15.2 Les restrictions de facteurs communs
Ces restrictions impliquent que les polyn
omes de retards echelonnes i (L) ont le facteur
commun (L). Donc:
i (L) = (L)i (L).
Une forme particuli`ere de ces restrictions, que nous allons examiner plus en detail, est
la proportionnalite des polyn
omes de retards echelonnes au polyn
ome autoregressif; cette
forme particuli`ere est donc:
i (L) = (L)i
Alors le mod`ele AD secrit:
(L)yt = a + (L)1 x1t + + (L)k xkt + t
ce qui implique, en multipliant les deux membres par 1 (L):
yt = a + 1 x1t + + k xkt + ut
o`
u a = 1 (L)a = 1 (1)a et ut = 1 (L)t , soit aussi (L)ut = t .
184
Exemple:
Si p = k = q1 = 1, la restriction secrit:
1 (L) = (L)1
soit aussi:
01 + 11 L = (1 1 L)1 = 1 1 1 L.
En identiant les coecients de meme degre, on obtient:
1 = 01
11 = 11
ce qui peut secrire:
11 + 1 01 = 0.
Cette restriction est non lineaire, mais peut etre testee `a laide dune generalisation
de la statistique de Wald (on utilise une approximation lineaire de la contrainte). Le test
sappelle test de facteurs communs (test COMFAC en abrege).
Exercice:
En substituant la restriction precedente dans le mod`ele:
yt = a + 1 yt1 + 01 x1t + 11 x1,t1 + t
montrez que lon arrive a` un mod`ele statique `a erreurs autoregressives.
15.3 Le mod`
ele AD et la relation d
equilibre stationnaire
Le mod`ele AD est un mod`ele statistique qui ne decrit que le comportement `a court terme
(cest-`a-dire conditionnel au passe immediat) de yt . Pour obtenir une relation economique
interessante, il faut obtenir la solution statique (ou solution a` long terme, ou encore: relation
dequilibre stationnaire) du mod`ele. Une telle solution peut etre obtenue facilement si lon
suppose que les esperances de yt et des xjt sont constantes:
E(yt ) = E(y) et E(xjt ) = E(xj ).
Alors, en egalisant les esperances des deux membres de lequation du mod`ele AD, on
obtient:
k
(1)E(y) = a +
j (1)E(xj )
j=1
et en resolvant, il vient:
E(y) = a +
k
j=1
j E(xj )
185
o`
u a = 1 (1)a et j = 1 (1)j (1). Ceci est la relation entre les niveaux dequilibre des
variables, E(y) et E(xj ).
Commentaires:
(1) Ceci peut etre generalise au cas o`
u une tendance lineaire est incluse dans la liste
des xjt .
(2) Si lon impose les restrictions precedentes de facteurs communs j (L) = (L)j ,
on a vu que:
yt = a + 1 x1t + + k xkt + ut .
On a donc, a` partir de cette relation:
j =
yt
xjt
E(yt )
.
E(xjt )
Ceci implique donc legalite des coecients `a long terme et `a court terme, et fait
apparatre que les restrictions de facteurs communs sont assez implausibles.
u les erreurs t sont
Exercice: On donne le mod`ele autoregressif yt = 2 + 0.8yt1 + t , o`
4
independantes et de distribution commune N (0, 10 ). On demande de calculer lesperance inconditionnelle E(yt ), la variance inconditionnelle V (yt ), et dexpliciter la relation
dequilibre stationnaire de ce mod`ele. Illustrez vos resultats en simulant yt `a partir du
mod`ele precedent (ceci peut etre fait a` laide dEXCEL ou dun logiciel econometrique) et
en interpretant le graphique chronologique et lhistogramme des realisations simulees.
15.4 Le mod`
ele AD et le mod`
ele de correction derreur
Nous allons maintenant reparametriser le mod`ele AD en utilisant une identite algebrique. Le mod`ele ainsi obtenu, qui porte le nom de mod`ele de correction derreur (ECM),
aura pour interet de faire apparatre directement les coecients de la relation dequilibre
stationnaire, a` savoir les 1 (1)j (1). Il est important de noter que le mod`ele de correction
derreur est equivalent au mod`ele AD: en particulier, les residus t obtenus par moindres
carres seront identiques dans les deux mod`eles. Neanmoins, le mod`ele ECM est non lineaire
dans les param`etres, tandis que le mod`ele AD est lineaire. Lestimation du mod`ele ECM
necessite donc lemploi de la methode des moindres carres non lineaires, qui est presente
comme option dans la plupart des logiciels econometriques.
Commencons par enoncer, sous forme de lemme, lidentite algebrique mentionnee au
debut de cette section.
186
Lemme 15.1.
Si A(L) = A0 + A1 L + A2 L2 + + An Ln alors:
A(L) = A(1)L + A (L)(1 L)
o`
u:
A (L) =
avec A0 = A0 et Aj =
n1
Aj Lj
j=0
n
s=j+1 As
pour j = 1, . . . , n 1 et n > 1.
Exercice:
Veriez le lemme 15.1 pour n = 1, 2, 3, 4.
D
erivation du mod`
ele de correction derreur:
On part du mod`ele AD:
(L)yt = a +
k
j (L)xjt + t
j=1
(1)yt1 + (L)yt = a +
k
[j (1)xj,t1 + j (L)xjt ] + t
j=1
(L)yt = a (1)[yt1
k
(1)j (1)xj,t1 ] +
j=1
(L)yt = a (1)[yt1
k
j=1
k
j (L)xjt + t
j=1
j xj,t1 ] +
k
j (L)xjt + t
j=1
187
yt 1 yt1 = a + 0 xt + 1 xt1 + t
ou encore comme:
(1 1 )yt1 + yt = a + (0 + 1 )xt1 + 0 xt + t
Si lon denit = (1 1 )1 (0 + 1 ) = 1 (1)(1), on peut ecrire:
yt = a (1 1 )yt1 + (1 1 )xt1 + 0 xt + t
yt = a (1 1 )[yt1 xt1 ] + 0 xt + t
Linterpretation de yt = xt + ut est celle dune fonction de consommation `a long
terme. Le terme entre crochets est lerreur ut1 de cette relation `a long terme. Le terme
(1 1 )ut1 est la correction derreur qui est ajoutee `a un mod`ele lineaire dans les
dierences premi`eres des variables.
188
CHAPITRE XVI
yt , y(t)
y(t)
.
....................
.
.
.............................. ... ...... ...
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
...............
.................
.
.
.
.
.
.
.
.
.
...........
..................
.
.
.
....
...........
.
.
.
....
.
.
.
.
.
...........
......
.
...
.
.
....
....
(t3 , yt3 )
...
......
.. ..
.
.
.
... .
.. .
... ..
... ...
.
... .
.. ..
... ..
... ...
.
. ..
... ..
.. ...
.......
.
.
...................... ... ... ... ... ... ... ... ... .........................
..................................
t
t1
t2
t3
t4
t5
189
16.2 Stationnarit
e faible
Un processus discret {Yt } est faiblement stationnaire (covariance-stationary) si et
seulement si:
E(Yt ) =
pour tout t
Cov(Yt , Ytj ) = j
pour tout j, t.
t
i
i=1
On a:
E(Yt ) = 0,
V (Yt ) = t 2 ,
E(Yt Ytj ) = (t j) 2
pour j 0.
190
1
Yt
n t=1
lorsque n ?
Au chapitre X, nous avons vu les cas suivants:
(a) Si les Yt sont independantes et identiquement distribuees desperance nulle et de
variance 2 , le theor`eme de Lindeberg-Levy vu a` la section 10.8.1 nous dit que:
n
1
Yt N (0, 2 )
d
n t=1
191
(b) A la section 10.8.2, nous avons generalise ce resultat `a des suites de variables
independantes, mais pas identiquement distribuees: Si les Yt sont independantes
desperance nulle et de variance t2 et si E(Yt3 ) < , alors:
n
1
Yt N (0, 2 )
d
n t=1
n
o`
u 2 = lim n1 t=1 t2 .
(c) A la section 10.8.3, nous avons generalise ce resultat `a des suites de variables Yt
dependantes du type Yt = ut ut1 , o`
u les ut sont independantes et identiquement
distribuees desperance nulle. Nous avons vu que dans ce cas, sous certaines hypoth`eses:
n
1
Yt N (0, 2 )
d
n t=1
o`
u 2 = plim
1
n
n
2
t=1 Yt .
Y0 = 0,
t
i.i.d, E(t ) = 0,
V (t ) = 2 ,
1
Yt ne converge pas
n t=1
n
2
1
Yt N (0, ).
d
n n t=1
3
Donc, si lon a aaire a` des processus integres, les resultats limites habituels ne seront,
en general, plus valables. Do`
u linteret dun test destine `a la detection de variables I(1) .
La r
egression de Dickey-Fuller
Notre point de depart sera la formulation dun mod`ele susamment general, decrivant
le comportement dune serie de realisations yt . Ce mod`ele doit permettre lapplication de
la denition dun processus I(1) vue a` la section 16.3. On suppose donc que:
(1)
avec:
(L)yt = + t + t
(L) = 1 1 L p Lp .
192
Le degre p est choisi susamment eleve, de facon `a ce que les t soient spheriques. Nous
appliquons maintenant a` (L) le lemme 15.1 vu au chapitre precedent. Ceci donne:
(L) = (1)L + (L)(1 L)
(2)
avec:
0 = 0 = 1
j
p
pour j = 1, . . . , p 1 et p > 1
s=j+1
(L) =
p1
j Lj .
j=0
Nous substituons enn lequation (2) dans lequation (1), pour obtenir:
p1
j ytj = + t + t
(1) yt1 + yt +
./01
j=1
Lyt
.
/0
1
(L)(1L)yt
ou encore:
(3)
yt = + t + yt1 +
p1
j ytj + t
j=1
avec = 1 (1) et j = j .
Ceci est la regression de Dickey-Fuller. Si yt est I(1), j j ytj + t est I(0) . La
comparaison avec la denition dun processus I(1) montre que = 1 . Le test est celui de
H0 : = 1
contre
H1 : < 1.
La statistique de Dickey-Fuller est alors la statistique t pour le test de cette hypoth`ese, `a
savoir:
mco 1
TDF =
mco
Mais cette statistique na pas une distribution limite normale car est le coecient dun
regresseur I(1). Les valeurs critiques de la statistique TDF sont fournies par Hamilton,
Time Series Analysis, 1994, Table B6, Case 4, p. 763. Pour prendre un exemple, si n = 100
et = 0.05, on va rejeter H0 : = 1 si TDF< 3.45, alors que la valeur critique normale
est egale `a 1.645.
193
W (1)
1
[W 2 (1) 1]
[ 0 1 0 ] A1
2
'1
W (1) 0 W (r) dr
0 1
2
[ 0 1 0 ] A1 1
0
o`
u:
'1
' 1
A=
0 W (r) dr
'1
0
W 2 (r) dr
rW (r) dr
'1
1
2
W (r) dr
'1
0
1
2
rW (r) dr
1
3
et o`
u W (r) est un mouvement Brownien standard, qui est le processus stochastique continu
obtenu comme limite de:
Zt = Zt1 + t ,
Z0 = 0,
t N (0,
1
) independantes,
n
lorsque t = 1, . . . , n et n .
An dexpliquer la nature de ce processus continu, nous allons en donner une interpretation constructive, qui permettra notamment de simuler les distributions des integrales
apparaissant dans la variable limite precedente. Ces integrales sont des variables aleatoires:
le processus W (r) peut en eet etre considere come une fonction aleatoire de r (voir la
section 16.1) et lintegrale dune fonction est un nombre.
Considerons alors la suite des variables precedentes, qui peuvent secrire:
Zt =
t
s
pour t = 1, . . . , n.
s=1
Zt a la distribution N (0, nt ). Soit r nt ; comme une variable normale centree est enti`erement caracterisee par sa variance, r caracterise enti`erement Zt . Notre denition implique
donc que si n , {Zt } converge en distribution vers:
{W (r), 0 r 1}.
194
Y0 = 0,
ut N (0, 1)
independantes.
On peut
en divisant
les deux membres de legalite precedente
se ramener au cas precedent
par n, et en denissant Zt = Yt / n, t = ut / n. On a alors:
Yt
{ } {W (r), 0 r 1}.
d
n
On peut donc approcher une realisation de W (r) en engendrant un grand nombrede
realisations ut des innovations, et en engendrant par recurrence des realisations yt / n
pour t = 1, . . . , n.
Les variables W (1) et W 2 (1) qui apparaissent dans la variable limite sont faciles a`
comprendre: W (1) est la valeur de W (r) au point r = 1, cest donc la variable normale
reduite Zn . W 2 (1) est le carre dune normale reduite, cest-`
a-dire une 2 `a un degre de
liberte.
Interessons-nous maintenant aux integrales apparaissant dans la variable limite. On peut
approcher les integrales par des
sommes de surfaces de rectangles dont les bases sont de
longueur 1/n et les hauteurs Yt / n , donc:
Yt
W (r) dr
n n
0
2
2
% 1
Yt
Yt
1
2
=
W (r) dr
n n
n2
0
% 1
1
1 t Yt
= 2
tYt
rW (r) dr
n
n n
n n
0
%
'1
0
195
'1
En fait, Hamilton (Time Series Analysis, 1994, p.485) montre que 0 W (r) dr a la distribution N (0, 1/3). Dans des cas plus compliques, tels que la simulation de la distribution
limite de la statistique TDF, la methode de simulation est la seule possible. Il faut bien
noter que les variables aleatoires apparaissant dans la variable limite sont fonction dun
meme processus W (r).
Notes sur le test TDF:
(1) Si lon ninclut pas la constante ou la tendance lineaire dans la regression de DickeyFuller, la distribution limite change (les tables a` employer sont dierentes !). Voir
Hamilton, pp.528529, pour les details.
(2) Linclusion dune constante et dune tendance lineaire dans la regression de DickeyFuller est conseillee dans linteret de la robustesse (il est plus grave domettre `a
tort des regresseurs que de faire lerreur inverse).
(3) La variable limite precedente a ete obtenue sous lhypoth`ese auxiliaire que = 0
(pas de tendance lineaire dans lequation (3) de cette section lorsque = 1, cest-`adire dans le mod`ele en dierences premi`eres). Le test precedent nest donc approprie
que si les yt ne presentent pas de tendance quadratique manifeste. La meilleure
strategie `a adopter dans le cas contraire reste une question ouverte.
(4) La technique de calcul des valeurs critiques illustre la puissance de la methodologie
de simulation stochastique.
(5) La variable limite reste inchangee si les erreurs de la regression de Dickey-Fuller
ne sont pas normales, pour autant quun theor`eme central limite fonctionnel soit
applicable (voir Hamilton, p.479).
16.5 Variables coint
egr
ees
On peut obtenir un processus I(0) a` partir dun processus I(1) en prenant les dierences
premi`eres du processus I(1). Malheureusement, ceci supprime toutes les informations `a long
terme. Pour cette raison, on a deni une autre approche permettant dobtenir un processus
I(0), celle de la cointegration.
D
enition:
Soit Y1t , Y2t , . . . , Ykt des processus stochastiques I(1). Ces processus sont dits cointegres
sil existe un vecteur a = 0 tel que :
a Yt =
k
ai Yit
i=1
196
tete `a prix constants. On fait lhypoth`ese que ces deux series sont des realisations de
processus I(1):
y1t = 1 + y1,t1 + 1t
y2t = 2 + y2,t1 + 2t
On aura cointegration si la serie y1t y2t = ut est une realisation dun processus I(0) .
Interpr
etation:
Le vecteur cointegrant est ici a = (1, ) . On a une relation de cointegration:
y1t = y2t + ut
o`
u ut est I(0) . On peut interpreter cette relation comme une fonction de consommation
`a long terme, mais linterpretation est dierente de celle que lon avait dans le cas o`
u y1t
et y2t etaient stationnaires. En eet, les niveaux dequilibre de y1t et y2t nexistent pas,
car:
yit = i + yi,t1 + it
= i + i + yi,t2 + i,t1 + it
= ...
= ti +
t
is + yi0 ;
s=1
197
p
utj + t .
j=1
La statistique TCO = (
1)/
est `a comparer avec les valeurs critiques fournies
par Hamilton, Table B9, Case 3, p.766. Ces valeurs critiques sont valables dans le
cas o`
u au moins lune des variables yt , x1t , . . . , xkt poss`ede une derive non nulle.
16.6 R
egressions de coint
egration
Quelles sont les proprietes des estimateurs par moindres carres ordinaires des coecients
de la relation:
yt = + 1 xt1 + + k xtk + ut
o`
u toutes les variables yt , xt1 , . . . , xtk sont I(1) mais o`
u ut est I(0)? Stock (Econometrica
n( ) 0
p
198
Donc
et Fobs divergent et les i ne convergent pas en probabilite! Ceci meme si les
k + 1 variables yt , xt1 , . . . , xtk sont independantes entre elles. Pour tout c, on a que:
lim P [Fobs > c] = 1,
`
TROISIEME
PARTIE
SYSTEMES
DEQUATIONS
SIMULTANEES
CHAPITRE I.
INTRODUCTION
Ct
a + bYt + u1t
Yt
C t + It
o`
u Ct est la consommation, Yt le revenu national, It linvestissement, et u1t est un terme
derreur formant un vecteur u1 avec E(u1 ) = 0, E(u1 u1 ) = 2 I.
En substituant la premi`ere equation dans la seconde, on obtient:
Yt = a + bYt + u1t + It ,
soit aussi:
Yt =
a
u1t
1
+
It +
.
1b 1b
1b
199
200
u21t
2
)=
= 0,
1b
1b
et lapplication des moindres carres ordinaires a` la premi`ere equation ne donne pas des
estimateurs convergents.
Si E(Yt u1t ) > 0, nous aurons, avec une probabilite relativement forte:
......
.....
......
......
.
.
.
.
....
......
.....
......
.
.
.
.
.
......
.....
.....
......
.
.
.
.
.
......
......
......
.....
.
.
.
.
.....
......
...
.....
.............
......
.
.
.
.............
.
.
...
.............
.....
.............
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.....
..............
......
.............
.....
.............
...... .........................
.
.
.
.
.
.
.. ....
.................
...............
............. .....
............. ..........
.
.
.
.
.
.
.
.
.
.
.
.
.
......
..............
.............
......
......
.....
.
.
.
.
.....
......
.....
......
.
.
.
.
.
.....
.....
.....
......
5
4
0.5
a
+ bYt
.....
a + bYt
1.0
1.5
E(Yt )
Yt
2.0
Exemple 2
Nous avons ici deux equations de comportement, une loi dore et une loi de demande.
Les quantites demandees (qt ) dependent du prix (pt ) et du revenu (rt ). Le prix (pt ) depend
ut de production (ct ). Le syst`eme secrit:
des quantites oertes (qt ) et du co
`
TROISIEME
PARTIE, CHAPITRE I
(i)
qt
a1 + b1 rt + c1 pt + u1t
(ii)
pt
a2 + b2 ct + c2 qt + u2t
201
Donc pt depend de qt dans (ii), qui depend de u1t dans (i): nous concluons que pt est
correlee avec u1t . Mais pt apparat comme regresseur dans (i): nous avons donc un probl`eme
de simultaneite comme auparavant.
1.2 Variables endog`
enes et pr
ed
etermin
ees
Les variables pt et qt de lexemple precedent sont dites endog`enes: elles sont determinees
par le mod`ele, et dependent des termes derreur de chacune des equations. Les variables
ct et rt sont dites predeterminees: par hypoth`ese, elles ne sont correlees avec aucun des
termes derreurs contemporains.
Comme on le verra par la suite, il est important de faire une distinction entre variables
exog`enes et variables predeterminees. Les variables exog`enes sont determinees par des
relations nappartenant pas au mod`ele: elles ne sont donc correlees, ni avec les termes
derreurs contemporains, ni avec les autres termes derreur. En revanche, les variables
predeterminees comprennent, non seulement les variables exog`enes, mais aussi les variables
endog`enes retardees, pour autant que les erreurs ne soient pas correlees dans le temps.
1.3 Pr
esentation matricielle et hypoth`
eses
Nous pouvons ecrire le syst`eme dequations precedent sous la forme canonique suivante:
qt c1 pt a1 b1 rt 0ct
u1t
c2qt + pt a2 0rt b2 ct
u2t
11
12
21
22
qt
pt
11
12
21
22
1
u1t
rt =
23
ct
u2t
13
202
Byt + xt = ut
o`
u B est une matrice g g de coecients des variables endog`enes;
est une matrice g k de coecients des variables predeterminees;
yt est un vecteur g 1 de variables endog`enes;
xt est un vecteur k 1 de variables predeterminees;
ut est un vecteur g 1 derreurs inobservables.
Les hypoth`eses de ce mod`ele sont les suivantes:
(H1 ) E(ut ) = 0
pour tout t = 1, . . . , n
(H2 ) E(ut ut ) =
(t = s)
1
nX U
1
nX X
= Okg
= XX est denie positive
o`
u
x1
x2
.
.
.
est n k
et
est n g
xn
u1
u2
.
.
.
un
En reunissant toutes les observations t sur Byt + xt = ut , on peut aussi secrire
Y B + X = U, o`
u Y est n g.
`
TROISIEME
PARTIE, CHAPITRE I
203
avec = B 1 et
vt = B 1 ut
Comme nous le verrons, les g equations de ce nouveau syst`eme peuvent etre estimees
par moindres carres ordinaires, sans probl`eme de simultaneite.
La forme reduite peut aussi secrire:
Y = X + V
, o`
u V = U(B )1
1
yt1
xt =
..
.
ytp
= ( 0 1 2 . . . p ) .
(3) Le mod`ele autoregressif a` retards echelonnes vectoriel, o`
u lon a un nombre arbitraire de variables exog`enes formant un vecteur zt et un nombre arbitraire de
retards de ces variables. Il sagit dune generalisation du mod`ele VAR precedent,
qui peut secrire comme:
(L)yt = (L)zt + vt .
Un cas particulier de ce type de mod`ele sera etudie en detail a` la section 1.7.
204
1.5 Propri
et
es statistiques de la forme r
eduite
Il est facile de verier que:
E(vt ) = 0
E(vt vt ) = B 1 (B )1
E(vt vs ) = Ogg pour t = s
1
X V = Okg .
plim
n
Donc les erreurs de la forme reduite sont desperance nulle, homoscedastiques, non
correlees dans le temps, et non correlees avec les regresseurs contemporains.
On peut par consequent estimer les equations de la forme reduite par moindres carres
ordinaires. La colonne i de legalite matricielle Y = X + V peut secrire:
y i = X i + v i
o`
u i est la colonne i de la matrice . Ceci est une equation de regression du type habituel,
et par consequent:
i = (X X)1 X y i
= (X X)1 X Y.
On montrera plus loin (section 5.1) que cet estimateur est aussi lestimateur par maximum de vraisemblance lorsque les erreurs sont normales. En revanche, comme nous lavons
indique, la forme structurelle ne peut pas etre estimee par MCO.
1.6 Interpr
etation
economique de la forme r
eduite
Reprenons le mod`ele de la section 1.1:
Ct
a + bYt + u1t
Yt
C t + It
Lestimation des param`etres de cette forme structurelle ne fournit que les propensions
marginales et moyennes a` consommer. On pourrait aussi se demander quel est limpact sur
la consommation dune augmentation des depenses dinvestissement. Cet impact est bien
entendu mesure par le multiplicateur.
`
TROISIEME
PARTIE, CHAPITRE I
205
Nous allons voir que ce multiplicateur nest autre que lun des coecients de la forme
reduite. Ces coecients mesurent donc leet sur les variables endog`enes dun changement
des variables predeterminees, lorsque lon tient compte de la simultaneite du syst`eme.
La forme structurelle secrit Byt + xt = ut , avec
B=
, =
yt =
Ct
, xt =
Yt
et ut =
u1t
It
Donc:
=
=
1
B =
1b
1
a b
,
1 b a 1
1
1
1
b
1
a 0
0 1
Ct
Yt
b
a
+
It + v1t
1b 1b
1
a
+
It + v2t
1b 1b
dCt
b
1
dYt
=
=
et
.
dIt
1b
dIt
1b
1.7 Forme r
eduite dynamique, forme nale, multiplicateurs
Certaines variables predeterminees sont ici des variables endog`enes retardees. Dans le
cas particulier dun seul retard, nous pouvons ecrire la forme reduite comme:
yt = 1 yt1 + 2 zt + vt
o`
u yt est le vecteur des variables endog`enes contemporaines, yt1 est le vecteur des
variables endog`enes retardees, zt est le vecteur des variables exog`enes et 1 , 2 sont des
sous-matrices de .
Nous allons, au moyen de substitutions successives, exprimer yt en fonction des seules
variables exog`enes et des erreurs.
206
On a
yt
s+1
1 yts1
j1 2 ztj
j=0
j1 vtj
j=0
Cj ztj +
j=0
avec:
j1 vtj ,
j=0
Cj = j1 2 .
def
Cette derni`ere equation sappelle la forme nale du mod`ele. Elle permet dobtenir, par
simple lecture, les multiplicateurs dynamiques. On distingue:
(1) Les multiplicateurs dimpact: ce sont les composantes de C0 = 2 .
(2) Les multiplicateurs de delai j: ce sont les composantes de Cj . Ils mesurent leet
sur les yt dune variation temporaire des variables exog`enes `a la periode t
j.
1
Cj = I + 1 + 21 + . . . 2 = (I 1 ) 2 .
j=0
Ils mesurent leet dune variation des zt soutenue pendant une innite de periodes.
Le niveau dequilibre des variables endog`enes est alors donne par E(
y ) = D z, o`
u
z est le nouveau niveau des variables exog`enes.
A titre dexemple, considerons la forme structurelle suivante:
Ct
It
Yt
=
=
Supposons qu`
a partir dune situation dequilibre, le niveau G des depenses gouvernementales augmente dune unite `a la periode t 1, et revienne a` la periode suivante `a son
`
TROISIEME
PARTIE, CHAPITRE I
207
Ct
yt = Yt ;
xt =
yt1
zt =
Gt
zt
It
0.5
0.1
1
Ct
1 Yt + 0
1
0.3 0
It
Ct1
u1t
0.25 0
Yt1
0
1 1
0
Gt
On verie aisement que
0.375 0
= B 1 = 0
0.75
0.375 0
0.75 1.25
1
2.5
0.25 0.25
1 = 0
0.375 0
0.75
0 et
0.375 0
0.75 1.25
2 = 1
2.5
0.25 0.25
Les reponses aux questions posees sont donnees par les multiplicateurs de delai 1, et de
delai 2. On verie que:
208
0.375
0.9375
1.875
C1 = 1 2 = 0.75
0.375
0.9375
0.28125
0.703125
1.40625
C2 = 21 2 = 0.5625
0.28125
0.703125
et si
Donc, si une situation dequilibre prevaut a` la periode t 2 (soit si Gt2 = G)
= 1 tandis que Gs G
= 0 pour s = t 1, on a, a` un terme derreur pr`es:
Gt1 G
Ct C = 0.9375
Yt Y = 1.875
It I = 0.9375
Ct+1 C = 0.703125
Yt+1 Y = 1.40625
It+1 I = 0.703125
En eet:
yt y
yt+1 y
D = (I 1 )
2.25
2 = 4
1.75
10
`
TROISIEME
PARTIE, CHAPITRE II
209
CHAPITRE II.
`
LE PROBLEME
DE LIDENTIFICATION
et (F B)yt + (F )xt = F ut
o`
u F est une matrice g g reguli`ere, dierente de la matrice unite. A la seconde forme
structurelle correspond la forme reduite yt = B 1 xt + B 1 ut , comme on le voit facilement si lon premultiplie les deux membres par (F B)1 = B 1 F 1 . Cette forme reduite
est identique a` la premi`ere. Les deux formes structurelles sont donc observationnellement
equivalentes. Or, il existe une innite de matrices F reguli`eres.
On verie que les deux formes structurelles conduisent a` la meme fonction de vraisemblance. Le probl`eme du maximum de vraisemblance na donc pas de solution unique.
Comment, alors, estimer B et ? Nous ne pouvons le faire que gr
ace aux restrictions
a` priori que nous fournit la theorie economique sur les composantes de ces matrices. Le
probl`eme didentication est donc conceptuellement fort semblable au probl`eme de multicolinearite etudie `a la section 5.7.1 de la deuxi`eme partie.
En particulier, certaines des composantes seront nulles: les variables correspondantes
apparatront dans certaines equations, mais pas dans les autres (voir la section 1.1 de cette
troisi`eme partie). Ces restrictions impliqueront alors des restrictions sur la matrice F , car
210
11
12
21
22
y1t
y2t
11
x1t =
21
u1t
u2t
y1t
11 x1t + u1t
y2t
Lapplication des moindres carres ordinaires a` chaque equation donne des estimateurs
convergents. La propriete est evidente pour la premi`ere equation. En ce qui concerne la
seconde, il est immediat que E(y1t u2t ) = 0, puisque E(x1t u2t ) = 0 et E(u1tu2t ) = 0.
Nous allons illustrer la section precedente en veriant, par le biais de la matrice de
transformation F , que les deux equations du syst`eme sont identiables.
Les matrices de la forme structurelle transformee:
FB
f11
f12
f21
f22
11
12
21
22
f11 11 + f12 21
f11 11 + f12 21
f11 12 + f12 22
f21 11 + f22 21
f21 12 + f22 22
f21 11 + f22 21
doivent obeir aux trois memes restrictions que les matrices B et . De meme, la matrice
de covariance de la forme structurelle transformee doit etre diagonale. Nous avons donc
les quatre restrictions suivantes (il faut bien noter que ce sont les seules):
`
TROISIEME
PARTIE, CHAPITRE II
f11 11 + f12 21
f11 12 + f12 22
f21 12 + f22 22
211
ou, en substituant les quatre restrictions sur les param`etres de la forme structurelle
dorigine:
f11 + f12 21
f12
f22
Comme 11 = 0, ces quatre equations ont comme solution unique f11 = 1, f12 = 0, f21 =
0, f22 = 1.
Donc les restrictions impliquent F = I, et nous ne pouvons avoir deux formes structurelles dierentes impliquant la meme forme reduite. Les deux equations sont identiables.
Exercice: Calculez la forme reduite du syst`eme precedent. Pourquoi ne peut-on pas identier les param`etres de la seconde equation structurelle lorsque E(u1t u2t ) = 0?
2.3 La condition de rang
Lorsque les seules restrictions sont des restrictions lineaires homog`enes portant sur les ij
et ij , jointes a` des restrictions de normalisation (ij = 1 pour un seul j dans lequation i ),
nous allons voir quil nest pas necessaire de passer par lapproche de la section precedente.
Une condition necessaire et susante pour lidentiabilite dune equation peut en eet etre
enoncee en fonction du rang dune certaine matrice.
212
W =
est g (g + k)
est (g + k) k
Ik
Soit alors i la i-i`eme ligne de A. Il sagit du vecteur des coecients de la i-i`eme equation
structurelle. Le rang de W est egal a` k. En eet, comme rang (Ik ) = k, rang (W ) k; mais
W na que k colonnes, donc rang (W ) k. Donc i W = O1k est un syst`eme homog`ene
de k equations independantes avec g + k inconnues. Lensemble des solutions est donc un
espace vectoriel de dimension (g + k) k = g.
Les restrictions homog`enes devront ramener cette dimension a` lunite pour que lequation i soit identiable. Le vecteur i sera alors determine `a un facteur de proportionnalite
pr`es et la restriction de normalisation permettra de le determiner de facon unique.
Ces restrictions homog`enes, au nombre de Ri , sont regroupees dans le syst`eme i i =
O1Ri . La matrice i a g + k lignes et Ri colonnes. Au total, le syst`eme dequations qui
devrait nous permettre de retrouver les param`etres de la i-i`eme equation structurelle a`
partir des restrictions et des param`etres de la forme reduite est le suivant:
i ( W
et le rang de ( W
proportionnelles.
i ) = O1(k+Ri )
2.3.2 Formulation
equivalente en fonction des coecients de la forme structurelle.
Cette formulation est plus facile a` utiliser que la precedente, car elle nimplique pas le
calcul de .
`
TROISIEME
PARTIE, CHAPITRE II
Th
eor`
eme.
Le rang de ( W
g 1.
213
D
emonstration:
Voir Judge et al., The Theory and Practice of Econometrics, 1985, p.577.
2.4 La condition dordre
Supposons maintenant que les seules restrictions homog`enes soient des restrictions dexclusion (du type ij = 0 ou ij = 0). Nous pouvons alors enoncer un crit`ere encore plus
simple que le precedent. Il faut neanmoins insister sur le fait que ce crit`ere est une condition
necessaire, mais pas susante, pour lidentication dune equation. Si la condition dordre
nest pas veriee, lequation nest pas identiable; si la condition dordre est satisfaite, il
faut neanmoins verier la condition de rang.
Repartons de lequation rang ( W i ) = g + k 1. Comme ( W i ) a k + Ri colonnes
et g + k lignes, cette condition ne sera certainement pas veriee si Ri < g 1; en eet, dans
ce cas, rang ( W i ) k+Ri < k+g1. Une condition necessaire pour lidentication de
lequation i est donc Ri g 1. Comme les Ri restrictions sont des restrictions dexclusion,
on a:
R i = g g i + k ki
o`
u gi et ki sont les nombres de variables respectivement endog`enes et predeterminees
incluses dans lequation i. Il faut donc que:
R i = g g i + k ki g 1
soit
k ki g i 1 .
214
A=
0 11
21 1 21
0
0
`
TROISIEME
PARTIE, CHAPITRE III
215
CHAPITRE III.
` INFORMATION LIMITEE
METHODES
DESTIMATION A
3.1 Introduction
Nous verrons dans ce chapitre la methode des moindres carres indirects, qui nest applicable qu`
a une equation juste-identiee (k ki = gi 1); la methode des moindres carres
doubles, qui est applicable a` toute equation identiable (k ki gi 1); et lestimateur
de classe k, qui generalise celui des moindres carres doubles et qui inclut aussi, comme cas
particulier, lestimateur par maximum de vraisemblance `a information limitee. Le terme
information limitee signie que lon ne tient compte, lors de lestimation des coecients
de la i-i`eme equation structurelle, que des restrictions a priori sur cette equation (independamment de la formulation des autres equations). Les methodes de cette classe ont donc
lavantage de la simplicite et de la robustesse. En revanche, les methodes `a information
compl`ete, que nous verrons au chapitre IV, sont potentiellement plus ecaces car elles
utilisent les restrictions a priori sur toutes les equations du syst`eme.
Lestimateur de moindres carres doubles, que nous verrons a` la section 3.3, est lestimateur a` information limitee le plus couramment utilise. Cest un estimateur par variables
instrumentales, qui est asymptotiquement equivalent a` celui du maximum de vraisemblance
`a information limitee.
3.2 Moindres carr
es indirects
3.2.1 Pr
esentation de la m
ethode.
Nous avons mentionne plus haut que les equations de la forme reduite yt = xt +
vt pouvaient etre estimees par moindres carres ordinaires: on regresse chaque variable
endog`ene sur toutes les variables predeterminees presentes dans le mod`ele. Ceci fournit
i ( W
i ) = O1(k+Ri )
o`
u
=
W
Ik
216
3.2.2 Limitations.
Montrons que cette procedure nest pas applicable lorsque Ri = g 1. La matrice
i ) est de dimensions (g + k) (k + Ri ).
(W
Si Ri > g 1, son rang sera de g + k en general, meme si rang ( W i ) = g + k 1.
Nous avons donc g + k equations independantes en g + k variables. La solution unique est
le vecteur nul, et cette solution est donc incompatible avec la condition de normalisation!
i ) sera strictement inferieur a` k + g 1, et nous aurons
Si Ri < g 1, le rang de ( W
une innite de solutions.
Illustrons ce qui prec`ede au moyen de lexemple suivant:
St
a0 + a1 pt + a2 Et + u1t
pt
b0 + b1 St + b2 rt + b3 pt1 + u2t
o`
u St est le taux de variation des salaires; pt est le taux dination; Et est le taux de
chomage; rt est le taux dinteret.
Les deux variables endog`enes sont pt et St ; les quatre variables predeterminees sont la
constante, Et , rt et pt1 .
La matrice A a la forme suivante:
A=
a1
b1
a0
a2
b0
0
b2
b3
Donc
0
0
0
1 =
0
1
0
A1 =
b2
0
0
0
1
0
b3
0
0
0
2 =
1
0
0
et
A2 =
a2
Les deux matrices sont de rang 1, donc les deux equations sont identiables. Pour la
premi`ere equation, k k1 = 2 > g1 1 = 1. Pour la seconde, k k2 = 1 = g2 1 = 1.
Donc la premi`ere equation est sur-identiee, la seconde est juste-identiee.
Nous resumons les donnees de lechantillon dans la matrice des sommes de carres et de
produits suivante:
`
TROISIEME
PARTIE, CHAPITRE III
St
pt
Constante
Et
rt
pt1
217
St
pt
Constante
Et
rt
pt1
361
100
10
20
80
80
100
279
80
10
60
40
10
80
100
0
0
0
20
10
0
20
0
0
80
60
0
0
40
0
80
40
0
0
0
80
Les param`etres de la forme reduite sont estimes par moindres carres ordinaires. Donc:
10
20
80
10
1
100
80 80 0
60 40 0
0.1
0.8
0.5 1.5
1
20
1
40
1
80
0.5
Estimons les param`etres de la seconde equation structurelle par la methode des moindres
carres indirects. Ces estimations sont obtenues en resolvant:
( b1
b0
b2
0.1
0.8 0.5
0
1
b3 )
1
0
0
0
0
0
1.5 0.5
0
0
= (0
0
0
1
0
0
1
0 0
0)
218
( 1 a1
a0
a2
0.1
0.8
0)
0
0.5 1.5
0
0.5
= (0
0
0)
Yi i + Xi i + ui
ou
yi
Ti i + ui
avec Ti
( Yi
Xi )
et i =
i
yi est le vecteur n 1 des observations sur la variable endog`ene dont le
coecient est normalise `a lunite dans lequation i;
Yi est la matrice n (gi 1) des observations sur les variables endog`enes qui
sont incluses comme regresseurs dans lequation i;
Xi est la matrice n ki des observations sur les variables predeterminees
incluses dans lequation i.
`
TROISIEME
PARTIE, CHAPITRE III
219
3.3.3 Pr
esentation heuristique g
en
erale.
Cette presentation conduit aisement aux equations normales. Nous denirons lestimateur de i par moindres carres doubles comme le vecteur obtenu en:
regressant, par moindres carres ordinaires, chacune des variables de Yi sur toutes les
variables predeterminees du mod`ele, an dobtenir une matrice de valeurs calculees
Yi ;
puis en remplacant Yi par Yi dans lequation yi = Yi i + Xi i + ui et en appliquant
une nouvelle fois les moindres carres ordinaires a` lequation ainsi obtenue.
220
)
(E.N.1)
Yi Yi
Xi Yi
Yi Xi
Xi Xi
i
i
Yi yi
Xi yi
Xi ) = PX ( Yi
Xi ) = PX Ti
et par consequent:
i = (Zi Zi )1 Zi yi
= [(PX Ti ) (PX Ti )]1 (PX Ti ) yi
= [Ti PX Ti ]1 Ti PX yi
= [Zi Ti ]1 Zi yi
`
TROISIEME
PARTIE, CHAPITRE III
221
ou encore:
(E.N.2)
Yi X(X X)1 X Yi
Xi Yi
Yi Xi
Xi Xi
Yi X(X X)1 X yi
Xi yi
Lexpression [Ti PX Ti ]1 Ti PX yi montre que lon a bien un estimateur par variables
instrumentales: les observations sur ces variables forment la matrice X. La convergence en
probabilite de i vers i est garantie par lhypoth`ese H6 de la section 1.3.
Il est interessant de noter que Ti PX Ti est dordre ki + gi 1 et de rang inferieur ou
egal a` k. Donc si la condition dordre nest pas veriee (k ki < gi 1), la matrice des
coecients des equations normales sera singuli`ere.
3.3.5 Distribution asymptotique.
Puisque lestimateur des moindres carres doubles est un estimateur par variables instrumentales, le theor`eme 13.8 de la seconde partie lui est immediatement applicable. Nous
avons donc le resultat suivant.
Th
eor`
eme.
Soit i lestimateur de i par moindres carres doubles. Sous les hypoth`eses dun theor`eme
central limite:
n(i i ) N (0, ii 1 ) o`
u ZZ = plim 1 Z Zi
.
(1) dlim
ZZ
(2) Si
ii =
1
n (yi
Ti i ) (yi Ti i ), alors plim
ii = ii
Notons quil nest pas necessaire de calculer chaque residu pour calculer
ii . On verie
en eet par simple substitution que:
Y
Yi Yi
y
i
i
1
+ i
yi yi 2i
ii =
n
Xi yi
Xi Yi
Yi Xi
Xi Xi
222
80
10
X Y1 =
60
40
X1 y1 =
10
20
X1 X1 =
100
20
10
20
X y1 =
80
80
100
0
X X =
20
40
X1 Y1 =
80
10
80
179
80
80
100
10
10
178
= 10
0
1
20
20
200
160
22000
100
32/22
100
80
1150
178
80 10
348
234/220
6/22
160
a
1
20
0
a
a
2
`
TROISIEME
PARTIE, CHAPITRE III
10
20
X Y2 =
80
80
100
223
X2 X2 = 0
40
80
80
10
X y2 =
60
40
80
X2 y2 = 60
40
10
X2 Y2 = 80
80
et les equations normales sont:
261
10
80
80
10
80
100
40
178
b1
0 b0 80
0 b2 60
b3
80
40
80
syst`eme dont la solution est b0 = 0.75, b1 = 0.5, b2 = 0.5, b3 = 0. Nous retombons sur
les memes resultats que ceux obtenus par moindres carres indirects! Ceci est d
u au fait que
lequation 2 soit juste-identiee. Cette propriete est generale, comme on peut le demontrer.
1 , a
2 . On a:
Estimons maintenant les variances asymptotiques des estimateurs a
0 , a
11
1
=
361 2 ( 1.45
100
100
1.06 0.27 ) 10
20
279
80
100
10
10
1.45
0 1.06 = 5.4575
20
0.27
224
a20
5.4575
a21
348
22000
= 0.0863
0.0496
a22 = 0.2853.
Comme:
6/22
2
a
= 0.5106 < 1.96,
=
a2
0.2853
a
2 nest pas signicativement dierent de zero.
3.4 Lestimateur de classe k
Yi Yi k Vi Vi
Xi Yi
Yi Xi
ik
ik
ik
Yi k Vi
=
Xi Xi
ik
Xi yi
yi
o`
u Vi est une matrice de residus de la forme reduite, denie comme:
Vi = (I X(X X)1 X )Yi = MYi
Si k = 0, nous avons lestimateur obtenu par moindres carres ordinaires appliques `a la
i-i`eme equation structurelle.
Si k = 1, nous avons lestimateur de moindres carres doubles, comme on peut le voir
facilement `a partir des equations normales (E.N.2) puisque PX Yi = Yi Vi et puisque
Yi Vi = Vi Vi .
Si k est aleatoire et plim k = 1, nous avons un estimateur convergent. Si, en particulier,
k est egal a` la plus petite racine dune certaine equation determinantale, on obtient
lestimateur de maximum de vraisemblance a` information limitee; on peut prouver que
plim n( 1) = 0 (voir Judge et al., The Theory and Practice of Econometrics, p. 602).
`
TROISIEME
PARTIE, CHAPITRE IV
225
CHAPITRE IV.
` INFORMATION COMPLETE
`
METHODES
DESTIMATION A
Nous estimons ici, globalement, les param`etres dun syst`eme entier. Nous supposons que
toute equation non identiable, et toute identite, a ete supprimee du syst`eme (les identites
sont eliminees par substitution). Les methodes de ce chapitre permettent, dans certains
cas, un gain decacite asymptotique.
4.1 Le produit de Kronecker et certaines de ses propri
et
es
Cette operation permet, dans le cadre des syst`emes dequations, lelaboration dune
notation tr`es compacte.
Si A est une matrice m n et B est une matrice p q, A B est la matrice mp nq
suivante:
AB
a11 B
a21 B
.
..
am1 B
a12 B
...
a22 B
...
..
.
...
am2 B
...
a1n B
a2n B
..
.
amn B
BF C F
B C
.
4.1.1 Si A =
, alors A F =
D E
DF E F
Il ny a pas de propriete analogue lorsque cest la matrice F qui est partagee.
4.1.2 (A B) = A B
4.1.3 A (B + C) = A B + A C
4.1.4 (B + C) A = B A + C A
4.1.5 (A B) C = A (B C)
4.1.6 tr(A B) = (trA)(trB) si A et B sont carrees.
226
a2
...
an )
a1
a2
vec A =
...
an
`
TROISIEME
PARTIE, CHAPITRE IV
227
= [Ig (X X)1 X ]Y
(X X)1 X
O
..
.
O
(X X)1 X
..
.
...
...
..
.
...
y1
y2
.
.
.
1
yg
(X X) X
O
O
..
.
228
X y1
X T1
X y2 O
. = .
. .
. .
X yg
...
X T2
...
..
.
..
.
...
1
X u1
O
. .
.. + .
.
..
.
Xu
g
X Tg
soit aussi:
o`
u Y est gk 1, et X est gk
Y = X + U
i=1 (ki
+ gi 1).
En ce qui concerne les erreurs U, on a, sous lhypoth`ese simplicatrice que X est non
stochastique, E(U) = 0, et:
E(UU )
=
=
(X X)
11 (X X)
..
.
g1 (X X)
12 (X X)
..
.
...
..
.
g2 (X X) . . .
1g (X X)
..
gg (X X)
(2) Soit U
1 . . . . . . ug ). La matrice est estimee par S = n1 U
Ceci
(3) On applique enn la formule de Aitken au syst`eme precedent pour obtenir .
donne:
= {X [S 1 (X X)1 ]X }1 X [S 1 (X X)1 ]Y
s11 A11
= ...
sg1 Ag1
...
..
.
...
1 g
1j
1
X yj
s1g A1g
j=1 s T1 X(X X)
..
..
.
.
g
gg
gj
1
s Agg
X yj
j=1 s Tg X(X X)
`
TROISIEME
PARTIE, CHAPITRE IV
229
o`
u Aij = Ti X(X X)1 X Tj .
4.4.2 Justication par les variables instrumentales.
Denissons:
T1
O
T =
...
O
T2
..
.
...
...
..
.
...
O
O
..
.
Tg
y1
y2
z=
..
.
yg
1
2
=
...
g
u1
u2
u=
.. .
.
ug
230
Nous avons donc bien un estimateur par variables instrumentales; les instruments forment la matrice (S 1 PX )T .
Verions que ces instruments verient bien la propriete du lemme 13.6 de la seconde
partie. Le vecteur plim n1 Z u prend ici la forme:
1
plim T (S 1 PX )u
n
vecteur dont les sous-vecteurs prennent la forme:
plim
1 ij
s Ti X(X X)1 X uj =
n
j
1
1
1
1
ij
s
plim
Ti X
XX
X uj =
n
n
n
j
1
1
1
1
ij
s
plim X X
plim X uj = 0
plim Ti X
n
n
n
j
`
TROISIEME
PARTIE, CHAPITRE IV
231
u:
(2) dlim n( ) N (0, Q) o`
Q = plim n[T (1 PX )T ]1
(3) plim S 1 = 1 , o`
u S a ete precedemment definie.
0
(4) Si Q est la matrice de covariance asymptotique de n(0 ), alors:
u B est definie non negative.
Q0 = Q + B, o`
Nous allons justier ce theor`eme au moyen dun argument par analogie. A la section
13.3.3 de la seconde partie, nous avions trouve la matrice de covariance asymptotique:
V = plim n
2 (Z X)1 Z Z(X Z)1 .
Cette matrice peut aussi secrire:
V = plim n(Z X)1 V (Z u | Z)(X Z)1 .
Dans le cas qui nous occupe, Z doit etre remplace par (1 PX )T , et X doit etre
remplace par T . De plus, nous avons E(uu | Z) = In au lieu de E(uu | Z) = 2 I.
Par consequent, V (Z u | Z) devient:
E[T (1 PX )uu (1 PX )T ) | Z] = T (1 PX )( I)(1 PX )T
= T (1 PX )T
En faisant ces remplacements dans lexpression de V et en simpliant, on obtient:
Q = plim n[T (1 PX )T ]1
qui est identique a` la matrice de covariance de lenonce.
232
S=
11
12
12
22
La variance
11 a ete calculee `a la section 3.3.6 (
11 = 5.4575). On obtient de meme:
22
1
279 2 ( 0.5
=
100
0.75 0.5
100
80
0)
60
40
+ ( 0.5 0.75
361
10
0.5 0 )
80
10
80
100
40
80
12
1
=
100 ( 1.45
100
279
80
0.5
0 0.75
= 2.03
0 0.5
80
1.06 0.27 ) 80
10
( 0.5 0.75
361
10
0.5 0 )
80
80
100
80
60
100
20
0.5
0.75
0
= 3.3018.
0.5
0
0
40
`
TROISIEME
PARTIE, CHAPITRE IV
233
Les blocs:
T1 X(X X)1 X T1 ,
T2 X(X X)1 X T2 ,
T1 X(X X)1 X y1
T2 X(X X)1 X T1 ,
T1 X(X X)1 X y2 ,
T1 X
T2 X
Y1 X
X1 X
Y2 X
X2 X
10
20
80
80
60 40
0
0
0
0
80 80
0
0
40 0
0 80
80 10
100 0
0
20
10 20
100 0
0
0
0
0
X y1
80
10
60
40
X y2
T2 X(X X)1 X T1
178 10
80 100
60
0
40
0
T2 X(X X)1 X y1
261
10
80
80
T1 X(X X)1 X y2
179
80
10
T2 X(X X)1 X y1 .
Nous avons:
20
0
0
0
T2 X(X X)1 X y2
234
179
80
11.484 80 100
10
0
178 10
80 100
18.679
0
60
40
178
80
0 18.679 10
100
10
20
20
261
20
0
10
30.875
0
80
80
0
10
100
0
0
a1
a
0 0 0
a
0 0 2
80 80
b1 =
0 0
b0
40 0
b2
0 80
b3
179
178
+
18.679
80
10
11.484
10
20
178
261
80
10
+ 30.875
18.679
60
80
60
40
80
La solution de ce syst`eme, conduit au vecteur de param`etres suivant:
1.4545
1.0636
0.2727
= 0.5
0.75
0.39
0.165
et `a la matrice de covariance asymptotique estimee:
40
`
TROISIEME
PARTIE, CHAPITRE IV
0.0496
0.0397
0.0248
0.045
0.015
0.0397 0.0248
0.0863
0.0198
0
0.033
0.036
235
0.045
0.015
0.2166
0.1064
0.0198
0
0.033
0.036
0.012
0.3527
0.203
0.0203
0.4477
0.2166
0.012
0.1015
0.1726
0.0101
Y B + X = U
g/2
1/2
(det )
1
exp ut 1 ut
2
Les yt et les ut sont lies par la relation Byt + xt = ut . Donc la matrice jacobienne
= B , et en vertu du theor`eme de la section 2.2 de la premi`ere partie, nous pouvons
ecrire la densite de yt conditionnelle a` xt comme:
ut
yt
236
Par consequent, la densite des variables endog`enes conditionnelle aux variables exog`enes
secrit comme:
fY (y1 , . . . , yn ) =
n
ft (yt ) =
t=1
(2)
ng/2
ou, puisque:
n/2
(det )
| det B |n exp
n
1
(Byt + xt ) 1 (Byt + xt )
t=1
ut 1 ut = tr U 1 U = tr 1 U U :
t=1
fY (y1 , . . . , yn ) =
ng/2
(2)
n/2
(det )
1
1
Y B + X
Y B + X
.
| det B | exp tr
2
n
log L(B, , ) =
1
n
1
k log (det ) + n log (| det B |) tr
Y B + X
Y B + X
2
2
ou encore:
n
log det 1 + n log (| det B |)
2
1
1
1
1
tr 1 BY Y B tr 1 X Y B tr 1 BY X tr 1 X X .
2
2
2
2
log L = k +
et nous utilisons les formules suivantes (voir Magnus et Neudecker, Matrix Dierential
Calculus with Applications in Statistics and Econometrics, 1988):
`
TROISIEME
PARTIE, CHAPITRE IV
237
log (| det A |) 1
= A
A
tr AC = C
A
tr DACA = 2DAC
A
si D et C sont symetriques.
Par consequent:
log L
1
n
1
Y B + X
Y B + X = O
2
2
1
log L
B
n B
log L
1 BY X 1 X X = O
1 BY Y 1 X Y = O
1
U U
n
1 1
U Y
n
1 U
X
avec U
+ X
YB
B
1
Ce syst`eme est non lineaire, et doit etre resolu par des methodes numeriques. Pour quil
ait une solution unique, on doit lui ajouter les restrictions didentication. Il faut noter
est precisement celle que nous avons employee en moindres carres
que la formule de
X = O, equation que nous
triples. Dautre part, la troisi`eme equation est impliquee par U
pouvons mettre en parall`ele avec les equations normales du mod`ele de regression classique,
= 0.
qui peuvent secrire X u
238
CHAPITRE V.
REDUITE
(REGRESSION
MULTIVARIEE)
= 1U
U
n
Il est facile de verier que les estimateurs:
=
= Y X(X X)1
= 1 (Y [I X(X X)1 X ]Y )
n
satisfont bien a` ces conditions.
En eet, si nous denissons M = [I X(X X)1 X ], nous avons, en utilisant les estimateurs de B et de , la matrice de residus suivante:
= Y X(X X)1 X Y = MY.
= Y Ig + X
U
La matrice M est symetrique et idempotente, et verie M X = O. Il sensuit donc que
X = O et que U
U
= Y MY , ce qui implique bien les conditions de premier ordre.
U
Nous allons maintenant estimer les variances des coecients de regression de la forme
reduite. Nous pouvons ecrire:
= (X X)1 X Y = (X X)1 X (X + V ) = + (X X)1 X V.
`
TROISIEME
PARTIE, CHAPITRE V
239
Par consequent:
) = vec[(X X)1 X V ] = [Ig (X X)1 X ] vec V.
vec(
Si nous supposons, pour simplier largument, que X est non stochastique, la matrice
secrit:
de covariance de vec
de .
= Y MY /n avec M = I X(X X)1 X .
est dordre g et M est
On a vu que
est singuli`ere. Le nombre dobservations doit etre
de rang n k. Donc si n k < g,
superieur a` la somme du nombre de regresseurs par equation et du nombre dequations.
240
et le test de lhypoth`ese:
H0 : = 0
contre H1 : = 0 .
0,
0)
L(
)
L(,
0 )n/2 exp ng
(2)ng/2 (det
=
2
n/2 exp ng
(2)ng/2 (det )
2
n/2
0
det
.
=
det
`
TROISIEME
PARTIE, CHAPITRE V
241
= B
1
et
ont ete calculees par lune des methodes destimation de la forme structurelle
o`
uB
(MCD, MCT, MVIL, ou MVIC), on parle de forme reduite derivee. Si chaque equation est
= ;
mais si tel nest pas le cas,
est potentiellement plus ecace que
juste-identiee,
car il tient compte de plus de restrictions.
242
s
ur aussi servir dans dautres contextes, chaque fois que lon veut faire un test dhypoth`eses
sur une fonction non lineaire de param`etres; une application courante est le test des restrictions de facteurs communs, que nous avons rencontrees au chapitre XV de la seconde
partie.
Th
eor`
eme. Soit un vecteur de param`etres inconnus et soit son estimateur.
Supposons que:
(1)
dlim n( 0 ) N (0, )
g1
1
...
..
.
...
g = ...
gm
1
alors:
g1
k
..
.
gm
k
soit de rang m
=0
Comme exemple, nous allons estimer la variance asymptotique de lun des coecients
de la forme reduite du mod`ele de Haavelmo. Nous avons vu a` la section 1.6 que la premi`ere
equation de cette forme reduite pouvait secrire comme Ct = 11 + 12 It + v1t , avec
11 = a/(1 b). Supposons que a et b aient ete estimes par a
et b, et que leurs variances
2
et leur covariance asymptotiques aient ete estimees par
a ,
b2 , et
ab . Lapplication du
11 = a
/(1 b) donne alors:
theor`eme precedent a`
11 ) =
V (
1
(1 b)2
a2 +
2
a
a
b2 + 2
ab .
(1 b)4
(1 b)3
Exercice. Reprenez lexemple de la section 15.2 de la seconde partie, portant sur les
restrictions de facteurs communs. Comment testeriez-vous lhypoth`ese H0 : 11 +1 01 = 0
contre H1 : 11 + 1 01 = 0?
`
TROISIEME
PARTIE, CHAPITRE VI
243
CHAPITRE VI.
TRIPLES ET DU
COMPARAISON DES MOINDRES CARRES
` INFORMATION COMPLETE
`
MAXIMUM DE VRAISEMBLANCE A
Nous allons montrer dans ce chapitre que les estimateurs MCT et MVIC ont la meme
distribution limite normale, et sont par consequent asymptotiquement equivalents. Lestimateur MCT herite donc des proprietes decacite asymptotique de la methode du maximum de vraisemblance.
En fait, comme nous le verrons, lestimateur MVIC peut etre considere comme un
estimateur par variables instrumentales, mais ces variables sont construites `a laide de la
forme reduite derivee au lieu de letre par la forme reduite directe.
Les developpements de ce chapitre sont dus a` Hausman (An instrumental variable approach to full information estimators for linear and certain nonlinear econometric models,
Econometrica 43, 1975, pp. 727738).
6.1 Reformulation des
equations normales des moindres carr
es triples
Nous avons vu, a` la section 4.4.2, que si lon reunissait les n observations sur les g
equations de la forme structurelle, on pouvait ecrire, en tenant compte des restrictions de
normalisation et dexclusion:
z =T+u
o`
u T etait une matrice diagonale par blocs, avec des blocs diagonaux donnes par les
matrices Ti = ( Yi Xi ) denies `a la section 3.3.1.
Lestimateur MCT pouvait secrire comme:
= (Z T )1 Z z
avec Z = (S 1 PX )T . PX etait egale `a X(X X)1 X et S etait lestimateur de obtenu
en appliquant les moindres carres doubles `a chaque equation separement.
La matrice Z peut etre obtenue en supprimant de la matrice suivante:
Z = (S 1 PX )[Ig ( Y
=S
PX ( Y
X )]
X)
244
(1)
(2)
o`
u:
W = PX ( Y
et o`
u:
X)
= z T .
vec U
B
.
elements non contraints de la matrice
6.2 Reformulation des conditions de premier ordre du
maximum de vraisemblance `
a information compl`
ete
La contribution fondamentale de Hausman a ete de noter que les conditions de premier
ordre du maximum de vraisemblance, que nous avons vues a` la section 4.5.2, pouvaient
secrire sous une forme analogue `a lequation (2) de la section precedente, a` savoir:
U
1 = O(k+g)g
W
ce qui permet la comparaison des deux methodes destimation. Nous allons demontrer ce
resultat.
Tout dabord, la condition de premier ordre sur peut secrire:
(a)
U
1 .
nIg = U
1 .
1 (nIg ) = Y U
B
`
TROISIEME
PARTIE, CHAPITRE VI
245
1 Y U
1 = O
1 U
B
+ X
:
= BY
ce qui implique, puisque U
+ X
)U
1 Y U
1 = O
1 (BY
B
soit aussi, en developpant:
1 X
U
1 + B
U
1 Y U
1 = O
1 BY
B
et en simpliant:
U
1 = O.
1 X
B
(c)
1 = O.
X U
(d)
1 X
B
X
1 = O
U
U
1 = O, avec:
ce qui montre que lon a bien W
= ( X(B
1 )
W
X)
.
6.3 Comparaison des deux nouvelles formulations
La comparaison avec les MCT est alors immediate, si lon note que la matrice W de la
section 6.1 pouvait secrire comme:
W = PX ( Y
X ) = ( PX Y
X ) = ( X
X)
X)
= B
1 .
Pour former les instruments, les MCT utilisent la forme reduite directe,
avec
tandis que le MVIC utilise la forme reduite derivee.
246
PX T1
O
(S 1 In )
..
.
O
avec PX Ti = ( X
i
avec Ti = ( X
i
O
PX T2
..
.
...
...
..
.
O
O
..
.
...
PX Tg
T1
O
1 In ) .
(
.
.
O
T2
..
.
...
...
..
.
...
O
O
..
.
Tg
Xi ).
6.4 Cons
equences
`
TROISIEME
PARTIE, CHAPITRE VII
247
CHAPITRE VII.
METHODES
NUMERIQUES
DE
MAXIMISATION DE LA VRAISEMBLANCE
Pour une excellente presentation de ces methodes, le lecteur pourra consulter larticle
de synth`ese de R. Quandt, Computational problems and methods, dans: Handbook of
Econometrics vol. I (1983), edite par Griliches et Intriligator, pp. 699764. Nous nous
bornerons ici a` parler des methodes les plus courantes.
7.1 M
ethode de Newton-Raphson
Lidee de base de cette methode est de denir une suite dapproximations quadratiques
de la vraisemblance. En maximisant successivement chacune de ces approximations, on
esp`ere converger vers un maximum de la vraisemblance. Lapproximation quadratique `a
literation k se fait autour du maximum de lapproximation utilisee `a literation k 1.
Soit donc un vecteur k 1 de param`etres `a estimer et soit 0 une valeur de . Soit
L() = log L() la vraisemblance logarithmique. Nous ecrivons le gradient de L comme:
L
g() =
ce qui implique:
= 0 H 1 (0 )g(0 ).
La methode de Newton-Raphson est une application recurrente de cette r`egle, `a savoir:
k+1 = k H 1 (k )g(k )
248
7.2 M
ethodes quasi-Newton
La methode precedente a plusieurs limitations. La matrice Hessienne H(k ) peut ne
pas etre denie negative pour certaines valeurs des param`etres. Elle est souvent dicile a`
calculer. Enn, la r`egle de la n de la section precedente implique souvent un deplacement
trop important, surtout lorsque lon est proche du maximum.
Pour ces raisons, il est utile de generaliser cette r`egle. Si lon denit Ak comme une
approximation de H 1 (k ), gk comme g(k ), est dk comme Ak gk , une telle generalisation
est la suivante:
k+1 = k + k dk
o`
u k est un scalaire positif qui maximise la fonction dune seule variable suivante:
F (k ) = L(k + k dk )
Le vecteur dk denit donc la direction dans laquelle on se deplace et k est lamplitude
du deplacement dans la direction dk .
On peut noter que gk dk est la derivee de L(k + k dk ) par rapport a` k . Comme
gk dk = gk Ak gk , cette derivee sera positive si Ak est denie negative. Si Ak est linverse
de la Hessienne et si L est concave, un accroissement marginal de k aura donc pour eet
daugmenter la vraisemblance.
De nombreuses methodes empiriques ont ete proposees pour choisir Ak . Dans les sections
suivantes, nous passerons en revue celle du score et celle de Davidon-Fletcher-Powell, qui
sont parmi les plus employees.
7.3 M
ethode du score
On remplace ici la matrice Hessienne par son esperance, et denit donc:
1
2L
.
Ak = E
=k
Ak est donc lopposee de linverse de la matrice dinformation, que nous avions denie
a` la section 10.10 de la seconde partie comme:
R() = E
2L
=E
L L
`
TROISIEME
PARTIE, CHAPITRE VII
249
1
(k )(k )
L(k + k dk ) L(k )
1 .
k gk dk
L(k + k dk ) L(k )
1
.
=
k gk dk
2
250
Cette solution existe toujours, pour autant que gk dk soit strictement positif et que L
soit bornee superieurement. Il est en eet facile de montrer que:
lim f(k ) 0
k 0